• 沒有找到結果。

線性增加距離權重實驗結果

第四章 實驗與結果

4.1 線性增加距離權重實驗結果

在線性增加距離權重的實驗中,本研究跑了50個迭代,每個 迭代自我對下100場,每場自我對下的 MCTS 模擬次數為300次,

每當最新的模型打敗當前最佳模型,且100場中勝率達到55%時進 行模型更新,新的模型便會成為當前最佳模型。

然而當迭代數結束時,模型並未更新,表示以線性方式增加 權重並未讓類神經網路變得更強,反而削弱了其學習能力。

猜測原因是由於線性權重的關係,使類神經網路在梯度下降

時無法理解等量成長的線性權重。另一項原因則是如圖6所示,

一開始的Z’值只設定為0.5,故類神經網路無法明確知曉哪些走步 是好的或是壞的,導致類神經網路錯亂,為了證實是否是這個因 素,才改變加權方式,進行了下一個實驗。

4.2 指數增加距離權重 Alpha-zero-general 對戰,實驗共計200場,結果如下表1所示。

訓練50迭代 指數增加 原始版本 和局 勝率

比只有3%的勝率,比原始版本的棋力還要差非常多,此方法明顯 無法提升AI 強度。

可能的原因是所加入的距離權重與距離本身無相關,故類神 經網路無法掌握到權重增加與距離有關。因此,下一節開始,實 驗會加入迫著的資訊,測試迫著搜尋是否能讓類神經網路學習效 果更好。

4.3 結合迫著搜尋於距離權重

在結合迫著搜尋於距離權重的實驗中,本研究跑了50個迭代,

每個迭代自我對下50場,每場自我對下的 MCTS模擬次數為300次,

每當最新的模型打敗當前最佳模型,且100場中勝率達到55%時進 行模型更新,新的模型便會成為當前最佳模型。

上述兩小節的實驗成效不彰,猜測原因為兩者皆是以盤面距 離作為加權之故,因此,本節以五子棋勝負之精髓–迫著,作為 標記權重的主要手法。迫著搜尋可以產生迫著與防禦迫著,以此 對自我對下後的盤面資料進行搜尋與權重標記,並觀察類神經網 路是否能學習到設計迫著的能力,進而快速獲得勝利。

本實驗以結合迫著搜尋於距離權重的方法(簡稱迫著權重),

與原版 Alpha-zero-general 對戰,實驗共計200場,結果如下表2所 示。

訓練50迭代 迫著權重 原始版本 和局 勝率

迫著權重 - 12 6%

原始版本 186 - 93%

和局 2 1%

表 2 結合迫著搜尋於距離權重與原始版本之比較

實驗結果顯示,以結合迫著搜尋於距離權重的方法,跟原始 版本相比只有6%的勝率,比原始版本的棋力還要差非常多,此方 法明顯無法提升AI 強度。實驗結果亦顯示,以不同 Z’值的加權方 式並無法增加 AI 學習能力,反而加權後使 AI 更學不會優劣的差 異,故下一節的實驗不再更動 Z 值,但是會繼續嘗試迫著搜尋是 否對類神經網路訓練有正面影響。

4.4 結合迫著搜尋於蒙地卡羅樹搜索法

在結合迫著搜尋於蒙地卡羅樹搜索法的實驗中,本研究跑了 50個迭代,每個迭代自我對下50場,每場自我對下的蒙地卡羅樹 搜索法模擬次數為300次,每當最新的模型打敗當前最佳模型,

且100場中勝率達到55%時進行模型更新,新的模型便會成為當前 最佳模型。

從上面三小節的實驗結果觀察到,無論是距離資訊或是迫著 搜尋的資訊,增加權重的方式對類神經網路的學習顯然是有負面 影響的。因此,本研究將摒棄多元權重的方式,並重新結合迫著 搜尋於蒙地卡羅樹搜索法中,在自我對下的每一個走步中進行迫 著搜尋。

本實驗以結合迫著搜尋於蒙地卡羅樹搜索法的方法(簡稱迫著 搜尋+MCTS),與原版 Alpha-zero-general 對戰,實驗共計200場,

結果如下表3所示。

訓練50迭代 迫著搜尋

+MCTS 原始版本 和局 勝率 迫著搜尋

+MCTS - 114 57%

原始版本 84 - 42%

和局 2 1%

表 3 結合迫著搜尋於蒙地卡羅樹搜索法與原始版本之比較

實驗結果顯示,以結合迫著搜尋於蒙地卡羅樹搜索法的方法,

跟原始版本相比有57%的勝率,比原始版本的棋力還要強,此方 法明顯提升了 AI 強度,證實以迫著搜尋實做 Quick Win 對 AI 獲 勝能力有正面影響。

相關文件