線性增加距離權重實驗結果

第四章實驗與結果

4.1 線性增加距離權重實驗結果

在線性增加距離權重的實驗中，本研究跑了50個迭代，每個迭代自我對下100場，每場自我對下的 MCTS 模擬次數為300次，

每當最新的模型打敗當前最佳模型，且100場中勝率達到55%時進行模型更新，新的模型便會成為當前最佳模型。

然而當迭代數結束時，模型並未更新，表示以線性方式增加權重並未讓類神經網路變得更強，反而削弱了其學習能力。

猜測原因是由於線性權重的關係，使類神經網路在梯度下降

時無法理解等量成長的線性權重。另一項原因則是如圖6所示，

一開始的Z’值只設定為0.5，故類神經網路無法明確知曉哪些走步是好的或是壞的，導致類神經網路錯亂，為了證實是否是這個因素，才改變加權方式，進行了下一個實驗。

4.2 指數增加距離權重 Alpha-zero-general 對戰，實驗共計200場，結果如下表1所示。

訓練50迭代指數增加原始版本和局勝率

比只有3%的勝率，比原始版本的棋力還要差非常多，此方法明顯無法提升AI 強度。

可能的原因是所加入的距離權重與距離本身無相關，故類神經網路無法掌握到權重增加與距離有關。因此，下一節開始，實驗會加入迫著的資訊，測試迫著搜尋是否能讓類神經網路學習效果更好。

4.3 結合迫著搜尋於距離權重

在結合迫著搜尋於距離權重的實驗中，本研究跑了50個迭代，

每個迭代自我對下50場，每場自我對下的 MCTS模擬次數為300次，

每當最新的模型打敗當前最佳模型，且100場中勝率達到55%時進行模型更新，新的模型便會成為當前最佳模型。

上述兩小節的實驗成效不彰，猜測原因為兩者皆是以盤面距離作為加權之故，因此，本節以五子棋勝負之精髓–迫著，作為標記權重的主要手法。迫著搜尋可以產生迫著與防禦迫著，以此對自我對下後的盤面資料進行搜尋與權重標記，並觀察類神經網路是否能學習到設計迫著的能力，進而快速獲得勝利。

本實驗以結合迫著搜尋於距離權重的方法(簡稱迫著權重)，

與原版 Alpha-zero-general 對戰，實驗共計200場，結果如下表2所示。

訓練50迭代迫著權重原始版本和局勝率

迫著權重 - 12 6%

原始版本 186 - 93%

和局 2 1%

表 2 結合迫著搜尋於距離權重與原始版本之比較

實驗結果顯示，以結合迫著搜尋於距離權重的方法，跟原始版本相比只有6%的勝率，比原始版本的棋力還要差非常多，此方法明顯無法提升AI 強度。實驗結果亦顯示，以不同 Z’值的加權方式並無法增加 AI 學習能力，反而加權後使 AI 更學不會優劣的差異，故下一節的實驗不再更動 Z 值，但是會繼續嘗試迫著搜尋是否對類神經網路訓練有正面影響。

4.4 結合迫著搜尋於蒙地卡羅樹搜索法

在結合迫著搜尋於蒙地卡羅樹搜索法的實驗中，本研究跑了 50個迭代，每個迭代自我對下50場，每場自我對下的蒙地卡羅樹搜索法模擬次數為300次，每當最新的模型打敗當前最佳模型，

且100場中勝率達到55%時進行模型更新，新的模型便會成為當前最佳模型。

從上面三小節的實驗結果觀察到，無論是距離資訊或是迫著搜尋的資訊，增加權重的方式對類神經網路的學習顯然是有負面影響的。因此，本研究將摒棄多元權重的方式，並重新結合迫著搜尋於蒙地卡羅樹搜索法中，在自我對下的每一個走步中進行迫著搜尋。

本實驗以結合迫著搜尋於蒙地卡羅樹搜索法的方法(簡稱迫著搜尋+MCTS)，與原版 Alpha-zero-general 對戰，實驗共計200場，

結果如下表3所示。

訓練50迭代迫著搜尋

+MCTS 原始版本和局勝率迫著搜尋

+MCTS - 114 57%

原始版本 84 - 42%

和局 2 1%

表 3 結合迫著搜尋於蒙地卡羅樹搜索法與原始版本之比較

實驗結果顯示，以結合迫著搜尋於蒙地卡羅樹搜索法的方法，

跟原始版本相比有57%的勝率，比原始版本的棋力還要強，此方法明顯提升了 AI 強度，證實以迫著搜尋實做 Quick Win 對 AI 獲勝能力有正面影響。

在文檔中 AlphaZero演算法結合快贏策略或迫著空間實現於五子棋 (頁 44-52)

第四章 實驗與結果

4.1 線性增加距離權重實驗結果

第四章實驗與結果