第四章 實驗與結果
4.1 線性增加距離權重實驗結果
在線性增加距離權重的實驗中,本研究跑了50個迭代,每個 迭代自我對下100場,每場自我對下的 MCTS 模擬次數為300次,
每當最新的模型打敗當前最佳模型,且100場中勝率達到55%時進 行模型更新,新的模型便會成為當前最佳模型。
然而當迭代數結束時,模型並未更新,表示以線性方式增加 權重並未讓類神經網路變得更強,反而削弱了其學習能力。
猜測原因是由於線性權重的關係,使類神經網路在梯度下降
時無法理解等量成長的線性權重。另一項原因則是如圖6所示,
一開始的Z’值只設定為0.5,故類神經網路無法明確知曉哪些走步 是好的或是壞的,導致類神經網路錯亂,為了證實是否是這個因 素,才改變加權方式,進行了下一個實驗。
4.2 指數增加距離權重 Alpha-zero-general 對戰,實驗共計200場,結果如下表1所示。
訓練50迭代 指數增加 原始版本 和局 勝率
比只有3%的勝率,比原始版本的棋力還要差非常多,此方法明顯 無法提升AI 強度。
可能的原因是所加入的距離權重與距離本身無相關,故類神 經網路無法掌握到權重增加與距離有關。因此,下一節開始,實 驗會加入迫著的資訊,測試迫著搜尋是否能讓類神經網路學習效 果更好。
4.3 結合迫著搜尋於距離權重
在結合迫著搜尋於距離權重的實驗中,本研究跑了50個迭代,
每個迭代自我對下50場,每場自我對下的 MCTS模擬次數為300次,
每當最新的模型打敗當前最佳模型,且100場中勝率達到55%時進 行模型更新,新的模型便會成為當前最佳模型。
上述兩小節的實驗成效不彰,猜測原因為兩者皆是以盤面距 離作為加權之故,因此,本節以五子棋勝負之精髓–迫著,作為 標記權重的主要手法。迫著搜尋可以產生迫著與防禦迫著,以此 對自我對下後的盤面資料進行搜尋與權重標記,並觀察類神經網 路是否能學習到設計迫著的能力,進而快速獲得勝利。
本實驗以結合迫著搜尋於距離權重的方法(簡稱迫著權重),
與原版 Alpha-zero-general 對戰,實驗共計200場,結果如下表2所 示。
訓練50迭代 迫著權重 原始版本 和局 勝率
迫著權重 - 12 6%
原始版本 186 - 93%
和局 2 1%
表 2 結合迫著搜尋於距離權重與原始版本之比較
實驗結果顯示,以結合迫著搜尋於距離權重的方法,跟原始 版本相比只有6%的勝率,比原始版本的棋力還要差非常多,此方 法明顯無法提升AI 強度。實驗結果亦顯示,以不同 Z’值的加權方 式並無法增加 AI 學習能力,反而加權後使 AI 更學不會優劣的差 異,故下一節的實驗不再更動 Z 值,但是會繼續嘗試迫著搜尋是 否對類神經網路訓練有正面影響。
4.4 結合迫著搜尋於蒙地卡羅樹搜索法
在結合迫著搜尋於蒙地卡羅樹搜索法的實驗中,本研究跑了 50個迭代,每個迭代自我對下50場,每場自我對下的蒙地卡羅樹 搜索法模擬次數為300次,每當最新的模型打敗當前最佳模型,
且100場中勝率達到55%時進行模型更新,新的模型便會成為當前 最佳模型。
從上面三小節的實驗結果觀察到,無論是距離資訊或是迫著 搜尋的資訊,增加權重的方式對類神經網路的學習顯然是有負面 影響的。因此,本研究將摒棄多元權重的方式,並重新結合迫著 搜尋於蒙地卡羅樹搜索法中,在自我對下的每一個走步中進行迫 著搜尋。
本實驗以結合迫著搜尋於蒙地卡羅樹搜索法的方法(簡稱迫著 搜尋+MCTS),與原版 Alpha-zero-general 對戰,實驗共計200場,
結果如下表3所示。
訓練50迭代 迫著搜尋
+MCTS 原始版本 和局 勝率 迫著搜尋
+MCTS - 114 57%
原始版本 84 - 42%
和局 2 1%
表 3 結合迫著搜尋於蒙地卡羅樹搜索法與原始版本之比較
實驗結果顯示,以結合迫著搜尋於蒙地卡羅樹搜索法的方法,
跟原始版本相比有57%的勝率,比原始版本的棋力還要強,此方 法明顯提升了 AI 強度,證實以迫著搜尋實做 Quick Win 對 AI 獲 勝能力有正面影響。