結論與未來工作 - 深度學習用於愛因斯坦棋研發之初步探討

6.1 結論

本研究使用的方法，效果比原本只使用蒙地卡羅演算法的程式差，主要的原因出在對策類神經網路訓練出來的對棋盤盤面走步判斷的準確度不夠高，無法被用來代替規則導向對棋盤盤面做出正確的淺層展枝的動作，連帶使得下棋程式整體的棋力較弱。

第一，在實驗中觀察到的類神經網路的訓練準確度頻繁地浮動，有可能是起因於 Littlegolem 網站前 10 名玩家的棋譜差異性過大所致；換句話說，對稱的棋盤盤面、

骰子點數、顏色，可能因為不同的玩家走法不同，而有所差異。以下有個較為極端的例子，如圖 6-1-1 所示：

圖 6-1-1 棋盤盤面棋型對稱範例

若現在為紅方的回合，移動子為紅色 5，在這種情況下，正常的下棋程式判斷絕對

不會走右下這一個必輸的壞棋，因此下棋程式會從右或下擇其一，且不管選擇哪一者，

直觀來看是等價的。我們在做 training data 及特徵盤面的擷取的時候，並沒有做這一部份的處理，將類似這種對稱的棋盤盤面棋型視為同一種，是影響類神經網路訓練準確率的重要因素之一。

第二，由於本研究的 training data 數量只有約 25 萬筆，撇除其中可能重複的數量，以愛因斯坦棋的遊戲複雜度約 10¹⁵來看，是非常不足的；再加上 training data 沒有做敵我鏡像處理，如圖 6-1-2 所示，使 training data 的數量更加不足。

圖 6-1-2 棋盤盤面敵我鏡像

第三，特徵擷取、其表示方法和類神經網路的結構不適合，由實驗的結果可以發現：

當特徵盤面只有 1 特徵盤面(紀錄棋盤狀態及當回合可動子)的時候，效果是最佳的，

此現象造成的原因很多，我們推測是 sim 的 2 特徵盤面設計不佳及類神經網路無法學到我們想要的知識。

最後，較底層蒙地卡羅演算法的模擬效果不佳，以圖 4-6 的程式架構來看，此作法無法有效地減少模擬廣度，再加上淺層類神經網路展枝的精準度不佳，導致程式的整體棋力較原本弱。

6.2 TAAI 2016 比賽概況

Rank Program name operator Organization

1 Meowdero 謝昌龍臺灣師範大學

6.3 ICGA 2017 比賽概況

表 6-3 2017 ICGA 比賽成績表

表 6-3 為 2017 年 ICGA 的比賽成績表，此次比賽參加的程式為新的版本，由於類神經網路的對盤面走步的判斷準確度只有三至四成、程式架構無法有效地減少模擬廣度及程式速度較慢、蒙地卡羅模擬次數不足等原因，影響程式整體的棋力表現，因此此次比賽排名第五。

6.4 未來工作

未來可繼續努力的方向如下：繼續蒐集更多的 training data，並對其做對稱性等價處理及敵我鏡像處理，增加 training data 的變化性、減少重複的機率。改善 training data 前處理的表示方法、調整類神經網路的架構，找出提升訓練準確率的方法。使用類神經網路作為 MCTS 模擬時 prior knowledge，以彌補模擬次數不足的問題，

加入 UCB 作為選擇模擬分枝的依據，讓有潛力的節點能夠得到模擬的機會。

參考文獻

[1] 李占宇、李淑琴、顧磊、史玉峰、周文敏，"愛恩斯坦棋演算法設計與分析"，信息技術與信息化，第 1 期，2014。

[2] 謝昌龍、林順喜，"電腦愛因斯坦棋自動對弈平台的設計與開發"，Proceedings of TCGA 2016，pages 21–27，2016。

[3] 楊君亮、許庭嫣、林立秦，"愛因斯坦棋的電腦棋類程式設計"，Proceedings of TCGA 2017，pages 96-106，2017。

[4] 朱詠嘉、陳源灝，"愛因斯坦棋人工智慧"，Proceedings of TCGA 2017，pages 85-95，

2017。

[5] R. J. Lorentz. ,"An MCTS program to Play EinStein Würfelt!", In Proceedings of the 12th International Conference on Advances in Computer Games, pages 52–59, 2011.

[6] David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc

Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel &

Demis Hassabis, “Mastering the game of Go with deep neural network and tree search”, NATURE Vol.529, JAN 2016, pp. 484-503.

[7] 愛因斯坦棋介紹，http://www.3-hirn-verlag.de/MasterGame/regel.html。

[8] 維基百科：蒙地卡羅法，

https://zh.wikipedia.org/wiki/%E8%92%99%E5%9C%B0%E5%8D%A1%E7%BE%85

%E6%96%B9%E6%B3%95。

[9] TensorFlow MNIST For ML Beginners，

https://www.tensorflow.org/get_started/mnist/beginners。

[10] 維基百科：TensorFlow，https://zh.wikipedia.org/wiki/TensorFlow。

[11] TAAI 2016 官方網站比賽成績，http://www.cs.nthu.edu.tw/~taai2016/。

在文檔中深度學習用於愛因斯坦棋研發之初步探討 (頁 45-51)