緒論 - 深度學習用於愛因斯坦棋研發之初步探討

愛因斯坦棋相較於其他棋類遊戲較小的 5x5 的棋盤、較少的最大棋子數，表面上看起來會讓人以為是個複雜度沒有那麼高的棋類遊戲。但是，有一條特別的遊戲規則：

擲骰子決定當回合可移動的棋子。

如何讓己方的走步選擇受骰子影響度降低、提高己方棋子整體走步靈活度，同時防止敵方走步受骰子影響度降低、限制敵方棋子整體走步靈活度提升幅度，將會是在棋局獲勝的重要關鍵。不過，此種戰術是一把雙面刃，有可能會發生敵眾我寡的盤面，

這時若敵方採取殲滅我方棋子、一換一的策略，我方將陷於不利。因此，必須適當地、

謹慎地控制敵我的棋子數量比、對盤面情勢的掌控、敵我分佈和敵我棋子間的間距，

才能有效地發揮此戰術的優勢。

因為其特殊的骰子決定移動子的規則以及吃子、缺子情況對盤面情勢的影響，遊戲樹搜尋法若是以當前盤面情況規則評分和各個棋子走步的期望值作為判斷依據的話，

我們很難窮舉出所有可能，並且給予最佳的評分組合。

此外，骰子點數對愛因斯坦棋盤面走勢影響甚鉅，這也導致程式常常會選擇勝率較大的走步，而忽略了勝率小卻能扳回劣勢的險棋。

3 步，改善了訓練類神經網路耗費時間過長的缺點，尤其是 GPU(Graphics Processing Unit)的出現，其在平行運算和單精度浮點數的運算上，較 CPU 具優勢，更加速了類神經網路的訓練效率。

近十年來，類神經網路逐漸在高科技產業中的人工智慧領域受到了重視，不過還尚未能夠吸引大眾的目光。直到 2016 年，人工智慧在許多領域達到了非常優異的成果，

才受到眾人的矚目，如：IBM 的 AI Watson 正確診斷出「繼發性白血病」而救人一命、

LipNet 唇語辨識率高達 93.4%已比人類一般專家的 52.3%高出許多、AlphaGO 以五戰四勝的成績贏過圍棋九段職業棋士李世石且於網路圍棋平台上完勝了眾多人類九段圍棋高手共 60 局、Libratus 與四位德州撲克世界頂尖高手對戰獲勝等。

因為人工智慧已經在許多領域有了非常好的成果，在解決一些問題的用途上異常強大，世界各國、許多人紛紛投入人工智慧的研究，而在人工智慧這個領域上扮演重

要角色之一的類神經網路更是如此。

1.3 TensorFlow

TensorFlow[8]是由其前身 DistBelief 演變而來。2011 年，Google Brain 建立 DistBelief 作為他們專有的第一代機器學習系統，其被用於建構深度類神經網路，被廣泛地應用於 Google 的各種服務中，例如：Google 搜索引擎、Google 語音搜索、推薦廣告等。

後來，DistBelief 由數學家 Geoffrey Hinton、Jeff Dean 簡化並重構，形成了一個更迅速、更強力的函式庫，即為 TensorFlow。

TensorFlow 作為一種開源的類神經網路開發模組，高階的部分以 python 構成，

API 內的函式名稱較接近自然語言，方便使用者使用且增加開發效率。不過，在較底層的部分則是以 C 語言構成，以提高類神經網路的訓練效率。

TensorFlow 的優點是它是以「堆積木」的形式，讓使用者可以自由尋找所需要的零件，以自己資料的輸入輸出型態、輸入資料的特徵形式來設定欲構成的類神經網路形狀，再透過方便的 run 函式，即可開始訓練設計好的類神經網路，讓使用者跳過較底層的神經元鏈結的構成部份，增進開發效率。

此外，TensorFlow 亦支援 GPU，在訓練深度類神經網路的過程中，優化了大量調整參數(權重)的部分，其訓練效率是 CPU 的數倍。

1.4 監督式學習與增強式學習

在機器學習的多年演進下來，前人們發明了許多種方法，每種方法的使用條件、環境都不盡相同，在本研究中將會使用監督式學習與增強式學習兩種方法。

監督式學習，可視為數學上的迴歸分析或者是統計分析，簡而言之，對輸入的事物以給定的標準做分類。在學習、訓練的時候，我們必須給予欲訓練的對象多組輸入資料和相對應的標準答案。

增強式學習，輸入的所有資料都會對輸出結果產生影響，與監督式學習不同的是在此不給予欲訓練的對象標準答案，而是對其定義什麼是好的影響、擁有較高的效益。

此方法被視為一種習慣性、適應性方法。此方法在很多地方被應用，被用來解決需要適應性的問題，以最為人所知的應用之一的掃地機器人為例，此種機器人最初只被賦予基本知識，如遇到障礙物要避開、牆壁要轉向等。由於每個使用者的住屋內配置都不盡相同，因此無法事先訓練如何以最短路徑打掃地板、計算回去充電的時間等，必須利用增強式學習的方式來「適應」使用者住屋的環境，以達到較大的效益。

在文檔中深度學習用於愛因斯坦棋研發之初步探討 (頁 8-14)