• 沒有找到結果。

第四章 實驗結果與分析

4.4 比較文獻

我們將與 Piotrowski 和 Mittenentzwei [29] 的爐石 AI 做比較,因為他們使用 爐石戰記的領域知識 [30] 來製作爐石 AI,也在 2018 年 的 CIG 爐石比賽 [22] 中 獲得第 10 名的成績。此外,這個 AI 的類型與本論文產生的 AI 較類似,都是讓 AI 根據某種策略 (rule-based) 出牌,差別在於本論文 AI 使用的策略是使用基因規 劃法自動演化而來的。

而 Heimbrodt 的爐石 AI [29] 使用動態前瞻 (dynamic lookahead) 策略獲得了 COG 2019 爐石比賽 [22] 第 1 名的成績,也將作為我們的比較對象。此策略是透 過廣度優先搜尋法 (BFS) 展開本回合可做的動作序列,以及使用啟發式方法 (heuristics) 調整評分函式的參數,AI 的類型與 MCTS 較為相似。

4.5 實驗結果與分析

4.5.1 適應值近似法之閥值比較

在本論文中,適應值近似法的閥值代表染色體之間相似度的最低可接受值,

若相似度太低,將降低使用適應值近似法的準確度,影響勝率。本實驗將使用 基因規劃法在不同閥值下產生之最佳染色體與 Heimbrodt 的爐石 AI 對戰 100 場,

雙方的牌組類型皆為快攻。

表 4 - 3:適應值近似法之閥值比較

閥值 0.1 0.3 0.5 0.7 0.9

時間(小時) 12.62 12.84 14.85 15.35 18.54

勝率(%) 19% 21% 34% 35% 37%

根據表 4 - 3 可發現隨著閥值增加,使用近似法計算適應值的染色體較少,

實驗時間愈長,勝率也愈高。我們希望能找到一個閥值範圍是時間跟勝率都可 以被接受的,即在時間跟勝率之間取得平衡。最終我們選擇了 0.7 作為最佳閥值,

雖然勝率比閥值 0.9 低了 2%,但卻可省下 3 小時左右的實驗時間。

4.5.2 基因規劃法產生之爐石戰記策略之效能評估

在本小節中,將透過實驗來說明本論文產生之爐石戰記 AI 的效能。我們使 用 0.7 閥值跑了 20 次實驗後,選出勝率最高的染色體作為本實驗的出牌策略,

並與Piotrowski 和 Mittenentzwei (P&M) 的貪婪策略 AI 以及 Heimbrodt 的動態前 瞻策略AI 對戰,使用三種類型的牌組分別對戰 100 場,如表 4 - 4 與表 4 - 5。其 中,上方數字代表基因規劃法AI 先手勝率,下方代表後手勝率。

表 4 - 4:基因規劃法 AI vs. P&M AI Heimbrodt AI

快攻 中速 控制

此外,基因規劃法 AI 在使用控制類型牌組時勝率不太穩定,而在使用快攻

MCTS (random)

快攻

表 4 - 7:MCTS (random) vs. Heimbrodt AI Heimbrodt AI

快攻 中速 控制

MCTS (random)

快攻 26% 17% 23%

表 4 - 8:MCTS (GP) vs. P&M AI Heimbrodt AI

快攻 中速 控制 類型牌組表現較差的缺點。在先手對上 Piotrowski 和 Mittenentzwei 的貪婪策略 AI 時,平均勝率約為 76% ,後手約為 61%;而先手對上 Heimbrodt 的動態前瞻策 略 AI 時,平均勝率可達 41% ,後手約為 33%。

透過 MCTS 的 模擬以及展開遊戲樹後,讓基因規劃法 AI 不會只考慮到這一 手動作後的盤面局勢,而是可以看得更遠,甚至考慮到對手可能的出牌方式,

讓基因規劃法的效能再往上提升。由於 COG 2020 爐石比賽的每回合 30 秒時間 限制,MCTS 的迭代次數與模擬次數也受到一定的限制,在迭代與模擬次數充足 的條件下 [23],我們預測 MCTS 的效能將會再往上提升。

觀察表 4 - 6 、表 4 - 7、表 4 - 8 與表 4 - 9,我們可以發現模擬策略對 MCTS 效能的影響程度非常大,使用本論文產生的模擬策略後,可讓使用隨機模擬策 略的 MCTS 勝率上升約 20%,原因是透過性能較好的 AI 作為模擬策略,可以產 生更精準的模擬結果。

相關文件