遊戲呈現與遊戲結果 - 應用模糊增強式學習技術於數位遊戲之研究

在實際的遊戲上，本研究利用魔獸爭霸三的編輯器做出一個實際可以玩的遊戲，

魔獸爭霸三為Blizzard公司在2000年所發表製作的遊戲，遊戲中附有遊戲編輯器(world editor，圖十七)來讓玩家自己設計自己想要的關卡，可以發表在遊戲官方伺服器戰網 (Battle net，圖十八)之上，讓所有玩家玩到自己設計的圖，因為其功能非常齊全，因此受到玩家的愛戴，創造出許多小遊戲，如圖如當下很紅的Dota TD、等等小遊戲都是從玩家自行設計進而發表在戰網上面，許多遊戲甚至成為經典且被視為一種新的遊戲類型，如Dota類型遊戲，原是為Defend of the Ancient，是一名歐洲玩家eul所自行設計出的新遊戲類型，玩家分成兩邊陣營控制英雄去攻打對方軍營，該遊戲融合了許多要素，如升級系統、道具系統、技能系統等，擁有龐大的玩家群，雖然在魔獸爭霸資料片時停止更新，但是因此有非常多的玩家按照這樣此類型設計去研發新圖，像是國外的 Dota allstar與Dota chaos，國內的真三國無雙、信長的野望等等，甚至還有遊戲公司專門獨立研發此一類型的遊戲，如League of Lengends(Riot games，2009) 、 Heros of Newerth(S2 games，2010)、與中國自行研發的夢三國(杭州電魂，2010)等等遊戲。

十七、

圖遊戲編輯器

十八、

圖戰網示意圖

根據之前所提的遊戲概念，本研究製作了一個坦克對戰的遊戲如圖十( 九)，在這一遊戲中，玩家可以控制在下方的玩家坦克移動且攻擊，會有NPC坦克從上面出現，

並且會有隨機的牆(圖十四中藍色的橫槓出現來阻擋玩家的攻擊，) NPC坦克會利用模糊增強式學習技術不斷的學習到玩家的攻擊行為，進而利用牆壁來躲開玩家的攻擊，

當NPC坦克往下走到玩家的基地時，玩家將會受到攻擊，並降低生命值，而當玩家成功擊敗NPC坦克時就會提高自身的分數，當玩家生命值降低成零時遊戲就結束，分數最高的玩家就是此一遊戲的贏家。

圖十九、遊戲畫面圖

本實驗讓NPC 坦克具有模糊增強式學習的人工智慧，一開始 NPC 坦克會隨機選擇路線並且紀錄路線到路線資料庫內，當 NPC 坦克被玩家擊敗或是成功走到最底部，就算本回合結束，接著下一回合開始 NPC 坦克會從隨機或是從路線資料庫中選擇出這回合要執行的路線，如果是由隨機選擇路線的話，則會判斷是否是一條新的路線，新的路線就再將這條路線紀錄起來到資料庫內，其流程圖如圖二十。

圖二十、遊戲進行流程圖

在此實驗中，使用ε-greedy 演算法來決定 NPC 是否決定探索新路線，設定的機率為10%，而路線的選擇機制則是利用前導實驗所做出的結果，使用 SARSA 演算法的模糊增強式學習，模糊隸屬函數是使用高斯隸屬函數，參數為c=10、s=5 以及 m=5，每條新產生的路線都會給予路線的選擇值t，其初始值設定為 50，每回合結束後都會做重複運算，此值就會決定路線被選擇出來的機率大小，也就是說當 NPC 坦克在此條路線被擊敗時，就會根據SARSA 演算法去懲罰此條路線，減少 t 值，反之則會增加 t 值。

NPC 坦克會學習到如何利用地型避開玩家的攻擊，因實驗需求，本實驗設定一面牆讓 NPC 坦克必能成功避開攻擊並成功抵達目標，也就是玩家一定會因為生命被扣完而結束遊戲，最後再以玩家所取得的分數來當勝負的判別。遊戲完成之後，再將此遊戲放到戰網上讓玩家下載，在遊戲的過程中可以發現，玩家對於 NPC 坦克會避開攻擊感到很有趣，且為了取得更高分會想盡辦法去擊敗 NPC 坦克，如果想要挑戰不同的難度或玩法，也可以藉著改變牆的位置或是改變增強式學習的獎懲值設定，讓 NPC 坦克可以有不同的表現，玩家因此可以與NPC 坦克鬥智產生樂趣。

在文檔中應用模糊增強式學習技術於數位遊戲之研究 (頁 47-52)