增強式學習 - 應用模糊增強式學習技術於數位遊戲之研究

增強式學習是種與環境互動中，不斷的嘗試不同的行動，找尋最佳策略的一種學習方法。增強式學習通常包含兩個角色，環境(environment)代表需要解決問題的所有外在因子，而代理人(agent)則負責與環境互動學習，代理人所做出的行動(action)會改變整體環境的狀態(state)，在不同的狀態下代理人會依照獎懲(reward)去做出應對的行動，

在多次學習過程中學習到最佳策略的方法，其流程就如之前所看過的圖五，t代表時間，

當代理人感知到環境(目前狀態)時，選擇不同的動作，動作又會改變環境，並得到獎懲，

進入到下一個時間點，代理人感知到下一時間點狀態，並且選擇動作得到下一時間點的獎懲。

五、

圖增強式學習示意圖

增強式學習其實就是模擬生物在學習事物的情形，比如說小孩子剛開始學騎腳踏車，一開始會不知道怎樣驅動，也不知道傾斜多少度會跌倒，但是每次失敗跌倒後，自然後吸取教訓，再反覆的練習，跌倒了許多次之後，就知道該如何平衡，也知道如何轉彎而不會跌倒，藉由過去的經驗不斷的強化自身的能力，就是增強式學習技術的主要精神。

(active) 增強式學習通常可以公式化為馬可決策過程，增強式學習又可以分成主動式增強式學習與被動式(passive)增強式學習，其主要的差別在於，被動式增強式學習的代理人用固定的策略(fixed policy)去學習其效用值(utility value)，效用值所代表的意義為在該狀態下達到目標與其他狀態的相對比較值，通常值越大代表此一狀態離目標越接近，選擇到此一狀態的機率也越大。主動式學習則是需要不停的探索環境去找到其策略(Melenchuk，2000)。

LMS(least mean squares)

被動式學習的方法通常分成三種，、ADP(adaptive dynamic programming)與TD(temporal difference learning)三種，這三種方法中最佳的是TD方法 (Russell and Norvig，2003)。LMS方法為隨機選取行動，再計算到達目標的所有獎懲值，然後再算出其各個狀態下達到目標的效用值平均數，其缺點為需要非常久的計算時間(Russell and Norvig，2003) ADP；方法則是在給定特定估計模式之下，每次行動後重覆的計算每一個狀態的效用值，但在狀態空間大的情形下會難以計算(Russell and 獎懲值，其主要概念為藉由過去的經驗去調整預期可以到達目標的效用值(Russell and Norvig，2003)。

Q-Learning SARSA algorithm

主動式增強式學習最有名的演算法為與兩種，兩種演

算法皆是建立在TD方法基礎之上的演算法，藉由試誤與延遲獎懲來不斷的重複計算 Q-value(state-action value) Q-value，是在某一狀態與行動對(State -Action pairs)到達目標之相對比較值，Q-value越大代表選擇此一狀態與行動對於達到目標的機會越大，因此以Q-value大小來決定各個狀態與行動的機率值，讓代理人可以藉由過往經驗選擇目前環境下最佳的行動。Q-Learning是由Watkins在1989年提出，是一種無策略演算法 (off-policy)的演算法，而其公式如公式二(Sutton and Barto，1998)：

)

SARSA是State-Action-Reward-State-Action的縮寫，在1994年的Rummery提出，是一種有策略性(on-policy)的演算法，其公式如公式三：的Q-value(Sutton and Barto，1998)。

增強式學習的學習方式是去找到每個狀態的最佳行動，因此需要多方嘗試，但是如果隨機去嘗試，就等同於不去選擇已知的最佳行動，這樣隨機的行為就與基本精神相違背，因此解決問題與探索新知(exploitation and exploration)就成為增強式學習的兩難問題，通常會運用ε-greedy演算法來解決，ε-greedy也是greedy演算法的一種，只是在其過程中會有一定機率利用隨機的方式去探索，這樣不但可以符合找最佳行動的基本精神，也會試圖的去探索是否有更佳的行動(Bianchi 2007)，。例如，設定另一參數 p=0.5，而代理人在每一次決定行動時，會隨機決定一個 0~1 的變數q，當q>p=0.5 時，

就選擇隨機探索產生行動，反之，當q≤p=0.5 時就從之前經驗算出最佳的行動。

增強式學習已經有許多應用與研究，比較常看到應用在機械的學習與控制，也有一些研究是應用在遊戲之中，目前應用增強式學習最有名的遊戲為善與惡(Black & White)

Lionhead Studios 2001

這款遊戲，善與惡是由在年所研發製作，是一款經營類型的遊

戲，在善與惡這款遊戲中玩家伴演造物者的角色，而玩家可以控制一名神祇生物，此生物會跟著玩家所做出的不同決定，而改變其行為跟長相，這樣的一個機制受到玩家的好評，也因此這一款遊戲在2005年推出續作善與惡二代，圖六為該遊戲二代之畫面。

六、

圖黑與白遊戲畫面

(資料來源: http://lionhead.com/Jobs.aspx)

在文檔中應用模糊增強式學習技術於數位遊戲之研究 (頁 22-26)