增強式學習是種與環境互動中,不斷的嘗試不同的行動,找尋最佳策略的一種學習方 法。增強式學習通常包含兩個角色,環境(environment)代表需要解決問題的所有外在 因子,而代理人(agent)則負責與環境互動學習,代理人所做出的行動(action)會改變整 體環境的狀態(state),在不同的狀態下代理人會依照獎懲(reward)去做出應對的行動,
在多次學習過程中學習到最佳策略的方法,其流程就如之前所看過的圖五,t代表時間,
當代理人感知到環境(目前狀態)時,選擇不同的動作,動作又會改變環境,並得到獎懲,
進入到下一個時間點,代理人感知到下一時間點狀態,並且選擇動作得到下一時間點的 獎懲。
五、
圖 增強式學習示意圖
增強式學習其實就是模擬生物在學習事物的情形,比如說小孩子剛開始學騎腳踏 車,一開始會不知道怎樣驅動,也不知道傾斜多少度會跌倒,但是每次失敗跌倒後,自 然後吸取教訓,再反覆的練習,跌倒了許多次之後,就知道該如何平衡,也知道如何轉 彎而不會跌倒,藉由過去的經驗不斷的強化自身的能力,就是增強式學習技術的主要精 神。
15
(active) 增強式學習通常可以公式化為馬可決策過程,增強式學習又可以分成主動式 增 強式學習與被動式(passive)增強式學習,其主要的差別在於,被動式增強式學習的代 理人用固定的策略(fixed policy)去學習其效用值(utility value),效用值所代表的意義為 在該狀態下達到目標與其他狀態的相對比較值,通常值越大代表此一狀態離目標越接 近,選擇到此一狀態的機率也越大。主動式學習則是需要不停的探索環境去找到其策 略(Melenchuk,2000)。
LMS(least mean squares)
被動式學習的方法通常分成三種, 、ADP(adaptive dynamic programming)與TD(temporal difference learning)三種,這三種方法中最佳的是TD方法 (Russell and Norvig,2003)。LMS方法為隨機選取行動,再計算到達目標的所有獎懲 值,然後再算出其各個狀態下達到目標的效用值平均數,其缺點為需要非常久的計算 時間(Russell and Norvig,2003) ADP; 方法則是在給定特定估計模式之下,每次行動後 重覆的計算每一個狀態的效用值,但在狀態空間大的情形下會難以計算(Russell and 獎懲值,其主要概念為藉由過去的經驗去調整預期可以到達目標的效用值(Russell and Norvig,2003)。
16
Q-Learning SARSA algorithm
主動式增強式學習最有名的演算法為 與 兩種,兩種演
算法皆是建立在TD方法基礎之上的演算法,藉由試誤與延遲獎懲來不斷的重複計算 Q-value(state-action value) Q-value, 是在某一狀態與行動對(State -Action pairs)到達目標 之相對比較值,Q-value越大代表選擇此一狀態與行動對於達到目標的機會越大,因此 以Q-value大小來決定各個狀態與行動的機率值,讓代理人可以藉由過往經驗選擇目前 環境下最佳的行動。Q-Learning是由Watkins在1989年提出,是一種無策略演算法 (off-policy)的演算法,而其公式如公式二(Sutton and Barto,1998):
)
SARSA是State-Action-Reward-State-Action的縮寫,在1994年的Rummery提出,是 一種有策略性(on-policy)的演算法,其公式如公式三: 的Q-value(Sutton and Barto,1998)。
17
增強式學習的學習方式是去找到每個狀態的最佳行動,因此需要多方嘗試,但是 如果隨機去嘗試,就等同於不去選擇已知的最佳行動,這樣隨機的行為就與基本精神 相違背,因此解決問題與探索新知(exploitation and exploration)就成為增強式學習的 兩難問題,通常會運用ε-greedy演算法來解決,ε-greedy也是greedy演算法的一種,只 是在其過程中會有一定機率利用隨機的方式去探索,這樣不但可以符合找最佳行動的 基本精神,也會試圖的去探索是否有更佳的行動(Bianchi 2007), 。例如,設定另一參數 p=0.5,而代理人在每一次決定行動時,會隨機決定一個 0~1 的變數q,當q>p=0.5 時,
就選擇隨機探索產生行動,反之,當q≤p=0.5 時就從之前經驗算出最佳的行動。
增強式學習已經有許多應用與研究,比較常看到應用在機械的學習與控制,也有一些 研究是應用在遊戲之中,目前應用增強式學習最有名的遊戲為善與惡(Black & White)
Lionhead Studios 2001
這款遊戲,善與惡是由 在 年所研發製作,是一款經營類型的遊
戲,在善與惡這款遊戲中玩家伴演造物者的角色,而玩家可以控制一名神祇生物,此 生物會跟著玩家所做出的不同決定,而改變其行為跟長相,這樣的一個機制受到玩家 的好評,也因此這一款遊戲在2005年推出續作善與惡二代,圖 六 為該遊戲二代之畫 面。
六、
圖 黑與白遊戲畫面
(資料來源: http://lionhead.com/Jobs.aspx)
18