SRLM 演算法

第五章自組織增強式學習模型

5.2 SRLM 演算法

𝑄(𝑠_𝑡, 𝑎_𝑡) ← 𝑄(𝑠_𝑡, 𝑎_𝑡) + 𝛼 ∗ 𝜂(𝑡) ∗ [𝑟_𝑡+ 𝛾 𝑚𝑎𝑥

𝑎 𝑄(𝑠_𝑡+1, 𝑎) − 𝑄(𝑠_𝑡, 𝑎_𝑡)]

在上面的式子中，𝛼 是學習速率因子，𝑟_𝑡 是在步驟 𝑡 下所得到的獎懲值；𝛾 是折扣率（discount factor）。 𝜂(𝑡) 所代表的即是兩個 SOM 的相鄰函式乘積，

我們稱它為 Q-neighborhood，同樣也是一個隨著時間遞減的函式。我們將此修改後的 Q-learning 稱為 Neighborhood Q-learning。

7. 從環境中取得新狀態向量 𝐼^′。

8. 以向量 𝐼 更新輸入層 SOM（以一般的 SOM 方法）：

𝑤_𝑚1 ← 𝑤_𝑚1+ 𝜆_𝑆∗ 𝜓_𝑆(𝑗, 𝑚, 𝑁_𝑆)(𝐼₁− 𝑤_𝑚1) 𝑤_𝑚2 ← 𝑤_𝑚2+ 𝜆_𝑆∗ 𝜓_𝑆(𝑗, 𝑚, 𝑁_𝑆)(𝐼₂− 𝑤_𝑚2) For all state units, 𝑚.

9. 將新狀態向量 𝐼^′ 放入輸入層 SOM 取得 𝑠_𝑗^′。 10. 挑選下一個新狀態的預期動作：

𝑎_𝑘^′ = {One with best Q-value for state, 𝑠_𝑗^′ with probability 1 − 𝑝 Random action with probability 𝑝

11. 如果 𝑟 + 𝛾𝑄(𝑠_𝑗^′, 𝑎_𝑘^′) > 𝑄(𝑠_𝑗, 𝑎_𝑘) 就表示擾動動作優於建議動作，所以可以朝著擾動動作向量來更新行動層：

𝑢_𝑛1← 𝑢_𝑛1+ 𝜆_𝐴∗ 𝜓_𝐴(𝑘, 𝑛, 𝑁_𝐴)(𝑢_𝑘1^′ − 𝑢_𝑛1) 𝑢_𝑛2← 𝑢_𝑛2+ 𝜆_𝐴∗ 𝜓_𝐴(𝑘, 𝑛, 𝑁_𝐴)(𝑢_𝑘2^′ − 𝑢_𝑛2) For all action units, 𝑚.

12. 更新所有的 Q-value，採用 SARA Q-learning 方式，使用 Neighborhood Q-learning 方法：

𝑄(𝑠_𝑚, 𝑎_𝑛) ← 𝑄(𝑠_𝑚, 𝑎_𝑛) + 𝛼 ∗ 𝜓_𝑆(𝑗, 𝑚, 𝑁_𝑆) ∗ 𝜓_𝐴(𝑘, 𝑛, 𝑁_𝐴)

∗ [𝑟 + 𝛾𝑄(𝑠_𝑗^′, 𝑎_𝑘^′) − 𝑄(𝑠_𝑚, 𝑎_𝑛)]

For all states units 𝑚, and actions units 𝑛.

13. 將 𝑠_𝑗^′ 與 𝑎_𝑘^′ 做為下一步訓練要用的 𝑠_𝑗 與 𝑎_𝑘 ，回到步驟 3。

在上面的演算法裡面，𝑢_𝑘𝑖 指的是行動層 SOM 裡第 𝑘 個單元的第 𝑖 個權重，同樣地，𝑤_𝑚𝑖 則是輸入層 SOM 的權重。𝑟𝑎𝑛𝑑𝑜𝑚(−1,1) 從 [-1,1] 的範圍間產生擾動動作的隨機雜訊（也可以使用 Gaussian noise），𝜀 則作為探索行動空間的控制量。𝑠_𝑗^′ 是接著 𝑠_𝑗 之後會出現的狀態，𝑎_𝑘^′ 是在 𝑠_𝑗^′ 下挑選的一個預期的行動，每一次的輸入向量訓練後所產生的新狀態 𝑠_𝑗^′ 與預期行動 𝑎_𝑘^′ 都會變成下一步訓練要用的 𝑠_𝑗 與 𝑎_𝑘。

採用 SARSA 方式，依照下一步會選擇的行動，求出下一步可能會預期到的 Q-value 值 𝑄(𝑠_𝑗^′, 𝑎_𝑘^′) 來對整個一連串的行動過程優化，如果學習過程已經到了末期，沒有再進行探索的必要，那麼就會使用最大化函式來取得該值（即一般正常的 Q-learning 方法）：

𝑄(𝑠_𝑗^′, 𝑎_𝑘^′) ← 𝑚𝑎𝑥

𝑎 𝑄(𝑠_𝑗^′, 𝑎)

。

𝜆_A 是行動層的學習速率，𝜆_𝑆 則是輸入層的學習速率，𝛼 是 Q-learning 的學習速率。𝜓_𝑆(𝑗, 𝑚, 𝑁_𝑆) 是輸入層的勝出神經元 𝑗 在符合相近範圍

（neighborhood size） 𝑁_𝑆 裡的相近單元 𝑚 所具有的 neighborhood value，𝜓_𝐴 則是屬於行動層的 neighborhood value。

一種簡單的線性相鄰函式可以像：

𝜓_𝑆 (𝑗, 𝑚, 𝑁_𝑆 ) = max (0, 1 − [𝑑/(𝑁_𝑆+ 1)])

在上式中，𝑑 是指神經元 𝑗 與 𝑚 之間的拓撲距離。一般 𝑁_𝑆 會是一個整數，例如 3；而 𝑑 則常見的是使用如上一章節所說的方盒距離來測量拓撲距離，所以此例如果 𝑑 = 5，那麼表示該神經元並不是勝出神經元的相近單元，所以其 neighborhood value 就會是 0，而不會對神經元進行更新。

學習速率 𝛼、𝜆_A、𝜆_S 與相近範圍 𝑁_𝑆、𝑁_𝐴 的設定會關係到系統的適應能力，而 𝑝 與 𝜀 則控制系統的探索能力，在 𝑝 的機率下會採取隨機的行動，𝜀 控制行動層最大的探索距離。這些參數值都必須靠經驗和經過學習的鍛練來取得。

在圖 14 中，將環境裡的動態狀態表示為輸入層 SOM 裡的神經元，行動層 SOM 的神經元表示可作用在學習中的動態行動。輸入層接收到原始狀態訊息後將狀態轉為離散的 Q-table 狀態索引值，然後挑選動作。行動層將動作加入雜訊後輸出，取得獎懲值。依照擾動動作的獎懲來決定行動層 SOM 是否要進行學習，其它輸入層 SOM 與 Q-table 則依照一般的方式更新。另外要注意訓練過程是連續步驟的，而不是分別先對 SOM 或 Q-table 做個別的訓練。

圖 14：自組織增強式學習模型演算法流程 Outputs

Input SOM

Action SOM

Q-table Q-value

Add Noise Reward

Learn?

Inputs

在文檔中類神經網路自組織增強式學習模型 (頁 48-53)

第五章 自組織增強式學習模型

5.2 SRLM 演算法

第五章自組織增強式學習模型