二維軌跡取物實驗

第五章自組織增強式學習模型

5.3 二維軌跡取物實驗

只要回饋的獎懲值越大，就表示手臂末端越接近目標，因此本實驗的任務就是代理人必須學習如何將目標位置轉化對映為手臂的角度，如同獼猴的 F5 區如何控制手臂來抓握住物體；如圖 16，要注意的是這項學習並不是監督式學習，因為回饋訊號不會直接提供代理人實際的解題方案，它只會提供距離（不包含方向）的簡單訊息。

圖 16：代理人的任務是學習如何從回饋訊息中將目標位置轉化為手臂角度

輸入層與行動層的 SOM 均為一維且有 50 個神經元數量，其它詳細的參數如表 2。參數的設置依照經驗來產生，所有的 Q-value 初始值為 0，行動層 SOM 的權重初始值為隨機的從 [−𝜋, 𝜋] 之間取得，（輸入層 SOM 則是 [0,1]）。

鍛煉機制（也稱退火機制，annealing schedule）用一般常見的方法，初期會有比較大的相近範圍（neighborhood size）與學習速率，之後隨著時間步驟遞減。由於輸出的行動不會影響環境產生新的狀態，所以 𝛾 值為 0。

在訓練了 50000 個步驟後，實驗結果的平均獎懲值（Average Rewards，

即取每個狀態下最大 Q-value 加總後的平均值）從圖 17 中可以看出在超過 20000 步後，平均的距離已經縮短到約 0.03 單位，到最後 50000 步時的平均距離約為 0.023 單位。學習的效率取決於探索與學習速率的鍛煉速度（或稱

Agent Goal position

Arm angles Error signal

(-dist.)

退火速度）；比較快的鍛煉速度，會使得曲線的振盪程度較低，曲線也會比較平滑，但必須兼顧到學習過程中需具有足夠的探索過程來搜尋適合的行動空間，否則會導致學習結果無法達到平均效能，甚至使得訓練失敗；若太慢，

則又容易過度地探索，而一直呈現振盪的現象。如圖 18，在該次的訓練中，

因為退火速度太快，而使得訓練結果沒有完成正確的 SOM 網路。探究可能的原因，除了初始的隨機值可能存在不利的條件，另外一個就是因為探索與適應過程的退火速度太快，使得系統無法完成適當的 Q-table 與 SOM 網路。

表 2：二維軌跡模擬參數設定表

參數值

Input map size 50 × 1 units Action map size 50 × 1 units Input map neighborhood size, 𝑁_𝑆 10 × 𝑓(𝑡) Action map neighborhood size, 𝑁_𝐴 10 × 𝑓(𝑡) Q-learning rate, α 𝑓(𝑡) Discount factor, 𝛾 0 Learning rate of input map, 𝜆_𝑆 𝑓(𝑡) Learning rate of action map, 𝜆_𝐴 𝑓(𝑡) Probability of Q-learning exploration, 𝑝 𝑓(𝑡) Max. exploration distance around action unit, 𝜀 𝑓(𝑡)

Annealing schedule, 𝑓(𝑡) 1 (⁄ ₁₀₀₀^𝑡 + 1)

圖 17：經過 50000 個步驟後的學習曲線，太快的退火速度會使得學習效能不佳

圖 18：太快的退火速度會使得結果不如預期，左圖為行動層 SOM，將每個單元輸出後得到右邊手臂的軌跡

圖 19 與圖 20 顯示在經過訓練後的輸入層與行動層的 SOM 網路圖。圖 20 依照神經元的拓撲排列順序來著色，每個角度都會被正規化到 [0,1] 的範圍之間。圖 19 的著色是依照每個神經元在 Q-table 中所具有的最高 Q-value

𝜃₁ 𝜃₂

𝑥 𝑦

輸出軌跡

值，挑選對映到的行動層 SOM 顏色來著色，也就是輸入層單元會選擇相同顏色的行動層單元來輸出最佳的行動。

圖 19：訓練完成後的輸入層 SOM，顏色對映到行動層 SOM

圖 20：訓練完成後的行動層 SOM，依照神經元的拓撲順序著色；右圖為輸出後的手臂軌跡

𝑦

𝑥

𝜃₁ 𝜃₂

輸出軌跡 𝑦

𝑥

從圖 19 圖 20 可以看到相鄰函式（neighborhood function）不僅保留了拓撲的訊息，在 Q-table 也可以見到，如圖 21，相鄰的輸入狀態單元其最高的 Q-value 也會相近，因此可以互相共享 Q-value，讓相似行動也具有相似的價值觀。

圖 21：Q-table 的 Q-value 等高線表示圖，每一格代表一個 Q-value 值

在另外一個二十個關節的機械手臂實驗中[1]，也具有保存拓撲的能力。

圖 22，在相鄰的目標物下，手臂呈現相似的角度組合來獲取目標物。這種特性對常常移動手臂來獲取相鄰物品的行動非常有用，因為可以用最少的關節運動（改變）來完成任務。在這個範例裡，如果以傳統的 Q-learning 來訓練時，如果我們不知道最佳的手臂組態，那麼就沒辦法先設想好足夠的組態去填入 Q-table 的行動空間中，代理人也就無法選擇行動。

圖 22：在二十維的行動空間中也明顯地保存了拓撲的訊息 (取自[1])

我們將實驗分為 Neighborhood Q-learning 與一般最多人使用的 Q-learning（無 neighborhood function）兩種方式進行比較，每一種方式都進行了 20 次的訓練，每一次的訓練都會執行了 50000 個步驟，然後畫出兩種比較方式的學習曲線及誤差範圍（error bar），如圖 23。

圖 23：進行 20 次的實驗後，Neighborhood Q-learning 與

常見 Q-learning 的平均學習曲線與誤差範圍

可以看到有使用相鄰函式方法的 Neighborhood Q-learning 在學習效能與誤差上都來得比沒有使用的 Q-learning 方法來得好。Neighborhood Q-learning 的平均距離約可以準確到 0.02 個單位，而 Q-learning 則只有到約 0.06 個單位，

而誤差值也比較大。因為 Q-value 的初始值是設為 0，所以在 Q-learning 曲線的最左側會出現從 0 開始的正常現象。

在文檔中類神經網路自組織增強式學習模型 (頁 53-60)

第五章 自組織增強式學習模型

5.3 二維軌跡取物實驗

第五章自組織增強式學習模型