雙節倒單擺實驗

第五章自組織增強式學習模型

5.4 倒單擺系統實驗

5.4.4 雙節倒單擺實驗

圖 32：新獎懲值計算方式的訓練紀錄，僅在第 159 次訓練就成功完成了 10000 次的操作

雙節倒單擺系統的滑車與單擺物理參數設定如表 5，每一次訓練單擺的初始角度設定在 𝜃₁ = [−0.1, 0.1] 𝑟𝑎𝑑 之間，系統每 0.03 秒就會運算一次更新倒單擺系統的滑車位置與單擺角度、速度等物理參數。在更新物理參數後，

系統會將下列五項資訊輸入給代理人：

 滑車速度, 𝑥̇

 單擺角度, 𝜃₁, 𝜃₂

 單擺角速度, 𝜃̇₁, 𝜃̇₂

表 5：雙節倒單擺系統實驗參數

參數值

下單擺質量, 𝑚₁ 0.01 kg

上單擺質量, 𝑚₂ 0.01 kg

滑車質量, 𝑚 0.05 kg

下單擺長度, 𝐿₁ 1.0 m

上單擺長度, 𝐿₂ 3.0 m

上單擺質心與轉軸距離, 𝑙₁ 0.5 m 下單擺質心與轉軸距離, 𝑙₂ 1.5 m

重力加速度, 𝑔 9.80665 𝑚/𝑠²

滑車阻力, 𝐹₀ 1.0 N.s/m

上單擺阻力係數, 𝐹₁ 0.3 𝑁. 𝑚. 𝑠 下單擺阻力係數, 𝐹₂ 0.01 𝑁. 𝑚. 𝑠

接著如同單節倒單擺的情況，代理人必須輸出一個合適的施力，對滑車的施力範圍為 𝐹 = [30, −30] 𝑁，在執行輸出動作後的獎懲值也一樣以單擺在水平面上的投影總長度，然後取負數當作獎懲值，若是失敗則獎懲值為 −10，如下：

𝑟 = {−(𝐿₁∗ |𝑠𝑖𝑛 𝜃₁| + 𝐿₂∗ |𝑠𝑖𝑛 𝜃₂|), |𝜃₁| < 30^°

−10, |𝜃₁| ≥ 30^°

詳細的代理人模型參數如表 6，由於在單節倒單擺上有太多輸入層 SOM 的神經元未被利用到的情形，所以這次減少了神經元的數量。

表 6：雙節倒單擺代理人模型參數表

參數值

Input map size 2 × 2 × 2 × 2 × 2 Action map size 31 × 1

Input map neighborhood size, 𝑁_𝑆 𝑓(𝑡) Action map neighborhood size, 𝑁_𝐴 2 × 𝑓(𝑡) Q-learning rate, α 0.35 Discount factor, 𝛾 0.95

Learning rate of input map, 𝜆_𝑆 0.01 × 𝑓(𝑡) Learning rate of action map, 𝜆_𝐴 0.01 × 𝑓(𝑡) Probability of Q-learning exploration, 𝑝 0.005 × 𝑓(𝑡) Max. exploration distance around action unit, 𝜀 0.001 × 𝑓(𝑡) Annealing schedule, 𝑓(𝑡) 0.9995^𝑡

實驗訓練紀錄如圖 34，約在第 2000 次時代理人成功操作 10000 次使倒單擺不倒下，實驗總共訓練了 8000 次，與單節倒單擺相同，訓練完成後代理人已能在許多不同初始狀態下讓雙節倒單擺維持不倒下。要再注意的仍然是雖然已經成功了 10000 次的操作，但因為代理人仍然會對最佳行動方案進行探索，所以在探索階段仍然會有不足 10000 次操作的訓練出現，只要 Q-table 最後有收斂完成，模擬時便可以充分地完成 10000 次的操作。

圖 34：雙節倒單擺訓練紀錄，在第 2081 次訓練時已成功完成 10000 次的操作，在訓練後期則幾乎都完成了 10000 次的成功操作

圖 35 是此次實驗的 Q-table，在減少輸入層 SOM 神經元後，Q-table 縮減為 31 × 32 的大小，明顯地改善了之前神經元未完全利用到的問題。圖中也可以看到每一個狀態，幾乎都已經收斂到一個最佳的行動編碼。我們將訓練完成的 Q-table 拿來進行實際的模擬測試，模擬測試時不約束 10000 次的操作次數，讓代理人可以無限次地進行操作，直到倒單擺倒下為止。圖 36 是模擬的擷取畫面，代理人持續地在操作倒單擺維持其不倒下，達到 30000 次時我們停止了模擬，若沒有中止模擬代理人仍然能持續操作下去。

圖 35：雙節倒單擺實驗之 Q-table，可看出每個 Q-value 都已經被探索過且許多狀態已經有最佳的動作解

圖 36：在訓練完成後，實際進行模擬測試，不約束 10000 次操作後結束，代理人可以一直持續地操作到 30000 次以上的步驟仍維持倒單擺不倒下

在文檔中類神經網路自組織增強式學習模型 (頁 72-77)

第五章 自組織增強式學習模型

5.4 倒單擺系統實驗

5.4.4 雙節倒單擺實驗

第五章自組織增強式學習模型