• 沒有找到結果。

雙節倒單擺實驗

第五章 自組織增強式學習模型

5.4 倒單擺系統實驗

5.4.4 雙節倒單擺實驗

61

圖 32:新獎懲值計算方式的訓練紀錄,僅在第 159 次訓練 就成功完成了 10000 次的操作

62

雙節倒單擺系統的滑車與單擺物理參數設定如表 5,每一次訓練單擺的 初始角度設定在 𝜃1 = [−0.1, 0.1] 𝑟𝑎𝑑 之間,系統每 0.03 秒就會運算一次更 新倒單擺系統的滑車位置與單擺角度、速度等物理參數。在更新物理參數後,

系統會將下列五項資訊輸入給代理人:

 滑車速度, 𝑥̇

 單擺角度, 𝜃1, 𝜃2

 單擺角速度, 𝜃̇1, 𝜃̇2

表 5:雙節倒單擺系統實驗參數

參數

下單擺質量, 𝑚1 0.01 kg

上單擺質量, 𝑚2 0.01 kg

滑車質量, 𝑚 0.05 kg

下單擺長度, 𝐿1 1.0 m

上單擺長度, 𝐿2 3.0 m

上單擺質心與轉軸距離, 𝑙1 0.5 m 下單擺質心與轉軸距離, 𝑙2 1.5 m

重力加速度, 𝑔 9.80665 𝑚/𝑠2

滑車阻力, 𝐹0 1.0 N.s/m

上單擺阻力係數, 𝐹1 0.3 𝑁. 𝑚. 𝑠 下單擺阻力係數, 𝐹2 0.01 𝑁. 𝑚. 𝑠

63

接著如同單節倒單擺的情況,代理人必須輸出一個合適的施力,對滑車的施 力範圍為 𝐹 = [30, −30] 𝑁,在執行輸出動作後的獎懲值也一樣以單擺在水平 面上的投影總長度,然後取負數當作獎懲值,若是失敗則獎懲值為 −10,如 下:

𝑟 = {−(𝐿1∗ |𝑠𝑖𝑛 𝜃1| + 𝐿2∗ |𝑠𝑖𝑛 𝜃2|), |𝜃1| < 30°

−10, |𝜃1| ≥ 30°

詳細的代理人模型參數如表 6,由於在單節倒單擺上有太多輸入層 SOM 的神經元未被利用到的情形,所以這次減少了神經元的數量。

表 6:雙節倒單擺代理人模型參數表

參數

Input map size 2 × 2 × 2 × 2 × 2 Action map size 31 × 1

Input map neighborhood size, 𝑁𝑆 𝑓(𝑡) Action map neighborhood size, 𝑁𝐴 2 × 𝑓(𝑡) Q-learning rate, α 0.35 Discount factor, 𝛾 0.95

Learning rate of input map, 𝜆𝑆 0.01 × 𝑓(𝑡) Learning rate of action map, 𝜆𝐴 0.01 × 𝑓(𝑡) Probability of Q-learning exploration, 𝑝 0.005 × 𝑓(𝑡) Max. exploration distance around action unit, 𝜀 0.001 × 𝑓(𝑡) Annealing schedule, 𝑓(𝑡) 0.9995𝑡

64

實驗訓練紀錄如圖 34,約在第 2000 次時代理人成功操作 10000 次使倒 單擺不倒下,實驗總共訓練了 8000 次,與單節倒單擺相同,訓練完成後代理 人已能在許多不同初始狀態下讓雙節倒單擺維持不倒下。要再注意的仍然是 雖然已經成功了 10000 次的操作,但因為代理人仍然會對最佳行動方案進行 探索,所以在探索階段仍然會有不足 10000 次操作的訓練出現,只要 Q-table 最後有收斂完成,模擬時便可以充分地完成 10000 次的操作。

圖 34:雙節倒單擺訓練紀錄,在第 2081 次訓練時已成功 完成 10000 次的操作,在訓練後期則幾乎都完成了 10000 次的成功操作

圖 35 是此次實驗的 Q-table,在減少輸入層 SOM 神經元後,Q-table 縮 減為 31 × 32 的大小,明顯地改善了之前神經元未完全利用到的問題。圖中 也可以看到每一個狀態,幾乎都已經收斂到一個最佳的行動編碼。我們將訓 練完成的 Q-table 拿來進行實際的模擬測試,模擬測試時不約束 10000 次的操 作次數,讓代理人可以無限次地進行操作,直到倒單擺倒下為止。圖 36 是 模擬的擷取畫面,代理人持續地在操作倒單擺維持其不倒下,達到 30000 次 時我們停止了模擬,若沒有中止模擬代理人仍然能持續操作下去。

65

圖 35:雙節倒單擺實驗之 Q-table,可看出每個 Q-value 都已經被探索過且許多狀態已經有最佳的動作解

圖 36:在訓練完成後,實際進行模擬測試,不約束 10000 次操作後結束,代理人可以一直持續地操作到 30000 次以 上的步驟仍維持倒單擺不倒下

66