第五章、 增強式學習法
6.5 實驗 D:綜合比較
在實驗 B 中,我們透過基因演算法找到最佳的模糊控制歸屬函數,並將其代 入實體機器人中現實環境下作測試。在第一組實驗中,執行分布較為平均的 8 個 測試點夾球測試(如圖- 28),比較不同載重下夾取目標物件的成功率,實驗結果如 表- 23。
表- 23 負重對機器人的影響
0 Kg 0.5 Kg 1 Kg 1.5 Kg 2 Kg 3 Kg
平均花費時間(s)3.57
3.62 3.63 3.65 3.68 3.70執行步數
89
90 91 91 92 99成功率(%)
100%
100% 96% 92.5% 92.5% 90%在第二組實驗中,我們嘗試讓其在現實環境中測試較為極端的5 個測試點 (如圖- 30),並測試其在不同的負重影像下所造成的影響,實驗結果如表- 24。
表- 24 負重對機器人的影響
0 Kg 0.5 Kg 1 Kg 1.5 Kg 2 Kg 3 Kg
平均花費時間(s)3.24
3.52 3.49 3.58 3.9 3.97執行圈數 (圈)
81
87 87 89 97 99成功率(%) 80%
96%
80% 72% 64% 28%觀察實驗結果可以發現當機器人的載重越高,其夾取目標物件的效率與成功 率會下降,故僅使用基因演算法求出來的理想歸屬函數並不能適用於現實的環 境。在下一階段的實驗裡,我們將加入增強式學習的控制方式,使機器人在現實 環境下也能夠自我調整控制參數,達到穩定控制的效果。成功率與時間的趨勢圖 如圖- 35。另一方面,由於攝影機所決定的機器人控制容易受到機體晃動與慣性的 影響,機器人加上些微重量剛好能夠減輕此現象,故才會產生0.5 公斤時成功率較 高的現象。
0%
20%
40%
60%
80%
100%
120%
0 Kg 0.5 Kg 1 Kg 1.5 Kg 2 Kg 3 Kg Weight
success rate (%)
success rate
3 3.2 3.4 3.6 3.8 4 4.2
0 Kg 0.5 Kg 1 Kg 1.5 Kg 2 Kg 3 Kg Weight
time (s)
time
(a) 成功率變化趨勢 (b) 完成任務時間變化趨勢 圖- 35 載重影響成功率與時間趨勢圖
接下來嘗試將經過在線式學習調整過的歸屬函數放入實體機器人中,實驗發 現,經過結合基因演算法與增強式學習調整過的歸屬函數,雖然執行的效率會降 低一些,但受到機器人載重影響的幅度也較小,較能夠適應多變的現實環境。實 驗結果如。
表- 25 負重對機器人的影響
0 Kg 0.5 Kg 1 Kg 1.5 Kg 2 Kg 3 Kg
平均花費時間(s)3.42
3.86 3.97 4.25 4.34 4.56執行圈數 (圈)
85
96 99 89 106 114成功率(%) 96%
100%
90% 86% 80% 76%綜合以上實驗,我們提出之結合基因演算法與RL 之修正方法的確可以讓機器 人行動更加穩定,故在本節比較傳統回授控制、專家主觀認定的方法調整歸屬函 數、基因演算法調整歸屬函數以及基因演算法加增強式學習最佳化模糊控制之方 法,比較並分析其執行效率與成功率。
表- 26 各方法執行效率綜合比較
PD 回授控制 專家決定法 基因演算法 基因演算法加 增強式學習 Time (s) 5.08 3.43
3.21
4.06SR (%) 52.2 64 64.8
92
AD 10.28 18.66 20.19 23.65
由實驗結果可以得知,平均執行時間以基因演算法演化出來的最理想,其次 是專家主觀認定的方法,PD 回授控制的效果最差。比較成功率可以發現,本研究 提出之方法的成功率高出其他方法許多,適應程度(AD)也是四種方法中最好的。
0 10 20 30 40 50 60 70 80 90 100
Feadback Heuristic GA GA+RL
平均時間(s) 成功率(%) 適應程度
圖- 36 綜合比較長條圖