• 沒有找到結果。

第六章 結論

6.1 討論

66

67

目被認為是不確定性的評估,需要再進行討論,不過其實每個欄位都還有討 論的空間。由於實際上並沒有一個標準的評估準則,目前這個比較表還是屬 於比較主觀的一種經驗性的評估,例如 CMAC 方法,在某些研究上即使空間 維度很高,也還是被認為它的記憶體使用量是很少的,不過在這裡我們沒有 勾選它符合這個項目,而是認為這還有討論的空間[30]。

最簡單的幾個未使用到類神經網路的基本方法在應用上其實已經非常成 功,但缺乏適應性和可擴展性。Fuzzy Genetic 的方法比較偏離了 Reinforcement Learning 的理論[41],另外使用了類神經網路倒傳遞的方法則比較偏向監督 式 的 Reinforcement Learning[43] 。採用階層式 SOM 混合 Reinforcement Learning 的學習方法目的是加速 SOM 層的學習速率,以及在訓練前期提供 大致的歸納方案,讓代理人提早取得分類的依據[6]。本研究提出的模型雖然 大部份都能夠符合各個項目,但也許在其它面相並不能符合。而且各種方法 有其應用的特殊目的存在,彼此間並不相同,所以該表格並不能完全地代表 某種方法優於另一種方法,各種方法都有其優於另一種方法的地方。該表格 提供未來研究時對可以採用的方法給予一種特性的依據,可以選擇針對特殊 問題較適合的方法來採用。最後仍然要注意的是每一個欄位仍然都有可以討 論的空間。

68

圖 37:本研究提出的模型與各種學習方法的比較表。√ 表 示該方法符合左邊的要項,× 表示不符合,△ 表示該方 法對此要項是否非常符合仍有待討論

69

6.1.2 延遲獎勵問題

在倒單擺實驗中,雖然本研究提出的模型能成功地完成實驗,但單純的 Q-learning 方法實際上也能達成,這使得是否要再採用 SOM 去適應連續的狀 態空間又再次讓人引起討論。實驗也發現,若 SOM 層一直處在未收斂的情 況,相對的也會影響到 Q-table 收斂的速率,導致 Q-table 一直在改變,也進 而影響了輸出的行動,最後輸出的行動又會影響了輸入的狀態,使得整個學 習效率變得極低,如此將大大提高了訓練的次數。另一個在實驗觀察到的問 題是當代理人維持住了倒單擺的平衡後,因為輸入與輸出的資訊將大量集中 在某個固定的狀態下,如果 SOM 的相鄰範圍仍然太大,會使得 SOM 裡面的 神經元往該處集中,接著就會發生代理人無法快速適應其它狀態的現象,這 有可能讓實驗走向失敗,因為代理人對輸入的狀態不能清楚地區別,行動層 也有相同的問題,因為到實驗後期已經不會有太大的雜訊摻入行動,行動層 SOM 集中在一小區域裡,會讓代理人只能在一個小範圍裡面進行動作,影響 施力的範圍彈性,不過這個問題可以從調整學習參數來解決,因此在退火機 制上又是一個關鍵,最好的方式是讓 SOM 盡可能地在收集完各種狀態後完 成收斂,但這需要靠嘗試多次的失敗與人為的經驗進行退火機制的調整才能 完成。

由於 SOM 層一直在接受訊息進行學習,這也容易使得 SOM 學習到一些 實際上對系統不是這麼有利的資訊,若是能引進延遲的機制,SOM 於狀態的 取樣相對就會比較減少,那麼對於倒單擺的平衡或許可以做出更合適的回應。

但目前行動空間仍然很低維,只有簡單的左右施力一個維度,也許用標準的 Q-learning 方法手動地來劃分行動空間比採用延遲機制更加容易達成目的。

雖然本模型適合一般情況下的延遲獎勵機制,但問題是要確定該行動是否真 正對實驗目的有幫助仍然不是這麼容易的,這是因為在延遲機制裡,通常會

70

要求在後面步驟時要回去修正之前的錯誤,讓其實不相連的分散行為變成似 乎是一連串連續產生的行動方式,這變得非常困難。