緒論 - 智慧型機器人應用基因演算法結合增強式學習於模糊控制歸屬函數之最佳化

1.1 研究背景與動機

智慧型機器人(intelligent robotics)是一種多功能的全自動或半自動機械裝置，

結合人工智慧與感測技術可以自主地執行各項任務。隨著機器人相關技術的進步，機器人已廣泛應用於汽車、飛機、船舶製造，更擴展到居家照護、娛樂服務、

資訊整合等各個層面[1][23][12][10]，為一個高度技術整合、高附加價值的未來產業，對於國家經濟與工業整體發展具有關鍵性的指標地位。

智慧型機器人的三項基本作業為：感測(sense)、思考(plan)與動作(act)。感測是以擷取機器人環境的相關資料；思考係指執行演算法以進行定位與路徑規劃；

動作則需驅動致動器(actuator)以控制機器人運動。傳統機器人運動控制，通常採用回授控制(feedback control)的方式[17]，在固定環境因素下發展出可靠的數學控制模型。然而，當被控對象的控制方式複雜，或具有多輸入、多輸出、參數時變性高和嚴重的非線性特性時，從環境所能獲得的知識訊息量也會相對地減少，採用傳統的回授控制難以獲得滿意的控制效果。為了解決前述的問題，近年來模糊控制(fuzzy control)常被用在機器人控制上，通常能得到比傳統回授控制更好的控制性能，相關研究文獻探討請見第二章第2.1.7 節。

應用模糊控制來控制系統時，影響系統輸出的原因有兩項：模糊規則(fuzzy rule) 和歸屬函數(membership function)。模糊規則通常為一種直觀的判斷，例如當車速快且距離前方車輛近時，要做減速的動作。此類模糊規則常由專家主觀認定的方法來制定，在合理的條件下通常效果都不錯。但歸屬函數的調整比較複雜，根據不同的模糊集合在不同的問題有不同的歸屬函數。專家主觀認定的方法制定歸屬函數通常需要反覆驗證，以系統實驗方式透過試誤法(trial-and-error)才能決定出一組較好的方法。但由於組合繁多，往往需要很長的時間才能調出一個最佳解來。

本研究的動機是希望能以機器學習(machine learning)技術有效地找出機器人控制最適合的模糊歸屬函數。

機器學習是一類從數據中自動分析獲得規律，並利用規律對未知數據進行預測的演算法。基本上，機器學習方式可以概分為兩類：在線式學習(on-line learning) 與離線式學習(off-line learning)。在線式學習是將機器學習演算法實際安裝在應用對象上，並在其真實的應用環境中蒐集資料，進行學習與反應。離線式學習是將機器學習演算法與應用對象分離，先在可控制的模擬環境下以軟體型式完成合理的學習模型，再將最後的結果套用在實際應用中。然而，此二方法在機器人的應用中會有以下的問題。

1. 在線式學習：此機器學習的優點是能真實的呈現出機器人在現實環境影響下呈現出的行為。但由於機器學習往往需要經過數百次甚至數千次的學習循環，才能夠收斂到較佳的解答，在執行的過程中如果採用此機器學習法，一方面會耗費許多實機測試的時間，另一方面會造成實體機器人的耗損。

2. 離線式學習：此機器學習的優點是能減少機器耗損的風險，並透過電腦模擬的方式達到省時的目的。缺點就是對真實環境，如摩擦、貫性、動力、

彈性…等物理因子不容易模擬，導致學習的結果只適合簡化理想條件下的環境，無法直接應用於真實的機器人上。

因此，本研究企圖結合此兩種機器學習方法的優點，達到使機器人的行為符合現實環境，並能自己有效率的找到最佳控制策略的目的。

1.2 研究目的與方法

本研究的基本想法是以離線式學習的方式在合理設計下的模擬中，先快速找出合理的模糊歸屬函數，再將所獲得之模糊歸屬函數以在線式學習的方式，實際在真實機器人上作系統化調整。由於離線式學習可以增加演化學習的效率，減少實體機器人的耗損，而在線式學習可以得到較為接近真實狀況下的測試結果，減少因過度理想化而無法實踐在現實環境下的問題。此兩技術的結合可以有效率的找出最適合用於智慧型機器人控制的最佳模糊歸屬函數。本研究使用兩階段式的機器學習法，在離線式學習中採用基因演算法(genetic algorithm)，在在線式學習部分採用增強式學習技術(reinforcement learning)，並提出系統化的修正方法。希望能解決以傳統專家主觀認定的方法調整歸屬函數上，過度複雜而花時間又僅得到區域最佳解的缺陷。由於模糊歸屬函數的組合有許多種，基因演算法有強大的搜尋最佳解的能力，故第一階段先採用基因演算法求出近似理想解；第二階段再透過增強式學習修正第一階段產生出的歸屬函數，使機器人能夠快速的找到理想的模糊控制參數，並在實際環境上執行也能有優秀的表現。本研究的實測對象是四輪機器人，其任務是偵測環境、影像辨識、路徑規畫並驅動機器手臂撿拾目標物件。

本研究分成三階段來進行，茲分別說明如下：

 第一階段：透過模擬器模擬機器人撿拾目標物件的動作，並應用基因演算法找出理想的歸屬函數。

 第二階段：將第一階段的結果代入實體保全型機器人中，在現實環境下做拾取目標物件的測試。透過實機測試發現動作的缺陷，再使用增強式學習來修正其歸屬函數，使機器人能夠在現實環境下達到理想的控制效果。

 第三階段：將前兩段獲得之理想的歸屬函數進行不同條件下的實機測試，並比較使用專家主觀認定的方法、基因演算法和增強式學習產生歸屬函數對機器人控制所造成的影響。

1.3 研究流程

本研究流程如下圖所示，主要分為相關文獻收集與探討、撰寫實驗所需的模擬器、機器學習設計、建立實體機器人、實驗及結果分析等部分。

 相關文獻收集與探討：包含相關的研究背景與問題定義，參考模糊控制、基因演算法、增強式學習等相關文獻與資料，將問題範圍設定在智慧型機器人拾取目標物件的控制過程，以釐清問題並了解相關技術的優缺點。

 模擬器撰寫：將實體機器人透過模糊控制產生的行為紀錄下來，透過簡單的數學模型模擬機器人的控制行為，並用實驗歸納法找出機器人實際座標與影像座標的轉換關係，藉此建立以模糊控制為基礎的機器人模擬器。

 撰寫機器學習演算法程式：撰寫基因演算法與增強式學習修正所需之程式。

 實驗結果及結論：依實驗結果分析，探討此機器學習方法之效果與應用，並建議未來的研究方向。

相關文獻收集與探討

模擬器撰寫

撰寫實驗所需程式

實驗結果及結論

期刊、論文及書籍

1.模糊控制程式 2.模擬器程式

3.基因演算法演化模組 4.增強式學習

更新Q-table模組

圖- 1 研究進行流程圖

1.4 論文架構

本論文的論文架構如下：第一章說明本研究的研究背景與動機；第二章簡述其相關文獻，探討類似的方法應用的優缺點並介紹本論文使用的背景知識。第三章為機器人的機構設計與控制方法，第四章提出基因演算法應用模擬器的流程規劃，第五章為增強式學習應用於實體機器人與兩階段實驗所採用的演算法設計。

第六章實驗與分析，說明各階段的實驗設計、實驗結果與分項結論。第七章說明研究的結果以及未來可以改進的方向。

在文檔中智慧型機器人應用基因演算法結合增強式學習於模糊控制歸屬函數之最佳化 (頁 9-14)