• 沒有找到結果。

本章節主要探討模糊系統、遺傳演算法以及增強式學習 Q-Learning 之相關背 景,並且在文獻上說明移動機器人實現演算法的方式,以及本論文是如何整合演 算法實現於移動機器人,最後說明了實現演算法的目的與研究方法。

1.1 研究背景與動機

在傳統的控制系統中,數學模型的建立是控制架構當中的第一個要件。由於 並不是每個受控系統的數學模型都能夠取得,當所要處理的問題越複雜,使用的 未知變數就越多,其數學模型的建立就越困難。模糊邏輯系統是利用人類所累積 的經驗,因而建立起模糊規則庫,進而取代建構困難的數學模型。雖然利用模糊 規則建構受控體的模型會有建模誤差,但控制過程可達所想要的結果,因此成功 的運用到實際的控制系統身上。

模糊數學最早是在 1965 年由 Zadeh 所提出[1],之後由倫敦大學 Queen Mary 的 M. H. Mamdani 教授以 If-Then 的對話方式,建立出模糊規則。模糊系統本身具 有語意資訊及邏輯控制的能力[2]-[4],許多研究把模糊系統應用到非線性系統身 上,而模糊系統搭配 Lyapunov 穩定法則成功的應用到移動機器人身上[5],而後 的研究有發展出 Type-2 模糊系統應用到移動機器人身上[6]-[7]。傳統上,模糊系 統是透過梯度下降法進行權重值的訓練,但是像梯度下降法這一類的最佳化法會 有收斂性的問題,其權重值的訓練結果可能只是局部最佳解,而不是整體最佳解。

因此,有一些研究人員試著使用遺傳演算法(GA)[8]-[10]來克服收斂性的問題。

遺傳演算法是一種對於問題自然搜尋參數解的自然集合,並可以分成四個部

份:(1) 讓一族群的參數解以人工的方式編碼成染色體,(2) 選擇較佳的參數解進

由於傳統遺傳演算法在演化模糊邏輯系統內部的架構與參數當中,其性能及 族群大小有著密切關係等限制,而 DNA 是自然界存在的生物並有它自身內在的 代碼,以及所編碼出的基因資訊可以得到染色體的特性,因此用來取代傳統遺傳 演算法來改善此限制。此外,本論文的實驗目標在於使一移動機器人達成搜尋目 標物的功能,而傳統上必須要有目標物座標的資訊,才能計算出移動機器人與目 標物的距離,這樣的作法必須要耗費成本來購買導航攝影機,才能取得環境的座 標資訊,包含目標物及移動機器人等…。因此,本論文所設計出的適應函數,無 需環境的座標資訊也能夠達成目標物搜尋的功能,因此不需要導航攝影機所以能 夠簡省許多成本。

1.3 研究方法

為達預定之研究目的,本研究所採用之研究方法如下:

1. 針對移動機器人模擬器及實現上所使用的感測器,來規劃出模糊系統之 歸屬函數。

2. 根據實際的環境,來為 Q-Learning 之報酬值規劃出不同的學習範圍,以 使移動機器人能成功的閃避障礙物。

3. 由於本研究所提出的 DNA 染色體的編碼方式,其染色體的基因代表著移 動機器人所行走的角度資訊,因此規劃出角度範圍來讓 DNA 染色體隨機

產生此角度範圍的基因。

相關文件