多功能虛擬實境動態模擬系統-子計畫一(1/2):
虛擬實境動態模擬系統中之行為轉換及階層式控制法 Behavior Transform and Hierarchical Control
in Virtual Reality Dynamical Emulator
計畫編號:NSC 89-2213-E-011-066 執行期限:88/08/01 - 89/07/31
主持人: 李祖添 教授; 共同主持人: 蘇順豐 副教授 國立臺灣科技大學電機系
一. 摘要
在虛擬實境的動態模擬系統中,當虛擬 系統接收到控制命令而設法產生應有的運 動行為描述時,在虛擬實境的顯示以及在模 擬運動平台的運動行為則是要儘可能地模 擬並使其有身歷其境的感受,以達到虛擬實 境的目的。而為了達到此一目標,上述的運 動行為描述必須恰當的轉換給虛擬實境的 顯示系統以及運動平台的控制系統。本子計 畫以階層式的智慧控制概念來追求更高階 而抽象之控制目標,也就是說將六軸運動平 台的運動控制當成低階控制系統,而我們的 系統則是設法設定控制輸入以使運動行為 更符合需求。本年度的研究是利用小腦模式 運算為基礎的線上學習控制機制,來做未知 環境下的軌跡追隨之控制。我們改善了小腦 模式運算的學習機制,使得其學習效率能適 用於線上學習。在我們的研究中,不僅只是 要求如原系統中去追隨軌跡而已,同時也將 考慮加速度的問題,在身歷其境的模擬的另 一重要的因素是操作者的力感受,而力感受 則大部分是由加速度所形成的反作用力和 離心力所造成的。也就是在目標之設定上以 更多樣化的目標來求最佳化。因此本計畫期 望透過對目標的更多樣的設計而來達到較 好的虛擬實境感受。在研究中我們嘗試架構 運動行為之加強式學習,並以模糊法則來描 述行為以使學習便成可能。
Abstr act
In the research of virtual reality dynamical emulation systems, the reaction of the considered
system must be truly emulated. In this project, we were aimed at transferring the behaviors of the considered system in the simulated space into the behaviors of the emulated space. In order to achieve virtual reality in the display and in the motion of the platform, a hierarchical structure of intelligent controllers is adopted in our research.
This controller takes the tradition controller as a lower controller and is aimed at achieving more versatile and abstract goals by generating suitable control input for the lower control system. Such an intelligent controller consists of two elements, a fuzzy predictor and a fuzzy logic controller. The fuzzy predictor is a function approximator. Thus, various approaches have been proposed. We investigated those approaches and their applications to our intelligent controller in both on-line and off-line manners. In this year’s research, a CMAC learning scheme is studied in an on-line fashion. We proposed a credit assignment concept for CMAC learning to enable on-line learning. The simulation results showed the effectiveness of our approach. Furthermore, due to the requirement of virtual reality, some force/torque terms must also be generated from this system to fulfill the feeling of the operators.
Thus, the analysis of resolution of force sensors of human must be analyzed and a strategy of compensating the acceleration motion in a limited space must be issue to capture any motion in the true system. In this year’s research, we investigated the concept of motion cue and proposed the ides of using reinforcement learning for constructing motion cue.
二.計畫緣由與目的
本計畫是在發展一個多功能的虛擬實 境動態模擬系統,經由虛擬實境的技術與運
動模擬器的結合,以逼真地模擬實際場景與 設備或載具的運動行為。在此系統中,操控 人員將坐(站)在一個六軸運動平台上,以一 著具有力迴饋的操控桿,而看著虛擬實境的 顯示畫面。根據畫面所出現的場景,操控員 將透過操控桿下達指令,以操控系統中的一 部虛擬的設備或載具。此操控命令將被輸入 所模擬之設備或載具的精確物理模型中,以 求得真實情況下系統的反應(包括姿態、速 度、加速度、力道等)。這些反應將透過本 子計畫的行為轉換與控制模組,而由六軸運 動平台、力迴饋模組及虛擬實境顯示器表現 出來,以讓操控員獲得身歷其境的感受。這 整個系統中,因為行為轉換模組的設計扮演 實際環境裡物體運動狀況以及虛擬環境中 操控員身體感受之間橋樑,如何讓操控員有 身歷其境的感受,有賴於在動態模擬系統發 展過程中,適當的人(操控員)機(動態模擬器) 溝通界面及迴饋學習技術,以獲得最符合人 類感覺的行為轉換模式。
在虛擬實境的動態模擬系統中,當虛 擬系統接收到控制命令而設法產生應有的 運動行為描述時,在虛擬實境的顯示以及 在模擬運動平台的運動行為則是要儘可能 地模擬並使其有身歷其境的感受,以達到 虛擬實境的目的。而為了達到此一目標,
上述的運動行為描述必須恰當的轉換給虛 擬實境的顯示系統以及運動平台的控制系 統。本子計畫將以階層式的智慧控制概念 來追求更高階而抽象之控制目標,也就是 說將六軸運動平台的運動控制當成低階控 制系統,而我們的系統則是設法設定控制 輸入以使運動行為更符合需求。另一重要 的因素是操作者的力感受,而力感受則大 部分是由加速度所形成的反作用力和離心 力所造成的。也就是在目標之設定上以更 多樣化的目標來求最佳化。因此本計畫期 望透過對目標的更多樣的設計而來達到較 好的虛擬實境感受。本子計畫在本年度的 執行,是對模糊模型之精準度分析及其在 即時使用時的問題探討以及探討以模糊預 估的高階預估控制設計的階層式控制。
三.研究方法及目前成果
第一年主要的研究為階層式控制器[1]
的理論探討及預估器的建立及分析比較。
在階層式控制中,我們以模糊預估器之建 立[2]來產生對控制輸入之可能結果並加以 評估。在此一階層式控制架構中,我們以 模糊預估器之建立來產生對控制輸入之可 能結果並加以評估。以模糊法則庫的模糊 控制需要一些比例因子將實際所獲得之資 訊,轉入其相對應之陳述空間及由推論結 果轉換為明確輸出值。而為了獲得理想的 響應,依照設定的性能指標,建立一些對 比例因子調適之規則,重複調整比例因 子,直到其響應符合設定之性能指標,稱 此為自我調適。在本研究中我們依據上述 的自動調適求得之比例因子,依據對系統 之響應評估,做重覆的自我調整。上述是 在理論之研究探討方面的方法,而在實際 運作上等到六軸系統以及虛擬實境的顯示 部分可供測試時,其子計畫將對平台控制 的行為分析以及感受力靈敏度的實驗等進 行探討,以利未來之發展。在控制輸入的 修正方面,在[1,2]中都是以預估器的概念來 做控制行為之修正,可是這樣的修正法則 常需要搜尋才能產生較佳的控制行為,可 是由於這是即時操控系統,即時性的反應 性能保證[3]便是一個重要的研究課題,必 須加以克服,也就是說如何在有限的時間 內找到到目前為止的最好控制輸入,而不 會造成系統之問題。當然在[3]中有提出一 簡單的規劃、搜尋及暫存的處理方法來避 免回尋,以保證解答之可用性。而在[4]中,
利用模糊法則以簡單之增減量的修正演算 法,常因為每次都要求即時最佳之反應而 產生每次控制輸入都是在飽和區的地方而 使得控制的效果不好。而在本年度本計畫 所提的研究,主要是延續第一年中的探 討,而在前一年度的階層式智慧控制器,
我們僅是利用簡單的輸入修正和低階同步 進行,可是由於高階智慧系統必須搜尋及 可利用不同解析度的特色。為了更有效地 搜尋及在固定有限的時間中避免無效的處
理,以及為了能使搜尋之結果具較好之特 性,我們增加了高階系統之 sampling time 可是在低階系統之 sampling time 則不變,
使得欲搜尋之目標已經不是單一控制輸入 而是一串之控制輸入。所以如何地設計搜 尋法則及控制輸入之表示法便是我們必須 克服的問題。而在 multi-rate 的階層式控制 器中我們主要是先以第一年的架構為基 礎,並設計串列控制的類別,以供在控制 選擇時使用,而串列控制類別之可行,乃 是由於針對較長時段下之行為模式的認知 及控制行為是對同一系統而為,因此可透 學習建立及系統反應之調適而得。
而在學習方法上,我們將針對不同的 方法來分析。探討的方向分為 on-line 學習 及 off-line 學習兩部分。傳統的學習方式大 部分都是以 off-line 學習來完成的,例如倒 傳學習式網路學習系統。雖然我們也做相 關的探討,可是由於階層式控制器是必須 on-line 執行的,因此本計畫無法納入該研 究結果。在 on-line 學習方面,目前我們是 以模糊系統[2]及以小腦模式運算(CMAC)
[5,6]為基礎的線上學習系統。而在模糊系統 學習部分,在第一年的研究已有探討。本 年度主要是探討 CMAC 的 on-line 學習能 力。在研究中,我們發現若以文獻上的學 習方法,CMAC 的 on-line 效率並不好。這 是因為其誤差修正是以平均的方式來修正 權重。如是的學習違反了 credit-assignment 的觀念。因此我們提出以學習頻率來當 confidence,並據以做誤差修正比例的分配 參考。如是簡單的學習改變,確實增加了 CMAC 的學習速率。這可從圖一中看出。
而我們也利用了以 CMAC 為基礎的 on-line learning control 上。我們可以從軌跡追隨的 效果看出其效果是相當好的(見圖二)。
在行為的轉換方面,目前文獻上所提到 的是利用 washout filter 的方式來處理的。如 是的方式是可以將在無限空間中的運動設 法在有限空間中呈現,可是在動態模擬器中 許多的運動效果並非只是簡單的物理運動 定律所能描述的。較多而必要的是若干的特
效運動感受,而這些感受則是要利用所謂 motion cue 來設計。而傳統的動態模擬器,
由於其設計上也不是利用真實的運動物体 的模擬建構來產生虛擬之運動感受,而是去 設計不同的 motion cue 來搭配。因此本計劃 在第二年的研究中即去了解 motion cue 及 其效果。而研究主要是提出以訓練的方式來 達到對 motion cue 設計的探討。目前主要的 構 想 是 利 用 使 用 者 的 回 饋 信 息 來 修 正 motion cue 的內容。而修正的標的則可分為 參數修正及段落重分。而由於回饋信息是由 使用者所給的,目前探討的學習主要是針對 信息的認定 ,本年 度的簡單作法 是利用 reinforcement learning[7]修正。而信息的內 容則是使用者對動態模擬器的動作行為加 以評分,而由於必須在 try-and-error 的情形 下學習,模擬器動作是由若干 motion cue 所組成而後重覆的操作,因此使用者的評分 行為和 motion cue 的修正能產生有義意的 比對。而目前我們只考慮到參數修正部分,
也就是針對每一段 motion cue,我們以 TSK Fuzzy 模式[9]來表達,因此學習的行為就化 約為 membership function 及後件部參數的 修正,在這一方面傳統的倒傳學習法被用來 修正參數(由於沒有確實想要的輸出值,最 小平方差(LS)修正法無法使用)。而在內部 加強式信號的產生部分,目前我們是以傳統 的 Temporal Difference (TD)[8]預估的方式 來進行。由於最近的研究大都使用遺傳演算 法,我們也會考慮使用,整個研究的進行在 本年度中目前仍只是系統建立及程式撰寫 中,在來年的研究中我們將更進一步的探討 分析其結果,同時也將納入類似 washout filter 的概念以及段落分割之學習方面。
四. 結論與討論
在虛擬實境的動態模擬系統中,當虛擬 系統接收到控制命令而設法產生應有的運 動行為描述時,在虛擬實境的顯示以及在模 擬運動平台的運動行為則是要儘可能地模 擬並使其有身歷其境的感受,以達到虛擬實 境的目的。本子計畫將以階層式的智慧控制 概念來追求更高階而抽象之控制目標,也就
是說將六軸運動平台的運動控制當成低階 控制系統,而我們的系統則是設法設定控制 輸入以使運動行為更符合需求。在階層式控 制中,我們以模糊預估器之建立[2]來產生 對控制輸入之可能結果並加以評估。本年度 主要是探討 CMAC 的 on-line 學習能力。在 研究中,我們發現若以文獻上的學習方法,
CMAC 的 on-line 效率並不好。這是因為其 誤差修正是以平均的方式來修正權重。如是 的學習違反了 credit-assignment 的觀念。因 此我們提出以學習頻率來當 confidence,並 據以做誤差修正比例的分配參考。如是簡單 的學習改變,確實增加了 CMAC 的學習速 率。而我們也利用了以 CMAC 為基礎的 on-line learning control 上。我們可以從軌跡 追隨的效果看出其效果是相當好的。在研究 中我們嘗試架構運動行為之加強式學習,並 以模糊法則 來描述 行為以使學習 便成可 能。整個研究的進行在本年度中目前仍只是 系統建立及程式撰寫中,在來年的研究中我 們將更進一步的探討分析其結果,同時也將 納入類似 washout filter 的概念以及段落分 割之學習方面。
五. 參考文獻
[1] K. G. Shin and X. Cui, “Design of a knowledge-based controller for intelligent control systems”, IEEE Trans. On Systems, Man, and Cybernetics, vol. 21, no. 3, pp.
368-375, 1991.
[2] 蕭志清, ”具調適能力之階層式智慧型控制 器,” 國立台灣工業技術學院電機工程技術 學程碩士學位論文, 1993.
[3] D. J Musliner, E. H. Durfee, and K. G. Shin,
“CIRCA: A cooperative intelligent real-time control architecture”, IEEE Trans. on Systems, Man, and Cybernetics, vol. 23, no. 6, pp.
1561-1574, 1993.
[4] 陳誠章, “自我調適模糊制器之研發與實現”, 國立台灣工業技術學院電機工程技術學程 專題研究計畫成果報告, 11 月,民國 83 年.
[5] C. S. Lin and C. T. Chiang, “Learning Convergence of CMAC Technique,” IEEE Trans. on Neural Networks, vol. 8, no.6, pp.1281-1292, 1997.
[6] T. Tao and S. F. Su, “CMAC-Based online
learning for robust controllers,” Proc. of 1998 R.O.C. Automatic Control Conf., pp.
447-452, Apr., 1998.
[7] S.-H. Hsieh, On The Study of Embedding Fuzzy Concept and Prior Knowledge in Reinforcement Learning, Master Thesis, Dept.
of Electrical Eng., NTUST, 1997.
[8] R. S. Sutton, “Learning to Predict by the Methods of Temporal Differences,” Machine Learning, vol. 3, pp. 9-44, 1988.
[9] T. Takagi and M. Sugeno, “Fuzzy identification of systems and its application to modeling and control,” IEEE Trans. on Systems, Man, Cybernetics, vol. 15, no. 1, pp.
116-131, 1985.
圖 一 . The comparison of the learning performance for z(x, y) =(x2−y2)sin5x.
圖二. The trajectory following for unlearned functions in on-line learning control.