多功能虛擬實境動態模擬系統---子計畫I：虛擬實境動態模擬系統中之行為轉換及階層式控制法(I)

(1)

多功能虛擬實境動態模擬系統-子計畫一(1/2)：

虛擬實境動態模擬系統中之行為轉換及階層式控制法 Behavior Transform and Hierarchical Control

in Virtual Reality Dynamical Emulator

計畫編號:NSC 89-2213-E-011-066 執行期限:88/08/01 - 89/07/31

主持人: 李祖添教授; 共同主持人: 蘇順豐副教授國立臺灣科技大學電機系

一. 摘要

在虛擬實境的動態模擬系統中，當虛擬系統接收到控制命令而設法產生應有的運動行為描述時，在虛擬實境的顯示以及在模擬運動平台的運動行為則是要儘可能地模擬並使其有身歷其境的感受，以達到虛擬實境的目的。而為了達到此一目標，上述的運動行為描述必須恰當的轉換給虛擬實境的顯示系統以及運動平台的控制系統。本子計畫以階層式的智慧控制概念來追求更高階而抽象之控制目標，也就是說將六軸運動平台的運動控制當成低階控制系統，而我們的系統則是設法設定控制輸入以使運動行為更符合需求。本年度的研究是利用小腦模式運算為基礎的線上學習控制機制，來做未知環境下的軌跡追隨之控制。我們改善了小腦模式運算的學習機制，使得其學習效率能適用於線上學習。在我們的研究中，不僅只是要求如原系統中去追隨軌跡而已，同時也將考慮加速度的問題，在身歷其境的模擬的另一重要的因素是操作者的力感受，而力感受則大部分是由加速度所形成的反作用力和離心力所造成的。也就是在目標之設定上以更多樣化的目標來求最佳化。因此本計畫期望透過對目標的更多樣的設計而來達到較好的虛擬實境感受。在研究中我們嘗試架構運動行為之加強式學習，並以模糊法則來描述行為以使學習便成可能。

Abstr act

In the research of virtual reality dynamical emulation systems, the reaction of the considered

system must be truly emulated. In this project, we were aimed at transferring the behaviors of the considered system in the simulated space into the behaviors of the emulated space. In order to achieve virtual reality in the display and in the motion of the platform, a hierarchical structure of intelligent controllers is adopted in our research.

This controller takes the tradition controller as a lower controller and is aimed at achieving more versatile and abstract goals by generating suitable control input for the lower control system. Such an intelligent controller consists of two elements, a fuzzy predictor and a fuzzy logic controller. The fuzzy predictor is a function approximator. Thus, various approaches have been proposed. We investigated those approaches and their applications to our intelligent controller in both on-line and off-line manners. In this year’s research, a CMAC learning scheme is studied in an on-line fashion. We proposed a credit assignment concept for CMAC learning to enable on-line learning. The simulation results showed the effectiveness of our approach. Furthermore, due to the requirement of virtual reality, some force/torque terms must also be generated from this system to fulfill the feeling of the operators.

Thus, the analysis of resolution of force sensors of human must be analyzed and a strategy of compensating the acceleration motion in a limited space must be issue to capture any motion in the true system. In this year’s research, we investigated the concept of motion cue and proposed the ides of using reinforcement learning for constructing motion cue.

二.計畫緣由與目的

本計畫是在發展一個多功能的虛擬實境動態模擬系統，經由虛擬實境的技術與運

(2)

動模擬器的結合，以逼真地模擬實際場景與設備或載具的運動行為。在此系統中，操控人員將坐(站)在一個六軸運動平台上，以一著具有力迴饋的操控桿，而看著虛擬實境的顯示畫面。根據畫面所出現的場景，操控員將透過操控桿下達指令，以操控系統中的一部虛擬的設備或載具。此操控命令將被輸入所模擬之設備或載具的精確物理模型中，以求得真實情況下系統的反應(包括姿態、速度、加速度、力道等)。這些反應將透過本子計畫的行為轉換與控制模組，而由六軸運動平台、力迴饋模組及虛擬實境顯示器表現出來，以讓操控員獲得身歷其境的感受。這整個系統中，因為行為轉換模組的設計扮演實際環境裡物體運動狀況以及虛擬環境中操控員身體感受之間橋樑，如何讓操控員有身歷其境的感受，有賴於在動態模擬系統發展過程中，適當的人(操控員)機(動態模擬器) 溝通界面及迴饋學習技術，以獲得最符合人類感覺的行為轉換模式。

在虛擬實境的動態模擬系統中，當虛擬系統接收到控制命令而設法產生應有的運動行為描述時，在虛擬實境的顯示以及在模擬運動平台的運動行為則是要儘可能地模擬並使其有身歷其境的感受，以達到虛擬實境的目的。而為了達到此一目標，

上述的運動行為描述必須恰當的轉換給虛擬實境的顯示系統以及運動平台的控制系統。本子計畫將以階層式的智慧控制概念來追求更高階而抽象之控制目標，也就是說將六軸運動平台的運動控制當成低階控制系統，而我們的系統則是設法設定控制輸入以使運動行為更符合需求。另一重要的因素是操作者的力感受，而力感受則大部分是由加速度所形成的反作用力和離心力所造成的。也就是在目標之設定上以更多樣化的目標來求最佳化。因此本計畫期望透過對目標的更多樣的設計而來達到較好的虛擬實境感受。本子計畫在本年度的執行，是對模糊模型之精準度分析及其在即時使用時的問題探討以及探討以模糊預估的高階預估控制設計的階層式控制。

三.研究方法及目前成果

第一年主要的研究為階層式控制器[1]

的理論探討及預估器的建立及分析比較。

在階層式控制中，我們以模糊預估器之建立[2]來產生對控制輸入之可能結果並加以評估。在此一階層式控制架構中，我們以模糊預估器之建立來產生對控制輸入之可能結果並加以評估。以模糊法則庫的模糊控制需要一些比例因子將實際所獲得之資訊，轉入其相對應之陳述空間及由推論結果轉換為明確輸出值。而為了獲得理想的響應，依照設定的性能指標，建立一些對比例因子調適之規則，重複調整比例因子，直到其響應符合設定之性能指標，稱此為自我調適。在本研究中我們依據上述的自動調適求得之比例因子，依據對系統之響應評估，做重覆的自我調整。上述是在理論之研究探討方面的方法，而在實際運作上等到六軸系統以及虛擬實境的顯示部分可供測試時，其子計畫將對平台控制的行為分析以及感受力靈敏度的實驗等進行探討，以利未來之發展。在控制輸入的修正方面，在[1,2]中都是以預估器的概念來做控制行為之修正，可是這樣的修正法則常需要搜尋才能產生較佳的控制行為，可是由於這是即時操控系統，即時性的反應性能保證[3]便是一個重要的研究課題，必須加以克服，也就是說如何在有限的時間內找到到目前為止的最好控制輸入，而不會造成系統之問題。當然在[3]中有提出一簡單的規劃、搜尋及暫存的處理方法來避免回尋，以保證解答之可用性。而在[4]中，

利用模糊法則以簡單之增減量的修正演算法，常因為每次都要求即時最佳之反應而產生每次控制輸入都是在飽和區的地方而使得控制的效果不好。而在本年度本計畫所提的研究，主要是延續第一年中的探討，而在前一年度的階層式智慧控制器，

我們僅是利用簡單的輸入修正和低階同步進行，可是由於高階智慧系統必須搜尋及可利用不同解析度的特色。為了更有效地搜尋及在固定有限的時間中避免無效的處

(3)

理，以及為了能使搜尋之結果具較好之特性，我們增加了高階系統之 sampling time 可是在低階系統之 sampling time 則不變，

使得欲搜尋之目標已經不是單一控制輸入而是一串之控制輸入。所以如何地設計搜尋法則及控制輸入之表示法便是我們必須克服的問題。而在 multi-rate 的階層式控制器中我們主要是先以第一年的架構為基礎，並設計串列控制的類別，以供在控制選擇時使用，而串列控制類別之可行，乃是由於針對較長時段下之行為模式的認知及控制行為是對同一系統而為，因此可透學習建立及系統反應之調適而得。

而在學習方法上，我們將針對不同的方法來分析。探討的方向分為 on-line 學習及 off-line 學習兩部分。傳統的學習方式大部分都是以 off-line 學習來完成的，例如倒傳學習式網路學習系統。雖然我們也做相關的探討，可是由於階層式控制器是必須 on-line 執行的，因此本計畫無法納入該研究結果。在 on-line 學習方面，目前我們是以模糊系統[2]及以小腦模式運算（CMAC）

[5,6]為基礎的線上學習系統。而在模糊系統學習部分，在第一年的研究已有探討。本年度主要是探討 CMAC 的 on-line 學習能力。在研究中，我們發現若以文獻上的學習方法，CMAC 的 on-line 效率並不好。這是因為其誤差修正是以平均的方式來修正權重。如是的學習違反了 credit-assignment 的觀念。因此我們提出以學習頻率來當 confidence，並據以做誤差修正比例的分配參考。如是簡單的學習改變，確實增加了 CMAC 的學習速率。這可從圖一中看出。

而我們也利用了以 CMAC 為基礎的 on-line learning control 上。我們可以從軌跡追隨的效果看出其效果是相當好的(見圖二)。

在行為的轉換方面，目前文獻上所提到的是利用 washout filter 的方式來處理的。如是的方式是可以將在無限空間中的運動設法在有限空間中呈現，可是在動態模擬器中許多的運動效果並非只是簡單的物理運動定律所能描述的。較多而必要的是若干的特

效運動感受，而這些感受則是要利用所謂 motion cue 來設計。而傳統的動態模擬器，

由於其設計上也不是利用真實的運動物体的模擬建構來產生虛擬之運動感受，而是去設計不同的 motion cue 來搭配。因此本計劃在第二年的研究中即去了解 motion cue 及其效果。而研究主要是提出以訓練的方式來達到對 motion cue 設計的探討。目前主要的構想是利用使用者的回饋信息來修正 motion cue 的內容。而修正的標的則可分為參數修正及段落重分。而由於回饋信息是由使用者所給的，目前探討的學習主要是針對信息的認定，本年度的簡單作法是利用 reinforcement learning[7]修正。而信息的內容則是使用者對動態模擬器的動作行為加以評分，而由於必須在 try-and-error 的情形下學習，模擬器動作是由若干 motion cue 所組成而後重覆的操作，因此使用者的評分行為和 motion cue 的修正能產生有義意的比對。而目前我們只考慮到參數修正部分，

也就是針對每一段 motion cue，我們以 TSK Fuzzy 模式[9]來表達，因此學習的行為就化約為 membership function 及後件部參數的修正，在這一方面傳統的倒傳學習法被用來修正參數(由於沒有確實想要的輸出值，最小平方差(LS)修正法無法使用)。而在內部加強式信號的產生部分，目前我們是以傳統的 Temporal Difference (TD)[8]預估的方式來進行。由於最近的研究大都使用遺傳演算法，我們也會考慮使用，整個研究的進行在本年度中目前仍只是系統建立及程式撰寫中，在來年的研究中我們將更進一步的探討分析其結果，同時也將納入類似 washout filter 的概念以及段落分割之學習方面。

四. 結論與討論

在虛擬實境的動態模擬系統中，當虛擬系統接收到控制命令而設法產生應有的運動行為描述時，在虛擬實境的顯示以及在模擬運動平台的運動行為則是要儘可能地模擬並使其有身歷其境的感受，以達到虛擬實境的目的。本子計畫將以階層式的智慧控制概念來追求更高階而抽象之控制目標，也就

(4)

是說將六軸運動平台的運動控制當成低階控制系統，而我們的系統則是設法設定控制輸入以使運動行為更符合需求。在階層式控制中，我們以模糊預估器之建立[2]來產生對控制輸入之可能結果並加以評估。本年度主要是探討 CMAC 的 on-line 學習能力。在研究中，我們發現若以文獻上的學習方法，

CMAC 的 on-line 效率並不好。這是因為其誤差修正是以平均的方式來修正權重。如是的學習違反了 credit-assignment 的觀念。因此我們提出以學習頻率來當 confidence，並據以做誤差修正比例的分配參考。如是簡單的學習改變，確實增加了 CMAC 的學習速率。而我們也利用了以 CMAC 為基礎的 on-line learning control 上。我們可以從軌跡追隨的效果看出其效果是相當好的。在研究中我們嘗試架構運動行為之加強式學習，並以模糊法則來描述行為以使學習便成可能。整個研究的進行在本年度中目前仍只是系統建立及程式撰寫中，在來年的研究中我們將更進一步的探討分析其結果，同時也將納入類似 washout filter 的概念以及段落分割之學習方面。

五. 參考文獻

[1] K. G. Shin and X. Cui, “Design of a knowledge-based controller for intelligent control systems”, IEEE Trans. On Systems, Man, and Cybernetics, vol. 21, no. 3, pp.

368-375, 1991.

[2] 蕭志清, ”具調適能力之階層式智慧型控制器,” 國立台灣工業技術學院電機工程技術學程碩士學位論文, 1993.

[3] D. J Musliner, E. H. Durfee, and K. G. Shin,

“CIRCA: A cooperative intelligent real-time control architecture”, IEEE Trans. on Systems, Man, and Cybernetics, vol. 23, no. 6, pp.

1561-1574, 1993.

[4] 陳誠章, “自我調適模糊制器之研發與實現”, 國立台灣工業技術學院電機工程技術學程專題研究計畫成果報告, 11 月,民國 83 年.

[5] C. S. Lin and C. T. Chiang, “Learning Convergence of CMAC Technique,” IEEE Trans. on Neural Networks, vol. 8, no.6, pp.1281-1292, 1997.

[6] T. Tao and S. F. Su, “CMAC-Based online

learning for robust controllers,” Proc. of 1998 R.O.C. Automatic Control Conf., pp.

447-452, Apr., 1998.

[7] S.-H. Hsieh, On The Study of Embedding Fuzzy Concept and Prior Knowledge in Reinforcement Learning, Master Thesis, Dept.

of Electrical Eng., NTUST, 1997.

[8] R. S. Sutton, “Learning to Predict by the Methods of Temporal Differences,” Machine Learning, vol. 3, pp. 9-44, 1988.

[9] T. Takagi and M. Sugeno, “Fuzzy identification of systems and its application to modeling and control,” IEEE Trans. on Systems, Man, Cybernetics, vol. 15, no. 1, pp.

116-131, 1985.

圖一 . The comparison of the learning performance for z(x, y) =(x²−y²)sin5x.

圖二. The trajectory following for unlearned functions in on-line learning control.