感測網路分散式救援機器人研發---總計畫(III)

(1)

行政院國家科學委員會專題研究計畫成果報告

感測網路分散式救援機器人研發--總計畫：感測網路分散

式救援機器人研發(3/3)

研究成果報告(完整版)

計畫類別：整合型計畫編號： NSC 98-2218-E-009-005- 執行期間： 98 年 08 月 01 日至 99 年 07 月 31 日執行單位：國立交通大學電機與控制工程學系（所）計畫主持人：徐保羅共同主持人：楊立杰、葉賜旭、程于芳處理方式：本計畫可公開查詢

中華民國 99 年 11 月 02 日

(2)

行政院國家科學委員會補助專題研究計畫期末報告

※※※※※※※※※※※※※※※※※※※※※※※※※※

※ ※

※

感測網路分散式救援機器人研發－總計劃

※

※ ※

※

※※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別：□個別型計畫 ■整合型計畫

計畫編號：NSC 98-2218-E-009-005

執行期間：98 年 8 月 1 日至 99 年 7 月 31 日

計畫主持人：徐保羅教授

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位：國立交通大學電控工程研究所

中華民國 99 年 9 月 23 日

行政院國家科學委員會專題研究計畫期末報告

(3)

感測網路分散式救援機器人研發－總計劃 (3/3)

計劃編號：NSC 98-2218-E-009-005

執行期限：98/08/01~99/7/31

主持人：徐保羅國立交通大學電機與控制工程系

摘要

串結式機器人具備優越的克服複雜地形能力，相當適合執行救援任務。本報告設計並實現分散式運動控制策略，串結式機器人可以藉由單節之間的合作協調，克服複雜地形。同時，為了賦予機器人自主學習的能力，以增進克服地形的效率，引入了螞蟻演算法進行機器人的行為選擇。藉由在台階地形上的實驗結果驗證，經過第一次的螞蟻演算法訓練後，可縮減地形克服時間 55%。針對克服時間過長的問題，本報告提出了序列訓練，使得第一次訓練時的克服時間標準差，較未加入序列訓練時，減少了 77%。針對學習反效果問題，本報告提出了費洛蒙調整，即使經由多次訓練後，也能保證地形克服時間趨於一致，證明了學習的可靠性。關鍵字：分散式機器人、螞蟻演算法、費洛蒙調整

Abstract

The chain-type robot possesses great capability to overcome complex terrains so that it is suitable for rescue missions. The present design of distributed motion control for the chain-type robot is mainly applied to overcome complex terrains via appropriate coordination among distributed robot modules. Moreover, to improve the chain-type robot motion for complex environments, the learning procedure via the ant colony optimization (ACO) is used. Experimental results on the step motion show that ACO decreases the terrain conquering time by 55% after the first learning procedure. In addition, the sequential training is proposed to decrease the conquering time and the deviation of conquering time for the first learning procedure is 77% less than that without sequential training. The algorithm of pheromone adjustment is also proposed to

(4)

suppress the deviated results of the learning. With pheromone adjustment, the satisfactory results in deviation of conquering time are guaranteed even after several learning procedures to prove that the proposed learning for distributed robots is reliable and feasible.

Keywords: distributed robots, ant colony optimization, pheromone adjustment

1. 研究背景

所謂的串結式機器人(chain-type robot)，係由多個單節履帶機器人串結而成。相較於單節機器人，串結式機器人可以藉由單節間的推、拉，以及抬舉關節、旋轉關節等較單節機器人多的自由度，克服更複雜的地形，因此相當適合執行救援任務。雖然串結式機器人具備先天機構上的優越克服地形能力，但多節機構使得機器人與環境的互動複雜，造成了控制的困難性。針對此控制困難性，過去的研究者大致提出以下方法。 Wang et al.[1]建構了分散式的串結機器人機構，各個單節的履帶機器人可以獨立運作，也可以經 由電腦操控，組合而成三節的機器人。這篇論文利用紅外線測距儀、GPS、陀螺儀、影像處理模組等感測器，讓機器人可以偵測環境的狀態以及自身的姿態。這篇論文僅簡單描述了克服台階地形、從傾倒狀態回復的運動步驟，但對於如何根據感測資訊，進行進一步的姿態調整，甚至於策略的適應性，都沒有深入討論。 Gao et al.[2]利用力感測器的回授，機器人得以自主調整姿態，執行跨越高突的障礙物、攀爬階梯 與鑽過牆上的洞等任務。Hutchison et al.[3]利用基因演算法與神經網路，賦予串結式機器人自主學習 能力，能夠克服踏板上有石頭的階梯地形。這兩篇論文皆外加大量感測器(力感測器、距離感測器等)，但實務上，在複雜環境中，外加感測器容易因碰撞而損壞，不禁令人思考，是否有方法可以節省感測器的使用，同時又能讓串結式機器人順利克服複雜地形？陳俊傑[4]利用擾動觀測器，僅需過馬達的速度與電流，就能估測外界地形施於機器人的干擾扭矩，設計 admittance 控制器，完全不需外加任何感測器，即能調整關節馬達轉速，克服步階、斜坡，與複雜地形。這給了本論文利用馬達資訊偵測機器人與環境互動關係的靈感，但與[4]不同的是，本報告又賦予了串結式機器人自主學習的能力，機器人透過在運動過程中的詴誤學習，得以更穩健、更有效率地的克服地形。

(5)

2. 分散式行為模式多單元控制

2.1. 分散式行為模式多單元控制 如下圖 2-1 所示，串結式機器人在硬體機構上，即具有多單元(multi-unit)的特性。 L i n k 1 J o i n t 1 L i n k 2 J o i n t 2 Unit 1 Unit 2 圖 2-1 串結式機器人硬體機構的多單元特性

在此，將li n k 1和 j o i n t 1劃分為u n i t 1，l i n k 2和 j o i n t 2劃分為u n i t 2，以此類推。這種多單元的特性，可以推展到軟體演算法中，成為分散式策略。軟體演算法的分散式架構如下圖 2-2 所示。在此架構中，個別單元獨立決策，單元間再透過訊息( m e s s a g e )的溝通達成協調。 Accelerometer , Motor Feedback Action Output Motor Feedback Message Unit 1 Action Output Unit 2 Behavior-based Motion Control Behavior-based Motion Control 圖 2-2 串結式多單元分散式控制架構多單元(m u l t i-u n i t )的演算法架構有以下兩種優點： ( 1 ) 可擴充性( e x t e n s i b i l i t y )：當硬體機構多了一個u n i t或少了一個u n i t時，在軟體上僅需增加或刪減處理該un i t的模組即可，無需進行繁瑣的修改。 ( 2 ) 簡易性( s i m p l i c i t y )：單一u n i t的演算法模組僅需考慮自身u n i t的決策即可，各個u n i t間再透過 m e ss a g e的傳送、接收，以達成協調。個別單元決策介紹如下：

(6)

2.2. 以行為模式控制克服地形障礙 個別單元藉由基於行為架構進行運動控制。基於行為決策可在系統模型未知的情況之下，奠基於馬達扭矩資訊、三軸加速度計等感測資訊，以專家經驗所得的控制規則，控制機構的運動，以克服地形。本研究所設計的基於行為[5]架構如下圖 2-3 所示。基於行為架構的特色為，將機器人整體的動作，依照動機，劃分為幾個較簡單的行為，再經由行為的協調，決定最終的動作輸出。由於各個行為都是一個決策模組，因此將來需要增加功能時，可以輕易地增添行為，具良好的擴充性。 Riser Climbing Tread Landing Accelerometer Motor Torques Sensor Data Master Master Following Slave Behavior Arbitration By ACO Action , Command Action Command Master Token Slave Token Enable Enable Message 圖 2-3 個別單元的基於行為架構

根據單元的角色為 master 或 slave，將致能 master 角色的行為(riser climbing 與 tread landing)，或 slave 角色的行為(master following)。

各行為分別介紹如下： 2.2.1. Riser Climbing行為 Master Slave 圖 2-4 機器人困住於豎板(riser)前

Master Slave 圖 2-5master 往上抬以攀爬豎板如上圖 2-4、圖 2-5 所示，當機器人藉由馬達扭矩資訊偵測到困住時，master 單元將往上抬昇，同時 master 命令 slave 往下壓，以輔助 master 的運動。slave 接收到 master 的命令後，將啟動 master following 行為，執行 master 的命令。狀態圖如下圖 2-6。

(7)

圖 2-6 master 的 riser climbing 行為狀態圖

而上抬的關節轉速Speed=MAX_SPEED_stuck(MAX_SPEED為馬達最大轉速)，則是由模糊推論

(fuzzy reasoning)的第二種型態，Tsukamoto 所提出的方法[6]，推演而來。使用此方法的好處為，可將關節馬達的轉速命令，以一簡單的式子表示，無需進行繁複的解模糊化(defuzzification[6])運算。如下圖 2-7 所示，  為偵測到的履帶馬達扭矩，v 為關節馬達轉速命令，利用模糊規則「IF is stuck , THEN v is max」推論而得所需的轉速命令。 (Motor Torque)  1 170 252 MAX_SPEED (110 rpm) v(Motor Speed) max

(v)



1

IF is



stuck

, THEN v is

max

Fuzzy Reasoning of the Second Type: Tsukamoto’s Method

( )

stuck





(8)

2.2.2. Tread Landing 行為 Master Slave 圖 2-8 master 困住於踏板(tread)上 Master Slave 圖 2-9 master 往下壓以登上踏板如上圖 2-8、圖 2-9 所示，當 master 困住在踏板上方時，master 單元將自身往下壓，同時命令 slave 往上抬，以輔助 master 的運動。狀態圖如下圖 2-10 所示。 Master’s behavior: Tread Landing Master’s behavior: Tread Landing

圖 2-10 master 的 tread landing 行為狀態圖

有了行為的設計後，還需要經由行為的協調，master 單元才能決定動作(action)與訊息(message) 的輸出。然而，如下圖 2-11、圖 2-12 的例子所示，當機器人藉由馬達扭矩資訊偵測到困住時，若缺乏距離感測器，並無法分辨圖 2-11、圖 2-12 這兩種情況，換言之，機器人並無法透過對環境的感知，清楚分辨該執行 riser climbing 或 tread landing 行為。

(9)

Master Slave 圖 2-11 此時需執行 tread landing 行為 Master Slave 圖 2-12 此時需執行 riser climbing 行為針對此問題，強化式學習往往是不錯的解決方案。而螞蟻演算法[7][8]可將候選解的機率分布以費洛蒙濃度表示，並利用環境給機器人的反饋訊號，更新費洛蒙濃度，調整控制策略。由於螞蟻演算法在求解過程中，並不會修改或刪除任何現有的解，僅僅改變解的機率分布，因此螞蟻演算法具有極佳的搜索能力，不易陷入次佳解中。基於搜索能力強的優點，本論文引入螞蟻演算法，進行機器人的行為協調，使得機器人可以在運動過程中，自主調整策略，增進克服地形的效率，且即使在缺乏距離感測器的情況下，依然能透過詴誤學習，成功克服地形。

3. 螞蟻演算法自主學習

3.1. 螞蟻演算法簡介

螞蟻演算法(ant colony optimization[7][8])係從自然界中，螞蟻群體的行為，得到靈感，進而發展出來的一門學問。自然界中，螞蟻總能找到一條把食物搬回家的最短路徑。當發現食物時，兩隻螞蟻同時離開巢穴，分別走兩條路線到食物處。較快回來的，因費洛蒙揮發較少，會在其路線留下較多的費洛蒙(pheromone)作為記號。因此，其他同伴聞到較重的味道時，自然就會走較短的路線，然而，會有少部分的螞蟻不會依循目前費洛蒙較多的路線去走，而會憑自己的意思走新的路，因此可以漸漸地找到最短路徑。示意圖如下圖 3-1 所示。 Without reinforcement, pheromone evaporates. Pheromone trail 圖 3-1 螞蟻演算法示意圖螞蟻演算法的優點在於具有良好的搜索能力(exploration ability)。螞蟻演算法在求解的迭代過程

(10)

中，螞蟻演算法並不會修改或刪除任何現有的解，僅僅是更改每個可能解的機率分布(以費洛蒙表示)。由於所有可能的解，從頭到尾都被保留下來，因此不容易陷入次佳解(sub-optimal solution)中。另外，當環境產生變化，而導致最佳解改變時，搜索能力也賦予了適應性[8]。然而，螞蟻演算法的缺點在於，當搜索空間過大時，往往會耗費很多時間求解。在串結式機器人的克服地形運動的應用上，會造成地形克服時間過長。對此，本論文提出序列訓練(sequential training，詳見 3.3.節)改善之。 3.2. 以螞蟻演算法進行 Master 角色的行為選擇 在此，我們規劃將螞蟻演算法用於串結式機器人的強化式學習。首先，將 master 角色的傾斜角，劃分為 R1、R2、…、R5 五個區域，如下圖 3-2 所示。



R1 R2 R3 R4 R5 R6 R7 0 15 0 45 0 75 0 45  0 75  R5 0 15  圖 3-2 傾斜角分區圖每次的決策，就如同一隻螞蟻要離開蟻窩找尋路線。螞蟻會根據目前的傾斜角資訊(由加速度計資訊推得)，決定要去中繼站 R1、R2…或 R5。抵達中繼站後，會根據各條路徑的費洛蒙濃度，機率性地選擇行為輸出，費洛蒙濃度愈高的路徑，被選中的機率愈高，如下圖 3-3 所示。

(11)

圖 3-3 以螞蟻演算法進行行為協調示意圖 在第 i 個中繼站上，選擇第 j 個行為的機率Pij(t)，與第 i 個中繼站到第 j 個行為的路徑上的費洛蒙 濃度Phij(t)，關係如下式(3-1)：



  n k ik ij ij t Ph t Ph t P 1 ) ( / ) ( ) ( (3-1) 每次的決策循環結束後，將評估這次循環所執行的行為，對環境適應性的高低，並以此更新該路徑上的費洛蒙濃度。費洛蒙更新如下式(3-2) ) 1 ( / ) ( ) 1 ( ij stuck ij t Ph t b a Ph      (3-2) b為費洛蒙的衰減率， a 為費洛蒙的加強率， stuck為困住的程度，困住的程度愈小，代表該行為愈能適應環境。愈大的b與 a 會造成現在的現在的狀態(困住的程度)對費洛蒙更新的影響愈大。然而， 愈小b與 a 卻造成歷史經驗(過去的費洛蒙濃度)對費洛蒙更新的影響愈大。為了兼顧從歷史經驗學 習，以及適應目前狀態的變化，b與 a 的值需加以權衡，在此選擇b為 2.31， a 為 100。 3.3. 以序列訓練改善隨機選擇行為的缺點 由於螞蟻演算法的隨機選擇特性，且如上頁圖 3-3 所示，總共有 10(5 個傾斜角分區2 個候選行為)條費洛蒙路線需要進行最佳化，龐大的搜索空間會造成機器人需要花很多時間進行最佳解的搜索，而導致克服時間過長。以圖 4-2(a)為例，在第一次訓練時，有將近 30 秒、超過 30 秒，甚至於將近 80 秒的台階克服時間分布，這些克服時間都嫌過長。觀察機器人克服台階的過程，隨機的選擇的特性會讓機器人陷於多次反覆下圖 3-4 至圖 3-7 的姿態，困住好一段時間後，才能擺脫困境。

(12)

圖 3-4 克服台階過程圖 3-5 克服台階過程圖 3-6 克服台階過程圖 3-7 克服台階過程因此，本研究提出了序列訓練(sequential training)，以改善之。如下表 3-1 所示，利用預先定義好的行為序列，取代隨機行為選擇，如此一來，機器人不會陷入持續反覆如圖 3-4 至圖 3-7 姿態的窘境，節省嘗詴姿態的時間。當機器人困住超過 10 秒鐘時，將令機器人執行此行為序列，並同時更新費洛蒙，以縮短學習過程。表 3-1 預先定義好的行為序列 Riser Climbing … Riser Climbing Tread Landing … Tread Landing 加入了序列訓練(sequential training)後，整體以螞蟻演算法進行行為協調的流程，如下圖 3-8 所示。

(13)

Initialize Pheromone Trails

Choose Behavior Output Probabilistically According to Pheromone

Update Pheromone Trails by Motor Torques Stuck over 10 Seconds?

No

Yes

Sequential Training

Sequential Training Over?

Yes no Stuck? Yes No 圖 3-8 螞蟻演算法行為協調加入序列訓練後的流程圖 3.4. 以費洛蒙調整改善學習反效果問題 如下圖 3-9 所示，以螞蟻演算法進行行為協調時，當機器人困住的時候，才會執行行為，接著也才會去執行費洛蒙。但若機器人沒困住，則不會更新費洛蒙。圖 3-9 更新費洛蒙流程圖如此一來，會造成如下圖 3-10 的現象。當機器人經由長時間的詴誤，終於擺脫困住的情況後，僅在由困住變為未困住的那一瞬間，費洛蒙才會增加，無法達到像初始狀態那樣高的濃度。 No Execute a behavior probabilistically Update pheromone Stuck?

(14)

t

pheromone

stuck

not stuck

t

pheromone

stuck

not stuck

pheromone

stuck

not stuck

圖 3-10 經由學習後，費洛蒙難以達到如初始狀態的高濃度再觀察上式(3-2)，ph t_ij( )代表的是由過去累積到現在的經驗，若ph t_ij( )過低，便無法提供未來的決策一個強而有力的經驗基礎，機器人此時就往往需要重新學習詴誤，因而造成反覆學了多次以後，地形克服時間的標準差反而增大。如圖 4-2(a)所示，第三、四次的克服時間資料較第二次為分散。(實驗數據詳見 4.1.1.節) 針對此問題，本論文提出了費洛蒙調整(pheromone adjustment)的機制。以下表 3-2 為例，本論文所提出的費洛蒙調整方式為，將目前的傾斜角分區(在此例中，位於 R3，即15 ~15 )至 tread landing 行為路線上的費洛蒙提升至 250(250 為費洛蒙初始設定的最高濃度，代表最適應環境)，riser landing 的費洛蒙再依比例調整。將費洛蒙濃度提昇，可提昇過去的經驗對費洛蒙更新的影響力，換言之，可提供較強大的歷史經驗基礎，如此一來，原本已經能適應環境的策略較容易保存下來，經過多次訓練後，地形的克服時間趨於一致。表 3-2 費洛蒙調整示例

p h e r o m o n e

5 0

2 5 0

3 0

1 5 0

r i s e r

c l i m b i n g

t r e a d

l a n d i n g

b e h a v i o r

R3

inclination

30

150

50

250 pheromone

riser

climbing

tread

landing

behavior

R3

inclination

將費洛蒙調整引入螞蟻演算法，流程圖則如下圖 3-11 所示。當機器人偵測到超過 5 秒的時間都沒困住時，代表目前的費洛蒙分布適合環境，因此即啟動費洛蒙調整機制，以提供未來的行為選擇，較強的歷史經驗基礎。

(15)

Execute a behavior

probabilistically Update pheromone

Yes

No Stuck?

Not stuck for

over 5 seconds Adjust pheromone

No Yes 圖 3-1 螞蟻演算法結合費洛蒙調整流程圖

4. 實驗結果與討論

本研究已完成了串結式機器人的克服地形控制策略，並透過實驗驗證策略的可行性，分別說明如下： 4.1. 兩節機器人實驗 4.1.1. 台階地形實驗 兩節串結式機器人的克服台階地形過程如下圖 4-1(a)(b)(c)(d)所示。圖 4-1(a) 圖 4-1(b) 圖 4-1(c) 圖 4-1(d) 利用螞蟻演算法訓練兩節串結式機器人爬台階，每次實驗訓練了四次，每次訓練都是以上次訓練所得的費洛蒙進行控制。訓練完四次後，再將訓練結果忘掉，重啟新的實驗，共 10 次實驗。下頁圖 4.2(a)(b)分別為未加序列訓練，與加了提出的序列訓練後的實驗結果。

(16)

圖 4-2(a)未加序列訓練 圖 4-2(b)加了序列訓練表 4-1 為未加序列訓練時的實驗數據統計。可發現第二、三、四次訓練時，克服時間的中位數皆少於第一次，最低可及第一次訓練的 45%(第二次訓練時，克服時間中位數為 10 秒，是第一次訓練時 22 秒的 45%)。但觀察圖 4-2(a)，可發現偶爾會有訓練時間過長的問題，此乃由於隨機選擇行為的緣故。表 4-1 原始螞蟻演算法的克服時間中位數(秒) 1st 2nd 3rd 4th Median Conquering 22 10 11 12 Time (s) 由圖 4-2(b)，可發現加了序列訓練後，第一次訓練的克服時間即較未加序列訓練時減少許多，也由於第一次訓練的克服地形效率就相當好，第二、三、四次的平均克服皆與第一次差不多。另外，若觀察標準差比較如表 4-2，亦可發現加了序列訓練後，標準差均較未加序列訓練時小，可見有效地消除了克服時間過長的問題。其中，第一次訓練時的克服時間標準差，差異最為顯著。加入序列訓練後，克服時間標準差相較於未加入序列訓練時，減少了 77%(由 19.01 秒降為 4.35 秒)。表 4-2 未加與加入序列訓練時，克服時間標準差比較，單位：秒

1st run 2nd run 3rd run 4th run

Without sequential training 19.01 2.65 10.55 7.34 1 2 3 4 0 10 20 30 40 50 60 70 80 Run C o n q u e ri n g T im e ( s ) 1 2 3 4 0 10 20 30 40 50 60 70 80 Run C o n q u e ri n g T im e ( s ) Average Median

(17)

With sequential training 4.35 2.49 6.23 4.28 原始螞蟻演算法，與加上費洛蒙調整後的實驗結果分別如下圖 4-3(a)(b)所示。 1 2 3 4 0 10 20 30 40 50 60 70 80 Run C o n q u e ri n g T im e ( s ) 1 2 3 4 0 10 20 30 40 50 60 70 80 Run C o n q u e ri n g T im e ( s ) 1 2 3 4 0 10 20 30 40 50 60 70 80 Run C o n q u e ri n g T im e ( s ) 1 2 3 4 0 10 20 30 40 50 60 70 80 Run C o n q u e ri n g T im e ( s ) 圖 4-3(a) 未加費洛蒙調整圖 4-3(b) 加了費洛蒙調整表 4-3 台階克服時間中位數(標準差) 單位：秒

1st run 2nd run 3rd run 4th run

Without pheromone adjustment 22 (19.01) 10 (2.65) 11 (10.55) 12 (7.34) With pheromone adjustment 22 (9.05) 12 (4.53) 14 (3.44) 13.5 (2.73) 由上圖 4-3(a)(b)比較可發現，加了費洛蒙調整機制後，第三、四次訓練的克服時間都不會比第二次訓練的克服時間分散，有效抑制學習反效果的問題。由表 4-3 也可發現，加入費洛蒙調整後，第三、四次訓練的克服時間標準差，皆不會大於第二次訓練。同時，也由於第三、四次訓練的克服時間分布並不會較第二次分散，第三、四次訓練的克服時間標準差與中位數差不多。 Average Median

(18)

4.1.2. 克服斜坡上的台階實驗 當數個台階設於斜坡上時，串結式機器人一樣可以克服，如圖 4-4(a)(b)(c) 所示。 圖 4-4(a) 圖 4-4(b) 圖 4-4(c) 4.2. 三節機器人實驗 本報告所提出的分散式行為模式多單元控制，使得當硬體機構擴充時，軟體演算法亦能輕易擴展。在此小節中，將原兩節機器人擴充為三節機器人，並於階梯與崎嶇地形所組成的複雜地形中進行測詴。如下圖 4-5(a)至圖 4-5(e)所示。圖 4-5(a)中，機器人困住，機率性地選擇將第一節往上抬。此時依然困住，接著圖 4-5(b)中，改將第一節往下壓，終於可以克服階梯。然而圖 4-5(c)中，當接觸到崎嶇地形時，由於先前的下壓姿態，使得機器人困住。因此圖 4-5(d)中，將第一節上抬、拉平，以克服崎嶇地形。最後，如圖 4-5(e)所示，終於成功通過複雜地形。

在此過程中，可發現，所提出的策略，讓串結式機器人於運動過程中，嘗詴動作，並自主判斷該動作是否適應地形，以調整動作的機率分布，藉由即時調整策略，最終能順利克服地形。

(19)

圖 4-5(a)困住，嘗詴往上抬，依然困住圖 4-5(b)改為往下壓，得以克服圖 4-5(c)先前的往下壓姿態，導致困住圖 4-5(d)頭部拉平，以克服困境圖 4-5(e) 成功通過

5. 結論

根據目前的研究成果做出以下兩點結論： 1. 以串結式機器人單節之間的合作協調克服複雜地形：

提出串結式機器人的串結式多單元分散式控制，透過 master 與 slave 角色的合作：master 的攀爬豎板(riser climbing)與登上踏板(tread landing)行為、slave 遵從 master 的命令，得以克服複雜地形。雖然目前實現在三節串結式機器人上，只需兩種角色，但未來機器人擴充為更多節時，可增添更多角色，具有良好的擴充性。

2. 透過學習，增進機器人克服地形的效率：

引入螞蟻演算法，賦予機器人自主學習能力，藉由運動過程中的詴誤，自主

(20)

由螞蟻演算法第一次訓練後，可縮減整體地形克服時間 55%。針對克服時間過長的問題，提出序列訓練，以預先定義好的行為序列，取代隨機行為選擇。加入序列訓練後，第一次訓練的克服時間標準差，較未加入序列訓練時縮減 77%。並針對學習反效果(多次學習後，克服時間反而變長)問題，提出費洛蒙調整機制，當行為適合環境時，適時調高費洛蒙。實驗結果證實，經多次學習後，克服時間標準差並不會隨著增大，有效壓抑學習反效果。(詳見圖 4-3 與表 4-3)

6. 參考文獻

[1] W. Wang, H. Zhang, G. Zong, and J. Zhang, “Design and Realization of a Novel Reconfigurable Robot with Serial and Parallel Mechanisms,” IEEE International Conference on Robotics and Biomimetics, pp.697-702, 2006.

[2] J. Gao, X. Gao, W. Zhu, J. Zhu, B. Wei, “Design and Research of a New Structure Rescue Snake Robot with All Body Drive System,” Proceedings of 2008 IEEE International Conference on Mechatronics

and Automation, pp. 119-124, 2008.

[3] W. R. Hutchison, B. J. Constantine, J. Borenstein, and J. Pratt, “Development of Control for a Serpentine Robot,” Proceedings of the 2007 IEEE International Symposium on Computational Intelligence in

Robots and Automation, pp. 149-154, 2007.

[4] 陳俊傑, “串結式救援機器人之設計與控制,”國立台北科技大學機電整合研究所碩士論文,中華民國98年

[5] R. C. Arkin, “Behavior-based Robotics,” The MIT Press, 1998.

[6] C. T. Lin and C. S. G. Lee, “Neural Fuzzy Systems,” Prentice Hall., 1996.

[7] M. Dorigo, M. Birattari, and T. Stuzzle, “Ant Colony Optimization,” Computational Intelligence

Magazine, IEEE, vol. 1, no. 4, pp.28-39, Nov. 2006.

[8] A. Costa, “Ants, Stochastic Optimization and Reinforcement Learning,” The Australia Mathematical

(21)

(22)

98 年度專題研究計畫研究成果彙整表

計畫主持人：徐保羅計畫編號：98-2218-E-009-005- 計畫名稱：感測網路分散式救援機器人研發--總計畫：感測網路分散式救援機器人研發(3/3) 量化成果項目實際已達成數（被接受或已發表）預期總達成數(含實際已達成數) 本計畫實際貢獻百分比單位備註（質化說明：如數個計畫共同成果、成果列為該期刊之封面故事 ... 等）期刊論文 0 0 100% 研究報告/技術報告 4 4 100% 參與 2009 年中華民國自動控制會議各子計畫發表論文一篇研討會論文 4 4 100% 篇論文著作專書 0 0 100% 申請中件數 0 0 100% 專利已獲得件數 0 0 100% 件件數 0 0 100% 件技術移轉權利金 0 0 100% 千元碩士生 1 1 100% 博士生 1 1 100% 博士後研究員 0 0 100% 國內參與計畫人力（本國籍）專任助理 1 1 100% 人次期刊論文 0 0 100% 研究報告/技術報告 0 0 100% 研討會論文 0 0 100% 篇論文著作專書 0 0 100% 章/本申請中件數 0 0 100% 專利已獲得件數 0 0 100% 件件數 0 0 100% 件技術移轉權利金 0 0 100% 千元碩士生 0 0 100% 博士生 0 0 100% 博士後研究員 0 0 100% 國外參與計畫人力（外國籍）專任助理 0 0 100% 人次

(23)

其他成果

(

無法以量化表達之成果如辦理學術活動、獲得獎項、重要國際合作、研究成果國際影響力及其他協助產業技術發展之具體效益事項等，請以文字敘述填列。) 參與 2010 年 TI DSP 競賽，獲得佳作。近年各子計畫成果如下：子計畫一：期刊論文三篇，會議論文三篇。子計畫二：期刊論文四篇，會議論文二篇子計畫三：期刊論文二篇，會議論文二篇子計畫四；會議論文三篇成果項目量化 名稱或內容性質簡述 測驗工具(含質性與量性) 0 課程/模組 0 電腦及網路系統或工具 0 教材 0 舉辦之活動/競賽 0 研討會/工作坊 0 電子報、網站 0 科教處計畫加填項目計畫成果推廣之參與（閱聽）人數 0

(24)

(25)

國科會補助專題研究計畫成果報告自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）

、是否適

合在學術期刊發表或申請專利、主要發現或其他有關價值等，作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標（請說明，以 100 字為限）

□實驗失敗

□因故實驗中斷

□其他原因

說明：

2. 研究成果在學術期刊發表或申請專利等情形：

論文：□已發表 ■未發表之文稿 □撰寫中 □無

專利：□已獲得 □申請中 ■無

技轉：□已技轉 □洽談中 ■無

其他：（以 100 字為限）

3. 請依學術成就、技術創新、社會影響等方面，評估研究成果之學術或應用價

值（簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性）（以

500 字為限）

完成 Chain-type 救援機器人之運動，克服惡劣地理環境，並達成學習改善之目標。

感測網路分散式救援機器人研發---總計畫(III)

行政院國家科學委員會專題研究計畫 成果報告

感測網路分散式救援機器人研發--總計畫：感測網路分散

式救援機器人研發(3/3)

研究成果報告(完整版)

中 華 民 國 99 年 11 月 02 日

行政院國家科學委員會補助專題研究計畫期末報告

※※※※※※※※※※※※※※※※※※※※※※※※※※

※ ※

※

感測網路分散式救援機器人研發－總計劃

※

※ ※

※

※

※※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別：□個別型計畫 ■整合型計畫

計畫編號：NSC 98-2218-E-009-005

執行期間：98 年 8 月 1 日至 99 年 7 月 31 日

計畫主持人： 徐保羅 教授

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位：國立交通大學電控工程研究所

中 華 民 國 99 年 9 月 23 日

行政院國家科學委員會專題研究計畫期末報告

感測網路分散式救援機器人研發－總計劃 (3/3)

計劃編號：NSC 98-2218-E-009-005

執行期限：98/08/01~99/7/31

主 持 人：徐保羅 國立交通大學電機與控制工程系

摘要

Abstract

1. 研究背景

2. 分散式行為模式多單元控制

(v)



IF is



stuck

, THEN v is

max

( )





3. 螞蟻演算法自主學習





t

pheromone

stuck

not stuck

t

pheromone

stuck

not stuck

pheromone

stuck

not stuck

p h e r o m o n e

5 0

2 5 0

3 0

1 5 0

r i s e r

c l i m b i n g

t r e a d

l a n d i n g

b e h a v i o r

R3

inclination

30

150

50

250

pheromone

riser

climbing

tread

行政院國家科學委員會專題研究計畫成果報告

中華民國 99 年 11 月 02 日

計畫主持人：徐保羅教授

中華民國 99 年 9 月 23 日

主持人：徐保羅國立交通大學電機與控制工程系