導盲機器人之研製---總計畫(II)

(1)

導盲機器人之研製總計劃（2/3）

Design and Development of a Guidance Robot for Blind Pedestrians（2/3）

計劃編號：NSC 89-2213-E-011-063 執行期間：88/08/01－89/07/31

主持人：李祖添教授

執行機構：國立台灣科技大學電機系

一、摘要

本計畫之主要目的在幫助盲人或有視覺傷害的人，能安全的繞過障礙物或突然出現的物體，而到達他所要去的地方。導盲機器人不在於幫助其長距離之旅程，而偏向於小範圍內之運動，如在某一大型建築物內，如醫院、購物中心或開放空間之公共設施，如學校、公園等場合之導引設計。在導盲機器人之本體機構部份，以一電腦控制之自主式移動機器人為基本架構，透過先進之感測系統、即時控制程式與智慧型人機介面達到實際幫助視障者之功效。本計畫預計以三年之時間，分階段逐步進行，

本報告為第二年之執行成果報告。本計畫第一年執行期間我們已完成導盲機器人之本體機構、運動控制、影像閃避障礙物、聽覺系統與人語溝通介面、及感測訊號融合及智慧決策系統之建立。但因第一年所設計的導盲機器人體積龐大，不易用於真實環境，因此予以改良。目前完成之設計為模仿導盲犬與盲人之間的互動機制，並增強其人機介面之操控性，以提高導盲機器人之實用性與可攜性。此外，也進行導盲機器人位置與姿態估測的設計，利用多重感測器資料融合方式，有效減少導盲機器人姿態估測誤差。其次是應用 GPS 於導

盲機器人戶外環境的導航與定位。

為了建立導盲機器人的聽覺系統與口語人機溝通界面，以提供盲胞更方便的操作。在聽覺系統方面，第一年我們已經研發出抗雜訊的口語辨識器使其在高噪音的環境中能有良好的辨識能力。我們提出利用遺傳演算法則的改良式二維倒頻譜參數 (GA-based MTDC)。但因語音信號偵測錯誤會嚴重降低語音辨識率，所以第二年在這方面我們著重研發在噪音環境下能正確偵測語音的方法。

本研究計畫今年的另一研究重點著重在建置一網站，網址為 http：//

140.131.31.189/blind/，用以提供視障者查詢台北縣市的公車路線。計畫的重要貢獻是設計一適合視障者使用的輸入界面，其方便性是即使未學過點字輸入的視障者，亦可輸入其查詢資料，此外，配合查詢的結果以語音的方式輸出，視障者可輕易的使用本網站。

二、計劃緣由與目的

隨著社會的經濟發展，我國已進入已開發國家的行列。在一個進步的社會，很自然的人們會越來越重視對弱勢尤其是具身心障礙者的權益與照顧；根

(2)

據研究報告[1]，在日本的導盲犬協會曾經在 1991 年作過統計，共有 250000 位盲人，有 20000 人若有導盲犬的協助可以獨立生活，但導盲犬的數目只有 700 隻。在台灣的盲人重建院也在 1999 年作過統計，有 50000 人需要導盲犬的協助，可是只有一隻導盲犬。像日本等先進國家在城市中早已有對殘障者的各種照顧措施，如十字路口紅綠燈號伴隨音樂以警示視障者的設計。政府近年來也已重視這方面，有無障礙空間及導盲磚的設置。但這些只是被動之設計，尚無法達到主動導引視障者的目的。由於導盲犬的培育與訓練不易，而且訓練費用高達 30 萬元，所以無法達到普及視障者的數量，因此，發展一種可以幫助視障者的機器人可以更有效導引視障者，解決其行的問題。

對一個視障者而言，最困難的應是會碰到不預期的靜態或動態障礙物，尤其是到一個陌生的地方，由於捉不到方向而無法順利到達目的地，故導盲機器人之主要功能是在導引視障者到達目的地，這可由建立在機器人電腦記憶體中的環境地圖與導航控制來完成；同時避免路途中可能發生的危險，當然最重要的應是防止碰撞到環境中之物體及行人。

三、研究方法與成果

圖一及圖二所示為改良後導盲機器人之外觀照片，由於考慮盲人在使用及攜帶時之方便性同時又不失執行導盲任務所需之必要功能，改良後之導盲機器人之體積尺寸約可容納於一個底面積 30×30cm²，高 30cm 之立方體空間內，總重量約為 15Kg。其系統組成則如圖三所示，核心控制電腦是一台

Pentium233 單板電腦，週邊感測器及介面電路主要包含: 一具 CCD camera 及影像擷取卡，用以補抓環境場景及障礙物之連續影像，作為避障運動控制之主要資訊來源; 影像之外，還使用超音波感測器作為輔助資訊，以預防從 CCD Camera 視野死角出現之障礙物; GPS、

陀螺儀及軸編碼器等是使用於導盲機器人位置及姿態之估測來為機器人作戶外之定位、速度及方位之計算; 此外，由於盲人無法如正常人般使用鍵盤、螢幕等輸出輸入介面來監控導盲機器人的狀態，因此人機介面的設計，除了研製一張語音辨識控制卡以聲音作為人機之間訊息傳遞的媒介之外，在手杖上另外加裝有小型之振動裝置，將導盲犬牽引盲人行進的力量藉由觸覺的方式來模擬呈現。

根據人類感官聽力的實驗，我們知道人耳對低頻部分為線性，但高頻部份則呈對數(log-linearly)刻度分布。因此我們使用 mel 頻率刻度，而其頻率定義為：

mel = 2595 (1 + f / 700) (1)

其中 m 為 mel 頻率刻度而 f 為 Hz 如圖一.所示。我首先對語音訊號x_time(m,n) 作快速富利葉轉換：

( , ) ( , ) ,

1

∑⁻0

=

=^N

n

kn N time

freq m k x m nW

x (2)

0≤k≤N−1,0≤m≤M−1, W_N =exp(−j2π /N)

其中x_freq(m,k)是第 m 個音框頻譜上的 第k 個點，而 N =128。我們用(1)式設 計濾波頻帶和 mel 刻度加權參數。我們可以對頻譜乘上加權參數:

(3)

( , ) ( , ) (, ),

1

∑⁻0

=

=^N

k

freq m k f i k x

i m

x (3)

0≤m≤M −1,1≤i≤20,

其中 i 是濾波器編號，k 為頻譜編號，

f(i,k)是第 i 個濾波器頻譜加權參數。

為了移除雜訊凸波對於 x(m,i) 的影 響，我們將使用 three-point median filter 如下:

3

) , 1 ( ) , ( ) , 1 ) (

, (

ˆ x m i xmi xm i

i m

x = ⁻ ⁺ ⁺ ⁺ (4)

最後經過平滑處理後的xˆ(m,i)再正則化(normalized)以移去平均背景雜訊能量：

5 . ) , ˆ( )

, ˆ(

_ )

, ˆ( ) , ( X

4

∑0

− =

=

−

=

m

i m x i

m x

eng Noise i

m x i m

(5)

我們還可以得到第i 個 band 的能量 E(i) 如下:

( ) ( , ).

1

∑⁻0

=

=^M

m

i m X i

E (6)

因為我們的目的是為找一些有用的頻帶，這些頻帶含有最大語音訊息，

故我們需要一個參數來代表每個頻帶的語音訊號大小。很明顯地，式(6)是一個好的指標來代表每個頻帶的語音訊號大小，因為越多的語音訊號被噪音覆蓋，則E(i)的值越小。換句話說，E(i) 的值越大，則該第 i 個 band 所含有的 語音訊號越多。因此，我們藉由適應性地選取較大E(i)值頻帶，來取得有用的 頻譜能量，以利於語音訊號偵測。

吾人利用現在已漸趨普遍，價格又不高的一般多媒體個人電腦，能讓一般之視障者，在不需另外添購額外昂貴的專用配備，不需旁人的協助下，自己也

能方便的做查詢工作。在這電腦越來越便宜，電腦網路漸趨普遍的今天,讓一般視障者也能享受網際網路的方便。所以，Client 端的 PC，只需使用一般的多媒體電腦即可;而 Server 端，則只需要具備能處理資料庫的 Web Server 即可輕易勝任。

以下分鍵盤輸入與語音輸出兩部分敘述：

鍵盤輸入部份：

1. 非視障者可以選擇以各種輸入法直接鍵入中文字來向本網頁的資料庫做查詢。

2. 已熟悉點字的視障者則可選擇以類似點字的方式輸入欲查詢站名的第一個字的注音符號，本網頁會選擇出適當的站名再供視障者做選擇。

3. 對於不熟悉點字的視障者，也可以選擇以數字代替注音符號的順序的輸入法，輸入欲查詢站名的第一個字的注音符號，再透過本網頁去做選擇。

當使用者連上本網頁，本網頁會在右方的頁框之中顯示「請輸入起迄車站名」，同時，用語音提示讓使用者知曉，

每隔十秒同樣的語音提示會再重複提示，以避免使用者沒聽清楚本網頁語音提示的情況。

圖四、初連上本網頁的畫面。

圖四為初連上本網頁的畫面。當使用者輸入了起點跟終點站之後，本網站就會

(4)

根據使用者輸入之資料搜尋資料庫中的資料，並將之顯示出來讓使用者知道，同樣的，本網頁也是使用語音提示讓使用者知道查詢的結果，以方便視障者使用本網頁。圖五為使用者輸入起點為「台北車站」終點為「南勢角」之查詢結果。

圖五、使用者輸入起點為「台北車站」

終點為「南勢角」之查詢結果。

若是使用者輸入之起點及終點站，沒有公車可以直達，則本網站會在去搜尋可以經由轉車到達目的地的公車車號及轉車地點，同時將所查詢之資料顯示出來並透過語音告知使用者，同樣的，也是每隔十秒就會重複同樣的語音提示告知使用者。圖六為查詢結果。

圖六、使用者輸入可以經由轉車時的查

詢結果。

若是使用者輸入查詢之結果，既非直達車，亦不是轉車就能解決之問題，

本網頁會送出「找不到資料」之訊息通知使用者。

語音輸出部分：

當使用者連上本網頁，本網頁會在右方的頁框之中顯示「請輸入起迄車站名」，並同時播放語音提示讓使用者知道，每隔十秒，同樣的語音提示會再重複提示，以避免使用者沒聽清楚本網頁語音提示的情況。左方即是讓使用者輸入終點及起點站的站名的輸入區。

而聲音的依序播放方面，利用 Java Script 中的 SetTimeout 函式固定時間去偵測 LiveAudio 物件狀態是否播放完畢 (isStop method)，再予以撥放下一個語言檔，但是，利用該方法，不知是何原因，在撥放完二至三個語音檔之後，

LiveAudio 將不再自動停止，造成 isStop 方式偵測失效，而 isStop 方法也只能在 Netscape 瀏覽器中使用， IE 之 MediaPlayer 並不提供該功能，幾經討論，方決定予資料庫多加一欄位，將每個語言檔撥放長度存入資料庫，再透過 ASP 將該資料存入另一 JavaScript 陣列之中，利用該資料設定每次 SetTimeout 功能之時間長短，再予以撥放(play( ) method)出下一語言檔。

在網頁中，預先放置 EMBED tag 于 html 中，先將語音檔載入而不予以自行撥放，等全部語音檔皆下載至 Client 端，再利用 Java Script 依序撥放該語言檔。

之所以決定使用本方法，最大的好處是：撥放語言檔時，不至因為語言檔尚未下載完成，而導致撥放語音時的延遲及不完全。再利用 JavaScript 中的 SetTimeout 功能配合物件陣列，來達到依序之效果。

(5)

四、結論與討論

在本計劃第二年的執行期間我們首先完成了導盲機器人機構本體的改良，導引杖的機構外型，讓盲人在使用導盲機器人時，就如同倚賴導盲犬一般，心理上會有較大的安全感，其次，

大幅地減少體積與重量並且裝設盲人比較容易使用之人機介面，不旦減少導盲機器人的製造成本也同時提高了導盲機器人的實用性、可攜性以及被盲人使用的意願。此外，還完成了多感測器資訊融合方法的研究，主要應用於提高導盲機器人位置與姿態估測的精確度，使用的感測器包含有軸編碼器、陀螺儀。並且，考慮導盲機器人使用於室外的可能性，我們亦完成了 GPS 定位系統應用導盲機器人之初步測試。未來的工作主要將在導盲機器人的反應式行為研究方面。

我們利用多頻帶的觀念(Mel-Scale Frequency Bank)提出新的抗雜訊參數 Adaptive time-frequency (ATF) parameter 以排除雜訊干擾，正確地偵測出語音訊號，提升語音辨識率。它具有能適應環境噪音種類變化或 SNR 變化的優點，故可以實現到真實世界。在實驗數據中，我們經由 4 種不同噪音源測試，我們發現 ATF-based robust algorithm 在噪音干擾時的語音訊號偵測效果確實是優於傳統的語音訊號偵測技術。在目前我們的重點工作是成功地解決在噪音環境下提昇語音辨識率的問題。

現今的台灣大眾交通運輸方面，無論是公車、鐵路、捷運各方面，都已相當建全，在未來，勢必將越來越完善。

本研究計畫所建置的網站，必能協助視障朋友利用越來越完善的交通工具，使

得視障朋友可重其的居住處，或是在各個大眾交通運輸站出入口，配合“導盲磚”，來引導視障者前往使用查詢服務。當中本網站的幾項特性，而更加增加其建置的可能。

(1) 價格較低：目前的盲用電腦費用的昂貴，而本網站的服務電腦，最低限度只需要使用普通多媒體電腦即可。其費用和盲用電腦是不可相比的。

(2) 損壞性低：在目前的盲用電腦，因採“感覺接受資訊”（觸摸式設備）的方式，故其設備常常因視障朋友的疏忽，而造成其設備的損壞，而本網站建置，是採“聽覺接受資訊”(聲音輸出)的方式，其反而降低了其損壞的層度。

(3) 便捷性高：該網站運用特殊的“鍵盤輸入”和“語音輸出”方式，而未來，視障朋友也可利用錄音機將結果錄製下來，避免流失。對視障者接受的層度，是相當可期的。

(4) 廣泛性高：本網站是架設在網際網路下，故可運用其資源共享的特性，透過“多重聲音輸出”傳導給視障者接受。

(5) 維護性高：一個網際網路生存與否，存在於該服務是否可以持續符合使用者的要求。而當公車路線更變時，只需更動語音資料庫方面的資料即可，聲音的錄製方面，若是可以搭配交通部所開發的「盲用智慧型電腦語音合成器」來製作語音資料的話，那勢必將更易維護。

(6) 未來性高：在未來，本網站除了提供視障者大眾運輸工具的查詢功能外，還可以再運用其“聲音輸出”、“鍵盤輸入”的方式，提供其餘網路通訊服務，例：報案、消費、求知、求才… 等等。

本網頁為視障者提供一個無障礙行的空間，即使未曾學習過點字的視障

(6)

生亦能方便的使用本系統而無所障礙，希望此種讓視障者像一般非視障者一樣方便的使用方式，能帶領全球使用者大步邁向「無障礙世界」的目標。

五、參考文獻

[1] Hideo Mori and Mitukuni Sano， “A Guide Dog Robot Harunobu-5-Following a Person” ， IEEE/RSJ International Workshop on Intelligent Robots and System IROS ’91 ，Vol1，pp.397-402，1991。

[2] 沈良寰，”自走式機器人在未知環境之路徑規畫與執行” ，國立交通大學控制工程研究所碩士論文，民國 83 年 6 月。

[3] Johann Borenstein and Iwan Ulrich,

“The Guidecane-A Computerized Travel Aid for the Active Guidance of Blind Pedestrians”, Proceeding of the 1997 IEEE International Conference on Robotics and Automation, Albuquerque, New Mexico-April 1997, pp. 1283-1288.

[4] Aigner, P. and McCarragher, B.,

“Shared Control Framework Applied to A Robotic Aid for the blind”, Robotics and Automation, 1998.

Proceedings. 1998 IEEE, International Conference on Volume:

1 , 1998 , Page(s): 717 -722 vol.1.

[5] David Wells ed., “Guide to GPS Positioning”, Fredericton, N.B.

Canada CANADIAN GPS ASSOCIATES, 1987.

[6] Neil Ackroyd & Robert Lorimer,

“Global Navigation a GPS User's Guide”, London Lloyd's of London Press, 1994.

六、圖表

圖一改良型導盲機器人之外觀

(7)

圖二導盲機器人與操作者之合照

圖三導盲機器人之系統組成圖

單板控制電腦 Pentium233MMX

馬達控制卡與位置估測電路 GPS接收

模組

影像擷取卡

超音波介面卡

語音辨識控制卡

陀螺儀

超音波感測器麥克風

手杖振動裝置

左輪減速馬達

右輪減速馬達軸編碼器

軸編碼器 CCD

camera