• 沒有找到結果。

導盲機器人之研製---子計畫三:導盲機器人之視覺系統與人機溝通介面研製

N/A
N/A
Protected

Academic year: 2021

Share "導盲機器人之研製---子計畫三:導盲機器人之視覺系統與人機溝通介面研製"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會補助專題研究計畫成果報告

※ ※ ※※ ※ ※※ ※ ※ ※ ※ ※※ ※ ※ ※ ※ ※ ※ ※ ※ ※ ※

子計畫三:導盲機器人之聽覺系統與人機溝通介面研製﹙III﹚

※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別:□個別型計畫 ■整合型計畫

計畫編號:NSC89-2218-E-009-040-

執行期間:89 年 08 月 01 日至 90 年 07 月 31 日

計畫主持人:林進燈 教授

共同主持人:

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位:國立交通大學電機與控制工程研究所

民 國

90

7

31

(2)

子計畫三:導盲機器人之聽覺系統與人機溝通介面研製﹙III﹚

Hearing and Human-machine Communication System of a Guidance

Robot for Blind Pedestrians

計畫編號:NSC89-2218-E-009-040

執行期限:89.7.31 90.7.31

主持人:林進燈

國立交通大學 教授

執行機構:國立交通大學電機與控制工程研究所

一、摘要 本研究計畫主要是建立導盲機器 人的聽覺系統與口語人機溝通介面, 以提供盲胞更方便的操作。在第一年 我們研發出抗雜訊的口語辨識器,卻 發現語音訊息偵測錯誤會嚴重降低語 音辨識器辨識率的問題,因此在第二 年我們也成功的研發出在噪音環境下 能正確地偵測語音訊號的方法,這兩 年我們針對的皆為辨識視障者對導盲 機器人所下的口語命令,但導盲機器 人也必須回饋視障者一些週遭資訊, 在第三年我們便是針對這個部分,成 功地建立中文語音合成器,讓視障者 與導盲機器人之間能有一道溝通的橋 樑。與一般方法所不同的,我們的研 究方向著重於韻律訊息產生器的探 討,所提出的遞迴式模糊類神經網路 是一個結合自我建構模糊類神經推論 網路(SONFIN)與多層遞迴式類神經 網路的組織架構,經由一些試聽測試 後,其結果顯示合成出的語音較以往 更為自然。 二、目前研究進度 中文語音合成器的基本架構,主 要分為三大部份:語音資料庫、語音 合成器及韻律訊息產生器。接下來我 們便深入各部份一一地來做介紹。 首先第一個部分為語音資料庫 方面。在中文處理上一般有兩種方 式:第一種是利用語言學上的知識, 制定一套完善的文句剖析法則,或是 利用一些經驗法則來分析文句,然而 這種方法無法涵蓋所有的文句,因此 仍有斷詞錯誤的情形發生。另一種則 是蒐集大量的詞彙加以分析以建立 一個詞庫,這種方法不太需要語言學 上的知識,然而有限的詞庫亦無法包 含所有的詞彙,因此有可能發生在詞 庫中找不到匹配的詞而造成錯誤。本 系統採用的是後者的方式。所使用的 資料庫主要分為兩大部分: ﹙一﹚詞典:提供詞彙供電腦查詢之 用,以中研院八萬詞目之詞庫 為基礎,經語音處理實驗室整 理後,所得到約十一萬詞之詞 庫。 ﹙二﹚語料庫:語料庫的內容主要是 已經做正確斷詞並標上正確 詞類的中文文句,可供建立語 言模型的計算與測試之用,使 用的是中研院二百三十萬詞 平衡語料庫。 接下來的文句分析主要可分成文 字前處理(Preprocessing)和自然語言剖 析(Parsing)兩個步驟。 ﹙一﹚文字前處理:原始的文字資料, 內容可能包括各種數字、日期、 時間等特殊的表示法,是無法直 接按照其文字念出來的。因此通 常需要先經過一到轉換的手續, 稱 為 文 字 正 規 化 (Text Normalization),將這些特殊文字 轉換成適當的朗讀文字。 ﹙二﹚自然語言剖析:剖析的最終目 的,是要瞭解整個文句的句法 結構。其中包含了各種層次的 語調單位、詞類以及各語詞單 位的關係程度,產生抑揚頓挫 的變化。因此各語詞的詞類以 及彼此的關係程度,將影響其 朗讀的韻律變化。 在語文分析過程中,常會有不易

(3)

理解的語句存在,歧義性(ambiguity) 無疑是一大影響因素,語文的歧義性 可以發生在許多層次上,諸如:語句 結構、詞彙類別及詞彙意義等。在此, 我們列舉一些常常發生的歧義情形: ﹙一﹚詞類歧義:有些詞彙具有數種 不同的詞類性質,如下面的句 子中「制服」可以當動詞或名 詞。 n我 看 到 一 件 制 服 歹 徒 的 案 子。(動詞) n我看到一件制服有很漂亮的 配飾。(名詞) ﹙二﹚詞間歧義:由於中文句中,詞 都沒有標記,因此連續的中文 字有時會出現可以斷成好幾種 詞的組合,也許只有一種組合 才符合句意,但也許不同的組 合可各自形成不同的句意。 n他 是 一 個 守 本 分 秒 必 爭 的好青年 n他是一個 守本分 的好青年 此部份的技術乃利用馬可夫機率 模型( Markov model )並結合中研院詞 庫小組所發展之分詞標準,將中文斷 詞與標詞類同時完成。 第二部分為基本的語音合成器。 語音合成的過程,都是先產生一個單 位音(Unit Voice),再由合成器根據韻 律資訊加以調整連接,而成為最後的 連續語音波形。單位音可長可短,並 不一定是一個單音,而是指語音合成 的基本單元,與所採用的語音合成方 法有密切的關係。這些合成單元包括 音素(phoneme)、雙音素(diphoneme)、 半音節、單音節(syllable)及長一點的單 位 音 , 例 如 詞 (word) 和 片 語 (phrase) 等。對中文語音合成來說,使用較大 的合成單元可以產生比較好的語音合 成品質,但是要大量的記憶空間。如 果使用較小的合成單元,雖然比較節 省記憶空間,但是需要考慮更多的相 鄰單位之間連接的處理,而且所合成 出來的信號品質通常不好。 此外,國語音系的特點是音節界 線分明和音節帶有聲調音位。在國語 中共有五種聲調,可分為「一聲」、「二 聲」、「三聲」、「四聲」及「輕聲」,五 種聲調的分別在於其基頻軌跡(pitch contour)均各自不同,一聲至四聲的基 頻軌跡如圖二所示,而輕聲之基頻軌 跡會隨前後音的不同而變化。在經過 文句分析處理後,就會將各個音節標 上發音的方式。因此,在我們的系統 中,我們從語音資料庫中,選取 411 個適當的單音節作為合成單元。 語音合成的方法大致分為原音合 成、語音模型兩類,我們採用前者來 合成語音,所使用的方法為時域基頻 同 步 疊 加 法 ( Time Domain Pitch Synchronous OverLap and Add, TD-PSOLA )。在時域上,先將原始語 音訊號s(n),切割成基頻同步的短時 信號sm(n): ) ( ) ( ) (

n

s

n

h

t

n

s

m = m m − 其中

m

表第

m

個短時封包,

t

m為原始訊 號第

m

個基頻標記的位置,

h t

m( m

n

) 為 Hanning window,定義如下: h n n N N n N m m m m ( )=0 5 0 5. + . cos(2 ) − ≤ ≤ −1 2 1 2 π ,

-N

m為第

m

個封包的長度。當視窗長度 大於一個基頻,這樣使得相鄰的短時 信號總有一部份重疊,再按照音韻調 整的需求,將前一步驟所得之短時信 號 轉 換成 與 合成 語 音 基 頻 標 記 位 置 ~,~,...,~

t t

1 2

t

q同 步 的 合 成 短 時 信 號 序 列 ~ ( )

s n

q 。 求得最後的合成語音信號: ~( )

s n

s t

q( q

n

) q =

− 簡單重疊相加:

− = q q q q q q n t h n s n s ) ~ ( ~ ) ( ~ ) ( ~ α 其中α 為正規化因子用來補償基頻變q

(4)

換所造成的能量變化。

q q q t n h~ (~ )是 用來補償相鄰視窗的重疊不相同所造 成能量的變化。 而最小平均方重疊相加:

− − = q q q q q q q q n t h n t h n s n s ) ~ ( ~ ) ~ ( ~ ) ( ~ ) ( ~ 2 α 從頻譜上解釋這種合成方法是使 合成短時信號~ nsq( )的頻譜與相對應合 成信號的短時頻譜的平方誤差最小。 最後一個部分為韻律產生器。在 發音的過程中,氣流留經震動中的聲 帶然後進入咽腔與口腔或鼻腔,而造 成聲音的強弱、高低和快慢等現象, 表 現 在語 音 信號 上 的 包 括 有 基 頻 軌 跡、音長、音量、停頓及句調等特徵。 經由這樣的信號特徵,除了可以表現 出 說 話者 當 時的 情 緒 、 生 理 狀 況 之 外 , 還可 以 表現 出 一 句 話 的 抑 揚 頓 挫,及和語意有關的訊息,如聲調分 辨的訊息。 音韻處理在文句翻語音系統中是 極為重要的一個部分。如果我們直接 將文句相對應的語音組合起來,那麼 所得到的合成語音自然流利度必定不 佳。因此,為了使合成的語音更加自 然流利,我們必須對輸入的文句結構 加以分析,進而產生音韻變化的相關 訊息。 韻律訊息產生器的功能將決定文 句的朗讀是否具有自然流暢的抑揚頓 挫變化。根據自然語言剖析之後所得 到的句法結構資訊,韻律訊息產生器 必 須 能 產 生 ( 合 成 ) 相 對 應 的 韻 律 資 訊。所謂的韻律,就是聲學上的音色、 音高、音強、節奏等特徵的表現。前 述特徵為主觀聲學特徵,其所對應的 客 觀 聲 學 特 徵 一 般 是 以 頻 譜 封 包 (Spectral Envelope)、基頻(Fundamental Frequency)、能量、音長和停頓等來表 示。 在過去有很多關於韻律訊息產生 之方法被提出來,大致上可以區分成 三 類 : 規 則 法 (rule-based) 、 統 計 法 (statistical) 、 類 神 經 網 路 法 (neural network)。由於類神經網路法較規則法 及統計法來得好,因此本系統採用改 良式的類神經網路法。 我們所使用的為一個遞迴式模糊 類神經韻律模型﹙圖一﹚,它包含一具 有學習能力的自我建構前向類神經模 糊推理網路(SONFIN)及一四層遞迴式 類神經網路,來模擬人類說話機制, 以產生本語音合成系統所需要的韻律 參數。因此我們可將此韻律訊息產生 模組概分為兩部分: ﹙一﹚音韻發聲部分:根據文句分析 可 以 得 到 音 節 層 次 的 語 言 參 數,如聲調、拼音等局部的發 聲方式,由這些訊息,我們可 以初步找出與韻律參數間的對 應關係。 ﹙三﹚文句規則分析部分:輸入的文 句先經由文句分析抽取語言參 數,再由此模組根據輸入的語 言參數去學習人類說話時,整 體文句部分的韻律規則。 我們先採用一具有學習能力的自 我 建 構 模 糊 類 神 經 推 理 網 路 (SONFIN),此 SONFIN 網路本身為一 模糊系統。初始時,網路本身並無法 則的存在,法則的產生與調整乃是由 同時進行的結構與參數學習來完成。 就結構學習而言,網路的前件部乃是 根據對正型的分群法來作彈性分割。 後件部的學習,起初是依據分群法來 給定每條法則的單值。其後,在必要 時,再依序加入較重要的元素(輸入變 數),這些元素並以線性組合的形式存 在於後件部中。前件部與後件部的學 習可產生一有效率、動態自我增長的 網路。此為 SONFIN 網路的一主要特 徵。至於參數調整,可由倒傳遞演算 法導出。結構與參數學習同時進行的 結果,使本網路具快速的學習能力。 此外,為了加強 SONFIN 的知識表達

(5)

能力,可對輸入變數作線性轉換,如 此可減少法則數的使用數目,或提高 精確度。這些線性轉換參數也可以在 參數學習過程中做動態調整。在輸入 參數方面,由於考量人對於詞與句子 的 關 係會 依 循某 些 模 糊 的 規 則 , 因 此,我們使用整體性語言參數(如字在 詞中位置、詞在句中位置、詞類及句 長等)作為 SONFIN 的輸入參數。 再來是遞迴式類神經網路架構。 最 近 幾年 由 於類 神 經 網 路 的 普 遍 應 用 , 於是 也 有人 把 應 用 在 語 音 合 成 上。由於類神經網路可採用錯誤回傳 法 則 (Error back-propagaation) 與 逐 步 修正記憶之方式,因此我們利用類神 經網路能夠自動耦合(Associating)與學 習(Learning)兩組資料間的關係,並且 將這些關係記憶在類神經網路中。此 外,利用遞迴式類神經網路可以學習 出產生資料串的方法。遞迴式類神經 網路具有記憶以前輸出的效應,於是 我們可以利用隱藏層遞迴式類神經網 路,以語言參數當作輸入信號,來學 習聲學參數的韻律模式,在此主要是 掌握詞內韻律的狀態變化。在決定隱 藏層神經元的個數方面,由於牽涉到 區域韻律狀態變換的多少、整體的複 雜度及訓練效率,我們很難決定神經 元的個數,只能初步推判可能的韻律 變化量,再根據實驗的結果來確定。 三、實驗測試 第一部分的語音資料庫,我們定 義了以下幾種參數: 測試詞數 正確斷出的詞數 斷詞率 = 測試詞數 詞類標示正確的個數 詞類標示率 = 測試句數 整句的斷詞結果均正確之句數 句斷詞率= 表一列出中文文句剖析器斷詞與標詞 之結果。 第二部分為語音合成器的測試, 可由以下三大方向來做測試:可辯 度、理解力、自然度。由於以上的度 量方式沒有一定的標準,所以我們採 取主觀評量的方式,測試的成員是以 實驗室成員為主並包含其他研究室的 同學。測試的結果以理解力最好,大 都能夠瞭解整段文句的大意;在可辯 度方面,可大致鑑別詞句及字的意 思。在自然度上,由於受語音資料庫 及合成法的影響,在細微之處不算很 好,但就一般而言,受測者多表示可 以接受。我們在圖三比較原音與合成 音的波形差異。 第三部分為韻律產生器,表二所 列為本計畫發展之模糊推論韻律規 則模型所訓練之韻律參數的均方根 誤差,與之前研究的加強式類神經網 路韻律模型的均方根誤差(表三)相比 較,可以明顯觀察出此模型在韻律參 數的學習方面,有很顯著的改善。 四、結論與討論 我們利用一具有學習能力的自 我 建 構 前 向 類 神 經 模 糊 推 理 網 路 (SONFIN)及一四層遞迴式類神經網 路,正確的提升韻律參數的學習。再 配合語音資料庫及語音合成器,構成 了一套語調「自然」的中文語音合成 器。因此我們在第三年的計畫中,也 成功的建立一套以中文語音合成技 術為主的安全警告系統,使導盲機器 人能利用語音將所偵測到的環境資 訊或機器人本身的問題及運動狀況 清楚地回報給視障者。

(6)

Input layer

Hidden layer1

Hidden layer2 Hidden layer3

Output layer

Binary stream (51 bits) Self-cOnstructing Neural Fuzzy Inference Network

WordInPhrase PhraseInSentence

Pitch Contour Iintial and Final Duration Pause Duration Max Energy Level Input layer Hidden layer1 Hidden layer2 Hidden layer3 Output layer Input layer Hidden layer1 Hidden layer2 Hidden layer3 Output layer Input layer Hidden layer1 Hidden layer2 Hidden layer3 Output layer LengthPOSPunctuation

評估方式 正確率 斷詞率 90.24% 詞類標示率 78.67% 句斷詞率 42.87% 表一 斷詞與標詞之正確率 圖一 模糊推論韻律規則模型之架構 時間(sec) (F u n d a me n ta l F re q u en cy ) (Hz ) 一聲 四聲 二聲 三聲 圖二 多層遞迴類神經網路之架構 表二 模糊推論韻律規則模型之 韻律參數均方根誤差 0 1 2 3 4 5 x 104 -1.5 -1 -0.5 0 0.5 1 1.5 x 104 Sample index M a g n itu d e 0 1 2 3 4 5 x 104 -1.5 -1 -0.5 0 0.5 1 1.5 x 104 Sample index M a g n itu d e Orignal speech Synthetic speech 圖三 (a)原音(b)合成語音的差異 均方根誤 差值 訓練語料 測試語料 基頻 1.0ms/Frame 1.5ms/Frame 音量準位 4.96dB 10.78dB 聲母時長 --- ---韻母時長 94.38ms 96.07ms 停頓時長 87.54ms 95.76ms 表三 加強式類神經網路韻律模型的 均方根誤差 均方根誤差 值 訓練語料 測試語料 基頻 0.86ms/Fra me 1.06ms/Fra me 音量準位 3.96dB 4.09dB 聲母時長 19.81ms 20.26ms 韻母時長 34.38ms 36.30ms 停頓時長 42.22ms 44.79ms

參考文獻

相關文件

45 機器人 2 張皓鈞 苗栗縣私立君毅高級中學 / 勞動部勞動力發展署桃竹苗分署, 瑞明系統 科技有限公司. 45 機器人 2 林義峰

國立政治大學應用數學系 林景隆 教授 國立成功大學數學系 許元春召集人.

人機之間靠著密切的訊息 交流來確保二者之間溝通 良好,此訊息之交流稱為 人機互動,而訊息交流之

IRB 編號 CE20018A 計畫主持人 王振宇 計畫名稱 電子病歷警示系統對改善敗血症病患預後之影響 審查意見

IRB 編號 SC19109A 計畫主持人 李奕德 通報次數 4

IRB 編號 SE19403A-1 計畫主持人 陳周斌 計畫名稱 大腸直腸癌患者的生活品質與創傷後成長的關係之追蹤研究 審查意見

IRB 編號 SC19232B#9 【CIRB 副審】 計畫主持人 楊宗穎 計畫名稱.

編號 主持人 計畫名稱 審查結果 CF12202 許惠恒 在亞洲國家多中心隨機研究比較 Joint Asia Diabetes. Evaluation (JADE)