• 沒有找到結果。

ITS通訊/資訊聚合式車機系統之研發與應用---子計畫三:行動語音人機介面的研究與開發(I)

N/A
N/A
Protected

Academic year: 2021

Share "ITS通訊/資訊聚合式車機系統之研發與應用---子計畫三:行動語音人機介面的研究與開發(I)"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

子計畫三:行動語音人機介面的研究與開發(I)

計畫類別: 整合型計畫 計畫編號: NSC93-2218-E-009-041- 執行期間: 93 年 08 月 01 日至 94 年 07 月 31 日 執行單位: 國立交通大學電信工程學系(所) 計畫主持人: 張文輝 報告類型: 精簡報告 報告附件: 出席國際會議研究心得報告及發表論文 處理方式: 本計畫可公開查詢

中 華 民 國 94 年 10 月 31 日

(2)

行政院國家科學委員會專題研究計畫報告

行動語音人機介面的研究與開發

ITS information access using voice over MANET

計畫編號:NSC 93-2218-E-009-041 執行期限:93 年 8 月 1 日至 94 年 7 月 31 日 主持人:張文輝 交通大學電信工程系 教授 一、中文摘要 (關鍵詞:語音對話系統,分散式語音辨認。) 人性化的隨身資訊服務是智慧型運輸 系統必備的功能,網際網路的興起更成為 資訊傳播的重要平台,使用語音作為人機 介面則可以提升行車安全與便利。本子計 劃在 MANET 無線網路架構下,建構一行 動語音對話系統,讓駕駛員以聲控操作取 得道路指引及購物消費的生活資訊。本年 度研究規劃主要著重於聲控操作人機介面 的製作。語音辨認系統採用分散式架構, 車內終端機負責語音特徵參數的擷取與向 量量化壓縮處理,遠端伺服器則利用隱藏 式馬可夫模型的訓練與比對執行語音辨認 處理。目前執行進度已完成分散式語音辨 認系統,並於快速乙太網路和校園無線區 域網路的環境下分別進行語音辨認及聲音 回傳的操作。進一步模擬具有不同叢發特 性的通道錯誤,用以測試環境對於分散式 語音辨認的影響。 英文摘要

(Keywords: spoken dialogue system, distributed speech recognition.)

The purpose of this three-year research is to develop a spoken dialogue system that al-lows drivers to use voice-controlled com-mands to access the ITS information server through a mobile ad-hoc network (MANET). The first part of this project will focus on developing a distributed speech recognition system, in which speech features extracted from a local front-end are transmitted through a data channel to a remote back-end recognition server. In light of the low-bit-rate transmission, speech features are compressed using a split vector quantizer that produces the index of the nearest code-vector over digital wireless channel. Wire-less chammels are characterized by error

bursts due to the combined effects of inter-symbol interference and multipath fading. It is believed that further improvement of sys-tem performance can be realized through a precise characterization of the channel. Then at the next part of the project we wish to de-sign a joint source -channel decoder that can work well in high bit error rate condition. 二、計劃緣由與目的 智慧型運輸系統的發展趨勢,將是結 合無線通訊與網際網路,突破時空的限 制,以提供車輛駕駛員更人性化的隨身資 訊服務。為提供多樣化的應用服務,人機 介面必須進行適度的互動溝通,讓電腦逐 步瞭解、接受及回應使用者的查詢指示。 問題是車輛駕駛員在行進間的讀寫能力受 限,無法在電腦鍵盤輸入或讀取行車相關 資訊,使用語音作為人機介面則可以大幅 提升行車安全與便利[1]。因此,我們計劃 在 MANET 架構下,製作一個行動語音對 話系統,結合語音辨認技術使系統得以聲 控操作,進而提供駕駛員查詢道路指引和 消費購物的生活資訊。 考量無線通訊裝置能源與運算處理能 力先天受限的問題,將利用分散式語音辨 認架構實現人機對話應用的服務,其處理 單元包含兩部分:前級採用歐洲電信標準 局(European Telecommunication Standards Institute, ETSI)所制訂的分散式語音辨認 架構[2],針對每一音框抽取其特徵參數再 執行向量量化的壓縮編碼處理,透過車內 終端機負責發送到遠端的伺服器進行較複 雜的後級辨認處理[3]。辨認的核心技術則 以隱藏式馬可夫模型為架構,藉由大量的 語音資料庫訓練辨認模型,伺服器透過模 型比對產生辨認結果便回覆相關訊息給用 戶端。 為銜接下一年度的研究,在已經完成

(3)

對話系統後,我們著手進行分散式語音辨 識面臨不同的無線通道環境下其辨識能力 的影響。利用 Gilbert 通道模型模擬具無線 通訊位元錯誤特性的通訊環境,提供未來 開發合併音源-通道解碼器設計所需的實 驗環境[4,5,6]。 三、研究方法與結果 本研究主要是發展一適用於無線網路 環境的語音對話系統。系統流程如圖 1 所 示,包含分散是語音辨認與檢索語音回傳 兩階段,即用戶端進行語音參數分析送出 至遠端伺服器進行辨認與辨認結果檢索後 回傳相對應語音資訊予用戶端播放。以下 針對各個核心單元分別描述: (1) 語音參數分析與資料壓縮: 依據 ETSI 在 2003 年所制訂的分散式 語音辨認標準,系統的前級處理主要針對 每一音框抽取其特徵參數再作壓縮處理, 其設計之關鍵目的在於有效對抗行動通訊 環境中面臨低傳輸位元率、高傳輸錯誤率 以及背景雜訊干擾等相關影響,以期大幅 提昇辨認的正確率。因此,核心技術包括 雜訊抑制與壓縮編碼的設計[7]。訊號分析 過程以音框長度 25ms 和平移 10ms 為單位 依序處理,同時依據能量來判定每一音框 的屬性是有語音或是僅有背景雜訊。雜訊 抑制的工作原理,是藉由分析一段僅具單 純背景雜訊的訊號,配合 Wiener 濾波器演 算法設計一最佳化雜訊抑制濾波器,可有 效減低背景雜訊對辨認結果的影響。因應 無線網路低位元率傳輸的需求,編碼壓縮 處理有其必要性。壓縮的處理以音框為單 位,將 14 個參數依序兩兩一組個別進行向 量量化,再送出最近似量化碼字的索引 值。至於通道編碼的部分,則是依序將每 兩個音框的資料視為一單位,產生其相對 應的 CRC 錯誤偵測碼,再將 12 組音框對 (frame pair)的相關資料依固定格式封裝, 附上同步序號與檔頭訊息即完成傳輸所規 定的封包資料。 (2) 語音辨認模型的訓練與測試: 當伺服器收到要辨認的用戶端封包資 料後,會進行錯誤和緩(error mitigation)與 特徵參數處理兩項工作。錯誤和緩的目的 是要檢測及補償在網路傳輸過程中所引起 的資料錯誤。檢測的機制有兩種,一是透 過封包中所屬的 CRC 錯誤偵測碼逐一驗 證每個音框對資料的正確性。另一個方法 則利用相鄰音框間具有的相似性來進行檢 驗,也就是事先訂下鄰近音框間個別特徵 參數的相似範圍,當接收到的參數超出其 門檻值時,則判定該組特徵參數已發生傳 輸錯誤。補償機制的啟動是當檢測顯示有 連續 2B 個音框發生錯誤,則前 B 個音框 的參數用錯誤發生前一個正確音框的參數 來取代,而後 B 個音框的參數則以錯誤發 生後第一個正確音框的參數來取代,藉此 可適度地緩和傳輸錯誤所引起的辨認失 誤。至於伺服器端的特徵參數處理,旨在 取得更多有助於語音辨識的特徵參數。在 每一音框先線性整合能量與第零個梅爾倒 頻譜係數,並與其他 12 個梅爾倒頻譜係數 構成 13 個特徵參數,接著個別針對每個參 數以差分方式求出其速度與加速度,整合 而成為一組標準所需的 39 個辨認用語音 參數。目前已完成系統的開發與測試,是 利用 HTK 軟體製作中文單音節的辨認處 理 器 , 而 辨 認 模 型 的 參 數 訓 練 則 藉 由 Baum-Welch 疊代演算法求得。基於中文語 言特性之考量,將使用一單純「左至右」 型態的隱藏式馬可夫模型,聲母和韻母兩 部分分別以 3 個和 40 個狀態模擬其統計模 型,且每個狀態內均以 64 個高斯分佈混合 模型來近似觀察值的機率分佈。進一步, 更引入靜音之間歇與停頓的模型,其作用 分別模擬發音過程前後端與過程中字和字 之間過渡時期內訊號的統計模型。在中文 單音節辨認模型訓練過程是利用 150 位男 性和 150 位女性語者所錄製的 TCC-300 語 料庫,以其中 270 位作為訓練語料進行 Baum-Welch 疊代演算法,額外 30 位的語 料進行測試。 (3) 聲控操作遠距有聲網站的製作: 本系統是利用 Winsock API 作為開發 平台,相關工作項目包括用戶端連線之初 始過程、資料傳輸規格之定義、以及程式 執行時程序控制和語音資料庫管理。使用 者啟動用戶端程式後,鍵入伺服器端之網 路位址以開啟雙方之間的連線與資料傳 輸。為了提供系統運作之即時性訊號處

(4)

理,分別在程式用戶端的參數抽取、量化 編碼處理以及伺服器端辨認處理等相關位 置,提供作為同步處理的排隊緩衝的暫存 空間。而系統設計則利用圖形視窗介面控 制不同的執行緒以完成語音輸入、參數抽 取、進行辨認以及回傳結果等相關步驟, 如圖 2 所示。行動終端機的執行緒分述如 下:WaveIn 執行聲音載入時的取樣量化以 及音框訊號的管理,AdvfrontEnd 執行雜 訊抑制和參數抽取,Coder_VAD 執行參數 量化編碼以及資料封裝的工作。遠端伺服 器的執行緒則包括有:Socket 過濾並解析 屬於本系統的特徵參數封包,Mainserver 則包括傳輸錯誤和緩、接收資料的解碼、 辨認參數的後處理、辨認比對的運算以及 辨 認 結 果 相 關 資 料 的 回 傳 。 最 後 , Client_recv 執行緒會接收回傳的語音資 料並依序播放予使用者。 四、實驗結果與討論 本年度計畫主要目標是聲控系統的建 置,首先在高速乙太網路的架構下,先完 成系統的開發,其目的是考慮有線網路傳 輸具有較高的傳輸品質,可提供幾乎沒有 傳輸錯誤的平台,讓我們在開發過程中不 受傳輸錯誤的干擾逐一完成每一項核心技 術的測試與整合,測試結果顯示在通道錯 誤幾乎為零的情況下連續數字音與中文 411 個單音節的辨認結果分別可以達到 97.2%與 61%之正確率。在確認過系統開發 完整無誤之後,進一步將用戶端介面移植 到無線網路設備上,經反覆測試也確認系 統重建後的功能正常,但由於無線網路通 訊品質不穩定,導致辨認結果會有程度不 一的下降。 為瞭解傳輸錯誤對於系統辨認率的影 響以及要銜接下一年度的研究,我們嘗試 模擬分散式語音辨任在不同的無線通道環 境下之運作狀況。利用 Gilbert 通道模型模 擬具有無線通訊位元錯誤特性的通訊環 境。模型架構是基於兩個狀態的馬可夫 鏈,如圖 3 所示,其中一個狀態是不會發 生錯誤的良好狀態,另一個則是具有錯誤 機率為 h 的不良狀態,而每一次兩狀態相 互轉變的機率為 g 和 b,利用參數{h,g,b} 的調整可產生不同叢發性質的位元錯誤序 列。藉此設計具有不同錯誤率的通道環 境,再讓本系統遭遇這些環境,並觀察其 在辨認結果上的影響。結果如表 1 顯示由 於系統設計本身具有錯誤和緩的機制可以 針對發生錯誤的音框資訊加以修正,所以 位元錯誤率在 1%內的情況下,幾乎不影響 語音辨認的效果,當錯誤率超過 5%後,辨 認率便出現明顯的下降。透過通道模擬與 辨認測試的實驗,初步提供我們對於無線 傳輸通道錯誤在系統效能的影響程度。接 著下一年度的計畫將著手於實際無線傳輸 環境的量測,藉由量測的結果進行通道模 型的估算,進一步開發合併音源-通道解碼 器設計所需的實驗環境。 五、結論 本計畫第一年著重在語音對話介面系 統的設計與開發,核心技術包括語音參數 的分析、資料壓縮、通道錯誤和緩和語音 辨認比對,前三者的設計完全符合 ETSI 標 準所制訂的規格,得到傳輸量為 4800bps 的封包資訊,其內容包含連續 24 個音框所 相對應的特徵參數以提供作為語音辨認之 用。語音辨認的技術基於隱藏式馬可夫模 型建構適合中文連續數字音與 411 個單字 音的比對模型,透過 TCC 中文語料訓練辨 認器的模型參數,經由測試數字串與 411 單字音的辨認率分別可達 97.2%與 61%。此 外,我們利用通道模擬產生具有無線通訊 特性的傳輸位元錯誤,並將其置入傳輸封 包內用以測試不同的錯誤率對於語音辨認 系統的影響,結果顯示在低錯誤率時,系 統本身的錯誤和緩機制可以提供適當的抑 制作用,而當錯誤率再增加時,便無法保 證辨認的正確性。依據本年度研究之結 果,利用分散式語音辨認平台將持續進行 無線通道分析以及設計具有抵抗通道錯誤 的和緩機制。 六、具體成果 本研究結合分散式語音辨認平台開發 以及無線通訊傳輸通道模擬,進行辨認結 果的測試以及錯誤和緩機制的設計。研究 成果參與國際語音通訊相關研討會發表結 果獲得肯定。

(5)

“Mem-ory-enhanced MMSE-based channel error miti-gation for distributed speech recognition,”

Inter-speech '2005-EuroInter-speech, Lisbon, Portugal, Sep,

2005.

七、參考文獻

[1] X. Huang, A. Acero, and H. W. Hon, Spoken

Language Processing: a guide to theory, algorithm, and system development, Prentice Hall, 2001.

[2] “ETSI ES 202 050 v1.1.3 Speech Processing, Transmission and Quality Aspects (STQ); Distrib-uted Speech recognition; Advanced front-end fea-ture extraction algorithm; Compression algorithm,” ETSI Standard, 2003.

[3] C. Pelaez-Moreno, A. Gallardo-Antolin, and F. Diaz-de-Maria, “Recognizing voice over IP: a robust front-end for speech recognition on the world wide web,” IEEE Trans. on Multimedia, vol. 3, pp. 209-218, June 2001.

[4] T. Fingscheidt and P. Vary, “Softbit Speech De-coding: A New Approach to Error Concealment, “Speech and Audio Processing, IEEE Transactions on , Volume: 9 , Issue: 3 , March 2001, pp. 240 – 251.

[5] W. Turin, Digital Transmission Systems:

per-formance analysis and modeling, McGraw-Hill,

1999.

[6] W. W. Chang, T. H. Tan, and D. Y. Wang “Ro-bust vector quantization for wireless channels,”

IEEE Journal on Selected Areas in Communica-tions, Vol. 19, pp. 1365-1373, July 2001.

[7] P. Hedelin, P. Knagenhjelm, and M. Skoglund, “Vector quantization for speech transmission,” in

Speech Coding and Synthesis, W. B. Kleijn and K.

K. Paliwal, Eds. Amsterdam, The Netherlands: El-sevier, 1995. 圖 1:對話系統方塊圖。 圖 2:介面開發執行緒關係圖。 圖 3:Gilbert 通道模型 表 1:不同通道錯誤率對語音辨認結果的影響 位元錯誤率(%) 0.10 0.31 1.0 數字串辨認率(%) 97.0 97.0 96.9 3.16 10.0 17.78 31.62 94.9 92.8 82.4 48.3

參考文獻

相關文件

雜誌 電台 數碼廣播 期刊 漫畫 電影 手機短訊 圖書 手機通訊應用程式 即時通訊工具 網路日誌(blog) 車身廣告 霓虹燈招牌 電子書

¾系統思考( systems thinking)法 第五項 修煉( fifth

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )

For a deep NNet for written character recognition from raw pixels, which type of features are more likely extracted after the first hidden layer.

Wilson, Oriol Vinyals, “Learning the Speech Front-end With Raw Waveform CLDNNs,”.. In

(計畫名稱/Title of the Project) 提升學習動機與解決實務問題能力於實用課程之研究- 以交通工程課程為例/A Study on the Promotion of Learning Motivation and Practical

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

本研究旨在使用 TI-Nspire CAS 計算機之輔助教學模式,融入基礎 統計學的應用,及研究如何使用 TI-Nspire CAS