第五章 智慧型口語對話汽車導航系統
5.2 架設工具與系統內部功能簡介
第五章 智慧型口語對話汽車導航系統
(Intelligent Transportation System,ITS)
接著,我們將台語語音辨識系統使用於一個實際的應用系統上,並實際操作 系統檢視成效如何。
5.1 系統簡介
系統架構圖如圖5.1所示[12]。包括即時語音辨認器,以辨認使用者的語音;
對話管理模組,做對話流程控制,以及控制大哥大與汽車導航系統和擷取資訊;
文字轉語音模組則將對話管理做出的回應轉換成語音輸出。
圖5.1 口語汽車導航系統方塊圖
5.2 架設工具與系統內部功能簡介
在圖5.1中即時語音辨認器裡使用的語音聲學模型與語言模型,我們使用英 國劍橋大學釋放出來的Hidden Markov Model Toolkit(HTK)訓練產生。HTK可 以作大字彙語音辨認,包括使用複雜的tri-phone模型,訓練tri-gram模型,也 可以作cluster-based的語言模型。架設即時語音
辨認器的部份,我們是採用同是英國劍橋大學釋放出來的Application Toolkit for HTK(ATK),如圖2.2,除了方便與HTK相容外,ATK還可以在Windows 作業環境下執行,支援多工,所以可以很方便架設一個Windows下的即時辨認器。
此外ATK還提供了辨認結果可信度(Confidence)的功能,視每次辨認結果的分 數高低附上相對應的可信度,可用來提升對話流程控制能力。
圖5.2 由ATK架設的基本即時辨認器(from Application Toolkit for HTK)
最後使用MIT釋放出來的Galaxy communicator將各模組的輸出輸入連接起 來。如圖5.3所示Galaxy communicator為一Hub-Server架構,各伺服器可獨立執 行,再透過網路連接Hub來傳遞訊息。好處是其為分散式系統,各伺服器端可在 網路上的不同機器執行,所以各伺服器端可獨立開發執行,方便多人開發系統各 個部份,以減少後續的程式碼維護負荷;而且若單台機器計算能力不足,亦可以 用多台機器來分散計算負荷。
圖5.3 Galaxy Communicator software內部結構圖
ITS 對話系統是由 Microphone Array Server, ASR (Automatic Speech Recognition) Server, GIS (Geographic Information Systems) Server, Parser Server, Dialog Management Server, Corpus-based TTS(Text-To-Speech) Server, Natural Language Generation Server 和 Galaxy Hub. Servers 所 組成,並透過 Galaxy Hub. Servers 溝通。 每一個 Server 負責的功能如下說 明:
Microphone Array Server:
The Microphone Array Server 主要減低聲音訊號受車內環境所受的影響,
能補償聲音訊號被影響部分。 然後將處理的聲音信號傳送給 ASR Server.
ASR Server:
ASR Server 主要是 Microphone Array Server 輸入的聲音訊號做語音辨識,
並將辨識出來的字串傳送給 Parser Server。這部分主要使用的工具軟體為 ATK or HTK.
GIS Server:
GIS server 主要提供道路以及使用者感興趣的地點相關資訊(Point of Interests, POI) 。 這部分主要使用的工具軟體為 PaPaGo SDK。
Parser Server:
Parser server 主要是解析語者所要傳達的意思。將 ASR server 輸入的辨 識字串做解析以便瞭解語者需要何種服務或功能,並將訊息傳送給 Dialog Management Server。這部分主要使用的軟體工具為 “Phoenix: Semantic frame parser" of University of Colorado。
Dialog Management Server:
Dialog Management Server 主要控制對話流程。 將 Parser Server 傳送來 的訊號做排序並驅動系統功能執行。
Natural Language Generation Server:
Natural Language Generation Server 主要根據語者輸入各種不同情況,
產生自然流利的應答句子,並將這些句子輸出給 Corpus-base TTS Server。
Corpus-based TTS Server:
Corpus-based TTS server 將 Natural Language Generation Server 產生 的句子轉換成聲音波形。
Galaxy Hub:
Galaxy hub 負責各個 server 之間訊號傳輸流程,確保每個 server 都能夠 確實執行各自的功能。.