架設工具與系統內部功能簡介

第五章智慧型口語對話汽車導航系統

5.2 架設工具與系統內部功能簡介

第五章智慧型口語對話汽車導航系統

(Intelligent Transportation System，ITS)

接著，我們將台語語音辨識系統使用於一個實際的應用系統上，並實際操作系統檢視成效如何。

5.1 系統簡介

系統架構圖如圖5.1所示[12]。包括即時語音辨認器，以辨認使用者的語音；

對話管理模組，做對話流程控制，以及控制大哥大與汽車導航系統和擷取資訊；

文字轉語音模組則將對話管理做出的回應轉換成語音輸出。

圖5.1 口語汽車導航系統方塊圖

5.2 架設工具與系統內部功能簡介

在圖5.1中即時語音辨認器裡使用的語音聲學模型與語言模型，我們使用英國劍橋大學釋放出來的Hidden Markov Model Toolkit（HTK）訓練產生。HTK可以作大字彙語音辨認，包括使用複雜的tri-phone模型，訓練tri-gram模型，也可以作cluster-based的語言模型。架設即時語音

辨認器的部份，我們是採用同是英國劍橋大學釋放出來的Application Toolkit for HTK（ATK），如圖2.2，除了方便與HTK相容外，ATK還可以在Windows 作業環境下執行，支援多工，所以可以很方便架設一個Windows下的即時辨認器。

此外ATK還提供了辨認結果可信度（Confidence）的功能，視每次辨認結果的分數高低附上相對應的可信度，可用來提升對話流程控制能力。

圖5.2 由ATK架設的基本即時辨認器(from Application Toolkit for HTK)

最後使用MIT釋放出來的Galaxy communicator將各模組的輸出輸入連接起來。如圖5.3所示Galaxy communicator為一Hub-Server架構，各伺服器可獨立執行，再透過網路連接Hub來傳遞訊息。好處是其為分散式系統，各伺服器端可在網路上的不同機器執行，所以各伺服器端可獨立開發執行，方便多人開發系統各個部份，以減少後續的程式碼維護負荷；而且若單台機器計算能力不足，亦可以用多台機器來分散計算負荷。

圖5.3 Galaxy Communicator software內部結構圖

ITS 對話系統是由 Microphone Array Server, ASR (Automatic Speech Recognition) Server, GIS (Geographic Information Systems) Server, Parser Server, Dialog Management Server, Corpus-based TTS(Text-To-Speech) Server, Natural Language Generation Server 和 Galaxy Hub. Servers 所組成，並透過 Galaxy Hub. Servers 溝通。每一個 Server 負責的功能如下說明:

Microphone Array Server:

The Microphone Array Server 主要減低聲音訊號受車內環境所受的影響，

能補償聲音訊號被影響部分。然後將處理的聲音信號傳送給 ASR Server.

ASR Server:

ASR Server 主要是 Microphone Array Server 輸入的聲音訊號做語音辨識，

並將辨識出來的字串傳送給 Parser Server。這部分主要使用的工具軟體為 ATK or HTK.

GIS Server:

GIS server 主要提供道路以及使用者感興趣的地點相關資訊(Point of Interests, POI) 。這部分主要使用的工具軟體為 PaPaGo SDK。

Parser Server:

Parser server 主要是解析語者所要傳達的意思。將 ASR server 輸入的辨識字串做解析以便瞭解語者需要何種服務或功能，並將訊息傳送給 Dialog Management Server。這部分主要使用的軟體工具為 “Phoenix: Semantic frame parser＂ of University of Colorado。

Dialog Management Server:

Dialog Management Server 主要控制對話流程。將 Parser Server 傳送來的訊號做排序並驅動系統功能執行。

Natural Language Generation Server:

Natural Language Generation Server 主要根據語者輸入各種不同情況，

產生自然流利的應答句子，並將這些句子輸出給 Corpus-base TTS Server。

Corpus-based TTS Server:

Corpus-based TTS server 將 Natural Language Generation Server 產生的句子轉換成聲音波形。

Galaxy Hub:

Galaxy hub 負責各個 server 之間訊號傳輸流程，確保每個 server 都能夠確實執行各自的功能。.

在文檔中台語語音辨識及智慧型口語對話汽車導航系統 (頁 42-45)

第五章 智慧型口語對話汽車導航系統

5.2 架設工具與系統內部功能簡介

第五章 智慧型口語對話汽車導航系統

(Intelligent Transportation System，ITS)

第五章智慧型口語對話汽車導航系統

第五章智慧型口語對話汽車導航系統