• 沒有找到結果。

架設工具與系統內部功能簡介

第五章 智慧型口語對話汽車導航系統

5.2 架設工具與系統內部功能簡介

第五章 智慧型口語對話汽車導航系統

(Intelligent Transportation System,ITS)

接著,我們將台語語音辨識系統使用於一個實際的應用系統上,並實際操作 系統檢視成效如何。

5.1 系統簡介

系統架構圖如圖5.1所示[12]。包括即時語音辨認器,以辨認使用者的語音;

對話管理模組,做對話流程控制,以及控制大哥大與汽車導航系統和擷取資訊;

文字轉語音模組則將對話管理做出的回應轉換成語音輸出。

圖5.1 口語汽車導航系統方塊圖

5.2 架設工具與系統內部功能簡介

在圖5.1中即時語音辨認器裡使用的語音聲學模型與語言模型,我們使用英 國劍橋大學釋放出來的Hidden Markov Model Toolkit(HTK)訓練產生。HTK可 以作大字彙語音辨認,包括使用複雜的tri-phone模型,訓練tri-gram模型,也 可以作cluster-based的語言模型。架設即時語音

辨認器的部份,我們是採用同是英國劍橋大學釋放出來的Application Toolkit for HTK(ATK),如圖2.2,除了方便與HTK相容外,ATK還可以在Windows 作業環境下執行,支援多工,所以可以很方便架設一個Windows下的即時辨認器。

此外ATK還提供了辨認結果可信度(Confidence)的功能,視每次辨認結果的分 數高低附上相對應的可信度,可用來提升對話流程控制能力。

圖5.2 由ATK架設的基本即時辨認器(from Application Toolkit for HTK)

最後使用MIT釋放出來的Galaxy communicator將各模組的輸出輸入連接起 來。如圖5.3所示Galaxy communicator為一Hub-Server架構,各伺服器可獨立執 行,再透過網路連接Hub來傳遞訊息。好處是其為分散式系統,各伺服器端可在 網路上的不同機器執行,所以各伺服器端可獨立開發執行,方便多人開發系統各 個部份,以減少後續的程式碼維護負荷;而且若單台機器計算能力不足,亦可以 用多台機器來分散計算負荷。

圖5.3 Galaxy Communicator software內部結構圖

ITS 對話系統是由 Microphone Array Server, ASR (Automatic Speech Recognition) Server, GIS (Geographic Information Systems) Server, Parser Server, Dialog Management Server, Corpus-based TTS(Text-To-Speech) Server, Natural Language Generation Server 和 Galaxy Hub. Servers 所 組成,並透過 Galaxy Hub. Servers 溝通。 每一個 Server 負責的功能如下說 明:

Microphone Array Server:

The Microphone Array Server 主要減低聲音訊號受車內環境所受的影響,

能補償聲音訊號被影響部分。 然後將處理的聲音信號傳送給 ASR Server.

ASR Server:

ASR Server 主要是 Microphone Array Server 輸入的聲音訊號做語音辨識,

並將辨識出來的字串傳送給 Parser Server。這部分主要使用的工具軟體為 ATK or HTK.

GIS Server:

GIS server 主要提供道路以及使用者感興趣的地點相關資訊(Point of Interests, POI) 。 這部分主要使用的工具軟體為 PaPaGo SDK。

Parser Server:

Parser server 主要是解析語者所要傳達的意思。將 ASR server 輸入的辨 識字串做解析以便瞭解語者需要何種服務或功能,並將訊息傳送給 Dialog Management Server。這部分主要使用的軟體工具為 “Phoenix: Semantic frame parser" of University of Colorado。

Dialog Management Server:

Dialog Management Server 主要控制對話流程。 將 Parser Server 傳送來 的訊號做排序並驅動系統功能執行。

Natural Language Generation Server:

Natural Language Generation Server 主要根據語者輸入各種不同情況,

產生自然流利的應答句子,並將這些句子輸出給 Corpus-base TTS Server。

Corpus-based TTS Server:

Corpus-based TTS server 將 Natural Language Generation Server 產生 的句子轉換成聲音波形。

Galaxy Hub:

Galaxy hub 負責各個 server 之間訊號傳輸流程,確保每個 server 都能夠 確實執行各自的功能。.

相關文件