第五章 智慧型口語對話汽車導航系統
5.3 辨認模型的架設與訓練
5.3.2 Background Model
台語ITS是將國語ITS做一些修改後所得,主要修改ASR Server 的部分,修 改的項目包含:sub-syllable HMMs、Background Model、以及語法結構
5.3.1 Sub-syllable HMMs:
採用台語辨認系統的聲學模型。在特徵參數擷取方面, 取39維MFCC參數當 特徵參數,相關之設定見表格5.1:
表格5.1特徵參數設定
取樣頻率 16kHz
視窗形式 Hamming window 音框長度(Frame
size)
25ms
音框平移(Frame shift)
10ms
Feature vector MFCC_D_A_Z_0
其中符號MFCC_D_A_Z_0 之意義為13維MFCC,13維Delta MFCC和 13維 Delta delta MFCC,並且做Cepstral Mean Normalization。
5.3.2 Background Model:
給 ATK 計算 confidence score 使用,一個 bghmm 模型 8 個 states 128 mixtures。
5.3.3 語法結構:
由清大資工所同學從收集的語料庫整理出來,再根據台語的語法作修改,並 將一些習慣用國語來表達的道路名稱、人名、地點等等,採用國台語並用的機制 來實行,這些詞類不管用國語或台語都可以順利的辨認出來。
台語 grammar 架構,基本上跟國語 grammar 架構相同,而國語的 grammar
Phrases [ID_user] Æ[ID_user_pp]、
[AUX] Æ[AUX_pp]、
[V_Motion]Æ [V_Motion_pp]、
[PN_destination] Æ[PN_destination_pp]、
[AUX] [Q_WH] [V_motion]Æ[Q_WH_pp]
Sentences [ID_user_pp][AUX_pp][V_Motion_pp][PN_destination_pp
]
[Q_WH_pp]
Speech acts user_inquire_destination
在 整 個 國 語 ITS 對 話 系 統 中 , 有 19 個 speech acts 和 23 個 syntactic-semantic categories,如表格 5.3,表格 5.4,還有實際系統運作時 的例子:圖 5.4。
表格 5.3 19 speech acts in ITS Dialogue System 1 system_opening 12 user_opening
2 system_prompt 13 user_inquire_destination 3 system_hold_I 14 user_comfirm_arrive 4 system_hold_F 15 user_inquire_route 5 system_navigate 16 user_comfirm_request_a 6 system_correct 17 user_comfirm_request_b 7 system_confirm_a 18 user_pre-closing
8 system_confirm_b 19 user_arrive_destination 9 system_answer
10 system_arrive_destination 11 system_closing
表格 5.4 The 23 categories in ITS Dialogue System [ID_system]
圖 5.4 系統運作實例
台語 grammar 架構完全跟國語 grammar 相同,而有差異的地方,在於一些國 語句子,當用台語來說時需要做一些修改,可以看出國語 ITS grammar 架構,轉 移到台語時,可以完全的沿用,但首先要注意到的是,國台語中一些用詞的不同,
以下有整理一些國語句子轉成台語句子的例子。
例如:
user_opening:
國:系統你好 台:系統你好
user_inquire_destination:
國:現在 我 要 去 交大 應該 怎麼 走 台:即馬 我 欲 挃 交大 應該 安怎 走 user_comfirm_arrive:
國:我 現在 在 交大 台:我 即馬 在 交大
user_inquire_route:
國:再來 要 怎麼 走 台:再來 欲 安怎 走 user_comfirm_request_a:
台:工業東二路 斡倒爿 抑是 斡正爿 user_comfirm_request_b:
國:我 順著 光復路一段 走 嗎 台:我 順 光復路一段 走 嗎 user_pre-closing:
國: 謝謝系統 台: 多謝系統
user_arrive_destination:
國:我 已 到達 六合夜市 台:我 已經 到 六合夜市
第六章 結論與未來展望
6.1 結論
本論文包含台語語音辨識與將台語辨識系統應用在 ITS 上,在台語語音辨識 部分,我們針對原先資料的瑕疵做修正,並擴充語料庫,將原本的辨識率提升到 46.4%,且進一步的探討台語入聲調變調規則,根據變調規則下去修改訓練語料 與測試語料,並改變辨識網路,將辨識率提升到 50.2%,我們可以發現入聲調變 調在台語辨識系統中是一個很大的問題。除此之外,我們還加入 syllable bigram language model 將辨識率改善至 65.1%,相信只要擴充台語文字庫到足夠建語言 模型,可以再進一步的提升辨識率。
ITS 系統部分,將台語應用加入之後,提升的系統使用的方便性,讓使用者 有多一種語言選擇,增加了系統的彈性。
6.2 未來展望
在台語語音辨識方面,有很多問題需要去解決,語料庫的不足,以致於有些 聲學模型無法得到一個可靠的效果;各地口音的差異,也是問題的關鍵,這些可 以靠大量收集語料庫來讓問題減少。另一部份,就台語鼻音與鼻話韻母以及輕聲 調方面的台語語音特性,都是未來可以努力的方向,相信一定可以將台語辨識率 在向上提升。
在實際的對話系統『智慧型口語對話汽車導航系統』上,可以將語言模型
(Language model)添加到及時語音辨認器上,並設計新的文字翻譯與會話分析 模組,使系統更能在實際口語對話中的情境下使用,並讓系統可以國台語並用。
參考文獻
【1】 陳珮玥,"台灣閩南語中首部動作特指「打」的語意探析",第五屆漢語 詞彙語意學術研討會論文集,新加坡,2004 年 6 月。
【2】 王閔鴻,"不特定語者大辭彙華台雙語辨識引擎之研製及其應用",私立 長庚大學碩士論文,民國九十二年六月。
【3】 鄭良偉,"台語的語音與詞法",遠流出版社,1997 年
【4】 鍾榮富,"台語的語音基礎",文鶴出版有限公司,2002 年 11 月。
【5】 王文德,"台語語音辨識與文字處理之研究",國立交通大學碩士論文,
民國九十三年七月。
【6】 方南強,"台語通用會話:一套讓你能說出台語美辭雅語的教材,第二 集",開拓出版商,1997 年。
【7】 鄭如玲,"一分鐘台語單字速成",三思堂文化事業有限公司,2002 年
【8】 S. Young,”A Review of Large-vocabulary Countinuous-speech Recognition”,IEEE Signal Processing Magazine,1996.
【9】 S. Young,G. Evermann,T. Hain,D. Kershaw,G. Moore,J. Odell,
D. Ollason,D. Povey,V. Valtchev,P. Woodland,"The HTK book(for HTK version 3.3"
【10】A. Seigler,Uday Jain,Bhiksha Raj,Richard . Stern,"Automatic Segmentation, Classification and Clustering of Broadcast News Audio", ECE Department – Speech Group Carnegie Mellon University Pittsburgh, PA 15213
【11】張榮勳,"國語廣播新聞語音基本辨認系統之建立",國立交通大學碩士 論文,民國九十四年七月。
【12】蔡金翰,"語音對話系統和對話策略之研究",國立交通大學碩士論文,
民國九十四年七月。