第五章 結論與未來展望
5.2 未來展望
在中文語音屬性偵測器的部份,仍然有很多路線可以去探索及改進,無論是 針對所要偵測的語者來做調適,或者是針對某些特定發音方法求取具有鑑別性的
語音特徵參數,抑或是採用不同的偵測架構,比如說對前後音框資訊有記憶特性 的遞迴式類神經網路(RNN)為基礎的偵測器。本論文除了訓練最基本的以音框為 基 礎 (frame-based) 的 中 文 語 音 屬 性 偵 測 器 之 外 , 也 加 入 以 段 落 為 基 礎 (segment-based)的資訊與音框為基礎的偵測器做整合,同時對於音框為基礎的偵 測結果進行信任度量測的評比,以期提供後級辨識器更可靠的語音屬性資訊。並 且以實驗分析的方式,獲得在偵測中文語音中音素、發音方法或發音位置之間交 互的影響,以提供後人在對中文語音偵測時的參考。希望藉由這些經驗、知識的 累積,建立一個以知識為基礎(knowledge-based)加上資料驅動(dara-driven)的新一 代語音辨識系統架構,以推進語音辨識能力的突破。
參考文獻
【1】 C.-H. Lee, “From knowledge-ignorant to knowledge-rich modeling:A new speech research paradigm for next generation automatic speech recognition”
Proc. ICSLP2004, Keynote speech, 2004
【2】 Sérgio Paulo , Luís C. Oliveira ,“Automatic Phonetic Alignment and Its Confidence Measures”, Advances in Natural Language Processing,Vol.3230, pages 36-44,2004.
【3】 Jinsong Zhang, Keikichi Hirose “Tone nucleus modeling for Chinese lexical tone recognition” , Speech Communication 42(2004) pages447-466.
【4】 王小川,“語音訊號處理”,全華科技圖書,中華民國九十三年三月。
【5】 許見徨,“中文語音屬性偵測之研究”,交通大學電信工程所,中華民國九 十六年八月。
【6】 C.-H. Lee, “A Study on Separation between Acoustic Models and Its Applications,” Proc. ICASSP2005
【7】 S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey,V. Valtchev, P. Woodland, ”The HTK Book (for HTK Version 3.3)”, Cambridge University, 2005
【8】 R. P. Lippmann, L C. Kukolich, and E. Singer, “LNKnet: Neural Network, Machine Learning, and Statistical Software for Pattern Classification”, Lincoln Laboratory Journal, vol. 6, pp. 249-268, 1993.
【9】 Erhan Mengusoglu, Christophe Ris,” Use of Acoustic Prior Information for Confidence Measure in ASR application ”,TCT Lab , Mons , Belgium , Eurospeech 2001-Scandinavia.
【10】Bilmes J.A., "A Gentle Tutorial of the EM algorithm and its application to
Parameter Estimation for Gaussian Mixture and Hidden Markov Models", ICSI-Technical Report-97-021, 1997.
附錄一
加入轉移機率 MLP 偵測器等錯誤率下音段長度分佈
1. Vowel 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵測 結果,紅色為加上轉移機率的偵測結果)
2. Stop 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵測結 果,紅色為加上轉移機率的偵測結果)
3. Fricative 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵 測結果,紅色為加上轉移機率的偵測結果)
4. Affricate 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵 測結果,紅色為加上轉移機率的偵測結果)
5. Nasal 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵測 結果,紅色為加上轉移機率的偵測結果)
6. Liquid 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵測 結果,紅色為加上轉移機率的偵測結果)
7. Silence 段落音長分佈比較(藍色為參考答案音長分布,綠色為 frame-based 偵測 結果,紅色為加上轉移機率的偵測結果)
附錄二
中文音素分類及漢拼、注音對照表
表一 21 類聲母表
編號 注音 漢拼 編號 注音 漢拼 編號 注音 漢拼 1 ㄅ b 9 ㄍ g 17 ㄕ sh
2 ㄆ p 10 ㄎ k 18 ㄖ r
3 ㄇ m 11 ㄏ h 19 ㄗ z
4 ㄈ f 12 ㄐ j 20 ㄘ c
5 ㄉ d 13 ㄑ q 21 ㄙ s
6 ㄊ t 14 ㄒ x
7 ㄋ n 15 ㄓ zh
8 ㄌ l 16 ㄔ ch
表二 16 類韻母表
編號 注音 漢拼 編號 注音 漢拼 1 ㄚ a 9 ㄢ a_n 2 ㄛ o 10 ㄣ e_n 3 ㄜ e 11 ㄤ a_ng 4 ㄝ eh 12 ㄥ e_ng 5 ㄞ ai 13 ㄧ yi 6 ㄟ ei 14 ㄨ wu 7 ㄠ ao 15 ㄩ yu 8 ㄡ ou 16 ㄦ er Ps.實際 “ㄢ” “ㄣ” “ㄤ” “ㄥ”的漢拼分別為
“an” “en” “ang” “eng”
在此我們將細分至鼻音韻尾,因此做些改變 表三 空母音 與 鼻音韻尾
編號 符號 編號 符號
1 FNULL1 1 n_n 2 FNULL2 2 ng
Ps.其中 n_n 為”ㄢ”與”ㄣ”的鼻音韻尾,ng 為”ㄤ”與”ㄥ”的鼻音韻尾