未來展望 - 中文語音辨識中語言模型的強化之研究

當我們實做的語言模型應用於語言辨識系統中時，還有一些可以改進的地方：

1. 整合高層次的語言能力

目前的系統完全依照機率統計時的高低，做為候選詞串的取捨，若我們能夠將高層次的語言能力，如文法、語意…等，結合在語言模型中，使得判斷出來的詞串更符合語法的規則。

2. 可調適的語言模型

因為本論文所建構的語言模型中，所使用的訓練語料與馬可夫模型都是固定的，並無法根據使用者所給予的候選詞串回饋來針對語言模型做調適的動作，因此，建立可調適的語言模型，將會使得語言模型更適合於該使用者。

3. 解決語音辨識時可能出現的插入型、替代型及刪除型錯誤

前端所使用的語音辨識系統目的是辨識大字彙的連續語音，所以難免會出現插入型錯誤(insertion error)、替代型錯誤(substation error)及刪除型錯誤(deletion error)，而我們的語言模型尚無法有效解決上述三種問題，因此，若加入高階的語言知識，或許可改善這三種問題。

4. 廣泛收集訓練語料

目前我們的訓練語料只取自於報紙，這會造成對於其他體裁的詞句辨識率效果

偏低，因此，應由各種不同的領域收集文章，以做為訓練語料，使得模型的應用層面能夠更廣泛。

參考文獻

【1】中華電視公司全球資訊網-新聞頻道

“http://www.2cts.tv/default.aspx?ch=news”

【2】中央研究院中文詞知識庫小組-中文詞知識庫

“http://ckip.iis.sinica.edu.tw/new/publication.htm#t5”

【3】中央研究院中文詞知識庫小組-中文斷詞系統

“http://ckipsvr.iis.sinica.edu.tw/”

【4】 Introduction of Hidden Markov Models

“http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html”

【5】S.Young, et al., “The HTK Book 3.2.1,” Cambridge University Engineering Department, 2001

【6】 X. Huang, A. Acero, and H. W. Hon, “Spoken Language Processing – A Guide to Theory, Algorithm, and System Development,” Carnegie Mellon University, 2001

【7】王小川, “語音訊號處理,” 全華科技圖書股份有限公司, 台北, 民國 93 年 3 月

【8】 S. M. Katz, “Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer,” IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 35, No. 3, pp. 400-401, Mar. 1987

【9】 W. A. Gale, “Good-Turing Smoothing Without Tears,” Journal of Quantitative Linguistics 2, 1995

【10】H. M. Meng, Z. Chen, Y. Shi and Y. C. Li, “A System for Spoken Query Information Retrieval on Mobile Devices,” IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 8, pp. 531-541, Nov, 2002

【11】H. Ney, and U. Essen, “On Smoothing Techniques for Bigram-Based Natural Language Modelling,” IEEE Int. Conf. Acoustic, Speech and Signal Processing, pp. 825-828, Canada, 1991

【12 】 R. Kneser, and H. Ney, “Improved Backing-Off for M-gram Language Modeling,“ IEEE Int. Conf. Acoustic, Speech and Signal Processing, Vol. 1, pp.

181-184, May. 1995

【13】S. F. Chen and J. Goodman, “An Empirical Study of Smoothing Techniques for Language Modeling,” 34-th Annual Meeting of the Association for Computational Linguistics, pp. 310-318, Santa Cruz, California, 1996

【14】楊燕珠, “Intelligent Language Modeling and Processing in Mandarin Speech Recognition,” 國立台灣大學, 資訊工程學研究所碩士論文, 民國 82 年

【15】楊榮荃, “Language Modeling Techniques in Mandarin Speech Recognition,” 國立台灣大學, 資訊工程學研究所碩士論文, 民國 83 年

【16】楊凱程, “Further Studies for Practical Chinese Language Modeling,” 國立台灣大學, 電機工程學研究所碩士論文, 民國 87 年

【17】沈揚智, “The Study of Speech Enhancement in Additive Noise Environment for Speech Recognition,” 國立交通大學, 資訊工程學系研究所碩士論文, 民國 94 年

【18】謝宗儒, “The Study of Speaker Adaptation for Speech Recognition,” 國立交通大學, 資訊工程學系研究所碩士論文, 民國 94 年

附錄

100/200=0.5 65/200=0.325

30/200=0.15

0.5

3/200=0.015 2/200=0.01

dr =0.9, 0.9*0.015=0.0135 dr =0.8, 0.8*0.01=0.008 0.0035*3/250=4.2*10^-5 0.0035*2/250=2.8*10^-5

0.0021 0.00133

d ′r=0.9, 0.9*4.2*10^-5=3.78*10^-5

(9.8*10^-6)*(1/2)=4.9*10^-6 (9.8*10^-6)*(1/2)=4.9*10^-6

總和 200 250 1 1 1

【2】聶氏平滑法(含聶氏內插法與聶氏後退法)與強化聶氏平滑法的實例

100/200=0.5 65/200=0.325

0.4975+0.0125/10 =0.49875 0.3225+0.0125/10=0.32375 0.1475+0.0125/10=0.14875 0.0125+0.0125/10=0.01375 0.0075+0.0125/10=0.00875

0.4975+0.0125*(17.5/50+0.08/10)=0.501975 0.3225+0.0125*(12.5/50+0.08/10)=0.325725 0.1475+0.0125*(8.5/50+0.08/10)=0.149725 0.0125+0.0125*(2.5/50+0.08/10)=0.013225 0.0075+0.0125*(1.5/50+0.08/10)=0.007975 大

0.0125/10=0.00125 0.0125/10=0.00125 0.0125/10=0.00125

0.0125*(2.5/50+0.08/10)=0.000725 0.0125*(0.5/50+0.08/10)=0.000225 0.0125*(0.5/50+0.08/10)=0.000225 大

0.0125/10=0.00125 0.0125/10=0.00125

0.0125*(0.08/10)=0.0001 0.0125*(0.08/10)=0.0001

總和 200 50 1 1 1 1

在文檔中中文語音辨識中語言模型的強化之研究 (頁 48-54)