第五章 加入語言模型至辨識系統
6.1 結論
在本論文中,我們使用 PTSND(公共電視新聞資料庫),進行廣播新聞語 音辨識的研究,從語音的特性、建立基本辨識系統,到系統改進以及語言模型的 加入,有一個循序漸進的說明。我們將幾個主要重點分列如下:
(1) 廣播新聞語音不比一般 Read Speech 語音,而是比較近似於自發性語音
(Spontaneous speech)特性,因此除了國語 411 語音以外,我們還建立了 Particle、呼吸聲和 Garbage model 等語音模型,這是為了能輔助其他聲學 模型的訓練,使得基本辨識系統能更完整。
(2) 內外場環境的不同是廣播新聞的特色之一,因此依照各個環境建立聲學模 型是必要的,我們針對不同的環境,分開訓練語料各自訓練模型,可以確 實的提高辨識率。
(3) 加入語言模型(Language Model)至辨識器是語音辨識基本的需求,在前 面的辨識系統裡都只是採用無文法規則(Free grammar),若能加入語言 模型,可使得辨識器更完善。我們在此針對廣播新聞特性,進行語言模型 的調適和Unknown Word 的處理,從最後音節辨識的結果來看,加入語言 模型真正能有效的提高辨識率。
6.2 未來展望
現時國內跟國外的辨識系統,均已經將語言模型(Language Model)、前後 文相關模型(Context Dependent Model)均納入基本的條件。由於在我們進行實 驗時,加入語言模型已經使得運算量會相當龐大,進行辨識時所費的時間是Free grammar 的好幾倍,因此就沒有再進行前後文相關模型的實驗。假若在未來的辨
識系統裡,我們希望可以再把這方面加入。
廣播新聞裡,語者在講話的同時,時常會出現背景聲(Background Sound),
而本論文的方向只在於無背景聲下的研究。而有背景聲的語音辨識效能一般比較 低落【6】,同時也是一大挑戰,考慮背景聲的語音辨識是必要的,我們也可以針 對 SNR 的大小、語者語音參數調適和聲學模型的調適去加強辨識系統的效能,
這也是未來一個適合研究的主題。
良好的廣播新聞語音辨識器是建立正確檢索系統的關鍵,參考至 SoVideo 的檢索系統中【6】,若是沒有正確的語音辨識,容易使得使用者在搜尋到所需的 新聞之後發現是錯的,因此在未來媒體爆炸的時代,為了有效的管理、擷取資訊,
我們必須把基本辨識系統作好,也就是建立一個良好的語音辨識器。
參考文獻
【1】 Hsin-min Wang, "MATBN 2002: A Mandarin Chinese Broadcast News Corpus" ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition (SSPR2003).
【2】 Liu, D., L. Nguyen, S. Matsoukas, J. Davenport, F. Kubala, R. Schwartz,
"Improvements in Spontaneous Speech Recognition", DARPA 1998 Broadcast News Transcription and Understanding Workshop, Leesburg VA, Feb. 1998
【3】 Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language Processing, Aguide to Theory, Algorithm, and System Development”, Prentice-Hall, Inc.
【4】 S. Young, G.. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, P. Woodland, “The HTK Book
(
for HTK Version 3.2.1)
”【5】 Kazuyuki TAKAGI, Shuichi ITAHASHI, “Segmentation of Spoken Dialogue by Interjections, Disfluent Utterances and Pauses”, In Proceedings of the ICSLP-96, pp. 697--700
【6】 Hsin-min Wang, Shi-sian Cheng and Yong-cheng Chen, “The SoVideo Chinese Broadcast News Retrieval System” International Journal of Speech Technology 7, 189-202,2004
【7】 G. Riccardi, E. Bocchieri, and R. Pieraccini. “Non-deterministic stochastic language models for speech recognition”. In Proceedings IEE International Conference on Acoustics, Speech and Signal Processing, volume 1, pages 237--240. IEEE, 1995.
【8】 Slava M. Katz, “Estimation of Probabilities from Sparse Data for the
Language Model Component of a Speech Recognizer” IEEE Transactions on Acoustic, Speech and Signal Processing, Vol. ASSP-35, NO. 3, MARCH 1987
【9】 H. Meinedo, N. Souto, and J. Neto, "Speech recognition of broadcast news for the european portuguese language" in Proc. ASRU '2001.
附錄一
Background sound 標記方法
種類 標記 說明
Music <BACK_Music> … </BACK_Music> 純音樂
Speech <BACK_Speech> … </BACK_Speech> 可以聽清楚的人聲
Shh <BACK_Shh> … </BACK_Shh> 機器聲
Other <BACK_Other> … </BACK_Other>
噪音,如交通工具的聲音(呼
advertisement <ADV/> 廣告
breathe <BRE/> 喘息聲(含呼吸聲、呼氣聲、吐氣聲)
particle <PARTICLE> … </PARTICLE>沒有標準語意的語氣詞 pause <PAUSE/> 停頓
sign <NOISE/> 嘆氣聲 silence <SILENCE/> 沉默 smack <NOISE/> 砸嘴聲
sneeze <NOISE/> 噴嚏聲
<UNRECOGNIZED> …
</UNRECOGNIZED> 由人發出非語音且無法辨識的聲音
weather broadcast<WEATHER/> 氣象預報 yawn <NOISE/> 哈欠聲
noise <NOISE/> 其他無法判定的雜音(補充)
inhale <NOISE/> 吸氣聲(補充)
langthening 不處理 拉長聲(補充)
short break <PAUSE/> pause(補充)
Pronounce error 標記方法
種類 標記 說明
Inappropriate
Pronunciation 發(hua1)生
發音有偏差但仍能辨識的字詞
(常見),判斷其拼音是否存在於 漢語拼音中,若存在則使用新的 拼音
Stutter <STUTTER> … </STUTTER>
口吃,一直重複某個字或其部分 的音,如「對對對」
Syllable contraction
<SYLLABLE_CONTRACTION> …
</SYLLABLE_CONTRACTION>
說話太快而出現音節合併的現象
(常見),如「這樣子」變成「降 子」
Uncertain
<UNCERTAIN> …
</UNCERTAIN>
無法確定的字詞,但是當一連串 念了一句以後就可以辨別是什麼 的字詞
Unrecognizable Speech sound
<UNRECOGNIZED> …
</UNRECOGNIZED> 無法辨識的字詞,如方言
Alternative 不處理
尚未被收錄在辭典但被廣為使用 之讀音
Zhuyin 不處理 注音符號(非常少用)
Foreign Language 標記方法
種類 標記 說明
English <ENG> … </ENG> 英文 Min-Nan <MinNan> … </MinNan> 閩南語 Japanese <JPN> … </JPN> 日語 Formosan <Formosan> … </Formosan> 原住民語 Hakka <Hakka> … </Hakka> 客家語 Cantonese <Foreign> … </Foreign> 廣東語 Other <Foreign> … </Foreign>
其他所有語言, 如拉丁語, 法語, 阿 拉伯語等