結論 - 將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

第五章將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

6.1 結論

在本論文中，我們使用廣播新聞資料庫 MATBN 進行廣播新聞語音辨識的相關研究，從語料庫的聲音的特性、建立基本辨識系統，到語言模型以及標點符號、pause duration 模型和 POS 模型的加入，有一個循序漸進的說明。在此，我們將幾個主要重點分列如下：

（1）廣播新聞語音與一般 read speech 語音不同，特性比較傾向於自然語音

（Spontaneous Speech），其中存在著一般文字之外的某些自然語音現象，

因此除了中文 411 音節模型外，我們還另外建立了 particle、呼吸聲和 garbage model 等聲音模型，使得基本辨識系統更完整。

（2）廣播新聞語料的特色之ㄧ是擁有不同的內外場語者環境，因此依照不同的環境個別建立聲學模型是提高辨識率的必要條件，研究中依據不同環境的語料各自訓練聲學模型，確實可以使辨識器有較好的辨識效能。

（3）語言模型是完整的語音辨識系統不可或缺的一部分，若能加入語言模型，

而非僅採用無文法規則（Free grammar），可使得辨識器更完善，我們在此針對廣播新聞特性，進行語言模型的調適，從音節辨識結果的變化情形來看，加入語言模型真正能有效的提高辨識率；另外，若能夠將破音字加入考慮、給予適當的處理，也確實能夠得到較正確的結果而使得音節辨識效能有進一步的改善。

（4）一般的辨識器，並不會將文章中的標點符號對辨識系統的影響列入考慮，

但是標點符號在句中所扮演的腳色，對於語句的文法結構應有其重要性存

在，若能夠再配合音節間靜音長度模型共同使用，根據研究中詞辨識結果的改變，以上兩者所包含的資訊確實能夠使詞辨識率有所提升；此外，例如詞類這種更高層的文法相關訊息，雖然實驗中無法得到預期的結果，但假使有完整、精確的相關資料，應該也可以對辨識結果有所助益。

6.2 未來展望

國內外的許多辨識系統，均已經採用前後文相關模型（Context Dependent Model）列為基本的條件，但是實驗中由於語言模型模型的加入，已經使得運算量變的相當龐大，辨識工作的進行因而相當費時，因此就沒有再嘗試前後文相關模型的實驗。假若在未來的研究中，我們希望可以再把部分加入辨識系統。

廣播新聞節目中，語者講話的同時經常會伴隨著背景聲（Background Sound）

的存在，而本論文所進行的研究均僅針對無背景聲的部份，至於有背景聲的語音辨識至今仍是一大挑戰，但是考慮背景聲的語音辨識是必要的，也可以針對語者語音參數調適和聲學模型的調適去加強辨識系統在有背景聲存在時的效能，這也是未來一個相當不錯的研究主題。

研究中，我們採用了語料中音節間的pause duration 來幫助辨識系統在標點符號標示與word boundary 位置的判定，未來的研究中若能夠再將音調（Tone）

的影響也加入辨識系統，建立出411 音節的 duration model，相信對於辨識系統的效能也能有相當程度的幫助。

參考文獻

[1] B. H. Juang and S. Furui, “Automatic recognition and understanding of spoken language – A first step towards natural human-machine communication,” in Proc. IEEE, 88, 8, pp. 1142-1165, 2000

[2] L. R. Rabiner and B. H. Juang, “Fundamental of Speech Recognition,” New Jersey, Prentice-Hall, Inc., 1993

[3] 陳俊良，“國語廣播新聞語音辨識之研究”，國立交通大學電信工程學系碩士論文，民國九十三年七月

[4] Hsin-Min Wang, “MATBN 2002: A Mandarin Chinese Broadcast News Corpus”

ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition (SSPR2003)

[5] C. Barras, E. Geoffrois, Z. B. Wu, M. Liberman, “Transcriber: Development and Use of S tool for Assisting Speech Corpora Production,” Speech Communication, 33, pp. 5-22, 2001

[6] Liu, D., L. Nguyen, S. Matsoukas, J. Davenport, F. Kubala, R. Schwartz,

“Improvements in Spontaneous Speech Recognition,” DARPA 1998 Broadcast News Transcription and Understanding Workshop, Leesburg VA, Feb. 1998

[7] S. Young, G.. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D.

Povey, V. Valtchev, P. Woodland, “The HTK Book（for HTK Version 3.2.1）”

[8] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language Processing, Aguide to Theory, Algorithm, and System Development,” Prentice-Hall, Inc

[9] Kazuyuki TAKAGI, Shuichi ITAHASHI, “Segmentation of Spoken Dialogue by Interjections, Disfluent Utterances and Pauses.” In Proceedings of the ICSLP-96, pp. 697-700

[10] G. Riccardi, E. Bocchieri, and R. Pieraccini. “Non-deterministic stochastic language models for speech recognition.” In Proceedings IEE International Conference on Acoustics, Speech and Signal Processing, volume 1, pages 237-240. IEEE, 1995

[11] Slava M. Katz, “Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer,” IEEE Transactions on Acoustic, Speech and Signal Processing, Vol. ASSP-35, NO. 3, MARCH 1987

[12] 江振宇，“中文段詞器之改進”，國立交通大學電信工程學系碩士論文，民國九十三年七月

[13] H. Meinedo, N. Souto, and J. Neto, “Speech recognition of broadcast news for the european portuguese language,” in Proc. ASRU '2001

[14] 吳季芳，“表列國語一字多音”，文化出版社，民國九十二年三月

[15] Jachym Kolar, Jan Svec, and Josef Psutka, “Automatic Punctuation Annotation in Czech Broadcast News Speech.” In SPECOM-2004, pp.

319-325

[16] Ji-Hwan Kim and P. C. Woodland, “The use of prosody in a combined system for punctuation generation and speech recognition,” in Proc. Eurospeech, page 2757-2760, 2001

[17] C. Chen, “Speech Recognition with Automatic Punctuation,” in Proc.

Eurospeech, page 447-450, 1999

[18] Alberto Leon-Garcia, “Probability and Random Processes for Electrical Engineering,” Addison-Wesley Publishing Company, no. 2, pp. 102-119, 1994

附錄一

Background sound 標記方法

種類標記說明

Music <BACK_Music> … </BACK_Music> 純音樂

Speech <BACK_Speech> … </BACK_Speech> 可以聽清楚的人聲

Shh <BACK_Shh> … </BACK_Shh> 機器聲

Other <BACK_Other> … </BACK_Other> 噪音，如交通工具的聲音（呼嘯聲、喇叭聲、警鈴聲）、喧

advertisement <ADV/> 廣告

breath <BRE/> 喘息聲（含呼吸聲、呼氣聲、吐氣聲）

particle <PARTICLE> … </PARTICLE>沒有標準語意的語氣詞 pause <PAUSE/> 停頓

sign <NOISE/> 嘆氣聲 silence <SILENCE/> 沉默 smack <NOISE/> 砸嘴聲

sneeze <NOISE/> 噴嚏聲 weather broadcast<WEATHER/> 氣象預報

yawn <NOISE/> 哈欠聲

noise <NOISE/> 其他無法判定的雜音（補充）

inhale <NOISE/> 吸氣聲（補充）

langthening ^不處理拉長聲（補充）

short break <PAUSE/> pause（補充）

Pronounce error 標記方法

種類標記說明

Stutter <STUTTER> … </STUTTER> 口吃，一直重複某個字或其部分的音，如「對對對」

Syllable contraction

<SYLLABLE_CONTRACTION> …

</SYLLABLE_CONTRACTION>

說話太快而出現音節合併的現象

（常見），如「這樣子」變成「降子」

Uncertain <UNCERTAIN> …

</UNCERTAIN>

無法確定的字詞，但是當一連串念了一句以後就可以辨別是什麼的字詞

Unrecognizable Speech sound

<UNRECOGNIZED> …

Foreign Language 標記方法

種類標記說明

English <ENG> … </ENG> 英文 Min-Nan <MinNan> … </MinNan> 閩南語 Japanese <JPN> … </JPN> 日語 Formosan <Formosan> … </Formosan> 原住民語 Hakka <Hakka> … </Hakka> 客家語 Cantonese <Foreign> … </Foreign> 廣東語

Other <Foreign> … </Foreign> 其他所有語言, 如拉丁語, 法語, 阿拉伯語等

附錄二

扛宛祇衰釭粳熨璿坻敶羆袉耀朴居紅郝陸腳磅癘炔敻騔袚蘋艮怯耑釙雀落稽瞿呲潚蘁袚蠕艾拓胖釙傀落調藏咰瞉遍酖覺虫拗茄鬲喀葉誰藉枹蓼酪堨躂血拗郃乾喳蛻賜蹣炵蝷鈸堨馨行杳郃偺單解輥轍罘蝎雋椑鰓佛杷重偕單貉頡釐凊褌馱猢屬伽枝降勒孱賈頫騎悢遫僥猲攜伺泌食匙尋賃噱鵠挐圜屜給綸余波食區廁辟噢瀕揤嬛強腌翟乘參員啪哦圈夏埤娠尉家曾窘倆參哪啞埔堊奘婁娠將學期絡倘參哪啁埋堆娜宿娩惡彊朝榦龜漸嗾碩親湮穌殼歙椎橇棹漆嚇漯摘稱遺湯蕈氯澠殼橈棲龜駭靦錯

附錄三

21 Neqb 後置數量定詞 44 DE 的，之，得，地

22 Nf 量詞 45 SHI 是

23 Ng 後置詞 46 FW 外文標記

標點符號及其他詞類標記

編號標記說明

47 DASHCATEGORY — 48 ETCCATEGORY … 49 COMMACATEGORY ， 50 PERIODCATEGORY 。 51 QUESTIONCATEGORY ？ 52 COLONCATEGORY ： 53 SEMICOLONCATEGORY ； 54 EXCLANATIONCATEGORY ！ 55 PARENTHESISCATEGORY 「」（）【】

56 PAUSECATEGORY 、 57 SPCHANGECATEGORY ∥

58 DM 定量複合詞

100 BM 附著語素

在文檔中國語廣播新聞語音基本辨認系統之建立 (頁 94-0)

結論

第五章 將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

6.1 結論

參考文獻

附錄一

附錄二

附錄三

第五章將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55