標點符號自動標識結果

第五章將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

5.4 實驗一─利用標點符號、pause duration 資訊辨識效能

5.4.2 標點符號自動標識結果

在標點符號自動標識的效能評估過程中，所有的錯誤類型有三種，第一個是正確答案中有PM 存在的位置，但是卻沒有 PM 被辨識出來的刪除型錯誤（Del），第二種則是答案中並沒有PM 出現的位置，而辨識結果有 PM 存在的插入型錯誤

（Ins），另外，還有一種則是在答案中有 PM 存在的位置辨識器也辨識出了 PM 的存在，不過卻發生了類型上的辨識錯誤，這類型錯誤則稱之為替代型錯誤

（Sub），但是因為標點符號標記的類型原本就可能有不只一種的選擇，因此，接下來所定義的項目將根據上述三類錯誤為基礎進行計算，作為辨識器標記標點符號效能優劣的衡量標準，各項所代表的意義與計算公式接下來有進一步的說明。

首先，定義只考慮刪除型與插入型錯誤，而並不將PM 的種類選擇上的錯誤列入計算之錯誤總數量，記為

Err_notype，而定義 Total 為正確答案中有標記之

標點符號的總量，個別公式如下 [17]：

察PM 間的相互辨識情形，建立之個別 confusion table：

表五-6 Outside 測試語料標點符號辨識率

環境 Place Corr , total

Place Corr , type Corr

Place Corr

, type Err Place Err

辨識結果 PM_COM PM_OTH PM_DOT

PM_COM 96.14% 3.31% 0.55%

PM_OTH 31.99% 68.01% 0.00%

PM_DOT 100.00% 0.00% 0.00%

表五-8 外場記者標點符號標記之 confusion table

正確答案

辨識結果 PM_COM PM_OTH PM_DOT

PM_COM 98.21% 1.49% 0.30%

PM_OTH 11.34% 88.66% 0.00%

PM_DOT 93.75% 0.00% 6.25%

表五-9 受訪者標點符號標記之 confusion table 辨識結果

正確答案 PM_COM PM_OTH PM_DOT

PM_COM 99.37% 0.63% 0.00%

PM_OTH 4.66% 95.34% 0.00%

PM_DOT 50.00% 50.00% 0.00%

5.4.3 實驗分析

在此，一開始先觀察加入標點符號與pause duration 模型後對辨識結果的影響，以下將第四章考慮破音字並使用調適後語言模型，以及本章中又加入標點符號與pause duration 模型的三種語者環境各層級辨識率，統整結果於下表中，同時計算出個別的error reduction rate（ERR）：

表五-10 三種語者環境各層級辨識結果比較表

語者環境辨識條件 Syllable-level Character-level Word-level 同第四章設定 93.62% 91.04% 86.29%

加入PM & DM 93.80% 91.37% 86.86%

內場主播

ERR 2.82% 3.68% 4.16%

同第四章設定 88.70% 83.37% 75.59%

加入PM & DM 88.92% 83.88% 76.36%

外場記者

ERR 1.95% 3.07% 3.15%

同第四章設定 64.82% 57.99% 47.84%

加入PM & DM 65.11% 58.33% 48.44%

受訪者

ERR 0.82% 0.81% 1.15%

¾ 從表中可看出，在辨識系統中加入 PM 與 DM 的資訊之後，三種語者環境的各層級辨識率均有小幅度的提升，由此可知，這兩者含有一般使用的聲學模型和語言模型以外的訊息，而確實能夠對辨識器的效能有所助益。

¾ 藉由比較上表中的 ERR 數值，可發現三種語者環境共有的一個現象，便是 word-level 的 error reduction rate 均較另外兩個層級的 ERR 值要高出一些，

這是因為標點符號和pause duration 模型的主要功用是，改變詞的連接機率以及提升word boundary 位置判斷的正確性，所以雖然也能夠使另外兩個層級的辨識率有所的改善，但是對於word-level 辨識結果將有較為顯著的影響。

¾ 由表五-6 中可知，標點符號 Place OK, total 的標示結果從高到低為，外場記 者、內場主播、最後是受訪者。在主播和記者的部份，雖然加入PM 的語言模型對於兩者都有幫助，但主播的PM 部分 pause 停頓現象不明顯、比例較低，而且根據圖五-6 和圖五-7 的 pause duration model 圖形，相較之下主播的各個DM 間鑑別度較差，所以 PM 的標示結果不如外場記者優良；另外，

受訪者則因為一開始的詞辨識率欠佳，所以標示PM 的整體效能也最差。

接下來，進一步觀察標點符號自動標示的結果，首先將 Place Err 的結果再 細分為miss detection 和 false alarm 兩種，結果如下：

表五-11 標點符號標記之 miss detection 與 false alarm Place Err

語者環境

Miss Detection False Alarm Total 內場主播 21.07% 13.95% 35.02%

外場記者 16.01% 19.94% 35.95%

受訪者 32.09% 24.37% 56.46%

¾ 上表中內場主播和外場記者的部份，可以發現記者的 miss detection 發生機率比主播低，這是因為表五-2 的結果指出，這兩種語者環境之三種標點符號的停頓機率都是記者的比例較高，所以較不會發生miss detection 的現象。

另外，在false alarm 的部份，因為兩種環境在沒有 PM 的位置有停頓發生的 rescoring 得到辨識結果，並觀察標點符號自動標示的效能變化。

5.5.1 實驗結果

在此辨識流程仍需利用 two-pass rescoring 流程，進行辨識時所產生的結果是

同時考慮聲學模型、語言模型、pause duration 模型和 POS 模型分數的產物，下表中記錄著三種不同語者環境在給定不同的 POS 模型比重時， word-level 辨識結果之變化情形：

表五-12 Outside 測試語料 word 辨識率隨詞類模型比重變化情形環境 0.0 0.2 0.4 0.6 0.8 內場主播 88.86% 86.68% 86.60% 86.57% 86.47%

外場記者 76.36% 76.30% 76.08% 76.00% 75.83%

受訪者 48.44% 47.48% 47.36% 47.30% 47.15%

5.5.2 標點符號自動標識結果

下列表格中，分別記錄了三種語者環境在詞類模型比重等於0.8 時，測試語料標點符號自動標記所得到的結果：

表五-13 Outside 測試語料標點符號辨識率

環境 Place Corr , total

Place Corr , type OK

Place Corr

, type Err Place Err 內場主播 80.71% 64.61% 16.10% 48.13%

外場記者 85.53% 75.56% 9.97% 44.24%

受訪者 69.77% 65.38% 4.39% 73.24%

表五-14 標點符號標記之 miss detection 與 false alarm Place Err

語者環境

Miss Detection False Alarm Total 內場主播 19.28% 28.85% 48.13%

首先可能是因為在（5.1）式之推導化簡過程中，pause duration 與詞類無關的假設並不恰當；其次是實驗中建立語言模型和 POS 模型時，所使用的文種類的判定較不正確，此外，即使miss detection 的發生機率有小幅度的下降，但是false alarm 的機率在三種語者環境下都有大幅度的上昇，而這也是造成標點符號標示效能降低的最主要原因。

第六章結論與未來發展

6.1 結論

在本論文中，我們使用廣播新聞資料庫 MATBN 進行廣播新聞語音辨識的相關研究，從語料庫的聲音的特性、建立基本辨識系統，到語言模型以及標點符號、pause duration 模型和 POS 模型的加入，有一個循序漸進的說明。在此，我們將幾個主要重點分列如下：

（1）廣播新聞語音與一般 read speech 語音不同，特性比較傾向於自然語音

（Spontaneous Speech），其中存在著一般文字之外的某些自然語音現象，

因此除了中文 411 音節模型外，我們還另外建立了 particle、呼吸聲和 garbage model 等聲音模型，使得基本辨識系統更完整。

（2）廣播新聞語料的特色之ㄧ是擁有不同的內外場語者環境，因此依照不同的環境個別建立聲學模型是提高辨識率的必要條件，研究中依據不同環境的語料各自訓練聲學模型，確實可以使辨識器有較好的辨識效能。

（3）語言模型是完整的語音辨識系統不可或缺的一部分，若能加入語言模型，

而非僅採用無文法規則（Free grammar），可使得辨識器更完善，我們在此針對廣播新聞特性，進行語言模型的調適，從音節辨識結果的變化情形來看，加入語言模型真正能有效的提高辨識率；另外，若能夠將破音字加入考慮、給予適當的處理，也確實能夠得到較正確的結果而使得音節辨識效能有進一步的改善。

（4）一般的辨識器，並不會將文章中的標點符號對辨識系統的影響列入考慮，

但是標點符號在句中所扮演的腳色，對於語句的文法結構應有其重要性存

在，若能夠再配合音節間靜音長度模型共同使用，根據研究中詞辨識結果的改變，以上兩者所包含的資訊確實能夠使詞辨識率有所提升；此外，例如詞類這種更高層的文法相關訊息，雖然實驗中無法得到預期的結果，但假使有完整、精確的相關資料，應該也可以對辨識結果有所助益。

6.2 未來展望

國內外的許多辨識系統，均已經採用前後文相關模型（Context Dependent Model）列為基本的條件，但是實驗中由於語言模型模型的加入，已經使得運算量變的相當龐大，辨識工作的進行因而相當費時，因此就沒有再嘗試前後文相關模型的實驗。假若在未來的研究中，我們希望可以再把部分加入辨識系統。

廣播新聞節目中，語者講話的同時經常會伴隨著背景聲（Background Sound）

的存在，而本論文所進行的研究均僅針對無背景聲的部份，至於有背景聲的語音辨識至今仍是一大挑戰，但是考慮背景聲的語音辨識是必要的，也可以針對語者語音參數調適和聲學模型的調適去加強辨識系統在有背景聲存在時的效能，這也是未來一個相當不錯的研究主題。

研究中，我們採用了語料中音節間的pause duration 來幫助辨識系統在標點符號標示與word boundary 位置的判定，未來的研究中若能夠再將音調（Tone）

的影響也加入辨識系統，建立出411 音節的 duration model，相信對於辨識系統的效能也能有相當程度的幫助。

參考文獻

[1] B. H. Juang and S. Furui, “Automatic recognition and understanding of spoken language – A first step towards natural human-machine communication,” in Proc. IEEE, 88, 8, pp. 1142-1165, 2000

[2] L. R. Rabiner and B. H. Juang, “Fundamental of Speech Recognition,” New Jersey, Prentice-Hall, Inc., 1993

[3] 陳俊良，“國語廣播新聞語音辨識之研究”，國立交通大學電信工程學系碩士論文，民國九十三年七月

[4] Hsin-Min Wang, “MATBN 2002: A Mandarin Chinese Broadcast News Corpus”

ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition (SSPR2003)

[5] C. Barras, E. Geoffrois, Z. B. Wu, M. Liberman, “Transcriber: Development and Use of S tool for Assisting Speech Corpora Production,” Speech Communication, 33, pp. 5-22, 2001

[6] Liu, D., L. Nguyen, S. Matsoukas, J. Davenport, F. Kubala, R. Schwartz,

“Improvements in Spontaneous Speech Recognition,” DARPA 1998 Broadcast News Transcription and Understanding Workshop, Leesburg VA, Feb. 1998

[7] S. Young, G.. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D.

Povey, V. Valtchev, P. Woodland, “The HTK Book（for HTK Version 3.2.1）”

[8] Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language Processing, Aguide to Theory, Algorithm, and System Development,” Prentice-Hall, Inc

[9] Kazuyuki TAKAGI, Shuichi ITAHASHI, “Segmentation of Spoken Dialogue by Interjections, Disfluent Utterances and Pauses.” In Proceedings of the ICSLP-96, pp. 697-700

[10] G. Riccardi, E. Bocchieri, and R. Pieraccini. “Non-deterministic stochastic language models for speech recognition.” In Proceedings IEE International Conference on Acoustics, Speech and Signal Processing, volume 1, pages 237-240. IEEE, 1995

[11] Slava M. Katz, “Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer,” IEEE Transactions on Acoustic, Speech and Signal Processing, Vol. ASSP-35, NO. 3, MARCH 1987

[12] 江振宇，“中文段詞器之改進”，國立交通大學電信工程學系碩士論文，民國九十三年七月

[13] H. Meinedo, N. Souto, and J. Neto, “Speech recognition of broadcast news for the european portuguese language,” in Proc. ASRU '2001

[14] 吳季芳，“表列國語一字多音”，文化出版社，民國九十二年三月

[15] Jachym Kolar, Jan Svec, and Josef Psutka, “Automatic Punctuation Annotation in Czech Broadcast News Speech.” In SPECOM-2004, pp.

319-325

[16] Ji-Hwan Kim and P. C. Woodland, “The use of prosody in a combined system for punctuation generation and speech recognition,” in Proc. Eurospeech, page 2757-2760, 2001

[17] C. Chen, “Speech Recognition with Automatic Punctuation,” in Proc.

Eurospeech, page 447-450, 1999

[18] Alberto Leon-Garcia, “Probability and Random Processes for Electrical Engineering,” Addison-Wesley Publishing Company, no. 2, pp. 102-119, 1994

附錄一

Background sound 標記方法

種類標記說明

Music <BACK_Music> … </BACK_Music> 純音樂

Speech <BACK_Speech> … </BACK_Speech> 可以聽清楚的人聲

Shh <BACK_Shh> … </BACK_Shh> 機器聲

Other <BACK_Other> … </BACK_Other> 噪音，如交通工具的聲音（呼嘯聲、喇叭聲、警鈴聲）、喧

advertisement <ADV/> 廣告

在文檔中國語廣播新聞語音基本辨認系統之建立 (頁 86-0)

第五章 將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55