考慮破音字效應

第四章加入語言模型之語音辨認器

4.4 考慮破音字效應

如第二章所述，研究中使用的資料庫屬於廣播新聞語料，音檔的正確答案

（Transcription）均是經由標記員去聽錄製完成的新聞節目，同時對節目內容進行標記，而過程中對於文字內容的標記則記錄到文字層級（Word-level），但是在辨識系統建立流程中，必須使用到音節層級（Syllable-level）的正確答案才能對聲學模型進行訓練，因此，之前使用的音節層級正確答案都是直接採用每個字的最常見音，對於測試語料的正確答案亦是如此。在此將探討破音字的存在對辨識器造成的影響，以及如何加入破音字於辨識系統中。

4.4.1 破音字的影響

若是依照之前的作法，直接對於每個標記的文字都選用其最常見音作為這個字在音檔中的發音標記，並且當作是訓練語料的正確答案提供給HMM 模型訓練

時使用，這樣便會存在有標音錯誤的情形，造成拿了不完全正確的聲音去訓練 411 音模型的問題，使得訓練出來的模型受到污染而不夠精確；另外，在辨識過程中也會發生測試語料的正確答案與其真實音檔之發音不相吻合的現象，以上兩者均會影響辨識系統的效能以及結果的正確性。

4.4.2 辨識系統的對應處理

由上節中可知，破音字的存在對於辨識器的確會有一定程度的影響，不過仍然有破音字存在的數量和受到影響之音節分布情形等因素需要評估，以決定考慮破音字於辨識系統中的必要性，接下來的過程中將對這個疑問進行驗證，並詳細說明加入破音字後，辨識系統所需要進行的調整。

z 正確答案與聲學模型的修正

研究中的破音字（目前僅考慮一字詞破音字）來源有二，分別是交通大學語音實驗室常見一字詞破音字表、以及台師大詞典中一字詞破音字 [14]，在此取兩者的聯集，又因為包含音調的辨識並非研究中重點，所以再將聯集的結果中只有音調不同的破音字排除，總計共有 510 個一字詞破音字，詳列於附錄二。

要列入考慮的破音字決定以後，對於破音字在音檔中正確讀音的選擇，

最精準的方式便是由人去聽音檔後判定，但在音檔數量龐大的情況下，這種方法並不可行；幸運的，先前所建立的辨識系統即擁有尚可接受的效能，所以利用它來對訓練語料進行 re-alignment，並對破音字的不同發音自動選擇較正確的讀音，如此一來便可以得到正確的訓練語料音節層級正確答案，並可從中統計出若是忽略破音字，對於訓練語料會有何種程度的影響，數量統計如下表所示：

表四-4 考慮破音字後訓練語料變化

條件 Anchor Reporter Interviewee 總sub-syllable 數量 353,682 213,820 208,550 改變的sub-syllable 數量 2,926 2,082 2,396

由上表中可發現，三種語者環境多考慮了破音字後，對於 sub-syllable 的造成的改變大概僅佔總 sub-syllable 數量的百分之ㄧ左右，乍看之下似乎影響範圍有限，但進一步統計後發現，這些改變的 sub-syllable 分布極不平均，例如「那」、「長」、「行」、「和」等破音字均會造成其對應的sub-syllable 超過一成以上的改變，如此看來，在辨識系統中加入破音字，絕對有其必要性存在。

因此，使用這個較正確的訓練語料音節層級答案去對HMM 模型進行再訓練，便可得到較精確的聲學模型，接著利用新的聲學模型去對測試語料的正確答案做相同的處理，以減少其中的錯誤標音，避免影響接下來的實驗中辨識結果的正確性。

z 重要破音字的選擇

在進行辨識工作時，並沒有必要將大量的破音字列入考慮，而只需挑選出較重要的破音字即可，在此用來衡量破音字重要性的指標有兩個，首先是每個破音字在斷詞過後的MATBN 文字資料中的出現次數，其次是由訓練語料中統計出的它們的亂度（Perplexity），也就是當亂度越大的同時，便表示這個破音字會被唸成不同音的機率越高，在這兩個參數的協助下，總共挑選了27 個較重要的一字詞破音字列入辨識系統中，如下表所示：

表四-5 辨識時加入的破音字

所以在語言模型的 word-net 的處理上，為了達到（4.8）的方式，我們必須引入sub-network 的作法，建立出 multi-level 的 word-net，也就是 word-net 內還包含有小的word-net，下圖中我們將這個概念以圖形化表示：

圖四-11 破音字在 word-net 之轉移機率處理方式

在文檔中國語廣播新聞語音基本辨認系統之建立 (頁 54-58)

第四章 加入語言模型之語音辨認器

4.4 考慮破音字效應

第四章加入語言模型之語音辨認器