實驗二─考慮破音字後辨識效能

第四章加入語言模型之語音辨認器

4.6 實驗二─考慮破音字後辨識效能

在此，修正前的 word-net 建立方法仍與建立 bigram 語言模型時經過的流程相同，但是因為語言模型過於龐大，為了使加入sub-network 的工作得以完成，

我們首先必須在當時的建立流程中做些改變，也就是將由建立 general LM 時使用的文字資料得到的大量 bigram 中只出現一次的忽略掉，因為這些出現次數極少的 bigram 重要性原本就很低，所以即使對於建立完成的語言模型之效能會造成影響，但是其程度應該有限，接著再對它做調適的動作使它的特性較接近廣播新聞語料的說話特性，最後再加入破音字的 sub-network，便得到了加入破音字的修正後bigram 語言模型。

另外，接下來的實驗中所使用的測試語料依舊和先前章節實驗中所使用的相同，不過syllable-level 測試語料的正確答案，則會因為多考慮的破音字而重新經過選擇而和之前有所不同。最後，過程中為了加快 Viterbi search 以提升辨識速度，都有使用beam search。

4.6.1 實驗結果

在此仍是依據三種語者環境，個別使用將破音字列入考慮後經過再訓練的聲學模型進行辨識工作，在修正後的語言模型配合使用下（三種語者環境之語言模型比重均與之前實驗中相同，設定為9），我們將可以得到 word、character 以及 syllable 三種不同層級的辨識結果。三種不同語者環境的各個層級辨識結果詳列如下：

表四-17 Outside 測試語料 word 辨識率

環境 Sub Del Ins Accuracy 內場主播 9.44% 3.09% 1.18% 86.29%

外場記者 17.72% 4.76% 1.93% 75.59%

受訪者 37.26% 11.33% 3.57% 47.84%

表四-18 Outside 測試語料 character 辨識率

環境 Sub Del Ins Accuracy 內場主播 6.28% 2.52% 0.17% 91.04%

外場記者 13.61% 2.71% 0.30% 83.37%

受訪者 31.49% 8.71% 1.82% 57.99%

表四-19 Outside 測試語料 syllable 辨識率

環境 Sub Del Ins Accuracy 內場主播 3.67% 2.53% 0.18% 93.62%

外場記者 8.29% 2.71% 0.30% 88.70%

受訪者 24.21% 8.93% 2.04% 64.82%

4.6.2 實驗分析

接下來，我們分別將三個環境的三種層級加入破音字後得到的辨識結果，與在第四章使用 adapted bigram 語言模型沒有考慮破音字時所得到的結果做個統整，並畫出長條圖方便觀察。

圖四-13 加入破音字前後內場主播辨識率比較圖

圖四-14 加入破音字前後外場記者辨識率比較圖

圖四-15 加入破音字前後受訪者識率比較圖

¾ 從以上三圖中可以明顯看出，三種語者環境在加入考慮破音字之後，音節辨識率均有所提升（主播、記者與受訪者三種環境之error reduction rate 分別為 15.7%、10.2%與 1.8%），這是因為由於破音字的加入，提升了訓練語料和測試語料的音檔發音與標記之間的一致性，所以減少了訓練HMM 模型時標音錯誤所造成的污染，建立出了較精確的聲學模型。

¾ 破音字的唸法，事實上會與前後文有關，所以未來應該探討破音字發音與前後文之間的關係。

第五章將標點符號、音節間靜音長度與詞類模型加入口語

在文檔中國語廣播新聞語音基本辨認系統之建立 (頁 64-68)

第四章 加入語言模型之語音辨認器

4.6 實驗二─考慮破音字後辨識效能

第五章 將標點符號、音節間靜音長度與詞類模型加入口語

第四章加入語言模型之語音辨認器

第五章將標點符號、音節間靜音長度與詞類模型加入口語