第四章 加入語言模型之語音辨認器
4.6 實驗二─考慮破音字後辨識效能
在此,修正前的 word-net 建立方法仍與建立 bigram 語言模型時經過的流程 相同,但是因為語言模型過於龐大,為了使加入sub-network 的工作得以完成,
我們首先必須在當時的建立流程中做些改變,也就是將由建立 general LM 時使 用的文字資料得到的大量 bigram 中只出現一次的忽略掉,因為這些出現次數極 少的 bigram 重要性原本就很低,所以即使對於建立完成的語言模型之效能會造 成影響,但是其程度應該有限,接著再對它做調適的動作使它的特性較接近廣播 新聞語料的說話特性,最後再加入破音字的 sub-network,便得到了加入破音字 的修正後bigram 語言模型。
另外,接下來的實驗中所使用的測試語料依舊和先前章節實驗中所使用的相 同,不過syllable-level 測試語料的正確答案,則會因為多考慮的破音字而重新經 過選擇而和之前有所不同。最後,過程中為了加快 Viterbi search 以提升辨識速 度,都有使用beam search。
4.6.1 實驗結果
在此仍是依據三種語者環境,個別使用將破音字列入考慮後經過再訓練的聲 學模型進行辨識工作,在修正後的語言模型配合使用下(三種語者環境之語言模 型比重均與之前實驗中相同,設定為9),我們將可以得到 word、character 以及 syllable 三種不同層級的辨識結果。三種不同語者環境的各個層級辨識結果詳列 如下:
表四-17 Outside 測試語料 word 辨識率
環境 Sub Del Ins Accuracy 內場主播 9.44% 3.09% 1.18% 86.29%
外場記者 17.72% 4.76% 1.93% 75.59%
受訪者 37.26% 11.33% 3.57% 47.84%
表四-18 Outside 測試語料 character 辨識率
環境 Sub Del Ins Accuracy 內場主播 6.28% 2.52% 0.17% 91.04%
外場記者 13.61% 2.71% 0.30% 83.37%
受訪者 31.49% 8.71% 1.82% 57.99%
表四-19 Outside 測試語料 syllable 辨識率
環境 Sub Del Ins Accuracy 內場主播 3.67% 2.53% 0.18% 93.62%
外場記者 8.29% 2.71% 0.30% 88.70%
受訪者 24.21% 8.93% 2.04% 64.82%
4.6.2 實驗分析
接下來,我們分別將三個環境的三種層級加入破音字後得到的辨識結果,與 在第四章使用 adapted bigram 語言模型沒有考慮破音字時所得到的結果做個統 整,並畫出長條圖方便觀察。
圖四-13 加入破音字前後內場主播辨識率比較圖
圖四-14 加入破音字前後外場記者辨識率比較圖
圖四-15 加入破音字前後受訪者識率比較圖
¾ 從以上三圖中可以明顯看出,三種語者環境在加入考慮破音字之後,音節辨 識率均有所提升(主播、記者與受訪者三種環境之error reduction rate 分別 為 15.7%、10.2%與 1.8%),這是因為由於破音字的加入,提升了訓練語料 和測試語料的音檔發音與標記之間的一致性,所以減少了訓練HMM 模型時 標音錯誤所造成的污染,建立出了較精確的聲學模型。
¾ 破音字的唸法,事實上會與前後文有關,所以未來應該探討破音字發音與前 後文之間的關係。