辨識結果之細部剖析

第五章實驗結果與分析

5.6 辨識效能比較

5.6.1 辨識結果之細部剖析

在辨認結果中針對人名、詞綴及數量複合詞進行分析，並以 TCC300 測試語料作為比對的依據，觀察在傳統式做法和本研究所提出之方法對於此三類詞在辨認上的影響並進行說明。

首先，針對 TCC300 測試語料、傳統式語言模型辨認結果及第二級語言模型(階層式語言模型)辨認結果中的人名、詞綴和數量複合詞予以統計，來得知此三類詞在不同語言模型辨認出現的情況，分布情況如下表 5-12 所示。

表 5-12 辨識結果中各類所佔總數量

人名總數量 詞綴總數量 數量複合詞總數量

TCC300 測試語料 219 435 409

傳統式語言模型 57 378 419

第二級語言模型 274 503 563

各類增加數量⁴ 217 125 144

在上表（表 5-12）中，可發現傳統式語言模型辨識出人名和詞綴的數量較低，特別是在人名此部分上，遠低於 TCC300 測試語料中存在之人名數量，這是由於傳統式語言模型的辨認辭典有大小限制(約可收錄六萬詞條)，辭典中僅能收錄到高詞頻的人名，如果測試語料出現該辭典未收錄之人名，則無法正確辨識出此完整人名，因而凸顯出傳統式語言模型因辭典大小受限而影響辨識效能的缺點，有鑑於此，故在本研究提出階層式語言模型來克服此問題。

第二級語言模型辨認出三類詞的數量來觀察，亦可發現數量均超過 TCC300 測試語料建立階層式語言模型時，會在 word lattice 使用 subword 半詞進行構詞，讓 word lattice 上產生許多可為人名的節點，再透過對路徑分數的重新配置，讓這些人名可被正確地辨識出來，但往往為了將該類別的詞凸顯出來而分數給予過高，使得不該辨識為人名的地方反而出現人名，而相對地造成辨識上的錯誤，造成此類錯誤數量為 134 個。

5 總數量；指表 6-12 之各類總數量

為了增加人名的辨認效能(C 類)或減少辨認上的錯誤(A 類或 B 類)，或許可以試著在分數配置時加入一些限制，如：稱謂、尊稱等相關詞來更強化人名附近的分數配置，

使得該出現人名地方能被加強，使得人名辨識程度能再往上提升。

5.6.1.2 詞綴

表 5-14 詞綴辨認情況

A B C

傳統式語言模型 130 68 305

第二級語言模型 88 145 347

由上表（表 5-14）可知，詞綴在第二級語言模型中辨識效果亦有明顯的改善，可比傳統方式增加 42 個詞綴被正確地辨識出來，另有 145 個 B 類此種錯誤存在。此外，

可發現詞綴在辨識上錯誤機會相對較小，TCC300 測試語料中有 435 個詞綴，而利用傳統式語言模型即可得到 305 個詞綴辨識正確，相較於人名或數量複合詞在傳統式辨識時正確比例來得高，此現象顯示出在傳統式辭典內已經收錄許多高詞頻的詞綴，使得辨認時詞綴這部份表現不錯，然而再透過本研究提出之階層式做法，發現可使此部分辨識效果更為提高，能正確辨識出之詞綴數量達到 347 個，該數量在 TCC300 測試語料詞綴中佔該類別的 80%(傳統方式為 70%)，因而辨識詞綴上獲得近一步改善。

5.6.1.3 數量複合詞

表 5-15 數量複合詞辨認情況

A B C

傳統式語言模型 154 155 255

第二級語言模型 138 248 271

由上表（表 5-15）可知，階層式做法在數量複合詞正確辨認(C 類)比傳統方式有些微增加，但卻存在數量不少(數量為 248 個)的 B 類錯誤，比其他類別多出許多，表示辨識過程中有許多原本非數量複合詞的地方均被誤認為數量複合詞，而造成此結果的原因可能在於「分數配置」上，由 5.4 小節表 5-8 可知數量複合詞經過構詞後總構詞數量龐大(數量為 357482 個)，而本研究在構詞後的 extended word lattice 分數配置是採內外部機率(inter probability and intra probability)來給予，其中內部(intra)機率為使用該類別之 subword bigram 來計算，而從實驗結果來看，長度較長的數量複合詞由於拆解後 subword 半詞數量較多，故在分數配置上可以有效抑制，使其在 extended word lattice 上分數不至於過高，辨認上可得到不錯的效果，但相對於長度較短的數量複合

然而數量複合詞之內部機率採 FSM 轉移機率時，則發現短長度的數量複合詞變成更容易被辨認出來，原因在於，分數配置上除了受過大的外部機率影響外，長度較短之數量複合詞受半詞數量少而不受壓抑的程度亦比使用 subword bigram 作為內部機率時更為嚴重，因為在 FSM 架構下，每個狀態為存在許多同質性的半詞集合，在訓練轉移機率時，會將該同質性的的半詞均轉為同一狀態，此動作使得狀態間的轉移機率會比 subword bigram 機率來得更大，使得長度較短的數量複合詞更容易受到過分構詞的影響，使得更多原本「非數量複合詞」的地方，被錯誤辨認成短數量複合詞，因而影響辨識效能。

由上述可知，本研究運用階層式 two-stage【12】【13】【14】之架構，採用 subword 短詞收錄至辭典之辨識方法，相較於僅收錄長詞到辨認辭典之傳統方式，本研究之方法辨認效能突破辨認辭典大小之限制，增加了人名、詞綴及數量複合詞可正確被辨認 之數量，並使得整體辨識效能提升，辨識率由傳統式語言模型的 60.86%升至階層式語 言模型的 62.85 %，而將數量複合詞使用 FSM 架構亦可達 62.10 %，均可使階層式語 言模型得到進一步改善。

階層式架構所訓練之語言模型，可對於經過構詞模組後產生的 extended word lattice 進行分數配置，往後在此架構下可引入各種模型(如：韻律模型)、語法資訊等來加強 extended word lattice 上分數配置的可靠性，使得第二級語言模型具有更多資訊而得到強化，使辨識效能可加以進步。

第六章結論與未來展望

在文檔中中文大詞彙語音辨認之語言模型改進 (頁 62-67)

第五章 實驗結果與分析