Rescore 方法與流程

第五章將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

5.3 標點符號、詞類與 pause duration 模型使用過程

5.3.4 Rescore 方法與流程

配合工具HTK的使用，我們將採用如同第四章中利用trigram語言模型時的two-pass rescoring方式，使辨識系統能夠利用到（5.2）中的四項分數進行辨識，也就是一開始先利用之前章節所建立的聲學模型和語言模型讓HTK 對測試語料進行辨識，而在辨識的同時保留數組比較好的結果提供給下一階段，再配合加入PM的語言模型、inter-word（又細分為PM_COM、PM_DOT、

PM_OTH與NON_PM）和intra-word pause duration模型以及POS模型，找出最好的一組辨識結果。

圖五-10 Two-pass rescore 流程方塊圖

z State 之 token 數的選擇

在此也將遇到利用trigram 語言模型時相同的問題，就是 state 所需保留 token 數的選擇，期望達到的目標依舊是希望能夠在每個 state 只保留越少越好的token 數量，但又能夠在其所有的輸出答案組合中包含越高越好的辨識率（包含率）。在此仍採用測試語料的十分之ㄧ，作為選擇 token 數的實驗語料，並觀察所選擇的 token 數是否能夠提供足夠的辨識率成長空間给 rescoring 時使用。三種語者環境在 token 數設為 10 的情況下辨識包含率為：

圖五-11 內場主播 10-best 詞辨識包含率

圖五-12 外場記者 10-best 詞辨識包含率

圖五-13 受訪者 10-best 詞辨識包含率

由以上實驗結果之圖形中可以看出，三種環境之包含率曲線均有類似的型，配合聲學模型進行第一階段的辨識，並保留 10-best lattice 的辨識結果，過程中為了加快Viterbi search 以提升辨識速度，都有使用 beam search。接下來先同時採用加入PM 後的語言模型與 pause duration 模型的資訊，進行 rescoring 的工作，並產生一組最好的辨識結果，然後再加入詞類模型，最後，我們還將顯示標點符號的標示結果，並對於標點符號自動標示的效能做個分析與評估。

5.4.1 實驗結果

在此依據之前所述 two-pass rescoring 流程進行辨識，第二階段 rescoring 過程中，除了語言模型之外，還另外加入了pause duration 模型，進行辨識時所產生的結果便將同時考慮聲學模型、語言模型以及pause duration 模型的分數，因此除了語言模型的分數比重外，還必須選擇一個 pause duration 模型分數比重

（DM Weight），以決定 pause duration 模型對最後辨識結果造成的影響程度，經過實驗中測試發現，三種語者環境之inter-syllable pause duration model weight 均是在選擇0.4 時能夠有最好的辨識結果，個別的三個層級 411 音節辨識結果詳列如下：

表五-3 Outside 測試語料 word 辨識率

環境 Sub Del Ins Accuracy 內場主播 8.96% 3.21% 0.97% 86.86%

外場記者 16.98% 4.95% 1.70% 76.36%

受訪者 36.61% 11.57% 3.37% 48.44%

表五-4 Outside 測試語料 character 辨識率

環境 Sub Del Ins Accuracy 內場主播 5.96% 2.52% 0.15% 91.37%

外場記者 13.14% 2.67% 0.31% 83.88%

受訪者 31.44% 8.51% 1.72% 58.33%

表五-5 Outside 測試語料 syllable 辨識率

環境 Sub Del Ins Accuracy 內場主播 3.53% 2.52% 0.15% 93.80%

外場記者 8.19% 2.62% 0.27% 88.92%

受訪者 24.14% 8.77% 1.98% 65.11%

5.4.2 標點符號自動標識結果

在標點符號自動標識的效能評估過程中，所有的錯誤類型有三種，第一個是正確答案中有PM 存在的位置，但是卻沒有 PM 被辨識出來的刪除型錯誤（Del），第二種則是答案中並沒有PM 出現的位置，而辨識結果有 PM 存在的插入型錯誤

（Ins），另外，還有一種則是在答案中有 PM 存在的位置辨識器也辨識出了 PM 的存在，不過卻發生了類型上的辨識錯誤，這類型錯誤則稱之為替代型錯誤

（Sub），但是因為標點符號標記的類型原本就可能有不只一種的選擇，因此，接下來所定義的項目將根據上述三類錯誤為基礎進行計算，作為辨識器標記標點符號效能優劣的衡量標準，各項所代表的意義與計算公式接下來有進一步的說明。

首先，定義只考慮刪除型與插入型錯誤，而並不將PM 的種類選擇上的錯誤列入計算之錯誤總數量，記為

Err_notype，而定義 Total 為正確答案中有標記之

標點符號的總量，個別公式如下 [17]：

察PM 間的相互辨識情形，建立之個別 confusion table：

表五-6 Outside 測試語料標點符號辨識率

環境 Place Corr , total

Place Corr , type Corr

Place Corr

, type Err Place Err

辨識結果 PM_COM PM_OTH PM_DOT

PM_COM 96.14% 3.31% 0.55%

PM_OTH 31.99% 68.01% 0.00%

PM_DOT 100.00% 0.00% 0.00%

表五-8 外場記者標點符號標記之 confusion table

正確答案

辨識結果 PM_COM PM_OTH PM_DOT

PM_COM 98.21% 1.49% 0.30%

PM_OTH 11.34% 88.66% 0.00%

PM_DOT 93.75% 0.00% 6.25%

表五-9 受訪者標點符號標記之 confusion table 辨識結果

正確答案 PM_COM PM_OTH PM_DOT

PM_COM 99.37% 0.63% 0.00%

PM_OTH 4.66% 95.34% 0.00%

PM_DOT 50.00% 50.00% 0.00%

5.4.3 實驗分析

在此，一開始先觀察加入標點符號與pause duration 模型後對辨識結果的影響，以下將第四章考慮破音字並使用調適後語言模型，以及本章中又加入標點符號與pause duration 模型的三種語者環境各層級辨識率，統整結果於下表中，同時計算出個別的error reduction rate（ERR）：

表五-10 三種語者環境各層級辨識結果比較表

語者環境辨識條件 Syllable-level Character-level Word-level 同第四章設定 93.62% 91.04% 86.29%

加入PM & DM 93.80% 91.37% 86.86%

內場主播

ERR 2.82% 3.68% 4.16%

同第四章設定 88.70% 83.37% 75.59%

加入PM & DM 88.92% 83.88% 76.36%

外場記者

ERR 1.95% 3.07% 3.15%

同第四章設定 64.82% 57.99% 47.84%

加入PM & DM 65.11% 58.33% 48.44%

受訪者

ERR 0.82% 0.81% 1.15%

¾ 從表中可看出，在辨識系統中加入 PM 與 DM 的資訊之後，三種語者環境的各層級辨識率均有小幅度的提升，由此可知，這兩者含有一般使用的聲學模型和語言模型以外的訊息，而確實能夠對辨識器的效能有所助益。

¾ 藉由比較上表中的 ERR 數值，可發現三種語者環境共有的一個現象，便是 word-level 的 error reduction rate 均較另外兩個層級的 ERR 值要高出一些，

這是因為標點符號和pause duration 模型的主要功用是，改變詞的連接機率以及提升word boundary 位置判斷的正確性，所以雖然也能夠使另外兩個層級的辨識率有所的改善，但是對於word-level 辨識結果將有較為顯著的影響。

¾ 由表五-6 中可知，標點符號 Place OK, total 的標示結果從高到低為，外場記 者、內場主播、最後是受訪者。在主播和記者的部份，雖然加入PM 的語言模型對於兩者都有幫助，但主播的PM 部分 pause 停頓現象不明顯、比例較低，而且根據圖五-6 和圖五-7 的 pause duration model 圖形，相較之下主播的各個DM 間鑑別度較差，所以 PM 的標示結果不如外場記者優良；另外，

受訪者則因為一開始的詞辨識率欠佳，所以標示PM 的整體效能也最差。

接下來，進一步觀察標點符號自動標示的結果，首先將 Place Err 的結果再 細分為miss detection 和 false alarm 兩種，結果如下：

表五-11 標點符號標記之 miss detection 與 false alarm Place Err

語者環境

Miss Detection False Alarm Total 內場主播 21.07% 13.95% 35.02%

外場記者 16.01% 19.94% 35.95%

受訪者 32.09% 24.37% 56.46%

¾ 上表中內場主播和外場記者的部份，可以發現記者的 miss detection 發生機率比主播低，這是因為表五-2 的結果指出，這兩種語者環境之三種標點符號的停頓機率都是記者的比例較高，所以較不會發生miss detection 的現象。

另外，在false alarm 的部份，因為兩種環境在沒有 PM 的位置有停頓發生的 rescoring 得到辨識結果，並觀察標點符號自動標示的效能變化。

5.5.1 實驗結果

在此辨識流程仍需利用 two-pass rescoring 流程，進行辨識時所產生的結果是

同時考慮聲學模型、語言模型、pause duration 模型和 POS 模型分數的產物，下表中記錄著三種不同語者環境在給定不同的 POS 模型比重時， word-level 辨識結果之變化情形：

表五-12 Outside 測試語料 word 辨識率隨詞類模型比重變化情形環境 0.0 0.2 0.4 0.6 0.8 內場主播 88.86% 86.68% 86.60% 86.57% 86.47%

外場記者 76.36% 76.30% 76.08% 76.00% 75.83%

受訪者 48.44% 47.48% 47.36% 47.30% 47.15%

5.5.2 標點符號自動標識結果

下列表格中，分別記錄了三種語者環境在詞類模型比重等於0.8 時，測試語料標點符號自動標記所得到的結果：

表五-13 Outside 測試語料標點符號辨識率

環境 Place Corr , total

Place Corr , type OK

Place Corr

, type Err Place Err 內場主播 80.71% 64.61% 16.10% 48.13%

外場記者 85.53% 75.56% 9.97% 44.24%

受訪者 69.77% 65.38% 4.39% 73.24%

表五-14 標點符號標記之 miss detection 與 false alarm Place Err

語者環境

Miss Detection False Alarm Total 內場主播 19.28% 28.85% 48.13%

首先可能是因為在（5.1）式之推導化簡過程中，pause duration 與詞類無關的假設並不恰當；其次是實驗中建立語言模型和 POS 模型時，所使用的文種類的判定較不正確，此外，即使miss detection 的發生機率有小幅度的下降，但是false alarm 的機率在三種語者環境下都有大幅度的上昇，而這也是造成標點符號標示效能降低的最主要原因。

第六章結論與未來發展

6.1 結論

在本論文中，我們使用廣播新聞資料庫 MATBN 進行廣播新聞語音辨識的相關研究，從語料庫的聲音的特性、建立基本辨識系統，到語言模型以及標點符號、pause duration 模型和 POS 模型的加入，有一個循序漸進的說明。在此，我們將幾個主要重點分列如下：

（1）廣播新聞語音與一般 read speech 語音不同，特性比較傾向於自然語音

（Spontaneous Speech），其中存在著一般文字之外的某些自然語音現象，

因此除了中文 411 音節模型外，我們還另外建立了 particle、呼吸聲和 garbage model 等聲音模型，使得基本辨識系統更完整。

（2）廣播新聞語料的特色之ㄧ是擁有不同的內外場語者環境，因此依照不同的環境個別建立聲學模型是提高辨識率的必要條件，研究中依據不同環境的語料各自訓練聲學模型，確實可以使辨識器有較好的辨識效能。

（3）語言模型是完整的語音辨識系統不可或缺的一部分，若能加入語言模型，

而非僅採用無文法規則（Free grammar），可使得辨識器更完善，我們在此針對廣播新聞特性，進行語言模型的調適，從音節辨識結果的變化情形來看，加入語言模型真正能有效的提高辨識率；另外，若能夠將破音字加入考慮、給予適當的處理，也確實能夠得到較正確的結果而使得音節辨識效能有進一步的改善。

（4）一般的辨識器，並不會將文章中的標點符號對辨識系統的影響列入考慮，

但是標點符號在句中所扮演的腳色，對於語句的文法結構應有其重要性存

在，若能夠再配合音節間靜音長度模型共同使用，根據研究中詞辨識結果的改變，以上兩者所包含的資訊確實能夠使詞辨識率有所提升；此外，例如詞類這種更高層的文法相關訊息，雖然實驗中無法得到預期的結果，但假使有完整、精確的相關資料，應該也可以對辨識結果有所助益。

在文檔中國語廣播新聞語音基本辨認系統之建立 (頁 82-0)

第五章 將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

5.3 標點符號、詞類與 pause duration 模型使用過程

5.3.4 Rescore 方法與流程

Err_notype，而定義 Total 為正確答案中有標記之

第六章 結論與未來發展

第五章將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

第六章結論與未來發展