• 沒有找到結果。

Rescore 方法與流程

第五章 將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

5.3 標點符號、詞類與 pause duration 模型使用過程

5.3.4 Rescore 方法與流程

配合工具HTK的使用,我們將採用如同第四章中利用trigram語言模型時 的two-pass rescoring方式,使辨識系統能夠利用到(5.2)中的四項分數進行 辨識,也就是一開始先利用之前章節所建立的聲學模型和語言模型讓HTK 對測試語料進行辨識,而在辨識的同時保留數組比較好的結果提供給下一階 段,再配合加入PM的語言模型、inter-word(又細分為PM_COM、PM_DOT、

PM_OTH與NON_PM)和intra-word pause duration模型以及POS模型,找出 最好的一組辨識結果。

圖五-10 Two-pass rescore 流程方塊圖

z State 之 token 數的選擇

在此也將遇到利用trigram 語言模型時相同的問題,就是 state 所需保留 token 數的選擇,期望達到的目標依舊是希望能夠在每個 state 只保留越少越 好的token 數量,但又能夠在其所有的輸出答案組合中包含越高越好的辨識 率(包含率)。在此仍採用測試語料的十分之ㄧ,作為選擇 token 數的實驗 語料,並觀察所選擇的 token 數是否能夠提供足夠的辨識率成長空間给 rescoring 時使用。三種語者環境在 token 數設為 10 的情況下辨識包含率為:

圖五-11 內場主播 10-best 詞辨識包含率

圖五-12 外場記者 10-best 詞辨識包含率

圖五-13 受訪者 10-best 詞辨識包含率

由以上實驗結果之圖形中可以看出,三種環境之包含率曲線均有類似的 型,配合聲學模型進行第一階段的辨識,並保留 10-best lattice 的辨識結果,過 程中為了加快Viterbi search 以提升辨識速度,都有使用 beam search。接下來先 同時採用加入PM 後的語言模型與 pause duration 模型的資訊,進行 rescoring 的 工作,並產生一組最好的辨識結果,然後再加入詞類模型,最後,我們還將顯示 標點符號的標示結果,並對於標點符號自動標示的效能做個分析與評估。

5.4.1 實驗結果

在此依據之前所述 two-pass rescoring 流程進行辨識,第二階段 rescoring 過 程中,除了語言模型之外,還另外加入了pause duration 模型,進行辨識時所產 生的結果便將同時考慮聲學模型、語言模型以及pause duration 模型的分數,因 此除了語言模型的分數比重外,還必須選擇一個 pause duration 模型分數比重

(DM Weight),以決定 pause duration 模型對最後辨識結果造成的影響程度,經 過實驗中測試發現,三種語者環境之inter-syllable pause duration model weight 均 是在選擇0.4 時能夠有最好的辨識結果,個別的三個層級 411 音節辨識結果詳列 如下:

表五-3 Outside 測試語料 word 辨識率

環境 Sub Del Ins Accuracy 內場主播 8.96% 3.21% 0.97% 86.86%

外場記者 16.98% 4.95% 1.70% 76.36%

受訪者 36.61% 11.57% 3.37% 48.44%

表五-4 Outside 測試語料 character 辨識率

環境 Sub Del Ins Accuracy 內場主播 5.96% 2.52% 0.15% 91.37%

外場記者 13.14% 2.67% 0.31% 83.88%

受訪者 31.44% 8.51% 1.72% 58.33%

表五-5 Outside 測試語料 syllable 辨識率

環境 Sub Del Ins Accuracy 內場主播 3.53% 2.52% 0.15% 93.80%

外場記者 8.19% 2.62% 0.27% 88.92%

受訪者 24.14% 8.77% 1.98% 65.11%

5.4.2 標點符號自動標識結果

在標點符號自動標識的效能評估過程中,所有的錯誤類型有三種,第一個是 正確答案中有PM 存在的位置,但是卻沒有 PM 被辨識出來的刪除型錯誤(Del), 第二種則是答案中並沒有PM 出現的位置,而辨識結果有 PM 存在的插入型錯誤

(Ins),另外,還有一種則是在答案中有 PM 存在的位置辨識器也辨識出了 PM 的存在,不過卻發生了類型上的辨識錯誤,這類型錯誤則稱之為替代型錯誤

(Sub),但是因為標點符號標記的類型原本就可能有不只一種的選擇,因此,接 下來所定義的項目將根據上述三類錯誤為基礎進行計算,作為辨識器標記標點符 號效能優劣的衡量標準,各項所代表的意義與計算公式接下來有進一步的說明。

首先,定義只考慮刪除型與插入型錯誤,而並不將PM 的種類選擇上的錯誤 列入計算之錯誤總數量,記為

Err_notype,而定義 Total 為正確答案中有標記之

標點符號的總量,個別公式如下 [17]:

察PM 間的相互辨識情形,建立之個別 confusion table:

表五-6 Outside 測試語料標點符號辨識率

環境 Place Corr , total

Place Corr , type Corr

Place Corr

, type Err Place Err

辨識結果 PM_COM PM_OTH PM_DOT

PM_COM 96.14% 3.31% 0.55%

PM_OTH 31.99% 68.01% 0.00%

PM_DOT 100.00% 0.00% 0.00%

表五-8 外場記者標點符號標記之 confusion table

正確答案

辨識結果 PM_COM PM_OTH PM_DOT

PM_COM 98.21% 1.49% 0.30%

PM_OTH 11.34% 88.66% 0.00%

PM_DOT 93.75% 0.00% 6.25%

表五-9 受訪者標點符號標記之 confusion table 辨識結果

正確答案 PM_COM PM_OTH PM_DOT

PM_COM 99.37% 0.63% 0.00%

PM_OTH 4.66% 95.34% 0.00%

PM_DOT 50.00% 50.00% 0.00%

5.4.3 實驗分析

在此,一開始先觀察加入標點符號與pause duration 模型後對辨識結果的影 響,以下將第四章考慮破音字並使用調適後語言模型,以及本章中又加入標點符 號與pause duration 模型的三種語者環境各層級辨識率,統整結果於下表中,同 時計算出個別的error reduction rate(ERR):

表五-10 三種語者環境各層級辨識結果比較表

語者環境 辨識條件 Syllable-level Character-level Word-level 同第四章設定 93.62% 91.04% 86.29%

加入PM & DM 93.80% 91.37% 86.86%

內場主播

ERR 2.82% 3.68% 4.16%

同第四章設定 88.70% 83.37% 75.59%

加入PM & DM 88.92% 83.88% 76.36%

外場記者

ERR 1.95% 3.07% 3.15%

同第四章設定 64.82% 57.99% 47.84%

加入PM & DM 65.11% 58.33% 48.44%

受訪者

ERR 0.82% 0.81% 1.15%

¾ 從表中可看出,在辨識系統中加入 PM 與 DM 的資訊之後,三種語者環境的 各層級辨識率均有小幅度的提升,由此可知,這兩者含有一般使用的聲學模 型和語言模型以外的訊息,而確實能夠對辨識器的效能有所助益。

¾ 藉由比較上表中的 ERR 數值,可發現三種語者環境共有的一個現象,便是 word-level 的 error reduction rate 均較另外兩個層級的 ERR 值要高出一些,

這是因為標點符號和pause duration 模型的主要功用是,改變詞的連接機率 以及提升word boundary 位置判斷的正確性,所以雖然也能夠使另外兩個層 級的辨識率有所的改善,但是對於word-level 辨識結果將有較為顯著的影響。

¾ 由表五-6 中可知,標點符號 Place OK, total 的標示結果從高到低為,外場記 者、內場主播、最後是受訪者。在主播和記者的部份,雖然加入PM 的語言 模型對於兩者都有幫助,但主播的PM 部分 pause 停頓現象不明顯、比例較 低,而且根據圖五-6 和圖五-7 的 pause duration model 圖形,相較之下主播 的各個DM 間鑑別度較差,所以 PM 的標示結果不如外場記者優良;另外,

受訪者則因為一開始的詞辨識率欠佳,所以標示PM 的整體效能也最差。

接下來,進一步觀察標點符號自動標示的結果,首先將 Place Err 的結果再 細分為miss detection 和 false alarm 兩種,結果如下:

表五-11 標點符號標記之 miss detection 與 false alarm Place Err

語者環境

Miss Detection False Alarm Total 內場主播 21.07% 13.95% 35.02%

外場記者 16.01% 19.94% 35.95%

受訪者 32.09% 24.37% 56.46%

¾ 上表中內場主播和外場記者的部份,可以發現記者的 miss detection 發生機 率比主播低,這是因為表五-2 的結果指出,這兩種語者環境之三種標點符號 的停頓機率都是記者的比例較高,所以較不會發生miss detection 的現象。

另外,在false alarm 的部份,因為兩種環境在沒有 PM 的位置有停頓發生的 rescoring 得到辨識結果,並觀察標點符號自動標示的效能變化。

5.5.1 實驗結果

在此辨識流程仍需利用 two-pass rescoring 流程,進行辨識時所產生的結果是

同時考慮聲學模型、語言模型、pause duration 模型和 POS 模型分數的產物,下 表中記錄著三種不同語者環境在給定不同的 POS 模型比重時, word-level 辨識 結果之變化情形:

表五-12 Outside 測試語料 word 辨識率隨詞類模型比重變化情形 環境 0.0 0.2 0.4 0.6 0.8 內場主播 88.86% 86.68% 86.60% 86.57% 86.47%

外場記者 76.36% 76.30% 76.08% 76.00% 75.83%

受訪者 48.44% 47.48% 47.36% 47.30% 47.15%

5.5.2 標點符號自動標識結果

下列表格中,分別記錄了三種語者環境在詞類模型比重等於0.8 時,測試語 料標點符號自動標記所得到的結果:

表五-13 Outside 測試語料標點符號辨識率

環境 Place Corr , total

Place Corr , type OK

Place Corr

, type Err Place Err 內場主播 80.71% 64.61% 16.10% 48.13%

外場記者 85.53% 75.56% 9.97% 44.24%

受訪者 69.77% 65.38% 4.39% 73.24%

表五-14 標點符號標記之 miss detection 與 false alarm Place Err

語者環境

Miss Detection False Alarm Total 內場主播 19.28% 28.85% 48.13%

首先可能是因為在(5.1)式之推導化簡過程中,pause duration 與詞類無關 的假設並不恰當;其次是實驗中建立語言模型和 POS 模型時,所使用的文 種類的判定較不正確,此外,即使miss detection 的發生機率有小幅度的下 降,但是false alarm 的機率在三種語者環境下都有大幅度的上昇,而這也是 造成標點符號標示效能降低的最主要原因。

第六章 結論與未來發展

6.1 結論

在本論文中,我們使用廣播新聞資料庫 MATBN 進行廣播新聞語音辨識的 相關研究,從語料庫的聲音的特性、建立基本辨識系統,到語言模型以及標點符 號、pause duration 模型和 POS 模型的加入,有一個循序漸進的說明。在此,我 們將幾個主要重點分列如下:

(1) 廣播新聞語音與一般 read speech 語音不同,特性比較傾向於自然語音

(Spontaneous Speech),其中存在著一般文字之外的某些自然語音現象,

因此除了中文 411 音節模型外,我們還另外建立了 particle、呼吸聲和 garbage model 等聲音模型,使得基本辨識系統更完整。

(2) 廣播新聞語料的特色之ㄧ是擁有不同的內外場語者環境,因此依照不同的 環境個別建立聲學模型是提高辨識率的必要條件,研究中依據不同環境的 語料各自訓練聲學模型,確實可以使辨識器有較好的辨識效能。

(3) 語言模型是完整的語音辨識系統不可或缺的一部分,若能加入語言模型,

而非僅採用無文法規則(Free grammar),可使得辨識器更完善,我們在 此針對廣播新聞特性,進行語言模型的調適,從音節辨識結果的變化情形 來看,加入語言模型真正能有效的提高辨識率;另外,若能夠將破音字加 入考慮、給予適當的處理,也確實能夠得到較正確的結果而使得音節辨識 效能有進一步的改善。

(4) 一般的辨識器,並不會將文章中的標點符號對辨識系統的影響列入考慮,

但是標點符號在句中所扮演的腳色,對於語句的文法結構應有其重要性存

在,若能夠再配合音節間靜音長度模型共同使用,根據研究中詞辨識結果 的改變,以上兩者所包含的資訊確實能夠使詞辨識率有所提升;此外,例 如詞類這種更高層的文法相關訊息,雖然實驗中無法得到預期的結果,但 假使有完整、精確的相關資料,應該也可以對辨識結果有所助益。

在,若能夠再配合音節間靜音長度模型共同使用,根據研究中詞辨識結果 的改變,以上兩者所包含的資訊確實能夠使詞辨識率有所提升;此外,例 如詞類這種更高層的文法相關訊息,雖然實驗中無法得到預期的結果,但 假使有完整、精確的相關資料,應該也可以對辨識結果有所助益。

相關文件