各種平滑化方法的比較

4.4 實驗數據與結果

4.4.3 各種平滑化方法的比較

成平滑法』、『凱氏平滑法』、『聶氏後退法』

及『聶氏內插法』各種平滑化方法的情況，同時也實做了我們所提出的『強化凱氏平滑法』及『強化聶氏平滑法』，以下表格為各平滑化方法的混淆度。

表4-11：各平滑化方法的混淆度之比較方法

年/

加成

平滑法平滑法

強化凱氏平滑法

聶氏內插法

聶氏後退法

強化聶氏平滑法本論文實做了語言模型中使用『加

凱氏月

04/03 623.61 67.84 60.38 44.65 38.01 34.48 04/04 541.01 56.67 52.03 39.75 34.18 31.17 04/05 595.20 76.42 69.44 48.60 41.88 37.60 04/06 549.16 71.47 65.16 46.07 39.95 35.68 04/07 582.82 69.52 61.88 45.21 39.25 35.17 04/08 529.22 70.67 65.60 45.70 38.68 35.08 04/09 570.86 79.77 72.17 49.09 43.19 38.20 04/10 621.48 89.35 84.59 53.82 44.82 40.65 04/11 613.24 85.60 79.54 52.67 44.70 40.25 04/12 546.60 71.09 64.66 46.28 41.67 36.50 05/01 555.69 77.84 73.60 49.97 46.83 40.13 05/02 546.92 74.95 66.33 46.13 42.69 37.00

4. 果討分

由表，我們將除了『加成平滑法』以外的五種方法繪製成比較圖4-3 (因

『加

或『聶氏平滑法』，所得的效果均較最基本的

2. 』的混淆度會比使用『聶

3. 個混

4. 滑法』比較時所增加的效能(6.65)，比

5 結論與析

4-11

成平滑法』為本實驗的對照組，其實驗數據明顯與其他平滑化方法相差許多) ，並觀察到以下結論：

1. 不論是使用『凱氏平滑法』

『加成平滑法』好上許多；而使用『聶氏平滑法』的混淆度會比使用『凱氏平滑法』來得小，這是因為『聶氏平滑法』所使用的鄰接詞資訊較為精確的緣故。

單就『聶氏平滑法』而言，使用『聶氏後退法

氏內插法』來得小，這是因為『聶氏後退法』在分配時是依照詞尾的前接詞數來分配，比『聶氏內插法』平均給每個詞還要來得精確。

我們所提的『強化凱氏平滑法』，較原『凱氏平滑法』平均小了6.65 淆度單位；而『強化聶氏平滑法』，較原聶氏平滑法中效能較佳的『聶氏後退法』還平均小了 4.50 個混淆度單位，顯示我們所提的方法的確可增加語言模型的效能。

『強化凱氏平滑法』與原『凱氏平

『強化聶氏平滑法』與『聶氏後退法』比較時所增加的效能(4.50)還要多，

這是因為『強化凱氏平滑法』是只將折扣後所剩的值分給機率為零的未知事件，而『強化聶氏平滑法』是分配給所有在辭典中的詞彙的緣故。

整體看來，在我們所實做的六種平滑化方法中，『強化聶氏平滑法』擁有最佳的效能。

0 10 20 30 40 50 60 70 80 90 100

04/03 04/04 04/05 04/06 04/07 04/08 04/09 04/10 04/11 04/12 05/01 05/02 月份資料

混淆度

凱氏平滑法強化凱氏平滑法

聶氏後退法聶氏內插法

強化聶氏平滑法

圖4-3：除『加成平滑法』外的五種平滑化方法混淆度比較圖

第 5 章語音辨識系統之語言模型部分系統應用：手持式語音辨識系統之實做

5.1 手持式語音辨識系統之建構

本論文將我們所提的平滑化方法及建構的雙連馬可夫語言模型，應用於我們所建構的手持式語音辨識系統中，我們的手持式語音辨識系統採用主從式的 Client-Server 架構，Client 端為手持式的個人數位助理設備(PDA, Personal Digital Assistant)，硬體設備為 HP iPAQ 5550，搭配 400M Hz 的中央處理器，與微軟視窗作業系統Pocket PC 2003 Premium；Server 端為個人電腦，硬體設備為 Pentium 4 3.00G Hz 的中央處理器，1GB 的記憶體，搭配微軟視窗作業系統 XP 專業版。我們所建構的手持式語音辨識系統，能讓使用者由PDA 輸入語音，並藉著無線傳輸，

將資料傳送給 Server 端，透過個人電腦的輔助運算，再回傳對應的候選詞串給使用者。

圖5-1 為我們實做的手持式語音辨識系統架構圖。Client 端（即行動裝置端）

的使用者透過行動裝置端介面(User Interface)錄進語音訊號(WAV Recorder)之後，

會做去除雜訊(Sound Enhance)與抽取聲音訊號特徵值(MFCC Converter)的動作

【17】，之後將聲音訊號特徵值藉由無線傳輸至 Server 端的語音辨識器(HTK

Recognizer【5】)，再由語音辨識器的聲學模型做語音辨識【7】，而辨識出來的音節會傳送給語言模型(Language Model)，以判斷可能的詞串，語言模型根據辭典 (Lexicon)及訓練語料庫(Corpus Database)判斷出最可能的前 N 個詞串，並回傳給 Client 端的使用者(User Interface)，如此便完成了語音辨識的工作。

再者，使用者在選擇正確詞串回送給Server 端之後， Server 端還可依據使用者選擇的正確詞串音節，針對該使用者做語音模型的調適(Speaker Adaptation)，也就是將語音辨識器(HTK Recognizer)的模型參數調整為適合該使用者的參數，讓辨識的語音模型更適合該使用者【18】；若正確詞串均不包含在最可能的前N 個詞串中，使用者也可藉著自行輸入正確的音，來做模型的調適。也正因為本系統具有針對不同的使用者分別調適其模型的功能，所以當使用者使用本系統的次數越多，辨識的效果也會隨之越來越好。

Server Client

User User Interface Speaker Adaptation

WAV Recorder

圖5-1：語音辨識系統架構圖 Sound Enhance

MFCC Converter

Language Model

HTK Recognizer

Lexicon

Corpus Database

Speech Recognition Speaker Adaptation

5.2 語言模型於本手持式語音辨識系統之實做方法

我們的手持式語音辨識系統所採用的語音辨識方法分兩階段

第一階段：語音辨識器透過聲學模型參數，由使用者輸入的聲音訊號中辨識出可能的對應候選音節

第二階段：由候選音節中，透過語言模型，找出最可能的候選詞串做為輸出

而在將我們的語言模型實際應用到手持式語音辨識系統中時，需對候選音節先做構詞及搜尋的處理，才可將候選音節套用到我們的語言模型中。以下分別介紹我們在實做系統時所使用的構詞與搜尋的方法，及我們的手持式語音辨識系統中，語言模型的處理流程。

5.2.1 構詞

在本手持式語音辨識系統中，我們的做法是由聲學模型所辨認出的每個候選音節中，找出該音節所對應的『同音字』，與該音節及其前後音節相連時所形成的

『同音詞』，以形成候選詞彙的集合，此步驟就稱為『構詞』。當這些候選詞彙相連後，形成如圖 5-2 的『格狀詞組』(word graph)【6】【14】【15】，而構詞後所形成的候選詞彙就是格狀詞組中的節點。我們想做的就是定義一個好的機率估計方式及一個有效的搜尋演算法，使得能由複雜的格狀詞組中，找出最佳的路徑當做輸出，以辨認出最可能的句子。

圖5-2：格狀詞組示意圖

5.2.2 格狀詞組的搜尋

在本手持式語音辨識系統的語言模型中，因為使用雙連馬可夫模型，即下一個詞的預測只與前一個詞有關，所以在格狀詞組的搜尋上，我們使用動態規劃 (dynamic programming)的維特比搜尋法(Viterbi Search)【4】。

維特比搜尋法使用遞迴方式來減少計算的複雜度，將由左而右的每個候選詞都看成一個節點，對於每個節點而言，都有一條到達此節點的最佳路徑，如圖5-3。

圖5-3：時間 t 時到達各節點的最佳路徑示意圖

若將在時間t 時結束於節點 i 的路徑中最大的機率稱為δ(i, t)，則可得

( )

^, =^max^N⁻¹

{ (

^, −¹

)

( ( ) (

_i_,_t ^| _j_,_t−₁

)

j j t P w P w

i ^t δ

)}

(5.1)

Nt-1代表t-1 時間的候選節點個數

(5.1)式的意義就是，當要找到時間 t 於節點 i 的最大機率時，就是找出所有於時間 t-1 的 j 節點機率，與 j 節點至 i 節點的機率乘積之最大值即可。

最後再由Nt個δ(i, t)中，找出最大值δ(t)

( )

t ^N^t

( )

i t

i ,

max1 δ

δ = =

並加以回溯，找出造成δ(t)的路徑，當 t 為句尾時，此詞串就是辨識出來的句子。

在本手持式語音辨識系統中，我們的做法是找出機率值最高的前10 個詞串，

做為使用者端的輸出，以供使用者點選。

5.2.3 本系統中語言模型的處理流程及系統效能評估

本系統的語言模型處理流程是先由輸入的候選音節中，每一到四個音節串成一個詞，並比對這個詞的注音是否出現在辭典中，若有，則將其視為格狀詞組中的一個節點，當全部的節點建好後，即完成構詞的步驟。再依照維特比搜尋法，

找出到每個節點的最大機率，最後將機率排序，並列出機率值最高的前10 串詞串做為使用者端的輸出；就完成了我們的語言模型在本手持式語音辨識系統中的工作。圖5-4 為本手持式語音辨識系統中，語言模型處理時的流程圖。

在此系統的語言模型中，我們採用的平滑化方法為強化聶氏平滑法，因其於實驗中的效能表現最好。而系統前端也結合了沈揚智同學的去除聲音雜訊功能

【17】及謝宗儒同學的語者調適功能【18】。

我們請實驗室的10 位同學做測試，測試語料為每人相同的 20 個短句，每句 4 到8 個字，系統的正確率為 88.62%，精確率為 85.52%。

其中，正確率

( )

= ×100% K

Rate H

Correct , 精確率

( )

= − ×100% K

I Accuracy H

K 為測試文稿中所有字的數量，H 為辨識結果中正確的字的數量，I 為插入型 錯誤(insertion error)的數量，即多辨識出不存在於文稿中的字的數量。

音節輸入

構詞

圖5-4：語音辨識系統之語言模型的處理流程圖格狀詞組構成

格狀詞組搜尋 (即維特比搜尋法)

機率排序

前10 項結果輸出

辭典

馬可夫語言模型

第 6 章結論及未來展望結論及未來展望

6.1 結論

本論文針對語言模型最常遭遇到的『資料稀疏』問題，提出解決的平滑化方法，以增進語音辨識的效能。目前常用的『凱氏平滑法』及『聶氏平滑法』(包含『聶氏後退法』及『聶氏內插法』，其應用於雙連馬可夫模型時，對於欲估計的雙連詞串詞尾未在訓練語料中出現的情況，並無適當的機率評估方法。針對此點，

我們由詞尾曾出現於訓練語料但整個雙連詞串並無出現於訓練語料的詞串做平滑化之後的機率，再進一步扣除小部分機率值，將此分配給詞尾未出現於訓練語料的雙連詞串，並以混淆度做為效能的評量標準。

我們由華視網站收集一年的語料，於每月的語料中，取出 180 則新聞做為測試語料，剩下的為訓練語料；由實驗結果可發現，『強化凱氏平滑法』比原來的『凱氏平滑法』低約4 到 8 個混淆度單位，平均低了 6.65 個混淆度單位；『強化聶氏平滑法』也比原來『聶氏平滑法』中效能較佳的『聶氏後退法』低約 3 到 5 個混淆度單位，平均低了 4.50 個混淆度單位。由此可知，我們所提出的方法，的確可以降低語言模型的混淆度。

此外，也將我們建構的雙連馬可夫模型及實驗結果中效能最佳的『強化聶氏平滑法』，應用於中文語音辨識系統的語言模型部分，經實際測試，系統正確率可達88.62%，精確率可達 85.52%。

6.2 未來展望

當我們實做的語言模型應用於語言辨識系統中時，還有一些可以改進的地方：

1. 整合高層次的語言能力

目前的系統完全依照機率統計時的高低，做為候選詞串的取捨，若我們能夠將高層次的語言能力，如文法、語意…等，結合在語言模型中，使得判斷出來的詞串更符合語法的規則。

2. 可調適的語言模型

因為本論文所建構的語言模型中，所使用的訓練語料與馬可夫模型都是固定的，並無法根據使用者所給予的候選詞串回饋來針對語言模型做調適的動作，因

在文檔中中文語音辨識中語言模型的強化之研究 (頁 38-0)