第 6 章 最小音素錯誤與最小音素音框錯誤的資料選取
6.1 基於詞弧期望正確度的資料選取
~ 86 ~
第6章 最小音素錯誤與最小音素音框錯誤的資料選取
本章將介紹一種資料選取的方式,為基於詞弧期望正確度來選取詞弧的方法。
本論文將此方法實行於最小音素錯誤與加入錯誤處罰與音素長度正規化的最小音 素音框錯誤訓練法上。本章最後會對本論文提出之方法做一個綜合整理。
6.1 基於詞弧期望正確度的資料選取
使用訓練語料訓練模型參數的方法,在訓練語料增加的情況下,往往可以讓 訓練出來的模型更為強健。然而,模型的辨識率並不會隨著訓練語料的增加一起 增加下去,通常會在到達某個程度之後就已經飽和,不再增加辨識率。資料選取 的意義就在於在訓練語料中挑選出對模型參數估測最有效果的部份,讓模型的訓 練更有效率。
本章資料選取方式的概念是由寬邊界隱藏式馬可夫模型(Large Margin HMMs)
【37】而來。寬邊界隱藏式馬可夫模型的想法是參考支撐向量機(Support Vector Machine, SVM)【38】的分類方式引入隱藏式馬可夫模型,訓練目標不是事後機率 的最大化,而是分類邊際的最大化,如圖 6.1【39】中,將圖(a)的分類邊際調整到 圖(b)的位置,就是寬邊界隱藏式馬可夫模型的訓練目標。觀察這種類型的訓練方 式可以發現,在尋找最大邊界時,每筆資料對訓練的影響程度是不同的,接近邊 界部份的資料會對訓練結果影響較為重要,而不同於事後機率的最大化中,所有 資料都是同等重要的。
(a) (b)
圖 6.1 分類邊際的最大化
6.1 基於詞弧期望正確度的資料選取
6.2 實驗結果
~ 88 ~
6.2 實驗結果
本章詞弧選擇的方法分別實行在最小音素錯誤訓練法以及加入錯誤處罰和音 素長度正規化的最小音素音框錯誤訓練法上。由於資料選取的閥值會對結果有很 大的影響,因此首先必需觀察訓練語料中平均正確度的分佈情形,分佈情形如圖 6.3~圖 6.6,由於當Cr
( )
q −Cavgr =0時該段詞弧不會加入訓練,因此圖中的統計 資訊不包含Cr( )
q −Cavgr =0的次數。由圖中可以看出,絕大多數的詞弧平均正確度差值都很靠近0,而且小於 0 的 數量多於大於 0 的數量。此外,由於在最大相似度估測法的初始模型中,已經針 對正確轉寫訓練過,在之後的鑑別式訓練法中,應該加強的是對錯誤競爭字串的 鑑別能力,因此在最小音錯誤訓練法中使用的詞弧選擇閥值如表 6.1 所示:
α=1.00 即表示所有分母詞圖的統計值都選入訓練,而使用β=0.03 時,會在疊代次 數5 次之後發生嚴重的過度訓練,如圖 6.2 之 init 即為使用α=1.00 與β=0.03 疊代 10 次的結果,因此選擇β 值隨著疊代次數逐漸放大選取範圍,又因為兩種詞圖裡
疊代次數 α β
1、2 1.00 0.03
3、4 1.00 0.08
5、6 1.00 0.18
8、7 1.00 0.30
9、10 1.00 0.38
表 6.1 最小音素錯誤訓練-詞弧選擇閥值
73.00 74.00 75.00 76.00 77.00 78.00
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
最小音素錯誤訓練法-詞弧篩選-詞圖N
MPE init
圖 6.2 最小音素錯誤-詞弧篩選-詞圖 N-過度訓練情形
6.2 實驗結果
~ 89 ~
的正確度分佈十分相似,因此兩種詞圖使用的閥值都相同;而在加入錯誤處罰和 音素長度正規化的最小音素音框錯誤訓練法上,詞弧選擇閥值則是根據最小音錯 誤訓練法中的選擇,選擇到同等比例的詞弧時的值(如原本選擇的值會選到後 60%
的詞弧,對應過來的閥值就是也會選到後60%詞弧的值),因此在加入錯誤處罰音 素長度正規化的最小音素音框錯誤訓練法中對照過來使用的詞弧選擇閥值就如表 6.4 和表 6.5 所示:
由於在兩種詞圖對應到的值並不同,因此使用了不同的閥值。
實驗結果如表 6.4~表 6.11 及圖 6.7~圖 6.14 所示,圖表中 MPE 表示最小 音素錯誤訓練法,再加入詞弧篩選則是MPE+sel;MPFE+pen+len 代表加入錯誤處 罰音素長度正規化的最小音素音框錯誤訓練法,MPFE+p+l+sel 則是再加入詞弧篩 選的方法。圖表中呈現加入詞弧篩選之前及之後的比較,在詞圖 N 上,MPE+sel 在詞、音節、聲韻母上都有正確率的提升,MPFE+p+l+sel 則在音節、聲韻母上有 正確率的提升;在詞圖T 上,MPE+sel 只有在詞正確率上有提升,MPFE+pen+len+sel 則在字、音節、聲韻母上有正確率的提升。MPFE+pen+len 在加入詞弧篩選後較有 進步,在詞圖T 時字正確率較 MPFE+pen+len 進步 0.09%(0.40%相對)。整體看來,
加入詞弧篩選後即使最高正確率沒有提升,大都也有較快的收斂速度。
疊代次數 α β
1、2 1.00 0.02723290
3、4 1.00 0.07051789
5、6 1.00 0.15896940
8、7 1.00 0.27925270
9、10 1.00 0.36150360
表 6.3 MPFE-加入錯誤處罰音素長度正規化-詞弧選擇閥值-詞圖 T
疊代次數 α β
1、2 1.00 0.03302280
3、4 1.00 0.08186985
5、6 1.00 0.18090070
8、7 1.00 0.28907700
9、10 1.00 0.36248670
表 6.2 MPFE-加入錯誤處罰音素長度正規化-詞弧選擇閥值-詞圖 N
6.2 實驗結果
~ 90 ~
詞弧數量
圖 6.4 最小音素錯誤-詞圖 T-詞弧正確度分佈
(
C qr( )
−Cavgr)
len r( ) (
C qr( )
−Cavgr)
len r( )
詞弧數量
圖 6.3 最小音素錯誤-詞圖 N-詞弧正確度分佈
6.2 實驗結果
~ 91 ~
詞弧數量
圖 6.6 MPFE+pen+len-詞圖 T-詞弧正確度分佈
(
C qr( )
−Cavgr)
len r( )
詞弧數量
圖 6.5 MPFE+pen+len-詞圖 N-詞弧正確度分佈
(
C qr( )
−Cavgr)
len r( )
6.2 實驗結果
~ 92 ~
圖 6.7 詞弧篩選-詞圖 N-詞正確率
57.50 58.00 58.50 59.00 59.50 60.00 60.50 61.00 61.50
0 1 2 3 4 5 6 7 8 9 10
詞正確率 (%)
訓練次數
詞弧篩選-詞圖N
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖N τ=25 詞正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 57.99 57.99 57.99 57.99
1 58.63 58.74 58.76 58.55
2 59.48 59.67 59.27 59.23
3 59.88 60.03 59.48 59.32
4 60.29 60.25 59.57 59.44
5 60.38 60.52 59.80 59.58
6 60.73 60.81 59.92 59.87
7 60.59 60.80 59.86
59.90
8 60.79 60.92 59.80
59.90
9 60.78 60.77 59.83 59.73
10
60.87
60.90 59.85 59.74表 6.4 詞弧篩選-詞圖 N-詞正確率
6.2 實驗結果
~ 93 ~
圖 6.8 詞弧篩選-詞圖 N-字正確率
75.00 75.50 76.00 76.50 77.00 77.50 78.00
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
詞弧篩選-詞圖N
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖N τ=25 字正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 75.17 75.17 75.17 75.17
1 75.84 75.94 75.90 75.83
2 76.58 76.79 76.54 76.69
3 77.03 77.11 76.90 76.86
4 77.39 77.21 77.05 77.06
5 77.41 77.35 77.36 77.23
6 77.60 77.53 77.54 77.49
7 77.46 77.56 77.47 77.56
8 77.62
77.62
77.59 77.679 77.63 77.47 77.65 77.55
10 77.61 77.53 77.67 77.62
表 6.5 詞弧篩選-詞圖 N-字正確率
6.2 實驗結果
~ 94 ~
圖 6.9 詞弧篩選-詞圖 N-音節正確率
81.00 81.50 82.00 82.50 83.00 83.50 84.00 84.50
0 1 2 3 4 5 6 7 8 9 10
音節正確率 (%)
訓練次數
詞弧篩選-詞圖N
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖N τ=25 音節正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 81.42 81.42 81.42 81.42
1 82.15 82.24 82.18 82.17
2 82.80 83.06 82.83 82.99
3 83.23 83.27 83.15 83.20
4 83.58 83.46 83.39 83.46
5 83.65 83.58 83.65 83.61
6 83.82 83.81 83.80 83.89
7 83.77 83.83 83.78 83.91
8 83.85 83.92 83.91 83.97
9 83.84 83.70 83.96 83.92
10
83.86
83.7684.00
84.01表 6.6 詞弧篩選-詞圖 N-音節正確率
6.2 實驗結果
~ 95 ~
圖 6.10 詞弧篩選-詞圖 N-聲韻母正確率
84.50 85.00 85.50 86.00 86.50 87.00 87.50
0 1 2 3 4 5 6 7 8 9 10
聲韻母正確率 (%)
訓練次數
詞弧篩選-詞圖N
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖N τ=25 聲韻母正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 84.76 84.76 84.76 84.76
1 85.47 85.54 85.43 85.43
2 86.00 86.20 85.98 86.13
3 86.38 86.42 86.32 86.38
4 86.66 86.62 86.52 86.61
5 86.72 86.70 86.75 86.71
6
86.88
86.89 86.89 86.907 86.83 86.88 86.82 86.90
8 86.87 86.94 86.92 86.96
9 86.86 86.76 86.93 86.92
10
86.88
86.7986.95
86.98表 6.7 詞弧篩選-詞圖 N-聲韻母正確率
6.2 實驗結果
~ 96 ~
圖 6.11 詞弧篩選-詞圖 T-詞正確率
57.50 58.00 58.50 59.00 59.50 60.00 60.50 61.00 61.50
0 1 2 3 4 5 6 7 8 9 10
詞正確率 (%)
訓練次數
詞弧篩選-詞圖T
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖T τ=25 詞正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 57.99 57.99 57.99 57.99
1 58.68 58.78 58.71 58.67
2 59.26 59.66 59.08 59.04
3 59.93 60.21 59.42 59.39
4 60.29 60.19 59.30 59.33
5 60.49 60.49 59.51 59.41
6 60.66 60.71 59.46 59.44
7 60.90 60.84 59.37 59.45
8 60.85 60.89 59.54 59.32
9 60.97 61.07 59.41 59.46
10
61.03
61.18 59.4859.48
表 6.8 詞弧篩選-詞圖 T-詞正確率
6.2 實驗結果
~ 97 ~
圖 6.12 詞弧篩選-詞圖 T-字正確率
75.00 75.50 76.00 76.50 77.00 77.50 78.00
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
詞弧篩選-詞圖T
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖T τ=25 字正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 75.17 75.17 75.17 75.17
1 75.87 75.94 75.87 75.95
2 76.31 76.63 76.49 76.52
3 76.85 76.99 76.91 77.04
4 77.21 76.97 77.01 77.21
5 77.22 77.07 77.19 77.36
6 77.32 77.20 77.18 77.39
7 77.48 77.33 77.17 77.37
8 77.37 77.30
77.36
77.309 77.45
77.43
77.34 77.4510 77.47 77.37
77.36
77.44表 6.9 詞弧篩選-詞圖 T-字正確率
6.2 實驗結果
~ 98 ~
圖 6.13 詞弧篩選-詞圖 T-音節正確率
81.00 81.50 82.00 82.50 83.00 83.50 84.00
0 1 2 3 4 5 6 7 8 9 10
音節正確率 (%)
訓練次數
詞弧篩選-詞圖T
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖T τ=25 音節正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 81.42 81.42 81.42 81.42
1 82.14 82.30 82.17 82.28
2 82.59 82.97 82.78 82.96
3 82.99 83.31 83.16 83.41
4 83.35 83.30 83.31 83.63
5 83.35 83.37 83.53 83.77
6 83.49 83.46 83.58 83.84
7 83.58 83.55 83.55 83.78
8 83.54 83.50
83.75
83.769 83.65 83.63 83.69 83.82
10 83.71
83.64
83.71 83.86表 6.10 詞弧篩選-詞圖 T-音節正確率
6.2 實驗結果
~ 99 ~
圖 6.14 詞弧篩選-詞圖 T-聲韻母正確率
84.50 85.00 85.50 86.00 86.50 87.00
0 1 2 3 4 5 6 7 8 9 10
聲韻母正確率 (%)
訓練次數
詞弧篩選-詞圖T
MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
詞圖T τ=25 聲韻母正確率(%)
itr MPE MPE+sel MPFE+pen+len MPFE+p+l+sel
0 84.76 84.76 84.76 84.76
1 85.42 85.60 85.43 85.54
2 85.78 86.15 85.92 86.11
3 86.12 86.45 86.28 86.45
4 86.45 86.41 86.41 86.67
5 86.45 86.47 86.58 86.77
6 86.58 86.56 86.64 86.84
7 86.66 86.64 86.64 86.79
8 86.62 86.62
86.81
86.799 86.71
86.69
86.75 86.8410 86.74
86.69
86.77 86.82表 6.11 詞弧篩選-詞圖 T-聲韻母正確率