第 5 章 基於最小音素錯誤改進之鑑別式訓練法
5.2 狀態層級最小貝氏風險訓練
5.2.2 加入錯誤處罰的詞弧正確度
強制對齊(forced alignment)而來。
5.2.2 加入錯誤處罰的詞弧正確度
state r state t start q
state r phone
state r state state r phone r phone t
r phone t
5.2.3 加入錯誤處罰與音素長度正規化的詞弧正確度
state r state
t start q r phone
state r phone
state r state state r phone r phone t
r phone t
5.2.3 加入錯誤處罰與音素長度正規化的詞弧正確度
5.2.4 實驗結果
~ 71 ~
寫音素長度為4 個音框,故正確度罰處 0.1 1 4− × = −0.1 4;另外有4 個音框為正確 狀態,該音框的正確轉寫音素長度為10,故正確度加上 4 10 0.4= 。以上正確度的 總合即整段詞弧的正確率1.35。
5.2.4 實驗結果
本實驗為狀態層級最小貝氏風險訓練法,以及加入錯誤處罰和再加入音素長 度正規化的實驗。在本實驗中狀態音框正確度的計算需要正確轉寫的狀態對齊,
而訓練語料的正確轉寫只有標計到音素對齊,因此正確轉寫的狀態對齊是由強制 對齊而來(forced alignment),本實驗中強制對齊時使用的聲學模型是上一次疊代結 束產生的模型,也就是說,每次強制對齊所使用的模型並不相同,所以對齊的結 果也不會一樣。第一次疊代時的強制對齊則是使用3.3 節的初使模型。
實驗設定基本上與4.3 節的最小音素錯誤訓練的實驗相同,而平滑係數 τ 的設 定則是根據5.1.3 節的方法推估而來,估測如表 5.12 所示:
表中 MPE 代表最小音素錯誤訓練法,sMBR 代表狀態層級最小貝氏風險,
sMBR+pen 代表正確度加入錯誤處罰的版本,sMBR+pen+len 代表正確度加入錯誤 處罰與音素長度正規化。同樣的表中是在假設最小音素錯誤訓練法的最佳 τ 值為 25 之下所做的估測。估測 τ 欄內為估測的結果,由於此估測的精準度並沒有很高,
因此最後實驗使用的τ 值大概取在估測值的附近即可,在【32】中亦為如此之作法,
最右欄τ 內為實驗採用的值。
訓練方法 詞圖 分子詞圖統計 分母詞圖統計 估測τ τ MPE N 1.005032E+06 1.005032E+06 25.00 25 sMBR N 5.267830E+06 5.267830E+06 131.04 130 sMBR T 4.684503E+06 4.684513E+06 116.53 115 sMBR+pen N 5.956818E+06 5.956818E+06 148.17 150 sMBR+pen T 5.298603E+06 5.298614E+06 131.80 130 sMBR+pen+len N 6.580281E+05 6.580281E+05 16.37 16 sMBR+pen+len T 5.882187E+05 5.882202E+05 14.63 15
表 5.12 狀態層級最小貝氏風險-平滑係數最佳值之估測
5.2.4 實驗結果
~ 72 ~
實驗結果如表 5.13~表 5.20 及圖 5.23~圖 5.30 所呈現。圖中 sMBR 代表狀 態層級最小貝氏風險,+pen 代表正確度加入錯誤處罰的版本,+pen+len 代表正確 度加入錯誤處罰與音素長度正規化,圖表同時呈現這 3 種方法。在字正確率上,
詞圖N 的實驗中 sMBR 最高達到 76.78%的正確率,進步 1.61%(相對 6.48%),+pen 最高達到 77.40%的正確率,進步 2.23%(相對 8.98%),+pen+len 最高達到 77.42%
的正確率,進步2.25%(相對 9.06%);而在詞圖 T 的實驗中,sMBR 最高達到 76.54%
的正確率,進步1.37%(相對 5.52%),+pen 最高達到 77.17%的正確率,進步 2.00%(相 對8.05%),+pen+len 最高達到 77.15%的正確率,進步 1.98%(相對 7.97%)。而就 4 種層級的正確率來看,兩種詞圖的實驗,sMBR 都有最佳的詞正確率,其它則大部 份是+pen+len 具有最佳的正確率,除了在詞圖 T 的實驗中的字正確率是+pen 有最 佳的正確率。整體實驗的疊代大部份都在5~7 次之間達到最大正確率,其中 sMBR 通常較早達到最大正確率。
+pen 與+pen+len 在整體的表現上相當類似,不過與 sMBR 的表現上則有明顯 差異。與5.1.3 節最小音素音框錯誤的實驗結果有類似的情況,加入錯誤處罰的版 本會有較好的字正確率,但是較差的詞正確率。此外,這裡又多比較了在加入錯 誤處罰時是否也加入音素長度正規化的情形。由實驗結果發現,加入錯誤處罰後 對於詞、字正確率的改變就會出現,再加入音素正規化之後進一步則無明顯變化,
依照5.1.3 節的推測,原因為原始的版本在正確的詞中,因長詞的聲韻母多,所以 會得到比短詞更高的正確度,但是在錯誤的詞中,正確度皆為0,所以長詞會得到 跟短詞相同的正確度,然而在加入錯誤處罰之後,使得錯誤的詞中,聲韻母較多 的長詞具有比短詞更低的正確度,進而使訓練不會有偏向長詞勝於短詞的情形;
至於音素長度正規化之所以沒有明顯影響,可能因為聲韻母的時間長短相差並沒 有大到造成時間較長的聲韻母控制了對正確度的影響,使得訓練偏向時間較長的 聲韻母;另外也有可能是因為中文其實並沒有特定的聲韻母時間一定較其它聲韻 母長,時間較長的聲韻母為語者隨機發生,沒有特定發生在特定的聲韻母上,而 使得訓練偏好某些特定的聲韻母。
~ 73 ~
圖 5.23 狀態層級最小貝氏風險-詞圖 N-詞正確率
57.50 58.00 58.50 59.00 59.50 60.00 60.50 61.00 61.50
0 1 2 3 4 5 6 7 8 9 10
詞正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖N
sMBR +pen +pen+len
sMBR 詞正確率(%)
詞圖N sMBR τ=130
+pen τ=150
+pen+len τ=16 itr
0 57.99 57.99 57.99
1 58.74 58.65 58.76
2 59.65 59.56 59.55
3 60.03 60.01 59.82
4 60.57 60.43 60.20
5 61.00 60.61 60.55
6 60.68 60.67 60.65
7 60.85
60.86 60.66
8 60.67 60.80 60.50
9 60.64 60.78 60.60
10 60.60 60.71 60.59
表 5.13 狀態層級最小貝氏風險-詞圖 N-詞正確率
5.2.4 實驗結果
~ 74 ~
圖 5.24 狀態層級最小貝氏風險-詞圖 N-字正確率
75.00 75.50 76.00 76.50 77.00 77.50 78.00
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖N
sMBR +pen +pen+len
sMBR 字正確率(%)
詞圖N sMBR τ=130
+pen τ=150
+pen+len τ=16 itr
0 75.17 75.17 75.17
1 75.82 75.82 75.86
2 76.35 76.52 76.54
3 76.68 77.02 76.87
4 76.68 77.14 77.15
5
76.78
77.34 77.326 76.45 77.31 77.42
7 76.61
77.40
77.398 76.18 77.32 77.21
9 76.20 77.32 77.24
10 76.04 77.26 77.17
表 5.14 狀態層級最小貝氏風險-詞圖 N-字正確率
~ 75 ~
圖 5.25 狀態層級最小貝氏風險-詞圖 N-音節正確率
81.00 81.50 82.00 82.50 83.00 83.50 84.00
0 1 2 3 4 5 6 7 8 9 10
音節正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖N
sMBR +pen +pen+len
sMBR 音節正確率(%)
詞圖N sMBR τ=130
+pen τ=150
+pen+len τ=16 itr
0 81.42 81.42 81.42
1 82.10 82.13 82.18
2 82.63 82.79 82.76
3 82.91 83.25 83.16
4 82.97 83.42 83.45
5
83.02
83.56 83.586 82.80 83.59 83.66
7 82.98
83.66
83.728 82.50 83.63 83.61
9 82.54 83.63 83.66
10 82.40 83.58 83.63
表 5.15 狀態層級最小貝氏風險-詞圖 N-音節正確率
5.2.4 實驗結果
~ 76 ~
圖 5.26 狀態層級最小貝氏風險-詞圖 N-聲韻母正確率
84.50 85.00 85.50 86.00 86.50 87.00
0 1 2 3 4 5 6 7 8 9 10
聲韻母正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖N
sMBR +pen +pen+len
sMBR 聲韻母正確率(%)
詞圖N sMBR τ=130
+pen τ=150
+pen+len τ=16 itr
0 84.76 84.76 84.76
1 85.35 85.38 85.44
2 85.77 85.94 85.90
3 86.01 86.33 86.26
4 86.07 86.53 86.52
5
86.09 86.66
86.636 85.90 86.63 86.69
7 85.99
86.66
86.728 85.48 86.61 86.60
9 85.56 86.61 86.63
10 85.45 86.55 86.58
表 5.16 狀態層級最小貝氏風險-詞圖 N-聲韻母正確率
~ 77 ~
圖 5.27 狀態層級最小貝氏風險-詞圖 T-詞正確率
57.50 58.00 58.50 59.00 59.50 60.00 60.50 61.00
0 1 2 3 4 5 6 7 8 9 10
詞正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖T
sMBR +pen +pen+len
sMBR 詞正確率(%)
詞圖T sMBR τ=115
+pen τ=130
+pen+len τ=15 itr
0 57.99 57.99 57.99
1 58.64 58.65 58.80
2 59.31 59.12 59.18
3 60.03 59.81 59.51
4 60.42 60.13 59.77
5 60.61 60.35 59.84
6 60.64 60.37 60.05
7 60.75 60.26
60.15
8 60.44 60.31 60.04
9 60.61 60.38 60.06
10 60.49
60.39
60.04表 5.17 狀態層級最小貝氏風險-詞圖 T-詞正確率
5.2.4 實驗結果
~ 78 ~
圖 5.28 狀態層級最小貝氏風險-詞圖 T-字正確率
75.00 75.50 76.00 76.50 77.00 77.50
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖T
sMBR +pen +pen+len
sMBR 字正確率(%)
詞圖T sMBR τ=115
+pen τ=130
+pen+len τ=15 itr
0 75.17 75.17 75.17
1 75.67 75.79 75.92
2 76.15 76.31 76.45
3 76.46 76.91 76.72
4
76.54
77.06 77.005 76.46 77.17 77.06
6 76.13 77.11
77.15
7 76.07 77.03 77.09
8 75.54 76.91 76.96
9 75.48 76.82 76.85
10 75.32 76.79 76.82
表 5.18 狀態層級最小貝氏風險-詞圖 T-字正確率
~ 79 ~
圖 5.29 狀態層級最小貝氏風險-詞圖 T-音節正確率
81.00 81.50 82.00 82.50 83.00 83.50 84.00
0 1 2 3 4 5 6 7 8 9 10
音節正確率 (%)
訓練次數
狀態層級最小貝氏風險訓練法-詞圖T
sMBR +pen +pen+len
sMBR 音節正確率(%)
詞圖T sMBR τ=115
+pen τ=130
+pen+len τ=15 itr
0 81.42 81.42 81.42
1 82.02 82.14 82.23
2 82.49 82.64 82.73
3 82.68 83.13 83.02
4
82.81
83.29 83.305 82.78 83.43 83.37
6 82.52
83.45
83.477 82.45 83.41 83.50
8 81.96 83.42 83.42
9 81.93 83.31 83.38
10 81.85 83.30 83.38
表 5.19 狀態層級最小貝氏風險-詞圖 T-音節正確率
5.2.4 實驗結果
5.3 最小歧異度訓練
KL state r state t start q