第 5 章 基於最小音素錯誤改進之鑑別式訓練法
5.1 最小音素音框錯誤訓練
5.1.2 加入錯誤處罰與音素長度正規化的詞弧正確度
5.1.3 實驗結果
~ 52 ~
圖中shi_i 的長度為 7 個音框,皆與正確轉寫不同,因此正確度為 7 7 -0.1=-0.1× ; ian 長度為 4 個音框,皆與正確轉寫不同,因此正確度為 4 4 -0.1=-0.1× ;r_a 長度 為 11 個音框,其中一個音框與正確轉寫不同,剩下 10 個音框則相同,因此正確 率為1 11 -0.1+10 11=0.9× ;en 長度為 8 個音框,皆與正確轉寫相同,因此正確率 為8 8=1;整段詞弧的正確率就是這 4 個音素正確度的加總等於 1.7。
5.1.3 實驗結果
本實驗為最小音素音框錯誤訓練法,以及加入錯誤處罰與音素長度正規化的 實驗,實驗的設定基本上與4.3 節的最小音素錯誤訓練的實驗相同,不過因為最小 音素音框錯誤訓練的詞弧正確度範圍跟最小音素錯誤訓練的有一段差距,因此本 實驗測式的平滑係數τ 與最小音素錯誤訓練所使用的數值不能相同,這裡測試的 τ 值為:10、100、150、200、250、400,測試這些數值的一方面也是為了驗證【32】
中平滑係數的選擇方式,經由測試不同的平滑係數尋找到最佳值,比較與從最小 音素訓練找到的最佳值推測來的最佳值有何差異。
最小音素音框錯誤的實驗結果如表 5.2~表 5.9 及圖 5.4~圖 5.11 所呈現,
由於τ=10 的結果明顯較差,所以不畫入圖中。實驗結果使用詞、字、音節、聲韻 母四種層級來呈現,在正確率的表現上,詞正確率的進步較明顯,而且直到最後 幾次疊代時才有進步漸緩的趨勢,然而字、音節、聲韻母層級的正確率,則在疊 代 4 次左右就已經飽和,之後便不再進步。換言之,字、音節、聲韻母層級的過 度訓練發生得比詞層級早得多,由此可以推論,最小音素音框訓練對於詞正確率
訓練方法 詞圖 分子詞圖統計 分母詞圖統計 平滑係數τ MPE N 1.005032E+06 1.005032E+06 25.00 MPE T 8.953452E+05 8.953498E+05 22.27 MPFE N 8.559231E+06 8.559231E+06 212.91 MPFE T 7.646058E+06 7.646075E+06 190.19 MPFE_pen N 9.895510E+05 9.895510E+05 24.61 MPFE_pen T 8.859587E+05 8.859611E+05 22.04
表 5.1 平滑係數最佳值之估測
5.1.3 實驗結果
~ 53 ~
的效果較佳,字正確率的提升則效果有限。在詞圖 N 的實驗中,τ=200 時有最高 的字正確率76.37%,進步 1.20%(相對 4.83%);而在詞圖 T 的情況下,τ=250 時有 最高的字正確率76.22%,進步 1.05%(相對 4.23%)。
表 5.1 是關於平滑係數 τ 最佳值的估測,表中 MPE 代表最小音素錯誤訓練法,
MPFE 代表最小音素音框錯誤訓練法,MPFE+pen+len 代表最小音素音框錯誤訓練 法正確度計算加入錯誤處罰與音素正規化的版本。這個表是建立在假設τ 的最佳值 與分子分母的詞圖統計值成正比的關係下所作的估測【32】,在 4.3 節的實驗中,
最小音素錯誤訓練法在詞圖N 找到的 τ 最佳值為 25,表中的該值由此而來,之下 的估測則是假設此值為最佳值下所做的預估。如表中所估測的,詞圖 T 的最小音 素錯誤訓練法估測τ 最佳值為 22.27,實驗中 τ 最佳值為 25,算是十分接近;另外 在最小音素音框錯誤訓練法中,詞圖N 的估測 τ 最佳值為 212.91,與實驗中 τ 最 佳值為200 亦相去不遠,而在詞圖 T 的估測 τ 最佳值為 190.19,與實驗中 τ 的最佳 值250 相差有一段距離,不過在 MPFE 的詞圖 T 實驗中,觀察在不同 τ 值時的字 正確率,會發現雖然在τ=250 時最高,但次高者為 τ=150 與 τ=100 的時候,τ=200 時反而是位居第三,τ 對於正確率的影響出現不連續的情況,這裡本論文假設是一 個例外情況,因為τ=150 與 τ=100 時的最高正確率相差僅 0.01%,在語音辨識裡可 視為誤差範圍,以此推論在最小音素音框錯誤訓練法詞圖T 的實驗中,τ 最佳值為 介於150 至 250 之間亦算合理,因此估測 τ 最佳值為 190.19 也算是有效的估測。
另外分子詞圖與分母詞圖的統計值,理論上會是相同的值,因為分子與分母 詞圖的區分方式,是把詞圖中全部的詞弧路徑的正確度期望值計算出來後,把詞 弧正確度高於平均的歸為分子詞圖,低於平均的歸為分母詞圖,而分子詞圖與分 母詞圖的統計值就是把各詞弧的正確度與詞圖正確度的期望值之差加總,因此兩 者的值應該相等,在實作上兩者的值也會非常接近,因此τ 最佳值的估測使用分子 或分母詞圖統計值皆可,估測出來的值不會有明顯差別。
經過MPE 與 MPFE 對於 τ 最佳值估測的驗證,基本上可以證明這個估測方式 有一定的準確度,由於測試不用τ 值相當耗時,之後的實驗 τ 值都直使用此估測法
~ 54 ~
決定,不再嘗試不同值的結果。至於MPFE+pen+len 經過分子或分母詞圖統計值的 計算後,詞圖N 的 τ 最佳值估測為 24.61,詞圖 N 的 τ 最佳值估測為 22.04,實驗 中兩者皆使用25。
表 5.10、表 5.11 及圖 5.12~圖 5.19 為正確度計算加入錯誤處罰與音素正規 化的最小音素音框錯誤訓練法的實驗結果,在圖中以+pen+len 代表,本實驗同樣 以詞、字、音節、聲韻母四種層級來呈現,在正確率的表現上,詞圖 N 除了詞正 確率在第8 次疊代達到最高正確率外,其餘皆在疊代第 10 次時達到最高正確率;
詞圖 N 則一致都在第 10 次疊代時達到最高正確率。在詞圖 N 的實驗中,字正確 率達到 77.67%,進步 2.5%(相對 10.07%);而在詞圖 T 的實驗中,字正確率達到 77.36%,進步 2.19%(相對 8.82%)。在圖中與 MPFE 的比較可以發現,MPFE+pen+len 雖然在詞正確率表現較差,但在其餘 3 種正確率上都有較佳的表現,由實驗結果 可以推測,加入錯誤處罰與音素正規化的正確度可能跟字正確率較相似,而MPFE 的正確度則跟詞正確率較相關,推測可能原因是加入錯誤處罰與音素長度正規化 之後,一來正規化使得每個聲韻母對於正確度的影響程度是等價的,且右相關聲 韻母的結構每個字都恰好由一組聲韻母組成,進而造成每個字的效果也等價,所 以對字正確率的進步較有效果;二來錯誤處罰使得錯誤的長詞與短詞會有不一樣 的分數,在錯誤詞中長詞的聲韻母也較短詞的聲韻母多,錯誤處罰便給錯誤長詞 更低的正確度,而不像原本的正確度計算法不論錯誤詞長短都是 0 分;在原本的 正確度計算法,會使得越長的正確聲韻母影響越大,導致由較多字組成的長詞,
在正確時長詞通常會有比短詞高的正確度,但在錯誤時長詞卻不會有較短詞低的 正確度,進而影響訓練方向,使得正向訓練偏好正確長詞勝於正確短詞,負向訓 練不偏好錯誤長詞與短詞的程度則相同,然而在中文的語音辨識中,將 1 個長詞 辨識成 2 個以上的短詞是不算錯誤的,偏好長詞的特性可能使得模型訓練得過份 避免長詞拆成短詞的情形,使得原本正確的多個短詞也訓練成一個不正確的長詞,
進而造成詞正確率提高,但字正確率卻下降的情形。
5.1.3 實驗結果
~ 55 ~
圖 5.4 最小音素音框錯誤訓練法-詞圖 N-詞正確率
57.50 58.00 58.50 59.00 59.50 60.00 60.50 61.00 61.50 62.00
0 1 2 3 4 5 6 7 8 9 10
詞正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖N
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖N 詞正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 57.99 57.99 57.99 57.99 57.99 57.99 1 58.78 58.89 58.85 58.93 58.90 58.85 2 59.21 59.77 59.78 59.74 59.60 59.61 3 59.64 60.05 60.20 60.20 60.19 60.05 4 60.06 60.75 60.61 60.59 60.63 60.38 5 59.92 60.99 60.89 60.65 60.78 60.66 6 60.00 60.93 61.13 60.99 60.88 60.67 7 60.21 61.24 61.26 61.15 61.15 60.89
8
60.41
61.20 61.36 61.32 61.35 60.879 60.15
61.56 61.56
61.46 61.57 61.20 10 60.05 61.49 61.52 61.6961.62 61.36
表 5.2 最小音素音框錯誤訓練法-詞圖 N-詞正確率
~ 56 ~
圖 5.5 最小音素音框錯誤訓練法-詞圖 N-字正確率
75.00 75.20 75.40 75.60 75.80 76.00 76.20 76.40 76.60
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖N
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖N 字正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 75.17 75.17 75.17 75.17 75.17 75.17 1 75.67 75.72 75.69 75.77 75.73 75.73
2
75.88
76.21 76.19 76.18 76.17 76.163 75.84 76.15
76.31
76.31 76.3076.27
4 75.6776.28
76.30 76.3776.36 76.27
5 75.12 76.13 76.13 76.07 76.20 76.23 6 74.63 75.75 76.00 75.99 76.02 76.11 7 74.35 75.66 75.87 75.87 75.96 76.04 8 74.02 75.49 75.81 75.83 75.92 75.76 9 73.73 75.54 75.70 75.84 76.10 76.19 10 73.35 75.60 75.79 76.01 76.09 76.21表 5.3 最小音素音框錯誤訓練法-詞圖 N-字正確率
5.1.3 實驗結果
~ 57 ~
圖 5.6 最小音素音框錯誤訓練法-詞圖 N-音節正確率
81.20 81.40 81.60 81.80 82.00 82.20 82.40 82.60 82.80
0 1 2 3 4 5 6 7 8 9 10
音節正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖N
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖N 音節正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 81.42 81.42 81.42 81.42 81.42 81.42 1 81.97 82.02 81.99 82.06 82.02 81.99
2
82.26
82.48 82.42 82.41 82.38 82.383 82.25 82.49
82.60
82.60 82.57 82.50 4 82.1282.60 82.60 82.62
82.6382.52
5 81.77 82.46 82.43 82.36 82.47 82.48 6 81.44 82.28 82.46 82.39 82.35 82.34 7 81.24 82.26 82.36 82.30 82.32 82.33 8 80.98 82.12 82.34 82.28 82.28 81.97 9 80.77 82.17 82.28 82.30 82.42 82.44 10 80.47 82.18 82.34 82.42 82.40 82.45表 5.4 最小音素音框錯誤訓練法-詞圖 N-音節正確率
~ 58 ~
圖 5.7 最小音素音框錯誤訓練法-詞圖 N-聲韻母正確率
84.60 84.80 85.00 85.20 85.40 85.60 85.80
0 1 2 3 4 5 6 7 8 9 10
聲韻母正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖N
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖N 聲韻母正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 84.76 84.76 84.76 84.76 84.76 84.76 1 85.22 85.26 85.24 85.28 85.24 85.21
2
85.41
85.60 85.57 85.56 85.54 85.533 85.40 85.63
85.72
85.74 85.72 85.64 4 85.2885.69
85.70 85.72 85.7485.66
5 84.97 85.57 85.56 85.49 85.59 85.59 6 84.64 85.39 85.53 85.47 85.47 85.49 7 84.44 85.34 85.42 85.37 85.40 85.43 8 84.25 85.25 85.43 85.38 85.38 85.03 9 84.10 85.28 85.38 85.42 85.52 85.51 10 83.82 85.29 85.44 85.51 85.51 85.53表 5.5 最小音素音框錯誤訓練法-詞圖 N-聲韻母正確率
5.1.3 實驗結果
~ 59 ~
圖 5.8 最小音素音框錯誤訓練法-詞圖 T-詞正確率
57.50 58.00 58.50 59.00 59.50 60.00 60.50 61.00 61.50 62.00 62.50
0 1 2 3 4 5 6 7 8 9 10
詞正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖T
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖T 詞正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 57.99 57.99 57.99 57.99 57.99 57.99 1 58.60 58.81 58.85 58.88 58.85 58.76 2 59.35 59.63 59.59 59.48 59.44 59.46 3 59.72 60.00 60.12 60.11 60.08 59.85 4 59.79 60.62 60.55 60.55 60.36 60.25 5 59.59 60.82 60.95 60.76 60.69 60.59 6 59.49 60.75 61.01 61.19 60.99 60.88 7 59.64 61.61 61.30 61.30 61.45 61.07
8
59.88 61.89
61.71 61.56 61.49 61.249 59.65 61.86 61.89 61.77 61.66 61.21 10 59.67 61.76 62.03
61.95 61.85 61.38
表 5.6 最小音素音框錯誤訓練法-詞圖 T-詞正確率
~ 60 ~
圖 5.9 最小音素音框錯誤訓練法-詞圖 T-字正確率
74.80 75.00 75.20 75.40 75.60 75.80 76.00 76.20 76.40
0 1 2 3 4 5 6 7 8 9 10
字正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖T
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖T 字正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 75.17 75.17 75.17 75.17 75.17 75.17 1 75.50 75.67 75.64 75.68 75.70 75.68
2
75.93 76.19
76.18 76.06 76.01 75.993 75.88 76.11
76.19 76.18
76.2276.09
4 75.42 76.11 76.1676.18
76.13 76.06 5 74.78 75.81 75.99 76.01 76.02 75.98 6 73.85 75.24 75.59 75.76 75.76 75.99 7 73.13 75.24 75.28 75.54 75.76 75.83 8 73.04 75.13 75.28 75.43 75.46 75.76 9 72.48 75.05 75.32 75.40 75.52 75.36 10 72.41 75.01 75.16 75.47 75.58 75.33表 5.7 最小音素音框錯誤訓練法-詞圖 T-字正確率
5.1.3 實驗結果
~ 61 ~
圖 5.10 最小音素音框錯誤訓練法-詞圖 T-音節正確率
81.20 81.40 81.60 81.80 82.00 82.20 82.40 82.60
0 1 2 3 4 5 6 7 8 9 10
音節正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖T
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖T 音節正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 81.42 81.42 81.42 81.42 81.42 81.42 1 81.90 82.00 81.99 82.00 82.02 81.95
2
82.36 82.48
82.47 82.31 82.29 82.233 82.30 82.43 82.50
82.46 82.47 82.34
4 81.93 82.42 82.44 82.41 82.39 82.32 5 81.60 82.26 82.39 82.33 82.29 82.26 6 80.90 81.82 82.10 82.17 82.19 82.22 7 80.31 81.81 81.81 82.00 82.16 82.13 8 80.26 81.81 81.83 81.93 81.91 82.06 9 79.83 81.80 81.91 81.87 81.99 81.66 10 79.94 81.81 81.88 82.03 82.09 81.69表 5.8 最小音素音框錯誤訓練法-詞圖 T-音節正確率
~ 62 ~
圖 5.11 最小音素音框錯誤訓練法-詞圖 T-聲韻母正確率
84.70 84.80 84.90 85.00 85.10 85.20 85.30 85.40 85.50 85.60 85.70
0 1 2 3 4 5 6 7 8 9 10
聲韻母正確率 (%)
訓練次數
最小音素音框錯誤訓練法-詞圖T
τ=100 τ=150 τ=200 τ=250 τ=400
MPFE 詞圖T 聲韻母正確率(%)
itr τ=10 τ=100 τ=150 τ=200 τ=250 τ=400
0 84.76 84.76 84.76 84.76 84.76 84.76 1 85.19 85.28 85.26 85.26 85.29 85.22
2
85.51 85.60
85.58 85.48 85.46 85.453 85.47
85.60
85.6485.61
85.6485.55
4 85.15 85.55 85.57 85.56 85.56 85.50 5 84.83 85.37 85.50 85.48 85.47 85.45 6 84.25 85.02 85.22 85.33 85.34 85.37 7 83.74 84.94 84.99 85.14 85.28 85.28 8 83.72 84.95 85.00 85.08 85.08 85.18 9 83.41 84.99 85.09 85.02 85.14 84.78 10 83.60 85.02 85.07 85.21 85.26 84.80表 5.9 最小音素音框錯誤訓練法-詞圖 T-聲韻母正確率
5.1.3 實驗結果
~ 63 ~
MPFE+pen+len 詞圖T τ=25
itr 詞正確率(%) 字正確率(%) 音節正確率(%) 聲韻母正確率(%)
0 57.99 75.17 81.42 84.76
1 58.71 75.87 82.17 85.43
2 59.08 76.49 82.78 85.92
3 59.42 76.91 83.16 86.28
4 59.30 77.01 83.31 86.41
5 59.51 77.19 83.53 86.58
6 59.46 77.18 83.58 86.64
7 59.37 77.17 83.55 86.64
8
59.54 77.36 83.75 86.81
9 59.41 77.34 83.69 86.75
10 59.48 77.36 83.71 86.77
表 5.11 最小音素音框錯誤-加入錯誤處罰與音素正規化-詞圖 T
MPFE+pen+len 詞圖N τ=25
itr 詞正確率(%) 字正確率(%) 音節正確率(%) 聲韻母正確率(%)
0 57.99 75.17 81.42 84.76
1 58.76 75.90 82.18 85.43
2 59.27 76.54 82.83 85.98
3 59.48 76.90 83.15 86.32
4 59.57 77.05 83.39 86.52
5 59.80 77.36 83.65 86.75
6
59.92
77.54 83.80 86.897 59.86 77.47 83.78 86.82
8 59.80 77.59 83.91 86.92
9 59.83 77.65 83.96 86.93
10 59.85 77.67
84.00 86.95
表 5.10 最小音素音框錯誤-加入錯誤處罰與音素正規化-詞圖 N
~ 64 ~
5.1.3 實驗結果
5.2 狀態層級最小貝氏風險訓練