第 7 章 結論與展望
7.2 未來展望
~ 106 ~
文大字彙上的鑑別式訓練法使用在中文大字彙上時,必須注意正確度的定義是否 偏好詞正確率,並加以修改為偏好字正確率。在本論文中發現,在詞弧正確度的 計算加入錯誤處罰可以將偏好詞正確率的詞弧正確度改變成偏好字正確率的詞弧 正確度。
另外,本論文也在最小音素錯誤訓練和加入錯誤處罰和音素長度正規化的最 小音素音框錯誤上實驗資料選取的方法,為基於詞弧期望正確度篩選詞弧的方法,
實驗結果顯示最小音素錯誤訓練法會在詞正確率上進步,但在字正確率上退步;
加入錯誤處罰和音素長度正規化的最小音素音框錯誤訓練則有恰好相反的結果,
不過兩者正確率的變化都很小,所以基於詞弧期望正確度篩選詞弧的方法在正確 率的效果上沒有一致的結論,不過在收斂速度上都有一定程度的提升。
7.2 未來展望
鑑別式訓練法主要的概念就是將錯誤資訊也加入訓練資料中,以期加強區分 正確與錯誤資訊的能力。這種概念也可以套用在其它的方法上,如最大邊際估測 法(Large Margin Estimation)【42】【43】,是將正確詞串與最可能的辨識詞串相似度 的差值視為分離邊界,而將此邊界最大化的方法。而柔性邊際估測法,則是更進 一步改進最大邊際估測法(Soft Margin Estimation)【44】,認為應該著重訓練分離邊 界過小會辨識錯的資訊,因此只挑選分離邊界小於一定值的資料才納入訓練。而 這種挑選容易辨識錯的資訊來訓練的概念,也有引入最大相互資訊訓練中,如增 強式最大相互資訊法(Boosted MMI)【45】,是將近似所有辨識可能的詞圖,針對每 個詞弧的正確度不同給與訓練不同的權重。這些以鑑別式訓練法的概念設計出來 的訓練方式,都顯示出鑑別式訓練法是十分有效的方法,相信未來鑑別式訓練法 的概念還可以推廣到更多不同的領域上。
附錄A 右相關聲韻母模型
附錄A 右相關聲韻母模型
~ 108 ~
聲母 右相關聲母與對應的韻母起始音素
empt a o e i u iu E b ㄅ b_a b_o b_e b_i b_u b_E p ㄆ p_a p_o p_e p_i p_u p_E m ㄇ m_a m_o m_e m_i m_u m_E
f ㄈ f_a f_o f_e f_u f_E
d ㄉ d_a d_o d_e d_i d_u d_E t ㄊ t_a t_o t_e t_i t_u
n ㄋ n_a n_o n_e n_i n_u n_iu n_E l ㄌ l_a l_o l_e l_i l_u l_iu l_E g ㄍ g_a g_o g_e g_u g_E
k ㄎ k_a k_o k_e k_u
h ㄏ h_a h_o h_e h_u h_E
ji ㄐ ji_i ji_iu
chi ㄑ chi_i chi_iu
shi ㄒ shi_i shi_iu
j ㄓ j_empt j_a j_o j_e j_u j_E ch ㄔ ch_empt ch_a ch_o ch_e ch_u
sh ㄕ sh_empt sh_a sh_o sh_e sh_u sh_E r ㄖ r_empt r_a r_o r_e r_u
tz ㄗ tz_empt tz_a tz_o tz_e tz_u tz_E ts ㄘ ts_empt ts_a ts_o ts_e ts_u
s ㄙ s_empt s_a s_o s_e s_u
# 空聲母 #_a #_o #_e #_i #_u #_iu 表 A.2 右相關聲母模型列表
附錄A 右相關聲韻母模型
附錄A 右相關聲韻母模型
~ 110 ~
聲學 模型
出現 次數
高斯 混合數
聲學 模型
出現 次數
高斯 混合數
聲學 模型
出現 次數
高斯 混合數
ei 6982 32 iu 10908 64 uei 17459 64
j_empt 7186 32 h_u 10951 64 ueng 18729 64 ou 7211 32 iou 12048 64 sh_empt 19368 64
b_u 7223 32 l_i 12962 64 ian 20741 64
b_a 7365 32 a 13382 64 shi_i 21214 64
d_u 7871 32 an 13843 64 d_e 21862 64
iuan 8027 32 d_a 13921 64 ai 22455 64 f_a 8181 32 in 15082 64 sic_i 27125 64 iang 8451 32 uo 15155 64 empt1 27716 64 j_u 8528 32 eng 15317 64 ji_i 30712 64
uan 8529 32 ang 15340 64 u 32720 64
ie 9545 32 g_u 15404 64 i 39898 64
j_e 10287 64 au 15875 64 e 41752 64
chi_i 10314 64 en 15991 64 sil 64352 64 iau 10649 64 ing 16850 64
sic_iu 10870 64 sic_u 16947 64
表 A.3 聲韻母聲學模型在訓練語料的出現次數與狀態中的高斯混合數 其中在訓練語料中由於有四個聲韻母(d_ee、j_ee、n_o、sh_ee)未出現,因此 分別以d_ee Æ d_e、j_ee Æ j_e、n_o Æ n_u、sh_ee Æ sh_e 作為替代的模型,使 用的替代模型為訓練過程中增加高斯混合數前只有一個混合數時的模型