我們比較上述實驗提及的鑑別式訓練在錯誤發音診斷中的效果,另外我們加入 0 節提到的最小化熵正則項到 MFC 目標函數中(+MinEnt),其發音檢測結果如表 6-12,對於錯誤發音檢測之效能有小幅度的提升(錯誤發音之 F 度量由 0.652 提升 至 0.655)。而錯誤發音診斷的實驗可分成聲母、韻母與聲調三部分,該實驗中已 假設發音檢測的結果完全正確。基礎實驗(baseline)是基於 GMM-HMM 以及 DNN(D)-HMM 聲學模型所產生的音素相似度值,並以最高的相似度值所對應的 音素作為錯誤發音診斷之回饋,可以發現無論是聲母、韻母或聲調錯誤發音診斷 正確率都有約 10~20%的落差。接著我們探討 DNN(D)-HMM 聲學模型經過鑑別 式訓練(+MFC (Both))後產生的音素相似度值的錯誤發音診斷結果。在聲母與聲調 的錯誤發音診斷正確率有非常大幅度的進步(聲母正確率由 44.9%提升至 49.9%,
表 6-12、基於 LPP 最大化 F 度量鑑別式訓練加入最小化熵正則項在發音檢測 任務之效能
Correct pronunciation detection Mispronunciation detection Recall Precision F1 Recall Precision F1 LPP + MFC (Both) 0.907 0.871 0.889 0.613 0.697 0.652
+ MinEnt 0.906 0.872 0.889 0.619 0.695 0.655 表 6-13、使用不同的聲學模型產生的相似度值計算聲母(Initial)、韻母(Final)
與聲調(Tone)的錯誤發音診斷正確率
Initial Final Tone
GMM-HMM 33.8% 23.2% 39.2%
DNN-HMM 44.9% 34.8% 60.2%
+MFC (Both) 49.4% 32.6% 69.6%
+MinEnt 49.3% 32.6% 69.6%
聲調錯誤率由 60.2%提升至 69.6%)。經過最大化發音檢測效能的鑑別式訓練對於 錯誤發音診斷的效能也有大幅度的提升,我們推測是因為鑑別式訓練針對標準音 素的發音分數進行調整,使得聲學模型產生音素之間相似度值的大小關係更為精 準。但是在韻母的部分則有些微的退步(韻母錯誤率由 34.8%降低至 32.6%),可能 的原因為在進行最大化發音檢測效能之鑑別式訓練所處理的是音素層次(聲母與 帶聲調之韻母);因此當一段發音是由帶聲調之韻母發生錯誤,聲學模型則可能傾 向聲調的錯誤做調整,導致韻母的部分有小幅度的損失。然而在進行 MFC 鑑別 式訓練時加入最小化熵正則項(+MinEnt)對於錯誤發音診斷並無顯著的影響,因此 在接下來的實驗中我們以原始的聲學模型與經過 MFC 鑑別式訓練的聲學模型為 主。除此之外我們將錯誤發音檢測視為一個分類問題,如 4.2 小節提到的,使用 支持向量機與深層類神經網路作為分類模型,基於 DNN(D)-HMM 聲學模型所產 生的發音特徵(第 2.2 節提到的發音空間特徵)。可以發現以深層類神經網路為分 表 6-14、以 DNN-HMM 聲學模型產生的發音特徵經過分類模型進行發音診斷 之結果,並計算聲母(Initial)、韻母(Final)與聲調(Tone)的錯誤發音診斷正確率
Initial Final Tone Decision Tree 43.7% 32.8% 61.8%
SVM 47.1% 31.3% 61.5%
MLP 51.6% 45.4% 70.9%
表 6-15、經過 MFC(Both)訓練的 DNN-HMM 聲學模型產生的發音特徵經過分 類模型進行發音診斷之結果,並計算聲母(Initial)、韻母(Final)與聲調(Tone)的
錯誤發音診斷正確率
Initial Final Tone Decision Tree 47.0% 32.6% 66.4%
SVM 47.0% 27.3% 67.6%
MLP 54.8% 44.1% 75.2%
類器在聲母、韻母與聲調的錯誤發音診斷之表現上皆有提升,尤其在原本效果較
0.0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1.0
Normalized Phone Count
Accuracy
Mispronunciation diagnosis
DNN-HMM DNN-HMM +MFC(Both) +MLP
錯誤發音診斷中較具代表性的結果(經過 MFC(Both)訓練的 DNN-HMM 聲學模型 產生的發音特徵經過多層邏輯迴歸分類模型產生的發音診斷結果)與基礎實驗(使 用 DNN-HMM 聲學模型產生的相似度值產生的發音診斷結果)做比較,並各自計 算每個音素的正確率來繪製直方圖,如圖 6-8。可以觀察到診斷正確率落在 0.2 至 0.5 的音素有明顯的往 0.6 至 1.0 的區塊移動。
第7章 結論與未來展望
本論文著重在電腦輔助發音訓練的錯誤發音檢測任務,並以最大化錯誤發音檢測 效能為主軸進行一系列的實驗,最後延伸探討錯誤發音診斷的效能。我們以 5 個 面項討論本論文的主要貢獻:
1) 基於[Huang et al., 2015]的研究,我們認為以最大化發音檢測之 F 度量為目標 函數進行模型訓練是非常有潛力的。因此我們延伸該作法至現今語音辨識模 組十分熱門的部份-深層類神經網路聲學模型,取代傳統的高斯混合聲學模 型。從實驗結果可以發現以最大化 F 度量為目標對決策函數或聲學模型的參 數進行調整,甚至是同時調整,都可以在效果上得到提升;尤其對於聲學模 型參數進行調整的進步幅度令人印象深刻。
2) 除了以最大化 F 度量的目標函數外,我們也探討以 R 度量為目標函數對參數 進行調整的結果。從實驗中可以發現以 F 度量作為目標函數在各種評估指標 上皆有較好的表現。我們認為 F 度量的評估標準較嚴格,且透過權衡各類別 (正確與錯誤發音)的 F 度量之重要性可以有效解決資料類別不平衡的問題。
反觀 R 度量易傾向數量較多的類別(正確發音),使得模型訓練容易提早收斂,
而未能對於數量較少的類別(錯誤發音)進行有效的訓練。
3) 在發音決策函數的部分我們延續[Hu et al., 2015a]的研究,探討使用較優良的 決策函數(多層邏輯迴歸分類器)與較豐富的發音特徵(發音空間特徵)對於發 音檢測的影響。並以最大化發音檢測效能為目標對模型進行訓練,但結果未 能勝過傳統基於門檻值的方法;我們推測複雜的決策函數在使用梯度法訓練 時容易將錯誤提早吸收,導致無法有效傳導至聲學模型,但從我們先前的實 驗經驗可得知調整聲學模型可以有效提升發音檢測的效能。因此我們以傳統 基於門檻值的方法進行最大化 F 度量之訓練,在將該聲學模型所擷取的發音
特徵運用各種分類模型進行二類分類(正確或錯誤發音),可得到小幅度的進 步。
4) 從實驗可以發現透過發音檢測之鑑別式訓練,在錯誤發音診斷任務也可以得 到明顯的進步。於是我們嘗試在目標函數中加入最小化熵正則項,試圖提升 模型的一般化能力以及發音診斷的效能。而實驗顯示發音檢測任務有小幅度 的進步,但是在錯誤發音診斷任務則無明顯的影響。推測是我們提出的非監 督式訓練之假設與錯誤發音診斷任務目標不直接相關,因此未能達到我們理 想的結果。
5) 基於第 4)點的觀察,我們認為錯誤發音診斷任務或許可以透過監督式學習得 到更進一步的效果。我們訓練用於發音診斷的分類模型並採用過去學者提出 的發音空間特徵作為輸入,從實驗可以發現錯誤發音診斷的效能可以藉此得 到顯著的進步。若使用經過最大化 F 度量訓練的聲學模型產生的發音空間特 徵訓練分類模型,又可以在得到進一步的提升。
關於未來展望我們從特徵與模型等兩個面向來討論。首先在特徵的部分,大 多數的研究皆使用基於語音辨識模組所擷取的發音特徵;這類的做法確實可以得 到不錯的效果,但其表現似乎受限於聲學模型的準確程度。因此我們希望從不同 角度來獲取跟發音狀況高相關性的特徵;其中韻律特徵為人與人之間重要的溝通 部件,該特徵提供了語法功能(grammatical functions),例如找出語句中片語之間 的界線;除此之外也提供了語用功能(pragmatic functions),例如判斷語句屬於問 句或描述句等線索,甚至是語者的態度[Black et al., 2015]。
在模型的部分希望持續探討更新穎的聲學模型對於電腦輔助發音訓練等任 務的影響。從我們的實驗中可以發現將 GMM-HMM 替換成 DNN-HMM 聲學模型 對於檢測及診斷任務的準確率皆有明顯的提升,因此我們認為基於辨識率更高的 聲學模型將可以擴展電腦輔助發音訓練的研究視野。我們也期望將語音辨識所使
用 的 調 適 技 術 移 轉 到 該 任 務 , 例 如 一 些 非 監 督 式 的 語 者 調 適 [Gales, 1998;
Swietojanski and Renals, 2014]。或是針對不同語言進行模型調適[Huang et al., 2013],
轉換到發音訓練的領域則可以是針對不同母語的外語學習者進行調適。
參考文獻
[Atal, 1974] B. S. Atal, “Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification,” The Journal of the Acoustical Society of America, vol. 55, no. 6, pp. 1304–1312, 1974.
[Bergstra et al., 2010] J. Bergstra, O. Breuleux, F. Bastien, P. Lamblin, R. Pascanu, G.
Desjardins, J. Turian, D. W. Farley and Y. Bengio. “Theano: A CPU and GPU math expression compiler,” in Proceedings of the Python for Scientific Computing Conference, 2010.
[Bishop, 2006] C.M. Bishop, Pattern Recognition and Machine Learning. Springer, 2006.
[Black et al., 2015] M. P. Black, D. Bone, Z. I. Skordilis, R. Gupta, W. Xia, P.
Papadopoulos, S. N. Chakravarthula, B. Xiao, M. V. Segbroeck, J. Kim, P. G.
Georgiou and S. S. Narayanan, ”Automated evaluation of non-native English pronunciation quality: combining knowledge- and data-driven features at multiple time scales,” in Proceedings of the International Conference on Speech Communication and Technology, 2015.
[Brefeld et al., 2005] U. Brefeld, C. Buscher and T. Scheffer, “Multiview dicriminative sequential learning,” in Proceedings of the European Conference on Machine Learning, 2005.
[Chen and Jang, 2010] L. Y. Chen and J. S. R. Jang, “Automatic pronunciation scoring using learning to rank and DP-based score segmentation,” in Proceedings of the International Conference on Speech Communication and Technology, 2010.
[Chen and Jang, 2012] L. Y. Chen and J. S. R. Jang, “Improvement in automatic pronunciation scoring using additional basic scores and learning to rank,” in Proceedings of the International Conference on Speech Communication and Technology, 2012.
[Chen and Jang, 2015] L. Y. Chen and J. S. R. Jang, “Automatic pronunciation scoring with score combination by learning to rank and class-normalized DP-based quantization,” IEEE Transactions on Audio, Speech, and Language Processing, vol.
23, no. 11 pp. 787–797, 2015.
[Davis and Mermelstein, 1980] S. B. Davis and P. Mermelstein, “Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences,” IEEE Transactions on Acoustic, Speech, and Signal Processing, vol. 28, no. 4, pp. 357–366, 1980.
[Dembczynski et al., 2011] K. Dembczynski, W. Waegeman, W. Cheng and E.
Hullermeier, “An exact algorithm for F-measure maximization,” Advances in Neural Information Processing Systems, 2011.
[Demenko et al., 2009] G. Demenko, A. Wagner, N. Cylwik and O. Jokisch. “An audiovisual feedback system for acquiring L2 pronunciation and L2 prosody,” in Proceedings of the International Symposium on Languages, Applications and Technologies, 2009.
[Fant, 1973] G. Fant, Speech Sounds and Features. Cambridge, MA, MIT Press, 1973.
[Franco et al., 1999] H. Franco, L. Neumeyer, M. Ramos and H. Bratt, “Automatic detection of phone-level mispronunciation for language learning,” in Proceedings of the European Conference on Speech Communication and Technology, 1999.
[Fujino et al., 2008] A. Fujino, H. Isozaki and J. Suzuki, “Multi-label text categorization with model combination based on F1-score maximization,” in Proceedings of the International Joint Conference on Natural Language Processing, 2008.
[Gales, 1998] M.J.F. Gales, “Maximum likelihood linear transformations for HMM-based speech recognition,” Computer Speech and Language, vol. 12, pp. 75–98, 1998.
[Harrison et al., 2008] A.M. Harrison, W.Y. Lau, H. Meng and L. Wang, “Improving mispronunciation detection and diagnosis of learners’ speech with context-sensitive phonological rules based on language transfer,” in Proceedings of the International Conference on Speech Communication and Technology, 2008.
[Harrison et al., 2009] A. M. Harrison, W. K. Lo, X. J. Qian and H. Meng,
“Implementation of an extended recognition network for mispronunciation detection and diagnosis in computer-assisted pronunciation training,” in Proceedings of the International Symposium on Languages, Applications and Technologies, 2009.
[Hinton et al., 2012] G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A.
Senior, V. Vanhoucke, P. Nguyen, T. Sainath and B. Kingsbury, “Deep neural networks for acoustic modeling in speech recognition,” IEEE Transactions on Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, 2012.
[Hsu et al., 2016] Y. C. Hsu, M. H. Yang, H. T. Hung and B. Chen, “Mispronunciation detection leveraging maximum performance criterion training of acoustic models and decision functions,” in Proceedings of the International Conference on Speech Communication and Technology, 2016.
[Hu et al., 2013] W. Hu, Y. Qian and F. K. Soong, “A new DNN-based high quality pronunciation evaluation for computer-aided language learning (CALL),” in Proceedings of the International Conference on Speech Communication and Technology, 2013.
[Hu et al., 2014] W. Hu, Y. Qian and F. K. Soong, “A DNN-based acoustic modeling of tonal language and its application to Mandarin pronunciation training,” in Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 2014.
[Hu et al., 2015a] W. Hu, Y. Qian, F. K. Soong and Y. Wang, “Improved mispronunciation detection with deep neural network trained acoustic models and transfer learning based logistic regression classifiers,” Speech Communication, vol.
67, pp. 154–166, 2015.
[Hu et al., 2015b] W. Hu, Y. Qian and F. K. Soong, “An improved DNN-based approach to mispronunciation detection and diagnosis of L2 learners’ speech,” in Proceedings of the International Symposium on Languages, Applications and Technologies, 2015.
[Huang et al., 2012] H. Huang, J. Wang and H. Abudureyimu “Maximum F1-score discriminative training for automatic mispronunciation detection in computer-assisted language learning,” in Proceedings of the International Conference on Speech Communication and Technology, 2012.
[Huang et al., 2013] J. T. Huang, J. Li, D. Yu, L. Deng and Y. Gong, “Cross-language knowledgetransfer using multilingual deep neural network with shared hidden
layers,” in Proceedings of the International Conference on Speech Communication and Technology, 2013.
[Huang et al., 2015] H. Huang, H. Xu, X. Wang and W. Silamu, “Maximum F1-score discriminative training criterion for automatic mispronunciation detection,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 23, no. 5 pp. 787–
797, 2015.
[Ito et al., 2007] A. Ito, Y. L. Lim, M. Suzuki and S. Makino, “Pronunciation error detection for computer-assisted language learning system based on error rule
[Ito et al., 2007] A. Ito, Y. L. Lim, M. Suzuki and S. Makino, “Pronunciation error detection for computer-assisted language learning system based on error rule