電腦輔助發音訓練 - 錯誤發音檢測使用評估尺度相關訓練準則

電腦輔助發音訓練最主要目的就是要讓二語(second-language, L2)學習者有更多的機會練習發音；過去二語學習者要進行發音練習都需要配合語言教師的授課時間，

若將電腦輔助發音訓練普及到現有的智慧型行動裝置，將會有更多的二語學習者因此受惠。電腦輔助發音訓練中的首要任務正是錯誤發音檢測，其目的在於檢測外語學習者在讀誦一段句子時是否出現錯誤發音。首先使用母語者的語料庫訓練語音辨識所需的聲學模型，在將外語學習者的發音語句與正確的文本做強制對位，

接著將聲學模型計算出的事後機率作為發音檢測特徵進行錯誤發音檢測，流程如圖1-2。

1.3.1 錯誤發音的類型

發音錯誤的類型大約可以分成兩種，分別是音位(phonemic)錯誤以及韻律(prosodic) 錯誤。其中音位錯誤為較嚴重的狀況，可能是學習者在發音過程中將部分音素唸成別的音素，稱為替換(substitution)錯誤；另外也可能為插入(insertion)或刪除 (deletion)等錯誤情況，也就是漏唸或多唸的音素。有趣的是華語為音節時間等長的語言(syllable-timed language)，且有著一字(character)一音節的特性，使得學習者在學習華語時不易發生插入或刪除等發音錯誤，因此在華語學習中較多情況為替換的發音錯誤。若將華語視為外語學習者的目標語言，錯誤情況則可被分為兩種，

分別為部分變更(partially changed)以及完全變更(completely changed)；若學習者替換的發音不屬於目標語言的任何音素則稱做部分變更，屬於目標語言的音素則是完全變更。而韻律的發音錯誤正是我們熟知的非母語者口音，可以分為重音(stress)、

圖 1-2、基礎錯誤發音檢測流程圖

節奏(rhythm)與語調(intonation)等三個面向討論。但是音位的發音錯誤更容易使得二語者與母語者溝通時產生誤解，因此也是本論文較為重視的部分。

錯誤發音檢測在越小的單位下有更高的難度，例如：音素層次，相較於音節、

詞或語句(sentence)層次難上許多。且越小的單位越容易有較低的施測者間信度 (inter-rater reliability)與施測者內信度(intra-rater reliability) [Witt, 2012]。過去學者在發音檢測所使用的語料庫中發現施測者間信度大約只有達到80% [Kim et al., 1997]。

1.3.2 錯誤發音檢測基於聲學模型之發音特徵

大部分的錯誤發音檢測方法是基於隱藏式馬可夫模型(hidden Markov models, HMM)的語音辨識模組來擷取發音分數，這類的方法與信心度評估(confidence measures)的部分方法非常類似[Wessel et al., 2001; Jiang, 2005]。早期有學者[Kim et al., 1997]比較三種發音分數：對數相似度值、對數事後機率、段落區間長度 (segment duration)對於發音檢測效果的影響。Kim 在實驗中指出對數事後機率與人類專家的發音標記有較高的相關性。接著學者 Witt 提出的發音優劣評估 (goodness of pronunciation, GOP) [Witt and Young, 2000]在發音檢測任務被廣泛使用，之後也有許多研究持續改良 GOP 等方法[Zhang et al., 2008]。上述提及的方法皆為基於門檻值的作法，也就是只使用一個分數作為評估發音是否錯誤；透過實驗經驗即可找到適合的門檻值，使得該方法可以非常簡單的被實現[Franco et al., 1999; Ito et al., 2007]。

廣義上來看，GOP 也屬於一種二元分類的方法，但 GOP 只有考慮到目標(正確)音素與它的混淆音素的對數相似度值。有鑒於此，Wei 等人使用目標(canonical) 音素與其它所有音素的對數相似度值做為輸入分類器的發音檢測特徵[Wei et al.,

2009]，並將支持向量機(support vector machine, SVM)做為分類器來辨認特徵對應的輸出為正確發音或錯誤發音。但除了每一個音素的對數相似度值來作為發音檢測特徵，Hu 等人額外地將目標音素與其它音素的對數相似度比值加入成為額外輸入的發音檢測特徵[Hu et al., 2015a]，並使用特殊結構的邏輯迴歸來進行錯誤發音檢測，該結構透過共享隱藏層來解決部分音素資料稀疏(data sparse)的問題。運用較全面性的聲學模型之發音檢測特徵，可補足單一特徵出現混淆的問題，有學者將這類特徵稱作發音空間(pronunciation space)特徵[Qian et al., 2016]。除此之外也有學者透過一些專家知識來選取發音特徵[Chen and Jang, 2010; Chen and Jang, 2012; Chen and Jang, 2015; Laborde et al., 2016]，該研究針對詞層次的發音品質進行評估，並加入資訊檢索的排序學習(learning to rank)來提升發音品值評估的準確率。

在傳統語音辨識模組中的聲學模型是使用高斯混合模型表示短時間的語音分布，訓練模型的目標則是最大化相似度值(maximum likelihood)；之後有學者提出許多以最小化辨識錯誤率為目標的鑑別式訓練[Bahl et al., 1986; Juang et al., 1997; Povey and Woodland, 2002; Gibson and Hain, 2006; Povey and Kanevsky, 2008]。

語音辨識中的鑑別式訓練也被學者用來改善發音評估的效能[Qian et al., 2010; Yan and Gong, 2011]，但錯誤發音檢測與語音辨識任務目的並不相同，因此有學者提出以最大化錯誤發音檢測之 F 度量為目標進行鑑別式訓練[Huang et al., 2012;

Huang et al., 2015]。

近年來，在語音辨識模組的聲學模型由深層類神經網路取代傳統的高斯混合模型，並在語音辨識任務上取得巨大的進步[Hinton et al., 2012]。在錯誤發音檢測的相關研究中也因為近年來深度學習的影響而在效能上有顯著的提升[Qian et al., 2012; Hu et al., 2014; Hu et al., 2015a]，Hu 在實驗中證實良好的聲學模型有助於錯誤發音檢測的效果得到提升。

1.3.3 錯誤發音檢測基於韻律特徵

另一類的作法則是利用一些聲學的韻律特徵來評估發音的優劣，有些研究指出聲學韻律特徵在某些特定發音的錯誤檢測之效能更勝信心度評估等方法[Truong, 2005; Strik et al., 2009]；其中 Truong 使用的特徵包含對數均方根能量(log root mean-square (RMS) energy)、對數均方根能量的一階導數(the first-order derivative of log RMS energy)與過零率(zero crossing rate)。類似的特徵還有自適應扭曲倒頻譜(adaptively-warped cepstrum) [Sharma et al., 2011]與低維度子空間特徵 (low-dimensional sub-space features) [Li et al., 2011]等。但其實要找出與多數音素都具有高度相關性的聲學韻律特徵並不容易，反觀基於聲學模型所截取的發音特徵則可以建立最先進的語音辨識模組上[Wei et al., 2009]。

1.3.4 回饋

錯誤發音檢測為電腦輔助發音訓練的第一步，也是非常重要的步驟。當錯誤發音被偵測出來時，如何回饋有幫助的訊息給學習者將會是十分值得探討的問題，也正是所謂錯誤發音診斷[Harrison et al., 2008]。有學者將語音辨識中標準的有現狀態轉換器 (finite state transducers, FST) 架構延伸為擴充辨識網路 (extended recognition network ,ERN) [Harrison et al., 2009; Lo et al., 2010]，這樣的架構下不但可以對發音偏誤的型態進行回饋，也可以處理發音過程中音素發生插入或刪除等錯誤狀況。可惜的對於初學者而言，直接回饋目標語言的診斷結果對於初階的學習者是不易理解的[Fant, 1973; Stevens, 2000]；例如：日語母語者學習外語時常常無法發出\r\的音，那是因為日語並沒有類似\r\的音素，因此日語母語者往往都會用\l\來代替。在一般的發音診斷中反覆告知學習者的偏誤狀況是將音素\r\唸成\l\，

這樣並非最有效的方法，學者認為應該要針對這樣的偏誤狀況設計一些較容易理解的文字敘述[Li et al., 2016]甚至是口腔的視覺分析圖[Demenko et al., 2009]。除此之外也有學者提出一些半監督式[Lee and Glass, 2014]或非監督式[Lee and Glass, 2015; Wang and Lee, 2015]的方法來自動偵測偏誤的配對關係。然而，無論回饋給學習者的方式為何，還是需要精準的預測學習者的偏誤狀況。例如：當學習者發音出現錯誤時，究竟是唸成其他甚麼音素？在本論文則是將錯誤發音診斷視為分類問題來探究。

1.3.5 評估標準

評估語音辨識的效能我們通常都會使用詞錯誤率(word error rate, WER)，但是發音檢測任務和語音辨識目的不同。由於是二類分類問題，較常用的評估標準為：若學習者的發音正確，系統卻判斷為發音錯誤稱為是錯誤的拒絕(false rejections, FR)；

而學習者發音錯誤，系統認定為發音正確則稱為錯誤的接受(false acceptances, FA)；

學習者發音正確，系統判斷為發音正確稱為正確的接受(true acceptances, TA)；學習者發音錯誤，系統判定為發音錯誤稱為正確的拒絕(true rejections, TR)。上述的四種指標可以計算出其他評估的標準，例如召回率(recall)與精準度(precision)，有許多發音檢測的研究皆用該評估方式[Hu et al., 2015a; Huang et al., 2015]。

更進一步可以觀察召回率與精準度的調和平均－F 度量(F-measure)，在自然語言處理(natural language processing, NLP)與資訊檢索(information retrieval, IR)等研究中廣為使用，更是有許多任務直接將該指標作為模型訓練的目標[Fujino et al., 2008; Dembczynski et al., 2011; Ye et al., 2012]。有許多發音檢測的任務都是以 F 度量為評估標準[Luo et al., 2009; Lee et al., 2013; Huang et al., 2015]，除此之外還有接收者操作特徵曲線(receiver operating characteristic curve, ROC)所提供的各項指

標大部分都適合用於錯誤發音檢測的效能評估，但有學者指出 ROC 曲線下面積 (area under the curve of ROC)並非一個良好的評估指標[Lobo et al., 2008]。

在文檔中錯誤發音檢測使用評估尺度相關訓練準則 (頁 15-21)