錯誤發音檢測使用評估尺度相關訓練準則

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳博士. 錯誤發音檢測使用評估尺度相關訓練準則 Mispronunciation Detection with Evaluation Metric-related Training Criteria. 研究生：許曜麒撰. 中華民國一百零五年七月.

(2) 摘要錯誤發音檢測 (mispronunciation detection) 與錯誤發音診斷 (mispronunciation diagnosis)為電腦輔助發音訓練系統的一部分，它們能輔助第二外語學習者準確地找出語句中錯誤發音的部位以增進學習者的口說熟練度。本論文延續過去學者的研究，大致可將貢獻分為三點：1) 我們透過最佳化評估尺度相關訓練法則估測深層類神經網路聲學模型的參數以及發音檢測決策函數之參數。2) 可以發現聲學模型經過我們的方法訓練後，後續的錯誤發音診斷任務之效能也得到改善。3) 我們將錯誤發音診斷視為分類任務，並利用過去學者所提出的蘊含豐富資訊之特徵以提升錯誤發音診斷的效果。一系列的實驗將建立在華語錯誤發音檢測與診斷任務，從實驗中可以觀察到我們提出的方法之優點。. 關鍵字：電腦輔助發音訓練、錯誤發音檢測、錯誤發音診斷、聲學模型、深層類神經網路. i.

(3) Abstract Mispronunciation detection and diagnosis are part and parcel of a computer assisted pronunciation training (CAPT) system, collectively facilitating second-language (L2) learners to pinpoint erroneous pronunciations in a given utterance so as to improve their spoken proficiency. This thesis presents a continuation of such a general line of research and the major contributions are three-fold. First, we propose an effective training approach that estimates the deep neural network based acoustic models involved in the mispronunciation detection process by optimizing an objective directly linked to the ultimate evaluation metric. Second, we investigate the extent to which, the subsequent mispronunciation diagnosis can benefit from using these specifically trained acoustic models. Third, we recast mispronunciation diagnosis as a classification problem and leverage a rich set of features for the idea to work. A series of experiments on a Mandarin mispronunciation detection and diagnosis task seem to show the performance merits of the proposed methods.. Index Terms: computer assisted pronunciation training, mispronunciation detection, mispronunciation diagnosis, acoustic models, deep neural networks. ii.

(4) 誌謝首先誠摯的感謝指導教授陳柏琳博士，當初在找指導教授時陳老師不會因為我的領域知識不足，也不在乎我過去的表現，讓我有機會進入語音實驗室學習。不論是做研究的態度、學習的方法或是在為人處世上都給予我莫大的幫助與指正。老師在研究上總是以自己的行動做出榜樣來教導學生，與人相處則是嚴以律己，寬以待人的作風，希望我有朝一日也能達到跟老師ㄧ樣的成就。感謝口試委員洪志偉博士及陳冠宇博士對我論文的指導與建議，使得我的論文更加完善，同時也得到更多的啟發。另外感謝冠宇學長和孝宗學長，對於初學者我的愚蠢問題有問必答，我無法想像少了學長們的研究所生活。感謝凱文學長、憶年學姐、庭豪學長和思澄學姐分享給我們關於研究所課業的經驗，為我跟明翰爭取更多的時間來專精研究的知識與技能。感謝淳伊、敬弘、必成、奕儒、映文與佳樺總是為實驗室帶來如此歡樂的氣氛，也感謝學長與學弟妹在實驗室面對計畫與研究等各種挑戰時同進退的精神，可以預見未來實驗室的氣氛將更加融洽，且研究風氣更盛。最後深深的感謝我的家人，您們的支持一直是我最大的動力。當我遭遇困難時，您們總會鼓勵我，累積我的正面能量，教導我做人處事的態度。感謝我的阿公阿嬤，因為您們耐心的照料我與弟弟，讓我們可以跟其他同學一樣專心於課業。我期望將來能在事業上有輝煌的成績讓您們感到驕傲。. 曜麒. iii. 謹誌.

(5) 目錄第1章. 緒論 ............................................................................................ 1. 1.1 1.2. 研究背景與動機......................................................................................... 1 自動語音辨識............................................................................................. 2 1.2.1 特徵擷取......................................................................................... 3 1.2.2 聲學模型......................................................................................... 4. 1.2.3 語言模型......................................................................................... 6 1.2.4 語言解碼......................................................................................... 7 1.3 電腦輔助發音訓練..................................................................................... 7 1.3.1 錯誤發音的類型............................................................................. 8 1.3.2 錯誤發音檢測基於聲學模型之發音特徵..................................... 9 1.3.3 錯誤發音檢測基於韻律特徵....................................................... 11 1.3.4 回饋............................................................................................... 11 1.3.5 評估標準....................................................................................... 12 1.4 本論文研究內容與貢獻........................................................................... 13 1.5. 論文架構................................................................................................... 14. 第2章. 文獻探討 .................................................................................. 15. 2.1 2.2 2.3 2.4 2.5. 發音優劣評估(goodness of pronunciation) ............................................. 16 對數音素事後機率(log phone posterior) ................................................. 19 對數音素狀態事後機率(log senone posterior) ....................................... 21 基於聲學模型之發音檢測特徵擷取....................................................... 22 錯誤發音檢測之分類模型....................................................................... 24 2.5.1 邏輯迴歸分類器........................................................................... 24. 2.5.2 多層邏輯迴歸分類器................................................................... 25 2.5.3 支持向量機................................................................................... 27 2.6 錯誤發音診斷........................................................................................... 27. 第3章. 最大化錯誤發音檢測評估尺度之鑑別式訓練 ...................... 29. 3.1 3.2 3.3 3.4. F 度量目標函數 ....................................................................................... 29 最大化 F 度量鑑別式訓練 ...................................................................... 31 R 度量目標函數 ....................................................................................... 34 最大化 R 度量鑑別式訓練 ...................................................................... 35. 第4章. 錯誤發音診斷 .......................................................................... 37. 4.1. 最小化熵正則項....................................................................................... 37 iv.

(6) 4.2. 監督式錯誤發音診斷訓練....................................................................... 38. 第5章. 實驗環境設定 .......................................................................... 41. 5.1 5.2 5.3. 華語學習者口語語料庫........................................................................... 41 聲學模型訓練........................................................................................... 43 錯誤發音檢測評估方式........................................................................... 45. 第6章. 發音檢測實驗之結果探討 ...................................................... 48. 6.1. 發音檢測特徵於分類模型之實驗........................................................... 50. 6.2 6.3 6.4 6.5 6.6. 基於門檻值(thresholding based)之最大化 F 度量鑑別式訓練.............. 51 基於門檻值(thresholding based)之最大化 R 度量鑑別式訓練 ............. 57 基於分類器(classification based)之最大化 F 度量鑑別式訓練 ............ 58 額外特徵探討........................................................................................... 60 錯誤發音診斷實驗................................................................................... 63. 第7章. 結論與未來展望 ...................................................................... 67. 參考文獻 .................................................................................................. 70. v.

(7) 附表目錄表 5-1、華語學習者口語語料庫之訓練集、發展集與測試集 ................................ 42 表 5-2、華語非母語者語料庫之完全變更的錯誤發音數量 .................................... 42 表 5-3、完全變更之錯誤發音在聲母、韻母與聲調的音素數量 ............................ 42 表 5-4、不同深層類神經網路架構之設定 ................................................................ 44 表 5-5、自動語音辨識實驗結果 ................................................................................ 44 表 5-6、ROC 分析的四項指標在發音檢測任務中的定義 ....................................... 45 表 6-1、不同聲學模型在發音檢測任務的實驗結果 ................................................ 48 表 6-2、基於 DNN(D)-HMM 聲學模型在發音檢測之基礎實驗 ............................. 48 表 6-3、基於發音空間特徵[Hu et al. 2015a]之分類模型於發音檢測任務 ............. 49 表 6-4、基於 LPP 最大化 F 度量鑑別式訓練於不同設定的發音檢測效能 ........... 54 表 6-5、基於 LSP 最大化 F 度量鑑別式訓練於不同設定的發音檢測效能 ........... 54 表 6-6、基於 LPP 最大化 F 度量鑑別式訓練於不同設定的發音檢測之召回率 (R)、精準度(P)、F 度量(F1)與 R 度量(Rand Index) ......................................... 57 表 6-7、基於 LPP 最大化 R 度量鑑別式訓練於不同設定的發音檢測之召回率 (R)、精準度(P)、F 度量(F1)與 R 度量(Rand Index) ......................................... 57 表 6-8、以 MLR 為決策函數之最大化 F 度量鑑別式訓練於不同設定的發音檢測效能 ....................................................................................................................... 58 表 6-9、不同的發音特徵 ............................................................................................ 59 表 6-10、基於 DNN(D)-HMM 聲學模型擷取不同的發音特徵於邏輯迴歸分類器 (LR)、支持向量機(SVM)與多層邏輯迴歸分類器(MLR)等分類器的發音檢測效能 ....................................................................................................................... 59 表 6-11、基於 MFC 鑑別式訓練之聲學模型的發音特徵於邏輯迴歸分類器(LR)、支持向量機(SVM)與多層邏輯迴歸分類器(MLR)等分類器的發音檢測效能 . 60 表 6-12、基於 LPP 最大化 F 度量鑑別式訓練加入最小化熵正則項在發音檢測任務之效能 ............................................................................................................... 63 表 6-13、使用不同的聲學模型產生的相似度值計算聲母(Initial)、韻母(Final)與聲調(Tone)的錯誤發音診斷正確率......................................................................... 63 表 6-14、以 DNN-HMM 聲學模型產生的發音特徵經過分類模型進行發音診斷之結果，並計算聲母(Initial)、韻母(Final)與聲調(Tone)的錯誤發音診斷正確率 ............................................................................................................................... 64 表 6-15、經過 MFC(Both)訓練的 DNN-HMM 聲學模型產生的發音特徵經過分類模型進行發音診斷之結果，並計算聲母(Initial)、韻母(Final)與聲調(Tone)的錯誤發音診斷正確率 ........................................................................................... 64. vi.

(8) 附圖目錄圖 1-1、自動語音辨識流程圖 ...................................................................................... 3 圖 1-2、基礎錯誤發音檢測流程圖 .............................................................................. 8 圖 2-1、電腦輔助發音訓練等相關研究的發展與演進 ............................................ 16 圖 2-2、音素層次發音特徵擷取 ................................................................................ 17 圖 2-3、多層邏輯迴歸分類器架構圖 ........................................................................ 26 圖 2-4、錯誤發音診斷流程圖 .................................................................................... 28 圖 3-1、加入最大化錯誤發音檢測評估尺度之鑑別式訓練在錯誤發音檢測的流程圖 ........................................................................................................................... 34 圖 4-1、最大化發音檢測效能並加入最小化熵正則項之流程圖 ............................ 38 圖 4-2、監督式錯誤發音診斷流程圖 ........................................................................ 39 圖 5-1、非母語者語料庫之國籍資料分布 ................................................................ 43 圖 6-1、不同架構的多層邏輯迴歸分類器(MLR)在發展集的發音檢測實驗 ......... 49 圖 6-2、不同架構的多層邏輯迴歸分類器(MLR)在測試集的發音檢測實驗 ......... 51 圖 6-3、不同𝜑在發展集的發音檢測效能 ................................................................. 52 圖 6-4、不同𝜑在測試集的發音檢測效能 ................................................................. 53 圖 6-5、正確發音檢測由每個音素的 F 度量所繪製的直方圖 ................................ 55 圖 6-6、錯誤發音檢測由每個音素的 F 度量所繪製的直方圖 ................................ 55 圖 6-7、不同發音檢測方法在 ROC 曲線的表現 ...................................................... 61 圖 6-8、每個音素的錯誤發音診斷正確率所繪製的直方圖 .................................... 65. vii.

(9) 第1章. 緒論. 1.1 研究背景與動機現今全球化的時代裡，精通兩種或兩種以上的語言不僅是優勢更是必要的能力。在十幾年以前，英語還是國際通用的語言；但近年來，由於中國市場的快速發展，全球華語學習熱潮席捲而來，學習華語的人數預估已經超過一億，在許多非華語語系的亞洲、歐洲以及美洲國家，華語已經逐漸成為一種必須學習的語言[Hu et al., 2014]。語言學習又分為聽(listening)、說(speaking)、讀(reading)和寫(writing)等四類學習面向；尤其在語言學習中，說與寫的對錯往往需要透過專業的語言教師來評斷，但語言教師的人數遠遠不及華語學習者數量。隨著第二外語學習者 (second language learner)的人數與日俱增，華語師資的需求也越來越大。因此，電腦輔助語言學習(computer assisted language learning, CALL)的研究領域越來越重要，本篇論文將專注該研究領域的電腦輔助發音訓練 (computer assisted pronunciation training, CAPT)－「說」的技術發展與探討。一般而言，電腦輔助發音訓練(CAPT)包括兩個部分：分別是錯誤發音檢測 (mispronunciation detection)與錯誤發音診斷(mispronunciation diagnosis)。錯誤發音檢測系統是請學習者讀誦口說教材，針對學習者念誦的錄音，評斷學習者的發音是正確發音(correct pronunciation)或錯誤發音(mispronunciation)，系統自動回饋音素(phone)層次或詞(word)層次的發音狀況。錯誤發音診斷是當系統偵測到使用者的發音出現錯誤時給予更細緻的回饋，假設教材題目為「師範(shi1 fan4)」，但學習者唸成「吃範(chi1 fan4)」，系統除了判斷出學習者有錯誤發音之外，還可以回饋學習者唸的「師(shi1)」可能唸成「吃(chi1)」。有許多錯誤發音檢測與診斷的方法都是基於語音辨識模組中的聲學模型(acoustic model)所擷取的對數事後機率 (log posterior probability)或對數相似度值(log-likelihood)做為檢測或診斷的依據。 1.

(10) 在接下來的緒論裡將簡單的介紹自動語音辨識模組，並較詳細的解釋深層類神經網路如何運用在聲學模型；接著在環顧整個電腦輔助發音訓練的研究。. 1.2 自動語音辨識統計式語音辨識其出發點便是要找出一句最像、最接近待測語音的文句。其中藉由統計式架構的方法來定義或是量化一段語音跟一段文句的相似程度，接著利用機率量值來衡量相似度，這便是統計式語音辨識的主要精神。因此，整個語音辨識過程可以很輕易地轉換成一個搜尋問題，以更明確的方式來說明，假設𝑂 = {𝑜1 , … , 𝑜𝑇 }為給定的語句，則語音辨識即是要從所有文句(詞序列) 𝑊中找出機率最 ̂：大的句子𝑊. ̂ = arg max 𝑃(𝑊|𝑂) 𝑊 𝑊. (1.1). 其中𝑤代表所有可能詞序列所構成的集合，𝑃(𝑊|𝑂)為給定語句𝑂，發生詞序列𝑊 的事後機率。若使用貝式定理(bayes’ theorem)將式(1.1)中的事後機率項展開：. 𝑃(𝑊|𝑂) =. 𝑝(𝑂|𝑊)𝑃(𝑊) 𝑝(𝑂). (1.2). 其中𝑝(𝑂|𝑊)為詞序列𝑊產生語句𝑂的相似度值，此機率一般是藉以一個機率分布 (probability distribution)或統計模型來估測，由於此統計模型是用來決定語音特徵向量的機率，故稱之為聲學模型。而𝑃(𝑊)為在語言中發生詞序列𝑊的事前機率 (prior probability)，也就是在接下來的小節會提到的語言模型(language model)。於式(1.2)中的分母項𝑝(𝑂)可視為語句𝑂的事前機率，由於不會對詞序列之排序產生影響，故式(1.1)可簡化成： 2.

(11) ̂ = arg max 𝑝(𝑂|𝑊)𝑃(𝑊) 𝑊 𝑊. (1.3). 目前已廣泛地被使用的統計式語音辨識技術，其架構主要可區分為特徵擷取 (feature extraction)、聲學模型訓練、語言模型訓練和聲學比對(acoustic matching)與語言解碼(linguistic decoding)等四個部分，如圖 1-1 所示。. 圖 1-1、自動語音辨識流程圖. 1.2.1. 特徵擷取. 特徵擷取的目的在於將一段語句的類比訊號轉為自動語音辨識系統可以處理的語音特徵向量序列(speech feature vector sequence)。目前最具代表性的語音特徵是以相似於人耳聽覺感知的梅爾倒頻譜係數 (Mel-frequency cepstral coefficients, MFCC) [Davis and Mermelstein, 1980]，然而通常訓練語料與測試語料會存在著環境上不匹配的問題，因此一些強健性(robust)語音特徵擷取技術之應用可以使得擷取到的語音特徵更能抵抗因周遭環境影響所造成的失真情況。較常見的方法有倒. 3.

(12) 頻譜帄均消去法(cepstral mean subtraction, CMS)[Atal, 1974] 、倒頻譜正規化法 (cepstral normalization, CN)[Viikki and Laurila, 1998]與統計圖等化法(histogram equalization, HEQ)[Korkmazsky et al., 2004; Lin et al. 2007]等。. 1.2.2. 聲學模型. 在大詞彙連續語音辨識(large-vocabulary continuous speech recognition)中並不會對字典中的每個詞彙去建立一個聲學模型；因為有些詞彙出現的次數過少導致模型建置不易，所以會選擇比詞更小的單位例如次詞單位(sub-word unit)、音節(syllable) 與音素來建立聲學模型。中文有著一字一音節的特性，因此在設計語音辨識器時會將每個音節分成聲母(Initial)以及韻母(Final)兩部份，而韻母可以是帶聲調之韻母(tonal final)。為了因應語音訊號在時域上的變化，通常在設計聲學模型時會採用由左至右 (left-to-right) 的連續密度隱藏式馬可夫模型 (continuous density hidden Markov model, CD-HMM)[Young et al., 2006]。每個隱藏式馬可夫模型之中皆含有數個狀態(state)，每個狀態擁有其相對應的狀態轉移機率(state transition probability)，此外還有用於表示語音特徵參數的觀測機率(observation probability)，一般而言都是使用高斯混合模型(Gaussian mixture model, GMM)來決定此機率。近期有學者提出使用深層類神經網路(deep neural network, DNN)來取代傳統的 GMM 聲學模型，在語音辨識任務上得到明顯的進步[Hinton et al., 2012]。. 4.

(13) 1.2.2.1 深層類神經網路深層類神經網路指的是在人工類神經網路(artificial neural network)的輸入層與輸出層之間有多層的隱藏層，特徵經過隱藏層的非線性轉換後可以得到更具鑑別性的特徵。而語音辨識的聲學模型在過去使用高斯混合模型(GMM)來表示短時間 (short-term)的語音訊號分布，有學者將深層類神經網路用來取代傳統的高斯混合模型，並在語音辨識任務上取得巨大的進步[Hinton et al., 2012]。訓練深層類神經網路我們需要每個音框對應的音素狀態，而基於高斯混合模型對訓練資料做強制對位(forced alignment)得到的音素狀態序列可以作為訓練類神經網路的對應標記 𝐲，一個𝐿 + 1層的深層類神經網路就可以被定義成：. 𝐯 ℓ = 𝜎(𝐳 ℓ ) = 𝜎(𝐖 ℓ 𝐯 ℓ−1 + 𝐛ℓ ),. for 0 < ℓ < 𝐿. (1.4). 其中𝐯 0 = 𝐨為語音特徵向量， 𝐖 ℓ 與𝐛ℓ 表示第ℓ層的類神經網路參數，權重矩陣𝐖 ℓ 與前一層的輸入特徵𝐯 ℓ−1 做矩陣運算並加上偏移量(bias) 𝐛ℓ 後對向量的每個維度經過激發函數(activation function)的運算。每一層的激發函數通常使用 sigmoid(.)，激發函數也可以被替換成其他函數如：tanh(.)或 ReLU(.)等。經過一層層的非線性轉換等同於將原始語音特徵向量轉換成更具鑑別性的的特徵向量[LeCun et al., 2015]，計算到最後一層𝐯 𝐿 時可以使用 softmax(.)將輸出表示成機率分布：. 𝑣𝑖𝐿. = 𝑃𝐷𝑁𝑁 (𝑖|𝐨) = softmax𝑖. (𝐳 𝐿 ). =. exp(𝑧𝑖𝐿 ) ∑𝐶𝑗=1 exp(𝑧𝑗𝐿 ). (1.5). 𝑣𝑖𝐿 為類神經網路輸出的第𝑖個類別之事後機率；𝐶則為類神經網路的輸出類別數量。最後計算正確標記𝐲與類神經網路輸出𝐯 𝐿 的交叉熵(cross entropy)作為目標函數：. 5.

(14) 𝐶. 𝑦𝑗 log 𝑣𝑗𝐿. (1.6). = − log 𝑃𝐷𝑁𝑁 (𝑠𝑡 |𝐨𝑡 ). (1.7). 𝐽𝐶𝐸 (𝐨𝑡 , 𝐲) = − ∑. 𝑗=1. 以最小化交叉熵(minimum cross entropy, MCE)目標函數(式(1.6))並使用反向傳播演算法(backpropagation algorithm)更新類神經網路的參數。而式(1.6)的正確標記𝐲 是使用 one-hot 表示法的向量，因此可以簡化為只有對應類別的𝑣𝑗𝐿，如式(1.7)。然而由深層類神經網路產生的輸出為事後機率如式(1.5)，但隱藏式馬可夫模型中所需的觀測機率為相似度值，因此需透過貝式定理轉換。. 1.2.3. 語言模型. 聲學模型於在連續語音辨識任務中扮演著重要的角色，其目的是在於找出與待測語句最為相似的詞序列。除了聲學模型之外，可以額外利用語言模型來估測詞與詞之間的關連性。在估計語言模型的機率時，並不使用機率密度分布函數，而是直接估測個別詞序列的機率質量函數 (probability mass function, PMF) 𝑃(𝑤1 , 𝑤2 , … , 𝑤𝑁 )，其中𝑤1 , 𝑤2 , … , 𝑤𝑁 為此序列所包含的詞。但對整個詞序列的估測參數會隨著詞數量成指數成長，因此會遭遇資料稀疏(data sparseness)的問題。因此我們利用 n-1 階的馬可夫假設(n-1 order Markovian assumption)簡化：. 𝑁. 𝑃(𝑊) = 𝑃(𝑤1 , 𝑤2 , … , 𝑤𝑁 ) ≈ ∏ 𝑃(𝑤𝑘 |𝑤𝑘−𝑛+1 , … , 𝑤𝑘−2 , 𝑤𝑘−1 ). (1.8). 𝑘=1. 其中 N 為詞的個數，𝑤𝑘−𝑛+1 , … , 𝑤𝑘−2 , 𝑤𝑘−1 則是𝑤𝑘 的歷史詞序列，式(1.4)便是常見的 n-連(n-gram)語言模型表示法。 6.

(15) 1.2.4. 語言解碼. 根據式(1.3)，欲搜尋最佳詞序列必須分成聲學比對與語言解碼兩個部分來進行。聲學比對乃是將音素與語句中每一段可能的語音段落做比對，利用聲學模型去估測此音素發生這段語音的可能性。倘若以實作的角度來看，實際上則是利用發音詞典而將每一個詞所對應的音素序列串成這個詞所屬的聲學模型，進而求得該詞層次上發生某段語音訊號的可能性；而語言解碼一般是使用維特比動態規劃搜尋 (Viterbi dynamic programming search) [Viterbi, 1967]，結合聲學相似度及語言模型機率(即為𝑃(𝑊))去找出一條最佳的詞序列。. 1.3 電腦輔助發音訓練電腦輔助發音訓練最主要目的就是要讓二語(second-language, L2)學習者有更多的機會練習發音；過去二語學習者要進行發音練習都需要配合語言教師的授課時間，若將電腦輔助發音訓練普及到現有的智慧型行動裝置，將會有更多的二語學習者因此受惠。電腦輔助發音訓練中的首要任務正是錯誤發音檢測，其目的在於檢測外語學習者在讀誦一段句子時是否出現錯誤發音。首先使用母語者的語料庫訓練語音辨識所需的聲學模型，在將外語學習者的發音語句與正確的文本做強制對位，接著將聲學模型計算出的事後機率作為發音檢測特徵進行錯誤發音檢測，流程如圖1-2。. 7.

(16) 圖 1-2、基礎錯誤發音檢測流程圖. 1.3.1. 錯誤發音的類型. 發音錯誤的類型大約可以分成兩種，分別是音位(phonemic)錯誤以及韻律(prosodic) 錯誤。其中音位錯誤為較嚴重的狀況，可能是學習者在發音過程中將部分音素唸成別的音素，稱為替換(substitution)錯誤；另外也可能為插入(insertion)或刪除 (deletion)等錯誤情況，也就是漏唸或多唸的音素。有趣的是華語為音節時間等長的語言(syllable-timed language)，且有著一字(character)一音節的特性，使得學習者在學習華語時不易發生插入或刪除等發音錯誤，因此在華語學習中較多情況為替換的發音錯誤。若將華語視為外語學習者的目標語言，錯誤情況則可被分為兩種，分別為部分變更(partially changed)以及完全變更(completely changed)；若學習者替換的發音不屬於目標語言的任何音素則稱做部分變更，屬於目標語言的音素則是完全變更。而韻律的發音錯誤正是我們熟知的非母語者口音，可以分為重音(stress)、 8.

(17) 節奏(rhythm)與語調(intonation)等三個面向討論。但是音位的發音錯誤更容易使得二語者與母語者溝通時產生誤解，因此也是本論文較為重視的部分。錯誤發音檢測在越小的單位下有更高的難度，例如：音素層次，相較於音節、詞或語句(sentence)層次難上許多。且越小的單位越容易有較低的施測者間信度 (inter-rater reliability)與施測者內信度(intra-rater reliability) [Witt, 2012]。過去學者在發音檢測所使用的語料庫中發現施測者間信度大約只有達到80% [Kim et al., 1997]。. 1.3.2. 錯誤發音檢測基於聲學模型之發音特徵. 大部分的錯誤發音檢測方法是基於隱藏式馬可夫模型(hidden Markov models, HMM)的語音辨識模組來擷取發音分數，這類的方法與信心度評估(confidence measures)的部分方法非常類似[Wessel et al., 2001; Jiang, 2005]。早期有學者[Kim et al., 1997]比較三種發音分數：對數相似度值、對數事後機率、段落區間長度 (segment duration)對於發音檢測效果的影響。Kim 在實驗中指出對數事後機率與人類專家的發音標記有較高的相關性。接著學者 Witt 提出的發音優劣評估 (goodness of pronunciation, GOP) [Witt and Young, 2000]在發音檢測任務被廣泛使用，之後也有許多研究持續改良 GOP 等方法[Zhang et al., 2008]。上述提及的方法皆為基於門檻值的作法，也就是只使用一個分數作為評估發音是否錯誤；透過實驗經驗即可找到適合的門檻值，使得該方法可以非常簡單的被實現[Franco et al., 1999; Ito et al., 2007]。廣義上來看，GOP 也屬於一種二元分類的方法，但 GOP 只有考慮到目標(正確)音素與它的混淆音素的對數相似度值。有鑒於此，Wei 等人使用目標(canonical) 音素與其它所有音素的對數相似度值做為輸入分類器的發音檢測特徵[Wei et al., 9.

(18) 2009]，並將支持向量機(support vector machine, SVM)做為分類器來辨認特徵對應的輸出為正確發音或錯誤發音。但除了每一個音素的對數相似度值來作為發音檢測特徵，Hu 等人額外地將目標音素與其它音素的對數相似度比值加入成為額外輸入的發音檢測特徵[Hu et al., 2015a]，並使用特殊結構的邏輯迴歸來進行錯誤發音檢測，該結構透過共享隱藏層來解決部分音素資料稀疏(data sparse)的問題。運用較全面性的聲學模型之發音檢測特徵，可補足單一特徵出現混淆的問題，有學者將這類特徵稱作發音空間(pronunciation space)特徵[Qian et al., 2016]。除此之外也有學者透過一些專家知識來選取發音特徵[Chen and Jang, 2010; Chen and Jang, 2012; Chen and Jang, 2015; Laborde et al., 2016]，該研究針對詞層次的發音品質進行評估，並加入資訊檢索的排序學習(learning to rank)來提升發音品值評估的準確率。在傳統語音辨識模組中的聲學模型是使用高斯混合模型表示短時間的語音分布，訓練模型的目標則是最大化相似度值(maximum likelihood)；之後有學者提出許多以最小化辨識錯誤率為目標的鑑別式訓練[Bahl et al., 1986; Juang et al., 1997; Povey and Woodland, 2002; Gibson and Hain, 2006; Povey and Kanevsky, 2008]。語音辨識中的鑑別式訓練也被學者用來改善發音評估的效能[Qian et al., 2010; Yan and Gong, 2011]，但錯誤發音檢測與語音辨識任務目的並不相同，因此有學者提出以最大化錯誤發音檢測之 F 度量為目標進行鑑別式訓練[Huang et al., 2012; Huang et al., 2015]。近年來，在語音辨識模組的聲學模型由深層類神經網路取代傳統的高斯混合模型，並在語音辨識任務上取得巨大的進步[Hinton et al., 2012]。在錯誤發音檢測的相關研究中也因為近年來深度學習的影響而在效能上有顯著的提升[Qian et al., 2012; Hu et al., 2014; Hu et al., 2015a]，Hu 在實驗中證實良好的聲學模型有助於錯誤發音檢測的效果得到提升。. 10.

(19) 1.3.3. 錯誤發音檢測基於韻律特徵. 另一類的作法則是利用一些聲學的韻律特徵來評估發音的優劣，有些研究指出聲學韻律特徵在某些特定發音的錯誤檢測之效能更勝信心度評估等方法[Truong, 2005; Strik et al., 2009]；其中 Truong 使用的特徵包含對數均方根能量(log root mean-square (RMS) energy)、對數均方根能量的一階導數(the first-order derivative of log RMS energy)與過零率(zero crossing rate)。類似的特徵還有自適應扭曲倒頻譜(adaptively-warped cepstrum) [Sharma et al., 2011]與低維度子空間特徵 (lowdimensional sub-space features) [Li et al., 2011]等。但其實要找出與多數音素都具有高度相關性的聲學韻律特徵並不容易，反觀基於聲學模型所截取的發音特徵則可以建立最先進的語音辨識模組上[Wei et al., 2009]。. 1.3.4. 回饋. 錯誤發音檢測為電腦輔助發音訓練的第一步，也是非常重要的步驟。當錯誤發音被偵測出來時，如何回饋有幫助的訊息給學習者將會是十分值得探討的問題，也正是所謂錯誤發音診斷[Harrison et al., 2008]。有學者將語音辨識中標準的有現狀態轉換器 (finite state transducers, FST) 架構延伸為擴充辨識網路 (extended recognition network ,ERN) [Harrison et al., 2009; Lo et al., 2010]，這樣的架構下不但可以對發音偏誤的型態進行回饋，也可以處理發音過程中音素發生插入或刪除等錯誤狀況。可惜的對於初學者而言，直接回饋目標語言的診斷結果對於初階的學習者是不易理解的[Fant, 1973; Stevens, 2000]；例如：日語母語者學習外語時常常無法發出\r\的音，那是因為日語並沒有類似\r\的音素，因此日語母語者往往都會用\l\來代替。在一般的發音診斷中反覆告知學習者的偏誤狀況是將音素\r\唸成\l\， 11.

(20) 這樣並非最有效的方法，學者認為應該要針對這樣的偏誤狀況設計一些較容易理解的文字敘述[Li et al., 2016]甚至是口腔的視覺分析圖[Demenko et al., 2009]。除此之外也有學者提出一些半監督式[Lee and Glass, 2014]或非監督式[Lee and Glass, 2015; Wang and Lee, 2015]的方法來自動偵測偏誤的配對關係。然而，無論回饋給學習者的方式為何，還是需要精準的預測學習者的偏誤狀況。例如：當學習者發音出現錯誤時，究竟是唸成其他甚麼音素？在本論文則是將錯誤發音診斷視為分類問題來探究。. 1.3.5. 評估標準. 評估語音辨識的效能我們通常都會使用詞錯誤率(word error rate, WER)，但是發音檢測任務和語音辨識目的不同。由於是二類分類問題，較常用的評估標準為：若學習者的發音正確，系統卻判斷為發音錯誤稱為是錯誤的拒絕(false rejections, FR)；而學習者發音錯誤，系統認定為發音正確則稱為錯誤的接受(false acceptances, FA)；學習者發音正確，系統判斷為發音正確稱為正確的接受(true acceptances, TA)；學習者發音錯誤，系統判定為發音錯誤稱為正確的拒絕(true rejections, TR)。上述的四種指標可以計算出其他評估的標準，例如召回率(recall)與精準度(precision)，有許多發音檢測的研究皆用該評估方式[Hu et al., 2015a; Huang et al., 2015]。更進一步可以觀察召回率與精準度的調和平均－F 度量(F-measure)，在自然語言處理(natural language processing, NLP)與資訊檢索(information retrieval, IR)等研究中廣為使用，更是有許多任務直接將該指標作為模型訓練的目標[Fujino et al., 2008; Dembczynski et al., 2011; Ye et al., 2012]。有許多發音檢測的任務都是以 F 度量為評估標準[Luo et al., 2009; Lee et al., 2013; Huang et al., 2015]，除此之外還有接收者操作特徵曲線(receiver operating characteristic curve, ROC)所提供的各項指. 12.

(21) 標大部分都適合用於錯誤發音檢測的效能評估，但有學者指出 ROC 曲線下面積 (area under the curve of ROC)並非一個良好的評估指標[Lobo et al., 2008]。. 1.4 本論文研究內容與貢獻本論文以應用語音辨識模組之聲學模型於華語錯誤發音檢測與診斷之任務為主軸，運用目前較先進的類神經網路聲學模型擷取錯誤發音檢測所需的發音特徵，比較各種被應用於發音檢測任務中的分類模型。對於華語錯誤發音檢測與診斷等任務，本論文的貢獻大致可分為 4 點： 1). 發音檢測任務與語音辨識任務的目標並不相同，發音檢測期望要一定嚴格程度的評估學習者的發音是否正確，而語音辨識則是希望語者就算發音不夠標準也要精準的辨識出文字結果。因此以最佳化發音檢測任務之效能做為目標更新模型的參數將會大幅提升錯誤發音檢測的表現[Hsu et al., 2016]。而實驗中可以發現調整聲學模型參數可以得到非常顯著的提升，更勝目前基於語音辨識模組的各種發音檢測方法。. 2). 除了以最大化 F 度量的目標函數外，我們也探討以 R 度量為目標函數對參數進行調整的結果。從實驗中可以發現以 F 度量作為目標函數在各種評估指標上皆有較好的表現。. 3). 以最大化發音檢測為訓練目標不僅可以提升檢測的效能，在錯誤發音診斷的表現也可以得到明顯的進步。鑑別式訓練針對目標音素的發音分數進行調整，使得聲學模型產生音素之間相似度值的大小關係更為精準。. 4). 過去學者提出用於發音檢測的聲學模型發音特徵蘊含豐富的資訊，我們將錯誤發音診斷視為分類任務，並以多層感知器作為分類模型。從實驗中可以發. 13.

(22) 現錯誤發音診斷的效果又得到更進一步的提升。. 1.5 論文架構本論文對近期錯誤發音檢測之相關研究做出歸納與統整，並從較具代表性的方法中延伸。首先第 2 章文獻回顧簡單的介紹錯誤發音檢測中較主流的檢測方法；第 3 章則是本論文貢獻，透過最大化發音檢測效能之訓練，在發音檢測與錯誤發音診斷接得到顯著的進步；第 4 章則是探討錯誤發音診斷經過監督式學習可以更進一步提升；第 5 章介紹在發音檢測與錯誤發音診斷任務上我們所使用的語料庫以及基礎實驗的相關設定：第 6 章則是針對發音檢測與錯誤發音診斷之效能深入探討我們所提出的作法之優缺點；第 7 章則是結論與未來展望。. 14.

(23) 第2章. 文獻探討. 電腦輔助發音訓練我們可以分為錯誤發音檢測與診斷兩部分，過去學者提出的許多方法大部分以這兩個任務為目的。而錯誤發音檢測大致可分為基於門檻值 (thresholding-based)與基於分類器(classification-based)等兩種做法，其差別在於基於門檻值只有使用一個決定性的指標(分數)來判斷發音為正確或錯誤；而基於分類器則是整合多種特徵(可包含基於門檻值所使用的發音分數)並訓練一個二分類模型來決定發音的狀況。基於門檻值等方法早期由[Kim et al., 1997]提出三種發音檢測特徵：對數相似度值、對數事後機率、段落區間長度對於發音檢測效果的影響。Kim 在實驗中指出對數事後機率為表現較好的發音檢測分數。之後則有學者簡化事後機率的計算方式並將其稱作 GOP (goodness of pronunciation) [Witt and Young, 2000]，之後也有許多研究延伸 GOP 等方法[Zhang et al., 2008]，並稱作 SLPP (scaled log-posterior probability)。由於基於門檻值為非常容易實作且效果不錯的做法，因此有學者基於該發音分數提出以最大化錯誤發音檢測之 F 度量為目標對聲學模型進行鑑別式訓練[Huang et al., 2012]。而基於分類器的發音檢測方法，較早是由[Wei et al., 2009]所提出的，陸續也有許多不同的發音特徵[Lee and Glass, 2012; Laborde et al., 2016]或是不同分類模型[Hu et al., 2015a]。事實上在錯誤發音診斷任務中，早已開始整合多種特徵(包含韻律特徵[Strik et al., 2007; Truong et al., 2005])。但是這類的做法都只有在特定的發音才能使用(例如荷蘭語的/x/或/k/)，且韻律特徵容易因為不同語者而產生無法預期的變化。然而也有學者基於語音辨識模組來進行發音診斷[Hu et al., 2015b]，但從實驗數據看來距離理想的準確率還有一段差距。有些學者認為錯誤發音檢測與診斷應該要視為語音辨識的任務，並同時進行[Harrison et al., 2008; Harrison et al., 2009; Qian et al., 2012]。但是這樣的做法相當於將訓練資料的錯誤型態(error pattern)都記錄在模型中，倘若測試資料出現訓練時從未的錯誤型態，模型的預測 15.

(24) 2000. 2010. 2005. 2015. •. Two-pass extended recognition network (GMM-HMM) •. Extended recognition network (DBN-HMM). Both. Extended recognition network (GMM-HMM) •. Acoustic phonetic feature •. Diagnosis •. •. Extended pronunciation lexicon (GMM-HMM). •. •. Attribute modeling. Decision tree & Linear discriminant analysis. Phone likelihood. •. Pronunciation space (LR). •. Phonetic rules. Goodness of pronunciation (DNN-HMM) • Maximum F1-score criterion (GMM-HMM) • • Dynamic time warping • Pronunciation space (SVM) • Scaled log-posterior probability. Detection. • •. Phonetic information. •. Posterior probability. 1997. •. Goodness of pronunciation (GMM-HMM). 2000. 2005. •. 單一發音分數. 整合多種特徵. 2007. •. 2008. 2009. 語音辨識問題. 2012. 2013. 2015. 2016. DNN→. 圖 2-1、電腦輔助發音訓練等相關研究的發展與演進辨識結果將會無法預期；且該情況會因為外語學習者的母語不同使得更容易發生。上述所描述的電腦輔助發音訓練等相關研究之發展史可以參考圖 2-1。. 2.1 發音優劣評估(goodness of pronunciation) 在錯誤發音檢測的早期研究中有學者延續[Kim et al., 1997]的觀察並將事後機率改良並稱作 GOP (goodness of pronunciation) [Witt and Young, 2000]。而 GOP 的計算方式如下：. GOP(𝑢, 𝑛) ≡. =. 1 log 𝑃(𝑞𝑢,𝑛 |𝐎𝑢,𝑛 ) 𝑇𝑢,𝑛. (2.1). 𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 )𝑃(𝑞𝑢,𝑛 ) 1 log 𝑇𝑢,𝑛 ∑𝑞̃∈𝑄𝑢,𝑛 𝑝(𝐎𝑢,𝑛 |𝑞̃)𝑃(𝑞̃). (2.2). 16.

(25) ≈. 𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 ) 1 log 𝑇𝑢,𝑛 max 𝑝(𝐎𝑢,𝑛 |𝑞̃). (2.3). 𝑞̃∈𝑄𝑢,𝑛. 圖 2-2、音素層次發音特徵擷取. GOP 是音素段落𝐎𝑢,𝑛 對應目標音素𝑞𝑢,𝑛 的事後機率，其中𝑢與𝑛表示第𝑢個語句的第𝑛個音素，我們經過貝氏定理將式(2.1)轉換成式(2.2)；而𝑄𝑢,𝑛 指的是該段落對應的音素集合(可能為全部音素或部分較混淆的音素)，𝑇𝑢,𝑛 則是音素段落的經歷時間 (duration)。我們假設每個音素的事前機率相同(𝑃(𝑞̃) = 𝑃(𝑞𝑢,𝑛 ))且只使用最大相似度值(表示最混淆)的音素做為分母項，如式(2.3)。其中𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 )是已知音素𝑞𝑢,𝑛 要取得音素段落𝐎𝑢,𝑛 的相似度值，計算𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 )可以透過已知的文本內容對語. 17.

(26) 句進行強制對位取得對應音素𝑞𝑢,𝑛 的狀態序列𝐬 ∗ = {𝑠𝑡𝑠 , 𝑠𝑡𝑠 +1 , … , 𝑠𝑡𝑒 }，同時也可以得到音素段落區間對應的起始時間𝑡𝑠 與結束時間𝑡𝑒 ，整個流程如圖 2-2 所示；而 𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 ; 𝑡𝑠 , 𝑡𝑒 )就可以被定義成：. 𝑡𝑒. 𝑡𝑒. 𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 ; 𝑡𝑠 , 𝑡𝑒 ) ≈ 𝜋𝑠𝑡𝑠 ∏ 𝐴𝑠𝑡−1 𝑠𝑡 ∏ 𝑝(𝐨𝑡 |𝑠𝑡 ) 𝑡=𝑡𝑠 +1. (2.4). 𝑡=𝑡𝑠. 𝑡𝑒. ≈ ∏ 𝑝(𝐨𝑡 |𝑠𝑡 ). (2.5). 𝑡=𝑡𝑠. 𝑡𝑒. =∏ 𝑡=𝑡𝑠. 𝑃(𝑠𝑡 |𝐨𝑡 )𝑝(𝐨𝑡 ) 𝑃(𝑠𝑡 ). (2.6). 從式(2.4)到式(2.5)我們忽略轉移機率𝐀以及初始機率𝛑，由於深層類神經網路-隱藏式馬可夫模型(deep neural networks-hidden Markov model, DNN-HMM)作為聲學模型的輸出為事後機率𝑃(𝑠𝑡 |𝐨𝑡 )，因此我們透過貝氏定理將式(2.5)轉換成式(2.6)。由於在計算 GOP 時對應的特徵𝐎𝑢,𝑛 是固定不變的，因此𝑝(𝐨𝑡 )可以省略不寫；若是高斯混合模型-隱藏式馬可夫模型(Gaussian mixture model-hidden Markov model, GMM-HMM)作為聲學模型則直接使用式(2.5)計算即可。最後已知音素𝑞𝑢,𝑛 要取得音素段落𝐎𝑢,𝑛 的對數相似度值可以寫成：. 𝑡𝑒. log 𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 ; 𝑡𝑠 , 𝑡𝑒 ) ≈ ∑ log 𝑡=𝑡𝑠. 18. 𝑃(𝑠𝑡 |𝐨𝑡 ) 𝑃(𝑠𝑡 ). (2.7).

(27) 而每個狀態的事前機率𝑃(𝑠𝑡 )也可以視情況省略(若假設每個狀態事前機率相同)。式(2.3)所計算的 GOP 分數作為決策發音錯誤與否的評估依據，並經過式(2.8)決定發音程度的分數。我們定義函數D(. )表示發音的決策函數如式(2.8)：. D(𝑢, 𝑛) =. 1 1 + exp(𝛼 ∙ GOP(𝑢, 𝑛) + 𝛽). (2.8). 而D(. )接近 1 表示發音可能錯誤，接近 0 則表示發音正確，𝛽表示決策用的門檻值；而參數𝛼用來將 GOP 分數放大或縮小，上述兩個參數皆可以設計為音素相依或是狀態相依。接著我們利用指示函數判定發音是否錯誤：. 𝕝(D(𝑢, 𝑛)) = {. 1 0. if D(𝑢, 𝑛) ≥ 𝜏 otherwise. (2.9). 𝜏為全域的固定門檻值，大部分都是透過發展集調整至一個較合適的值。然而 GOP 是錯誤發音檢測的方法中較普遍的作法，且不需依賴人工標記好的錯誤發音，屬於非監督式學習(unsupervised learning)的方法，目前已有許多研究都以改良 GOP 為主軸提升錯誤發音檢測的效能[Zhang et al., 2008; Wang and Lee, 2012]。. 2.2 對數音素事後機率(log phone posterior) 由於深層類神經網路聲學模型的輸出為事後機率𝑃(𝑠𝑡 |𝐨𝑡 )，已有學者提出一些近似的方法作為發音檢測的分數，稱作對數音素事後機率(log phone posterior, LPP)。其計算方式為音素段落𝐎𝑢,𝑛 對應的狀態事後機率之幾何平均。與GOP計算方式類似，透過已知的文本內容對語句進行強制對位取得對應目標音素𝑞𝑢,𝑛 的狀態序列 𝐬 (𝑞𝑢,𝑛) = {𝑠𝑡𝑠 , 𝑠𝑡𝑠 +1 , … , 𝑠𝑡𝑒 }，而計算 LPP 的公式可以寫成：. 19.

(28) LPP(𝑢, 𝑛) = log 𝑃(𝑞𝑢,𝑛 |𝐎𝑢,𝑛 ; 𝑡𝑠 , 𝑡𝑒 ). (2.10). 𝑡𝑒. 1 (𝑞 ) ≈ ∑ log 𝑃 (𝑠𝑡 𝑢,𝑛 |𝐨𝑡 ) 𝑡𝑒 − 𝑡𝑠 + 1. (2.11). 𝑡=𝑡𝑠. 透過式(2.10)算出目標音素𝑞𝑢,𝑛 的 LPP，𝐬(𝑞𝑢,𝑛) 為音素𝑞𝑢,𝑛 在音素段落𝐎𝑢,𝑛 的最佳路徑所對應的狀態序列。從我們的實驗中可以發現使用 LPP 產生發音分數在發音檢測任務的效果與 GOP 相近，但 LPP 的計算複雜度遠低於 GOP。如式(2.3)所見， GOP 在分母項需要將所有音素的相似度值算出；而 LPP 只需要計算目標音素(𝑞𝑢,𝑛 ) 的狀態事後機率之幾何平均，且 DNN-HMM 的輸出就直接是狀態事後機率。當我們取得以 LPP 表示的發音分數後，寫成決策函數的形式則為：. D(𝑢, 𝑛) =. 1 1 + exp(𝛼 ∙ LPP(𝑢, 𝑛) + 𝛽). (2.12). 上述的方法皆為基於門檻值(thresholding based)的決策函數。另外由 Hu 所定義的發音空間特徵是基於音素段落𝐎𝑢,𝑛 計算其他音素的 LPP，但因為LPP(𝑢, 𝑛)是計算目標音素𝑞𝑢,𝑛 的發音分數，因此我們額外定義一個公式：. 𝑡𝑒. 1 (𝑞̃) LPP′(𝑢, 𝑛, 𝑞̃) = log 𝑃(𝑞̃|𝐎𝑢,𝑛 ; 𝑡𝑠 , 𝑡𝑒 ) ≈ ∑ log 𝑃(𝑠𝑡 |𝐨𝑡 ) 𝑡𝑒 − 𝑡𝑠 + 1. (2.13). 𝑡=𝑡𝑠. LPP′(𝑢, 𝑛, 𝑞̃)是基於音素段落𝐎𝑢,𝑛 計算指定音素𝑞̃的對數音素事後機率，𝐬 (𝑞̃) 為音素 𝑞̃在音素段落𝐎𝑢,𝑛 的最佳路徑所對應的狀態序列。除此之外在 Hu 也提出利用指定音素𝑞̃與目標音素𝑞𝑢,𝑛 計算 LPP 的比值[Hu et al., 2015a]，稱作對數事後機率比值 (log posterior ratio, LPR)：. 20.

(29) LPR(𝑢, 𝑛, 𝑞̃, 𝑞𝑢,𝑛 ) = LPP′(𝑢, 𝑛, 𝑞̃) − LPP′(𝑢, 𝑛, 𝑞𝑢,𝑛 ). (2.14). 接著將所有的音素算出的LPP′與LPR作為發音檢測的特徵：. 𝐟𝑢,𝑛 = [LPP′(𝑢, 𝑛, 𝑞1 ), LPP′(𝑢, 𝑛, 𝑞2 ), … , LPP′(𝑢, 𝑛, 𝑞𝑀 ), LPR(𝑢, 𝑛, 𝑞1 , 𝑞𝑢,𝑛 ), LPR(𝑢, 𝑛, 𝑞2 , 𝑞𝑢,𝑛 ), … , LPR(𝑢, 𝑛, 𝑞𝑀 , 𝑞𝑢,𝑛 )]. (2.15). 式(2.15)的常數𝑀表示資料中音素的總量，發音檢測特徵𝐟𝑢,𝑛 可做為現有許多優秀的分類模型的輸入特徵並進行二類分類(發音正確或錯誤)，提供比 GOP 或目標音素的 LPP 這類 1 維的發音分數更豐富的資訊。. 2.3 對數音素狀態事後機率(log senone posterior) 延續第 2.2 小節的發音分數算法，並受到相關研究的激勵[Sim, 2009]，本節將 LPP 的算法稍加修改並提出對數音素狀態事後機率(log senone posterior, LSP)的算法。 LPP 的算法是將音素段落的每個音框的事後機率做幾何平均，因此每個事後機率的重要性皆相同，因此只要有一個音框的事後機率過低將會大幅度影響 LPP 的分數。為了避免這樣的狀況發生，我們改以音素的每個狀態各自計算音框的事後機率的幾何平均(類似 LPP)並經過決策函數後，在將決策值平均作為該音素的發音決策：. D(𝑢, 𝑛) =. 1 𝑆𝑢,𝑛. 𝑆𝑢,𝑛. ∑ 𝑖=1. 1 1 + exp(𝛼 ∙ LSP(𝑢, 𝑛, 𝑖) + 𝛽). 21. (2.16).

(30) 其中𝑆𝑢,𝑛 為音素段落𝐎𝑢,𝑛 的音素狀態數量，LSP(𝑢, 𝑛, 𝑖)為第𝑖個狀態的音框事後機率之幾何平均。. 2.4 基於聲學模型之發音檢測特徵擷取除了第 2.2 小節提及的發音檢測特徵外，也有其他學者使用更具啟發性的方式來擷取聲學模型所產生的發音檢測特徵[Laborde et al., 2016]；並利用邏輯回歸分析等分類方法探究特徵在特定音素下錯誤發音檢測的表現。首先仍是利用已知的文本內容對語句進行強制對位取得對應音素𝑞𝑢,𝑛 的狀態序列𝐬 ∗ = {𝑠𝑡𝑠 , 𝑠𝑡𝑠 +1 , … , 𝑠𝑡𝑒 }，除了使用 2.1 小節的式(2.3)計算傳統的 GOP 分數作為其中一維的特徵外，Laborde 設計額外的特徵提供更多元的資訊並在實驗中加以比較，如式(2.17)之辨識音素的代碼(identity of recognized phone, IDRP)：. IDRP(𝑢, 𝑛) = arg max log 𝑝(𝐎𝑢,𝑛 |𝑞̃) 𝑞̃∈𝑄𝑢,𝑛. (2.17). 除了辨識音素的代碼外當然也有目標音素的代碼(identity of canonical phone, IDCP)：. IDCP(𝑢, 𝑛) = 𝑞𝑢,𝑛. (2.18). 但目標音素是不變的，因此其代碼作為特徵並無幫助。接著學者 Laborde 也將辨識音素與目標音素之對數相似度值作為其中兩維的特徵：. LLRP(𝑢, 𝑛) = max log 𝑝(𝐎𝑢,𝑛 |𝑞̃) 𝑞̃∈𝑄𝑢,𝑛. 22. (2.19).

(31) LLCP(𝑢, 𝑛) = log 𝑝(𝐎𝑢,𝑛 |𝑞𝑢,𝑛 ). (2.20). 但其實上述的特徵與傳統的 GOP 有太多重複的資訊，因此學者 Laborde 也提到作為錯誤發音檢測特徵與傳統的作法差距不顯著。接下來將介紹與上述的特徵較不重複的資訊，額外利用了音韻特徵(phonological features)的差距、前後資訊 (context information)與音素持續時間(phone duration)等。在式(2.20)中我們介紹音韻特徵差距(number of distinctive phonological features, NDPF)的計算方式：. NDPF(𝑢, 𝑛) = distance(PF(𝑞𝑢,𝑛 ), PF(IDRP(𝑢, 𝑛))). (2.21). PF(𝑞𝑢,𝑛 )表示目標音素𝑞𝑢,𝑛 的音韻特徵，而後項的PF(IDRP(𝑢, 𝑛))表示辨識音素的音韻特徵，我們將各自算出的音韻特徵計算歐式距離作為其中一維特徵。該維特徵可以使得發音相似的音素在音韻空間中的距離較接近，試圖用來矯正聲學模型較難處理的混淆音素。前後資訊我們使用待檢測音素之上一個辨識音素的代碼 (identity of the left phone neighbor, IDLPN)：. IDLPN(𝑢, 𝑛) = IDRP(𝑢, 𝑛 − 1). (2.22). 而待檢測音素之下一個辨識音素的代碼(identity of the right phone neighbor, IDRPN) 可以寫成：. IDRPN(𝑢, 𝑛) = IDRP(𝑢, 𝑛 + 1). (2.23). 接著是持續時間的資訊，利用目標音素的時間長度與中間狀態(middle-state)的時間長度算比值：. 23.

(32) PDR(𝑢, 𝑛) =. MSD(𝑢, 𝑛) 𝑇𝑢,𝑛. (2.24). 有學者表示語言中的音素可以對應到發音中不同種類(category)的各種屬性 (attribute) [Siniscalchi et al., 2013]，用更簡潔的多屬性特徵來取代語音辨識常用的語音特徵可以提升語音辨識的表現[Lee and Siniscalchi, 2013]。而類似的概念也被應用在錯誤發音檢測任務[Li et al., 2016]，因此我們在式(2.21)用到的音韻特徵 (PF(. ))正是音素的屬性特徵，而音素到對應的屬性之轉換方式可以參考[Zhang et al., 2011; Li et al., 2016]。. 2.5 錯誤發音檢測之分類模型分類模型發展至今已非常成熟，也有非常多的變形，而本節將介紹已經被使用在錯誤發音檢測任務中的相關分類模型。. 2.5.1. 邏輯迴歸分類器. 邏輯迴歸分析是一種基於機率統計的分類模型，他被廣泛的運用到二類分類問題的任務中[Bishop, 2006]；通常使用最小化交叉熵為訓練參數的目標。然而錯誤發音檢測也是一種二類分類問題(發音正確𝒞或發音錯誤ℳ)，我們假設第𝑢個語句的第𝑛個音素段落得到的特徵為𝐟𝑢,𝑛，而錯誤發音的機率則可以表示成𝑃(ℳ|𝐟𝑢,𝑛 )，而正確發音為1 − 𝑃(ℳ|𝐟𝑢,𝑛 )，又可以表示成𝑃(𝒞|𝐟𝑢,𝑛 )。然而錯誤發音的機率我們使用邏輯函數(logistic function)來表示：. 𝑃(ℳ|𝐟𝑢,𝑛 ) =. 1 1 + exp(−𝐰 (𝐿𝑅) ∙ 𝐟𝑢,𝑛 ). 24. (2.25).

(33) 在訓練的階段我們會以最小化交叉熵為目標調整參數，並使用梯度下降法 (gradient descent algorithm)更新參數𝐰 (𝐿𝑅) ，因此邏輯迴歸分析的減損函數如式 (2.26)：. 𝑈. 𝑁𝑢. 𝐿𝐿𝑅 = − log ∏ ∏ 𝑃(ℳ|𝐟𝑢,𝑛 ). 𝑡𝑢,𝑛. 1−𝑡𝑢,𝑛. 𝑃(𝒞|𝐟𝑢,𝑛 ). (2.26). 𝑢=1 𝑛=1. 𝑈. 𝑁𝑢. = − ∑ ∑ 𝑡𝑢,𝑛 log 𝑃(ℳ|𝐟𝑢,𝑛 ) + (1 − 𝑡𝑢,𝑛 ) log 𝑃(𝒞|𝐟𝑢,𝑛 ). (2.27). 𝑢=1 𝑛=1. 其中𝑈為訓練語句的數量；𝑁𝑢 為第𝑢個語句的音素段落之數量。𝑡𝑢,𝑛 為訓練資料中專家標記的結果，𝑡𝑢,𝑛 = 1則表示該段發音為發音錯誤，𝑡𝑢,𝑛 = 0則是發音正確。有學者提到在音素層次的錯誤發音檢測任務中將模型的參數調整為音素相依會比全域的參數表現要好[Witt and Young, 2000]，因此上述提到的邏輯迴歸分 (𝐿𝑅). 析也會設計成音素相依的參數𝐰𝑞̃. 。但每個音素在訓練資料中的數量差異懸殊，. 為解決資料稀疏的問題，有學者提出多層邏輯迴歸分類器 (Multiple logistic regression classifiers, MLR) [Hu et al., 2015a]用於發音檢測任務可以得到更好的效果。. 2.5.2. 多層邏輯迴歸分類器. 如第 2.5.1 節提到的邏輯迴歸分析將參數設計成音素相依會得到較好的效果，但其實還是存在著顯而易見的資料稀疏問題；為解決該問題學者 Hu 提出多層邏輯迴歸分類器[Hu et al., 2015a]，其架構如圖 2-3。在到達輸出層的權重矩陣𝐖 (𝐿𝑅) 之前，會經過數層的隱藏層做非線性的轉換。我們延續式(2.27)的目標函數寫法： 25.

(34) 圖 2-3、多層邏輯迴歸分類器架構圖. 𝑈. 𝑁𝑢. 𝐿𝑀𝐿𝑅 = − ∑ ∑ 𝑡𝑢,𝑛 log 𝑃(ℳ|𝐡𝑢,𝑛 ) + (1 − 𝑡𝑢,𝑛 ) log 𝑃(𝒞|𝐡𝑢,𝑛 ). (2.28). 𝑢=1 𝑛=1. 式(2.28)與之前不同在於特徵𝐟經過一次或多次的隱藏層轉換成𝐡，才進入音素相依的邏輯迴歸層(式(2.25))。我們將𝐡定義成：. 𝐡𝑖 =. 1 1 + exp(−𝐱 𝑖 ). (2.29). 𝐡𝑖 是第𝑖隱藏層的向量𝐱 𝑖 經過激發函數所得到的特徵向量，而𝐱 𝑖 的計算方式為：. (𝑀𝐿𝑅). 𝐱𝑖 = {. 𝐖1. (𝑀𝐿𝑅). 𝐟 + 𝐛1. (𝑀𝐿𝑅) 𝐖𝑖 𝐡𝑖−1. +. ,. 𝑖=1. (𝑀𝐿𝑅) 𝐛𝑖 ,. 𝑖>1. 26. (2.30).

(35) (𝑀𝐿𝑅). 如式(2.30)所示當𝑖 = 1時原始特徵𝐟透過矩陣𝐖1. (𝑀𝐿𝑅). 與偏移值𝐛1. 的轉換，在經. 過非線性激發函數(式(2.29))留下重要的特徵。這樣的作法與深層類神經網路類似，除了淬鍊原始特徵外，還可以分享音素之間的共同資訊。其架構如圖 2-3。. 2.5.3. 支持向量機. 支持向量機是一種效能表現良好的分類器，他可以透過將特徵轉換到更高維度的空間來解決資料線性不可分的問題，我們定義函數s(. )用來表示 SVM 給予特徵𝐟 決策值，並將s(𝐟)代入邏輯函數𝜎(. )用以表示正確發音的機率𝑃(𝒞|𝐟) = 𝜎(s(𝐟))。本篇論文使用 Python 的現有模組[Pedregosa et al., 2011]所提供的支持向量機工具，該模組也提供許多機器學習中常用方法的工具，核心函數為徑向基函數核(radial basis function kernel)。. 2.6 錯誤發音診斷如 1.3.4 小節提到的，回饋有幫助的訊息給學習者將會是十分值得探討的問題。在經過第一階段的發音檢測並判斷為錯誤發音後，接著透過診斷該發音段落比較可能屬於哪個音素，應用這樣的配對關係(標準發音與實際發音)可以延伸出不同的回饋結果[Li et al., 2016; Demenko et al., 2009]。而基本的流程如圖 2-4，左半邊與發音檢測之測試階段，當檢測出錯誤發音時，我們基於聲學模型所產生的分數進行偏誤診斷。過去學者的研究認為使用聲學模型產生的相似度值來排序學習者在某發音段落中較可能的發音結果(音素) [Hu et al., 2015b]；Hu 認為這樣排序結果可以讓學習者更容易觀察到自己常見的錯誤狀況，並針對不足的發音加以改善。而華語的音素若用聲母與韻母來表示，在韻母的部分則會帶有聲調，但是在發音學習中我們會需要韻母與聲調各自進行診斷。參考自[Hu et al., 2015b]的作法，計算韻母與聲調的相似度值可以寫成：. 27.

(36) 決策函數. L2待測語句. 語音特徵擷取. 音素層次發音特徵擷取. 強制對位. 提示文本 (標準音素序列). 聲學模型 (GMM-HMM 或DNN-HMM). 發音為正確/錯誤. 聲學模型音素相似度值Top. 錯誤發音診斷. 圖 2-4、錯誤發音診斷流程圖. log 𝑝(𝐎|final𝒋 ) ≈ max log 𝑝(𝐎|final𝒋 , tone𝒌 ). (2.31). log 𝑝(𝐎|tone𝒌 ) ≈ max log 𝑝(𝐎|final𝒋 , tone𝒌 ). (2.32). 𝐭𝐨𝐧𝐞. 𝐟𝐢𝐧𝐚𝐥. 如式(2.31)與(2.32)所示，要求出韻母final𝒋 的相似度值則固定韻母從不同的聲調 (tone𝒌 ∈ 𝐭𝐨𝐧𝐞)中找到最大的相似度值；要得到聲調tone𝒌 的相似度值則固定聲調從不同的韻母(final𝒋 ∈ 𝐟𝐢𝐧𝐚𝐥)中找到最大的相似度值。而聲母並無這種問題，可直接求得log 𝑝(𝐎|initial𝒊 )。得到每個聲母、韻母與聲調的相似度值後，各自找出相似度值最高的聲母、韻母與聲調作為偏誤的回饋。. 28.

(37) 第3章. 最大化錯誤發音檢測評估尺度之鑑別式訓練. 在緒論與文獻探討有許多與電腦輔助發音學習相關的研究以及作法，然而在本節將會提出本篇論文提出較具特色的方法，用以改善華語錯誤發音檢測以及華語聲調診斷等任務之效能。. 3.1 F 度量目標函數在發音檢測任務中有許多研究都以改良 GOP 為主軸提升錯誤發音檢測的效能 [Zhang et al., 2008; Wang and Lee, 2012]，近期有學者將鑑別式訓練應用在 GOP 估測，以最大化 F 度量(F-measure)為目標作鑑別式訓練[Huang et al., 2015]，Huang 使用高斯混合模型-隱藏式馬可夫模型(GMM-HMM)建構聲學模型，並使用 GOP 進行錯誤發音檢測，透過調整聲學模型中的參數來提升錯誤發音檢測的表現。而我們將聲學模型改用深層類神經網路-隱藏式馬可夫模型(DNN-HMM)，在錯誤發音檢測的部分則用 LPP 做為發音分數，透過決策函數決定發音是否錯誤；並以最大化 F-度量為目標做鑑別式訓練更新深層類神經網路聲學模型中的參數以及決策函數所用到的參數。首先我們定義 F-度量的計算方式：. 𝐹1 =. 2 ∙ Precision ∙ Recall Precision + Recall. (3.1). F-度量為召回率(recall)與準確率(precision)兩種評估標準的調合平均，而召回率與準確率可以表示為：. 29.

(38) Precision =. Recall =. 𝐶𝐻∩𝐷 𝐶𝐷. (3.2). 𝐶𝐻∩𝐷. (3.3). (ℳ). 𝐶𝐻. (ℳ). 𝐶𝐷 表示訓練資料中被系統標記為錯誤發音的音素數量；𝐶𝐻. 則是訓練資料中被語. 言專家標記為錯誤發音的音素數量，因此該值是一個固定的常數；而𝐶𝐻∩𝐷 就是系統與語言專家同時認為該音素段落為錯誤發音的數量。將式(3.2)與式(3.3)代入式 (3.1)並簡化後得到式(3.4)：. 𝐹1 =. 2𝐶𝐻∩𝐷 (ℳ). 𝐶𝐷 + 𝐶𝐻. (3.4). 接著將我們在第第 2 章小節式(2.8)提到的錯誤發音決策函數D(. )透過指示函數 𝕝(. )轉成非 1 即 0 的數值，訓練資料的所有音素段落經過決策函數D(. )與指示函數 𝕝(. )的總和正是𝐶𝐷 ；每個音素段落的決策與專家評斷之結果H(. )相乘的總和則為𝐶𝐻∩𝐷 ，如式(3.5)：. 𝑁. 𝐹1 =. 𝑢 2 ∑𝑈 𝑢=1 ∑𝑛=1 𝕝(D(𝑢, 𝑛)) ∙ H(𝑢, 𝑛). (ℳ) 𝑁𝑢 ∑𝑈 𝑢=1 ∑𝑛=1 𝕝(D(𝑢, 𝑛)) + 𝐶𝐻. (3.5). 然而上述定義的F度量並不是可微分的函數，因為在計算𝐶𝐻∩𝐷 與𝐶𝐷 時使用到的指示函數 𝕝(. )在基於梯度法(gradient based method)的參數更新方式較難處理。因此我們定義一個平滑(smooth)的F度量，如式(3.6)：. Ξ(𝛉) =. 𝑠 2 ∙ 𝐶𝐻∩𝐷. (3.6). (ℳ). 𝐶𝐷𝑠 + 𝐶𝐻. 30.

(39) 𝑁. =. 𝑢 2 ∑𝑈 𝑢=1 ∑𝑛=1 D(𝑢, 𝑛) ∙ H(𝑢, 𝑛). (ℳ) 𝑁𝑢 ∑𝑈 𝑢=1 ∑𝑛=1 D(𝑢, 𝑛) + 𝐶𝐻. ≈ 𝐹1. (3.7). 由於錯誤發音決策函數D(. )已將發音檢測分數經過激發函數轉為0~1之間的值，因 𝑠 此計算𝐶𝐻∩𝐷 與𝐶𝐷𝑠 時不使用指示函數 𝕝(. )也可以近似F度量的算法，如式(3.7)。. 3.2 最大化 F 度量鑑別式訓練最大化 F-度量目標函數(如式(3.6))時主要更新 4 組參數𝛉 = {𝐖, 𝐛, 𝛂, 𝛃}，其中𝐖與 𝐛 為聲學模型的參數，𝛂 與𝛃為決策函數的參數，我們使用隨機梯度上升法 (stochastic gradient ascent algorithm)來更新參數：. 𝛉𝑡+1 ← 𝛉𝑡 + 𝜀 ∙. 𝜕Ξ 𝜕𝛉𝑡. (3.8). 𝛉𝑡+1表示𝛉𝑡 的下一個時間點算出的新參數，𝜀為參數𝛉更新過程中用來控制每次更新量的係數，而對目標函數Ξ的參數𝛉𝑡 偏微分作為參數的更新量，如式(3.8)。接著將目標函數Ξ對參數𝛉偏微分的式子用連鎖律(chain rule)展開：. 𝜕Ξ 𝜕Ξ 𝜕D(𝑢, 𝑛) = 𝜕𝛉 𝜕D(𝑢, 𝑛) 𝜕𝛉. (3.9). 由於參數𝛉 = {𝐖, 𝐛, 𝛂, 𝛃}都在函數D(𝑢, 𝑛)中，因此𝜕Ξ/𝜕D(𝑢, 𝑛)可以表示成：. 𝑠 𝑠 𝜕Ξ 2 ∂𝐶𝐻∩𝐷 2 ∙ 𝐶𝐻∩𝐷 ∂𝐶𝐷𝑠 = − 𝜕D(𝑢, 𝑛) 𝐶𝐷𝑠 + 𝐶𝐻 ∂D(𝑢, 𝑛) (𝐶𝐷𝑠 + 𝐶𝐻 )2 ∂D(𝑢, 𝑛). 31. (3.10).

(40) 𝑠 式(3.10)中對函數𝑁𝐻∩𝐷 與𝑁𝐷𝑠 的決策函數D(𝑢, 𝑛)偏微分可得：. 𝑠 𝜕𝐶𝐻∩𝐷 = H(𝑢, 𝑛) 𝜕D(𝑢, 𝑛). (3.11). 𝜕𝐶𝐷𝑠 =1 𝜕D(𝑢, 𝑛). (3.12). 接著在函數D(𝑢, 𝑛)中有 4 個參數要進行偏微分，其中參數𝛂與𝛃為計算完發音分數後使用的決策門檻值，微分的推導式可以寫成：. 𝜕D(𝑢, 𝑛) = −D(𝑢, 𝑛) ∙ (1 − D(𝑢, 𝑛)) ∙ LPP(𝑢, 𝑛) 𝜕𝛂. (3.13). 𝜕D(𝑢, 𝑛) = −D(𝑢, 𝑛) ∙ (1 − D(𝑢, 𝑛)) 𝜕𝛃. (3.14). 而更新類神經網路聲學模型的參數𝐖的推導式可以寫成：. 𝜕D(𝑢, 𝑛) 𝜕D(𝑢, 𝑛) 𝜕LPP(𝑢, 𝑛) = 𝜕𝐖 𝜕LPP(𝑢, 𝑛) 𝜕𝐖. = −D(𝑢, 𝑛) ∙ (1 − D(𝑢, 𝑛)) ∙ 𝛂. (3.15). 𝜕LPP(𝑢, 𝑛) 𝜕𝐖. (3.16). 如式(3.15)我們將推導式用連鎖率展開，而𝜕D(𝑢, 𝑛)/𝜕LPP(𝑢, 𝑛)項的推導與式(3.13) 類似，因此式(3.15)可以寫成(3.16)。而𝜕LPP(𝑢, 𝑛)/𝜕𝐖的推導為：. 𝑡𝑒. 𝜕LPP(𝑢, 𝑛) 𝜕 1 (𝑞̃) = ( ∑ log 𝑃(𝑠𝑡 |𝐨𝑡 )) 𝜕𝐖 𝜕𝐖 𝑡𝑒 − 𝑡𝑠 + 1 𝑡=𝑡𝑠. 32. (3.17).

(41) 𝑡. (𝑞̃). 𝑒 𝜕 log 𝑃 (𝑠𝑡 |𝐨𝑡 ) 1 = ∑ 𝑡𝑒 − 𝑡𝑠 + 1 𝜕𝐖. (3.18). 𝑡=𝑡𝑠. 根據偏微分的規則式(3.17)可以寫成(3.18)，對每個時間𝑡的狀態事後機率的參數𝐖 進行偏微分等同於類神經網路聲學模型訓練時使用的交叉熵目標函數進行最佳化，因此其微分推導的細節可以參考[Yu and Deng, 2014]。而𝜕LPP(𝑢, 𝑛)/𝜕𝐛的推導與式(3.15)到(3.18)的算法相同，故不再贅述。在此對於最大化 F 度量鑑別式訓練的流程列出摘要： 1). 首先透過華語母語者訓練資料用在 DNN-HMM 聲學模型的訓練，而訓練資料皆為正確發音，並以最小化交叉熵為目標函數更新聲學模型。. 2). 基於步驟 1)訓練的聲學模型，透過 2.2 小節的 LPP 算法(式(2.11))得出每筆訓練資料的發音分數，接著透過決策函數(式(2.12))將發音分數轉成決策值(值域 0~1 之間)。. 3). 接續步驟 2)算出的決策值透過式(3.7)算出近似的 F 度量作為目標函數迭代的訓練決策函數的參數(𝛂, 𝛃)以及 DNN-HMM 聲學模型的參數(𝐖, 𝐛)，而決策函數的參數可以是音素相依或音素狀態相依。而圖 3-1 則是將最大化發音檢測效能訓練加入基礎的流程圖後，相較於原本. 的流程(圖 1-2)訓練資料多了二語的語料庫；且聲學模型的參數也以發音檢測任務的目標函數進行調適，最後在決策函數前的特徵擷取也探討更細緻的發音分數(音素或音素狀態)。. 33.

(42) L2待測語句. 提示文本 (標準音素序列). 語音特徵擷取. 音素/狀態層次發音特徵擷取. 強制對位. 發音為正確/錯誤. 決策函數. 測試階段訓練階段 L1&L2訓練語句 (正確/錯誤發音). 初始聲學模型 (DNN-HMM). 調適後的聲學模型(DNN-HMM). 強制對位. 語音特徵擷取. 音素/狀態層次發音特徵擷取. L1&L2語句的對應文本. 決策函數. 最大化發音檢測效能訓練計算發音檢測效能 (例如：F 度量). 圖 3-1、加入最大化錯誤發音檢測評估尺度之鑑別式訓練在錯誤發音檢測的流程圖. 3.3 R 度量目標函數本論文除了探討 F 度量以外，我們也觀察 R 度量(rand index)的效果。因此我們將同樣的作法實作到不同的目標函數，首先我們定義 R 度量的算法：. (𝒞). RandIndex =. (𝒞). (ℳ). 分母項的𝐶𝐻 與𝐶𝐻. (ℳ). 𝐶𝐻∩𝐷 + 𝐶𝐻∩𝐷 (𝒞). (ℳ). 𝐶𝐻 + 𝐶𝐻. (3.19). 是訓練資料中被語言專家標記為正確發音與錯誤發音的音素 (𝒞). 數量，皆為固定的常數；而𝐶𝐻∩𝐷 就是系統與語言專家同時認為該音素段落為正確. 34.

(43) (ℳ). 發音的數量，𝐶𝐻∩𝐷 就是系統與語言專家同時認為該音素段落為錯誤發音的數量，計算方式為：. 𝑈. 𝑁𝑢. (𝒞). 𝐶𝐻∩𝐷 = ∑ ∑ (1 − 𝕝(D(𝑢, 𝑛))) ∙ (1 − H(𝑢, 𝑛)). (3.20). 𝑢=1 𝑛=1. 𝑈 (ℳ) 𝐶𝐻∩𝐷. 𝑁𝑢. = ∑ ∑ 𝕝(D(𝑢, 𝑛)) ∙ H(𝑢, 𝑛). (3.21). 𝑢=1 𝑛=1. 而為了微分推導容易實作，我們將不使用指示函數 𝕝(. )，直接以D(. )作為發音決策，並定義近似的目標函數：. Υ(𝛉) =. 𝑁𝑢 ∑𝑈 𝑢=1 ∑𝑛=1(1 − D(𝑢, 𝑛)) ∙ (1 − H(𝑢, 𝑛)) + D(𝑢, 𝑛) ∙ H(𝑢, 𝑛) (𝒞). (ℳ). 𝐶𝐻 + 𝐶𝐻. (3.22). 3.4 最大化 R 度量鑑別式訓練與最大化 F-度量目標函數作法類似，主要更新 4 組參數𝛉 = {𝐖, 𝐛, 𝛂, 𝛃}，其中𝐖 與𝐛為聲學模型的參數，𝛂與𝛃為決策函數的參數，我們使用隨機梯度上升法 (stochastic gradient ascent algorithm)來更新參數：. 𝛉𝑡+1 ← 𝛉𝑡 + 𝜀𝑡 ∙. 35. 𝜕Υ 𝜕𝛉𝑡. (3.23).

(44) 𝛉𝑡+1表示𝛉𝑡 的下一個時間點算出的新參數，𝜀𝑡 為參數𝛉更新過程中用來控制每次更新量的係數，而對目標函數Υ的參數𝛉𝑡 偏微分作為參數的更新量，如式(3.23)。接著將目標函數Υ對參數𝛉偏微分的式子用連鎖律(chain rule)展開：. 𝜕Υ 𝜕Υ 𝜕D(𝑢, 𝑛) = 𝜕𝛉 𝜕D(𝑢, 𝑛) 𝜕𝛉. (3.24). 在式(3.24)中我們只探討前項𝜕Υ/𝜕D(𝑢, 𝑛)的部分可以寫成：. 𝜕Υ H(𝑢, 𝑛) − 1 = (𝒞) 𝜕D(𝑢, 𝑛) 𝐶 + 𝐶 (ℳ) 𝐻. 𝐻. 而後項𝜕D(𝑢, 𝑛)/𝜕𝛉在 3.2 節有詳細的推導。. 36. (3.25).

(45) 第4章. 錯誤發音診斷. 除了回饋發音是否錯誤或發音的品質外，有一些學者認為回饋錯誤的類型對於二語的學習是相當重要的[Harrison et al., 2008; Harrison et al., 2009; Lo et al., 2010]，這種類型的回饋被稱作錯誤發音診斷。在得知學習者的錯誤型態後回饋給學習者的方式有非常多種[Demenko et al., 2009; Witt, 2012; Li et al., 2016]。而本論文則是探討經過最大化發音檢測效能之鑑別式訓練後，聲學模型是否能提供更好的錯誤發音診斷之結果。. 4.1 最小化熵正則項. 根據第 3 章的最大化錯誤發音檢測評估尺度等方法對模型進行調整時，最基礎的想法是若學習者發音錯誤則降低對應音素的發音分數，若發音正確則提升發音分數。而發音分數是基於聲學模型的音框事後機率所計算的，當目標音素對應的音框事後機率在訓練過程中被降低時，聲學模型輸出至其他音素的事後機率將會提升。但我們推測無法預期其他音素對應的事後機率之變化狀況，若是導致其他音素的事後機率過於平滑，對於後續要利用該聲學模型進行錯誤發音診斷可能造成無法預料的結果。因此我們提出以最小化熵作為正則項，而計算熵的部分則是聲學模型的輸出層(如圖 4-1)，用以解決上述提到的問題。結合第 3 章所提到的目標函數，我們可以將正則項的算法定義為：. 𝐶. 𝐻(𝛉) = − ∑ 𝑃𝐷𝑁𝑁 (𝑖|𝐨) ∙ log 𝑃𝐷𝑁𝑁 (𝑖|𝐨) 𝑖=1. 37. (4.1).

(46) 最大化發音檢測效能計算發音檢測效能(例:F度量) 決策函數 DNN輸出層之最小化熵正則項. 計算發音分數. 觀測機率. DNN-HMM 聲學模型. 語音特徵. 圖 4-1、最大化發音檢測效能並加入最小化熵正則項之流程圖. 我們以最小化熵為目的將該函數(式(4.1))放入期望的目標函數中，在實驗我們將探討該作法對於檢測與診斷任務的影響。. 4.2 監督式錯誤發音診斷訓練. 基於 2.6 小節的發音診斷作法與回饋的方式，我們參考 Hu 所提出的發音空間特徵[Hu et al., 2015a]做為輸入的特徵，並將錯誤發音診斷視為分類問題，針對錯誤的發音進行偏誤的診斷，流程如圖 4-2。我們利用多層感知器(Multilayer Perceptron) 進行分類，而每個音素的事後機率皆可以表示成：. 38.

(47) L2待測語句. 語音特徵擷取強制對位. 提示文本 (標準音素序列). 發音為正確/錯誤. 決策函數. 錯誤發音診斷分類器 (SVM或MLP). 音素層次發音特徵擷取. 錯誤發音診斷分類模型之音素事後機率Top. 聲學模型 (GMM-HMM 或DNN-HMM). 錯誤發音診斷. 圖 4-2、監督式錯誤發音診斷流程圖. 𝑃(𝑞𝑖 |𝐟) = 𝑦𝑖𝐿 =. exp(𝑥𝑖𝐿 ) 𝐿 ∑𝑀 𝑗=1 exp(𝑥𝑗 ). (4.2). 𝑀為訓練資料中音素的總數，𝑦𝑖𝐿 為多層感知器最後一層的第𝑖個輸出值，等同基於特徵𝐟發生音素𝑞𝑖 的機率。𝐲 𝐿 為多層感知器的輸出層向量，以分類為目的我們使用軟式最大化轉換成事後機率；𝐲 𝑙 則為第𝑙層隱藏層向量，通常使用 Sigmoid 作為激發函數：. 𝐲𝑙 = {. Sigmoid(𝐱 𝑙 ), Softmax(𝐱 𝑙 ),. 𝑙<𝐿 𝑙=𝐿. (4.3). 未經過激發函數的𝐱 𝑙 為上一層的輸出𝐲 𝑙−1 乘上權重矩陣𝐖𝑙 並加上偏移值𝐛𝑙 得到：. 𝐱𝑙 = {. 𝐖1 𝐟 + 𝐛1 , 𝐖𝑙 𝐲 𝑙−1 + 𝐛𝑙 ,. 39. 𝑙=1 𝑙>1. (4.4).

(48) 而我們以最小化交叉熵為目標函數調整參數𝐖𝑙 與𝐛𝑙，更新參數採隨機梯度下降法。在實驗中我們除了以多層感知器作為錯誤發音診斷之分類模型外我們也與其他較具代表性的分類模型進行比較(例如：支持向量機與決策樹)。. 40.

(49) 第5章. 實驗環境設定. 5.1 華語學習者口語語料庫我們的語料庫使用臺灣師範大學邁向頂尖大學計畫的華語學習者口語語料庫，可以分成華語母語者(L1)與華語非母語者(L2)兩部分，錄音內容包含單音節、雙音節與短文；其中華語非母語者語料庫被標記成音素層次的發音正確或發音錯誤，每筆資料皆是由 1 至 4 人進行標記，並採用多數決判斷音素層次的發音錯誤或發音正確。我們將挑出語料庫切分成訓練集、發展集與測試集，如表 5-1。如 1.3.1 小節提到的偏誤情況大致分為兩種，部分變更以及完全變更；若學習者替換的發音不屬於欲學習的目標語言之任何音素則稱做部分變更，屬於目標語言之音素則是完全變更。在華語非母語者語料庫中的錯誤發音被標記為完全變更的偏誤情況約佔錯誤發音的 6 成，其餘則為部分變更，如表 5-2。而表 5-2 的偏誤類型我們將細分成聲母、韻母與聲調，如表 5-3。另外聲母、韻母與聲調的錯誤數量加總並不等於表 5-2 顯示的完全變更之音素數量；原因是本論文所指的音素單位是聲母與帶聲調之韻母，因此帶聲調之韻母被拆成韻母與聲調時會有三種情況：韻母發音錯誤、聲調發音錯誤與兩者皆發音錯誤。. 41.

(50) 表 5-1、華語學習者口語語料庫之訓練集、發展集與測試集. 時間(小時) 語者(個) 音素數量(個) 訓練集發展集測試集. 發音錯誤之音素數量(個). L1. 6.68. 44. 72,846. NA. L2. 14.04. 74. 107,202. 24,150. L1. 1.4. 10. 14,186. NA. L2. 3.39. 18. 25,900. 5,227. L1. 3.21. 25. 32,568. NA. L2. 7.49. 44. 55,190. 14,247. 表 5-2、華語非母語者語料庫之完全變更的錯誤發音數量發音錯誤之音素數量(個) 完全變更之音素數量(個) 訓練集. 24,150. 15,459. 發展集. 5,227. 3,424. 測試集. 14,247. 9,201. 表 5-3、完全變更之錯誤發音在聲母、韻母與聲調的音素數量聲母錯誤之韻母錯誤之聲調錯誤之音素數量(個) 音素數量(個) 音素數量(個) 訓練集. 5,605. 5,077. 5,489. 發展集. 1,261. 921. 1,395. 測試集. 3,468. 2,604. 3,709. 42.