聲調特徵擷取技術與其在中文聲調辨識應用之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳. 博士. 聲調特徵擷取技術與其在中文聲調辨識應用之研究 An Empirical Study on Tonal Feature Extraction Techniques and Their Applications in Mandarin Tone Recognition. 研究生：洪孝宗. 撰. 中華民國一 O 三年七月.

(2) 摘要本論文探討不同層次的聲調特徵(Tone Features)的擷取對於中文聲調辨識相關應用的影響。聲調特徵概略地分為音框與各發音層次組合而成；音框層次的聲調資訊多以基頻數值表示，再以音素或音節等區間的統計量做為聲調特徵。為了更強健地使用音高(Pitch)資訊，本論文探究多種音高表示法與正規化方法；音高表示法包含基頻變化頻譜(Fundamental Frequency Variation Spectrum, FFV Spectrum)、發聲機率(Probability Of Voicing, POV)和高維度梅爾倒頻譜係數(Highorder Mel-frequency Cepstral Coefficients, HMFCC)等，而正規化方法包含平均值與變異數等化法(Mean and Variance Normalization, MVN)和統計圖等化法(Histogram Equalization, HEQ)。本論文亦提出以線性預估係數(Linear Predictive Coefficients, LPC)近似正規化互相關函數(Normalized Cross Correlation Function, NCCF)曲線，藉此完整地表達音框層次的音高資訊。此外，本論文比較了數種不同子區間與跨區間的音高統計量，包含本論文提出的子區間音高偏度(Skewness)與峰度(Kurtosis) 特徵。最後嘗試不同的機器學習分類器，如支持向量機(Support Vector Machine, SVM)與深層類神經網路(Deep Neural Network, DNN)，並結合前述的聲調特徵進行聲調辨識。實驗以公視廣播新聞語料庫(MATBN Corpus)和臺灣師範大學華語學習者語音語料庫(NTNU-MAS Corpus)進行驗證，其結果顯示吾人提出之方法在聲調辨識應用有良好表現。. 關鍵字：聲調辨識、聲調特徵、線性預估係數.

(3) Abstract This thesis delves into the extraction of tonal features with different levels of granularity, as well as their applications to Mandarin tone recognition. In the most general sense, tonal features could be extracted at either the frame level or the pronunciation-interval level. For the former, tonal features are usually embodied with the instantaneous pitch information of each frame, while for the latter, tonal features are typically represented as an ensemble of different pitch-related statistical features calculated from the pronunciation interval of interest (like phone, syllable or sub-intervals of them). In order to robustly drive the pitch information of each frame for use in Mandarin tone recognition, we investigate not only various pitch estimation methods (such as fundamental frequency variation spectrum (FFV Spectrum), probability of voicing (POV) and high-order Mel-frequency Cepstral Coefficients (HMFCC)) but also various pitch normalization mechanisms (such as mean and variance normalization (MVN) and histogram equalization (HEQ)). In particular, we present a novel use of linear predictive coefficients (LPC) to approximate the curve of the normalized cross correlation function (NCCF) so that the frame-level pitch information can be more faithfully rendered. In addition, we compare the utilities of several pitch-related statistical features calculated within or among sub-intervals of a syllable, including our proposed features that are derived based on the skewness and kurtosis of pitch values. Furthermore, we also leverage different machine-learning techniques, such as support vector machine (SVM) and deep neural network (DNN), to work in concert with the aforementioned tonal features for Mandarin tone recognition. Empirical evaluations performed on the MATBN corpus and the NTNU-MAS corpus seem to demonstrated that our presented tonal feature extraction methods hold good promise for Mandarin tone recognition and are very competitive with existing methods.. Index Terms：Tone recognition、Tonal Features、Linear Predictive Coefficients.

(4) 誌謝首先感謝陳柏琳教授的指導，在求學期間給我許多增廣見聞的機會，讓我有幸和多位師長合作。感謝劉惠美老師、熊玉雯老師對我的包容，在和時間賽跑的時候總是給我正面的鼓勵。感謝曾金金老師，回想碩ㄧ時學生能力欠佳，幫不上忙，而老師依舊給我提點研究方向。感謝所有執行計畫的師長和夥伴們，因為這個機緣讓我體驗到更多經歷。感謝永典學長、冠宇學長，你們總是主動關心我的研究狀況。謝謝敏軒學長、珮寧學姊、紋儀學姊，剛入學的時候都跟著你們到處趴趴走。感謝阿邦學長、金毛學長，在過去總是陪我們一起熬夜，一起玩樂，再煩躁的生活也因你們變得歡樂。感謝沙龍學姊，有妳在的時後都沒有找晚餐的煩惱。謝謝于真學姊、欣汝學姊，很多事情都是靠妳們幫忙。感謝一起奮鬥的大熊、逸婷、俊諭、小蔡、黃威，過去幾年陷入研究困境，開完會就帶著煩躁的心回來實驗室，然後各位美食家總是有辦法找到好地方讓大家轉換心情。還有許多老朋友，新朋友，是你們的陪伴讓我有動力繼續往前進。最後感謝我的家人，供我沒有壓力地讀書。 ..

(5) 目錄第ㄧ章. 緒論 ........................................................................................................................................ 1. 1.1. 研究背景 ................................................................................................................................ 1. 1.2. 問題與挑戰 ............................................................................................................................ 2. 1.3. 音高追蹤 ................................................................................................................................ 4. 1.4. 聲調特徵與模型化 ................................................................................................................ 4. 1.5. 研究內容與貢獻 .................................................................................................................... 5. 1.6. 論文章節安排 ........................................................................................................................ 5. 第二章. 文獻回顧 ................................................................................................................................ 7. 2.1. 中文聲調簡介 ........................................................................................................................ 7. 2.2. 音高追蹤 ................................................................................................................................ 8. 2.2.1.. 自相關函數 (Auto-Correlation Function, ACF) ............................................................... 9. 2.2.2.. 平均振幅差函數 (Average Magnitude Difference Function, AMDF) ............................. 9. 2.2.3.. 正規化互相關函數 (Normalized Cross Correlation Function, NCCF) ......................... 10. 2.2.4.. Robust Algorithm for Pitch Tracking (RAPT) ..................................................................11. 2.2.5.. Kaldi Pitch Tracker .......................................................................................................... 16. 2.3. 音高正規化 .......................................................................................................................... 17. 2.4. 聲調特徵 .............................................................................................................................. 19. 2.4.1.. 高維度梅爾倒頻譜係數(High-order Mel-frequency Cepstral Coefficients) .................. 19. 2.4.2.. 發聲機率(Probability Of Voicing, POV) ......................................................................... 23. 2.4.3.. 基頻輪廓特徵 ................................................................................................................. 24. 2.4.4.. 基頻變化頻譜 (Fundamental Frequency Variation Spectrum) ...................................... 25. 2.4.5.. 韻律與其他聲調特徵 ..................................................................................................... 28. 第三章 3.1. 實驗語料庫與評估方法 ...................................................................................................... 29 語料庫介紹 .......................................................................................................................... 29. 3.1.1.. 華語學習者語音語料庫 ................................................................................................. 29. 3.1.1.. 公視廣播新聞語料庫 ..................................................................................................... 30. 3.2. 效能評估方式 ...................................................................................................................... 30. 3.2.1.. 音高追蹤效能評估方式 ................................................................................................. 30. 3.2.2.. 聲調分類效能評估方式 ................................................................................................. 31. 第四章. 單位音框之音高表示法改進 .............................................................................................. 32. 4.1. 正規化互相關函數之線性預估係數 .................................................................................. 32. 4.2. 音高追蹤實驗與討論 .......................................................................................................... 34 i.

(6) 4.3. 音框層次音高表示法相關實驗 .......................................................................................... 36. 4.3.1.. 實驗設定 ......................................................................................................................... 36. 4.3.2.. 實驗結果與討論 ............................................................................................................. 36. 4.3.3.. 延伸至音素層次之聲調分類實驗.................................................................................. 38. 第五章. 子區間輪廓特徵之改進 ...................................................................................................... 41. 5.1. 子區間音高偏度與峰度特徵 .............................................................................................. 41. 5.2. 子區間輪廓特徵相關實驗 .................................................................................................. 42. 5.2.1.. 實驗設定 ......................................................................................................................... 42. 5.2.2.. 實驗結果 ......................................................................................................................... 44. 第六章. 結論與未來展望 .................................................................................................................. 46. 參考文獻 ................................................................................................................................................. 47. ii.

(7) 圖目錄圖 2-1 以五度音高尺規表示中文四聲調 ............................................................................................... 8 圖 2-2 ACF、AMDF 及 NCCF 函數圖 ................................................................................................. 10 圖 2-3 RAPT 演算法流程圖 .................................................................................................................. 14 圖 2-4 KALDI PITCH TRACKER 演算法流程圖 ...................................................................................... 17 圖 2-5 MVN 正規化前後基頻統計圖 ................................................................................................... 18 圖 2-6 統計圖等化法正規化前後基頻統計圖...................................................................................... 18 圖 2-7 梅爾倒頻譜係數特徵擷取流程圖 ............................................................................................. 19 圖 2-8 預強調前後之頻域能量比較 ..................................................................................................... 20 圖 2-9 套用漢明窗前後的變化 ............................................................................................................. 22 圖 2-10 兩向量投影至無窮遠時之乘積 ............................................................................................... 26 圖 2-11 兩向量投影至 Τ 時之乘積 ........................................................................................................ 26 圖 4-1 以線性預測係數記錄互相關函數曲線的音高表示法 .............................................................. 33 圖 4-2 訊號經 LPC 還原後之頻域能量................................................................................................ 34 圖 5-1 特徵 MS 與 DS ............................................................................................................................ 42. iii.

(8) 表目錄表 1-1 國語音節結構 ............................................................................................................................... 2 表 3-1 MAS 語料庫說明 ........................................................................................................................ 29 表 3-2 MATBN 實驗語料統計資訊 ....................................................................................................... 30 表 4-1 基頻擷取演算法比較實驗結果 ................................................................................................. 35 表 4-2 MCFF40 維特徵於單位音框聲調分類的混淆矩陣(發展集).................................................... 37 表 4-3 NCCF-LPC 特徵於單位音框聲調分類的混淆矩陣(發展集) ................................................... 38 表 4-4 FFV 音高特徵於單位音框聲調分類的混淆矩陣(發展集) ....................................................... 38 表 4-5 KALDI 音高特徵於單位音框聲調分類的混淆矩陣(發展集) .................................................... 38 表 4-6 聲調分類正確率 ......................................................................................................................... 39 表 5-1 特徵對應符號與說明 ................................................................................................................. 43 表 5-2 聲調確認實驗結果 ..................................................................................................................... 44. iv.

(9) 第一章緒論 1.1 研究背景隨著多媒體通訊的技術發展，語音是人與人溝通最自然的媒介。語音能夠承載語意和情緒等豐富資訊，學者們研究各式各樣解析語音訊號的技術，使機器可以理解語音。中文是世界使用人口最多的語言，若要服務這廣大的市場，則中文語音辨識是個關鍵。相較於英文等非聲調語言，中文各聲調可以協助區辨語意。中文音節組成可以大略區分為聲母(Initials)、韻母(Finals)與聲調(Tones)三部分[1]，其中聲母與韻母約 56 種，而聲調僅有四聲調與一個輕聲，故在說話時發生聲調錯誤是非常容易被察覺。一般而言，在語音辨識的任務中並不採用音高(Pitch)資訊；音高資訊含有太多語者相關的訊息，容易受語者間變異性(Inter-Speaker Variability)影響。現今已有許多結合聲調分類的中文語音辨識相關研究，然而這過程並不容易，其原因在於五聲調的定義和語者無關，而有太多因素(例如情緒、語氣等)會影響音高。人們的聽覺可以感受到的聲音的尖銳與低沉，而音高的度量是指相同感受的正弦波頻率，屬於對訊號的感知 (Perception) 。此感知是主要是源於基頻 (Fundamental Frequency, F0)，而基頻是訊號的物理表現。大多的音高追蹤研究是從偵測基頻或基週(Fundamental Period)著手。然而，語音訊號的基頻能量可能小 1.

(10) 於其諧波(Harmonic)。人類的聽覺具有優異的強健性，即使在基頻能量很小的時候仍可以感受到音高，這表示除了基頻以外，人們對音高的感知可能是同時考量多種資訊。對應於聲調辨識的應用，可以看出不僅要有良好的音高正規化技術，還需要使用更多表示音高資訊的方法來增進聲調辨識的正確率。韻母(37) 聲母(21). 聲調(5) 韻頭(3) 韻腹(9) 韻尾(2) 表 1-1 國語音節結構. 1.2 問題與挑戰當語音訊號有穩定的基頻時，從基頻曲線即是分析音高變化的首要依據[1]，而音高追蹤的正確性會直接影響聲調特徵。計算基頻時常受到次諧波(Sub-harmonic)、諧波、噪音、與氣泡音(Vocal Fry)等因素影響。次諧波為基頻整數倍頻率的倒數，例如有訊號基頻的頻率為 300Hz，則次諧波為 150Hz、100Hz、75Hz 等，從週期的角度來看為基本週期的整數倍。在計算基頻時，許多時域方法的核心為計算訊號的週期，假設有一訊號基本週期為 T，則 2T、3T 等週期仍然像是一個基本週期，故選取基本週期時容易被 2T 週期誤導而引起半頻錯誤。諧波與次諧波恰好相反，意指基頻的整數倍頻率。例如有一訊號基頻為 100Hz，則二次諧波為 200Hz，依此類推。當有一諧波強度主導訊號的能量時，則在尋找 2.

(11) 基本週期時有可能被該諧波的週期誤導。當被二次諧波誤導時，則發生倍頻錯誤。除了上述問題，也可能受到語者發出氣泡音等問題。氣泡音的訊號難以定義出合理的基頻，而有研究指出中文第三聲調較容易出現氣泡音的現象[2,3]，對中文聲調辨認是一個重要的影響；ㄧ般而言，大多的演算法會假設基頻不會有明顯高低變化[4,5]，而氣泡音出現時並不符合此假設。氣泡音使得計算基頻更加困難，然而從聽覺實驗結果發現，不好的發音品質可能是輔助人們辨認中文第三聲調的特徵[2]，顯示人對聲調的判定是可以整合多種聲學特徵再做分類。克服音高追蹤問題後，尚須處理語者間的變異。由於每個人的音域高低寬窄不同，若直接採用音高曲線則會受到性別和年齡等因素影響。傳統分析音高多採用趙氏五度音高尺度[6]，且已有成功的運用於此音高尺度而設計的音高正規化方法[7]。然而，此方法是屬於語者層次，需要收集足夠的語料才能夠貼近趙氏音高尺度中語者音域的上界與下界。目前語者層次的音高正規化方法能夠勝任其任務 [7,8]，但許多應用情境仍無法收集足夠的語者語料，例如華語學習者希望能獲得即時的聲調診斷資訊，此時也須發展語句層次的正規化方法[9]。傳統的聲調特徵多從音高曲線中求取，而音高追蹤時的錯誤會導致後來的聲調特徵擷取出現問題。因此，如何正確的呈現音高資訊是個值得探討的題目；若將音高資訊以一維訊號表示，當發生錯誤時容易全盤皆錯，若將音高對訊號不同層面的影響分開表示，則較有機會釐清資訊。. 3.

(12) 1.3 音高追蹤音高追蹤的演算法大致可分為三類，分別為基於波形時域、頻域訊號分析以及兩者的結合[10]。波形時域分析的方法大多是假設一個準週期性的訊號經過適當的前處理，將共振峰的影響力降低後，即可直接從波形計算基本週期。此類的方法大多是基於波形的過零率 (Zero-Crossing Rate) 與自相關函數 (Auto-Correlation Function)等分析以尋找基本週期[11]。頻域訊號分析的方法是假設一週期性的訊號，其頻譜會在基頻與倍頻處出現脈衝響應。兩類的方法可以截長補短，例如轉換至頻域將共振峰的影響降低，使頻譜較平坦，再還原至時域訊號進行時域分析。早期典型音高追蹤器包含發音狀態偵測與週期評估方法兩個部分，大多是單純基於訊號處理的技術[12-15]，然而此時期的演算法多無法考量較長時間的資訊，且有無聲的判斷通常需同時考量多種資訊。為了改善此缺點，研究也開始引入動態規化法尋求整段語句的音高曲線最佳解[4,5]。近年的研究往更多面向發展，研究開始加入機器學習的方法，如透過多層感知器學習人工標記之音高[16]。. 1.4 聲調特徵與模型化在聲調的時域方面，聲帶振動強烈的韻母是主要的觀察對象。如音高追蹤時需要區別有無聲的狀態，而聲調辨識的過程需更進一步的捕捉有聲時的變化過程。在音韻學(Phonology)上對中文韻母已經有時域上結構化，如韻頭、韻腹及韻尾等[1,6]。在聲調的頻域方面，趙元任以波浪描述音高曲線；語句的音高如同大波浪，而每 4.

(13) 個音節的聲調就如同被大波浪承載的小波浪[6]。目前已有研究將上述音韻學的基礎實踐於聲調模型化，例如聲調核模型(Tone Nucleus Model) [17,18]和 Fujisaki 模型 [19]即是受音韻學的智慧所啟發例子。近年來機器學習領域掀起深層類神經網絡的熱潮[20,21]，有研究開始藉用此方法擷取音框層次的聲調資訊[22]，並以傳統音節層次的聲調特徵結合，在不依賴音高曲線的情況即達到良好的聲調辨識成效。. 1.5 研究內容與貢獻本研究旨在探討聲調辨識流程中，如何適切地呈現音高資訊？為探究此問題，吾人比較了現今主流的方法，並提出兩點改善；其一，以線性預估係數近似正規化互相關函數曲線(Normalized Cross Correlation Function, NCCF)，並以此完整地呈現單位音框的音高(Pitch)；有別於以一維音高曲線的表示方法，在此將保留所有諧波與次諧波的表現。其二，本研究嘗試加入子區間音高分布偏態(Skewness)的資訊，並比較在各種音高正規化方法搭配的成效。. 1.6 論文章節安排本論文後續編排如下：第二章. 介紹音韻學中聲調的基本觀念，再回顧音高追蹤與聲調特徵技術的演進。接著探討近年來熱門的聲調特徵擷取技術，主要區分音高追. 5.

(14) 蹤與聲調特徵兩部分。第三章. 介紹實驗採用的語料庫，以及各項實驗評估標準。. 第四章. 本論文提出改良的單位音框的音高表示法，並以聲調分類實驗比較成效。. 第五章. 本論文提出以子區間音高偏度與峰度等統計資訊做為聲調特徵，實驗包含不同聲調特徵間與音高正規化方法，分析各演算法間的優劣。. 第六章. 總結本論文的研究結果，並探討未來可能的研究方向。. 6.

(15) 第二章文獻回顧本章節首先回顧中文聲調相關的基礎研究，再依循聲調辨識的流程，回顧音高追蹤方法、音高正規化方法與聲調特徵。. 1.7 中文聲調簡介聲調語言可以大略的分為高低型與旋律型，而中文聲調屬於旋律型聲調[1]。旋律型聲調除了區別音高高低之外，還依不同升降變化區分聲調。中文有四聲調與一個輕聲，研究學者多以趙氏五度音高表示音高相對的變化，如圖 2-1 所示。除了音高表現不同，各聲調之音長也略有不同；第三聲通常時間較長，而第四聲較短。輕聲聲調形狀較難以捉摸，最明顯的特色是時間非常短促。以上敘述是單音節情形，而在連續語流中，聲調變調(Tone Sandhi)是一個常見的現象。意即在實際的語句中並不一定遵守標準聲調形狀，例如最常見的三三變調規則表示連續出現的三聲會使第一個轉為二聲。而規則會隨著連續三聲數量的變得更複雜，例如”展覽館”聲調依序為二三三，而”紙老虎”聲調依序為三二三，顯示連續變調問題不能單看聲調。目前聲調辨識問題多以基頻來討論，基頻是實際音波訊號的表現，而人們聽音後寫來的五度音高標示是根據感知而來。感知的角度與實際音訊觀察有許多不同之處，例如音高的感知擁有範疇性。第一聲調為平調，第二聲調為升調，五度音高分別為 35 和 55，然而區別兩聲調的界線大約為 45，雖然在 45 到 55 的區間 7.

(16) Tone 1 Tone 2 Tone 3 Tone 4. 圖二-1 以五度音高尺規表示中文四聲調. 基頻仍為上升曲線，但感知會將其歸類為一聲。從波形計算而得的基頻擁有較細緻的變化，然而感知的角度並非全部接受。例如基頻訊號常有彎頭與收尾部分，而人類的聽覺並不在意此細微變化。有學者認為聲調辨認需要的是音高概略的輪廓而非細微的變化，故提出基頻輪廓特徵 [23]。從頻域來觀察音高，音域範圍會隨著時間而改變。Fujisaki Model[19]是常用表示音高曲線的模型，該聲調模型認為音高是階層式架構，經過不同層次疊加而成。在時域方面，並不是每個時間都一樣重要。聲調核模型 (Tone Nucleus Model)[17,18]提出聲調可依時間切出三區間，中間為承載聲調資訊的區間。也有研究嘗試只使用韻腹區間的基頻進行聲調辨認，兩者皆在探究聲調的時域結構。. 1.8 音高追蹤音高追蹤的方法可大略分為頻域與時域兩大類方法，而現今發展了許多時域方法可以減少轉換至頻域的運算。時域方法主要是從時域上尋找訊號的基本週期，再 8.

(17) 轉換成基本頻率。此類演算法的核心多為自相關函數(Auto-Correlation Function, ACF)[24]、正規化互相關函數(Normalized Cross Correlation Function, NCCF)[4,5]、平均幅度差函數(Average Magnitude Difference Function, AMDF)[25]等，借此計算訊號與延遲訊號的相似程度。當有了候選週期，還需選取每個時間最合適的基本週期和有聲無聲狀態。本節先介紹 ACF、AMDF 和 NCCF 三種評估後選週期的函數，再介紹 Robust Algorithm for Pitch Tracking (RAPT)[4]與 Kaldi Pitch Tracker[26] 兩套計算基頻的演算法。. 1.8.1. 自相關函數 (Auto-Correlation Function, ACF). ACF 函數欲計算訊號相似程度，進而尋找訊號重複的週期。假設一個訊號𝑥長度為 N，則 ACF 函數定義如下： 𝑁−𝜏−1. 𝐴𝐶𝐹(𝑥, 𝜏) =. ∑ 𝑥[𝑛]𝑥[𝑛 + 𝜏]. (2-1). 𝑛=0. 其中τ為目標延遲時間，當函數值越大時，則τ越有可能是基本週期。. 1.8.2. 平均振幅差函數 (Average Magnitude Difference Function, AMDF). AMDF 與 ACF 類似，主要的差異在於用平均的差量取代乘積的總和。將乘法換成減法後可以避免數值太大的問題。AMDF 函數定義如下： 𝑁−𝜏−1. 1 𝐴𝑀𝐷𝐹(𝑥, 𝜏) = ∑ |𝑥[𝑛] − 𝑥[𝑛 + 𝜏]| 𝑁−𝜏−1 𝑛=0. 當值越小時，則τ越有可能是基本週期。 9. (2-2).

(18) 圖二-2 ACF、AMDF 及 NCCF 函數圖. 1.8.3. 正規化互相關函數 (Normalized Cross Correlation Function, NCCF). NCCF 函數定義如下： 𝑁𝐶𝐶𝐹(𝑠, 𝜏) =. ∑𝑚+𝑛−1 𝑥𝑗 𝑥𝑗+𝑘 𝑗=𝑚 √𝑒𝑚 𝑒𝑚+𝑘. ,. (2-3). 𝑗+𝑛−1. 𝑒𝑗 = ∑ 𝑥𝑖 2. (2-4). 𝑖=𝑗. 10.

(19) 其中 NCCF 的值域為[-1,1]，而𝑒𝑗 可以視為音訊的能量，相較於 ACF 方法差別在於對訊號的振幅做正規化。當 NCCF 值非常接近 1 時，表示該延遲很有可能為基本週期，而當值接近 0 時可能為沒有發聲的狀態。. 1.8.4. Robust Algorithm for Pitch Tracking (RAPT). 實際的語音訊號多含有噪音干擾，使得強健性問題是音高追蹤需要克服的難題。 RAPT 演算法的目的是實現強健性音高追蹤，學者觀察 NCCF 在自然語音中的表現，而設計一個完整的計算流程。從 NCCF 函數值觀察到數個重要的現象： 1.. 一般而言，NCCF 值越接近+1.0 者越可能是正確的基本週期。. 2.. 數個 NCCF 值都接近+1.0 時，週期越短的越有可能是基本週期，其餘為基本週期的倍數。. 3.. 基頻變化通常較緩慢，故臨近音框應有相近的基本週期。. 4.. 若直接挑選 NCCF 較大的值所尋找的基頻，則常會發生基頻突然變成兩倍頻率或一半頻率。. 5.. 有聲與無聲的狀態轉換頻率並不頻繁，即鄰近音框多有相同的發音狀態。. 6.. 在聲帶無震動的區間中，最高的 NCCF 值仍明顯小於+1.0。. 7.. 有聲與無聲轉換時，頻譜的變化非常明顯。. 8.. 在一段發音的開始通常波形振幅會增加，反之結尾時振幅會減弱。 11.

(20) RAPT 演算法流程可分為前處理、兩階段 NCCF 運算和後處理三階段，流程如圖所示。前處理階段要視訊號做不同處理，原則上前處理的目的在於消除有週期性的噪音。週期性的噪音會使有聲與無聲狀態判斷出錯，在降採樣之前仍可做些處理，例如使用中心切割(Center Clipping)的方法移除訊號在靠近 0 部分的影響力[15]。如式 2-5，定義訊號 x(n)，振幅向中心移動𝐶𝐿 ，若振幅小於𝐶𝐿 則移除，得到新的訊號 y(n)。另外還有特殊的狀況，如在背景噪音有明顯週期時，可以加入低於語音若干分貝的白噪音，藉此壓抑背景噪音的週期性。 𝑥(𝑛) − 𝐶𝐿 , 0, y(n) = 𝑐𝑙𝑐[𝑥(𝑛)] = { 𝑥(𝑛) + 𝐶𝐿 ,. 𝑥(𝑛) ≥ 𝐶𝐿 |𝑥(𝑛)| < 𝐶𝐿 𝑥(𝑛) ≤ 𝐶𝐿. (2-5). 接著需要對訊號進行降採樣，原本的訊號採樣頻率為𝐹𝑠，則降採樣至頻率𝐹𝑑𝑠，如下式： 𝐹𝑑𝑠 =. 𝐹𝑠 𝐹 𝑟𝑜𝑢𝑛𝑑(4𝐹0𝑠. 𝑚𝑎𝑥. (2-6). ). 其中𝐹0𝑚𝑎𝑥 為欲計算的基頻範圍的上界，round 函數為將小數四捨五入取最近的整數值。一般而言，範圍應在 50 至 500 赫茲以涵蓋男女基頻。若𝐹0𝑚𝑎𝑥 為 500 赫茲，原訊號採樣頻率𝐹𝑠 為 16k 赫茲，則降採樣頻率𝐹𝑑𝑠 為 2k 赫茲。在降採樣訊號之前，應先透過低通濾波器處理。這裡使用一理想低通濾波器，截止頻率為𝐹𝑑𝑠 /2，所得的脈衝響應再帶入 5 毫秒的漢寧窗(Hanning Window)。第二階段流程欲從訊號計算候選基本週期，主要流程是從低採樣頻率的訊號快速求取候選基本週期，再回到原始訊號尋找更精確的基本週期。對每個音框計 12.

(21) 算 NCCF 值，如式，但因分母項是對音量進行正規化，這會使得音量較小的靜音部分也有可能得到較高的 NCCF 值。RAPT 修改式，將分母項加入ㄧ常數值 A_FACT，如下式： 𝑁𝐶𝐶𝐹(𝜏) =. ∑𝑚+𝑛−1 𝑠𝑗 𝑠𝑗+𝑘 𝑗=𝑚. (2-7). √𝑒𝑚 𝑒𝑚+𝑘 + 𝐴_𝐹𝐴𝐶𝑇. 使先將訊號降採樣，先從低解析的訊號中計算各音框之 NCCF，並記錄 NCCF 值接近 1.0 所在的音框。接著從原本高解析的訊號中計算第二次 NCCF，並只計算第一次所記錄的候選週期。第二次 NCCF 運算是以原採樣頻率的訊號計算，但只考量第一次計算的候選週期與鄰近的候選週期。得到每個音框候選的基本週期後，再進行後處理以尋找最佳的基本週期和發音狀態序列。其中後處理考量到音框內和鄰近音框兩部分：(1)在一個音框內應選 NCCF 值越接近 1.0 且週期較短者；(2) 發音狀態從有聲、無聲轉換到任意狀態的代價。經過動態規劃法選取最佳的發音狀態和基本週期序列後再取倒數還原至頻率。根據上訴情形，首先音框內的代價可以分為有聲與無聲兩部分，其有聲部份定義為下式： 𝑑𝑖,𝑗 = 1 − 𝐶𝑖,𝑗 (1 − 𝛽𝐿𝑖,𝑗 )， 1 ≤ 𝑗 < 𝐼𝑖. (2-8). 其中𝑑𝑖,𝑗 表示第 i 個音框選擇第 j 個候選週期的代價，其後選數量為𝐼𝑖 − 1個週期和一個無聲狀態的可能。𝐶𝑖,𝑗 表示該候選週期所對應的 NCCF 函數值，𝐿𝑖,𝑗 表示此後選週期的時間長度，其單位為樣本各數。此式可以看出 NCCF 函數值較大者用有較小的代價，且要優先挑選週期較短者，而𝛽控制著週期長度的懲罰值。在無聲的 13.

(22) 音訊(16KHz). 訊號降採樣音訊(2KHz). 第一次計算 NCCF. 第二次計算 NCCF. 產生候選基本週期. 利用動態規化法尋找最佳基本週期與發音狀態. 圖二-3 RAPT 演算法流程圖. 部分，其代價定義為下式： 𝑑𝑖,𝐼𝑖 = VO_BIAS + max 𝐶𝑖,𝑗. (2-9). 𝑗. 其意義是選擇無聲狀態的風險，用最高的 NCCF 函數值表示。若max 𝐶𝑖,𝑗 越大，則 𝑗. 選擇無聲狀態的風險就越高。在音框間的代價可以分為四種情況，分別為先後出現有聲與無聲的組合。第一種情況為有聲至有聲的狀態轉移，其代價如下式： 𝛿𝑖,𝑗,𝑘 = FREQ_WT × min(𝜉𝑗,𝑘 ,DOUBLE_C + |𝜉𝑗,𝑘 − ln(2.0)|) 𝜉𝑗,𝑘 = |ln. 𝐿𝑖,𝑗 | ，1 ≤ 𝑗 < 𝐼𝑖 ; 1 ≤ 𝑘 < 𝐼𝑖−1 𝐿𝑖−1,𝑘. (2-10) (2-11). 其中𝛿𝑖,𝑗,𝑘 表示第 i-1 音框的第 k 個候選週期轉換至第 i 音框的第 j 個候選週期的代 14.

(23) 價，𝜉𝑗,𝑘 表示兩音框間候選週期的變化成度，FREQ_WT 控制著基頻曲線的平滑程度。此時偏好選取變化幅度較小的候選週期，然而在這裡允許部份八度音跳躍 (Octave Jump)出現，若 DOUBLE_C 常數較小則可能得到不連續的曲線，反之則不允許出現跳動。實際上運算時仍無法避免整個音節一起跳動的狀況。第二種情況為無聲至無聲的狀態轉換。此轉換並不而外給予逞罰值，僅需依靠𝑑𝑖,𝐼𝑖 即可，故定義𝛿𝑖,𝐼𝑖 ,𝐼𝑖−1 = 0。第三與第四種情況為有聲與無聲的狀態轉移，此狀況多發生於ㄧ音節的開頭與結尾處。這兩種狀態轉移均可從頻譜觀察到劇烈變化，而音節開始時音量會逐漸上升，在結尾時逐漸減弱。有聲轉換至無聲的狀態轉換代價如下式： 𝛿𝑖,𝐼𝑖 ,𝑘 = VTRAN_C + (VTR_S_C)𝑆𝑖 + (VTR_A_C)𝑟𝑟𝑖 ， 1 ≤ 𝑘 < 𝐼𝑖−1 𝑆𝑖 =. 0.2 𝑖𝑡𝑎𝑘𝑢𝑟𝑎(𝑖, 𝑖 − 1) − 0.8. (2-12) (2-13). 其中 VTRAN_C 控制著有無聲轉換的代價，VTR_S_C和VTR_A_C分別代表頻譜變化和能量變化的權重。頻譜變化程度是以板倉距離(Itakura Distance)衡量[27]，而 𝑟𝑟𝑖 可以直接用音框 i 與 i-1 之音量比例計算。最後，無聲轉換至有聲的狀態轉換代價如下： 𝛿𝑖,𝑘,𝐼𝑖 = VTRAN_C + (VTR_S_C)𝑆𝑖 − (VTR_A_C)𝑟𝑟𝑖 ， 1 ≤ 𝑘 < 𝐼𝑖−1. (2-14). 將音量變化的代價變號，即表示挑選音量增加的情況。最後以遞迴式定義目標函數：. 15.

(24) 𝐷𝑖,𝑗 = 𝑑𝑖,𝑗 + min {𝐷𝑖−1,𝑘 + 𝛿𝑖,𝑗,𝑘 } ， 1 ≤ 𝑗 ≤ 𝐼𝑖 𝑘∈𝐼𝑖−1. (2-15). 其初始條件為下式： 𝐷0,𝑗 = 0， 1 ≤ 𝑗 ≤ 𝐼0 ; 𝐼0 = 2. (2-16). 記錄每次 k 的選擇，則可以回推最佳的基週與發聲狀態序列。. 1.8.5. Kaldi Pitch Tracker. Kaldi Pitch Tracker[24]將 RAPT 做大幅度修改。作者觀察到大部分的方法都有兩個缺點；第一問題是大多數基頻擷取演算法只能產生有限數量的基頻數值，而實際上的基頻應是連綿的數值。原因與計算後選週期時有關係，由於候選週期數量與訊號採樣頻率高低有關，凡是基於尋找候選週期的方法都只能計算延遲整數個樣本的訊號，即式 2-3 的τ只能為整數。第二個問題為有聲與無聲狀態的硬決策 (Hard Decision)。RAPT 等方法在動態規化法時有考量發聲狀態[4,5]，然而若是判斷錯誤，則這個錯誤會使得聲調特徵抽取階段發生錯誤。Kaldi 方法用軟決策(Soft Decision)保留發音狀態機率值，再轉換成 POV 特徵。. Kaldi 演算法流程如圖 2-4 所示。首先與 RAPT 方法一樣皆須降採樣，進行 NCCF 值計算。然而為了改善後選基本週期為有項數量的缺點，Kaldi 演算法採用升頻的做法。不同的 NCCF 序列透過升頻後所得的值皆不同，所以候選週期的細緻度並不直接受採樣頻率高低影響。. 16.

(25) 訊號降採樣. 音訊(16KHz). 計算 NCCF. 音訊(4KHz). 利用動態規化法尋找最佳基本週期. NCCF 升頻. 圖二-4 KALDI Pitch Tracker 演算法流程圖. 1.9 音高正規化因為性別和年齡等生理因素，使得語者音域範圍皆不盡相同。然而我們不希望聲調辨識受到語者音素所造成的負面影響，所以對音高進行正規化有其必要性。許多方法多以趙氏五度音高尺度做為依據[7]，先透過統計語者的音高分布，得到平均值μ與標準差σ，原始基頻𝑥經過下式轉換： 𝑦 = 𝑇[𝑥] =. 𝑥−𝜇 𝜎. (2-17). 將每位語者的音高平均值皆對齊至 0，標準差皆為 1，可以看出此方法與語者層次的平均值與變異數等化法(Mean Variance Normalization, MVN)相似，轉換前後分布如圖 2-5 所示。上述方法可以看成對基頻分布的一階動差與二階動差進行正規化，然而有學者認為仍有其他統計上的特徵需要一致，所以提出以統計圖等化法(Histogram Equalization, HEQ)進行音高正規化 [8]，此方法也可稱為 CDF-Matching。若有一. 17.

(26) MVN. 圖二-5 MVN 正規化前後基頻統計圖. HEQ. 圖二-6 統計圖等化法正規化前後基頻統計圖. 觀測得的基頻隨機變數為𝑋，則 HEQ 方法如下式： 𝑦 = 𝑇[𝑥] = 𝐶𝑌−1 (𝐶𝑋 (𝑥)). (2-18). 其中CX 代表原始基頻的累積分布函數(Cumulative Distribution Function, CDF)，而 Y 可以是一個語者的基頻隨機變數，使得每位語者基頻皆透過 CDF 函數尋找相對應目標語者的基頻。經過此方法轉換後如圖 2-6 所示，可以使每位語者皆擁有相同的基頻分布，使所有統計上的特性皆一致。. 18.

(27) 預強調. 音框化及窗化. 離散傅立葉轉換. 離散餘弦轉換. 梅爾三角濾波器組. 語音訊號. 特徵向量. 圖二-7 梅爾倒頻譜係數特徵擷取流程圖. 1.10 聲調特徵進行聲調語言之語音辨識時，大多可以分成兩類方法；第一類方法將聲調資訊嵌入至原有聲學模型，通常用基頻與梅爾倒頻譜係數 (Mel-Frequency Cepstral Coefficients, MFCC)[28]串接為特徵向量，再以隱藏式馬可夫模型(Hidden Markov Model, HMM)建立含有聲調資訊的聲學模型[26,29]。第二類方法是明確的建立出各聲調之模型，進而和原有的語音辨認流程結合[23,30]。本章依序介紹近年提出的 Kaldi 聲調特徵[26]，包含原始基頻值、基頻差量與發聲機率，再介紹子區間基頻輪廓特徵和其他韻律特徵。. 1.10.1. 高維度梅爾倒頻譜係數(High-order Mel-frequency Cepstral Coefficients). 梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)[28]常做為語音辨識相關應用的聲學特徵。傳統上多計算 13 維係數與時間上差量，而近年有學者顛覆傳統的想法，提出利用高維度梅爾倒頻譜係數呈現含有音高資訊的聲學特徵[22]。梅爾倒頻譜係數的擷取流程包含(1)預強調；(2)音框化及窗化；(3)離散傅立葉 19.

(28) Sound pressure level (dB/Hz). 原始音訊經預強調. 40. 20. 0 0. 8000 Frequency (Hz). 圖二-8 預強調前後之頻域能量比較. 轉換；(4)梅爾三角濾波器組；(5)離散餘弦轉換等程序，計算過程如圖 2-7 所示。本節依序介紹各個步驟。預強調是讓語音訊號透過一個高通濾波器，目的在於彌補聲波傳遞時高頻訊號的衰減。此濾波器的 Z-轉換(Z-Transform)設計如下式： 𝐻(𝑧) = 1 − 𝛼 ∙ 𝑧 −1. (2-19). 其中𝛼控制高頻補償的程度；隨著𝛼增加，高頻補償的能量也越多。實做時可將此濾波器轉換至時域空間表示，如下式： 𝐿𝑦 [𝑛] = 𝐿𝑥 [𝑛] − 𝛼 ∙ 𝐿𝑥 [𝑛 − 1]. (2-20). 其中𝐿𝑥 [𝑛]為原始音訊第 n 個樣本，經過兩鄰近樣本的差量運算可得新的訊號𝐿𝑦。本論文皆設定參數𝛼為 0.975，經過預強調處理的頻域能量變化如圖 2-8 所示；藍色線為經過預強調處理的訊號，可以看出在高頻處的能量較原始音訊增強了不少。為了分析語音在頻域上的變化過程，所以需要將時域的語音訊號轉換至頻域 20.

(29) 上。首先須對音訊做音框化(Framing)，即每間隔單位時間就取一個音框，兩兩音框間有部分重疊。然而，截取音框的過程會使靠近邊界訊號產生高頻成分。為了降低音框化的過程所產生的破壞影響，在進行傅立葉轉換前須做窗化(Windowing) 處理。常見的窗函數設計多是有較寬的主辦葉(Main Lobe)和較窄的邊葉(Side Lobes)，且壓抑高頻處的能量，例如漢明窗(Hamming Window)、升餘弦窗(Raisedcosine Window)與高斯窗(Gaussian Window)等。音框化及窗化如圖 2-9 所示；範例為一個 25ms 的音框，藍色虛線為漢明窗函數，可看出音框邊界的波形受到窗函數的限制。經過窗化處理後的音訊是短時域穩定(Short-Term Stationary)的訊號，在此利用離散傅利葉轉換(Discrete Fourier Transform, DFT)將語音訊號轉換到頻域上。 𝑁𝑡 −1. 𝑌(𝑘) = ∑ 𝐿̃𝑌 [𝑛] ∙ 𝑒 −𝑗2𝜋𝑘𝑛/𝑁𝑡 ,. 0 ≤ 𝑘 < 𝑁𝑡. (2-21). 𝑛=0. 然而，此計算複雜度為 O(𝑁 2 ) ，實做上會採用快速傅立葉轉換 (Fast Fourier Transform, FFT)。由於人耳的聽覺感知與訊號實際頻率大約呈現指數對應關係；聽覺上的八度音是指感受到兩倍的音高，而實際頻率會高於兩倍。聽覺與真實頻率間的對應關係轉換至梅爾刻度 (Mel Scale) ，透過下式轉換得到的頻率為梅爾頻率 (Mel Frequency)： 𝑀𝑒𝑙(𝑓) = 1125 ln (1 +. 𝑓 ) 700. (2-22) 21.

(30) 圖二-9 套用漢明窗前後的變化. 由於每個時間的資料為度和ㄧ音框樣本數相同，在此需要透過三角帶通濾波器組 (Triangular Band-pass Filterbank)降低資料維度。假設第 m 個三角帶通濾波器的中心點為𝑓[𝑚]，該濾波器的最低與最高頻率分別為𝑓[𝑚 − 1]和𝑓[𝑚 + 1]，則頻率𝑘在此濾波器的權重如下式： 0， 𝑘 < 𝑓[𝑚 − 1] 𝑘 − 𝑓[𝑚 − 1] ， 𝑓[𝑚 − 1] ≤ 𝑘 < 𝑓[𝑚] 𝑓[𝑚] − 𝑓[𝑚 − 1] 𝐻𝑚 [𝑘] = 𝑓[𝑚 + 1] − 𝑘 ， 𝑓[𝑚] ≤ 𝑘 ≤ 𝑓[𝑚 + 1] 𝑓[𝑚 + 1] − 𝑓[𝑚] 0， 𝑘 > 𝑓[𝑚 + 1] {. (2-23). 而各濾波器的中心𝑓[𝑚]是從梅爾刻度下求取，可以透過式 2-13 將𝑓[𝑚]表示成下式： 𝑁 𝑀𝑒𝑙(𝑓ℎ ) − 𝑀𝑒𝑙(𝑓𝑙 ) 𝑓[𝑚] = ( ) 𝑀𝑒𝑙 −1 (𝑀𝑒𝑙(𝑓𝑙 ) + 𝑚 ∙ ) 𝐹𝑠 𝑀+1. (2-24). 其中𝑁為傅立葉轉換取樣點數，𝐹𝑠 為採樣頻率。上式將濾波器組中的最高頻率𝑓ℎ 與 𝑓𝑙 轉換至梅爾頻率，並分成𝑀 + 1等份，再還原至原始頻率。將式 2-12 與式 2-14 結合，可以得到每個梅爾濾波器組的輸出值如下： 22.

(31) 𝑁. 𝐹𝐵[𝑗] = ∑|𝑌(𝑘)|2 𝐻𝑗 [𝑘]. (2-25). 𝑘=0. 三角帶通濾波器的數量若越多，則頻域上的解析則越高。傳統上大多使用 20 不等個濾波器，而在此是設計 40 個濾波器保留更細緻的資訊。三角帶通濾波器的輸出值需要再經過離散餘弦轉換 (Discrete Cosine Transform, DCT)，將其轉換至倒頻譜空間。離散餘弦轉公式如下： 𝑀. 2 𝑛𝜋 𝑐[𝑛] = √ ∑ log(𝐹𝐵[𝑗]) cos ( (𝑗 − 0.5)) ， 𝑛 = 1,2, … , 𝑀 𝑀 𝑀. (2-26). 𝑗=1. 其中轉換後的𝑐[𝑛]即為梅爾倒頻譜係數，𝑀為三角帶通濾波器總數。傳統的語音特徵僅取前 13 個倒頻譜係數，也就是捨棄頻譜上變化快速的部分，相當於一個較平滑的頻譜。然而，在此我們將全部 40 個係數均保留住。原因是傳統上透過倒頻譜分析後，在倒頻率(Quefrency)較長的部分可以觀察到基頻與其諧波的影響。. 1.10.2. 發聲機率(Probability Of Voicing, POV). 計算基頻時會區分有聲與無聲區間，在無聲區間語音沒有定義基頻資訊，而較直接的解決方法為給定一個與有聲部分基頻差異較大的數值，例如亂數給定一個接近零的值。因為有聲與無聲的差異很大，而在基頻擷取的階段可能會發生判斷錯誤，故 Kaldi 音高特徵加入了 POV(Probability Of Voicing)資訊[26]。由於 NCCF 值越接近 1.0 時越有可能是基本週期，故學者提出兩個方法都透過 NCCF 轉換成 POV 資訊。第一種方法透過回歸分析方法以近似有聲機率，此方法為了求取近似 23.

(32) 有聲狀態發生機率，透過回歸分析方法近似下式： 𝑃(𝑣𝑜𝑖𝑐𝑒𝑑|𝜙). 𝐿(𝜙) = 𝑙𝑜𝑔 𝑃(𝑢𝑛𝑣𝑜𝑖𝑐𝑒𝑑|𝜙). (2-27). 其中 𝜙為 NCCF 值。學者使用 Keele 語料庫[31]做為訓練語料庫，用人工設計下列方程式逼近此函數： 𝐿(𝜙) = −5.2 + 5.4𝑒 7.5(|𝜙|−1) + 4.8|𝜙| − 2𝑒 −10|𝜙| + 4.2𝑒 20(|𝜙|−1). (2-28). NCCF 值接近-1 時表示兩訊號正負相反，透過此式子轉換後卻有很高的值，而實際上計算基頻時，有聲部分的 NCCF 值大多接近 1，而無聲部分大多接近 0，在動態規劃法選取基本週期時不太容易選取接近-1 部分的數值。因為目標為近似有聲的機率𝑃(voiced|𝜙)，所以需再透過下式轉換： 𝑓(𝐿(𝜙)) =. 1 1 + 𝑒 𝐿(𝜙). (2-29). 即可得到近似𝑃(voiced|𝜙)，其數值約大於 0.8 後機率才會有明顯攀升。同樣的雖然 NCCF 接近-1 時也有很高的機率並不合理，但不容易選到接近-1 的 NCCF 值。第二種方法是將 POV 資訊視為特徵，不為持機率的形式。透過下列式子將 NCCF 值轉換成 POV 特徵： 𝑓(𝜙) = 2((1.0001 − 𝜙)0.15 − 1). (2-30). 當 NCCF 值接近 1.0 時會得到明顯較小的值，藉此區分有聲與無聲狀態。. 1.10.3. 基頻輪廓特徵. 明確辨識聲調的方法大多是先透過 HMM 強制對齊，再對每個母音區間計算聲調 24.

(33) 特徵。近年來有許多方法試圖將基頻輪廓轉換成聲調特徵，如多項式回歸係數或子區間聲調特徵。有學者認為辨認聲調時只需捕捉基頻變化的趨勢，提出了等間距的子區間音高輪廓特徵[23]。該研究與傳統常用 HMM 方法做比較，發現子區間音高輪廓特徵可以用較少量的參數達到更高的辨識率。. 1.10.4. 基頻變化頻譜 (Fundamental Frequency Variation Spectrum). 基頻變化頻譜(Fundamental Frequency Variation Spectrum, FFV Spectrum)[32,33]呈現的是基頻的變化趨勢，不同於基頻輪廓特徵多採用絕對的基頻高度。計算 FFV 特徵的流程可分為(1)訊號預強調；(2)音框化和兩窗化分析；(3)計算 FFV Spectrum； (4) 套用帶通濾波器組。此演算法是受滅點透視(Vanishing-Point Perspective)的啟發。當我們以向量內基大小觀察兩向量是否相似時，相當於將兩向量正交投影至無限遠處後各維度的值相乘後的總和，如圖 2-10 所示，其中 T 為時間，兩不同時間的向量投影至負無窮處。此方法提出滅點乘積(Vanishing-Point Product)是指向量愈投影至不同時間後，以新的元素對應計算乘積的合，例如圖 2-11 表示兩向量投影至一時間τ，向量的元素對應關係也隨之改變。更進一步說明，此方法應用於呈現基頻變化是假設基頻下降時，對會兩鄰近音框的頻率分布向低頻壓縮，反之則向高頻伸展。而兩種變化趨勢可以從不同滅點的滅點乘積觀察出來。 25.

(34) 𝐹𝑅. 𝐹𝐿. T 𝜏. -T0 +T0 圖二-10 兩向量投影至無窮遠時之乘積 𝐹𝐿. 𝐹𝑅. −∞. +-T0. -T0. T. 圖二-11 兩向量投影至τ時之乘積. 對+𝑇0 與−𝑇0 兩時間的訊號進行傅利葉轉換得到𝐹𝑅 與𝐹𝐿 ，則基頻變化頻譜𝑔定義為式 2-22。如圖 2-10 所示，從黑色與紅色三角形的邊長比例可以推出新的 𝐹𝐿 與𝐹𝑅 對應關係。 2 𝑓 − 𝑠 2 𝑓 + 𝑠 2 𝑓 − 𝑠 2. ∫ 𝑔(𝜏) = {. 𝑓 + 𝑠. ∫. −𝜏−𝑇. 𝐹𝐿 ((−𝜏+𝑇0) 𝑓) 𝐹𝑅 (𝑓) 𝑑𝑓 ，𝜏 < −𝑇0 0. (2-31). +𝜏−𝑇0. 𝐹𝑅 ((+𝜏+𝑇 ) 𝑓) 𝐹𝐿 (𝑓) 𝑑𝑓 ，𝜏 > +𝑇0 0. 然而這樣的定義遭遇到兩個問題。從時間軸來看，在區間(−𝑇0 , +𝑇0 )並無定義。從頻率軸來看，經過離散傅利葉轉換後得到的是離散的數值，固定其一向量為基準時，另一向量可能不存在對應的元素。對於時域上不連續的問題，定義一共形映射(Conformal Mapping)𝛼將τ轉換至𝜌，如式 2-32。當滅點𝜏為−∞時對應的𝜌為 0， 26.

(35) 而將𝜏往−𝑇0 移動時，則𝜌往−∞靠近。由於𝜏接近−𝑇0 時𝜌值變化非常快，故取對數壓抑之。 −𝜏−𝑇. −𝑙𝑜𝑔2 (−𝜏+𝑇0 ) , 𝜏 < −𝑇0 0 𝛼: 𝜏 → 𝜌 = { +𝜏−𝑇0 +𝑙𝑜𝑔2 (+𝜏+𝑇 ) , 𝜏 > +𝑇0. (2-32). 0. 𝑓 + 𝑠 2 𝑓 − 𝑠 2 𝑓 + 𝑠 2 𝑓 − 𝑠 2. ∫ 𝑔𝜌 (𝜌) =. ∫ {. 𝐹𝐿 (𝑓)𝐹𝑅 (2+𝜌 𝑓) 𝑑𝑓 , 𝜌 < 0 (2-33) 𝐹𝐿. (2+𝜌. 𝑓)𝐹𝑅 (𝑓) 𝑑𝑓 , 𝜌 ≥ 0. 將映射帶回式 2-22，就可以解決時間軸上(−𝑇0 , +𝑇0 )區間沒有定義的問題。𝐹𝐿 和 𝐹𝑅 是經傅立葉轉換而得，為複數序列，在這裡以能量替代之。 ∫. 𝑓 + 𝑠 2. 𝑓 − 𝑠. 𝑔𝜌 (𝜌) =. |𝐹𝐿 (𝑓)| |𝐹𝑅 (2+𝜌 𝑓)| 𝑑𝑓 , 𝜌 < 0. 2. {. 𝑓 + 𝑠. 2 𝑓 − 𝑠 2. ∫. (2-34) |𝐹𝐿. (2−𝜌. 𝑓)||𝐹𝑅 (𝑓)| 𝑑𝑓 , 𝜌 ≥ 0. 第二個問題是經過離散傅立葉轉換後的𝐹𝐿 和𝐹𝑅∗ 通常在2±𝜌 𝑓都沒有定義。為了克服此問題，在這裡以內插法求取數值。定義𝛼𝐿 與𝛼𝑅 如式 2-35 和式 2-36，假設𝐹𝐿 與 𝑁. 𝑁. 𝐹𝑅 是經 N 點的離散傅立葉轉換求取，則𝑘的範圍是[− 2 + 1, 2 ]，再依此比例對𝐹𝐿 和𝐹𝑅 進行內插法求出𝐹𝑅 (2+𝜌 𝑓)和𝐹𝐿 (2−𝜌 𝑓)。 𝛼𝐿 = |⌈2−𝜌 𝑘⌉ − 2−𝜌 𝑘|. (2-35). 𝛼𝑅 = |⌈2+𝜌 𝑘⌉ − 2+𝜌 𝑘|. (2-36). 𝐹̃𝐿 (2−𝜌 𝑘) = 𝛼𝐿 𝐹𝐿 [⌊2−𝜌 𝑘⌋] + (1 − 𝛼𝐿 )𝐹𝐿 [⌈2−𝜌 𝑘⌉]. (2-37). 𝐹̃𝑅 (2+𝜌 𝑘) = 𝛼𝑅 𝐹𝑅 [⌊2+𝜌 𝑘⌋] + (1 − 𝛼𝑅 )𝐹𝑅 [⌈2+𝜌 𝑘⌉]. (2-38). 綜合上述式子，可以重新表示離散的基頻變化頻譜𝑔∗，並在分母項加入能量，使 27.

(36) 𝑔∗ 不受音量影響。 𝑁. ∑2. 𝑔∗ [𝑟] =. {. +4𝑟/𝑁 𝑘)|∙|𝐹 [𝑘]| ̃ 𝑅 𝑁 |𝐹𝐿 (2 𝑘=− +1 2 𝑁 𝑁 2 2 √∑ 2 𝑁 |𝐹̃𝐿 (2+4𝑟/𝑁 𝑘)| ∙∑ 2 𝑁 |𝐹𝑅 [𝑘]| 𝑘=− +1 𝑘=− +1 2 2 𝑁 ∑ 2 𝑁 |𝐹𝐿 [𝑘]|∙|𝐹̃𝑅 (2−4𝑟/𝑁 𝑘)| 𝑘=− +1 2 𝑁 2 𝑁 2 √∑ 2 𝑁 |𝐹𝐿 [𝑘]| ∙∑ 2 𝑁 |𝐹̃𝑅 (2−4𝑟/𝑁 𝑘)| 𝑘=− +1 𝑘=− +1 2 2. , r≥0 (2-39) , r<0. r 的範圍與 k 相同，當 r 靠近 0 時表示變化緩慢的部分，即滅點靠近無窮遠處，反之則表示變化劇烈的部分。在無聲狀態時，𝑔∗ 大多呈現平坦的分布，表示沒有一個明顯的基頻變化趨勢，而在有聲狀態時，隨著基頻上揚或下降的變化趨勢呈現右傾或左傾的分布。. 1.10.5. 韻律與其他聲調特徵. 除了基頻以外，音長與音強資訊也能幫助辨認聲調。過去十年有許多研究嘗試加入基頻以外的資訊，例如韻母類型多樣，可分為單韻母、複韻母、聲隨韻母、捲舌韻母和帶有介音的結合韻母等，從時間的結構來看不盡相同，故有學者提出發音特徵(Articulatory Features)[34]，以兩階段多層感知器學習區分 19 類音素，藉以當作聲調特徵。除了該音節本身外，也應考量鄰近音素類型。此外也可以用決策樹建立聲調模型[30,35]，當加入鄰近音素類型資訊時可以使輕聲辨認錯誤率降低約 45%[30]。. 28.

(37) 第三章實驗語料庫與評估方法本章依序介紹兩個本論文採用的語料庫，再介紹本論文探討的三類實驗評估方法。. 1.11語料庫介紹. 1.11.1. 華語學習者語音語料庫. 第一個實驗環境為華語學習語料庫 Mandarin Annotated Spoken Corpus (MAS Corpus)[36]，收集對象包含本國母語者與外籍學生。此語料庫設計是為了供學生學習華語文用途，經過人工標記其發音內容和聲調。語料內容分為單音節與雙音節語料。其中單音節為 1355 個不同音節，涵蓋所有中文發音。而雙音節語料為 100 個二字詞，內容完整涵蓋所有音素，且包含所有雙音節聲調組合。在聲調分類相關的實驗中，所有音檔均以強制對齊(Forced Alignment)標記每個音素的時間。錄音設備. 單聲道指向性麥克風. 採樣頻率. 16KHz. 語料內容. 單音節. 雙音節. 句子與短文. 涵蓋所有單音節發音組合，每位語者收錄 1355 個單音節語音。. 涵蓋所有雙音節聲調組合，且涵蓋所有音素。每位語者收錄 100 個雙音節語音。. 內容為華語教學教材。. 表 3-1 MAS 語料庫說明. 29.

(38) 語料. 訓練集. 發展集. 測試集. 句數長度(小時). 30,600 約 23. 1,998 約 1.5. 1,997 約 1.5. 第一聲調(音節). 84,384. 4,104. 5,868. 第二聲調. 100,764. 5,076. 6,036. 第三聲調. 75,120. 4,152. 5,724. 第四聲調. 178,908. 10,092. 11,292. 輕聲. 3,828. 264. 132. 表 3-2 MATBN 實驗語料統計資訊. 1.11.1. 公視廣播新聞語料庫. 在連續語音的相關實驗皆使用公視廣播新聞語料庫 (Mandarin Across TaiwanBroadcast News, MATBN)[37]。此語料收錄 2001 年至 2003 年間的新聞節目，包含了內場新聞與外場新聞兩部分。由於內場語料皆由同一位主播所錄製，若採用此語料會看不出音高與語者變異的影響；而外場新聞受訪者包含了許多語助詞與背景聲音，所以僅採用外場採訪記者語料。本實驗將外場記者語料分為訓練集、發展集與測試集三個部份，語句數量為分別為 30,600 句、1,997 句和 1,998 句。. 1.12效能評估方式. 1.12.1. 音高追蹤效能評估方式. 評測標準有 Pitch Tracking Error (PTE)、Voiced Error (VE)、Unvoiced Error (UE)、 Gross Pitch Error (GPE)和 Voicing Decision Error (VDE)五項。VE 與 UE 如下式： 30.

(39) VE =. 𝐸𝑓0 + 𝐸𝑣→𝑢 𝑁𝑣. (3-1). UE =. 𝐸𝑢→𝑣 𝑁𝑢. (3-2). 其中𝐸𝑓0 代表該音框的基頻與人工標記結果差量超過一定門檻時的錯誤，本實驗設定為 10%。𝐸𝑣→𝑢 和𝐸𝑢→𝑣 代表有無聲判斷錯誤，分母項𝑁𝑣 為人工標記為有聲，依此類推。PTE 簡單地平均 VE 與 UE，如下式： PTE =. VE + UE 2. (3-3). 然而此三項標準接以人工標記結果為準，然而大部份的學者認為沒有完美的人工基頻標記。GPE 定義如下式： GPE =. 𝐸𝑓0 𝑁𝑣𝑣. (3-4). 𝑁𝑣𝑣 代表人工標記與計算結果均為有聲狀態，有別於前三項評估標準，此方法迴避基頻定義不明確的部分。最後 VDE 如式 3-5，評估有無聲狀態的正確率。 𝐸𝑣→𝑢 + 𝐸𝑢→𝑣 𝑁. (3-5). 1.12.2. 聲調分類效能評估方式. 此實驗分為音框與音素兩個層次，是對不同單位語音進行聲調分類。音框層次的評估的方法為音框錯誤率(Frame Error Rate, FER)，而音素層次為區段錯誤率 (Segment Error Rate, SER)。. 31.

(40) 第四章單位音框之音高表示法改進本章節依序先介紹本論文題出的改善方法，再介紹各實驗設計與結果探討。. 1.13正規化互相關函數之線性預估係數第二章介紹的單位音框的音高表示法，大致上可以區分為基頻高度、基頻變化兩類。直接使用基頻序列即為基頻高度資訊，而加入∆F0表示短時間的基頻變化資訊。Kaldi 音高特徵的特色在於將發音狀態獨立出來，如 POV 特徵，而基頻高度在後處理階段套入一低通濾波器，使基頻為一連續平滑的曲線。除了 POV 與基頻，再加入∆F0成為完整的單位音框特徵。Kaldi 音高特徵巧妙地迴避音高運算時有無聲判斷錯誤，然而此方法與 RAPT 都是明確的指認基頻高度，音高追蹤所造成的錯誤仍會影響聲調分類。近年提出的基頻變化頻譜跳脫了基頻運算的框架，僅呈現基頻變化方向與變化劇烈程度，拋棄了明確的基頻高度。除了 FFV 以外， SACD[38]是透過監督式訓練的基頻變化特徵。因為深層類神經網路地蓬勃發展，近年提出以高維度的 MFCC 特徵透過深層類神經網路萃取出音高資訊，此方法所計算的音高特徵隱含著絕對音高資訊，但高維度的 MFCC 含有過於豐富的資訊，而絕對基頻高度僅是其中少部分的訊息。綜合以上觀點，FFV 與 SACD 可以呈現的基頻變化資訊，然而其餘聲調特徵無法有效地克服基頻運算錯誤造成的負面影響，故本論文進一步探討音高追蹤的過程。 32.

(41) 圖四-1 以線性預測係數記錄互相關函數曲線的音高表示法. 現今主流的音高追蹤演算法多以 NCCF 做為評估候選基週的方法，且 RAPT 與 Kaldi 演算法的 POV 資訊均認為 NCCF 的峰值大小可以決定該音框有無聲的狀態，顯示 NCCF 函數可以呈現多元的音高資訊。在第二章所介紹的 POV 資訊其實與諧波噪聲比(Harmonic to Noise Ratio, HNR)可視為相同含意[39]。假設一訊號 x(n)，則諧波相對於訊號的能量比可以表示為下式： 𝛾𝑥 =. 𝐴𝐶𝐹(𝑥, 𝜏𝑚𝑎𝑥 ) 𝐴𝐶𝐹(𝑥, 0). (4-1). 分母項為訊號與訊號本身計算自相關函數，等同於訊號的能量。分子項為所有延遲𝜏中自相關函數的最大值，可以視為諧波的能量。噪音的能量可以從總能量與諧波能量相減求得，則 HNR 可以定義為下式： 𝐻𝑁𝑅(𝑥) =. 𝛾𝑥 1 − 𝛾𝑥. (4-2). 式 4-1 可以視為所有延遲τ中的最大 NCCF 值。計算 POV 的式 2-13 與 HNR 的差別僅在於利用指數項調整函數曲線。以上的 HNR 估算方法需假設有 ACF 或 NCCF 最大值的延遲是位於基週的倍數，而 NCCF 曲線的各個區域最大值則反應不同諧波的 HNR。 33.

(42) 0 0.025. 0. 0.025. Sound pressure level (dB/Hz). Time (s). 8000. 60. original LPC order 3. 40. LPC order 6 LPC order 9. 20 LPC order 12. 0 0. 8000 Frequency (Hz). 圖四-2 訊號經 LPC 還原後之頻域能量. 此外，音高追蹤演算法多假設 NCCF 函數值的最大值容易落在基週處，而實際上常發生第一章所描素的半頻與倍頻錯誤。雖然從候選基週挑選正確的週期是困難的，但由 NCCF 曲線可以觀察出各個諧波與次諧波的週期處仍然是區域最大值。基於此觀察，吾人認為可以用線性預估係數(Linear Predictive Coefficient, LPC) 近似完整的 NCCF 函數曲線，而非必要從中選取正確基週。 LPC 與離散傅立葉變換(Discrete Fourier Transform, DFT)有著不同的特性。 DFT 方法可以完整的計算出一訊號的頻域表現，而 LPC 僅考量鄰近若干樣本與目標樣本的關係，使得 LPC 表示的訊號受頻域上能量較高的部分引導。. 1.14音高追蹤實驗與討論此實驗的目的為比較常用的音高追蹤方法，觀察音高曲線的準確與否。本實驗採用 NTNU-MAS 語料庫中的雙音節語料，挑選ㄧ位男性本國母語者做為實驗對象，經人工標記每ㄧ音檔之音高曲線，音檔長度共 200 個音節。實驗比較了 RAPT、 34.

(43) SWIPE’[40]和 Kaldi Pitch Tracker 三種演算法，其中 RAPT 與 SWIPE’採用 SPTK 套件計算[41]，而 Kaldi Pitch Tracker 是採用 Kaldi 套件實做[42]。由於 Kaldi 演算法並沒有明確地決定發聲狀態，故根據 POV 機率再以測試集調整到最好的門檻值。. PTE. VE. UE. GPE. VDE. Kaldi. 23.58%. 28.66%. 18.5%. 9.56%. 19.35%. RAPT. 17.38%. 16.69%. 18.07%. 12.2%. 13.44%. SWIPE’. 21.85%. 26.89%. 16.75%. 9.35%. 17.6%. 表 4-1 基頻擷取演算法比較實驗結果. 總體而言，SWIPE’在各項評估標準中皆優於 Kaldi。RAPT 演算法的 VE 與 VDE 兩項評估皆有較好的表現，意即較不容易出現有聲辨認為無聲的錯誤(𝐸𝑣→𝑢 )。然而 GPE 項目高於 Kaldi 與 SWIPE’，這表示 RAPT 演算法所得到的基頻較另外兩個方法不精準。而 SWIPE’方法趨勢大致與 Kaldi 相似，但可看出 VDE 項目低於 Kaldi 方法 1.75%，使得在 VE 與 UE 兩項評估中有較低的發聲狀態判斷錯誤率。從精準度問題來看，Kaldi 方法使用了較簡單的升採樣(Upsampling)獲得較 RAPT 好的精準度，然而有無聲判斷考量較 RAPT 少，缺乏有無聲狀態轉換的逞罰值。在聲調辨識任務中，通常假設音素範圍是已知，在此情況下有無聲判定的影響較小，所以 GPE 指標較具參考價值；PTE、VE 和 VDE 均受有無聲判斷的能力影響，而 GPE 僅考量在已知有聲情況下，音高追蹤演算法求得的數值是否準確。. 35.

(44) 觀察各演算法的 GPE 表線，可以看出在音高追蹤的過程可能有將近一成的音節發生半頻或倍頻錯誤，而這錯誤影響後續所有聲調辨識流程。. 1.15音框層次音高表示法相關實驗. 1.15.1. 實驗設定. 本實驗比較各種單位音框音高資訊表示法，實驗的語料庫為 MATBN。音檔經由強制對齊後，根據辭典查詢每一字詞的聲調值做為聲調標記。在此以高維度梅爾倒頻譜係數、Kaldi 音高特徵、FFV 特徵與本論文題出的方法進行比較，使用每一種特徵進行聲調分類任務。評估的指標為音框錯誤率(Frame Error Rate, FER)，類別包含五聲調與沒有聲調，共六類。分類器採用深層類神經網路，特徵向量先經過平均值與變異數正規化，再前後相鄰 10 個音框進行串接，共涵蓋 21 個音框。網路架構包含四層隱藏層，每一層含有兩千個 Tanh 單元，而到輸出層時再經過一次 Softmax 函式處理，總共訓練了 15 個循環週期(Epochs)。. 1.15.2. 實驗結果與討論. 本實驗比較了 40 維 MFCC、FFV、Kaldi 及本論文題出的音高特徵，首先以混淆矩陣觀察特徵對所有聲調的表現，由於發展集與測試集表現相當，故以發展集討論(表 4-2~4-5)。 36.

(45) 各特徵對於四聲調的表現一致，正確率由高到低依序是四、一聲、二聲與三聲，第一、二聲，整體而言四聲調分類是 Kaldi 特徵表現最佳。原因可能是 Kadli 特徵同時包含了音高高度、變化量及發音狀態的資訊，而 FFV 僅表示音高變化量資訊，而本論文提出的方法屬於音高高度與發音狀態資訊。輕聲部份很明顯的僅有 MFCC 能夠區辨出部份輕聲，而基於音高資訊的特徵均無法做出正確判斷，而此現象與輕聲本身有關；輕聲屬於音量較弱，且沒有穩定調形的聲調，在中文裡不會單獨存在，而是伴隨著前一音節出現。高維度的 MFCC 特徵含有大量的聲學資訊，除了可以區辨音素，也蘊含音量等韻律(Prosody)資訊，故可能捕捉了輕聲的弱化現象。然而這樣的觀察不能直接反應聲調辨識的表現；單位音框是包含五聲調與無聲，而實際上辨識過程可以排除無聲的可能。無聲調. 一聲. 二聲. 三聲. 四聲. 輕聲. 93.77%. 1.36%. 1.42%. 0.73%. 2.70%. 0.01%. 9.89% 60.91%. 9.15%. 2.33% 17.70%. 0.01%. 二聲. 12.14% 13.09% 56.24%. 4.71% 13.76%. 0.05%. 三聲. 13.35%. 5.19% 11.85% 44.39% 25.14%. 0.08%. 四聲. 9.91%. 8.87%. 5.03%. 5.23% 70.90%. 0.05%. 輕聲. 18.54%. 5.69%. 8.13%. 5.07% 51.32% 11.25%. 無聲調一聲. 表 4-2 MCFF40 維特徵於單位音框聲調分類的混淆矩陣(發展集). 37.

(46) 無聲調. 一聲. 二聲. 三聲. 四聲. 輕聲. 89.02%. 2.52%. 2.45%. 1.06%. 4.95%. 0.00%. 一聲. 17.33% 60.61%. 8.02%. 0.81% 13.22%. 0.00%. 二聲. 19.54% 14.83% 53.39%. 3.25%. 8.98%. 0.00%. 三聲. 21.07%. 4.22% 12.26% 38.05% 24.40%. 0.00%. 四聲. 16.62%. 7.37%. 3.31%. 4.12% 68.58%. 0.00%. 輕聲. 20.49%. 7.57% 10.42%. 7.43% 54.10%. 0.00%. 無聲調. 表 4-3 NCCF-LPC 特徵於單位音框聲調分類的混淆矩陣(發展集). 無聲調. 一聲. 二聲. 三聲. 四聲. 輕聲. 91.04%. 1.67%. 1.83%. 0.94%. 4.51%. 0.00%. 一聲. 17.62% 58.06%. 9.83%. 1.50% 12.98%. 0.00%. 二聲. 24.76% 13.76% 44.54%. 4.54% 12.39%. 0.01%. 三聲. 27.07%. 4.91% 12.86% 29.42% 25.74%. 0.00%. 四聲. 18.63%. 6.10%. 3.65%. 4.40% 67.23%. 0.00%. 輕聲. 34.93%. 5.17%. 8.36%. 4.48% 46.57%. 0.50%. 無聲調. 表 4-4 FFV 音高特徵於單位音框聲調分類的混淆矩陣(發展集). 無聲調. 一聲. 二聲. 三聲. 四聲. 輕聲. 89.70%. 1.87%. 2.29%. 1.79%. 4.35%. 0.00%. 一聲. 18.31% 63.81%. 6.88%. 0.70% 10.30%. 0.00%. 二聲. 21.40%. 7.71% 58.76%. 5.24%. 6.89%. 0.01%. 三聲. 20.34%. 2.18% 11.22% 50.15% 16.11%. 0.00%. 四聲. 17.19%. 6.46%. 2.97%. 4.87% 68.51%. 0.00%. 輕聲. 28.68%. 6.94%. 8.89% 10.49% 44.31%. 0.69%. 無聲調. 表 4-5 Kaldi 音高特徵於單位音框聲調分類的混淆矩陣(發展集). 1.15.3. 延伸至音素層次之聲調分類實驗. 延續上一小節，將 DNN 輸出層得到的事後機率向量是為新的特徵，將一個音素 38.

(47) 發展集. 測試集. MFCC40. 37.08%. 35.69%. NCCF-LPC. 64.79%. 67.82%. FFV. 40.93%. 39.45%. KALDI. 57.90%. 60.64%. 表 4-6 聲調分類正確率. 內的所有事後機率向量做算數平均則可得到新的聲調特徵。此特徵向量為音素層次，可以和其他音素層次的聲調特徵做結合；在本次實驗加入音長資訊，單位為秒。由於聲調的變化容易受前後音素所影響，故將前後兩個音素的特徵向量進行串接，則可得到 35 為的特徵向量。聲調分類器採用支持向量機(Support Vector Machine, SVM)，採用 LIBSVM Toolkit 實做[43]。核函數(Kernel Function)為輻狀基底函數(Radial Basis Function, RBF)，其中 RBF 函數的 gamma 參數是以 4 折交差驗證(4-Fold Cross Validation)尋找，搜尋範圍為[2−10 , 2+10 ]。為了避免五聲調訓練量過於偏頗，在此各聲調重新亂數挑選 3,000 筆訓練資料做為訓練集，五聲調共有 15,000 筆。在前一小節實驗中採用音高相關資訊的方法均無法有效判別輕聲，而在四聲調的表現也未全然比 MFCC 表現好，然而在音素層次的分類正確率卻是相反。其原因可能是高維度的 MFCC 特徵用有太多與聲調無關資訊，使得在聲調分類問題 39.

(48) 上一般化(Generalization)的能力較差。Kaldi 音高特徵的優點在於以少量的維度呈現豐富的資訊，在上一小節與這實驗均表現不錯表現。吾人提出的方法並沒有含蓋音高變化資訊，然而借助 DNN 學習與鄰近音框間的關係，再透過音素層次的第二次串接，使得聲調特徵可以呈現較長時間的變化，故此缺點被聲調模型修補。. 40.

(49) 第五章子區間輪廓特徵之改進有研究認為在聲調辨識的過程中，僅需要知道音高大略的變化，故提出子區間輪廓特徵，以取代傳統使用完整音高曲線的單位音框特徵。此方法提出時即有良好的成效，而本論文欲進一步延伸此精神。. 1.16子區間音高偏度與峰度特徵本論文嘗試了數個子區間音高輪廓特徵，如表 5-1 所示。Ms 為音高的平均值，用以區別高低聲調，Ds 可以表示子區間音高變化方向，圖 5-1 為範例。除了三個典型的特徵，本論文提出以子區間音高分布的偏度(Skewness)與峰度(Kurtosis)做為聲調特徵。子區間偏度與峰度特徵如下式： 𝐸(𝑥 − 𝜇)3 𝑆(𝑥) = 𝜎3. (5-1). 𝐸(𝑥 − 𝜇)4 𝐾(𝑥) = 𝜎4. (5-2). 其中 x 為子區間音高，式 5-1 即三階動差，式 5-2 即四階動差。偏度可以顯示該子區間的音高分部是否對稱；當音高有往上或下的加速度時，子區間內的音高分布呈現左傾或右傾狀態。峰度可以顯示該區間的音高分布是否集中，若峰度低則可能該區間變化範圍較大。. 41.

(50) 圖 5-1 特徵 Ms 與 Ds. 1.17子區間輪廓特徵相關實驗. 1.17.1. 實驗設定. 本實驗採用 MAS 語料庫的雙音節部份，挑選 15 位女性與 10 位男性外籍學生的測驗音檔做為聲調確認實驗。實驗語料分為兩個訓練集與測試集，其中訓練集有 8 女 5 男，而測試集有 7 女 5 男。音節數量如第三章所敘述，每一位學生錄製 100 雙音節發音，故訓練集有 1,300 個音節，測試集有 1,200 個音節。實驗方法是模擬電腦閱卷，測驗內容是學生複誦題目指示的發音。評估的標準是比較電腦與人工批改的一致性，每一題只做接受與否的兩類判斷，評估方法如下： ACC =. 𝑇𝑇 + 𝐹𝐹 𝑇𝑇 + 𝑇𝐹 + 𝐹𝑇 + 𝐹𝐹. (5-3). 其中 TF 為將正確發音誤判為錯誤發音，其餘依此類推。 42.

(51) 特徵說明 Ms. 子區間內音高之平均值. Ds. 子區間結尾與開頭音高差量. Ss. 子區間內音高分布的偏度(Skewness). S. 該音節音高分布的偏度. Ks. 子區間內音高分布的峰度(Kurtosis). K. 該音節音高分布的峰度. DR. 兩音節音長比值. LER. 兩音節對數能量比值表 5-1 特徵對應符號與說明. 由於本實驗旨在觀察各特徵直接與聲調確認的關係，故採用高斯混合模型 (Gaussian Mixture Model, GMM)建立聲調模型，並依樣本數量不同給予混合數 1 至 3 個不等。建立模型時考量位置資訊，即分別建立兩音節的聲調模型；第一個音節有四種聲調，第二音節含有五種聲調類型，並對 20 個情況建立正確與錯誤的模型，全部共 40 個 GMM。由於此實驗比較的特徵多源於音高曲線，本實驗也加入了音節層次的 MVN 與 HEQ 正規化方法進行比較。正規化後的音高曲線在區分為五個子區間，並計算各特徵。 43.

(52) 正規化方法特徵組合. Raw Pitch. MVN. HEQ. Ms+Ds. 73.21%. 81.18%. 74.17%. Ms+Ds+Ss. 76.23%. 81.23%. 80.12%. Ms+Ds+S. 73.23%. 81.04%. 75.28%. Ms+Ds+Ks. 73.79%. 81.23%. 78.46%. Ms+Ds+K. 74.62%. 80.72%. 77.21%. Ms+Ds+DR. 74.17%. 80.81%. 78.69%. Ms+Ds+LER. 74.63%. 80.72%. 77.03%. ALL. 75.03%. 82.38%. 81.69%. 表 5-2 聲調確認實驗結果. 1.17.2. 實驗結果. 本實驗以帶表音高高度與變化資訊的 Ms 和 Ds 為基礎，並結合特徵與不同音高正規化方法交差比較，實驗結果如表 5-2 所示。整體而言，可以看出任特徵組合下平均值與變異數等化法皆優於其餘兩者，其依原因可能是統計圖等化法需要有足夠的統計量才能準確估測累積分布函數值(Cumulative Distribution Function, CDF)。本論文提出的子區間音高偏度特徵表現亮眼；在未正規化時正確率的絕對提 44.

(53) 升達 3.02%，而在統計圖等化法的設定中絕對提升率達 5.95%。由此可以看出以偏度表示音高變化過程擁有良好的強健性。而子區間峰度資訊在未正規化的情況下進步幅度有限，若經過 HEQ 正規化可以使正確率絕對提升達到 4.29%。. 45.

(54) 第六章結論與未來展望在音高正規化方面，良好的正規化方法可以使聲調辨認應用的範圍更加的多樣。整體而言，本論文比較的正規化方法多較未正規化時有明顯改善，然而兩個方法在較短的語音中仍較難獲得準確的統計資訊，未來仍須發展避免統計量不足的正規化方法。在聲調特徵方面，由第一個實驗結果可以看出基頻擷取的困難，即便是複雜的 RAPT 演算法仍有 13.44%的發聲狀態與人工標記不符。從 RAPT 與 KALDI 演算法中可以發現，動態規化法選取基本週期階段也是屬於硬決策(Hard decision)，而本論文題出的方法可以避免此決策的錯誤。除了單位音框的音高特徵，如何將抽象的 FFV 與吾人提出的 NCCF-LPC 特徵延伸至音節層次仍是個課題。過去音高輪廓特徵相關的研究多以音節中的各式統計資訊做為特徵，並獲得良好改善，而現今單位音框特徵多依賴馬可夫模型或深層類神經網路，並沒有明確地結合音高輪廓特徵的優點。各式單位音框特徵和輪廓特徵提供了不同層次的聲調資訊，應整合各類特徵的優點以發揮最大的成效。由第五章的實驗可以看出三階動差資訊對於未正規化的音高有顯著改善，而未來也可嘗試將此類統計式特徵套用於 FFV 或 NCCF-LPC 等多維度的表示法。音高屬於一種韻律資訊，除了電腦輔助發音訓練和語音辨識以外，還有許多應用是以韻律資訊為主，例如語者辨識和情緒辨識等。未來可將實驗推廣至各種需要韻律資訊的環境。. 46.

(55) 參考文獻 [1] 林燾、王理嘉, 語音學教程. 臺北: 五南圖書出版有限公司, 1995. [2] Dinoj Surendran and Gina-Anne Levow, "Can voice quality improve mandarin tone recognition?," in Proc. ICASSP, Las Vegas, pp. 4177-4180, 2008. [3] Ruo-Xiao Yang, "The phonation factor in the categorical perception of mandarin tones," in Proc. of ICPhS XVII, Hong Kong, 2011. [4] David Talkin, "A robust algorithm for pitch tracking (RAPT)," in Speech coding and synthesis.: Elsevier Science, 1995, vol. 495, p. 518. [5] Paul Boersma, "Praat, a system for doing phonetics by computer.," Glot International, vol. 5, no. 9/10, pp. 341-345, Jun 2001. [6] 趙元任, 中國話的文法. 台北: 敦煌書局, 1981. [7] 古鴻炎、張小芬、吳俊欣, "仿趙氏音高尺度之基週軌跡正規化方法及其應用," 於第十六屆自然語言與語音處理研討會, 台北, 2004. [8] Si Wei, Hai-Kun Wang, Qing-Sheng Liu, and Ren-Hua Wang, "CDF-matching for automatic tone error detection in mandarin call system," in Proc. ICASSP, vol. 4, Honolulu, pp. IV–205-IV–208, 2007. [9] Yow-Bang Wang and Lin-Shan Lee, "Mandarin tone recognition using affineinvariant prosodic features and tone posteriorgram," in Proc. INTERSPEECH, 47.