有研究認為在聲調辨識的過程中,僅需要知道音高大略的變化,故提出子區間輪 廓特徵,以取代傳統使用完整音高曲線的單位音框特徵。此方法提出時即有良好 的成效,而本論文欲進一步延伸此精神。
1.16 子區間音高偏度與峰度特徵
本論文嘗試了數個子區間音高輪廓特徵,如表 5-1 所示。Ms 為音高的平均值,
用以區別高低聲調,Ds 可以表示子區間音高變化方向,圖 5-1 為範例。除了三個 典型的特徵,本論文提出以子區間音高分布的偏度(Skewness)與峰度(Kurtosis)做 為聲調特徵。子區間偏度與峰度特徵如下式:
𝑆(𝑥) = 𝐸(𝑥 − 𝜇)3
𝜎3 (5-1)
𝐾(𝑥) =𝐸(𝑥 − 𝜇)4
𝜎4 (5-2)
其中 x 為子區間音高,式 5-1 即三階動差,式 5-2 即四階動差。偏度可以顯示該 子區間的音高分部是否對稱;當音高有往上或下的加速度時,子區間內的音高分 布呈現左傾或右傾狀態。峰度可以顯示該區間的音高分布是否集中,若峰度低則 可能該區間變化範圍較大。
42
圖 5-1 特徵 Ms 與 Ds
1.17 子區間輪廓特徵相關實驗
1.17.1. 實驗設定
本實驗採用 MAS 語料庫的雙音節部份,挑選 15 位女性與 10 位男性外籍學生的 測驗音檔做為聲調確認實驗。實驗語料分為兩個訓練集與測試集,其中訓練集有
8 女 5 男,而測試集有 7 女 5 男。音節數量如第三章所敘述,每一位學生錄製 100 雙音節發音,故訓練集有 1,300 個音節,測試集有 1,200 個音節。
實驗方法是模擬電腦閱卷,測驗內容是學生複誦題目指示的發音。評估的標 準是比較電腦與人工批改的一致性,每一題只做接受與否的兩類判斷,評估方法 如下:
ACC = 𝑇𝑇 + 𝐹𝐹
𝑇𝑇 + 𝑇𝐹 + 𝐹𝑇 + 𝐹𝐹 (5-3)
其中 TF 為將正確發音誤判為錯誤發音,其餘依此類推。
43
特徵 說明
Ms 子區間內音高之平均值 Ds 子區間結尾與開頭音高差量
Ss 子區間內音高分布的偏度(Skewness)
S 該音節音高分布的偏度
Ks 子區間內音高分布的峰度(Kurtosis) K 該音節音高分布的峰度
DR 兩音節音長比值
LER 兩音節對數能量比值
表 5-1 特徵對應符號與說明
由於 本實驗旨在觀察各特徵直接與聲調確認的關係,故採用高斯混合模型
(Gaussian Mixture Model, GMM)建立聲調模型,並依樣本數量不同給予混合數 1 至 3 個不等。建立模型時考量位置資訊,即分別建立兩音節的聲調模型;第一個 音節有四種聲調,第二音節含有五種聲調類型,並對 20 個情況建立正確與錯誤的 模型,全部共 40 個 GMM。
由於此實驗比較的特徵多源於音高曲線,本實驗也加入了音節層次的 MVN 與 HEQ 正規化方法進行比較。正規化後的音高曲線在區分為五個子區間,並計 算各特徵。
44
正規化方法
特徵組合 Raw Pitch MVN HEQ
Ms+Ds 73.21% 81.18% 74.17%
Ms+Ds+Ss 76.23% 81.23% 80.12%
Ms+Ds+S 73.23% 81.04% 75.28%
Ms+Ds+Ks 73.79% 81.23% 78.46%
Ms+Ds+K 74.62% 80.72% 77.21%
Ms+Ds+DR 74.17% 80.81% 78.69%
Ms+Ds+LER 74.63% 80.72% 77.03%
ALL 75.03% 82.38% 81.69%
表 5-2 聲調確認實驗結果
1.17.2. 實驗結果
本實驗以帶表音高高度與變化資訊的 Ms 和 Ds 為基礎,並結合特徵與不同音高 正規化方法交差比較,實驗結果如表 5-2 所示。整體而言,可以看出任特徵組合 下平均值與變異數等化法皆優於其餘兩者,其依原因可能是統計圖等化法需要有 足夠的統計量才能準確估測累積分布函數值(Cumulative Distribution Function,
CDF)。
本論文提出的子區間音高偏度特徵表現亮眼;在未正規化時正確率的絕對提
45
升達 3.02%,而在統計圖等化法的設定中絕對提升率達 5.95%。由此可以看出以 偏度表示音高變化過程擁有良好的強健性。而子區間峰度資訊在未正規化的情況 下進步幅度有限,若經過 HEQ 正規化可以使正確率絕對提升達到 4.29%。
46