• 沒有找到結果。

有研究認為在聲調辨識的過程中,僅需要知道音高大略的變化,故提出子區間輪 廓特徵,以取代傳統使用完整音高曲線的單位音框特徵。此方法提出時即有良好 的成效,而本論文欲進一步延伸此精神。

1.16 子區間音高偏度與峰度特徵

本論文嘗試了數個子區間音高輪廓特徵,如表 5-1 所示。Ms 為音高的平均值,

用以區別高低聲調,Ds 可以表示子區間音高變化方向,圖 5-1 為範例。除了三個 典型的特徵,本論文提出以子區間音高分布的偏度(Skewness)與峰度(Kurtosis)做 為聲調特徵。子區間偏度與峰度特徵如下式:

𝑆(𝑥) = 𝐸(𝑥 − 𝜇)3

𝜎3 (5-1)

𝐾(𝑥) =𝐸(𝑥 − 𝜇)4

𝜎4 (5-2)

其中 x 為子區間音高,式 5-1 即三階動差,式 5-2 即四階動差。偏度可以顯示該 子區間的音高分部是否對稱;當音高有往上或下的加速度時,子區間內的音高分 布呈現左傾或右傾狀態。峰度可以顯示該區間的音高分布是否集中,若峰度低則 可能該區間變化範圍較大。

42

圖 5-1 特徵 Ms 與 Ds

1.17 子區間輪廓特徵相關實驗

1.17.1. 實驗設定

本實驗採用 MAS 語料庫的雙音節部份,挑選 15 位女性與 10 位男性外籍學生的 測驗音檔做為聲調確認實驗。實驗語料分為兩個訓練集與測試集,其中訓練集有

8 女 5 男,而測試集有 7 女 5 男。音節數量如第三章所敘述,每一位學生錄製 100 雙音節發音,故訓練集有 1,300 個音節,測試集有 1,200 個音節。

實驗方法是模擬電腦閱卷,測驗內容是學生複誦題目指示的發音。評估的標 準是比較電腦與人工批改的一致性,每一題只做接受與否的兩類判斷,評估方法 如下:

ACC = 𝑇𝑇 + 𝐹𝐹

𝑇𝑇 + 𝑇𝐹 + 𝐹𝑇 + 𝐹𝐹 (5-3)

其中 TF 為將正確發音誤判為錯誤發音,其餘依此類推。

43

特徵 說明

Ms 子區間內音高之平均值 Ds 子區間結尾與開頭音高差量

Ss 子區間內音高分布的偏度(Skewness)

S 該音節音高分布的偏度

Ks 子區間內音高分布的峰度(Kurtosis) K 該音節音高分布的峰度

DR 兩音節音長比值

LER 兩音節對數能量比值

表 5-1 特徵對應符號與說明

由於 本實驗旨在觀察各特徵直接與聲調確認的關係,故採用高斯混合模型

(Gaussian Mixture Model, GMM)建立聲調模型,並依樣本數量不同給予混合數 1 至 3 個不等。建立模型時考量位置資訊,即分別建立兩音節的聲調模型;第一個 音節有四種聲調,第二音節含有五種聲調類型,並對 20 個情況建立正確與錯誤的 模型,全部共 40 個 GMM。

由於此實驗比較的特徵多源於音高曲線,本實驗也加入了音節層次的 MVN 與 HEQ 正規化方法進行比較。正規化後的音高曲線在區分為五個子區間,並計 算各特徵。

44

正規化方法

特徵組合 Raw Pitch MVN HEQ

Ms+Ds 73.21% 81.18% 74.17%

Ms+Ds+Ss 76.23% 81.23% 80.12%

Ms+Ds+S 73.23% 81.04% 75.28%

Ms+Ds+Ks 73.79% 81.23% 78.46%

Ms+Ds+K 74.62% 80.72% 77.21%

Ms+Ds+DR 74.17% 80.81% 78.69%

Ms+Ds+LER 74.63% 80.72% 77.03%

ALL 75.03% 82.38% 81.69%

表 5-2 聲調確認實驗結果

1.17.2. 實驗結果

本實驗以帶表音高高度與變化資訊的 Ms 和 Ds 為基礎,並結合特徵與不同音高 正規化方法交差比較,實驗結果如表 5-2 所示。整體而言,可以看出任特徵組合 下平均值與變異數等化法皆優於其餘兩者,其依原因可能是統計圖等化法需要有 足夠的統計量才能準確估測累積分布函數值(Cumulative Distribution Function,

CDF)。

本論文提出的子區間音高偏度特徵表現亮眼;在未正規化時正確率的絕對提

45

升達 3.02%,而在統計圖等化法的設定中絕對提升率達 5.95%。由此可以看出以 偏度表示音高變化過程擁有良好的強健性。而子區間峰度資訊在未正規化的情況 下進步幅度有限,若經過 HEQ 正規化可以使正確率絕對提升達到 4.29%。

46

相關文件