子區間輪廓特徵之改進 - 聲調特徵擷取技術與其在中文聲調辨識應用之研究

有研究認為在聲調辨識的過程中，僅需要知道音高大略的變化，故提出子區間輪廓特徵，以取代傳統使用完整音高曲線的單位音框特徵。此方法提出時即有良好的成效，而本論文欲進一步延伸此精神。

1.16 子區間音高偏度與峰度特徵

本論文嘗試了數個子區間音高輪廓特徵，如表 5-1 所示。Ms 為音高的平均值，

用以區別高低聲調，Ds 可以表示子區間音高變化方向，圖 5-1 為範例。除了三個典型的特徵，本論文提出以子區間音高分布的偏度(Skewness)與峰度(Kurtosis)做為聲調特徵。子區間偏度與峰度特徵如下式：

𝑆(𝑥) = 𝐸(𝑥 − 𝜇)³

𝜎³ (5-1)

𝐾(𝑥) =𝐸(𝑥 − 𝜇)⁴

𝜎⁴ (5-2)

其中 x 為子區間音高，式 5-1 即三階動差，式 5-2 即四階動差。偏度可以顯示該 子區間的音高分部是否對稱；當音高有往上或下的加速度時，子區間內的音高分布呈現左傾或右傾狀態。峰度可以顯示該區間的音高分布是否集中，若峰度低則可能該區間變化範圍較大。

圖 5-1 特徵 Ms 與 Ds

1.17 子區間輪廓特徵相關實驗

1.17.1. 實驗設定

本實驗採用 MAS 語料庫的雙音節部份，挑選 15 位女性與 10 位男性外籍學生的測驗音檔做為聲調確認實驗。實驗語料分為兩個訓練集與測試集，其中訓練集有

8 女 5 男，而測試集有 7 女 5 男。音節數量如第三章所敘述，每一位學生錄製 100 雙音節發音，故訓練集有 1,300 個音節，測試集有 1,200 個音節。

實驗方法是模擬電腦閱卷，測驗內容是學生複誦題目指示的發音。評估的標準是比較電腦與人工批改的一致性，每一題只做接受與否的兩類判斷，評估方法如下：

ACC = 𝑇𝑇 + 𝐹𝐹

𝑇𝑇 + 𝑇𝐹 + 𝐹𝑇 + 𝐹𝐹 (5-3)

其中 TF 為將正確發音誤判為錯誤發音，其餘依此類推。

特徵說明

Ms 子區間內音高之平均值 Ds 子區間結尾與開頭音高差量

Ss 子區間內音高分布的偏度(Skewness)

S 該音節音高分布的偏度

Ks 子區間內音高分布的峰度(Kurtosis) K 該音節音高分布的峰度

DR 兩音節音長比值

LER 兩音節對數能量比值

表 5-1 特徵對應符號與說明

由於本實驗旨在觀察各特徵直接與聲調確認的關係，故採用高斯混合模型

(Gaussian Mixture Model, GMM)建立聲調模型，並依樣本數量不同給予混合數 1 至 3 個不等。建立模型時考量位置資訊，即分別建立兩音節的聲調模型；第一個音節有四種聲調，第二音節含有五種聲調類型，並對 20 個情況建立正確與錯誤的模型，全部共 40 個 GMM。

由於此實驗比較的特徵多源於音高曲線，本實驗也加入了音節層次的 MVN 與 HEQ 正規化方法進行比較。正規化後的音高曲線在區分為五個子區間，並計算各特徵。

正規化方法

特徵組合 Raw Pitch MVN HEQ

Ms+Ds 73.21% 81.18% 74.17%

Ms+Ds+Ss 76.23% 81.23% 80.12%

Ms+Ds+S 73.23% 81.04% 75.28%

Ms+Ds+Ks 73.79% 81.23% 78.46%

Ms+Ds+K 74.62% 80.72% 77.21%

Ms+Ds+DR 74.17% 80.81% 78.69%

Ms+Ds+LER 74.63% 80.72% 77.03%

ALL 75.03% 82.38% 81.69%

表 5-2 聲調確認實驗結果

1.17.2. 實驗結果

本實驗以帶表音高高度與變化資訊的 Ms 和 Ds 為基礎，並結合特徵與不同音高正規化方法交差比較，實驗結果如表 5-2 所示。整體而言，可以看出任特徵組合下平均值與變異數等化法皆優於其餘兩者，其依原因可能是統計圖等化法需要有足夠的統計量才能準確估測累積分布函數值(Cumulative Distribution Function,

CDF)。

本論文提出的子區間音高偏度特徵表現亮眼；在未正規化時正確率的絕對提

升達 3.02%，而在統計圖等化法的設定中絕對提升率達 5.95%。由此可以看出以偏度表示音高變化過程擁有良好的強健性。而子區間峰度資訊在未正規化的情況下進步幅度有限，若經過 HEQ 正規化可以使正確率絕對提升達到 4.29%。

在文檔中聲調特徵擷取技術與其在中文聲調辨識應用之研究 (頁 49-54)