音框層次音高表示法相關實驗

第四章單位音框之音高表示法改進

1.15 音框層次音高表示法相關實驗

1.15.1. 實驗設定

本實驗比較各種單位音框音高資訊表示法，實驗的語料庫為 MATBN。音檔經由強制對齊後，根據辭典查詢每一字詞的聲調值做為聲調標記。在此以高維度梅爾倒頻譜係數、Kaldi 音高特徵、FFV 特徵與本論文題出的方法進行比較，使用每一種特徵進行聲調分類任務。評估的指標為音框錯誤率(Frame Error Rate, FER)，類別包含五聲調與沒有聲調，共六類。

分類器採用深層類神經網路，特徵向量先經過平均值與變異數正規化，再前後相鄰 10 個音框進行串接，共涵蓋 21 個音框。網路架構包含四層隱藏層，每一層含有兩千個 Tanh 單元，而到輸出層時再經過一次 Softmax 函式處理，總共訓練了 15 個循環週期(Epochs)。

1.15.2. 實驗結果與討論

本實驗比較了 40 維 MFCC、FFV、Kaldi 及本論文題出的音高特徵，首先以混淆矩陣觀察特徵對所有聲調的表現，由於發展集與測試集表現相當，故以發展集討論(表 4-2~4-5)。

各特徵對於四聲調的表現一致，正確率由高到低依序是四、一聲、二聲與三聲，第一、二聲，整體而言四聲調分類是 Kaldi 特徵表現最佳。原因可能是 Kadli 特徵同時包含了音高高度、變化量及發音狀態的資訊，而 FFV 僅表示音高變化量資訊，而本論文提出的方法屬於音高高度與發音狀態資訊。輕聲部份很明顯的僅有 MFCC 能夠區辨出部份輕聲，而基於音高資訊的特徵均無法做出正確判斷，而此現象與輕聲本身有關；輕聲屬於音量較弱，且沒有穩定調形的聲調，在中文裡不會單獨存在，而是伴隨著前一音節出現。高維度的 MFCC 特徵含有大量的聲學資訊，除了可以區辨音素，也蘊含音量等韻律(Prosody)資訊，故可能捕捉了輕聲的弱化現象。

然而這樣的觀察不能直接反應聲調辨識的表現；單位音框是包含五聲調與無

聲，而實際上辨識過程可以排除無聲的可能。

無聲調一聲二聲三聲四聲輕聲無聲調 93.77% 1.36% 1.42% 0.73% 2.70% 0.01%

一聲 9.89% 60.91% 9.15% 2.33% 17.70% 0.01%

二聲 12.14% 13.09% 56.24% 4.71% 13.76% 0.05%

三聲 13.35% 5.19% 11.85% 44.39% 25.14% 0.08%

四聲 9.91% 8.87% 5.03% 5.23% 70.90% 0.05%

輕聲 18.54% 5.69% 8.13% 5.07% 51.32% 11.25%

表 4-2 MCFF40 維特徵於單位音框聲調分類的混淆矩陣(發展集)

無聲調一聲二聲三聲四聲輕聲

無聲調 89.02% 2.52% 2.45% 1.06% 4.95% 0.00%

一聲 17.33% 60.61% 8.02% 0.81% 13.22% 0.00%

二聲 19.54% 14.83% 53.39% 3.25% 8.98% 0.00%

三聲 21.07% 4.22% 12.26% 38.05% 24.40% 0.00%

四聲 16.62% 7.37% 3.31% 4.12% 68.58% 0.00%

輕聲 20.49% 7.57% 10.42% 7.43% 54.10% 0.00%

表 4-3 NCCF-LPC 特徵於單位音框聲調分類的混淆矩陣(發展集)

無聲調一聲二聲三聲四聲輕聲

無聲調 91.04% 1.67% 1.83% 0.94% 4.51% 0.00%

一聲 17.62% 58.06% 9.83% 1.50% 12.98% 0.00%

二聲 24.76% 13.76% 44.54% 4.54% 12.39% 0.01%

三聲 27.07% 4.91% 12.86% 29.42% 25.74% 0.00%

四聲 18.63% 6.10% 3.65% 4.40% 67.23% 0.00%

輕聲 34.93% 5.17% 8.36% 4.48% 46.57% 0.50%

表 4-4 FFV 音高特徵於單位音框聲調分類的混淆矩陣(發展集)

無聲調一聲二聲三聲四聲輕聲

無聲調 89.70% 1.87% 2.29% 1.79% 4.35% 0.00%

一聲 18.31% 63.81% 6.88% 0.70% 10.30% 0.00%

二聲 21.40% 7.71% 58.76% 5.24% 6.89% 0.01%

三聲 20.34% 2.18% 11.22% 50.15% 16.11% 0.00%

四聲 17.19% 6.46% 2.97% 4.87% 68.51% 0.00%

輕聲 28.68% 6.94% 8.89% 10.49% 44.31% 0.69%

表 4-5 Kaldi 音高特徵於單位音框聲調分類的混淆矩陣(發展集)

1.15.3. 延伸至音素層次之聲調分類實驗

延續上一小節，將 DNN 輸出層得到的事後機率向量是為新的特徵，將一個音素

發展集測試集 MFCC40 37.08% 35.69%

NCCF-LPC 64.79% 67.82%

FFV 40.93% 39.45%

KALDI 57.90% 60.64%

表 4-6 聲調分類正確率

內的所有事後機率向量做算數平均則可得到新的聲調特徵。此特徵向量為音素層次，可以和其他音素層次的聲調特徵做結合；在本次實驗加入音長資訊，單位為秒。

由於聲調的變化容易受前後音素所影響，故將前後兩個音素的特徵向量進行串接，則可得到 35 為的特徵向量。聲調分類器採用支持向量機(Support Vector

Machine, SVM)，採用 LIBSVM Toolkit 實做[43]。核函數(Kernel Function)為輻狀基底函數(Radial Basis Function, RBF)，其中 RBF 函數的 gamma 參數是以 4 折交差驗證(4-Fold Cross Validation)尋找，搜尋範圍為[2⁻¹⁰, 2⁺¹⁰]。為了避免五聲調訓

練量過於偏頗，在此各聲調重新亂數挑選 3,000 筆訓練資料做為訓練集，五聲調共有 15,000 筆。

在前一小節實驗中採用音高相關資訊的方法均無法有效判別輕聲，而在四聲調的表現也未全然比 MFCC 表現好，然而在音素層次的分類正確率卻是相反。其原因可能是高維度的 MFCC 特徵用有太多與聲調無關資訊，使得在聲調分類問題

上一般化(Generalization)的能力較差。Kaldi 音高特徵的優點在於以少量的維度呈現豐富的資訊，在上一小節與這實驗均表現不錯表現。吾人提出的方法並沒有含蓋音高變化資訊，然而借助 DNN 學習與鄰近音框間的關係，再透過音素層次的第二次串接，使得聲調特徵可以呈現較長時間的變化，故此缺點被聲調模型修補。

在文檔中聲調特徵擷取技術與其在中文聲調辨識應用之研究 (頁 44-49)

第四章 單位音框之音高表示法改進

1.15 音框層次音高表示法相關實驗

第四章單位音框之音高表示法改進