• 沒有找到結果。

音框層次音高表示法相關實驗

第四章 單位音框之音高表示法改進

1.15 音框層次音高表示法相關實驗

1.15.1. 實驗設定

本實驗比較各種單位音框音高資訊表示法,實驗的語料庫為 MATBN。音檔經由 強制對齊後,根據辭典查詢每一字詞的聲調值做為聲調標記。在此以高維度梅爾 倒頻譜係數、Kaldi 音高特徵、FFV 特徵與本論文題出的方法進行比較,使用每一 種特徵進行聲調分類任務。評估的指標為音框錯誤率(Frame Error Rate, FER),類 別包含五聲調與沒有聲調,共六類。

分類器採用深層類神經網路,特徵向量先經過平均值與變異數正規化,再前 後相鄰 10 個音框進行串接,共涵蓋 21 個音框。網路架構包含四層隱藏層,每一 層含有兩千個 Tanh 單元,而到輸出層時再經過一次 Softmax 函式處理,總共訓練 了 15 個循環週期(Epochs)。

1.15.2. 實驗結果與討論

本實驗比較了 40 維 MFCC、FFV、Kaldi 及本論文題出的音高特徵,首先以混淆 矩陣觀察特徵對所有聲調的表現,由於發展集與測試集表現相當,故以發展集討 論(表 4-2~4-5)。

37

各特徵對於四聲調的表現一致,正確率由高到低依序是四、一聲、二聲與三 聲,第一、二聲,整體而言四聲調分類是 Kaldi 特徵表現最佳。原因可能是 Kadli 特徵同時包含了音高高度、變化量及發音狀態的資訊,而 FFV 僅表示音高變化量 資訊,而本論文提出的方法屬於音高高度與發音狀態資訊。輕聲部份很明顯的僅 有 MFCC 能夠區辨出部份輕聲,而基於音高資訊的特徵均無法做出正確判斷,而 此現象與輕聲本身有關;輕聲屬於音量較弱,且沒有穩定調形的聲調,在中文裡 不會單獨存在,而是伴隨著前一音節出現。高維度的 MFCC 特徵含有大量的聲學 資訊,除了可以區辨音素,也蘊含音量等韻律(Prosody)資訊,故可能捕捉了輕聲 的弱化現象。

然而這樣的觀察不能直接反應聲調辨識的表現;單位音框是包含五聲調與無

聲,而實際上辨識過程可以排除無聲的可能。

無聲調 一聲 二聲 三聲 四聲 輕聲 無聲調 93.77% 1.36% 1.42% 0.73% 2.70% 0.01%

一聲 9.89% 60.91% 9.15% 2.33% 17.70% 0.01%

二聲 12.14% 13.09% 56.24% 4.71% 13.76% 0.05%

三聲 13.35% 5.19% 11.85% 44.39% 25.14% 0.08%

四聲 9.91% 8.87% 5.03% 5.23% 70.90% 0.05%

輕聲 18.54% 5.69% 8.13% 5.07% 51.32% 11.25%

表 4-2 MCFF40 維特徵於單位音框聲調分類的混淆矩陣(發展集)

38

無聲調 一聲 二聲 三聲 四聲 輕聲

無聲調 89.02% 2.52% 2.45% 1.06% 4.95% 0.00%

一聲 17.33% 60.61% 8.02% 0.81% 13.22% 0.00%

二聲 19.54% 14.83% 53.39% 3.25% 8.98% 0.00%

三聲 21.07% 4.22% 12.26% 38.05% 24.40% 0.00%

四聲 16.62% 7.37% 3.31% 4.12% 68.58% 0.00%

輕聲 20.49% 7.57% 10.42% 7.43% 54.10% 0.00%

表 4-3 NCCF-LPC 特徵於單位音框聲調分類的混淆矩陣(發展集)

無聲調 一聲 二聲 三聲 四聲 輕聲

無聲調 91.04% 1.67% 1.83% 0.94% 4.51% 0.00%

一聲 17.62% 58.06% 9.83% 1.50% 12.98% 0.00%

二聲 24.76% 13.76% 44.54% 4.54% 12.39% 0.01%

三聲 27.07% 4.91% 12.86% 29.42% 25.74% 0.00%

四聲 18.63% 6.10% 3.65% 4.40% 67.23% 0.00%

輕聲 34.93% 5.17% 8.36% 4.48% 46.57% 0.50%

表 4-4 FFV 音高特徵於單位音框聲調分類的混淆矩陣(發展集)

無聲調 一聲 二聲 三聲 四聲 輕聲

無聲調 89.70% 1.87% 2.29% 1.79% 4.35% 0.00%

一聲 18.31% 63.81% 6.88% 0.70% 10.30% 0.00%

二聲 21.40% 7.71% 58.76% 5.24% 6.89% 0.01%

三聲 20.34% 2.18% 11.22% 50.15% 16.11% 0.00%

四聲 17.19% 6.46% 2.97% 4.87% 68.51% 0.00%

輕聲 28.68% 6.94% 8.89% 10.49% 44.31% 0.69%

表 4-5 Kaldi 音高特徵於單位音框聲調分類的混淆矩陣(發展集)

1.15.3. 延伸至音素層次之聲調分類實驗

延續上一小節,將 DNN 輸出層得到的事後機率向量是為新的特徵,將一個音素

39

發展集 測試集 MFCC40 37.08% 35.69%

NCCF-LPC 64.79% 67.82%

FFV 40.93% 39.45%

KALDI 57.90% 60.64%

表 4-6 聲調分類正確率

內的所有事後機率向量做算數平均則可得到新的聲調特徵。此特徵向量為音素層 次,可以和其他音素層次的聲調特徵做結合;在本次實驗加入音長資訊,單位為 秒。

由於聲調的變化容易受前後音素所影響,故將前後兩個音素的特徵向量進行 串接,則可得到 35 為的特徵向量。聲調分類器採用支持向量機(Support Vector

Machine, SVM),採用 LIBSVM Toolkit 實做[43]。核函數(Kernel Function)為輻狀 基底函數(Radial Basis Function, RBF),其中 RBF 函數的 gamma 參數是以 4 折交 差驗證(4-Fold Cross Validation)尋找,搜尋範圍為[2−10, 2+10]。為了避免五聲調訓

練量過於偏頗,在此各聲調重新亂數挑選 3,000 筆訓練資料做為訓練集,五聲調 共有 15,000 筆。

在前一小節實驗中採用音高相關資訊的方法均無法有效判別輕聲,而在四聲 調的表現也未全然比 MFCC 表現好,然而在音素層次的分類正確率卻是相反。其 原因可能是高維度的 MFCC 特徵用有太多與聲調無關資訊,使得在聲調分類問題

40

上一般化(Generalization)的能力較差。Kaldi 音高特徵的優點在於以少量的維度呈 現豐富的資訊,在上一小節與這實驗均表現不錯表現。吾人提出的方法並沒有含 蓋音高變化資訊,然而借助 DNN 學習與鄰近音框間的關係,再透過音素層次的 第二次串接,使得聲調特徵可以呈現較長時間的變化,故此缺點被聲調模型修補。

41

相關文件