基於混淆資訊之權重式線性鑑別分析實驗結果 - 實驗結果 - 基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識

5.3 實驗結果

5.3.3 基於混淆資訊之權重式線性鑑別分析實驗結果

在三種基於混淆資訊之權重式線性鑑別分析的方法中，混淆矩陣是依下列步驟取得：我們先以LDA 產生訓練語料的語音特徵，再以訓練出來的聲學模型對訓練語料本身進行自由音節辨識(free syllable decoding)並以強迫對齊(forced alignment)技術產生每一語句內的音素邊界(phone boundary)和狀態邊界(state boundary)。最後，混淆矩陣則是依據所有音框之類別標記與原正確答案作對比

表5.7 PWLDA 在不同 k 值設定下之正確率(%)

PWLDA 無MLLT 之正確率有MLLT 之正確率

音節字詞音節字詞

 1

k 76.87 68.99 60.13 79.25 71.68 62.71

 2

k 76.64 68.86 59.90 79.36 72.07 63.39

 3

k 77.33 69.57 60.60 79.16 71.70 62.94

 4

k 77.00 69.15 59.93 78.93 71.47 62.69

 5

k 77.41 69.61 60.68 79.20 71.72 62.94

 6

k 76.95 69.35 60.66 79.24 71.86 63.16

而得。

在第一種方法：基於經驗錯誤率之權重式線性鑑別分析(EER-WLDA)中，我們將



值在0 到 1 之間設定了 10 種，它們之字正確率的分佈並無明顯規則，如表5.7。在第二種方法：距離－錯誤耦合之權重式線性鑑別分析(DE-WLDA)與第三種方法：近似成對經驗正確率標準(approximate pairwise empirical accuracy criterion, aPEAC)中，則比較了 6 種不同階數形成的多項式回歸曲線，用來描述馬氏距離與經驗錯誤率之關係，其字正確率分別如表 5.8 與表 5.9，似乎可看出

表5.8 EER-WLDA 在不同



值設定下之正確率(%) EER-WLDA 無MLLT 之正確率有MLLT 之正確率

音節字詞音節字詞

0 .

 0

 76.57 68.56 59.46 78.96 71.36 62.45

1 .

 0

 76.83 68.96 60.12 79.03 71.39 62.70

2 .

 0

 77.01 68.91 59.90 79.07 71.57 62.65

3 .

 0

 77.06 69.18 60.21 79.16 71.51 62.71

4 .

 0

 77.45 69.60 60.75 78.81 71.15 62.24

5 .

 0

 77.30 69.72 60.59 78.96 71.34 62.50

6 .

 0

 77.03 69.12 60.00 79.31 71.69 62.93

7 .

 0

 76.73 68.96 60.26 79.14 71.61 62.83

8 .

 0

 76.88 69.09 60.26 79.17 71.53 62.82

9 .

 0

 77.09 69.32 60.28 78.92 71.33 62.39

表5.9 DE-WLDA 在不同階數之多項式回歸曲線下的正確率(%) DE-WLDA 無MLLT 之正確率有MLLT 之正確率

音節字詞音節字詞

table lookup 76.81

68.93

59.85 78.96 71.36 62.41 linear 63.27

55.31

46.88 66.38 58.52 50.24 quadratic 76.98 69.32 60.26 78.99 71.54 62.76 cubic 76.61

68.95

60.07 78.59 71.23 62.46 4^th degree 76.86

69

59.74 78.77 71.12 62.07 5^th degree 76.93

69.04

59.97 78.83 71.38 62.64 6^th degree 76.84

68.99

59.79 79.14 71.64 62.78

隨著多項式階數增加，字正確率也有增加的趨勢。

在DE-WLDA 與 aPEAC 的實驗中，我們也嘗試用查表法(table lookup)，也就是不對資料作回歸分析，而直接使用圖3.4 中的資料點所對應到的經驗分類錯誤率。這種方法也可視為一種變形的 EER-WLDA，只是它不僅在錯誤率的估計方式與EER-WLDA 相異，亦不考慮與原始距離之間的權重比較。實驗結果顯示，

查表法的效果並不是最好的，原因可能在於它並不能代表真正資料分佈的趨勢，

且易於受到離群類別(outlier)或噪音(noise)干擾。由圖 3.4 可知，大量資料點仍集中在經驗分類錯誤率小於 0.01 的區域，若我們使用查表法，則這些資料點會嚴重限制目標函數解決LDA 過度強調問題的能力。

與LDA 做比較，我們也發現這三種基於混淆資訊之權重式線性鑑別分析的辨識結果並沒有很突出。以 LDA 作為基線(baseline)，在最好的情況下，

EER-WLDA（

(



 0 . 6 )

+MLLT）的相對進步率(relative improvement)只有 0.6%，

DE-WLDA（(6^th degree)+MLLT）的相對進步率更只有 0.4%，aPEAC（+MLLT）

則完全沒進步。其中可能的原因有二：

第一，在圖3.4 中，仍有大量的資料點，其馬氏距離與經驗分類錯誤率是無關的。例如，有許多馬氏距離



 3

的資料點，其經驗分類錯誤率mij^DE

 0 . 02

，

表5.10 aPEAC 在不同階數之多項式回歸曲線下的正確率(%) aPEAC 無MLLT 之正確率有MLLT 之正確率

音節字詞音節字詞

table lookup 77.34

69.54

60.73 78.94 71.31 62.55 linear 74.31

66.68

57.89 75.97 68.32 59.56 quadratic 77.55 70.02 61.28 78.98 71.22 62.24 cubic 77.09

69.18

60 78.65

71.02

61.97 4^th degree 76.87

69.14

60.24 78.6 71.14 62.18 5^th degree 76.84

69.05

60.01 78.5 70.89 61.97 6^th degree 77.05

69.51

60.65 78.97 71.41 62.5

可是圖3.6 所有的多項式回歸曲線在



 3

時的變動卻極低。這使得多項式回歸曲線受到這些不尋常的資料點所主導，無法真正呈現出負相關性或處理



 3

之類別配對產生的過度強調問題。

第二，在預期資料點具有一定程度負相關性的情況下，aPEAC 完全去除類別配對的距離因子，完全倚靠圖3.4 產生的負相關性，使得實際情況不如預期時，

實驗結果反而會有得不償失的情況。

在文檔中基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識 (頁 102-105)