5.3 實驗結果
5.3.5 最小化音素錯誤(MPE)實驗
在聲學模型訓練中,除了傳統的最大化相似度訓練(ML training)之外,我們 也試著將各種特徵擷取的方法應用在近來當紅的鑑別式訓練:最小化音素錯誤 (minimum phone error, MPE)[89-90]。傳統的最大化相似度訓練並沒有考慮語音辨 識時聲學模型彼此間的關係,在調整聲學模型參數之後,可以使得相關的語音特 徵落在此聲學模型的相似度變大,卻也可能同時讓非相關的語音特徵落在此聲學
表5.14 本論文中各種特徵擷取方法於 MPE 聲學模型訓練下之正確率(%) MPE training 有MLLT 之正確率
音節 字 詞
MFCC 79.05
71.51
62.83 LDA 83.1675.64
67.15 aPTAC 83.0175.43
66.96 HLDA 83.1075.57
67.24 HDA 83.3775.94
67.45 PLDA(m
1
) 83.5776.01
67.37 PWLDA(k
2
) 83.4776.23
67.69 DE-WLDA(6th degree) 82.18
74.65
66.04 EER-WLDA(
0 . 6
) 83.1075.48
66.65 GLRDA(Heteroscedasticity) 83.42
75.94
67.55 CI-GLRDA(K
70
) 83.5876.11
67.7791
模型的相似度更大,造成辨識上的混淆。因此,像最小化音素錯誤這種鑑別式訓 練補足了最大化相似度訓練的缺點,它是以全面風險(overall risk)為出發,目標 函數變成是最大化語音辨識器對所有訓練語句(語音特徵向量序列)Oz的可能 辨識出候選詞序列Wi的期望音素正確率(也就是最小化語音辨識器對所有訓練 語句可能辨識出候選詞序列Wi的期望錯誤率),實驗結果如表5.13。
92
93
第 6 章 結論與未來展望
鑑別式聲學特徵擷取在大詞彙連續語音辨識的研究上一直扮演著重要的角 色。本論文旨在改善傳統線性鑑別分析(LDA),相關研究內容與成果可從下面三 個面向來作討論:
一、首先,本論文詳細探討了LDA的基本原理與其統計和分類上的意義。在 一般的教科書上,對於LDA的描述僅只於特徵擷取與線性模型的基本介紹,而鮮 見LDA與分類實務的分析。而在本論文中,我們利用了LDA的幾何分析與證明,
點出了LDA在分類上的兩大問題:過度強調問題與分類正確率無關問題,並提供 了後續在圖樣辨識領域中,關於LDA之研究的基本方向。
二、本論文充分利用了以辨識器產生的混淆資訊,並以此修正及解決了上述 之LDA兩大問題,並且保有LDA輕省的可解性。而相較於在圖樣辨識領域有名 的aPTAC方法,我們所提出的方法並不需有機率分布的假設,並且在實務上,能 使得擷取出的特徵更貼近分類器的特性,使得圖樣辨識中的前端處理與後端分類 更能緊密結合。
三、為了打破LDA對於各類別之共變異矩陣的限制,本論文亦參考了統計學 上相似度比率檢驗的概念,提出了一種新式線性鑑別分析(GLRDA),不僅能普 遍化現有的技術,如LDA與HLDA,更可進一步結合混淆資訊而產生更好的效 果。不限於語音處理,我們相信GLRDA技術可以更廣泛地應用在所有需要鑑別 性特徵的領域,特別是影像處理。
而未來與本論文相關的研究可分作兩方面:
94
一、在混淆資訊的使用上,我們所定義之類別配對的經驗分類錯誤率 (pairwise empirical classification error rate)未必是最佳、最合乎實驗評估的定義。
未來在語音辨識上,我們會嘗試參考最小化音素錯誤(MPE)中對於音素錯誤的定 義,發展出更合適的經驗分類錯誤率。
二、GLRDA是一種很廣泛的概念,其產生之特徵的鑑別力強度,取決於虛 無假設的設定與混淆資訊的使用。未來在混淆群聚(confusable cluster)的決定上,
我們會將每一類別配對的混淆強度(或錯誤音框數)納入考慮。
儘管實驗結果並不十分突出,本論文提出之基於錯誤分析的方式的確提供了 我們一個新的視野來看目前的線性特徵轉換。而以類別配對的角度嘗試最大化分 類正確率雖然只能逼近全部分類正確率,但未來我們希望能夠以成對性的標準當 作發展跳板,拉近與全部分類正確率的距離。
95