統計圖等化法之非負矩陣分解法

第六章調變頻譜非負矩陣分解法之研究

6.4 統計圖等化法之非負矩陣分解法

上述的非負矩陣分解法研究中，即研究一個非負的資料矩陣 V 可以分解成兩個非負基底矩陣 W 和非負編碼矩陣 H 相乘。而在我們在強健性語音辨識任務中，

將非負矩陣分解法運用在調變頻譜上的作法，是希望利用預先訓練的做法，接著將訓練好的資訊拿來測試階段時使用。所以在訓練階段時，我們會將乾淨的資料矩陣 V 進行非負矩陣分解法，分解出乾淨的基底矩陣 W 和乾淨的編碼矩陣 H。

在一般的實驗做法，我們會留下乾淨的基底向量矩陣 W，以供測試階段時拿來使用，而乾淨的編碼矩陣 H 則會捨棄不用。因為我們目的在於測試階段時可以 利用訓練好的乾淨基底矩陣 W，還有利用迭代的方式求出來的編碼向量 h(有雜 訊的資料向量 v 之編碼向量 h)，相乘還原回較乾淨的調變頻譜。因此，我們提出 的統計圖等化法之非負矩陣分解法(Histogram Equalization Non-negative Matrix

Factorization, HNMF)與上述一般實驗流程不同的是，我們在訓練階段不會捨棄訓練階段時乾淨的編碼矩陣 H。而且我們會利用統計圖等化法去將乾淨的編碼矩陣

H 之資訊儲存建表，統計 H 的參考分布，如圖 6-12。而在測試階段時，求出編 碼向量 h 後，我們會進一步將編碼向量 h 中的每一個元素進行統計圖等化法之 查表更新的動作。試圖將有雜訊的 h 還原回乾淨的 h，如圖 6-13。因為我們認為 乾淨的基底矩陣需要乘上乾淨的權重矩陣才較能相乘還原回乾淨的調變頻譜。在 測試階段中，利用迭代法所求出的編碼向量 h，可能不會是很好的結果，以導致 還原時是有問題的。流程圖如圖 6-14。

圖 6-12 統計圖等化法之非負矩陣分解法訓練階段示意圖

圖 6-13 統計圖等化法之非負矩陣分解法還原示意圖

圖 6-14 統計圖等化法之非負矩陣分解法流程圖

表 6-16 結合 AFE 之 NMF 之改進方法的 Aurora-2 精確率

在表 6-12 及表 6-13 為 HNMF 結合經過 CMVN 以及 HEQ 處理過的特徵的實驗 結果。可以觀察到在 K=5 時有著最好的精確率，但一樣基底個數增加，方法之 效果會較不明顯。表 6-14~表 6-16 為不同的 NMF 之改進分別運用在 CMVN、

HEQ 以及 AFE 處理過之特徵的實驗結果。使用三種不同的改良方式的 NMF 以及方法相互結合，都能與先經過不同時間序列正規化法處理過後的特徵相結合得到效能提昇。CMVN 與 HEQ 皆是在整個語句的音框層面(Frame Level)對每個音框分別作正規化；而 NMF 的方法是對整個語句層次(Utterance Level)正規化。分別處理不同的面向，所以在結合後有加成性的效果。效果提升最顯著的是與

CMVN 結合的 nsHGNMF；其次是與 HEQ 結合的 nsHGNMF。也與進階前端標準(Advanced Front-End Standard, AFE)[Macho, 2002]結合。為近年來 ETSI 推出之新的特徵向量提取方法，並證明利用 AFE 取得的特徵函數，能顯著地提升語音辨識系統在雜訊環境中的效能。與 AFE 結合的 NSHGNMF 能有些微提升。

Set A Set B Set C Avg.

AFE 87.68 87.10 86.29 87.17 AFE+nsNMF 87.74 87.65 86.32 87.42 AFE+GNMF 87.45 87.72 86.23 87.31 AFE+HNMF 87.81 87.22 86.36 87.28 AFE+nsGNMF 87.85 87.66 86.54 87.51 AFE+nsHGNMF 87.82 87.70 86.55 87.52

在文檔中調變頻譜分解之改良於強健性語音辨識 (頁 88-93)

第六章 調變頻譜非負矩陣分解法之研究

6.4 統計圖等化法之非負矩陣分解法

第六章調變頻譜非負矩陣分解法之研究