模型合併(Model combination) - 模型合併與壓縮 - 探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究

4.3 模型合併與壓縮

4.3.1 模型合併(Model combination)

模型合併的成果可透過修正各別模型的錯誤、減少較差選擇的可能性、增加模型搜尋時的假說空間來達到更好的模型效能。過往在語音辨識的模型合併可分為兩種，音框層級合併(Frame-level combination or score fusion)[26]和假說層級合併 (Hypothesis-level combination)[25][27]，兩者比較記錄於表 4.2。ROVER[25]利用多個自動語音辨識產生的可能轉寫結果(N-best result)的聯集(Union)，透過詞頻 (Word frequency)或信心分數(Confidence score)合併成單詞轉換網路(Word

表 4.2：兩種合併方式比較。

translation network)，自動重新計搜索生成的網路，選擇得分最高的輸出序列；而 [27]則是將各別解碼多個模型產生詞圖，並將各別詞圖取聯集得到一個新的詞圖，結果證明可在最小化貝式決策風險解碼(Minimum Bayes-risk decoding)中，

改進貝式決策風險的界限；在[26]中結合聲學模型的網路輸出並進行解碼，並利用維特比(Viterbi)產生的詞圖，提供最可能的單詞假設及其相關單詞的事後概率，結果證明可優於 ROVER 的性能。本論文中，我們使用音框層級和假說層級的合併。前者因為是在聲學模型的輸出直接合併，因此具有較快的即時性。後者則是在模型產生詞圖後合併，可得到較好的辨識結果。

4.3.1.1 音框層級合併(Frame-level combination)

音框層級合併是根據每個時間點的音框而輸出的對數可能性(Log likelihood)，給予不同的權重後合併，可參考圖 4.5。因為合併的是音框，所以必須保持輸出時間的同步，對數可能性則是類神經網路的輸出，式子如下：

𝑃(𝑠_𝑢|𝐨_𝑢, 𝜆) = ∑ ∑ 𝛼_𝑚𝑃(𝑠_𝑢|𝐨_𝑢, 𝜆_𝑚)

𝑀

𝑚=1 𝑢

(4.5) 圖 4.5：音框層級的合併。

式(4.5)中𝑃(𝑆_𝑢|𝑂_𝑢, 𝜆)為類神經網路的輸出，代表句子 u 為狀態𝑆的機率，注意不 同模型的時間點要一致，M為合併的模型總數，𝛼_𝑚為各別模型混合權重，且 α_m ≥ 0 , ∑^𝑀_𝑚=1𝛼_𝑚 = 1，其中𝛼_𝑚相似於[38]利用對角線矩陣(Diagonal matrices)對各別模型的線性合併(Linear ensemble)。在實際的測試階段時，合併後的音框事後機率(Frame posterior)會當成隱藏式馬可夫模型(Hidden Markova model, HMM) 的聲學特徵O的對數可能性，並進行標準解碼。

4.3.1.2 假說層級合併(Hypothesis combination)

假說層級的合併則是利用自動語音辨識系統經過一般的解碼機制產生的詞圖，給予不同權重和損失函數進行合併，假說層級的示意圖可參考圖 4.6。相較於音框層級的合併，假說層級的合併可以允許非同步時間輸出，但由於需要合併各別系統的輸出結果，因此較為費時：

ℎ_𝑢^∗ = argmin

ℎ_𝑢^′ ∑ [∑ ℒ(ℎ_𝑢, ℎ_𝑢^′) ∑ 𝛽_𝑚𝑃(ℎ_𝑢|𝑂_𝑢, 𝜆_𝑚)

𝑀

𝑚=1 ℎ_𝑢

]

𝑢

(4.6) 圖 4.6：假說層級的合併。

在式(4.6)中，ℎ_𝑢為各別系統解碼時產生的詞序列，𝑀為合併的模型總數，𝛽_𝑚為各別模型混合權重，且𝛽_𝑚 ≥ 0 , ∑^𝑀_𝑚=1𝛽_𝑚 = 1，ℒ為詞層級的損失函數，這裡的損失函數使用編輯距離(Edit distance)。式(4.6)可理解成以第一個辨識系統為基底 (Basis)，再和其它系統產生的詞圖取聯集，最後透過最小化貝式決策風險在詞圖聯集上解碼。

假設資源足夠，通常算法複雜度與系統效能成正比，但會與即時性成反比，

這為妥協問題(Trade-off)。然而，若能保留複雜模型效能至簡單模型，便可達成有效且即時的聲學模型。我們稱複雜模型為教師模型，簡單模型為學生模型，並由章節 4.3.2 介紹。

在文檔中探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究 (頁 68-71)