• 沒有找到結果。

4.3 模型合併與壓縮

4.3.1 模型合併(Model combination)

模型合併的成果可透過修正各別模型的錯誤、減少較差選擇的可能性、增加模型 搜尋時的假說空間來達到更好的模型效能。過往在語音辨識的模型合併可分為兩 種,音框層級合併(Frame-level combination or score fusion)[26]和假說層級合併 (Hypothesis-level combination)[25][27],兩者比較記錄於表 4.2。ROVER[25]利用 多個自動語音辨識產生的可能轉寫結果(N-best result)的聯集(Union),透過詞頻 (Word frequency)或信心分數(Confidence score)合併成單詞轉換網路(Word

表 4.2:兩種合併方式比較。

61

translation network),自動重新計搜索生成的網路,選擇得分最高的輸出序列;而 [27]則是將各別解碼多個模型產生詞圖,並將各別詞圖取聯集得到一個新的詞 圖,結果證明可在最小化貝式決策風險解碼(Minimum Bayes-risk decoding)中,

改進貝式決策風險的界限;在[26]中結合聲學模型的網路輸出並進行解碼,並利 用維特比(Viterbi)產生的詞圖,提供最可能的單詞假設及其相關單詞的事後概 率,結果證明可優於 ROVER 的性能。本論文中,我們使用音框層級和假說層級 的合併。前者因為是在聲學模型的輸出直接合併,因此具有較快的即時性。後者 則是在模型產生詞圖後合併,可得到較好的辨識結果。

4.3.1.1 音框層級合併(Frame-level combination)

音框層級合併是根據每個時間點的音框而輸出的對數可能性(Log likelihood),給 予不同的權重後合併,可參考圖 4.5。因為合併的是音框,所以必須保持輸出時 間的同步,對數可能性則是類神經網路的輸出,式子如下:

𝑃(𝑠𝑢|𝐨𝑢, 𝜆) = ∑ ∑ 𝛼𝑚𝑃(𝑠𝑢|𝐨𝑢, 𝜆𝑚)

𝑀

𝑚=1 𝑢

(4.5) 圖 4.5:音框層級的合併。

62

式(4.5)中𝑃(𝑆𝑢|𝑂𝑢, 𝜆)為類神經網路的輸出,代表句子 u 為狀態𝑆的機率,注意不 同模型的時間點要一致,M為合併的模型總數,𝛼𝑚為各別模型混合權重,且 αm ≥ 0 , ∑𝑀𝑚=1𝛼𝑚 = 1,其中𝛼𝑚相似於[38]利用對角線矩陣(Diagonal matrices)對 各別模型的線性合併(Linear ensemble)。在實際的測試階段時,合併後的音框事 後機率(Frame posterior)會當成隱藏式馬可夫模型(Hidden Markova model, HMM) 的聲學特徵O的對數可能性,並進行標準解碼。

4.3.1.2 假說層級合併(Hypothesis combination)

假說層級的合併則是利用自動語音辨識系統經過一般的解碼機制產生的詞圖,給 予不同權重和損失函數進行合併,假說層級的示意圖可參考圖 4.6。相較於音框 層級的合併,假說層級的合併可以允許非同步時間輸出,但由於需要合併各別系 統的輸出結果,因此較為費時:

𝑢 = argmin

𝑢 ∑ [∑ ℒ(ℎ𝑢, ℎ𝑢) ∑ 𝛽𝑚𝑃(ℎ𝑢|𝑂𝑢, 𝜆𝑚)

𝑀

𝑚=1 ℎ𝑢

]

𝑢

(4.6) 圖 4.6:假說層級的合併。

63

在式(4.6)中,ℎ𝑢為各別系統解碼時產生的詞序列,𝑀為合併的模型總數,𝛽𝑚為 各別模型混合權重,且𝛽𝑚 ≥ 0 , ∑𝑀𝑚=1𝛽𝑚 = 1,ℒ為詞層級的損失函數,這裡的 損失函數使用編輯距離(Edit distance)。式(4.6)可理解成以第一個辨識系統為基底 (Basis),再和其它系統產生的詞圖取聯集,最後透過最小化貝式決策風險在詞圖 聯集上解碼。

假設資源足夠,通常算法複雜度與系統效能成正比,但會與即時性成反比,

這為妥協問題(Trade-off)。然而,若能保留複雜模型效能至簡單模型,便可達成 有效且即時的聲學模型。我們稱複雜模型為教師模型,簡單模型為學生模型,並 由章節 4.3.2 介紹。

相關文件