• 沒有找到結果。

2.6 Lattice-free maximum mutual information

2.6.1 Maximum mutual information

條件最大化可能性(Conditional maximum likelihood, CML)[32]的目標函數是在給 予聲學特徵和模型參數下,估測參考轉寫(Reference transcript)的對數相似度(Log likelihood)。因為一些歷史的原因[8],CML 變成了我們目前常用於鑑別式訓練的 MMI,式子如下:

MMI= ∑ log 𝑃(𝑆𝑢|𝑂𝑢, 𝜆)

𝑢

(2.9) 式(2.9)的 u 為句子,𝑆𝑢為句子𝑢的正確狀態序列(Reference state sequences),Ou為 句子𝑢的聲學特徵,λ為模型參數。分子為參考轉寫序列的機率,而分母為所有可 圖 2.5:最大似然估測與鑑別式訓練的比較圖。前者只會計算最佳路徑,後者除 了計算最佳路徑以外,也需要遠離競爭語句。

21

在式(2.10)中,𝑆𝑢為句子𝑢的競爭狀態序列(Competing state sequences)。可透過鑑 別式訓練,將模型目標函數定義成接近正確狀態序列和遠離競爭狀態序列。若單

22

23

24

2.6.2 Lattice-free maximum mutual information

近年來,學者 Povey 等人提出 CTC[14]延伸架構的目標函數─LF-MMI [15],避 開需要交叉熵(Cross-entropy)訓練產生詞圖的冗餘步驟。主要改變為四個面向:

1) 使用訓練文本產生 4 連音素語言模型(4-gram phone language model),且不會 退化(Backoff)小於 3 連音素語言模型(3-gram phone language model),以此取 代傳統鑑別式訓練時的詞圖(Word-level lattice),使得搜尋的假說空間減少。 HMM),採用類似 CTC 的兩個左到右狀態 HMM(2-state left-to-right HMM),

25

且第一個狀態沒有 self-loop,用於模擬 CTC 的空白輸出(Blank)。

4) 假設類神經網路的輸出為偽對數可能性(Pseudo log-likelihood ),而不是經軟 式最大化(Softmax)的狀態事後機率。

基於上述實作的改進,LF-MMI 與傳統 MMI 在數學式上的計算便有了若干 不同之處。首先,儘管分子項的參考轉寫仍由 GMM-HMM 產生,但分母項不再 是該句的競爭序列,而是由訓練文字文本(Word transcript)轉發音文本(Phone transcript)的 4 連音素語言模型替代。這樣的改變可簡化式(2.20)的計算複雜度,

從原先的基於詞圖的錯誤計算(Lattice-based error calculation)改成在 4 連音素空 間的向前向後演算法(Forward-backward algorithm)搜尋,使得我們能使用 GPGPU 計算;其次,基於實驗的觀察,LF-MMI 易於過度擬合(Overfitting)而導致效果不 佳。因此學者 Povey 等人使用多種避免過度擬合的實驗結果,其中尤其重要的為 交叉熵正則項,使得 LF-MMI 無須交叉熵聲學模型產生的詞圖,便可將鑑別式 訓練用於聲學模型,並同時最佳化交叉熵和 LF-MMI。這樣的改變不僅使得訓練

圖 2.6:LF-MMI 的多任務學習示意圖。

26

的時間大幅縮短,且效果更甚傳統兩階段式訓練的辨識結果。除此之外,也可結 合其他鑑別式訓練進一步提升效能。剩下兩者的改變則是模仿另一個端對端目標 函數─CTC 的拓樸(Topology),因此 LF-MMI 也可視為 CTC 的延伸架構。

27

第3章 遷移學習

在 傳 統 機 器 學 習 的 假 設 中 , 訓 練 集 與 測 試 集 需 為 同 樣 或 相 近 的 機 率 分 佈 (Probability distribution),當特徵空間(Feature space)或資料分佈(Data distribution) 改變時,往往需要重新收集大量資料並建立系統,不僅曠日廢時且不切實際。然 而,在現實生活中,測試集與訓練集多少會有些不同。該情況可能包含多個原因,

其一,訓練資料稀少,或是過於集中某些情況,無法包含所有可能性。其二,測 試集包含特徵以外的變數,舉例來說,股票決策點往往與過去價錢變化的相關性 不高,且每個人的投資決策會互相影響,因此會隨著時間改變本身的特徵空間或 資料分佈。其三,也要最重要的一點,我們時常缺乏感興趣領域的資料,但擁有 充足的其他領域資料。在包含上述問題的任務中,如何從一個領域的知識遷移 (Knowledge transfer)到另一個新領域的技術便顯得十分重要,若知識轉移的技術 如果能成功,便能在有效訓練模型的同時,大幅地降低標記資料的負擔。我們將 這上述技術統稱為遷移學習(Transfer learning)。

我們會分為五個小節介紹遷移學習,首先是遷移學習與自動語音辨識的關 係,這裡我們簡介遷移學習的動機與相關例子,另一方面,我們也會簡單帶過自 動語音辨識的研究歷程;第二章,我們會定義本章節的數學式的相關符號;第三 章是遷移學習的分類,分為歸納式遷移學習(Inductive transfer learning)以及轉導 式遷移學習(Transductive transfer learning);第四章為遷移學習中的一項重要議題

─負遷移學習(Negative transfer learning)。

相關文件