• 沒有找到結果。

本章節中,我們探討自我訓練的資料選擇與估測。在沒有足夠具轉寫語料訓練模 型的情況下,我們很難確定自動轉寫的好壞,並且挑選適當的語料訓練自動語音 辨識系統。針對該問題,我們會在分為兩個子章節定義該問題並解決。其一為半 監督式 LF-MMI,由於鑑別式訓練易受到語料標記正確與否的影響,因此如何確 定標記的「品質」便更顯重要。其二為定義資料好壞的線索,並且要自然地加入 原先 LF-MMI 的訓練過程,這裡我們使用的準則為負條件熵(Negative conditional entropy, NCE)[32][33][34]。

55

4.2.1 半監督式 LF-MMI(Semi-supervised LF-MMI)

在有參考轉寫(Reference transcript or ground truth)的情況下,傳統的 MMI 估測方 式為 CML 式(2.10)。然而在半監督式訓練中,未轉寫語料的自動轉寫(分子項)未

56

首先,我們認為有三個原因會影響種子模型的好壞,分別為初始化、模型結構和 訓練準則,其中任何調整都會影響模型的性能。在本論文中,我們期待使用權重 轉移改善種子模型初始化。

在這項提升種子模型的性能中,我們使用傳統的多任務學習[29],以及[109]

中提出的權重遷移。由於前者為一般的多任務訓練,這裡便不贅述,值得一題的 為後者。[109]與傳統的權重遷移方法不同,即通過固定低層次網路來進行兩階 段訓練,並在第一個階段使用較大的學習率訓練任務層(Task-specific layer)[29],

並在第二階段利用較小的學習率微調整個神經網路。我們使用[109]中提出一階 段的方法訓練方法,給泛用層(Generic layer)較小的學習率常數,同時給任務特定 層較大的學習率常數,詳細可見圖 4.2。這項工作類似於基於 LHN 的調適,但 我們是重新初始化神經層,而不是添加新的神經層,以此避免了參數的增長。

圖 4.2:權重遷移示意圖。我們在泛用層使用較小的學習常數,並在較大的學習 常數。

57

4.2.2 條件熵(Conditional entropy)

前一段中提到正確序列𝑆𝑢來自於種子模型𝑃(𝜆𝑠𝑒𝑒𝑑)產生的假說ℋ,我們不能保證 其分子項的正確性,因此直接加入第二階段的訓練容易惡化原先模型的表現。在 過往的研究中為了解決此問題,最常見的便是加入信心過濾器,用以排除分數過 低的語句,用以確保訓練語句的「品質」,但由於該門檻值會隨著語料的增長而 變化,因此挑選過濾器的門檻值並不容易且非常浪費訓練時間。

有別於以往的排除訓練語句,我們希望在訓練時仍保留分數較低的語句與分 數 高 的 語 句 一 起 訓 練 。 這 裡 我 們 在 原 先 的 向 前 向 後 算 法 (Forward-backward algorithm)加入了權重,將原先的式(4.1)改寫如下:

NCE= ∑ ∑ 𝑃(𝑆𝑢|𝑂𝑢, 𝜆𝑠𝑒𝑒𝑑) log 𝑃(𝑆𝑢|𝑂𝑢, 𝜆𝑠𝑒𝑒𝑑)

𝑠 𝑢 ∈ℋ

(4.3)

式(4.3)為未轉寫語料的估測方式。式(4.3)與式(4.1)相似,但在計算可能的正確序 列𝑆𝑢時,加入了𝑃(𝑆𝑢|𝑂𝑢, 𝜆𝑠𝑒𝑒𝑑)的權重於詞圖中,用以改變詞圖中的分數矩陣。

該權重是由詞圖的事後機率計算而成,式(4.3)可進一步化簡成下式:

NCE= − ∑ 𝐻(𝑆𝑢|𝑂𝑢, 𝜆𝑠𝑒𝑒𝑑)

𝑢∈ℋ

(4.4) 式(4.4)便是 NCE 準則[32][33][34]。因此我們可稱式(4.4)為給予模型參數𝜆和聲學 特徵𝑂𝑢條件下,參考轉寫序列𝑆𝑢的條件熵𝐻(𝑆𝑢|𝑂𝑢, 𝜆)。式(4.4)的改變可利用資訊 量對轉寫的「品質」建模,並且自然地加入 LF-MMI 目標函數,且在不用信心 過濾器排除資料的情況下提升模型效能。

58

相關文件