• 沒有找到結果。

一般而言,類神經網路的技術必須透過大量轉寫語料(具人工標記的語料)進行網 路的訓練[16],但由於收集語料庫的工作既昂貴且費時,且在現實生活中,少量 轉寫與大量未轉寫語料的低資源任務更為常見。為此,半監督式聲學模型訓練主 要針對三個問題,低資源任務、大量的未轉寫語料、測試語料與訓練語料的不匹 配。首先,最新穎的自動語音辨識系統建立於充足語料庫的前提上,但在現實中,

由於標記成本的問題,我們所擁有高品質的人工轉寫語料通常不會太多;其次,

儘管取得足夠具轉寫語料的成本很高,但取得未轉寫語料卻相對容易得多。換句

4

話說,如果能利用好存在於未轉寫語料的線索,便能使用最新穎的聲學模型訓 練;最後,也是最廣泛的問題,訓練與測試環境不匹配。此問題常見於即時的系 統,收錄語料的速度大於人工轉寫的速度,且與訓練語料有若干差異,我們可將 此問題也歸類為一般化(Generalization)問題。此時如何使用測試時的未轉寫語料 便成了一項重要議題。過往於半監督式訓練裡,常見訓練方法是兩階段的自我訓 練。第一階段為利用人工轉寫語料訓練種子模型;第二階段則使用種子模型辨識 未轉寫語料,並以此為標記重新訓練模型。詳細流程可見圖 1.1。針對自我訓練 的流程,我們主要探討兩個問題:

1) 如何在語料有限的環境下,提升種子模型的假說(Hypothesis)品質。我們提出 利用領域外語料與模型合併兩種方法,並進一步探討壓縮複雜模型於簡單模型的 可行性。

2) 如何在 LF-MMI 的鑑別式訓練準則下,自然地加入未轉寫的領域內語料。這 裡主要是著重於品質評估(Quality estimation)。可視為另一個相關領域,主動學習 (Active learning)中的資料選擇(Data selection)。

圖 1.1:自我訓練架構圖。

5

1.2.1 領域不匹配(Domain mismtach)的語料

在現實生活中,模型常由於訓練時間、資料稀少造成訓練不易的問題。儘管如此,

歸功於開源資料(Open data)和開放原始碼(Open source)的普及,我們可輕易地取 得公開的資料與模型,相對於領域內資料(模型),領域外資料(模型)的取得可說 是毫不費勁。有鑒於此,遷移學習便是針對上述情況而產生的解決方法,如何將 一個相關但不同領域的知識轉移至另一個領域,這些研究統稱為遷移學習。舉例 來說,我們有一個預先訓練的汽車分類器,該分類器可準確無誤地區分出 TOYOTA、HONDA 和 Nissan。而現在實際應用領域為水果的辨識。詳細來說,

目標是訓練一個水果分類器,用以區分蘋果、香蕉和西瓜。在遷移學習的假設中,

當模型學到 TOYOTA 和 HONDA 的關係時,可以用某種方式,將這樣區辨不同 物體的能力也應用在水果之中,例如,TOYOTA 和 HONDA 的關係之於蘋果和 香蕉。如果這樣的遷移知識可以成功,我們便能克服在模型訓練中的兩大難題:

1) 減緩標記語料的成本和 2) 隨時變化的測試資料(該資料可能與訓練資料不匹 配)。在本論文的實驗中,我們探討利用有聲書朗讀語料 LibriSpeech[36]作為領 域外資料,用以輔助會議語料 AMI[37]訓練的聲學模型。我們期待利用領域外的 知識可有效輔助領域內的學習。

1.2.2 模型合併與知識蒸餾

多個模型合併往往能優於單一模型的成果[25][26][27][31]。這樣顯著的合併效能 歸功於整體學習的優點,首先,各別單一模型有機會修正其他模型的錯誤;其次,

多個模型同時評估,降低減少選擇到較差模型的可能性(Likelihood);最後,模型 合併會增加搜尋時的假說空間[38],並且修正訓練時難以克服的問題。如語料選 擇(Data selection)、目標函數(Objective function)、模型架構(Model architecture)。

6

我們期待利用模型合併在上述的三個效益,解決在自我訓練時的種子模型效能,

主要針對問題是有限語料導致效果欠佳的聲學模型空間。

在自動語音辨識中,模型合併可分為兩種層級,音框層級的合併(Frame-level combination or score fusion)[26] , 以 及 假 說 層 級 的 合 併 (Hypothesis-level combination)[25][27]。值得一提的是,在[39]的研究中音框層級的合併無助於端 對端模型目標函數 CTC 的表現,而 LF-MMI 目標函數被視為 CTC 的延伸[15],

因此探討 LF-MMI 的合併結果是具有價值的事情。

另一方面,整體學習可有效提升模型的效能,但其最為人詬病的便是增加的 假說空間使得搜尋時間大幅增長,於是儘管合併模型效能較佳,但仍難以用在實 際 系 統 上 。 針 對 上 述 即 時 性 問 題 , 我 們 提 出 使 用 知 識 蒸 餾 (Knowledge distillation)[28]的技巧,又稱學生教師模型(Student-teacher model),將合併多個聲 學模型視為複雜的教師模型,並嘗試壓縮到較簡單的聲學模型,或稱學生模型。

在本論文,我們將會探討合併前後的影響和效益,並嘗試使用知識蒸餾將模 型合併後的效能壓縮至較簡單的模型。這裡我們期許即使在低資源任務中,也可 得到既準確且即時的聲學模型。

1.2.3 自我訓練時的資料選擇

在 半 監 督 式 聲 學 模 型 訓 練 中 最 常 見 的 方 法 為 兩 階 段 的 自 我 訓 練 (Self-training)[18][19][20]。其中影響自我訓練的關鍵為兩點:種子聲學模型的好 壞(假說的泛用度與精準度),以及對未轉寫語料的品質評估。過往最常見的評估 方法為加入信心過濾器(Confidence-based filter)[21][22][23],其概念是利用種子聲 學 模 型 對 未 轉 寫 語 料 計 算 信 心 分 數 (Confidence score) , 並 設 置 特 定 門 檻 值 (Threshold),低於門檻值即被視為會惡化訓練的語料,因此不會加入第二階段的 模型重新訓練。過往在聲學模型上的信心過濾器研究可分成三種層級,音框層級

7

(Frame-level)[40] 、 詞 層 級 (Word-level)[41] 、 語 句 層 級 (Utterance-level)[19][41][42]。儘管信心過濾器為自我訓練架構奠定了簡單有效的 訓練流程,但該方法仍存在至少三個問題。其一,不同測試集的門檻值未必相同,

因此發展集(Development set)的門檻值未必適合測試集(Test set);其二,由於信 心分數與訓練語料的多寡直接相關,因此不同的訓練集便需重新找到適合的過濾 器門檻值,造成訓練時間過長;其三,即使較差的訓練語料會惡化任務的訓練,

但或許也可在某些程度幫助模型的訓練,如接近輸入層的用於特徵抽取的泛用層 (Generic layer)。然而資料選擇的機制則會直接拋棄低品質語料,使得聲學模型的 泛用層無法獲得完整訓練。另一方面,過往的研究中鑑別式訓練對於訓練語句的 正確性非常敏感[43][44][45],因此探討何謂高品質與低品質的語料便更顯重要。

我們在半監督式訓練著重於兩點:1) 如何辨別語料轉寫品質高低,以及 2) 自然 地加入 LF-MMI 目標函數的鑑別式訓練。前者可視為資料選擇的技巧,後者可 視為模型化的技術。比起傳統丟棄低轉寫品質的語料,我們將嘗試更自然的方 法,使用高品質與低品質的語料一起訓練,以求更好的半監督式訓練結果。

8

相關文件