探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳博士. 探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究. Investigating Acoustic Modeling and Semi-supervised Discriminative Training for Speech Recognition. 研究生：羅天宏撰中華民國一百零八年二月.

(2) 摘要近年來鑑別式訓練 (Discriminative training)的目標函數 Lattice-free maximum mutual information (LF-MMI)在自動語音辨識(Automatic speech recognition, ASR) 的聲學模型(Acoustic model)訓練上取得重大的突破。儘管 LF-MMI 在監督式環境下斬獲最好的成果，然而在半監督式環境下的研究成果仍然有限。在常見的半監督式方法─自我訓練(Self-training)中，種子模型(Seed model)常因為語料有限而效果不佳。再者，因為 LF-MMI 屬於鑑別式訓練之故，較易受到標記正確與否的影響。基於上述，本論文將半監督式訓練拆解成兩個問題：1)如何提升種子模型的效能，以及 2)如何利用未轉寫(無人工標記)語料。針對第一個問題，我們使用兩種方法可分別對應到是否具存有額外資料的情況，其一為遷移學習(Transfer learning) ，使用技術為權重遷移 (Weight transfer) 和多任務學習 (Multitask learning)；其二為模型合併 (Model combination)，使用技術為假說層級合併 (Hypothesis-level combination)和音框層級合併(Frame-level combination)。針對第二個問題，基於 LF-MMI 目標函數，我們引入負條件熵(Negative conditional entropy, NCE)與保留更多假說空間的詞圖監督(Lattice for supervision)。在一系列於互動式會議語料(Augmented multi-party interaction, AMI)的實驗結果顯示，不論是利用領域外資料(Out-of-domain data, OOD)的遷移學習或多樣性互補的模型合併皆可提升種子模型的效能，而 NCE 與詞圖監督則能運用未轉寫語料降改善錯誤率(Word error rate, WER)與詞修復率(WER recovery rate, WRR)。關鍵字：半監督式學習、鑑別式訓練、整體學習、遷移學習、自動語音辨識、聲學模型、LF-MMI。. i.

(3) Abstract More recently, a novel objective function of discriminative acoustic model training, namely Lattice-free maximum mutual information (LF-MMI), has been proposed and achieved the new state-of-the-art in automatic speech recognition (ASR). Although LF-MMI shows excellent performance in various ASR tasks with supervised training settings, its performance is often significantly degraded when with semi-supervised settings. This is because LF-MMI shares a common deficiency of discriminative training criteria, being sensitive to the accuracy of the corresponding transcripts of training utterances. In view of the above, this thesis explores two questions to LF-MMI with a semi-supervised training setting: the first one is how to improve the seed model and the second one is how to use untranscribed training data. For the former, we investigate several transfer learning approaches (e.g. weight transfer and multitask learning) and the model combination (e.g. hypothesis-level combination and frame-level combination). The distinction between the above two methods is whether extra training data is being used or not. On the other hand, for the second question, we introduce negative conditional entropy (NCE) and lattice for supervision, in conjunction with the LF-MMI objective function. A series of experiments were conducted on the Augmented Multi-Party Interaction (AMI) benchmark corpus. The experimental results show that transfer learning using out-of-domain data (ODD) and model combination based on complementary diversity can effectively improve the performance of the seed model. The pairing of NCE and lattice for supervision can improve the word error rate (WER) and WER recovery rate (WRR). Index Term：semi-supervised training, discriminative training, transfer learning, ensemble learning, automatic speech recognition, acoustic model, LF-MMI. ii.

(4) 誌謝首先，我要誠摯地感謝我的指導教授─陳柏琳老師。一年前在老師的建議下，題目從文字轉成語音，改變方向讓我有了意外的學習經驗。謝謝老師總是以身作則，提醒我們應有的研究態度和做人道理。希望我未來面對人生的挫折與問題時，也能保持堅毅與寬容的信念。感謝口試委員王新民老師、洪志偉老師和陳冠宇老師對我論文的指導與建議，使得我的論文能更加完善。另外感謝冠宇學長、孝宗學長和明翰學長，不論是研究上或是系統上，對於實力不足的我有問必答。感謝 Jeremy Wong, Vimal Manohar 和 Daniel Povey 在 Skype 和往來的 e-mail 中不厭其煩地回答，提供我整篇論文的基礎思路與實作協助。感謝淳伊學長、敬弘學長和必成學長分享許多實用的研究經驗，其中特別是淳伊學長的學習態度更使我受益良多。感謝與我共同完成 ASRU 投稿的映文，幫忙處理實驗室事務的佳樺，總是樂於助人的奕儒和明璋。感謝修瑞、偉成、慈恩、日鳳和振恩為實驗室注入新的活水，其中特別感謝修瑞和偉成協助我解決許多難題。感謝世弦、福安、韋廷、筱芸和百恩，總是為實驗室帶來歡樂的氣氛。也感謝學長與學弟妹在實驗室面對計畫與研究等各種挑戰時同進退的精神，祝福未來實驗室的研究風氣能更上一層樓。最後要感謝我的朋友與家人，謝謝您們不遺餘力的支持，盡力地排除研究以外的所有壓力，每當我灰心喪志時，給予我面對負面情緒的勇氣，使得我可以重振旗鼓，並心無旁鶩地面對研究上的所有困難。畢業在即，我不是邱吉爾，但我也必須在酒店關門時離開。其實人生至今，縱然有不好的事，大抵也都跟運氣無關，跟缺點有關。未來，我期許自己成為一位溫柔能自省的人，並在事業上能有輝煌的成就，讓您們為我感到驕傲。天宏 iii. 謹誌.

(5) 目錄第 1 章緒論.................................................................................................................. 1 1.1 研究背景........................................................................................................ 1 1.2 問題描述........................................................................................................ 3 1.2.1 領域不匹配(Domain mismtach)的語料 ..................................................... 5 1.2.2 模型合併與知識蒸餾.................................................................................. 5 1.2.3 自我訓練時的資料選擇.............................................................................. 6 1.3 論文貢獻........................................................................................................ 8 1.4. 論文章節安排................................................................................................ 9. 第 2 章統計式語音辨識............................................................................................ 11 2.1 2.2. 聲學模型...................................................................................................... 12 語言模型...................................................................................................... 12. 2.3 2.4 2.5. 語音辨識之流程.......................................................................................... 13 聲學模型訓練.............................................................................................. 14 深層類神經網路模型訓練.......................................................................... 15. 2.6. Lattice-free maximum mutual information .................................................. 19. 2.6.1 Maximum mutual information .................................................................... 20 2.6.2 Lattice-free maximum mutual information ................................................. 24 第 3 章遷移學習........................................................................................................ 27 3.1 遷移學習與自動語音辨識.......................................................................... 27 3.2 符號與定義.................................................................................................. 29 3.3 遷移學習的分類.......................................................................................... 31 3.3.1 歸納式遷移學習(Inductive transfer learning) .......................................... 34 3.3.2 轉導式遷移學習(Transductive transfer learning) ..................................... 45 3.4 負遷移學習(Negative transfer) ................................................................... 49 第 4 章半監督式訓練於 Lattice-free MMI .............................................................. 51 4.1 半監督式訓練.............................................................................................. 51 4.2 資料選擇與估測.......................................................................................... 54 4.2.1 半監督式 LF-MMI(Semi-supervised LF-MMI) ....................................... 55 4.2.2 條件熵(Conditional entropy) ..................................................................... 57 4.3 模型合併與壓縮.......................................................................................... 58 4.3.1 模型合併(Model combination) ................................................................. 60 4.3.2 知識蒸餾(Knowledge distillation) ............................................................ 63 iv.

(6) 第 5 章實驗架構與實驗結果.................................................................................... 67 5.1 實驗架構...................................................................................................... 67 5.1.1 實驗語料說明............................................................................................ 68 5.1.2 實驗流程設定............................................................................................ 70 5.1.3 聲學模型與相關設定................................................................................ 71 5.1.4 實驗評估方式............................................................................................ 73 5.2 實驗結果...................................................................................................... 73 5.2.1 基礎實驗.................................................................................................... 74 5.2.2 基於半監督式訓練的 LF-MMI ................................................................ 77 第 6 章結論與未來展望............................................................................................ 89 參考文獻...................................................................................................................... 91. v.

(7) 圖目錄圖圖圖圖圖圖圖. 1.1：自我訓練架構圖。 2.1：基本語音辨識流程圖。 2.2：一般聲學模型訓練的流程圖。 2.3：DNN 用於自動語音辨識訓練。 2.4：深度學習與自動語音辨識的歷史。 2.5：最大似然估測與鑑別式訓練的比較圖。 2.6：LF-MMI 的多任務學習示意圖。. 4 13 14 16 18 20 25. 圖圖圖圖圖. 3.1：在面對不同領域的差異時，傳統機器學習與遷移學習的示意圖。 3.2：遷移學習的常見設定比較圖。 3.3：歸納式遷移學習。 3.4：基於實例的遷移學習。 3.5：基於特徵表示的遷移學習。. 28 32 34 35 37. 圖圖圖圖. 3.6：基於關聯知識的遷移學習。 3.7：基於模型參數的遷移學習。 3.8：多任務學習示意圖。 3.9：權重遷移示意圖。. 40 42 43 44. 圖圖圖圖圖圖圖圖圖圖. 3.10：轉導式遷移學習。 4.1：半監督式訓練的分類。 4.2：權重遷移示意圖。 4.3：整體學習的分類。 4.4：多樣性於 DNN-HMM 的示意圖。 4.5：音框層級的合併。 4.6：假說層級的合併。 4.7：學生教師模型。 4.8：傳遞多個教師模型的結果給學生模型。 5.1：基本實驗流程圖。. 45 52 56 58 59 61 62 63 65 70. 圖 5.2：多任務學習架構的半監督式聲學模型示意圖。. vi. 72.

(8) 表目錄表表表表表表表. 3.1：傳統機器學習與常見遷移學習設定的比較。........................................... 30 3.2：遷移學習的常見設定與關注面向。........................................................... 32 4.1：多樣性的分類。........................................................................................... 59 4.2：兩種合併方式比較。................................................................................... 60 5.1：AMI 會議語料之訓練、發展與測試集。 .................................................. 68 5.2：LibriSpeech 之訓練、發展與測試集。 ...................................................... 69 5.3：AMI 會議語料的半監督式設定 .................................................................. 70. 表表表表表. 5.4：WER 錯誤類型。 ......................................................................................... 72 5.5：交叉熵與 LF-MMI 的辨識結果於不同大小的 AMI 會議語料。 ............ 74 5.6：LF-MMI 於 Librispeech 有聲書朗讀語料。 .............................................. 75 5.7：半監督式訓練的 LF-MMI。 ....................................................................... 77 5.8：詞圖監督時保留 beam 的數量。 ................................................................ 78. 表表表表. 5.9：不同大小的轉寫語料和未轉寫語料對半監督式訓練的影響。............... 79 5.10：不同超參數對各別模型的影響。............................................................. 80 5.11：不同超參數設定一覽表。......................................................................... 80 5.12：模型合併。................................................................................................. 81. 表表表表表. 5.13：學生教師模型。......................................................................................... 82 5.14：不同半監督準則的模型合併。................................................................. 83 5.15：權重遷移，不同初始學習率。................................................................. 84 5.16：混合語料、多任務學習與權重。............................................................. 85 5.17：權重遷移結合半監督式學習。................................................................. 86. vii.

(9) 第1章. 緒論. 1.1 研究背景過去六十年，研究人員嘗試開發能自動辨識語音信號的技術，即自動語音辨識 (Automatic speech recognition, ASR)；其目標是自動將聲學序列轉寫為詞序列。在過往的研究中，人類可使用聲學、語言和上下文資訊辨識語音信號[1]。基於上述，常見的自動語音辨識系統由三種模型組成：1) 聲學模型(Acoustic model)，用於特徵化訊號序列及對音素(Phone)序列建模；2) 發音詞典模型(Lexicon)，包含系統能辨識的單詞及其可能發音的語音詞典；3) 語言模型(Language model)，提供常見語法組成的單詞序列。因此在最先進的語音辨識系統會結合聲學模型、發音詞典模型和語言模型，將三者用於確定語音信號並給出其中可能的詞序列 [1][2][3]。在聲學模型的訓練中，早期最常見的技術為高斯混合模型結合隱馬爾可夫模型(Gaussian mixture model-hidden Markova model, GMM-HMM)，並在過去幾十年引領語音界的研究主題[4]。自 2012 年以來，歸功於硬體技術的進步，基於深度類神經網路(Deep neural network, DNN)的算法也逐漸普及於多媒體領域，如影像辨識、文字理解。在自動語音辨識方面則為 DNN-HMM，該方法引入 DNN 的技術並融合傳統的 GMM-HMM，由於其辨識率大幅超越傳統的 GMM-HMM，因而成為目前最主流的自動語音辨識系統。傳統上，DNN-HMM 透過交叉熵訓練(Cross-entropy training, CE)並基於前者的鑑別式訓練(Discriminative training)[5][6][7]提升自動語音辨識的效果。由於後者的鑑別式訓練較符合語音辨識的序列式訓練(Sequence training)概念，因此效果更勝前者。關於鑑別式訓練衍生的研究主題種類繁多，其中包含最大化交互資訊 (Maximum mutual information, MMI)[8]、最小化分類錯誤(Minimum classification error rate , MCE)[9]、最小化音素錯誤(Minimum phone error, MPE)[10]、狀態層級 1.

(10) 最小化貝式風險 (State-level minimum Bayes risk, sMBR)[11][12] 和增強 MMI(Boosted MMI, bMMI)[13]等。近年來，不透過交叉熵訓練，直接使用鑑別式訓練也越來越流行。目前兩種主流的訓練目標函數為 Connectionist temporal classification (CTC)[14]和 Lattice-free MMI (LF-MMI)[15]。CTC 在語料非常充足 (通常大於 500 小時)的情況下，表現可以媲美傳統的二階段方法。而 LF-MMI 的表現雖然會隨著語料減少而下降，但仍可勝過前者。儘管 LF-MMI 已在監督式環境下取得目前最優異的成果，然而在半監督式環境下的研究成果仍然有限，因此研究低資源任務(Low-resource tasks)下的 LF-MMI 是具有價值的事情。接下來將介紹低資源任務會如何影響自動語音辨識系統。眾所周知，基於類神經網路的語音辨識通常需透過大量具有轉寫的語料(大於 100 小時)進行網路參數的訓練[16]。不幸的是，語料充足的環境可遇不可求，現實中收集語料庫的工作通常既昂貴且費時。另一方面，相對於具轉寫語料，未轉寫語料的取得成本低得多。因此為了有效利用未轉寫語料的線索，便產生了半監督式訓練(Semi-supervised training)。在半監督式聲學模型的研究中[17]，最常見的方法是自我訓練(Self-training)[18][19][20]。自我訓練的架構主要分成兩階段，第一階段為利用轉寫語料訓練種子模型直到穩定；第二階段則是利用種子模型辨識未轉寫語料，並以此為答案重新訓練模型。在第二階段的辨識結果與真實答案難免會有誤差，為此會再加入信心過濾器(Confidence-based filter)[21][22][23] 挑選合適的訓練語料。在本論文中，我們將探索使用鑑別式訓練目標函數 LF-MMI 於自我訓練架構中，如何使用一些“易取得”的語料(包含領域外轉寫語料以及領域內未轉寫語料)改進聲學模型的方法。改進的方式可分為下列三個方向：. 2.

(11) 1) 基於遷移學習(Transfer learning)[24]的概念，將領域外資料(Out-of-domain data)的預訓練模型(Pretrained model)效果轉移至領域內任務。 2) 基於多樣性的模型合併 (Model combination)[25][26][27]和模型壓縮(Model compression)[28]的改善，以求有效且高效(Effective and efficient)的聲學模型。 3) 基於半監督式訓練[17]，收集未轉寫的領域內資料(In-domain data)，並探索存在於該語料中的線索，重新訓練種子模型。在上述第一項中，我們藉由遷移學習中的權重遷移(Weight transfer)[29]和多任務學習(Multitask learning)[30]，將領域外資料知識遷移至該領域。在上述第二項中，我們使用整體學習 (Ensemble learning)[25][26][27][31] 與知識蒸餾 (Knowledge distillation)[28]，前者將多個模型以假說層級合併(Hypothesis-level combination)[25][27]或音框層級合併(Frame-level combination)[26]合併，藉此修正單一模型的錯誤。後者則是壓縮多個模型合併後的結果轉移至單一模型。在上述最後一項，我們引入負條件熵(Negative conditional entropy, NCE)[32][33][34]模擬不確定性與保留更多假說空間的詞圖(Lattice)[35]。基於上述三個方向，我們將在本論文中進行一系列探討。. 1.2 問題描述一般而言，類神經網路的技術必須透過大量轉寫語料(具人工標記的語料)進行網路的訓練[16]，但由於收集語料庫的工作既昂貴且費時，且在現實生活中，少量轉寫與大量未轉寫語料的低資源任務更為常見。為此，半監督式聲學模型訓練主要針對三個問題，低資源任務、大量的未轉寫語料、測試語料與訓練語料的不匹配。首先，最新穎的自動語音辨識系統建立於充足語料庫的前提上，但在現實中，由於標記成本的問題，我們所擁有高品質的人工轉寫語料通常不會太多；其次，儘管取得足夠具轉寫語料的成本很高，但取得未轉寫語料卻相對容易得多。換句 3.

(12) 圖 1.1：自我訓練架構圖。話說，如果能利用好存在於未轉寫語料的線索，便能使用最新穎的聲學模型訓練；最後，也是最廣泛的問題，訓練與測試環境不匹配。此問題常見於即時的系統，收錄語料的速度大於人工轉寫的速度，且與訓練語料有若干差異，我們可將此問題也歸類為一般化(Generalization)問題。此時如何使用測試時的未轉寫語料便成了一項重要議題。過往於半監督式訓練裡，常見訓練方法是兩階段的自我訓練。第一階段為利用人工轉寫語料訓練種子模型；第二階段則使用種子模型辨識未轉寫語料，並以此為標記重新訓練模型。詳細流程可見圖 1.1。針對自我訓練的流程，我們主要探討兩個問題： 1) 如何在語料有限的環境下，提升種子模型的假說(Hypothesis)品質。我們提出利用領域外語料與模型合併兩種方法，並進一步探討壓縮複雜模型於簡單模型的可行性。 2) 如何在 LF-MMI 的鑑別式訓練準則下，自然地加入未轉寫的領域內語料。這裡主要是著重於品質評估(Quality estimation)。可視為另一個相關領域，主動學習 (Active learning)中的資料選擇(Data selection)。. 4.

(13) 1.2.1 領域不匹配(Domain mismtach)的語料在現實生活中，模型常由於訓練時間、資料稀少造成訓練不易的問題。儘管如此，歸功於開源資料(Open data)和開放原始碼(Open source)的普及，我們可輕易地取得公開的資料與模型，相對於領域內資料(模型)，領域外資料(模型)的取得可說是毫不費勁。有鑒於此，遷移學習便是針對上述情況而產生的解決方法，如何將一個相關但不同領域的知識轉移至另一個領域，這些研究統稱為遷移學習。舉例來說，我們有一個預先訓練的汽車分類器，該分類器可準確無誤地區分出 TOYOTA、HONDA 和 Nissan。而現在實際應用領域為水果的辨識。詳細來說，目標是訓練一個水果分類器，用以區分蘋果、香蕉和西瓜。在遷移學習的假設中，當模型學到 TOYOTA 和 HONDA 的關係時，可以用某種方式，將這樣區辨不同物體的能力也應用在水果之中，例如，TOYOTA 和 HONDA 的關係之於蘋果和香蕉。如果這樣的遷移知識可以成功，我們便能克服在模型訓練中的兩大難題： 1) 減緩標記語料的成本和 2) 隨時變化的測試資料(該資料可能與訓練資料不匹配)。在本論文的實驗中，我們探討利用有聲書朗讀語料 LibriSpeech[36]作為領域外資料，用以輔助會議語料 AMI[37]訓練的聲學模型。我們期待利用領域外的知識可有效輔助領域內的學習。. 1.2.2 模型合併與知識蒸餾多個模型合併往往能優於單一模型的成果[25][26][27][31]。這樣顯著的合併效能歸功於整體學習的優點，首先，各別單一模型有機會修正其他模型的錯誤；其次，多個模型同時評估，降低減少選擇到較差模型的可能性(Likelihood)；最後，模型合併會增加搜尋時的假說空間[38]，並且修正訓練時難以克服的問題。如語料選擇(Data selection)、目標函數(Objective function)、模型架構(Model architecture)。. 5.

(14) 我們期待利用模型合併在上述的三個效益，解決在自我訓練時的種子模型效能，主要針對問題是有限語料導致效果欠佳的聲學模型空間。在自動語音辨識中，模型合併可分為兩種層級，音框層級的合併(Frame-level combination or score fusion)[26] ，以及假說層級的合併 (Hypothesis-level combination)[25][27]。值得一提的是，在[39]的研究中音框層級的合併無助於端對端模型目標函數 CTC 的表現，而 LF-MMI 目標函數被視為 CTC 的延伸[15]，因此探討 LF-MMI 的合併結果是具有價值的事情。另一方面，整體學習可有效提升模型的效能，但其最為人詬病的便是增加的假說空間使得搜尋時間大幅增長，於是儘管合併模型效能較佳，但仍難以用在實際系統上。針對上述即時性問題，我們提出使用知識蒸餾 (Knowledge distillation)[28]的技巧，又稱學生教師模型(Student-teacher model)，將合併多個聲學模型視為複雜的教師模型，並嘗試壓縮到較簡單的聲學模型，或稱學生模型。在本論文，我們將會探討合併前後的影響和效益，並嘗試使用知識蒸餾將模型合併後的效能壓縮至較簡單的模型。這裡我們期許即使在低資源任務中，也可得到既準確且即時的聲學模型。. 1.2.3 自我訓練時的資料選擇在半監督式聲學模型訓練中最常見的方法為兩階段的自我訓練 (Self-training)[18][19][20]。其中影響自我訓練的關鍵為兩點：種子聲學模型的好壞(假說的泛用度與精準度)，以及對未轉寫語料的品質評估。過往最常見的評估方法為加入信心過濾器(Confidence-based filter)[21][22][23]，其概念是利用種子聲學模型對未轉寫語料計算信心分數 (Confidence score) ，並設置特定門檻值 (Threshold)，低於門檻值即被視為會惡化訓練的語料，因此不會加入第二階段的模型重新訓練。過往在聲學模型上的信心過濾器研究可分成三種層級，音框層級 6.

(15) (Frame-level)[40]. 、. 詞. 層. 級. (Word-level)[41]. 、. 語. 句. 層. 級. (Utterance-level)[19][41][42]。儘管信心過濾器為自我訓練架構奠定了簡單有效的訓練流程，但該方法仍存在至少三個問題。其一，不同測試集的門檻值未必相同，因此發展集(Development set)的門檻值未必適合測試集(Test set)；其二，由於信心分數與訓練語料的多寡直接相關，因此不同的訓練集便需重新找到適合的過濾器門檻值，造成訓練時間過長；其三，即使較差的訓練語料會惡化任務的訓練，但或許也可在某些程度幫助模型的訓練，如接近輸入層的用於特徵抽取的泛用層 (Generic layer)。然而資料選擇的機制則會直接拋棄低品質語料，使得聲學模型的泛用層無法獲得完整訓練。另一方面，過往的研究中鑑別式訓練對於訓練語句的正確性非常敏感[43][44][45]，因此探討何謂高品質與低品質的語料便更顯重要。我們在半監督式訓練著重於兩點：1) 如何辨別語料轉寫品質高低，以及 2) 自然地加入 LF-MMI 目標函數的鑑別式訓練。前者可視為資料選擇的技巧，後者可視為模型化的技術。比起傳統丟棄低轉寫品質的語料，我們將嘗試更自然的方法，使用高品質與低品質的語料一起訓練，以求更好的半監督式訓練結果。. 7.

(16) 1.3 論文貢獻本論文的貢獻有四點，整理如下： 1) 我們使用最新穎的訓練目標函數 LF-MMI，並在 AMI 語料下探討過往缺乏研究的半監督式 LF-MMI。其中，我們使用 NCE 準則與詞圖監督，並自然地融入 LF-MMI。AMI 雖有著其它待解決問題，但我們僅針對語料資源缺乏的問題著手，而低資源任務的研究可類推至其他問題，能否使用需要更多訓練語料的複雜聲學模型？未轉寫語料能否輔助訓練或降低人工標記成本？以及一般化(Generalization)的能力？具體來說，便是有限語料能否訓練出準確的聲學模型，並在訓練時未出現的語料上表現良好。我們提供以上問題的實驗和超參數(Hyperparameter)的調整結果。 2) 再者，基於半監督式訓練上，我們使用兩種層級的合併，利用多個弱學習器修正彼此的錯誤，以達到有效的辨識結果。另一方面，我們將多個模型的合併結果視為教師模型，並使用模型壓縮技術保留該效果至學生模型，以求高效自動語音辨識系統。這裡提供一個思路，我們不一定需要額外資料(包含領域外資料或未轉寫的領域內資料)，僅透過簡單地調整超參數的訓練，便可在低資源任務中訓練出有效且高效的聲學模型。 3) 接著，使用遷移學習的權重遷移與多任務學習，成功利用領域外資料輔助低資源任務的聲學模型訓練。實驗結果展示出，即使兩者語料的領域與口音不同，我們可利用遷移學習的技術，將領域外訓練好的知識，成功地輔助領域內的訓練，並在低資源任務中表現良好。 4) 最後，我們成功結合權重遷移與半監督式訓練，使得模型即使在低資源任務下，也能達到不錯的辨識效能。換句話說，在訓練中，我們不僅可使用未轉寫語料，也可使用相對高資源的領域外語料，且兩者可以相輔相成。. 8.

(17) 1.4 論文章節安排本論文共分為六章，第一章為緒論，簡介研究背景以及預計解決的問題；第二章為統計式語音辨識，我們會介紹語言模型與聲學模型，其中聲學模型包含傳統的 GMM-HMM 到 DNN-HMM，以及 LF-MMI 目標函數；第三章為遷移學習的介紹，其中包含歸納式遷移學習、轉導式遷移學習，以及負遷移學習；第四章為半監督式訓練於 LF-MMI，這裡我們會簡單扼要地回顧半監督式訓練的分類、聲學模型的研究，之後便會直接切入核心方法，如訓練準則、模型合併與壓縮；第五章為實驗架構與結果；第六章則是結論及未來研究方向。. 9.

(18) 10.

(19) 第2章. 統計式語音辨識. 最直覺的語音辨識便是「聽起來像的句子」，而統計式語音辨識便是對訓練語句的分析、推斷找出特徵和規律性，將「像」量化成機率表示，是目前最廣泛應用的技巧。如此一來，問題便可從「聽起來像的句子」量化成「找出機率最大的句子」。以數學式表示便是給定語句O，在所有文句Wℎ 找出最像的句子 s:. s = arg max P(𝑢|𝑂) 𝑢∈Wh. (2.1). 其中Wℎ 為所有可能文句的集合，𝑢為所有Wℎ 集合中的某一句，P(𝑢|O)代表在聽到語句O發生時，文句𝑢的事後機率。若使用貝氏定理(Bayes rule)則將P(𝑢|𝑂)展開可得到：. P(𝑢|𝑂) =. P(𝑂|𝑢)P(𝑢) P(𝑂). (2.2). P(𝑂|𝑢)表示文句 u 產生語句 O 的可能性(Likelihood)，一般會使用機率分佈 (Probability distribution)模型來表示這些機率，由於此模型用於建模聲學特徵，故稱聲學模型。P(𝑢)則是用來表示文句𝑢的事前機率(Prior probability)，表示在某種語言上發生該文句𝑢的機率，通常會隨著不同語言、不同領域而有差異。若文句 u 內含有𝑁個詞𝑤1 , … , 𝑤𝑁 ，則P(𝑢) = P(𝑤1 , … , 𝑤𝑁 )為𝑤1 , … , 𝑤𝑁 的聯合機率(Joint probability)，因為此模型用於建模語言特徵，故稱語言模型。在式(2.2)中，由於 P(𝑂)與文句 u 無關，拿掉此項並不妨礙找機率最大的文句，可簡化為：. s = arg max P(𝑢|𝑂) P(𝑢) 𝑢∈Wh. 11. (2.3).

(20) 2.1 聲學模型在為中文語音辨識器建立聲學模型時，需考慮中文語音的特性，中文音節 (Syllable) 由兩個音素 (Phoneme) 組成，分別是聲母 (Consonant) 及一個韻母 (Vowel)，舉例來說注音符號的“ㄅ”是聲母；而“ㄢ”是韻母。在實作方面則是要為每個音素建立模型，為聲母建立的模型為 INITIAL，例如可為”ㄅ”建立一個以 b 來表示的 INITIAL 模型；為韻母建立的模型為 FINAL，例如可為”ㄢ”建立一個 en 來表示的 FINAL 模型。為了處理語音辨識在時序上的變動性，我們通常採用左至右(Left-to-right)的隱藏式馬可夫模型(Hidden Markov models, HMM)來做為聲學模型 [46]。而每個狀態對每個音框(Frame)聲學特徵的觀測機率(Observation probabilities)，傳統是使用高斯混合模型(Gaussian mixture model，GMM)來決定此機率，近年來則以類神經網路模型來輔助估測每個音框聲學特徵的觀測機率。. 2.2 語言模型由於語言機率P(𝑢)是離散的分佈，故語言模型的建立不使用機率密度函數來近似，而是對各別機率做直接的估測。由於估測的參數成指數性成長，導致資料稀疏性的問題，故將聯合機率 P(𝑤1 , … , 𝑤𝑁 ) 展開成條件機率的連乘積 ∏𝑁 𝑘=1 P(𝑤𝑘 |𝑤𝑘−1 , … , 𝑤1 ) ，再使用 𝑛 − 1 階馬可夫假設 ( 𝑛 − 1 order Markov assumption)簡化，稱之為 n 連(n-gram)語言模型，即：. 𝑁. P(𝑢) = P(𝑤1 , … , 𝑤𝑁 ) ≈ ∏ P(𝑤𝑘 |𝑤𝑘−𝑛+1 , … , 𝑤𝑘−1 ). (2.4). 𝑘=1. 𝑤𝑘−1 , … , 𝑤𝑘−𝑛+1 為歷史詞序列 (History word sequences) ，條件機率 P(𝑤𝑘 |𝑤𝑘−𝑛+1 , … , 𝑤𝑘−1 )為根據目前為止的歷史詞預測下一個詞𝑤𝑘 的機率，故語 12.

(21) 圖 2.1：基本語音辨識流程圖。言模型即為每一種詞各自的條件機率分佈。在實作上，最常見的有使用一階馬可夫假設的詞雙連(Bigram)語言模型P(𝑤𝑘 |𝑤𝑘−𝑛+1 , … , 𝑤𝑘−1 ) ≈ P(𝑤𝑘 |𝑤𝑘−1 )或是使用二階馬可夫假設的詞三連 (Trigram) 語言模型 P(𝑤𝑘 |𝑤𝑘−1 , … , 𝑤𝑘−𝑛+1 ) ≈ P(𝑤𝑘 |𝑤𝑘−1 , 𝑤𝑘−2 )。n 連語言模型機率最大化相似度法則來做估計，並輔以相關的平滑化技術，如 Katz Smoothing [47]、Kneser-Ney Smoothing [48]等，對沒有出現在訓練語料，而無法由訓練語料所估測的機率加以平滑化。. 2.3 語音辨識之流程圖 2.1 為基本的語音辨識流程圖，在語音辨識的流程中，大致可分為前端處理 (Front-end processing)、聲學比對(Acoustic matching)以及語言解碼(Linguistic decoding)三個階段。前端處理是對於聲音的訊號、取樣與擷取特徵，將輸入的聲音訊號切割成重疊的音框(Frames)，並取重要的聲學特徵，如梅爾倒頻譜係數特徵(Mel-frequency cepstral coefficients, MFCC)[49]或梅爾濾波器組(Filer banks, 13.

(22) 圖 2.2：一般聲學模型訓練的流程圖。. FBANK)；聲學比對的任務則是將聲學模型與語句中每一個可能的語音段落做比對，計算其相似度，構成聲學模型輸出的基本單位可是音素、音節或是詞；語言解碼則使用維特比動態規劃搜尋(Viterbi dynamic programming search)[50]根據聲學上的相似度以及語言上的聯合機率進行解碼，找出最相似的文句。為了降低搜尋的複雜度，會透過裁減(Pruning)搜尋路徑以及分兩階段進行解碼，第一階段用較簡單的語言模型加上聲學比對選出候選文句，而第二階段根據第一階段的結果，用較複雜的語言模型重新搜尋(Language model rescoring)[51]。. 2.4 聲學模型訓練聲學模型的訓練通常需要仰賴精細的訓練方法以及龐大的訓練語料，詳細流程可參考圖 2.2。具體來說，傳統的聲學模型通常會先訓練高斯混合模型(Gaussian mixture model, GMM)，再進一步利用深層類神經網路(Deep neural network, DNN) 訓練特徵與多元音素(Senones)之間的非線性轉換(Non-linear transform)參數。我們在本章節會先簡單介紹傳統的 GMM 訓練，並在下一小節介紹 DNN 訓練。 14.

(23) GMM 的訓練分為兩個階段，訓練的第一個階段為對齊(Alignment)，一段語句進來，使用分段 K-中心法(Segmental K-means algorithm)[52]決定音素的邊界，第一階段將語音片段等切對齊至隱藏馬可夫模型的狀態，在各別狀態內利用 K中心法分成指定的群數，利用高斯混合模型進行估測。第二階段則利用第一階段估測完的結果分段對齊(Segmental alignment)，使用最大化事後機率來訓練 GMM 聲學模型，期望在訓練語料上每個音框對應的事後機率最大。最後，第一和第二階段迭代到穩定代表訓練完成。實際訓練 GMM 的流程有主要的三個步驟，分別為單元音素(Monophone)、三元音素(Tri-phone)、語者調適(Speaker adaptation)，每個步驟皆會依賴前一步驟的結果。直到語者調適的 GMM 訓練完畢，我們稱 GMM 的輸出結果為多元音素 (Senones)。由於多元音素是用於訓練 DNN，因此我們可將以上所有過程視為 DNN 訓練的前處理。. 2.5 深層類神經網路模型訓練傳統的語音辨識流程利用 HMM 處理語音訊號在時間上的變異[46]，並利用生成式模型 GMM 建立語音訊號的聲學模型。因為要人工決定需要多少高斯分佈才能近似真實的機率分佈，反而使 GMM 在發展上受到侷限。近年來以屬鑑別式模型的類神經網路輔助 GMM 的不足之處[53]，最簡易的模型為深層類神經網路(Deep neural network, DNN)。相較於 GMM 的限制，DNN 具有四點好處，首先是彈性的輸入特徵，可用音框跨度較大的音窗，除此之外，仍可用 MFCC 以外的語音特徵，如 FBANK、PLP 等；其次為多個隱藏層帶來的好處，特徵與目標間的非線性對應關係；最後則是無需假設特徵的機率分佈，及較具有鑑別力的模型參數。. 15.

(24) 圖 2.3：DNN 用於自動語音辨識訓練。以下將簡單介紹 DNN 如何運用在聲學模型的訓練，示意圖可參考圖 2.3。 DNN 可以視為一個簡單的前饋式類神經網路(Feed-forward neural network)，其中包含輸入層、隱藏層及輸出層。在向前計算時，每一個隱藏層的神經元會將前一層的輸出與權重向量相乘積，並透過非線性函數轉換成輸出，非線性函數通常為 Sigmoid，前饋運算可以表示為：. 𝐯 ℓ ＝𝜎(𝐳 ℓ ) ≡ 𝜎(𝐖 ℓ 𝐯 ℓ−1 + 𝐛ℓ ) , (2.5) ( ℓ = 0, 1, 2, 3, … , 𝐿 ) 16.

(25) 𝜎(𝑧𝑖ℓ ) =. 1 1 + exp(−z𝑖ℓ ). , 0 < 𝜎(z𝑖ℓ ) < 1. (2.6). 在式 (2.5) 和式 (2.6) 中， 𝑁ℓ ∈ ℕ ，為第 ℓ 層的神經元數量。 𝐯 ℓ ∈ ℝ𝑁ℓ×1 ， 𝐖 ℓ ∈ ℝ𝑁ℓ×𝑁ℓ−1 ，𝐛ℓ ∈ ℝ𝑁ℓ×1 。 𝐯 ℓ 為第ℓ層的輸出向量；𝐖 ℓ 為第ℓ層的權重矩陣，為可訓練參數，通常採取隨機初始化(Random initialization)；z𝑖ℓ 為𝐳 ℓ 內的元素，意旨同一層中第𝑖個神經元的輸出。若將 DNN 應用在預測類別(音素或其他更小單位)的事後機率上，每一個神經元的輸出都可表示為一個類別，總共可分為𝐶類，輸出表示為𝑖 ∈ {1, … , 𝐶}，第 𝑖個輸出神經元的值v𝑖𝐿 表示輸入音框的語音特徵𝐨𝑡 對應該類別𝑖的機率𝑃(𝑖|𝐨𝑡 )，假設輸出向量𝐯 𝐿 滿足多項式分佈(Multinomial distribution)，那麼𝐯 𝐿 需要滿足v𝑖𝐿 ≥ 0 及∑𝐶𝑖=1 𝑣𝑖𝐿 = 1，可以透過軟式最大化(Softmax)：. 𝑣𝑖𝐿. exp(𝑧𝑖𝐿 ) = softmax(𝐳 , 𝑖) = 𝐶 ∑𝑘=1 exp(𝑧𝑘𝐿 ) 𝐿. (2.7). 在訓練 DNN 的階段使用 GMM 產生強制對齊(Force alignment)得到狀態標籤 (State label)的序列，並作為監督資訊，傳統訓練使用交叉熵(Cross entropy)目標函數− ∑𝑖 𝐝𝑖 log 𝐯𝑖𝐿，其目的是最小化 DNN 輸出與狀態標籤d𝑖 的差異(𝐝𝑖 為 one-hot 表示法)。接著，我們再使用反向傳播演算法(Back-propagation)[54]於隨機梯度下降 (Stochastic gradient descent algorithm)最小化損失函數，參數更新可透過：. ℓ 𝐖𝑡+1  𝐖𝑡ℓ − ε∆𝐖𝑡ℓ. (2.8) 𝐛ℓ𝑡+1 𝐛ℓ𝑡 − ε∆𝐛ℓ𝑡. 17.

(26) 圖 2.4：深度學習與自動語音辨識的歷史。接下來我們簡單介紹深度學習與自動語音辨識的歷史，記錄如圖 2.4，從早期的深度信念網路(Deep belief network, DBN)[55]，到資料逐漸充足後，可直接應用上下文相關類神經網路(Context-dependent deep neural network, CD-DNN)於自動語音辨識的訓練 [56] ，後續技術如雨後春筍般冒出。儘管 DNN-HMM 可比 GMM-HMM 有更好的特徵轉換的能力，但在 DNN-HMM 中，前饋式類神經網路較難利用到存在於語音信號的時間依賴性，有鑑於此，[57][58]提出利用遞迴式類神經網路 (Recurrent neural network, RNN)，特別是長短期記憶單元 (Long short-term memory, LSTM)[59]，基於 LSTM 的特性，LSTM-HMM 可對序列式資料建模，進而捕捉到語音訊號的時間依賴性，可達到比起 DNN-HMM 更好的效能。儘管如此，由於 LSTM 的計算難以平行化[60]，使得訓練時間較為冗長，也無法達到自動語音辨識要求的即時性，使得該議題大多為研究相關，實用程度較 18.

(27) 低。[61]使用了時間延遲類神經網路(Time-delay neural network, TDNN)做為聲學模型，TDNN 可視為 1 維的摺積層(Convolutional layer)，在模型的特性上與 LSTM 相似，可根據輸入的歷史計算未來輸出，因此對於長時間依賴性也可得到良好的建模，且訓練效率也相仿 DNN。因為可同時兼顧有效性與即時性，TDNN-HMM 成為目前主流自動語音辨識受歡迎的模型之一。因此本文會基於 TDNN 之上，進行一系列的研究。. 2.6 Lattice-free maximum mutual information 2012 年至今，基於類神經網路的聲學模型(DNN-HMM)的發展取得重大的突破 [56][62]。在傳統語音辨識的訓練中，DNN-HMM 可透過兩階段的訓練提升聲學模型的辨識效果。第一階段基於最大相似度(Maximum likelihood)的交叉熵訓練 (Cross-entropy training, CE) ，第二階段為鑑別式訓練 (Discriminative training)[5][6][7]，或稱序列式訓練(Sequence training)。由於第二階段的鑑別式訓練提升效果顯著，吸引了許多研究者的目光[8][9][10][11][12][13]。關於鑑別式訓練，我們會在下一小節詳細介紹。圖 2.5 為最大相似度(通常用交叉熵計算)和鑑別式訓練計算的比較圖。近年來，在一階段加入將鑑別式訓練的目標函數也越來越流行。本論文使用的 LF-MMI 目標函數證明在目前已知的所有情況下，LF-MMI 可提供更快的訓練(可隨機初始化，不用透過交叉熵訓練)與解碼(更小的神經網路與較低的音框採樣率)，同時取得目前最優異的性能，因此成為了目前在自動語音辨識任務中最受歡迎的目標函數。根據[15]的實驗中展示，LF-MMI 效果更勝兩階段訓練的 sMBR 一籌，且還可結合 sMBR 進一步提升辨識結果。. 19.

(28) 圖 2.5：最大似然估測與鑑別式訓練的比較圖。前者只會計算最佳路徑，後者除了計算最佳路徑以外，也需要遠離競爭語句。. 2.6.1 Maximum mutual information 條件最大化可能性(Conditional maximum likelihood, CML)[32]的目標函數是在給予聲學特徵和模型參數下，估測參考轉寫(Reference transcript)的對數相似度(Log likelihood)。因為一些歷史的原因[8]，CML 變成了我們目前常用於鑑別式訓練的 MMI，式子如下： ℱ MMI = ∑ log 𝑃(𝑆𝑢 |𝑂𝑢 , 𝜆). (2.9). 𝑢. 式(2.9)的 u 為句子，𝑆𝑢 為句子𝑢的正確狀態序列(Reference state sequences)，Ou 為句子𝑢的聲學特徵，λ為模型參數。分子為參考轉寫序列的機率，而分母為所有可. 20.

(29) 能序列的機率。MMI 的目標便是最大化上述的式子。詳細的計算過程可透過貝式定理拆解成式(2.10)： ℱ MMI = ∑ log 𝑢. 𝑃(𝑂𝑢 |𝑆𝑢 , 𝜆)𝑃(𝑆𝑢 ). (2.10). ∑𝑆′ 𝑃(𝑂𝑢 |𝑆 ′ , 𝜆)𝑃(𝑆 ′ ). 在式(2.10)中，𝑆𝑢′ 為句子𝑢的競爭狀態序列(Competing state sequences)。可透過鑑別式訓練，將模型目標函數定義成接近正確狀態序列和遠離競爭狀態序列。若單一句子𝑢在時間𝑡，而正確序列的長度為 K，那麼𝑃(𝑂𝑢 |𝑆𝑢 , 𝜆) = ∏𝐾 𝑖=1 𝑝(𝑜𝑢𝑖 |𝑠𝑢𝑖 , 𝜆)，其中𝑠𝑢 ∈ 𝑆𝑢 𝑎𝑛𝑑 𝑜𝑢 ∈ 𝑂𝑢 。由於後續的計算皆是在單一句子𝑢，因此我們不會特地寫𝑢的下標。綜上所述，我們實際計算梯度下降(Gradient descent)時的微分則可表達為下式： ∂ℱ MMI 𝜕ℱ MMI ∂𝐳tL =∑ ∂λ 𝜕𝐳𝑡𝐿 ∂λ t. =. ∑ 𝐞𝐿𝑡 𝑡. 𝜕𝐳𝑡𝐿 𝜕𝜆. (2.11). 式(2.11)中為對ℱ MMI 的參數λ做偏微分；其中𝐳𝑡𝐿 為網路的第L層的輸出，經過了 softmax 可寫成𝐯𝑡𝐿 = softmax(𝐳𝑡𝐿 )，且𝐯𝑡𝐿 (𝑟) = 𝑝(𝑟|𝑜𝑡 )意旨輸出為狀態𝑟的機率； 𝜕ℱ MMI. 我們將前項. 𝜕𝐳𝑡𝐿. 為 MMI 的計算中較複雜的部份，我們以𝐞𝐿𝑡 為代表，根據連鎖法. 則(Chain rule)，使用log 𝑝(𝑜𝑡 |𝑟)再次展開如下： 𝑒𝑡𝑖𝐿 = ∑ 𝑟. 𝜕ℱ 𝑀𝑀𝐼 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕𝑧𝑡𝑖𝐿. (2.12). 式(2.12)中的𝑒𝑡𝑖𝐿 意旨在𝐞𝐿𝑡 這個向量中的第𝑖 個元素(Element)，代表網路中的第 𝐿 + 1層的第𝑖個神經元。首先，我們計算較簡單的後項. 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝐿 𝜕𝑧𝑡𝑖. 𝑝(𝑟|𝑜𝑡 )𝑝(𝑜𝑡 ). 中，我們先用貝式定理對分母項log 𝑝(𝑜𝑡 |𝑟)展開成. 21. 𝑝(𝑟). 。在計算的過程. 後，並取 log 後成三.

(30) 項相加，由於其中兩項log𝑝(𝑜𝑡 )和log𝑝(𝑟)與𝑧𝑡𝑖𝐿 無關，使得偏微分後的值為零，最後我們將以上描述整理為下式： 𝑝(𝑟|𝑜𝑡 )𝑝(𝑜𝑡 ) ] 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕 log [ 𝑝(𝑟) = 𝜕𝑧𝑡𝑖𝐿 𝜕𝑧𝑡𝑖𝐿 =. 𝜕 [log 𝑝(𝑟|𝑜𝑡 ) + log𝑝(𝑜𝑡 ) − log𝑝(𝑟)] 𝜕𝑧𝑡𝑖𝐿. 𝜕 [ log vtL (𝑟) + log𝑝(𝑜𝑡 ) − log𝑝(𝑟)] 𝜕𝑧𝑡𝑖𝐿 𝜕 log vtL (𝑟) = 𝜕𝑧𝑡𝑖𝐿 =. (2.13). 𝜕ℱ 𝑀𝑀𝐼. 接著我們來計算式(2.12)中的前項𝜕 log 𝑝(𝑜 |𝑟)，在計算前項時，我們可將分母項的 𝑡. ℱ 𝑀𝑀𝐼 展開取 log 後展開成三項： 𝜕ℱ 𝑀𝑀𝐼 = 𝐾 log 𝑝(𝑜|𝑠, 𝜆) + log 𝑝(𝑆) − log [ ∑ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ )]. (2.14). 𝑠′ ∈𝑆 ′ 𝜕ℱ 𝑀𝑀𝐼. 𝜕 log 𝑝(𝑆). 式(2.14)展開後的結果帶入 𝜕 log 𝑝(𝑜 |𝑟) 並微分後，其中的第二項 𝜕 log 𝑝(𝑜 |𝑟) ，由於 𝑡. 𝑡. log 𝑝(𝑆)和log 𝑝(𝑜𝑡 |𝑟)無關，使得微分後的值為零，因此一樣可以省略，我們將過程與結果整理如下： 𝜕ℱ 𝑀𝑀𝐼 𝜕 log 𝑝(𝑜|𝑠, 𝜆) 𝜕 log 𝑝(𝑆) =𝐾 + 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕 log 𝑝(𝑜𝑡 |𝑟) − =𝐾. 𝜕 log[∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ )] 𝜕 log 𝑝(𝑜𝑡 |𝑟). 𝜕 log 𝑝(𝑜|𝑠, 𝜆) 𝜕 log[∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ )] − 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕 log 𝑝(𝑜𝑡 |𝑟). (2.15) 𝜕 log 𝑝(𝑜|𝑠,𝜆). 在式(2.15)的減號前後又分為兩項，我們先處理較為簡單的前項 𝜕 log 𝑝(𝑜 |𝑟) ： 𝑡. 𝜕 log 𝑝(𝑜|𝑠, 𝜆) 𝜕 ∑𝑡 ′ log 𝑝(𝑜𝑡 ′ |𝑠𝑡 ′ , 𝜆) = 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕 log 𝑝(𝑜𝑡 |𝑟) = 𝛿(𝑟 = 𝑠𝑡 ). (2.16). 22.

(31) 在式 (2.16) 中， log 𝑝(𝑜|𝑠, 𝜆) 是 HMM 裡給定狀態的輸出概率 (Emission probability)，可拆解成時間上的連加 ∑𝑡 ′ log 𝑝(𝑜𝑡 ′ |𝑠𝑡 ′ , 𝜆) ，只有當時間點一樣 (𝑡 = 𝑡 ′ )時，狀態序列才會保留下來。另一方面，網路輸出為正確的狀態序列 (𝑟 = 𝑠𝑡 )的值才會等於 1，其餘等於 0。因此我們可使用指示函數(Indicator function) 來代表。整理完式(2.15)的前項後，我們來整理後項，與式(2.16)相同，只有時間點一樣(𝑡 = 𝑡 ′ )才會保留狀態序列，由於是對 log 函數微分，因此用連鎖法則展開： 𝜕 log[∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ )] 𝜕 log 𝑝(𝑜𝑡 |𝑟) 𝜕[∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ )] = 𝜕 log 𝑝(𝑜𝑡 |𝑟) ∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ ) 1. =. ∑𝑠′ ∈𝑆′ :𝑠′ =𝑟 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ ) 𝑡. (2.17). ∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ ). 到這裡計算告一段落，我們可將計算結果帶回式(2.16)和式(2.17)代回式(2.15。再將式(2.13)與式(2.15)代回式(2.12)便可整理如下： eLti. ∑𝑠′ ∈𝑆′ :𝑠′ =𝑟 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ ) 𝜕 log vtL (𝑟) 𝑡 = 𝐾 [𝛿(𝑟 = 𝑠𝑡 ) − ] 𝜕𝑧𝑡𝑖𝐿 ∑𝑠′ ∈𝑆′ 𝑝(𝑜|𝑠 ′ , 𝜆)𝐾 𝑝(𝑆 ′ ). (2.18). 式(2.18)代回式(2.11)便可完成計算，值得一提的是，常見的鑑別式訓練如 sMBR、 MPE、MCE 等，與 MMI 的差異多數僅在最佳化不同的標記精細度，因此皆可以用上式類推。接下來我們用敘述 MMI 的問題，以下為 MMI 微分後的整理： 𝜕ℱ 𝑀𝑀𝐼 = 𝛿𝑆𝑢:𝐯𝑡𝐿(𝑟) − 𝛾𝐯𝐷𝐸𝑁 𝐿 𝑡 (𝑟) 𝜕𝜆. (2.19). 在式(2.19)中的𝛿𝑆𝑢:𝐯𝑡𝐿 (𝑟) 為指示函數，當𝐯𝑡𝐿 (𝑟)的輸出屬於正確狀態序列𝑆𝑢 時為 1， 𝐿 反之則為 0 。另一方面， 𝛾v𝐷𝐸𝑁 L (𝑟) 則表示 𝐯𝑡 (𝑟) 為正確狀態序列的事後機率 t. (Posterior)，可表示如下：. 23.

(32) 𝛾v𝐷𝐸𝑁 L( ) t 𝑟. =. ∑ 𝛿𝑆:vLt (𝑟) 𝑃(𝑆|𝑂𝑢 , 𝜆) 𝑆. =. ∑𝑆 𝛿𝑆:vL (𝑟) 𝑃(𝑂𝑢 |𝑆, 𝜆)𝑃(𝑆) t. (2.20). ∑𝑆′ 𝑃(𝑂𝑢 |𝑆 ′ )𝑃(𝑆 ′ ). 式(2.20)為計算所有可能存在於假說的競爭序列，MMI 裡最為人困擾的計算問題便存在於此。在較早期的研究裡，學者們常利用交叉熵做預先訓練限制假說空間的大小，使得 MMI 的競爭序列產生於有限的詞圖中。這樣訓練取得近年來最佳的自動語音辨識性能，但由於需要多餘的交叉熵訓練產生競爭序列的詞圖，使得 MMI 訓練的效能受限於交叉熵訓練結果的局部最佳解。近年來提出的 LF-MMI 主要解決的是式(2.20)的計算，目的是不用交叉熵訓練產生詞圖，便可計算所有可能的競爭訓練。. 2.6.2 Lattice-free maximum mutual information 近年來，學者 Povey 等人提出 CTC[14]延伸架構的目標函數─LF-MMI [15]，避開需要交叉熵(Cross-entropy)訓練產生詞圖的冗餘步驟。主要改變為四個面向： 1). 使用訓練文本產生 4 連音素語言模型(4-gram phone language model)，且不會退化(Backoff)小於 3 連音素語言模型(3-gram phone language model)，以此取代傳統鑑別式訓練時的詞圖(Word-level lattice)，使得搜尋的假說空間減少。. 2). 提出多種避免過度擬合 (Overfitting) 的訓練技巧，如 L2 正則項 (L2-regularization) 和多任務架構 (Multitask architecture) 的交叉熵正則項 (Cross-entropy-based regularization) ，讓使得模型訓練時能同時最佳化 LF-MMI 和交叉熵目標函數，如圖 2.6 所示。. 3). 使用 Leaky HMM，改變原先三個左到右狀態 HMM(3-state left-to-right HMM)，採用類似 CTC 的兩個左到右狀態 HMM(2-state left-to-right HMM)， 24.

(33) 圖 2.6：LF-MMI 的多任務學習示意圖。且第一個狀態沒有 self-loop，用於模擬 CTC 的空白輸出(Blank)。 4). 假設類神經網路的輸出為偽對數可能性(Pseudo log-likelihood )，而不是經軟式最大化(Softmax)的狀態事後機率。基於上述實作的改進，LF-MMI 與傳統 MMI 在數學式上的計算便有了若干. 不同之處。首先，儘管分子項的參考轉寫仍由 GMM-HMM 產生，但分母項不再是該句的競爭序列，而是由訓練文字文本(Word transcript)轉發音文本(Phone transcript)的 4 連音素語言模型替代。這樣的改變可簡化式(2.20)的計算複雜度，從原先的基於詞圖的錯誤計算(Lattice-based error calculation)改成在 4 連音素空間的向前向後演算法(Forward-backward algorithm)搜尋，使得我們能使用 GPGPU 計算；其次，基於實驗的觀察，LF-MMI 易於過度擬合(Overfitting)而導致效果不佳。因此學者 Povey 等人使用多種避免過度擬合的實驗結果，其中尤其重要的為交叉熵正則項，使得 LF-MMI 無須交叉熵聲學模型產生的詞圖，便可將鑑別式訓練用於聲學模型，並同時最佳化交叉熵和 LF-MMI。這樣的改變不僅使得訓練. 25.

(34) 的時間大幅縮短，且效果更甚傳統兩階段式訓練的辨識結果。除此之外，也可結合其他鑑別式訓練進一步提升效能。剩下兩者的改變則是模仿另一個端對端目標函數─CTC 的拓樸(Topology)，因此 LF-MMI 也可視為 CTC 的延伸架構。. 26.

(35) 第3章. 遷移學習. 在傳統機器學習的假設中，訓練集與測試集需為同樣或相近的機率分佈 (Probability distribution)，當特徵空間(Feature space)或資料分佈(Data distribution) 改變時，往往需要重新收集大量資料並建立系統，不僅曠日廢時且不切實際。然而，在現實生活中，測試集與訓練集多少會有些不同。該情況可能包含多個原因，其一，訓練資料稀少，或是過於集中某些情況，無法包含所有可能性。其二，測試集包含特徵以外的變數，舉例來說，股票決策點往往與過去價錢變化的相關性不高，且每個人的投資決策會互相影響，因此會隨著時間改變本身的特徵空間或資料分佈。其三，也要最重要的一點，我們時常缺乏感興趣領域的資料，但擁有充足的其他領域資料。在包含上述問題的任務中，如何從一個領域的知識遷移 (Knowledge transfer)到另一個新領域的技術便顯得十分重要，若知識轉移的技術如果能成功，便能在有效訓練模型的同時，大幅地降低標記資料的負擔。我們將這上述技術統稱為遷移學習(Transfer learning)。我們會分為五個小節介紹遷移學習，首先是遷移學習與自動語音辨識的關係，這裡我們簡介遷移學習的動機與相關例子，另一方面，我們也會簡單帶過自動語音辨識的研究歷程；第二章，我們會定義本章節的數學式的相關符號；第三章是遷移學習的分類，分為歸納式遷移學習(Inductive transfer learning)以及轉導式遷移學習(Transductive transfer learning)；第四章為遷移學習中的一項重要議題 ─負遷移學習(Negative transfer learning)。. 3.1 遷移學習與自動語音辨識遷移學習是一種將知識從特定領域轉移到另一個領域的技術，起源動機為一個人若能在學習新事物時，運用以前學習到的知識，便能比更快上手[63]。舉例來說，資訊工程的第一道關卡為程式語言，但當我們已經學會了 C，那上手 Java 或 27.

(36) 圖 3.1：在面對不同領域的差異時，傳統機器學習與遷移學習的示意圖。左方為傳統的機器學習，右方為遷移學習。相較於傳統機器學習遇到新領域便要訓練新的系統，遷移學習可利用已在來源領域的知識輔助目標領域的學習。 Python 的速度便會一次比一次快，上述可類比為不同但相關領域的遷移學習。另一方面，心理學也有類似的研究[64]，人在學習事物時，時常會利用相關事件的經驗來輔助學習，若學習事件與輔助經驗具備前後關係，那我們便能更快上手。相較於傳統機器學習的共同特徵空間與資料分佈的假設，遷移學習可用於任意不同但相關的任務或領域。它可以視作是半監督式訓練(Semi-supervised training)、領域調適(Domain adaptation)、多任務學習(Multitask learning)、模型壓縮(Model combination)和樣本選擇偏差(Sample selection bias)的超集(Superset)。圖 3.1 為傳統機器學習與遷移學習差異的示意圖。遷移學習之於語音辨識有著一系列的研究，基礎假設皆為不同領域(語言)有著通用的泛用層(Generic layer)與不同的任務層(Task-specific layer)。在[65]中對語音處理中使用的方法進行了廣泛的調查，[66]中使用了一個簡單的線性輸入網路 (Liner input network, LIN)，它試圖通過調整網路參數來達成領域調適(Domain adaptation)，主要著重的點為語者調適(Speaker adaptation)。這啟發了更先進的方 28.

(37) 法，例如使用特徵空間轉換的基於特徵的鑑別線性回歸 (Feature-based discriminative linear regression, fDLR)[67]和在網路的各個階段使用線性隱藏網路 (Linear hidden network, LHN)的線性變換(Linear transformation)[68]。近年來，在 [69]中比較了基於 LHN 的調適和基於多任務的調適。眾所周知，多任務學習透過共享隱藏層(Shared hidden layer)以及不同的輸出層(Output layer)成功用於多語言培訓(Multilingual training)[70][71]。綜上所述，目前主流的遷移學習在語音辨識的方法可分為兩種，使用 LHN 調整模型參數的權重遷移(Weight transfer)[29] 和多任務學習。前者具有簡單高效的性能，且當領域外模型訓練完畢時，便可直接在領域內的資料訓練；而後者雖然需同時訓練領域外和領域內資料導致訓練時間較長，但可以充分利用不同領域的特性。[29][72]的研究中發現在除了資料量以外，而且任務彼此間的相關性對遷移學習也十分重要。. 3.2 符號與定義在本章節中，我們定義的符號”領域” 𝒟和”任務” 𝒯。領域 𝒟包含兩個部分，特徵空間 𝒳 的邊際機率分佈 (Marginal probability distribution) 𝑃(𝑋) ，表示成 𝒟 = {𝒳, 𝑃(𝑋)}。𝒳為所有的表示向量𝓍的集合。在𝑃(𝑋)中，𝑋為用於學習的部分採樣資料，𝑋 = {𝐱1 , 𝐱 2 , … , 𝐱 𝑛 } ∈ 𝒳，其中𝐱 𝑖 對應到第𝑖個資料的表示向量。一般而言，如果我們定義兩個領域不同，那麼它們可能是有著不同的特徵空間或是邊際機率分佈。有了給定的領域𝒟 = {𝒳, 𝑃(𝑋)}，便可得出特定任務𝒯，任務𝒯包含標記空間 𝑌和預測函數𝑓(. )，表示成𝒯 = {𝑌, 𝑓(. )}。其中標記空間𝑌可由採樣資料𝑋中觀察而成，因此我們可定義訓練資料對為{𝐱 𝑖 , 𝑦𝑖 }，其中𝑥𝑖 ∈ 𝑋 𝑎𝑛𝑑 𝑦𝑖 ∈ 𝑌。𝑓(. )可用來預測新資料𝐱的對應標記𝑓(𝐱)。從機率上的觀點來看，預測函數𝑓(. )便可改寫成𝑃(𝑦|𝐱)。以聲學模型的任務為例子，𝑥便是聲學特徵，而𝑦則是多元音素(Senones) 29.

(38) 表 3.1：傳統機器學習與常見遷移學習設定的比較。學習設定. 來源與目標領域. 來源與目標任務. 傳統機器學習. 相同. 相同. 歸納式遷移學習. 相同. 不同但相關. 非監督式遷移學習. 不同但相關. 不同但相關. 轉導式遷移學習. 不同但相關. 相同. 遷移學習. 的類別。為了簡化問題，我們定義實際可觀察到的資料為來源領域 (Source domain) 𝐷𝑆 與目標領域 (Target. domain) 𝐷𝑇 。來源領域. 𝐷𝑆 = {(𝐱𝑆1 , 𝑦𝑆1 ), … , (𝐱 𝑛𝑆 , 𝑦𝑛𝑆 )}，其中有資料實例𝐱𝑆𝑖 ∈ 𝑋𝑆 和標記類別𝑦𝑆𝑖 ∈ 𝑌𝑆。我們稱 (𝐱𝑆𝑖 , 𝑦𝑆𝑖 ) 為領域外資料。同理，我們可定義目標領域 𝐷𝑇 = {(𝐱 𝑇1 , 𝑦𝑇1 ), … , (𝐱 𝑛𝑇 , 𝑦𝑛𝑇 )}，其中有資料實例 𝐱 𝑇𝑖 ∈ 𝑋𝑇 和標記類別𝑦𝑇𝑖 ∈ 𝑌𝑇 。我們稱(𝐱 𝑇𝑖 , 𝑦𝑇𝑖 )為領域內資料。在我們的低資源任務的例子中，0 ≤ 𝑛𝑇 ≪ 𝑛𝑆 。. 定義 3.1(遷移學習) 給定一個來源的領域𝒟𝑆 和學習任務𝒯𝑆 ，以及目標的領域𝒟𝑇 和學習任務𝒯𝑇 。其中在𝒟𝑆 ≠ 𝒟𝑇 或𝒯𝑆 ≠ 𝒯𝑇 的情況下，遷移學習可利用存在於來源領域的知識(𝒟𝑆 和𝒯𝑆 ) 用以輔助目標預測函數𝑓𝑇 (. )。上述定義中𝒟𝑆 ≠ 𝒟𝑇 ，可視為𝒳𝑆 ≠ 𝒳𝑇 或𝑃𝑆 (𝑋) ≠ 𝑃𝑇 (𝑋)，意涵著來源領域和目標領域的特徵空間或邊際機率分佈有所不同。以文件分類為例，前者為兩份文件用不同語言撰寫，後者為兩份文件描述不同的主題。同樣的𝒯𝑆 ≠ 𝒯𝑇 也可視為標記空間𝑌𝑆 ≠ 𝑌𝑇 或預測函數𝑃(𝑋𝑆 |𝑌𝑆 ) ≠ 𝑃(𝑋𝑇 |𝑌𝑇 )，舉例來說，前者可視為二元分類及多元分類，後者意旨在使用者定義類別裡，來源和目標的文件的數量非常不平衡(亦即某些類別來源領域特別多，而目標領域卻很少)。當來源領域相同(亦即 𝒟𝑆 = 𝒟𝑇 )且學習任務相(i.e. 𝒯𝑆 = 𝒯𝑇 )時，該問題便轉化成一般的機器學習問題。 30.

(39) 根據上述的領域和任務的異同，我們可將傳統的機器學習方法和遷移學習中的設定統整於表 3.1，並於章節 3.3 中詳述遷移學習中的三種設定。. 3.3 遷移學習的分類從遷移學習的定義來說，任何問題都可以被區分為領域𝒟和任務𝒯。因此我們可從三個面向來探討遷移學習，分別為：1) 我們要遷移的是什麼？大部分的知識存在於領域和任務中。在跨領域和任務之間，有那些共同的知識，以及這些知識是否可以提升目標領域的任務效能？2) 何時可以遷移知識？在某些情況下，兩個領域間的知識的遷移會造成目標領域任務的效能下降，這裡有個更精確的名詞為負遷移學習(Negative transfer learning)；3) 如何遷移知識？這意味著來源領域與目標領域是否相關，相關程度有多少。本小節著重在 1) 和 3) ，「遷移什麼」以及「如何遷移」，雖然本論文對於 2)的部分並沒有太多著墨，但如何避免 2) 的情況仍是一個重要的研究議題。基於特徵空間與標記空間是否相同，我們可以進一步區分為： 1. 歸納式遷移學習(Inductive transfer learning) 2. 轉導式遷移學習(Inductive transfer learning) 3. 非監督式遷移學習(Unsupervised transfer learning). 其一，歸納式遷移學習(Inductive transfer learning)定義為具目標領域的標記資料，根據有無來源領域的資料，又可細分的關聯方法多任務學習 (Multitask learning)和自我訓練(Self-learning)。注意，遷移學習中的自我訓練與半監督式訓練中的自我訓練大致相同，差別僅在前者的未標記資料與標記資料的領域不同，而後者則否。對於歸納式遷移學習，我們可由資料實例(Instance)、特徵表示 (Feature representation)、關聯知識(Relational knowledge)和參數(Parameter)來介紹 31.

(40) 圖 3.2：遷移學習的常見設定比較圖。歸納式遷移學習為來源與目標任務不同 (𝒯S ≠ 𝒯𝑇 )；轉導式遷移學習為來源與目標任務相同且領域不同(𝒯𝑆 = 𝒯𝑇 𝑎𝑛𝑑 𝐷𝑆 = 𝐷𝑇 )；非監督式遷移學習為不具有來源和目標領域的資料。. 表 3.2：遷移學習的常見設定與關注面向。歸納式遷移學習. 轉導式遷移學習. 基於實例. . . 基於特徵. . . 基於關聯知識. . 基於模型參數. . 非監督式遷移學習. . ；其二，定義為只具有來源領域的資料，根據領域的異同，又可細分的關聯方法領域調適(Domain adaptation)和資料選擇偏差(Sample selection bias)。對於轉導式遷移學習，我們可由資料實例(Instance)和特徵表示(Feature representation)來介紹；最後，非監督式遷移學習(Unsupervised transfer learning)的定義為不具有來源領域與目標領域的資料，著重於特徵表示(Feature representation)的學習。三者比 32.

(41) 較歸納於圖 3.2 與表 3.2，由於關注的面向與設定的不同，且非監督式遷移學習也可應用歸納式遷移學習和轉導式遷移學習，因此我們可將第三點併入前兩點，並由小節 3.3.1 和小節 3.3.2 分別介紹歸納式遷移學習和轉導式遷移學習。. 33.

(42) 圖 3.3：歸納式遷移學習。. 3.3.1 歸納式遷移學習(Inductive transfer learning) 本章節一開始，讓我們先定義歸納式遷移學習。定義 3.2(歸納式遷移學習). 給定來源領域𝒟𝑆 和任務𝒯𝑆 ，以及目標領域𝒟𝑇 和任務 𝒯𝑇 。歸納式遷移學習意旨在來源與目標任務不同(𝒯𝑆 ≠ 𝒯𝑇 )的情況下，利用存在於來源領域𝒟𝑆 和任務𝒯𝑆 的知識提升目標預測函數𝑓𝑇 (. )的效能。基於上述定義，目標任務不同(𝒯𝑆 ≠ 𝒯𝑇 )意涵這可能是標記空間不同(𝑌𝑆 ≠ 𝑌𝑇 ) 或預測函數𝑓𝑇 (. )不同等四種組合。也就是說不論特徵空間或實例的邊際機率分佈如何，歸納式遷移學習定義在接近輸出端的標記空間或預測函數必須有所不同，因此我們需要部份目標領域的資料來「歸納」目標領域的預測函數𝑓𝒯 (. )的效能。如 3.2 節的簡介所述，此設置有兩種情況：1) 來源領域中的具有可用的標記資料及 2) 來源領域中只具有可用的未標記資料。前者的相關領域為多任務學習，而後者的相關領域為自我訓練。在遷移學習中，較常見的方法為利用來源領 34.

(43) 圖 3.4：基於實例的遷移學習。域的標記資料，此設置中的大多數的遷移學習方法側重於前一種情況。歸納式遷移學習可由圖 3.3 所示，基於實例、基於特徵表示法、基於模型參數和基於關聯知識四個面向來介紹。. 3.3.1.1 基於實例的遷移學習基於實例的遷移學習，假設存在於來源領域的資料只有部分可用於目標領域，另一部分的資料則會損害原目標領域所訓練的分類器效能。因此，如何挑選對目標領域的分類器「有益」的資料，並加入訓練便是基於實例的遷移學習的重點。基於實例的遷移學習的假設中，來源領域與目標領域含有許多重疊的特徵。如圖 3.1 所示。這意味著領域間(𝒟𝑆 和𝒟𝑇 )具備著共同或相似的特性。過往於此分類的研究，Wu 和 Dietterich 在支持向量機 (Support vector machine, SVM)使用來源領域作為輔助(Auxiliary)資料，用以改善 SVM 在目標領域的性能[73]：. 35.

(44) 𝑛𝑇𝑙. 𝑛𝑆. 𝑖=1. 𝑖=1. 1 2 arg min ||𝐰||2 + 𝜆 𝑇 ∑ ℰ 𝑇𝑖 + 𝜆𝑆 ∑ 𝛾𝑖 ℰ𝑆 𝑖 𝑤,ℰ𝑆 ,ℰ𝑇 2 𝑠. 𝑡. 𝑦𝑆𝑖 𝐰 𝑇 𝐱𝑆𝑖 ≥ 1 − ℰ𝑆 𝑖 , 𝑖 = 1, … , 𝑛𝑆. (3.1). 𝑦𝑇𝑖 𝐰 𝑇 𝐱𝑇𝑖 ≥ 1 − ℰ 𝑇 𝑖 , 𝑖 = 1, … , 𝑛 𝑇𝑙 𝐰為模型的參數，𝑛 𝑇𝑙 為目標領域中具標記資料的數量，𝜆 𝑇 和𝜆𝑆 為目標領域和來源領域的權重，用以權衡兩者之間的重要性，目標領域和來源領域中的惰變數 (Slack variable)ℰ 𝑇𝑖 和ℰ𝑆𝑖 為常數，用於表示資料偏離函數邊際(Function margin)的範圍。最後的𝛾𝑖 為來源領域的實例的權重，在過往的研究中針對𝛾𝑖 有不同的看法，[73]將所有的來源領域的實例設為 1。另一方面，Jiang 和 Zhai 等人在[74] 則不是使用 SVM，提出利用目標領域的預測函數𝑃(𝑦𝑇 |𝐱 𝑇 )和來源領域的預測函數𝑃(𝑦𝑆 |𝐱𝑆 )兩者條件機率的異同，並利用該差異將來源領域會”誤導”的資料的權重𝛾𝑖 設為 0。 Dai 等人在[75]提出了 TrAdaBoost 的分類器，TrAdaBoost 為 AdaBoost 的延伸方法。在[75]中假設來源領域和目標領域具有相同的特徵與標記空間，但兩者之間的資料分佈不盡相同(亦即 𝑃(𝑋𝑆 ) ≠ 𝑃(𝑋𝐷 ))。在該假設之下，來源領域的資料之於目標領域，便成了部分為有用資料，另一部分為無用，甚至有害的資料。因此[75]提出訓練一個分類器，決定來源領域資料的權重，用以降低「有害」的來源領域資料的影響，並鼓勵「有益」的來源領域資料提出貢獻。該方法與 Adaboost 運用相似的策略，在每次迭代時會不斷針對分類錯誤(計算在目標領域) 的資料更新。在[76]中，Liao 等人提出主動式學習(Active learning)，該方法利用來源領域訓練分類器，並選擇目標領域的未標記資料。. 3.3.1.2 基於特徵表示的遷移學習前一章節提到「基於實例的遷移學習」假設兩個領域的特徵大致重疊，所以問題變成找到”好”的資料。然而，在大多數的情況下，這樣的假設太過強烈，導致能 36.

(45) 圖 3.5：基於特徵表示的遷移學習。遷移的領域範圍縮小。因此，我們將假設再放寬一些，假設來源領域與目標領域只有很少的共享特徵。如此一來，許多基於實例的方法便不奏效，對應該問題的方法便是基於特徵表示的遷移學習，如圖 3.5 所示。基於特徵表示的遷移學習旨在兩個領域之間，學習到好的特徵表示法，並重新利用該特徵表示於目標領域。這意味著學習到的表示空間也隱含著目標與來源的跨領域知識。當目標領域和來源領域之間的特徵空間重疊較少，最直覺的想法便是學習一個映射函數𝜙(. )，使得兩個領域的特徵空間能投影到新的特徵空間，其中需要最小化𝜙(𝐱𝑆 𝑖 )和𝜙(𝐱 𝑇 𝑖 )兩者間的距離，而距離可由領域離散性(Domain divergence)，以及分類或回歸模型的錯誤得到。我們可簡易地將學習表示法分成兩大類，分別為：1) 融合特定領域知識，較相近的方法為多任務學習；另一個. 37.

(46) 則是 2) 不須額外的知識，透過非監督式的方法得到新的表示空間，此方法為更一般化的方法。. 最小分佈距離化之特徵學習本章節介紹關於利用潛在空間 (Latent space) 之分佈最小化 (Distribution minimization)，其中包含需要領域知識的監督式方法，以及更泛用的非監督式方法。試想，現實中可受觀測的資料皆受到潛在因子影響，那麼不同領域會由於潛在因子不同導致分佈也不同，相差較大的領域是多數潛在因子不同。同理，相關領域則是少數潛在因子不同。如此一來，若我們能從原有的觀測資料中獲得內在結構或鑑別性資訊，在學習潛在因子重建資料的同時，也保留原有資料的結構或特性，便有機會利用這些潛在因子，在不同的特徵表示中進行知識的遷移。基於遷移學習的降維演算法的定義如下： min Distance(𝜙(𝑋𝑆 ), 𝜙(𝑋𝑇 )) + 𝛾Ω(𝜙) 𝜙. (3.2). s. t constrain on 𝜙(𝑋𝑆 ) and 𝜙(𝑋𝑆 ) 式(3.2)中意旨最小化來源領域和目標領域資料分佈的距離，𝜙為待學習的映射函數，將原始的特徵空間映射到新的低維度空間。Ω(𝜙)為映射函數的正則項 (Regularization)，用以保留原始資料的特性，𝛾其目的是平衡資料分佈的距離與正則項。在利用特定領域知識的特徵學習法中，其中的概念為學習共同的潛在因子 (如多任務學習)，我們可將式(3.2)改寫成下式： arg min Distance(𝜙(𝑋𝑆 , 𝑌𝑆 ), 𝜙(𝑋𝑇 , 𝑌𝑇 )) + 𝛾Ω(𝜙) 𝜙. (3.3). 其中𝑌𝑆 和𝑌𝑇 分別為來源領域和目標領域的標記空間，式(3.3)為更具體目標函數可由下式表達： 𝑛∗. arg min ∑ 𝐿(𝑦∗ , ⟨𝑎∗ , 𝑈 𝑇 𝐱 ∗ 𝑖 ⟩) + γΩ(A) 𝐴,𝑈. 𝑖=1. 38. (3.4).

(47) 式(3.4)中的*代表來源領域𝑆和目標領域𝑇，加號前後分別為重建項(用於映射新特徵空間與重建回原特徵空間)與正則項(防止偏離太遠)。其中⟨. ⟩代表式(3.4)中的映射函數𝜙，𝑈 𝑇 和𝑎∗ 分別為為映射函數𝜙中的正交矩陣和學習參數，前者用以投影高維度的𝐱 ∗ 至低維度的表示空間，後者的集合則為𝐴 = [𝑎𝑆 , 𝑎 𝑇 ]，𝐿則代表某種距離公式，常見為 l2-norm，Ω和𝛾則分別為正則項與平衡常數。在(3.4 中最困難的是需要同時估測𝑈 𝑇 𝑋𝑆、𝑈 𝑇 𝑋𝑇 和A，在[77]中將此視為凸優化(Convex optimization) 的最佳化問題； Lee 等人 [78] 在多個不同但相關的任務中同時學習元先驗 (Meta-priors)和特徵權重(Feature weights)；Ruckert 等人.[79]則是利用核函數 (Kernel-based function)找到適合目標領域的特徵表示。另一方面，在[80]提出稀疏編碼(Sparse coding)，不須額外知識的非監督式特徵表示。主要可分為兩個步驟，第一步驟為運用式(3.2)在來源領域學習高等基底(High level basis)𝐁 = {𝐛1 , … 𝐛s }，可表示如下： 𝑗. min ∑ 𝐿(𝐱𝑆 𝑖 , ∑ 𝑎𝑆𝑖 𝐛𝑗 ) + 𝛾Ω(𝑎𝑆 𝑖 ) 𝑎,𝑏. 𝑖. (3.5). 𝑗 𝑗. 式(3.5)中的+前後一樣分別為重建項與正則項，𝑎𝑆𝑖 為來源領域中基於基底𝐛j 對於高維度的輸入特徵𝐱𝑆 𝑖 的新的特徵表示，而𝐿為距離公式，常見為 l2-norm，Ω和𝛾則分別為正則項與平衡常數。當第一步完成之後，我們便可學到高等基底 𝑏 = {𝑏1 , … 𝑏𝑠 }，並在第二步驟時用於目標領域： 𝑗. 𝑎∗𝑇 = arg min ∑ 𝐿(𝐱 𝑇 𝑖 , ∑ 𝑎 𝑇𝑖 𝐛𝑗 ) + 𝛾Ω(𝑎𝑇 𝑖 ) 𝑎𝑇 𝑖. 𝑖. (3.6). 𝑗. 式(3.6)與式(3.5)大致相同，差別僅在式(3.6)用了式(3.5)的基底於目標領域，目的是求出新的特徵表示𝑎∗𝑇𝑖 ，𝑎∗𝑇𝑖 可用鑑別式訓練計算分類或回歸錯誤取得該特徵表示。值得注意的是，該方法雖然簡單且泛用，但缺點是新的表示空間不能保證適用於目標領域。 39.