改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：陳柏琳博士. 改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究. Improved Neural Network Based Acoustic Modeling Leveraging Multi-task Learning and Ensemble Learning for Meeting Speech Recognition. 研究生：楊明翰撰中華民國一百零五年七月.

(2) ii.

(3) 摘要本論文旨在研究如何融合多任務學習 (multi-task learning, MTL) 與整體學習 (ensemble learning) 技術於聲學模型之參數估測，藉以改善會議語音辨識 (meeting speech recognition) 之準確性。我們的貢獻主要有三點：1) 我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外，我們還研究多任務與不同聲學模型像是深層類神經網路 (deep neural networks, DNN) 聲學模型及摺積神經網路 (convolutional neural networks, CNN) 結合的協同效應，期望增加聲學模型建模之一般化能力 (generalization capability)。2) 由於訓練多任務聲學模型的過程中，調整不同輔助任務之貢獻 (權重) 的方式並不是最佳的，因此我們提出了重新調適法，以減輕這個問題。3) 我們對整體學習技術進行研究，有系統地整合多任務學習所培訓的各種聲學模型 (weak learner)。我們基於歐盟所錄製的擴增多方互動會議語料 (augmented multi-party interaction, AMI) 及在台灣所收錄的華語會議語料庫 (Mandarin meeting recording corpus, MMRC) 建立了一系列的實驗。與數種現有的基礎實驗相比，實驗結果揭示了我們所提出的方法之有效性。關鍵字：多任務學習，整體學習，深層學習，類神經網路，會議語音辨識. iii.

(4) iv.

(5) Abstract This thesis sets out to explore the use of multi-task learning (MTL) and ensemble learning techniques for more accurate estimation of the parameters involved in neural network based acoustic models, so as to improve the accuracy of meeting speech recognition. Our main contributions are three-fold. First, we conduct an empirical study to leverage various auxiliary tasks to enhance the performance of multi-task learning on meeting speech recognition. Furthermore, we also study the synergy effect of combing multi-task learning with disparate acoustic models, such as deep neural network (DNN) and convolutional neural network (CNN) based acoustic models, with the expectation to increase the generalization ability of acoustic modeling. Second, since the way to modulate the contribution (weights) of different auxiliary tasks during acoustic model training is far from optimal and actually a matter of heuristic judgment, we thus propose a simple model adaptation method to alleviate such a problem. Third, an ensemble learning method is investigated to systematically integrate the various acoustic models (weak learners) trained with multi-task learning. A series of experiments have been carried out on the augmented multi-party interaction (AMI) and Mandarin meeting recording (MMRC) corpora, which seem to reveal the effectiveness of our proposed methods in relation to several existing baselines. Index Terms– multi-task learning, ensemble learning, deep learning, neural network, meeting speech recognition. v.

(6) vi.

(7) 謝轉眼間兩年的碩士生活就進入了尾聲，人生也即將步入新的開始。兩年光陰讓我學到了很多，除了領域知識的增長外，更重要的就是學習到為了實驗室共患難同進退的責任感。首先，我要感謝指導教授陳柏琳老師在這兩年內的指導，讓我知道了研究學者的態度與堅持，以及如何做研究。感謝口試委員洪志偉老師及陳冠宇博士對於論文的指正，讓我的論文更加完整。感謝實驗室的學長：冠宇及孝宗教導了我做實驗的訣竅，研究領域的觀念與實作的技巧。凱文、庭豪與思澄提供系上課程的寶貴經驗，讓我和曜麒能夠專注在研究上。感謝同學曜麒一起分擔計劃與報告，共同分享學術上的心得。感謝實驗室的學弟妹：淳伊、敬弘、必成、奕儒、映文與佳樺為實驗室帶來了歡樂的氣氛。也感謝你們一起營造了實驗室為了目標 (計劃) 共進退的氣氛。感謝家人給予我生活上的幫助，讓我能順利完成學業。感謝我的女朋友，在我二十幾年的生活中始終沒有出現過，讓我得以專心於學術研究，順利完成論文。最後，感謝在求學期間給予我幫助與支持的人，沒有你們的幫助，或許就沒有現在的我。. vii.

(8) viii.

(9) 目錄摘要. iii. Abstract. v. 謝. vii. 1 序論. 1. 1.1. 為什麼將多任務學習用於聲學模型訓練？ . . . . . . . . . . . . . . .. 3. 1.2. 如何將多任務學習用於聲學模型訓練？ . . . . . . . . . . . . . . . . .. 5. 1.3. 為什麼要使用整體學習？ . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.4. 本論文貢獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 1.5. 章節安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2 統計式語音辨識. 9. 2.1. 特徵擷取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 2.2. 聲學模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.3. 語言模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.4. 聲學比對及語言解碼 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 3 深層類神經網路模型訓練. 15. 3.1. 類神經網路簡史 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 3.2. 類神經網路架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 17. 3.3. 類神經網路參數估測 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 20. ix.

(10) 3.4. 摺積神經網路架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4 遷移學習 4.1. 4.2. 4.3. 25. 27. 遷移學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 4.1.1. 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 27. 4.1.2. 遷移學習中的多任務學習 . . . . . . . . . . . . . . . . . . . .. 28. 4.1.3. 定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. 同質型遷移學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 30. 4.2.1. 基於實例的遷移學習 . . . . . . . . . . . . . . . . . . . . . . .. 32. 4.2.2. 基於特徵表示法的遷移學習 . . . . . . . . . . . . . . . . . . .. 36. 4.2.3. 基於模型參數的遷移學習 . . . . . . . . . . . . . . . . . . . .. 39. 4.2.4. 基於關係訊息的遷移學習 . . . . . . . . . . . . . . . . . . . .. 39. 異構型遷移學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 異構型特徵空間 . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 4.3.1. 5 基於多任務學習之類神經網路聲學模型. 43. 5.1. 多任務學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 5.2. 語音辨識中的多任務學習 . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 5.3. 輔助任務探討 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. 6 整體學習. 53. 6.1. 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 6.2. 定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. 6.3. 投票演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. 6.4. Bagging 演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 6.5. Boosting 演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. x.

(11) 6.6. AdaBoost 演算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7 實驗架構與實驗結果 7.1. 7.2. 59 63. 實驗環境簡介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 7.1.1. 實驗語料之說明 . . . . . . . . . . . . . . . . . . . . . . . . . .. 63. 7.1.2. 實驗評估方式 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 66. 7.1.3. 前端特徵處理 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 67. 7.1.4. 聲學模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 7.2.1. 基礎實驗結果 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 7.2.2. 多任務學習及整體學習之實驗結果 . . . . . . . . . . . . . . .. 70. 8 結論與未來展望. 79. 參考文獻. 80. xi.

(12) xii.

(13) 圖目錄 1.1. 現今自動語音辨識面臨的問題 (最右端) 較從前要困難得多 . . . . . .. 2. 2.1. 語音辨識流程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 3.1. 類神經網路與其變體之發展演進表 . . . . . . . . . . . . . . . . . . .. 16. 3.2. 一個具有輸入層、3 層隱藏層與輸出層的深層類神經網路 . . . . . .. 18. 3.3. 本論文所使用的摺積神經網路架構 . . . . . . . . . . . . . . . . . . .. 26. 4.1. 遷移學習的研究領域 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 29. 4.2. 同質型遷移學習的研究領域 . . . . . . . . . . . . . . . . . . . . . . .. 31. 4.3. 基於實例的遷移學習之基礎假設 . . . . . . . . . . . . . . . . . . . . .. 32. 4.4. 基於特徵表示法的遷移學習 . . . . . . . . . . . . . . . . . . . . . . .. 37. 5.1. 多任務學習類神經網路架構 . . . . . . . . . . . . . . . . . . . . . . .. 47. 5.2. 多任務學習摺積神經網路架構 . . . . . . . . . . . . . . . . . . . . . .. 48. 5.3. 多語言與跨語言多任務學習類神經網路架構 . . . . . . . . . . . . . .. 49. 6.1. 投票演算法示意圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. 6.2. Bagging 演算法示意圖 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 6.3. Boosting 演算法示意圖 . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 7.1. 本論文使用的語料庫一覽 . . . . . . . . . . . . . . . . . . . . . . . . .. 64. xiii.

(14) xiv.

(15) 表目錄 1.1. 多任務學習在現實生活中的例子 . . . . . . . . . . . . . . . . . . . . .. 5. 4.1. 同質型遷移學習的四大類研究和遷移學習的關係 . . . . . . . . . . .. 31. 7.1. AMI 會議之訓練、發展與測試集 . . . . . . . . . . . . . . . . . . . . .. 65. 7.2. AMI 會議場次 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 65. 7.3. 華語會議語料之訓練、發展與測試集 . . . . . . . . . . . . . . . . . .. 66. 7.4. 華語會議語料庫的會議場次與麥克風資訊 . . . . . . . . . . . . . . .. 66. 7.5. 用於高斯混合模型之代號 . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 7.6. 高斯混合模型使用不同特徵在 AMI 會議的詞錯誤率 (%) . . . . . . .. 69. 7.7. 高斯混合模型使用不同特徵在華語會議語料的字錯誤率 (%) . . . . .. 69. 7.8. 類神經網路的基礎實驗在 AMI 會議的詞錯誤率 (%) . . . . . . . . . .. 70. 7.9. 類神經網路的基礎實驗在華語會議語料的字錯誤率 (%) . . . . . . . .. 70. 7.10 用於多任務學習之輔助任務與代號 . . . . . . . . . . . . . . . . . . .. 72. 7.11 AMI 會議的詞錯誤率 (%) . . . . . . . . . . . . . . . . . . . . . . . . .. 73. 7.12 不同音素標記在華語會議語料的字錯誤率 (%) . . . . . . . . . . . . .. 74. 7.13 華語會議語料的字錯誤率 (%) . . . . . . . . . . . . . . . . . . . . . .. 74. 7.14 多語言與跨語言輔助任務於華語會議語料的字錯誤率 (%) . . . . . .. 74. 7.15 soft label 輔助任務於華語會議語料的字錯誤率 (%) . . . . . . . . . . .. 76. 7.16 重新調適法於華語會議語料的字錯誤率 (%) . . . . . . . . . . . . . .. 77. 7.17 結合投票演算法及輔助任務 ① 於華語會議語料的字錯誤率 (%) . . .. 77. xv.

(16) 7.18 結合投票演算法及輔助任務 ⑤ 於華語會議語料的字錯誤率 (%) . . .. xvi. 77.

(17) 第1章. 序論. 自從人類文明出現以後，語音是人跟人之間最自然的溝通方式，是不可或缺的因素，它更是人機溝通的一個重要的工具。近六十年來，自動語音辨識的研究十分活躍，並且已取得了巨大的成功。研究初期，語音辨識器只能在安靜的環境中識別一個單獨的詞彙。1980 年代，以高斯混合模型-隱藏式馬可夫模型 (Gaussian mixture model-hidden Markov model, GMM-HMM) 做為聲學模型使得語音辨識有能力進行大詞彙量連續語音識別。由於 GMM-HMM 的架構易於訓練模型和進行聲學解碼，因此近二十年來 GMM-HMM 是自動語音辨識系統的主流聲學模型，聲學模型的研究主要集中在以更好的模型結構與訓練演算法改良 GMM-HMM。顯著的成果包含狀態聯繫 (state tying) [1]、鑑別式訓練 (discriminative training) [2] [3] [4] 與最大相似度線性轉換 (maximum likelihood linear transformation, MLLT) [5]。在 GMM-HMM 模型統治語音界的時期內，研究學者們也探索了許多不同的聲學模型方法，然而卻沒有一種方法優於 GMM-HMM(例如高密度離散型隱藏式馬可夫模型 (high-density discrete HMM) [6]、混合人工神經網路-隱藏式馬可夫模型 (hybrid artificial neural network-hidden Markov model, ANN-HMM) [7] 與段落模型 (segment model) [8] [9] 等)。至此，自動語音辨識在技術面的發展逐漸停滯，直到下世紀約二十年後才有新的突破。在過去的五年內我們看見了深層學習架構和技術在電腦視覺、語言及語言學習領域的巨大成功。深層類神經網路與其變體最終取代了 GMM，時下混合的深層類神經網路-隱藏式馬可夫模型 (hybrid deep neural networks-hidden Markov model, DNN-HMM) 已成為大多數自動語音辨識系統的聲學模型。DNN 的竄起可歸功於以下因素： 1.

(18) 少量詞彙. 大量詞彙. 海量詞彙. 限縮的任務. 具彈性的任務. 任何形式的任務. 乾淨的語音. 近距離語音. 吵雜遠距離語音. 朗讀語料. 用詞受限的對話. 偏即性口語. 單一語言. 多語言. 語言混雜. 圖 1.1: 現今自動語音辨識面臨的問題 (最右端) 較從前要困難得多 1) 深層學習架構及演算法。 2) 通用計算圖形處理器 (general purpose graphical processing units, GPGPU) 的發展。 3) 數千小時的已轉寫語音訓練資料及更多的未標記資料。 4) 行動式網際網路和雲端計算。 5) 語音辨識的需求提高 (大量的個人或商業需求)。 6) 自動語音辨識採用加權有限狀態轉換器 (weighted finite state transducer, WFST) [10] 做為語言解碼器。雖然自動語音辨識技術已經是一項成熟的技術，但是在實際應用上仍有許多問題需要被解決。例如使用智慧型手機錄音時往往離手機麥克風較遠，錄音品質 2.

(19) 容易受環境影響。此外，語者所使用的語言如果與辨識器不同，抑或是語者談話內容橫跨多種語言夾雜，辨識的效果便會大打折扣。不幸地是，人類自然地交談往往不符合上述提到的情景，當我們與人交談時並不需要考慮環境，也不需要知道聽眾精確的位置與使用什麼樣的語言。[11] 將語音辨識面臨的挑戰依照不同面向與不同難度條列如圖 1.1 所示，作者指出，我們現今正面臨著最右端的問題：海量詞彙 (huge vocabulary)、自由不受限的任務 (free-style task)、吵雜的遠距離語音 (noisy far-field speech)、偏即性口語 (spontaneous speech) 及語言混雜 (mixed languages) 的情景。而會議語音辨識正好涵蓋了所有的困境，想要克服這些問題是相當困難的。因此本論文嘗試以多任務學習與整體學習的方法，增進聲學模型的一般化能力，希望能夠改善吵雜遠距離語音、偏即性口語和語言混雜的問題。另一方面，針對 DNN-HMM 自動語音辨識系統，研究先驅們的研究興趣已經轉移到： a) 訓練及語言解碼流程的平行化與加速。 b) 語者調適與強健語音辨識。 c) 正則化方法，例如 Dropout [12]。 d) 不同的深層學習架構，例如深層摺積神經網路 (deep convolutional neural network) [13] 或深層遞迴神經網路 (deep recurrent neural network) [14] [15]。多任務學習與整體學習的方法可以視為正則化的方法，用來提高 DNN-HMM 的成效。. 1.1 為什麼將多任務學習用於聲學模型訓練？千百年來，人類一直在從大自然中學習。即使在現代，我們被人造產品包圍著，但仍然可以看到許多工業產品的靈感來自於大自然的跡象。例如，飛機和潛艇最 3.

(20) 初的的設計是從鳥類和魚類複製而來，不管是外觀還是運行機制。如果沒有這些大自然的提示，人類文明將無法進展得如此快速。如何向自然學習甚至成為一個複雜的科學：仿生學 [16]，它適用於將從自然界觀察到的生物方法應用於工程系統。在電腦科學中，最直接且最具影響力的仿製品之一就是人工神經網路 (artificial neural network, ANN) [17]。類似生物神經網路，ANN 是由數以百萬計的神經元連接而成。神經元之間可以互相通訊，並且它們之間連接的權重可以從訓練資料中學習某種知識而得。最近人們解剖生物的大腦觀察到生物的腦袋除了淺層迴路外，也有深層的迴路 [18]。因此 ANN 後來透過添加更多的隱藏層增強，形成一個更深的神經網路 (DNN)。另一方面，多任務學習 (multi-task learning, MTL) [19] 是一種機器學習的方法，目標是想要透過與多個相關任務共同學習，以改善主要任務的成效。MTL 的想法是由人類學習實際任務的行為啟發，人類應對一個新的任務時，是透過先前從類似任務學習到的經驗，轉換成知識應用到新任務上。此外，人類也具備同時學習多個任務以達到更佳學習效果的能力。表 1.1 列舉了兩種日常生活中運用多任務學習的例子： • 辨識不同的物體：兒童學習辨認物體是以多任務學習的形式，同時學著怎麼分辨物體的形狀及材質，而非分開個別學習。 • 透過鍵盤輸入兩種不同語言的詞彙：今有使用者想要使用拼音輸入法輸入英文和中文，他需要一邊學習如何打出英文詞彙，一邊學著怎麼使用鍵盤。另一個例子跟語音辨識有關，比起上述的範例更貼近人類的生活。同時學習聽力、閱讀及口說，能夠加速人們掌握一門新語言的過程。而對外國人來說，新語言的寫作就難以快速學習，因為 MTL 的機制並不適用。從現實生活觀察到的這些現象應用於工程中是很自然的。事實上，MTL 與 4.

(21) 表 1.1: 多任務學習在現實生活中的例子任務類型使用拼音輸入法輸入中文共享的輸入欲輸入的詞共享的內部特徵鍵盤輸出手指的動作. 物體辨識物體外觀形狀或材質看見了什麼物體. DNN 結合已成功被應用於語音辨識、語言及影像辨識領域，因為 DNN 的隱藏層學習到的知識能夠自然地在不同任務之間傳遞與共享。例如 [20] 將 MTL 結合 CNN 用於語言處理的預測，有著不錯的效果。[21] 透過 MTL 改善口語對話系統，成功提升分類使用者意圖的正確率。MTL 在 [22] 中被轉化成多重標記學習 (multi-label learning) 的問題，成效卓越。隨著 DNN 在自動語音辨識領域的成功，我們相信 MTL 可以進一步提升 DNN 的訓練品質，多任務學習類神經網路 (multi-task learning deep neural network, MTL-DNN) 本質上是人類大腦的仿製品，大多數神經元具備人類大腦的擁有的基本能力，而有些地方則與人類大腦不同。也有許多輔助任務被開發用於語音辨識任務，且被證明是有幫助的 [23]。因此，有充分的理由可以相信 MTL 應該能改善自動語音辨識的辨識率。. 1.2 如何將多任務學習用於聲學模型訓練？使用 MTL 之前，需要考慮的是該如何選擇次要任務，才能對主要任務有幫助。吾人認為下列幾個準則能夠幫助選擇次要任務： i) 所選擇的輔助任務應該要與主要任務有正相關，如此任務之間共享的內部特徵表示才能夠對沒看過的觀測資料有較佳的一般化能力。 ii) 輔助任務需要和主要任務共享部分的輸入特徵。 iii) 不需要過多的額外資料。 iv) 輔助任務必須容易設定與訓練。 5.

(22) 根據這些原則，我們選擇以下四大類，做為本論文想要探討的輔助任務： • 音框對應音素標記：這類輔助任務是設計用以給予模型提示，在訓練時告訴模型哪一些屬於同類音素的音框，應該要有相似的聲學狀態。 • 音框對應狀態標記：由於以往語音辨識領域中，類神經網路聲學模型的訓練都是以預測目前音框的狀態標記為目標，這使得主要任務在訓練時並不知道鄰近音框的狀態資訊，因此，以音框對應狀態標記是以預測目前音框的前一個 (或後一個) 音框狀態標記做為輔助任務期望能夠提供模型在訓練時多了有關時間的資訊。 • 多語言及跨語言資訊：在本論文中，希望透過不同語言之間共享的資訊，使得聲學模型能夠處理語言混雜 (例如中英文夾雜的語料) 的情況。 • 自動語音辨識回饋：機器學習中，想要改進模型的預測準確率，最簡單且有效的方式就是用同一組訓練資料訓練多個不同的模型，並且平均它們的預測結果，但是想要訓練多個模型與在預測時結合預測結果十分耗費計算成本，尤其當多個不同模型都屬於大規模的類神經網路時，所耗費的成本更是無法想像，因此如果能將這些模型的知識提取出來，幫助新的模型進行訓練應能有不錯的效果。. 1.3 為什麼要使用整體學習？日常生活中我們常常能聽到一句俗諺：「三個臭皮匠，勝過一個諸葛亮。」意思就是說三個才能平庸的人，若能同心協力集思廣益，也能提出比諸葛亮還周到的計策。在機器學習領域中，當面臨一個最佳化問題時，會有所謂的「天下沒有白吃的午餐」定理 (no free lunch theorem, NFL) [24]。此定理明確地指出不存在任何一種單一學習演算法可以推導 (訓練) 出一個預測十分精準的學習者 (learner)，使其 6.

(23) 適用於所有的領域之中。其中的學習器可依任務不同而有不同的定義，於分類任務中，此模型指的就是學習器；而對於迴歸問題 (regression problem) 而言，此模型指的就是迴歸模型 (regressor)。. 有鑑於此，一般的作法通常是訓練數個模型，藉由這些模型在發展集 (development set) 上的表現，從中挑選出預測最精確的一個。然而，每個學習演算法所訓練的模型其實都是建構於一系列的假設上才能訓練得到。但當這些推導偏差 (inductive bias) 不適用目前的資料上時，就會引發錯誤 (分類錯誤或是迴歸錯誤)。此外，學習器學習的過程是一個 ill-posed 的問題 (ill-posed problem) [25]，也就是說，當訓練資料有一點些許的不同時，則學習演算法所求得的解就會不同。更具體來說，當此學習器遭遇到不同的環境時，它將不再適用於新的環境。因此，儘管一個學習器可以在發展集上將其成效調適到最好，但依然還是存在著有某些樣本，它並沒有能力去處理。這因而啟發了一個重要的想法：也許還存在著另外一個學習器可以來處理這些樣本？倘若可以適當地將多個不同的學習器結合，那麼系統的辨識率應能獲得大幅提昇。這也就是整體學習誕生的原因。. 另一方面，由於目前電腦的運算能力已經有卓越的進展，硬體售價也一年比一年便宜，加上近年來大數據的興起，使得學術界及商業界 (例如 Google 公司) 紛紛往「數大就是美」的方向前進。因此，近年來，由多個學習器組合而成的龐大系統也越來越受大家歡迎。值得一提的是，如果單單只是結合多個類似的學習器，其進步效果並不會有顯著地提升，反倒是希望能找出不同學習器決策時的不同看法，如此互相互補才能使得整個系統的效能獲得提升。因此本論文認為，即使模型的辨識效果不彰，透過整體學習的結合，期望這些模型在辨識正確率的提升有相輔相成的效果。 7.

(24) 1.4 本論文貢獻本輪文的貢獻有三點： 1) 我們進行了實證研究以充分利用各種輔助任務來加強多任務學習在會議語音辨識的表現。此外，我們還研究結合多任務與不同聲學模型像是深層類神經網路 (deep neural networks, DNN) 聲學模型及摺積神經網路 (convolutional neural networks, CNN) 的學習，期望增加聲學模型建模之一般化能力 (generalization capability) 的協同效應。 2) 由於訓練多任務聲學模型的過程中，調整不同輔助任務之貢獻 (權重) 的方式並不是最佳的，因此我們提出了重新調適法，以減輕這個問題。 3) 我們對整體學習技術進行研究，有系統地整合多任務學習所培訓的各種聲學模型 (weak learner)。. 1.5 章節安排本論文第二章簡介自動語音辨識的流程，第三章介紹深層類神經網路與摺積神經網路的歷史演進及相關研究，第四章介紹遷移學習概念，第五章簡介多任務學習相關研究與我們所嘗試的輔助任務，第六章介紹整體學習相關的演算法，接著是第七章的實驗及第八章的結論與未來展望。. 8.

(25) 第2章. 統計式語音辨識. 語音辨識最直覺的作法就是判斷「哪一個句子聽起來最像、最有可能」，所以需要利用統計式的方法將「像」與「可能」加以量化，轉換成機率來表示，這就是統計式語音辨識的基本概念，也是目前最廣泛被使用的作法，如此一來，就可將問題：「找出聽起來最像、最有可能的句子」，簡化為「找出機率最大的句子」了。 ˆ 若 O 是給定的語句語音特徵，則要從所有文句 W 中找出機率最大的文句 W 可表示成: ˆ = arg max p(u|O) W. (2.1). uPW. 其中 W 代表所有可能的詞序列，u 為所有文句 W 中的某一句，p(u|O) 代表在 O 發生時，文句 u 的事後機率。若使用貝氏定理 (Bayes’Theorem) 將 P (u|O) 展開可得到: P (u|O) =. p(O|u)P (u) p(O). (2.2). P (O|u) 表示文句 u 產生語句 O 的可能性 (likelihood) 或機率，一般會使用一個機率分佈 (probability distribution) 或模型 (model) 來表示這些機率，由於此機率分佈 (模型) 主要用來決定聲學特徵的機率，故稱之為聲學模型，而決定此機率分佈 (模型) 的參數則稱為聲學模型參數。P (u) 則是文句 u 的事前機率，表示某種語言發生 u 的語言機率，若文句 u 內含有 N 個詞 w1 , ..., wN ，則 P (u) = P (w1 , ..., wN ) 為 w1 , ..., wN 的聯合機率 (joint probability)，同樣會使用一機率分佈 (模型) 來表示此聯合機率，由於此機率分佈 (模型) 只用來處理語言機率，故稱之語言模型，而決定此機率分佈 (模型) 的參數則稱為語言模型參數。2.2式中，由於 p(O) 與 u 無關， 9.

(26) 語⾳訊號. 辨識結果. 訊號處理與特徵擷取. 假說空間搜尋. 語⾳特徵. 聲學模型分數語⾔模型分數語⾔模型. 聲學模型. 圖 2.1: 語音辨識流程拿掉此項並不妨礙找機率最大的文句，所以可簡化為:. ˆ = arg max p(O|u)P (u) W. (2.3). uPW. 2.1 特徵擷取特徵擷取是要將人類說話時所產生類比訊號轉成自動語音辨識 (ASR) 系統可以處理的語音特徵向量序列 (speech feature vector sequence)，也就是將類比訊號參數化 (parameteriation)。這個部份通常會透過類比數位轉換 (analog-to-digital convert)、傅立葉轉換 (fourier transform) 及倒頻譜分析 (cepstral analysis) 擷取語音訊號中比較重要的參數。目前最具代表性的語音特徵參數為梅爾倒頻譜係數 (mel-frequency cepstral coefficients, MFCC)。在擷取此特徵的時候，我們會將語音資料切割成一連串部份重疊的音框 (frames)，每一個音框最後表示成由 12 維梅爾倒頻譜係數和 1 維的能量特徵再加上其一階與二階的時間軸導數 (time derivatives) 所組成的 39 維特徵向量。其中取一階與二階時間軸導數的原因主要是為了能獲得語音特徵在時間上 (temporal) 的相關資訊。因為訓練語料通常會與測試語料有不匹配 (mismatch) 10.

(27) 的問題存在，而我們也會希望所擷取的特徵係數具有強健性 (robust)，所以便有一些技術是以擷取語音訊號中較具有強健性的特徵為主要目的，使得擷取出來的特徵可以抵抗週遭的環境變化。常見的技術有倒頻譜平均消去法 (cepstral mean subtraction, CMS) [27]、倒頻譜正規化法 (cepstral normalization, CN) [28] 等。除了以上強健性技術之外，還可以利用鑑別性分析 (discriminant analysis) 來計算原始語音資料的一些相關統計資訊，將原本的語音特徵投影到新的特徵空間，以得到較具有鑑別性的特徵。較常見的方法則為線性鑑別分析 (linear discriminant analysis, LDA) [29]。濾波器組特徵是由梅爾頻譜上取得的對數能量特徵並透過濾波器組 (filter banks) 所產生的 40 維輸出，再加上 3 維的聲調特徵做為 43 維的濾波器組特徵，並加上其一階與二階的時間軸導數 (time derivatives) 所形成的 129 維語音特徵向量所組成。. 2.2 聲學模型為了處理語音訊號在時域上的變化，傳統都是使用由左至右 (left-to-right) 的連續密度隱藏式馬可夫模型 (continuous density hidden Markov model, CDHMM) 來作為聲學模型。是一個具有三個狀態 (state) 的 HMM 模型，每個狀態中都具有高斯混合模型 (Gaussian mixture model, GMM) 分佈。另外，每個狀態也有相對應的狀態轉移機率 (state transition probability)，用來控制下一個時間點要停留在自己或是轉移到下一個狀態。根據語音特徵參數是連續或非連續的值，HMM 每個狀態中的觀測機率 (observation probability) 估測方式可分為離散型 (discrete)、半連續型 (semi-continuous) 及連續型 (continuous) 三種，而目前的自動語音辨識系統主要都是連續型或半連續型為主。就連續型而言，為了減少估算觀測機率的參數量，也因為任何機率分佈理論上皆可以由多個高斯分佈 (Gaussian distributions) 來逼近的 11.

(28) 特性，一般都是使用高斯混合分佈 (Gaussian mixture distributions) 來近似此機率分佈。而連續型與半連續型主要的差別在於在連續型中每個狀態擁有自己的高斯分佈，而半連續型則會有共用高斯分佈的情況。本論文是採用連續型的隱藏式馬可夫模型，其中每個狀態有 2 到 128 個不等的高斯分佈。聲學模型在小詞彙上 (如: 數字辨識)，常以全詞模型 (whole-word model) 為單位，但在中大詞彙上，因為訓練上的考量，不會對每個詞建一個聲學模型，而是以較小的單位來建模型，如: 次詞單位 (sub-word unit)、音節 (syllable) 或音素 (phone)，再利用發音辭典 (pronunciation lexicon) 來串接每個聲學模型。由於一個中文音節 (syllable) 是由一個聲母 (Initial) 及一個韻母 (Final) 組成，22 個聲母及 38 個韻母構成約 400 個音節。基本上，我們只要為每個聲母及韻母建立屬於它的聲學模型，便可以辨識所有的中文音節。本論文共使用了 38 個韻母模型，但在聲母模型的部份，因為考慮到不同的右邊相連韻母對其聲母發音特性所造成不同的影響，而將 22 種聲母再細分成 112 種聲母模型，亦即聲母部份採用右相關聯模型 (right-context-dependent model, RCD)。另外，我們加入一個靜音 (silence) 模型來估測語音訊號中靜音部份。. 2.3 語言模型由於聲學模型本身只能辨識某一段語音訊號代表的是何種音素或音節序列，而無法確認其對應的詞 (中文有許多同音詞)，且句子中詞跟詞的連接其實存在某種規則性，因此便需要有語言模型的存在。由於語言模型的機率分佈是離散型的 (多項式分佈)，以詞單連 (unigram) 語言模型為例，每一個詞編號都會有其對應的機率。在估計語言模型的機率時，並不使用機率密度分佈函數，而是直接估測個別詞序列的機率質量函數 (probability mass function, PMF) ) P (w1 , w2 , ..., wN )，其中 w1 , w2 , ..., wN 為此詞序列所包含的詞彙。但對整個詞序列的估測參數會隨著詞彙 12.

(29) 數量成指數成長，因此會遭遇資料稀疏 (data sparseness) 的問題。為了解決此問題，我們會先將語言模型的式子展開成條件機率的連乘積，再利用 n ´ 1 階的馬可夫假設 (n ´ 1 order Markovian assumption) 簡化，如下所示:. P (W ) = P (w1 , w2 , ..., wN ) «. N ź. P (wk|wk ń+1 , ..., wk´2 , wk´1 ). (2.4). k=1. 其中 N 為詞的個數，wk|wk ń+1 , ..., wk´2 , wk´1 則是 wk 的歷史詞序列，式 2.4便是常見的 n-連 (n-gram) 語言模型表示法。一般為了方便起見，以及減少參數量的複雜度，常使用詞二連 (bigram) 及詞三連 (trigram) 兩種模型 (也就是分別使用一階及二階的馬可夫假設)。如同聲學模型，語言模型也需要有大量的文字語料來做為訓練之用。n-連語言模型的訓練方法有最大化相似度估測法 (maximum likelihood estimation, MLE)、最大熵值法 (maximum entropy, ME) [30] 或是最小詞錯誤 (minimum word error, MWE) [31] 等，另外為了處理某些詞可能在訓練語料沒有出現的問題，通常會搭配如 Katz Smoothing [32] 及 KneserNey Smoothing [33] 等語言模型平滑技術，對這些估測機率原本為零的部份 (P (wk|wk ń+1 , ..., wk´2 , wk´1 ) = 0) 加以平滑化處理。. 2.4 聲學比對及語言解碼在依式 2.2尋找最佳詞序列時，由於分母的部份並不會影響最後詞序列排名的結果，因此實作上常將分母的部份省略。有了這項前提之後，就可以利用式 2.3 中的聲學模型與語言模型作聲學比對及語言解碼，聲學比對是負責將音素及詞序列中每一個可能的語音段落做比對，計算其相似度；語言解碼一般是使用維特比動態規劃搜尋 (Viterbi dynamic programming search) [34]，結合聲學相似度及語言模型機率去找出一條最佳的詞序列。此外，由於搜尋空間會隨著詞典大小成指數成 13.

(30) 長，因此，在搜尋時，通常會透過搜尋路徑裁減 (pruning) 技術來停止繼續尋找一些機率較低的詞序列，以減低其計算複雜度及記憶體使用量。搜尋時隨著語言模型愈複雜，搜尋空間也呈指數成長，為了降低搜尋時的複雜度，通常會透過兩階段的搜尋來完成：第一階段進行聲學比對並使用較低階的語言模型來搜尋，保留機率較高的候選文句；第二階段則使用較高階的語言模型再進行重新搜尋 (rescoring) [35]。. 14.

(31) 第3章. 深層類神經網路模型訓練. 3.1 類神經網路簡史二十年前，當年 IBM 開發的超級電腦「深藍」(Deep Blue) 在西洋棋上贏了世界棋王，全球觀眾舉世歡騰，大家認為這是人類的一大進步，當時科學界認為圍棋太難了，機器如果要在圍棋上贏人類，最起碼也要三十年。但是就在二十年後， 2016 年 3 月 8 日，在韓國首爾的四季酒店舉行為期 7 天的「人機大戰」終於落幕，這場由南韓圍棋九段棋手李世石與 Google 人工智能程式 AlphaGo [36] 的 5 場對弈，最後 AlphaGo 以 4：1 贏了人腦，大家的心情都很矛盾，在思考人類未來要怎麼辦？電腦要贏過人腦，不能夠只從加速計算窮舉所有的排列組合下手，而是必須要讓電腦懂得學會思考棋路，讓電腦從每次棋賽中累積實戰經驗而提升判斷能力，這就是機器學習的終極目標。讓電腦學會思考看起來像是好萊塢電影中常見的幻想，但是資訊學家卻不這麼認為。類神經網路的歷史最早可以追溯到 1943 年，心理學家 McCulloch 與邏輯數學家 Pits 最早提出了描述神經元運作的數學模式。1949 年，Hebb 提出了著名的 Hebb 學習理論，他認為如果兩個神經元同時被激發時，它們之間的連接便會獲得加強。知名的俄羅斯生理學家巴伐洛夫也能驗證 Hebb 的理論，最著名的就屬狗與鈴聲實驗，當狗聽到鈴聲與看到食物的神經元同時被激發，此時兩者就會建立起增強的學習關係。Hebb 理論替未來類神經網路的學習機制奠定了研究方向。1957 年，Rosenblatt 提出的感知器 (perceptron) 模型，是第一個將類神經網路付諸實踐的研究成果。雖然這掀起了類神經網路研究 15.

(32) CNN Approaches DNN Approaches RNN Approaches. 1957. “Perceptron”, F. Rosenblatt. 1988. “Backpropagation Algorithm”, P. J. Werbos “Different 1975 Convolution-Based Design”, G. Daniel. 1997. “GPGPU”, S. Dave et al. 2005. 2009. 2014. “LSTM For Large Scale Acoustic Modeling”, H. Sak et al.. 2012. 2014. “Very Deep CNN For LVCSR”, T. Sercu et al.. 2016. 2016. 2015. “Deep Learning”, Y. LeCun et al.. “Deep CNN For LVCSR”, T. N. Sainath et al.. 2012. 2011. 2014. “Deep RNN For Speech Recognition”, A. Graves et al.. 2013. “CNN For Modeling Sentences”, N. Kalchbrenner et al.. “CNN For NLP”, R. Collobert et al.. 2010s. 2012. “CNN For Speech Recognition”, O. A. Hamid et al.. “Learning Algorithm of Deep Belief Nets”, G. E. Hinton et al. 2006. 2003. 2000s. “Deep Belief Nets”, G. E. Hinton et al.. “Long Short-Term Memory”, S. Hochreiter & J. Schmidhuber. 1986. “Restricted Boltzmann Machine”, G. E. Hinton et al. “XOR Problem”, S. Papert & M. Minsky 1969. “Hopfield network”, J. J. Hopfield 1982. 1990s. 1990. 1980s. 1986. “Hierarchical Neural Networks ”, S. Behnke et al. 2007. “Autoencoders”, Y. Bengio et al. 1998 “Deep Convolutional Neural Networks (LeNet)”, Y. LeCun et al.. “Multi-layered Perceptron (Backpropagation)”, D. E. Rumelhnrt et al. 1980. “Neocognitron”, K. Fukushima. 1970s. “Time-Delay Network”, K. Lang et al.. 1960s. 1943. 1950s. “Receptive Fields”, D. H. Hubel & T. N. Wiesel. 1968. “Nervous Activity”, W. McCulloch & W. Pits. 1940s. 1949. “Hebbian Theory”, D. O. Hebb. 1990. “Elman-Type RNN”, J. L. Elman “Jordan-Type RNN”, M. I. Jordan. 1992. “Gradient-Based RNN”, R. J. Williams & D. Zipser. 圖 3.1: 類神經網路與其變體之發展演進表 16.

(33) 的第一波熱潮，但是在 1969 年由麻省理工學院的 Papert 與 Minsky 就為這波熱潮澆了一桶大冷水，他們發現這種感知器模型竟然連簡單的 XOR 邏輯計算都做不到。因此，類神經網路的研究陷入了長達十年左右的黑暗期。 1975 年，Werbos 等人發展出了一套倒傳導演算法 (back propagation algorithm)。 1982 年時，Hopfield 發明了霍普菲爾網路 (Hopfield neural network, HNN)，以及 1986 年 Rumelhart 等人發明了多層感知器 (multi-layer perceptron)，解決了先前 Papert 對於類神經網路的質疑後，使得類神經網路研究再度熱絡起來。之後陸續有各種不同的變體被提出來。直到現在，類神經網路成為機器學習的新寵兒，被廣泛的應用在各種領域，例如：汽車控制 (根據主人力道與駕駛習慣訓練調整機械)、家電控制 (例如，洗衣機根據偵測的衣物重量及質料計算水量)、智慧型辨識 (例如，指紋辨識、聲紋辨識與臉孔辨識) 等。. 3.2 類神經網路架構本章節將介紹深層類神經網路的架構 [11]，深層類神經網路是非常強力的判別式模型 (discriminative model)，許多學者的研究顯示出將類神經網路使用在語音辨識的任務能夠增進辨識的正確率 [37]，優於傳統使用高斯混合模型加上隱藏馬可夫模型的效果。深層類神經網路是由傳統多層感知器 (multilayer perceptron, MLP) 與多層的隱藏層所構成。深層學習網路可分為兩個步驟：前饋 (feed forward) 及反向傳播 (backpropagation)。假設輸入層表示為第 0 層，輸出層表示為第 L 層，表示有 L + 1 層的深層類神經網路，此前饋運算可以表示為：. vℓ = f (zℓ ) = f (Wℓ vℓ´1 + bℓ ), for 0 ă ℓ ă L 17. (3.1).

(34) 輸出層. ■ ■. ■. 第三層隱藏層. ■ ■. ■. 第⼆層隱藏層. ■ ■. ■. ■ ■. ■. 第⼀層隱藏層. 輸⼊層. 圖 3.2: 一個具有輸入層、3 層隱藏層與輸出層的深層類神經網路式 3.1 中 zℓ = Wℓ vℓ´1 P RNℓ ˆ1 , vℓ P RNℓ ˆ1 , Wℓ P RNℓ ˆNℓ´1 , bℓ P RNℓ ˆ1 及 Nℓ P R。 Nℓ 為第 ℓ 層的神經元數量。zℓ 為第 ℓ 層的激發向量 (excitation vector)。vℓ 為第 ℓ 層的輸出向量，Wℓ 為第 ℓ 層的權重矩陣，通常採取隨機初始化 (random initial) 來當作網路初始的權重，近年來有學者提出使用非監督式預訓練當作網路的初始值可以改善語音辨識的正確率，我們使用限制性波茲曼機 (restricted boltzmann machine, RBM) 來預訓練權重的初始值，vℓ´1 為第 ℓ ´ 1 層的輸出向量，bℓ´1 為第 ℓ 層的偏移量向量。v0 = o P RN0 ˆ1 表示為輸入的特徵向量，N0 為特徵向量的維度。f (¨) : RNℓ´1 Ñ RNℓ´1 表示活化函數 (activation function)，逐元素將激發向量做運算。活化函數有很多種類，傳統類神經網路中最常用的兩個激活函數：S 型函數系 (sigmoid 和 tanh) 被視為神經網絡的核心所在：. σ(z) =. 1 1 + e´z. tanh(z) =. ez ´ e´z ez + e´z. (3.2). (3.3). 從數學上來看，非線性的 sigmoid 函數對中央區的信號增益較大，對兩側區的信號增益小，在信號的特徵空間映射上，有很好的效果。從神經科學上來看，中央 18.

(35) 區酷似神經元的激發態，兩側區酷似神經元的傳導態，因而在類神經網路學習方面，可以將重點特徵推向中央區，將非重點特徵推向兩側區。無論是哪種解釋，看起來都比早期使用的的線性活化函數 (y = x) 或指示函數 (indicator function) 高明了不少。由於雙曲正切函數是奇函數，它的圖形通過原點且關於原點對稱，因此 tanh(z) 可看作是 S 型函數的一種變形，這兩種活化函數具有相同的建模能力。S 型函數輸出值域範圍為 (0, 1)，它的函數值域具備非對稱的特性，使得隱藏層神經元紀錄較稀疏的值。另一方面，雙曲正切函數的輸出值域範圍為 (´1, 1)，它的值域有對稱性，並且有研究學者認為雙曲正切函數能幫助模型的訓練。2001 年，神經科學家 Dayan、Abott 從生物學角度，模擬出了腦神經元接受訓號更精確的活化模型。這個模型對比 S 型函數系主要變化有三點：(1) 單側抑制；(2) 相對寬闊的激發邊界；(3) 稀疏激活性。同年，Charles Dugas 等人在做正數回歸預測論文中偶然使用了 Softplus 函數，Softplus 函數是 Sigmoid 函數的原型。. Softplus(z) = log(1 + ez ). (3.4). 按照論文的說法，Charles Dugas 等人一開始想要使用指數函數作為活化函數，但是指數函數的梯度實在太大，難以訓練，因此加上 log 來減緩上升趨勢。加了 1 是為了保證非負性。同年，Charles Dugas 等人在 NIPS 會議論文中證明 Softplus 可以看作是強制非負校正函數 max(0, x) 的平滑版本。偶然的是，同是 2001 年機器學習領域的 Softplus/Rectifier 活化函數與神經科學領域的提出腦神經元活化函數有些神似之處，這促成了新的活化函數的研究。近年來，修正線型單元 (rectified linear unit, ReLU) 函數成為學術界的新寵兒：. ReLU(z) = max(0, z) 19. (3.5).

(36) 由於 sigmoid 函數的輸出值只能非常趨近於 0，但沒辦法到達 0，而 ReLU 函數強迫輸出值變得相當稀疏，並且很容易計算梯度。類神經網路運用於聲學模型時，預測音框屬於哪一個狀態視為是一種分類問題，每一個輸出神經元都表示一種分類，總共可分為 C 類，表示為 i P t1, …, Cu，則第 i 個輸出神經元的值 viL 表示觀測向量 o 分類到類別 i 的機率 P (i|o)，假設輸出向量 vL 滿足多項式分佈 (multinomial distribution)，那麼 vL 需要滿足 viL ď 0 及. řC i=1. viL = 1，可以透過軟式. 最大化 (softmax) 做到： L. viL. ezi. = Pdnn (i|o) = softmaxi (z) = řC. L. zj j=1 e. (3.6). 其中 ziL 表示激發向量 zL 中第 i 個元素。已知觀測向量 o，類神經網路的輸出由模型參數 tW, bu 計算而得，如式 3.1 ，從第 1 層層層計算到第 L ´ 1 層，接著利用式 3.6 計算觀測向量 o 分類到 C 類的事後機率。. 3.3 類神經網路參數估測 1980 年時，Hornik 等人已經證明層數夠多的類神經網路可以近似任何的函數。換句話說，類神經網路可以近似任何的映射函數 g : RD Ñ RC ，將輸入特徵空間 RD 映射到 RC 。類神經網路中一開始模型參數 tW, bu 我們是不知道的，需要從訓練樣本 S = t(om , ym )|0 ď m ď M u 中估測而得，M 表示訓練樣本的數量，om 表示第 m 個觀測向量，ym 表示觀測向量對應的輸出標記。透過訓練準則 (training criterion) 或學習演算法 (learning algorithm) 估測參數的過程通常被稱為訓練流程或者參數估測流程。類神經網路是一種監督式訓練 (supervised training) 的形式。當使用監督式訓練的方法時，必須提供樣本輸入及此樣本預期的輸出。預期的輸出與網路實際運算 20.

(37) 後的結果相比較，計算出兩者的誤差後，再透過反向傳播，向後從輸出層到輸入層，以調整各個層的權重。訓練的前提是要能夠簡單地評估它的改善程度，並且需要與目標輸出有非常高的相關性，這樣才能使得訓練時的改進能影響最終評估分數的改善。理想狀況下，模型的參數應透過訓練來減少預期的能量損失：. JEL = E(J (θ; o, y)) =. ż. J (θ; o, y)p(o)d(o). (3.7). 其中 J (θ; o, y) 為已知模型的參數 θ = tW, bu 及觀測向量 o，對應的輸出向量 y 的損失函數 (loss function)。p(o) 表示觀測序列的機率密度函數，不幸的是 p(o) 必須從訓練資料集估計才能獲得，而 J (θ; o, y) 亦會受到訓練資料集的影響，如果訓練資料集沒有這個樣本，也就沒有這個樣本的預期輸出，那麼就無法計算 J (θ; o, y) 的輸出與預期輸出的誤差。基於這些因素，類神經網路的模型參數通常需要透過最佳化訓練而得。由於預測音框屬於哪一個狀態視為是一種分類問題，視為分類問題，分類問題使用的訓練準則為交叉熵：. JCE (θ; S) =. M 1 ÿ JCE (θ; om , ym ) M m=1. (3.8). 其中： JCE (θ; o, y) = ´. C ÿ. yi log vLi. (3.9). i=1. 式 3.9 中 yi = Pemp (i|o) 從訓練資料統計到的觀測序列 o 屬於類別 i 的經驗機率 (empirical probability)，而 vLi = Pdnn (i|o) 表示類神經網路預測觀測序列 o 實際上於類別 i 的機率，最小化交叉熵等同於最小化兩者機率分佈之間的 KL 距離，大多數的情況中，訓練資料屬於何種類別的標記會使用非 0 即 1 的標記 (hard label)，. 21.

(38) 因此 3.8 式可進一步表示為負對數相似度 (negative log-likelihood, NLL)：. JN LL (θ; S) = ´ log vLC. (3.10). 已知訓練準則後，模型參數 θ = tW, bu 能透過錯誤倒傳導法 (error backpropagation algorithm) [38] [39] [40] 進行學習。模型參數可由一階導數表示，而 ∆Wℓt 與 ∆bℓt 的更新表示為：. Wℓt+1. Ð. bℓt+1. Wℓt. Ð. bℓt. ´. ϵ∆Wℓt ,. ∆Wℓt. ´. ϵ∆bℓt ,. ∆bℓt. M 1 ÿb ∇Wℓt J (θ; om , ym ) = Mb m=1. M 1 ÿb = ∇bℓt J (θ; om , ym ) Mb m=1. (3.11). (3.12). 其中 ϵ 表示為學習率，Wℓt 與 bℓt 為第 ℓ 層的權重矩陣及偏移量向量在第 t 次更新的值。Mb 為批量的大小 (mini-batch)，表示模型輸入了多少次訓練資料才更新一次。式 3.11 與式 3.12 表示在第 t 次迭代後，從 Mb 個訓練樣本中估測的平均梯度， ∇θ J 表示為減損函數 J 對參數 θ 偏微分的梯度。最上層的權重矩陣與偏移量向量之梯度計算方式會隨著不同的訓練準則而不同，語音辨識中，預測每個音框對應的狀態可視為分類任務，以分類任務常使用的最小化交叉熵訓練準則來說，使用. 22.

(39) 軟式最大化輸出層權重矩陣的錯誤訊號 eLt 與梯度 ∇WLt JCE (θ; om , ym ) 可表示為： BJCE (θ; om , ym ) BzLt C ÿ yj log vLj =´ BzLt j=1. eLt =. C ÿ. 1 BvLj =´ yj L L vj Bzt j=1 C ÿ yt BvLt yj vLj =´ L L ´ vt Bzt vL zL j‰t j t ( ) ÿ C yt L yj L = ´ L vt (1 ´ vt ) ´ (´vLj vLt ) L vt v j‰t j. = ýt + yt vLt +. C ÿ. vLt yj. j‰t. = ýt +. C ÿ. yj vLt. j=1. = ýt +. vLt. C ÿ. yj. j=1. = (vLt ´ y). (3.13). BzL ∇WLt JCE (θ; om , ym ) = ∇zLt JCE (θ; om , ym ) tL BWt ( ) L L´1 L B Wt vt + bt L = et BWLt = eLt (vL´1 )J t )J = (vLt ´ y)(vL´1 t. 23. (3.14).

(40) 假設第 ℓ 層的錯誤訊號定義為 eℓt ，而隱藏層的權重矩陣及偏移量更新表示為： Bvℓt BWℓt ( ) ℓ ℓ´1 ℓ B Wt vt + bt. ∇Wℓt JCE (θ; om , ym ) = ∇vℓt JCE (θ; om , ym ) ( ) 1 ℓ = diag (f (zt ) ˝ eℓt. BWℓt ( ) ( )J = diag f 1 (zℓt ) ˝ eℓt vtℓ´1. (3.15). Bvℓt Bbℓt ( ) ℓ ℓ´1 ℓ B Wt vt + bt. ∇bℓt JCE (θ; om , ym ) = ∇vℓt JCE (θ; om , ym ) ( ) 1 ℓ = diag (f (zt ) ˝ eℓt ( ) 1 ℓ = diag f (zt ) ˝ eℓt. Bbℓt (3.16). 其中 ˝ 表示為逐元素之乘法，diag(¨) 表示為一對角矩陣，f 1 (zℓt ) 為對活化函數微分，本論文使用的活化函數為 sigmoid 函數，其微分表示為：. σ. 1. (zℓt ). ( ) ℓ = 1 ´ σ(zt ) ˝ σ(zℓt ) = (1 ´ vℓt ) ˝ vℓt. (3.17). 錯誤訊號由上層向下傳遞可表示為：. = ∇zL´1 J (θ; om , ym ) eL´1 t t BzLt ∇zLt J (θ; om , ym ) vL´1 t ) ( L L L´1 B W t vt + bt eLt = BvL´1 t =. = (WLt )J eLt. 24. (3.18).

(41) eℓ´1 = ∇vℓ´1 J (θ; om , ym ) t t Bvℓt ∇vℓt J (θ; om , ym ) vℓ´1 v ( ) ℓ ℓ´1 ℓ ( ) B Wt vt + bt 1 ℓ = diag f (zt ) eℓt ℓ´1 Bvt ] [ L J 1 ℓ L = (Wt ) f (zt ) ˝ et , for ℓ ď L. =. (3.19). 3.4 摺積神經網路架構本章節將介紹摺積神經網路的架構 [41] [42] [43] [44] [45] [46] [47]。它能找到特徵在時間與空間中不變的特性 (shift invariance)，在影像辨識領域中有非常優異的表現，而在語音辨識領域也被證實能提升辨識的準確率 [45] [46] [47]。 CNN 的架構如圖 3.3所示，它由數組的摺積層 (convolution layers) 和池化層 (pooling layers) 所組成，摺積層和池化層的運算分別稱為摺積 (convolution) 及池化 (pooling)。摺積層透過摺積核掃描輸入的特徵圖，摺積核就像是生物視覺神經的感受區 [48] [49]。每一個摺積核能夠獲取輸入特徵的局部特徵；而池化目標是將摺積層的特徵做降維。已知時間點 t 時的輸入語音對應鄰近音窗之語音特徵矩陣表示為 ot ，摺積運算後的類別特徵圖表示為 Qt , (j = 1, …, J)，由 J 個摺積特徵圖所組成，則摺積運算可以簡單視為透過權重矩陣 Wt,j (t = 1, …, T ; j = 1, …, J)，將輸入特徵 ot 映射到摺積特徵 Qj 的矩陣乘法， ( ) Qj = Wt,j ˚ ot + bj , (j = 1, …, J). (3.20). 其中表示為摺積運算，Wt,j 為將第 t 個輸入特徵映射到第 j 個摺積特徵的區域權重矩陣，bj 為偏移量。摺積層中的權重同樣能透過反向傳播來學習。摺積層與全連接隱藏層的差別有兩點：1) 摺積層只從摺積核讀取局部輸入特徵。2) 摺積層中 25.

(42) sigmoid sigmoid. sigmoid. sigmoid 𝐖𝓹,𝒌 ■. ■ ■. ■. ■ ■. ■ ■. 𝐖𝑡,𝑗. ■ ■ ■. ■ ■. ■ ■. ■. ■. ■. ■. ■ ■. ■ ■. ■. 𝐖𝓹,𝒌. ■. 時間. ■ ■. 𝐖𝑡,𝑗. ■ ■ ■. 頻率 (40個頻帶). 𝐖𝑡,𝑗. 𝐖𝑡,𝑗. 摺積層. 摺積層. 池化層. 全連結隱藏層. 圖 3.3: 本論文所使用的摺積神經網路架構的每個摺積特徵可以視為特徵圖，圖中的每個元素都共享相同的權重，但它們各自是濃縮自前一層之不同區域的特徵而來。接下來是池化的部分，池化層是從摺積層產生對應的池化層，每一個池化特徵圖都是由前一層摺積層的摺積特徵圖做池化運算而來，因此池化特徵圖的數量也會與摺積特徵圖的數量相同，也具備摺積特徵所包含的的區域不變性 (local invariance) 的特性，池化運算分成最大池化 (max-pooling) 及平均池化 (average-pooling) 兩種，本論文使用最大池化運算，池化運算的池化窗 (pooling window) 不重疊。. 26. 輸出層.

(43) 第4章. 遷移學習. 監督式機器學習 (supervised machine learning) 的技術己經被許多學者廣泛地研究，並被應用在許多不同的實際任務上。然而，現今既存的監督式演算法大多基於一個重要前提：訓練與測試集皆以同樣的特徵表示，且兩者具有相同的分佈。另一方面，這些演算法必需仰賴充足及高品質的已標記資料，才能訓練統計模型對未來的新資料進行預測 [50] [51] [52]。此外，在真實情況中，標記的資料供不應求，欲獲取標記的資料需要花費昂貴的成本，且需耗費大量時間。這項問題已經成為發展機器學習方法的一個主要瓶頸。遷移學習允許訓練與測試的領域、任務及分佈是不同的。遷移學習背後的主要思想是想藉由已標記資料從一些相關領域取得知識，幫助機器學習演算法在感興趣的領域取得更佳的效果 [53] [54]。現實生活中，也有許多遷移學習的例子，例如，我們可能會發現學習認識蘋果可以幫助認識梨子，學習彈奏電子琴有助於學習鋼琴。本章將介紹遷移學習的背景知識、定義以及遷移學習的研究領域。. 4.1 遷移學習 4.1.1. 背景. 遷移學習的動機源於人類能夠運用從前學習到的知識，更快地解決新的問題 [55]。例如，一個人如果善於利用 C++ 程式語言，那麼他學習起 Java 應該也能很快上手。這是因為 C++ 及 Java 皆屬於物件導向程式語言 (object-oriented programming, OOP)，概念是雷同的。再舉一個例子，如果一個人擅長打乒乓球，他學習網球應 27.

(44) 該也很快，因為這兩種運動的技能有相似之處。從心理學的角度來看，遷移學習的定義是人類在行為、學習或與善用以往經驗效果的研究。大約 100 年前，研究人員已經探討了一個人如何從一個具備前後關係的事件轉移到有類似特徵的事件 [56]。簡單來說，在機器學習領域的遷移學習定義是一個系統利用從以前學習到的知識或以學習到的技能，應用在相似的任務中。. 4.1.2. 遷移學習中的多任務學習. 根據來源領域與目標領域資料的標記有無可將遷移學習的研究劃分為三大類，分別為：歸納式遷移學習、轉導式遷移學習及非監督式遷移學習。假設我們現在有目標領域的標記，就可以歸類為歸納式遷移學習，歸納式遷移學習又根據有無來源領域的標記資料，可進一步分成兩個領域：無來源領域的標記資料屬於自我學習 (self-taught learning)，而有來源領域的標記則稱為多任務學習。如果有來源領域的標記，就屬於轉導式遷移學習。轉導式遷移學習依照不同的假設，可細分為兩種研究領域，分別為：假設來源領域與目標領域不同，且只有一個任務稱為領域調適 (domain adaptation)；而假設來源領域與目標領域相同，且只有一個任務稱為樣本選擇偏移或共變異位移 (sample selection bias/covariance shift)。最後，如果沒有來源領域與目標領域的標記，就稱為非監督式遷移學習。多任務學習為遷移學習中的一支，當我們有目標領域與來源領域的標記資料時，就屬於多任務學習的研究領域。在語音辨識的情境中，來源領域的資料就是輸入語音特徵序列，而輸入語音特徵序列的狀態編號標記就是來源領域對應的標記。 28.

(45) 自我學習. 沒有來源領域的標記. 歸納式遷移學習. 有來源領域的標記. 有目標領域的標記. 多任務學習. 遷移學習. 有來源領域的標記. 假設來源領域與目標領域不同且屬於同一個任務. 轉導式遷移學習. 沒有來源領域與目標領域的標記. 非監督式遷移學習. 領域調適. 假設來源領域與目標領域相同且屬於同一個任務. 樣本選擇偏移 /共變異位移. 圖 4.1: 遷移學習的研究領域. 4.1.3. 定義. 在本章節中，我們遵循 [54] 的符號表示來陳述遷移學習的問題。一個領域 D 有兩個元件組成，特徵空間 X 與邊際機率 (marginal probability)P (x)，其中 x P X 。一般來說，如果兩個領域不同，他們會有不同的特徵空間或不同的邊際機率。已知一個特定的領域 D = tX , P (x)u 及一個任務 T ，任務 T = tY, f (¨)u，Y 表示標記空間。f (¨) 表示預測函數，可被用於預測未見過的實例 (instance)：tx˚ u。以機率的觀點來看，f (x) 可被改寫成 P (y|x)。分類問題中，標記可以用二元表示為 Y = t´1, +1u(分兩類) 或者以離散的數字表示 (分成多類)。為了方便，我們只考慮研究中最常被提到的：一個來源領域 (source domain) S DSource 及目標領域 (target domain) DT arget 。我們定義 DSource = t(xSi , ySi )uni=1 表示. 來源領域的資料集，其中 xSi P XS 表示為資料實例，ySi P YS 表示為資料實例對 T 應的類別標記。同樣地，我們定義 DT ource = t(xTi , yTi )uni=1 表示目標領域的資料. 29.

(46) 集，其中 xTi P XT 表示為資料實例，yTi P YT 表示為資料實例對應的類別標記。在大多數的情況下，0 ď nT ! nS 。基於上述表示，我們可以依照 [54] 定義遷移學習。定義 1. 已知來源領域 DSource 及任務 TSource ，目標領域 DT arget 及任務 TT arget ，遷移學習目的是要運用從領域 DSource 及任務 TSource 學習到的知識，幫助學習目標領域 DT arget 的預測函數 fT arget (¨)，其中 DSource ‰ DT arget ，TSource ‰ TT arget 。上述定義中，由於一個特定的領域表示成 D = tX , P (x)u，因此 DSource ‰ DT arget 可以視為隱含了 XS ‰ XT 或 P (xS ) ‰ P (xT )。同樣地，特定的任務可以表示成 T = tY, P (y|x)u，則 TSource ‰ TT arget 隱含著 YS ‰ YT 或 P (yS |xS ) ‰ P (yT |xT )。當目標與來源領域相同時 (DSource = DT arget ) 問題就轉換成一般的機器學習問題。基於特徵空間或標記空間是否相同，我們可以進一步分為兩種情景： 1) 同質型遷移學習 (homogenous transfer learning) 2) 異構型遷移學習 (heterogenous transfer learning) 接下來將分別詳細介紹同質型遷移學習與異構型遷移學習。. 4.2 同質型遷移學習本章節一開始，讓我們先定義同質型遷移學習：定義 2. 已知來源領域 DSource 及任務 TSource ，目標領域 DT arget 及任務 TT arget ，同質型遷移學習目的是要運用從領域 DSource 及任務 TSource 學習到的知識，改善目標領域的預測函數 fT arget (¨)，其中 XS XXT ‰ H 及 YS = YT ，但是 P (xS ) ‰ P (xT ) 或 P (yS |xS ) ‰ P (yT |xT ) 基於上述定義，在同質型遷移學習中，領域之間的特徵空間有重疊，而任務與 30.

(47) 基於特徵表⽰法. 基於實例. 同質型遷移學習基於模型參數. 基於關係訊息. 圖 4.2: 同質型遷移學習的研究領域表 4.1: 同質型遷移學習的四大類研究和遷移學習的關係歸納式遷移學習 ‘ 基於實例的遷移學習 ‘ 基於特徵表示法的遷移學習 ‘ 基於模型參數的遷移學習 ‘ 基於關係訊息的遷移學習. 轉導式遷移學習 ‘ ‘. 非監督式遷移學習 ‘. 任務之間的標記空間也相似。同質型遷移學習的研究可以歸納為四類，如圖 4.2 ，接下來我們將分別介紹這些領域及方法。： 1) 基於實例的遷移學習 (instance-based approach) 2) 基於特徵表示法的遷移學習 (feature-representation-based approach) 3) 基於模型參數的遷移學習 (model-parameter-based approach) 4) 基於關係訊息的遷移學習 (relational-information-based approach) 值得注意的是，這四種研究領域皆與圖 4.1 中羅列的遷移學習領域有關，它們的關係如表 4.1 所示，這四種方法都與歸納式遷移學習有關，而基於實例的方法和基於特徵表示法的遷移學習與轉導式遷移學習相關，另外，基於特徵表示法的遷移學習也和非監督式遷移學習有關。 31.

(48) 基於實例的遷移學習. 𝒳#. 𝒳". 基礎假設：來源領域與⽬標領域含有許多共同的特徵. 圖 4.3: 基於實例的遷移學習之基礎假設. 4.2.1. 基於實例的遷移學習. 基於實例的研究動機是：雖然來源領域的標記資料不能直接使用在目標領域，但是我們可以透過將來源領域的標記資料重新加權或重新採樣後，運用於目標領域。而基於實例的方法背後的假設是：來源領域與目標領域含有許多重疊的特徵如圖 4.3 所示。這意味著領域間具備共同或相似的特性。根據我們是否有目標領域的標記資料，基於實例的研究可以進一步區分為兩種情況：完全沒有目標裡領域的標記資料以及只有少部份目標領域的標記資料。. 情景 1：完全沒有目標領域的標記資料假設目標領域中，我們沒有已標記的資料，但是有許多未被標記的資料。這樣的情況下，基於實例的研究通常假設 PSource (y|x) = PT arget (y|x)，而等式成立的條件在於適當地採樣 (sampling)。在解釋採樣是這類研究重要的關鍵點之前，我們先回顧一下經驗風險最小化的學習框架 (empirical risk minimization, ERM) [51]。假設現有感興趣的任務 (例如：目標任務)，ERM 的目標就是希望最小化預期的風險，求 32.

(49) 得最佳的參數 θ˚ ： θ˚ = arg min E(x,y)PPT [L(x, y, θ)]. (4.1). θPΘ. 其中 L(x, y, θ) 為減損函數，取決於參數 θ。由於我們沒有目標領域的標記資料，因此想要利用目標領域的標記資料最佳化式 4.1 是不可能的，但是式 4.1 已經被證明能夠改寫成： θ˚ = arg min E(x,y)PPT [ θPΘ. PT (x, y) L(x, y, θ)] PS (x, y). (4.2). 式 4.2的目標是希望從來源領域的已標記資料學習出最佳的參數 θ˚ ，以最小化加權後預期的風險 (weighted expected risk)。假設 PS (y|x) = PT (y|x)，我們可以透過分解聯合機率分佈 (joint distribution)P (x, y) = P (y|x)P (x)，得到. PT (x,y) PS (x,y). =. PT (x) ， PS (x). 則式 4.2 可進一步改寫成：. θ˚ = arg min E(x,y)PPT [ θPΘ. PT (x) L(x, y, θ)] PS (x). (4.3). 來源領域實例 x 權重怎麼取得呢？我們可以藉由資料點 x 在目標領域與來源領 S 域之邊際機率的比值計算而得。現有來源領域已標記資料 t(xSi , ySi )uni=1 ，表示為. β(x) =. PT (x) ，我們可以將式子 PS (x). 4.3改寫，加入正則項的形式：. θ˚ = arg min θPΘ. nS ÿ. β(xSi )L(xSi , ySi , θ)λΩ(θ). (4.4). i=1. Ω(θ) 是避免過度擬合的正則項。因此基於經驗風險最小化框架下的遷移學習，一項重要研究的議題就是該如何估測權重 tβ(xS u。很直覺的一種解法是我們可以先個別估測 PT (x) 及 PS (x)，接著直接對來源領域每個資料實例 x，計算兩者的比值 PT (x) 。然而估計 PS (x). PT (x) 及 PS (x) 的機率密度非常困難，特別是在資料數量很少且. 每筆資料的特徵維度都很高的時候。. 33.

(50) 在文獻中既存許多直接估測的方式. PT (x) 。在這裡我們僅介紹 PS (x). 3 種具代表性的. 方法。如果想知道更多類似的方法，請參照 [57]。[58] 假設資料分佈之間的差異是由生成資料的過程中造成的。具體來說，假設來源領域的資料是由目標領域以棄卻抽樣的方式 (rejection sampling) 採樣而得。令選取變數 (selector variable)： S P t0, 1u 表示此目標領域的實例是否被選來產生來源領域的資料。S = 1 表示選取，S = 0 則表示不選取。如此，我們可以透過這個選取變數將來源領域的分佈以目標領域的分佈表示。. PS (x) 9 PT (x)P (S = 1|x). 因此，權重 β(x) 就能改以. 1 P (S=1|x). 表示。為了要估計. (4.5). 1 ，[58] P (S=1|x). 把所有的來源. 領域資料標記為 1，而所有目標領域的資料被標記為 0，接著基於這個虛擬的標記訓練一個機率分類模型，用來估測. 1 。 P (S=1|x). 第二種方法，[59] 提出了核均值配對法 (kernal mean matching，KMM) 直接學習. PS (x) ，它的精神是在重製核心希伯特空間 PT (x). (reproducing-kernel Hilbert. space，RKHS) 內直接比對來源領域與目標領域的平均值 [60]。具體來說， KMM 是利用 Gretton 等人提出的最大化平均值差異 (maximum mean discrepancy, MMD) [61]。[59] 用以衡量兩分佈的距離。已知兩樣本，基於 MMD，估測兩樣本分佈的距離可以簡單視為是在重製核心希伯特空間中兩個平均值的距離。因此，目標函數表示為： ( ) nS nT. 1 ÿ ÿ 1. β(xSi )Φ(xSi ) ´ Φ(xTi ) arg min . nS i=1 nT i=1 β H ˇ ÿ ˇ nS ˇ 1 ˇ s.t β(xSi ) P [0, B] and ˇˇ β(xSi ) ´ 1ˇˇ ď ϵ nS i=1. (4.6). B 為限制 PS (x) 及 PT (x) 差異的參數，ϵ 為非負的參數，用以確保重新加權後 34.

(51) 的 PS (x) 會符合機率分佈。最佳化式 4.6 可以轉換成一個 QP 問題 (quadratic psroSi ) gramming problem)，而式 4.6 的最佳解 β(xSi ) 等同於估測式 4.3 的比值 t PPTS (x u。 (xSi ). 第三種方法，[62] 假設 β(x) 可由線性模型估測而得：. ˜ β(x) =. b ÿ. αl ψ(x). (4.7). l=1. tψ(x)ubl=1 為事先定義的函數，而 tαl ubl=1 是待估測的參數，以這樣的方式的話， ˜ 估測 β(x) 的問題就轉換為估測參數 tαl ubl=1 的問題了。假設 P˜T (x) = β(x)P S (x)，求取參數的過程可以視為最佳化下式：. arg min L(PT (x), P˜T (x)). (4.8). tαl ubl=1. L(¨) 為已估測目標機率分佈 P˜T (x) 與實際的目標機率分佈 PT (x) 之間的減損函數。減損函數有很多種不同的方法，舉例來說，[62] 提出了使用 KL 距離 (Kullback-Leibler divergence) 做為減損函數。[63] 提出以最小平方法 (least-squared) 做為減損函數。值得注意的是，其實 PS (x) 及 PT (x) 的標準答案都是未知的。但是從 [62] [63] 中我們可以知道，PS (x) 及 PT (x) 可由最佳化參數 tαl ubl=1 求得。. 情景 2：只有少部份目標領域的標記資料. 第二種情景是假設目標領域只有少量的標記資料，不同於上述應用於情景 1 的方法，大多數的研究是根據來源領域的資料，其在目標領域分類正確率的貢獻來調整權重。[64] 將來源領域與目標領域的資料一起輸入支持向量機 (support vector 35.

(52) machine，SVM) [65]，改善目標領域的分類正確率： nTl nS ÿ ÿ 1 2 arg min }w}2 + λT ξT i + λS γi ξSi w,ξS ,ξT 2 i=1 i=1. s.t. (4.9). ySi wJ xSi ě 1 ´ ξSi , i = 1, ..., nS yTi wJ xTi ě 1 ´ ξT i , i = 1, ..., nTl. nTi 是目標領域已標記資料的數量，w 是模型的參數，ξS 及 ξT 分別是來源領域與目標領域的惰變數 (slack variable)，為允許來源領域與目標領域的資料偏離函數邊際 (funcion margin) 的量。λS 及 λT 為權衡來源領域與目標領域影響力的參數，γi 是來源領域實例 xSi 的權重。有許多方式可以設定 tγi u 的值，例如 [64] 中，將來源領域所有的資料點都設定為 1，[66] 認為應該從來源領域中去除那些會產生誤導的實例，因此設定為 0。值得注意的是 [66] 使用的分類器是簡單的機率模型而不是 SVM，但是想法是相同的。 [67] 將遷移學習引入 Boosting 的概念，又被稱為 TrAdaBoost。TrAdaBoost 是 Adaboost [68] 的一種延伸。它的基本概念是迭代地更新來源領域資料的權重，減少不好的來源領域資料帶來的影響，鼓勵優良來源領域資料在目標領域的貢獻更大。更具體來說，TrAdaBoost 更新目標領域已標記資料權重的方式與 AdaBoost 相同，差別在於 TrAdaBoost 的方法能夠降低分類錯誤之來源領域資料的權重。. 4.2.2. 基於特徵表示法的遷移學習. 如同上一個章節所介紹的，基於實例的遷移學習它基本的假設是來源領域與目標領域之輸入特徵有非常多重疊的部分。但是在實際的例子中，來源領域與目標領域可能只有少部分有重疊，這意味著這兩個領域之間只有很少的共享 (重疊) 特徵。這樣的情境下，很多基於實例的遷移學習的方法便不奏效。而基於特徵表示 36.

(53) 基於特徵表⽰法的遷移學習. 𝒳". 𝒳#. 𝜑. 𝜑. 圖 4.4: 基於特徵表示法的遷移學習法的遷移學習有希望能夠解決這樣的問題。. 基於特徵表示法的遷移學習的概念是想要從來源領域及目標領域中學習出一個好的表示法，基於這種表示法，來源領域的已標記資料便能重新使用在目標領域。如此的情境下，轉移跨領域的知識將會被嵌入已學習的特徵表示法。具體來說，基於特徵表示法之遷移學習的目標在於學習一個映射函數 φ(¨)，使得來源領域與目標領域的資料經過轉換後 (tφ(xSi )u 及 tφ(xTi )u) 的差距可以減少。在一般情況下，學習映射函數 φ(¨) 的方法可大致分為 2 大類：一個是在學習映射函數的時候融入特定領域的知識，另一個則是想透過一般化的方法，而不需額外的知識。. 最小化分佈距離之特徵學習實際情況中，我們並沒有領域的知識可以運用，如此便需要基於特徵表示法的遷移學習。本章節將介紹特徵學習中基於潛在空間 (latent space) 之分佈最小化 (distribution minimization) 的研究。試想實際的情景中，可觀測的資料僅受少數的 37.

(54) 潛在因素影響；也就是說，假設兩個領域間彼此相關，它們理應共享某些潛在的因子，有些因子可能導致兩者的資料分佈不同，而某些因子可能能夠從原有資料獲取某些內在結構或鑑別性資訊，假設我們能夠重建 (學習到) 這些潛在因子而且能夠保留原有資料的分佈或特性，那麼就有機會能以這些潛在因素展開的空間作為橋樑，使得知識的轉移變得可行。基於這樣的動機，[69] 提出了以遷移學習為基礎的降維演算法：. min Distance(φ(XS , φ(XT )) + λΩ(φ) φ. s.t. (4.10). constrain on φ(XS ) and φ(XT ). 其中 φ 為待學習的映射函數，將原始資料映射到較低維度的空間，式 4.10的目標是要最小化來源領域資料分佈及目標領域資料分佈的距離，Ω(φ) 是針對映射函數的正則項，而限制用以確保原始資料的特性能被保存下來。通常要最佳化式 4.10 較難計算，因此 [69] 提出了最大化平均值差異表示法 (maximum mean discrepancy embedding，MMDE) 的方法，將最佳化問題轉換為核矩陣 (kernal matrix) 的學習問題。MMDE 的方法改良自非參數式的方法 (non-parametric)：MMD，但是 MMDE 仍有 2 個限制，第一，求解的計算成本相當昂貴，第二，由於求解核矩陣的學習問題屬於一種轉導推理 (transductive inference) 的方法，它假設未標記的資料就是最終被用來測試的資料，因此學習的目的就是從這些資料中取得最佳的泛化能力 (generalization capability)，沒辦法運用到訓練資料以外的資料。為了解決 MMDE 的局限性，Pan 等人 [70] 進一步改良 MMDE 的方法，加入廣義特徵分解 (generalized eigen-decomposition) 的方法，使它的計算速度更快，也能處理訓練資料以外的資料。基於類似的概念，[71] 使用布萊格曼散度 (bregman divergence) 作為樣本分佈之間的距離度量，以減少在潛空間中之來源和目標域資料之間的距離為目的進行訓練。 38.