第 4 章遷移學習

監督式機器學習 (supervised machine learning) 的技術己經被許多學者廣泛地研究，並被應用在許多不同的實際任務上。然而，現今既存的監督式演算法大多基於一個重要前提：訓練與測試集皆以同樣的特徵表示，且兩者具有相同的分佈。

另一方面，這些演算法必需仰賴充足及高品質的已標記資料，才能訓練統計模型對未來的新資料進行預測 [50] [51] [52]。此外，在真實情況中，標記的資料供不應求，欲獲取標記的資料需要花費昂貴的成本，且需耗費大量時間。這項問題已經成為發展機器學習方法的一個主要瓶頸。遷移學習允許訓練與測試的領域、任務及分佈是不同的。遷移學習背後的主要思想是想藉由已標記資料從一些相關領域取得知識，幫助機器學習演算法在感興趣的領域取得更佳的效果 [53] [54]。現實生活中，也有許多遷移學習的例子，例如，我們可能會發現學習認識蘋果可以幫助認識梨子，學習彈奏電子琴有助於學習鋼琴。本章將介紹遷移學習的背景知識、定義以及遷移學習的研究領域。

4.1 遷移學習

4.1.1 背景

遷移學習的動機源於人類能夠運用從前學習到的知識，更快地解決新的問題 [55]。

例如，一個人如果善於利用 C++ 程式語言，那麼他學習起 Java 應該也能很快上手。這是因為 C++ 及 Java 皆屬於物件導向程式語言 (object-oriented programming, OOP)，概念是雷同的。再舉一個例子，如果一個人擅長打乒乓球，他學習網球應

該也很快，因為這兩種運動的技能有相似之處。

從心理學的角度來看，遷移學習的定義是人類在行為、學習或與善用以往經驗效果的研究。大約 100 年前，研究人員已經探討了一個人如何從一個具備前後關係的事件轉移到有類似特徵的事件 [56]。簡單來說，在機器學習領域的遷移學習定義是一個系統利用從以前學習到的知識或以學習到的技能，應用在相似的任務中。

4.1.2 遷移學習中的多任務學習

根據來源領域與目標領域資料的標記有無可將遷移學習的研究劃分為三大類，分別為：歸納式遷移學習、轉導式遷移學習及非監督式遷移學習。假設我們現在有目標領域的標記，就可以歸類為歸納式遷移學習，歸納式遷移學習又根據有無來源領域的標記資料，可進一步分成兩個領域：無來源領域的標記資料屬於自我學習 (self-taught learning)，而有來源領域的標記則稱為多任務學習。如果有來源領域的標記，就屬於轉導式遷移學習。轉導式遷移學習依照不同的假設，可細分為兩種研究領域，分別為：假設來源領域與目標領域不同，且只有一個任務稱為領域調適 (domain adaptation)；而假設來源領域與目標領域相同，且只有一個任務稱為樣本選擇偏移或共變異位移 (sample selection bias/covariance shift)。最後，如果沒有來源領域與目標領域的標記，就稱為非監督式遷移學習。

多任務學習為遷移學習中的一支，當我們有目標領域與來源領域的標記資料時，就屬於多任務學習的研究領域。在語音辨識的情境中，來源領域的資料就是輸入語音特徵序列，而輸入語音特徵序列的狀態編號標記就是來源領域對應的標記。

轉導式

為了方便，我們只考慮研究中最常被提到的：一個來源領域 (source domain) DSource 及目標領域 (target domain)DT arget。我們定義 D_Source = t(xSi, y_S_i)uⁿ_i=1^S 表示 來源領域的資料集，其中 x_S_i PXS 表示為資料實例，y_S_i P YS 表示為資料實例對 應的類別標記。同樣地，我們定義 DT ource = t(xTi, yTi)uⁿ_i=1^T 表示目標領域的資料

集，其中 x_T_i P XT 表示為資料實例，y_T_i P YT 表示為資料實例對應的類別標記。

在大多數的情況下，0 ď nT ! nS。基於上述表示，我們可以依照 [54] 定義遷移學習。

定義 1. 已知來源領域DSource 及任務TSource，目標領域DT arget及任務TT arget，遷移學習目的是要運用從領域DSource 及任務TSource 學習到的知識，幫助學習目標領域DT arget的預測函數 fT arget(¨)，其中DSource ‰DT arget，TSource ‰TT arget。

上述定義中，由於一個特定的領域表示成 D = tX , P (x)u，因此 DSource ‰

DT arget 可以視為隱含了XS ‰ XT 或 P (x_S) ‰ P (xT)。同樣地，特定的任務可

以表示成T = tY, P (y|x)u，則 TSource ‰ TT arget 隱含著YS ‰ YT 或 P (y_S|xS) ‰ P (y_T|xT)。當目標與來源領域相同時 (DSource =DT arget) 問題就轉換成一般的機器學習問題。

基於特徵空間或標記空間是否相同，我們可以進一步分為兩種情景：

1) 同質型遷移學習 (homogenous transfer learning)

2) 異構型遷移學習 (heterogenous transfer learning)

接下來將分別詳細介紹同質型遷移學習與異構型遷移學習。

4.2 同質型遷移學習

本章節一開始，讓我們先定義同質型遷移學習：

定義 2. 已知來源領域DSource 及任務TSource，目標領域DT arget及任務TT arget，同質型遷移學習目的是要運用從領域DSource及任務TSource學習到的知識，改善目 標領域的預測函數 f_{T arget}(¨)，其中XSXXT ‰ H 及YS =YT，但是 P (x_S) ‰ P (xT) 或 P (yS|xS) ‰ P (yT|xT)

基於上述定義，在同質型遷移學習中，領域之間的特徵空間有重疊，而任務與 30

在文檔中改善類神經網路聲學模型經由結合多任務學習與整體學習於會議語音辨識之研究 (頁 43-47)

第 4 章 遷移學習

4.1 遷移學習

4.1.1 背景

4.1.2 遷移學習中的多任務學習

4.2 同質型遷移學習