• 沒有找到結果。

歸納式遷移學習(Inductive transfer learning)

3.3 遷移學習的分類

3.3.1 歸納式遷移學習(Inductive transfer learning)

本章節一開始,讓我們先定義歸納式遷移學習。

定義 3.2(歸納式遷移學習). 給定來源領域𝒟𝑆和任務𝒯𝑆,以及目標領域𝒟𝑇和任務 𝒯𝑇。歸納式遷移學習意旨在來源與目標任務不同(𝒯𝑆 ≠ 𝒯𝑇)的情況下,利用存在於 來源領域𝒟𝑆和任務𝒯𝑆的知識提升目標預測函數𝑓𝑇(. )的效能。

基於上述定義,目標任務不同(𝒯𝑆 ≠ 𝒯𝑇)意涵這可能是標記空間不同(𝑌𝑆 ≠ 𝑌𝑇) 或預測函數𝑓𝑇(. )不同等四種組合。也就是說不論特徵空間或實例的邊際機率分 佈如何,歸納式遷移學習定義在接近輸出端的標記空間或預測函數必須有所不 同,因此我們需要部份目標領域的資料來「歸納」目標領域的預測函數𝑓𝒯(. )的 效能。如 3.2 節的簡介所述,此設置有兩種情況:1) 來源領域中的具有可用的標 記資料及 2) 來源領域中只具有可用的未標記資料。前者的相關領域為多任務學 習,而後者的相關領域為自我訓練。在遷移學習中,較常見的方法為利用來源領

圖 3.3:歸納式遷移學習。

35

域的標記資料,此設置中的大多數的遷移學習方法側重於前一種情況。歸納式遷 移學習可由圖 3.3 所示,基於實例、基於特徵表示法、基於模型參數和基於關聯 知識四個面向來介紹。

3.3.1.1 基於實例的遷移學習

基於實例的遷移學習,假設存在於來源領域的資料只有部分可用於目標領域,另 一部分的資料則會損害原目標領域所訓練的分類器效能。因此,如何挑選對目標 領域的分類器「有益」的資料,並加入訓練便是基於實例的遷移學習的重點。基 於實例的遷移學習的假設中,來源領域與目標領域含有許多重疊的特徵。如圖 3.1 所示。這意味著領域間(𝒟𝑆和𝒟𝑇)具備著共同或相似的特性。

過往於此分類的研究 ,Wu 和 Dietterich 在支持向量機 (Support vector machine, SVM)使用來源領域作為輔助(Auxiliary)資料,用以改善 SVM 在目標領 域的性能[73]:

圖 3.4:基於實例的遷移學習。

36

Dai 等人在[75]提出了 TrAdaBoost 的分類器,TrAdaBoost 為 AdaBoost 的延 伸方法。在[75]中假設來源領域和目標領域具有相同的特徵與標記空間,但兩者

37

遷移的領域範圍縮小。因此,我們將假設再放寬一些,假設來源領域與目標領域 只有很少的共享特徵。如此一來,許多基於實例的方法便不奏效,對應該問題的 方法便是基於特徵表示的遷移學習,如圖 3.5 所示。

基於特徵表示的遷移學習旨在兩個領域之間,學習到好的特徵表示法,並重 新利用該特徵表示於目標領域。這意味著學習到的表示空間也隱含著目標與來源 的跨領域知識。當目標領域和來源領域之間的特徵空間重疊較少,最直覺的想法 便是學習一個映射函數𝜙(. ),使得兩個領域的特徵空間能投影到新的特徵空間,

其中需要最小化𝜙(𝐱𝑆𝑖)和𝜙(𝐱𝑇𝑖)兩者間的距離,而距離可由領域離散性(Domain divergence),以及分類或回歸模型的錯誤得到。我們可簡易地將學習表示法分成 兩大類,分別為:1) 融合特定領域知識,較相近的方法為多任務學習;另一個

圖 3.5:基於特徵表示的遷移學習。

38

39 (Meta-priors)和特徵權重(Feature weights);Ruckert 等人.[79]則是利用核函數 (Kernel-based function)找到適合目標領域的特徵表示。

40

3.3.1.3 基於關聯知識的遷移學習

與其他常見的方法不同,基於關聯知識的遷移學習不須假設資料是獨立且認定分 配(Independent and identically distributed, IID),而是可共享多種關係且彼此互相 影響。如果我們能學到這些資料的關聯,便可將這樣的知識應用於遷移學習,相 關概念可參考圖 3.6。舉例來說,假設目標領域是學術界,而來源領域是產業界,

在學術界中的教授與產業界中的經理扮演的角色相似,那麼教授與學生之間的關 係,也可應用於經理與員工之間的關係。

過往於關聯知識的遷移學習中較知名的方法為 TAMAR 演算法[81],該方法 認為如果兩個領域相關,那麼彼此間便存在實體(Entities)和關係(Relationship)的 映射,且在映射之後來源領域的實體間的關係也可保留至目標領域。上一段舉的

圖 3.6:基於關聯知識的遷移學習。

41

例子,實體便是教授、學生、經理、員工,而關係便是教授之於學生、經理之於 員工。在 TAMAR 嘗試使用利用馬可夫邏輯網路(Markov logic network, MLN)遷 移資料間關聯知識輔助目標領域學習 MLN。MLN 為常用於統計關係學習的算 法 , 特 色 是 靈 活 性 結 合 一 階 邏 輯 (First order logic) 的 緊 湊 表 示 (Compact expression)。在 MLN 中,關係領域中的實體由謂詞(修飾主語的詞)表示,它們彼 此間的關係以一階邏輯表示。而 TAMAR 為兩階段算法,第一步,基於加權偽 對數似然度量(Weighted pseudo log-likelihood, WPLL)構建來源領域中 MLN 到目 標領域的映射關係函數。第二步,通過 FORTE 算法[82]對目標領域中的映射結 構進行修訂,FORTE 是一種用於修改一階邏輯理論的歸納邏輯編程(Inductive logic programming, ILP)的算法,修訂後的 MLN 可以用作目標領域中推理或推理 關係的模型。Mihalkova 等人在[83]延伸 TAMAR 算法在只有目標領域的資料也 可以使用,不需保留太多複雜的關係,結果可加速訓練 TAMAR 的時間。Davis 等人[84]提出利用二階馬可夫邏輯進行遷移知識的工作,在二階邏輯的假設下,

謂詞是可變的。其概念是:雖然在不同領域之間的底層知識(一階邏輯與命題邏 輯)不盡相同,但高層次知識(二階邏輯)應可互相通用。該方法透過二階邏輯在來 源領域建構一組或多組的二階邏輯 MLNs,把這些產生的二階邏輯 MLNs 作為高 層次知識的跳板,並在目標領域展開多個一階邏輯,以此達到遷移關聯知識的目 的。舉例來說,Li 等人[85]利用二階馬可夫邏輯於情感分析任務,在該任務中包 含主題、情感詞和語法關係,主題和情感詞會隨著不同領域而有所不同,但語法 關係可能相同。因此他們透過二階馬可夫邏輯在主題和情感詞之上建構語法(高 層次知識)後,接著在目標領域依序將語法、主題與情感迭代展開。注意本小節 與第 3.3.1.1 小節(基於實例的方法)不同,著重於實例間的關係。

42

3.3.1.4 基於模型參數的遷移學習

在小節 3.3.1.1、小節 3.3.1.2 和小節 3.3.1.3 分別介紹基於實例、特徵表示、關聯 知識的遷移學習,以上三者皆是在資料層次上進行遷移,而本小節則是基於模型 參數上的知識遷移,可參見圖 3.7。基本的精神為:當一個分類任務訓練完後,

該模型會保留許多有益結構資訊,該資訊比起資料是更為精細的知識。我們假設 不同領域的模型共享參數與事前知識(Prior knowledge),並利用該特性遷移來源 領域模型的參數至目標領域。常見的框架為圖框架(Graph framework),正則項框 架(Regularization framework)和分層貝式框架(Hierarchical Bayesian framework, HB),圖框架與正則項框架可視為同一類,後者可視為準則(Criteria)層次的圖框 架。在此框架之下,權重遷移(Weight transfer)和多任務學習(Multitask learning) 由於簡單有效,因此成為目前兩大主流方法。在權重遷移的框架下,來源領域與 目標領域共享相同的模型,且已在來源領域訓練好的模型,可微調參數後便用於 圖 3.7:基於模型參數的遷移學習。圖中 Model 1 和 Model 2 代表模型參數,

我們期待模型可保存更為細緻的知識,並且可用於輔助目標領域的任務訓練。

43

目標領域;在多任務學習的框架(如圖 3.8)下,不僅來源領域與目標領域所貢獻 的參數權重不同,標記空間及損失函數的計算也可以有所不同。直覺的想法中,

在基於模型參數的遷移中,在訓練目標領域的模型時,來源領域的參數權重較 小,以及目標領域所貢獻的參數權重較大,我們可將上述兩個概念中的模型參數 實際定義的式子如下:

𝐰𝑆 = 𝐰0+ 𝐯𝑆 𝑎𝑛𝑑 𝐰𝑇= 𝐰0+ 𝐯𝑇 (3.7) 式(3.7)中的𝐰𝑆和𝐰𝐷分別為目標領域的參數;𝐰0為共享參數,我們通常稱為泛化 層(Generic layer),也就是接近輸入層的特徵轉換;𝐯𝑆和𝐯𝑇為該特定領域的參數,

我們通常稱為任務層(Task-specific layer),也就是接近輸出層,這會隨著任務不 同而差異越大。過往的研究中,Lawrence 和 Platt 提出 MT-IVM 演算法[86],嘗 試通過共享相同的高斯過程(Gaussian process, GP)先驗來學習多個任務的 GP 參 數;Bonilla 等人在[87]中研究了 GP 背景下的多任務學習,提出使用自由形式共 變 異 數 矩 陣 (Free-form covariance matrix) 來 模 擬 任 務 間 的 依 賴 性 (Inter-task 圖 3.8:多任務學習示意圖。不同任務代表不同的輸出層,而不同任務可以共 用相同特徵或不同的特徵。

44

dependence),其中 GP 被用於引發多個任務間的相關性;在[88],Schwaighofer 等人使用分層貝式框架(Hierarchical Bayesian framework, HB)和 GP 一起進行多任 務學習;Evgeniou 和 Pontil [89]則將 HB 用於 SVM 的多任務學習;在[90]則提出 局部加權整體學習框架,在遷移時將多個模型結合起來,其中根據各別模型在目 標領域的效能動態分配權重。

近年來,深層類神經網路的崛起,基於模型參數的遷移學習為應用於自動語 音辨識的大宗。[66]中使用 LIN,試圖通過調整網路參數完成語者調適任務。[67]

使用基於特徵空間遷移的 fDLR 和在網路的各個階段使用 LHN 的線性變換 (Linear transformation)[68],可視為將基於特徵的遷移學習結合基於模型參數的遷 移學習。近年來,在[69]中比較了基於 LHN 的調適和基於多任務學習的調適,

其中發現多任務學習能直接利用來源領域與目標領域的特性,直接訓練兩個領域 上的資料,由於多任務學習如圖 3.8 所示,可允許不同的領域、任務以及損失函 數,可十分自由地應用於遷移學習。另一方面基於 LHN 的權重遷移則是圖 3.9 所示,在來源領域訓練完畢的情況下,只需少量的目標領域的資料便可直接訓練 完成,如因此在基於模型參數遷移學習中,多任務學習與權重遷移為目前兩個最 主流的方法,因此本論文也會基於兩者方法之上做研究。

圖 3.9:權重遷移示意圖。

45

相關文件