• 沒有找到結果。

共享隱藏層

5.3 輔助任務探討

■ ■

■ ■

■ ■ ■ ■ ■ ■

共享隱藏層

會議語⾳語料庫輸⼊特徵 英⽂⾳素語料庫輸⼊特徵

圖 5.3: 多語言與跨語言多任務學習類神經網路架構

5.3 輔助任務探討

多 任 務 學 習 透 過 共 同 學 習 數 個 任 務 以 改 善 模 型 對 未 見 過 的 資 料 之 一 般 化 能 力。任務與任務之間應共享相同的輸入與內部表示法。與類神經網路相結合的 MTL-DNN 是一個理想的模型,每個任務不只共享隱藏層,還有自己的輸出層。

從隱藏層中擷取到的知識能夠轉移 (transfer) 到其它任務使用。在訓練時,對於每 個訓練樣本,可以觸發一個或多個輔助任務,因此每筆輸入會擁有一個以上的誤 差訊號。目標函數可以簡單視為所有參與訓練任務之目標函數的總和。

本論文用於多任務學習的輔助任務可分成 2 個面向,其中一個面向是語言與 音韻學資訊,此類型的資訊主要分為 3 類:音框對應音素標記、音框對應狀態標

與多語言及跨語言資訊。另一個面向則是自動語音辨識回饋,在這裡本論文採用

Estate_context =ÿ

t

ln PsL(st´1|ot)PsR(st+1|ot) (5.3)

3) 多語言及跨語言資訊: 很自然地我們可以猜想不同語言的發音模式,應該具有 共同的發音方式。舉例來說,許多的子音和母音是跨語言共享的,並且被定義 在全世界通用的音素集合 (universal phone set):國際音標 (international phonetic alphabet, IPA) 中,運用人類語言之間的共享特性來建立統計模型更優於僅使用 單一語言建立的模型,特別是在資源稀少的語言效果更加明顯,這項優勢已經

50

被許多研究領域證明。早期跨語言及多語言的研究是透過語言的對應關係,例 如全世界通用的音素集合或成對的音素對應 (pair-wise phone mapping) [92] [93]。

隨著深度學習的普及,以深層類神經網路聲學模型為基礎的多語言研究,轉而 透過以深層類神經網路做為表示法學習的媒介。其基本思路是 DNN 模型中,

較靠近特徵的低層隱藏層,傾向於學習語言獨立 (language-independent) 的資 訊;而較高層的隱藏層學習較多語言相關 (language-dependent) 的知識。因此多 種語言的資料可以被用於訓練一個多語言的 DNN 模型,較底層的隱藏層共享 多語言的資訊,而較高層隱藏層則依語言不同,有各自的輸出層。圖 4 為表示 法學習的框架,其中與分別表示種不同的語言。透過共享的結構,特徵能夠學 習得更好,對每種語言來說,僅訓練特定語言的部分也比訓練整個網路要容易 得多。[94] 提出將多語言的資料被用來替目標語言的類神經網路模型進行初始 化。後來有許多研究學者追隨這樣的想法,改良 hybrid DNN-HMM 及 Tandem 系統。在本論文中,希望透過與不同語言的語料一起訓練,共享底層的隱藏 層,使得在辨識時能夠更具一般化能力。

4) 自動語音辨識回饋: 機器學習中,想要改進模型的預測準確率,最簡單且有效 的方式就是用同一組訓練資料訓練多個不同的模型,並且平均它們的預測結 果,但是想要訓練多個模型與在預測時結合預測結果十分耗費計算成本,尤其 當多個不同模型都屬於大規模的類神經網路時,所耗費的成本更是無法想像,

因此,Caruna 等人 [95] 的研究顯示,把知識從這些已訓練的模型中擷取出來 是可能的。所謂的知識,可以表示為一種經過學習所得知的輸入與輸出的對應 關係,模型訓練常以最大化正確類別的機率做為目標,但是這種做法的缺點是 錯誤答案之間的機率大小並沒有鑑別性,以影像辨識的例子來說,雖然高級跑 車的圖片可能會被預測成不同的物體,但是理論上高級跑車被誤認為垃圾車的 機率應該比被誤認為胡蘿蔔的機率高才對,如果模型的輸出機率告訴我們這

些資訊,那麼訓練時若能加入這些資訊,應能提升辨識的效果。本論文嘗試 將 [96] [97] 等人的方法,從已訓練的類神經網路模型中蒸餾出有用的知識,又 稱為 soft label,實際上 soft label 除了隱含最大化正確類別的機率外,還附加了 想要讓模型也學會不同類別之間排序的資訊。假設現有已訓練完成的模型,則 知識的蒸餾可透過加高輸出層 softmax 函數的溫度 (tempe),產生 soft label,而 訓練新的小型模型時,將 soft label 做為輔助任務來進行訓練。如式 5.4所示:

softmaxtempe(z) = e

zLi tempe

C

ÿ

j=1

e

zLj tempe

(5.4)

值得注意的是,訓練新模型時,使用 soft label 之輔助任務的輸出層在訓練過程 中也需要保留 softmax 的溫度。增加 softmax 函數的溫度,會使得輸出值較平 緩 (smooth),與傳統使用非零即一的 hard label 相比,soft label 在訓練過程中得 到的錯誤訊號較小,也較容易滿足目標函數設定的目標。如果產生 soft label 模 型與待訓練模型所使用的特徵不同,能看作是對音框對應音素或音框對應狀態 的一種多視角學習,不同的輸入特徵會對應到相同的某個音素標記或狀態標 記,類似對這個音素或狀態以 fMLLR 及 FBANK 兩種視角進行觀察以期能從 中獲取知識。

52

相關文件