• 沒有找到結果。

在現實生活中,低資源任務、大量的未轉寫語料、測試與訓練語料的不匹配,皆 為無法訓練好聲學模型的原因之一。幸運的是,相對於高成本的具轉寫語料,未 轉寫語料相對容易取得。因此,當我們沒辦法取得充足的訓練語料時,就必須更 有效地利用大量未轉寫語料訓練模型。換句話說,萃取出存在於未轉寫語料的資 訊,並適當地加入半監督式聲學模型的訓練就更顯重要。

52

半監督式學習可分為半監督式歸納學習(Inductive semi-supervied training)與 半監督式轉導學習(Transductive semi-supervied training),前者希望藉由未標記資 料來強化既有的分類模型;而後者目的為給予未標記資料適當的標記,用以增加 訓練資料中已標記的資料量。主流方法可分成四大類型(如圖 4.1 所示),生成式 半 監 督 模 型 化 (Generative semi-supervised modeling) 、 基 於 圖 的 模 型 化 (Graph-based modeling)、協同訓練(Co-training)以及自我訓練(Self-training);其中 基於圖的模型化屬於半監督式轉導學習,其它則為半監督式歸納學習。

一、生成式半監督模型化(Generative semi-supervised modeling)

在生成式半監督模型化[104][105]的假設中,模型預測𝑝(𝐱, 𝑦) = 𝑝(𝐱|𝑦)𝑝(𝑦),其 中𝑝(𝐱|𝑦)是可辨識資料的混合分佈。將大量未標記資料用𝑝(𝑥|𝑦)預測並分組,分 組完後,每個組別僅需一個標記資料,便可確定該混合分佈。

圖 4.1:半監督式訓練的分類。

53

二、基於圖的模型化(Graph-based modeling)

近年來,基於圖的模型化的研究領域[105]也逐漸活躍起來。基於圖首先會從訓 練樣本中構建一個圖,在該圖的頂點是標記或未標記的訓練樣本,並且在兩個頂 點間利用無向邊表示兩個樣本的相似性。當新的資料進來,則是利用該圖已建構 好的算法來分類。

三、協同訓練(Co-training)

在協同訓練中[106],在標記資料上需要兩組不同的特徵,分別輸入於兩個不同 的模型,並用於預測未標記資料,最有信心的預測結果會被其他模型為標記的訓 練資料,迭代且重新訓練該模型。

四、自我訓練(Self-training)

自我訓練的主要包含兩階段的訓練,首先利用標記資料訓練種子模型,接著使用 該模型來預測未標記資料的標籤。選擇最自信的預測結果,並將其添加到訓練集 中。第二階段在新訓練集上重新訓練模型。自我訓練的特點是模型使用自己的預 測結果來教導自己。

主動學習(Active learning)和半監督式訓練

主動學習為一種機器學習理論[107],進一步適用於特定形式的語音辨識,例如 使用信心水平對不確定性採樣,並基於此之上選擇需標記的資料。

半監督式訓練著重於如何解碼未標記資料,以及利用相關的解碼錯誤的資訊 改進模型效能。另一方面,主動學習則著重於從解碼結果中選擇資料,使得所選 資料與當前聲學模型的交互信息(Mututal information)最大化,我們的方法牽涉了 上述兩個觀念。

54

半監督式訓練於聲學模型

在 半 監 督 式 聲 學 模 型 的 研 究 中 , 最 常 見 的 訓 練 方 法 是 自 我 訓 練 (Self-training)[18][19][20]。自我訓練的架構主要分成兩階段,首先利用標記語料 訓練出一個不太完美的種子模型,第二階段則是利用種子模型辨識未轉寫語料,

接著將標記語料與未轉寫語料混合並重新訓練模型。為了確保辨識語句的「品 質 」 , 過 往 在 聲 學 模 型 的 研 究 中 , 會 再 加 入 信 心 過 濾 器 (Confidence-based filter)[21][22][23]挑選訓練語料。過濾語料可在不同層級進行,分為音框層級 [40]、詞層級[41]、句子層級[19][41][42]。在[23][43]中將音框層級的信心過濾器 加入鑑別式訓練;而[108]在鑑別式訓練中加入語句層級的信心過濾器以及後處 理最佳路徑(One-best);[35]在半監督式 LF-MMI 的訓練中使用詞圖做為監督訊 息。

相關文件