半監督式訓練 - 探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究

在現實生活中，低資源任務、大量的未轉寫語料、測試與訓練語料的不匹配，皆為無法訓練好聲學模型的原因之一。幸運的是，相對於高成本的具轉寫語料，未轉寫語料相對容易取得。因此，當我們沒辦法取得充足的訓練語料時，就必須更有效地利用大量未轉寫語料訓練模型。換句話說，萃取出存在於未轉寫語料的資訊，並適當地加入半監督式聲學模型的訓練就更顯重要。

半監督式學習可分為半監督式歸納學習(Inductive semi-supervied training)與半監督式轉導學習(Transductive semi-supervied training)，前者希望藉由未標記資料來強化既有的分類模型；而後者目的為給予未標記資料適當的標記，用以增加訓練資料中已標記的資料量。主流方法可分成四大類型(如圖 4.1 所示)，生成式半監督模型化 (Generative semi-supervised modeling) 、基於圖的模型化 (Graph-based modeling)、協同訓練(Co-training)以及自我訓練(Self-training)；其中基於圖的模型化屬於半監督式轉導學習，其它則為半監督式歸納學習。

一、生成式半監督模型化(Generative semi-supervised modeling)

在生成式半監督模型化[104][105]的假設中，模型預測𝑝(𝐱, 𝑦) = 𝑝(𝐱|𝑦)𝑝(𝑦)，其中𝑝(𝐱|𝑦)是可辨識資料的混合分佈。將大量未標記資料用𝑝(𝑥|𝑦)預測並分組，分組完後，每個組別僅需一個標記資料，便可確定該混合分佈。

圖 4.1：半監督式訓練的分類。

二、基於圖的模型化(Graph-based modeling)

近年來，基於圖的模型化的研究領域[105]也逐漸活躍起來。基於圖首先會從訓練樣本中構建一個圖，在該圖的頂點是標記或未標記的訓練樣本，並且在兩個頂點間利用無向邊表示兩個樣本的相似性。當新的資料進來，則是利用該圖已建構好的算法來分類。

三、協同訓練(Co-training)

在協同訓練中[106]，在標記資料上需要兩組不同的特徵，分別輸入於兩個不同的模型，並用於預測未標記資料，最有信心的預測結果會被其他模型為標記的訓練資料，迭代且重新訓練該模型。

四、自我訓練(Self-training)

自我訓練的主要包含兩階段的訓練，首先利用標記資料訓練種子模型，接著使用該模型來預測未標記資料的標籤。選擇最自信的預測結果，並將其添加到訓練集中。第二階段在新訓練集上重新訓練模型。自我訓練的特點是模型使用自己的預測結果來教導自己。

主動學習(Active learning)和半監督式訓練

主動學習為一種機器學習理論[107]，進一步適用於特定形式的語音辨識，例如使用信心水平對不確定性採樣，並基於此之上選擇需標記的資料。

半監督式訓練著重於如何解碼未標記資料，以及利用相關的解碼錯誤的資訊改進模型效能。另一方面，主動學習則著重於從解碼結果中選擇資料，使得所選資料與當前聲學模型的交互信息(Mututal information)最大化，我們的方法牽涉了上述兩個觀念。

半監督式訓練於聲學模型

在半監督式聲學模型的研究中，最常見的訓練方法是自我訓練 (Self-training)[18][19][20]。自我訓練的架構主要分成兩階段，首先利用標記語料訓練出一個不太完美的種子模型，第二階段則是利用種子模型辨識未轉寫語料，

接著將標記語料與未轉寫語料混合並重新訓練模型。為了確保辨識語句的「品質」，過往在聲學模型的研究中，會再加入信心過濾器 (Confidence-based filter)[21][22][23]挑選訓練語料。過濾語料可在不同層級進行，分為音框層級 [40]、詞層級[41]、句子層級[19][41][42]。在[23][43]中將音框層級的信心過濾器加入鑑別式訓練；而[108]在鑑別式訓練中加入語句層級的信心過濾器以及後處理最佳路徑(One-best)；[35]在半監督式 LF-MMI 的訓練中使用詞圖做為監督訊息。

在文檔中探討聲學模型化技術與半監督鑑別式訓練於語音辨識之研究 (頁 59-62)