語言模型研究

第一章緒論

1.3 語言模型研究

語言模型是描述自然語言規律的一種數學模型。語言模型被廣泛地應用於語音辨識、手寫辨識、機器翻譯、資訊檢索等領域。在語音辨識的領域中，最主要是由聲學模型與語言模型兩大部分所組成，而語言模型最主要是為了補足聲學模型經常會有同音異字或是發音混淆之情況，因此可以透過語言模型的輔助，藉由語言特性彌補聲學模型的不足。

圖 1.2 語言模型研究分類示意圖

語言模型之研究大致又可以分為：語料前處理技術(Corpus)、各種不同的語言模型 (Modeling) 、語言模型調適 (Adaptation) 、以及語言模型的訓練研究

(Training)。

語料的前處理包括文件收集(Data Collection)與斷詞處理(Word Segmentation)。

近年來由於資通科技發達，我們正處於一個大數據的時代，資料的收集變得輕而

易舉，因此我們可以透過網路獲得大量的文件資料進行語言模型的訓練[5]，事 實上谷歌(Google)或是微軟(Microsoft)也釋出大量的 N 連詞的統計資訊。Ciprian

Chelba [6] 於 2012 年在 Google 的研究報告指出，在巨量資料下簡單的 N 連語言 模型有較佳的表現。此研究的發現使得後續研究漸朝向巨量資料與高速計算的方向發展。

從收集到的文件進行斷詞處理，意旨將一篇文章中的一長串文字分割成多個個別的"詞"，並根據斷詞過後的結果擷取所需的資訊。一般採用最簡易的方法是使用長詞優先演算法。而國內也有許多斷詞系統融入自然語言技術，例如中央研究院所中文詞知識庫小組所開發的 CKIP (Chinese Knowledge Information

Processing)線上斷詞系統[7]，利用自然語言技術使得文件中的詞彙判斷更為準確。

在語音辨識的過程中，可能會因為不同的語者、每個人的說話習慣、或是隨著時間演變產生不同的流行用語以及新生成的詞彙，導致辨識結果有很大的差異性。解決之道為蒐集與測試語料高度相關的少量語料作為調適語料(Adaptation

Corpus)，進而對背景語料進行調適，最後再透過詞頻混合法(Count Merging)與模型插補法(Model Interpolation)[8] 以克服此差異性，此種方式即為語言模型調適

(Language Model Adaptation)[9], [10]。

然而近年來大部分的語言模型調適都應用於非監督式調適(Unsupervised Adaptation)，其做法為先透過語音辨識技術取得初次文字辨識結果或是前 N 條最

佳辨識結果(N-Best List)，再對背景語言模型進行調適或是使用不同的語言模型 技術將前 N 條最佳辨識結果重新排序進而獲得較佳的辨識結果。例如使用於會 議的即時語音轉寫 (Meeting Transcription)[11] 、課程即時轉寫 (Lecture

Transcription) [12]、以及廣播新聞即時轉寫(Broadcast News Transcription)[13]等。

語言模型的建立最主要的資訊來源可以分為兩種方式，分別為詞規律資訊 (Word-Regularity-based Information) 以及歷史詞序列相關資訊 (History- Dependency-based Information) 。詞規律資訊指詞彙與詞彙間通常會按照某個固定的規律或是有共同出現的關係，而歷史詞序列相關資訊則是探討歷史詞序列 (History Sequence)以及預測詞(Upcoming Word)之間的關係。例如主題模型(Topic Model)不直接預測長距離的詞彙規律資訊而是使用詞袋假設(Bag-of-Word)[14]，

使得預測詞與歷史詞序列間擁有相同的主題資訊，透過此關係達到預測的效果。

語言模型訓練在傳統語言模型通常以最大化相似度估測 (Maximum

Likelihood Estimation, MLE)為訓練準則，希望最大化其生成訓練語料的相似度。

另外一種訓練方式為鑑別式語言模型(Discriminative Language Models) [15]，以各種語言特徵為基礎，透過減損函數的定義找出每個模型特徵相對應的模型參數。

在文檔中使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適 (頁 17-20)

第一章 緒論

1.3 語言模型研究

第一章緒論