第一章 緒論
1.3 語言模型研究
語言模型是描述自然語言規律的一種數學模型。語言模型被廣泛地應用於語 音辨識、手寫辨識、機器翻譯、資訊檢索等領域。在語音辨識的領域中,最主要 是由聲學模型與語言模型兩大部分所組成,而語言模型最主要是為了補足聲學模 型經常會有同音異字或是發音混淆之情況,因此可以透過語言模型的輔助,藉由 語言特性彌補聲學模型的不足。
圖 1.2 語言模型研究分類示意圖
語言模型之研究大致又可以分為:語料前處理技術(Corpus)、各種不同的語 言 模 型 (Modeling) 、 語 言 模 型 調 適 (Adaptation) 、 以 及 語 言 模 型 的 訓 練 研 究
(Training)。
語料的前處理包括文件收集(Data Collection)與斷詞處理(Word Segmentation)。
近年來由於資通科技發達,我們正處於一個大數據的時代,資料的收集變得輕而
6
易舉,因此我們可以透過網路獲得大量的文件資料進行語言模型的訓練[5],事 實上谷歌(Google)或是微軟(Microsoft)也釋出大量的 N 連詞的統計資訊。Ciprian
Chelba [6] 於 2012 年在 Google 的研究報告指出,在巨量資料下簡單的 N 連語言 模型有較佳的表現。此研究的發現使得後續研究漸朝向巨量資料與高速計算的方 向發展。
從收集到的文件進行斷詞處理,意旨將一篇文章中的一長串文字分割成多個 個別的"詞",並根據斷詞過後的結果擷取所需的資訊。一般採用最簡易的方法是 使用長詞優先演算法。而國內也有許多斷詞系統融入自然語言技術,例如中央研 究 院 所 中 文 詞 知 識 庫 小 組 所 開 發 的 CKIP (Chinese Knowledge Information
Processing)線上斷詞系統[7],利用自然語言技術使得文件中的詞彙判斷更為準 確。
在語音辨識的過程中,可能會因為不同的語者、每個人的說話習慣、或是隨 著時間演變產生不同的流行用語以及新生成的詞彙,導致辨識結果有很大的差異 性。解決之道為蒐集與測試語料高度相關的少量語料作為調適語料(Adaptation
Corpus),進而對背景語料進行調適,最後再透過詞頻混合法(Count Merging)與模 型插補法(Model Interpolation)[8] 以克服此差異性,此種方式即為語言模型調適
(Language Model Adaptation)[9], [10]。
然而近年來大部分的語言模型調適都應用於非監督式調適(Unsupervised Adaptation),其做法為先透過語音辨識技術取得初次文字辨識結果或是前 N 條最
7
佳辨識結果(N-Best List),再對背景語言模型進行調適或是使用不同的語言模型 技術將前 N 條最佳辨識結果重新排序進而獲得較佳的辨識結果。例如使用於會 議 的 即 時 語 音 轉 寫 (Meeting Transcription)[11] 、 課 程 即 時 轉 寫 (Lecture
Transcription) [12]、以及廣播新聞即時轉寫(Broadcast News Transcription)[13]等。
語言模型的建立最主要的資訊來源可以分為兩種方式,分別為詞規律資訊 (Word-Regularity-based Information) 以 及 歷 史 詞 序 列 相 關 資 訊 (History- Dependency-based Information) 。詞規律資訊指詞彙與詞彙間通常會按照某個固 定的規律或是有共同出現的關係,而歷史詞序列相關資訊則是探討歷史詞序列 (History Sequence)以及預測詞(Upcoming Word)之間的關係。例如主題模型(Topic Model)不直接預測長距離的詞彙規律資訊而是使用詞袋假設(Bag-of-Word)[14],
使得預測詞與歷史詞序列間擁有相同的主題資訊,透過此關係達到預測的效果。
語 言 模 型 訓 練 在 傳 統 語 言 模 型 通 常 以 最 大 化 相 似 度 估 測 (Maximum
Likelihood Estimation, MLE)為訓練準則,希望最大化其生成訓練語料的相似度。
另外一種訓練方式為鑑別式語言模型(Discriminative Language Models) [15],以各 種語言特徵為基礎,透過減損函數的定義找出每個模型特徵相對應的模型參數。
8