• 沒有找到結果。

統計式語言模型(Statistical Language Modeling)

統計式語言模型的研究大致上可以分為四個面向,包括有:語料的前處理技術 (Corpus Preprocessing)、語言模型的建模(Modeling)、語言模型調適(Adaptation)和 語言模型訓練的目標函數(Training Criteria)。

圖 2-1 語言模型研究的四個面向

在語料前處理技術(Corpus preprocessing)中,主要有兩個議題被探討著,文件 資料的收集(Data collection)、以及斷詞(Word segmentation)處理。文件資料的收集 是指如何有效地收集文件語料、用人造的方式創造一些訓練文件等,而斷詞研究 則是指如何將詞彙和詞彙分開,以便後續研究能從詞級(Word Level)的面向切入,

這在中文或日文等語言尤其重要,國內有許多斷詞系統,他們結合各種自然語言 處理的技術(例如詞性規則(Part Of Speech, POS) [Chen and Ma 2002; Tsai and Chen 2004],讓文件中的詞可以判斷得更準確,除此之外,也有研究學者提出如何使用 未經斷詞的原始語料(Raw Data)訓練語言模型[Mori and Takuma 2004]。

在語音辨識中,通常都會事前收集一組大量的文字語料(Text Corpus),即所 謂背景語料(Background Corpus),用以訓練一個具廣泛預測能力的背景語言模型 (Background Language Model)。但是由於人類的語言、每個人的用字遣詞或是隨著 時空轉變所新生成或常用的詞彙皆具有很大的相異性,因此我們會收集一份與目 標(測試)語料(Testing Corpus)高度相關的少量語料,即所謂調適語料(Adaptation Corpus),將調適語料中擷取的資訊對背景語料資訊進行調適,組成一個更符合辨 識環境的 語言模 型。 模型插補 法 (Model Interpolation)與 詞頻 數混 合法 (Count Merging)是常見的語言模型調適法[Bacchiani and Roark 2003; 蔡文鴻 2005]。近年 來,語言模型調適著重於非監督式調適(Unsupervised Adaptation),例如運用於會 議即時語音轉寫(Meeting Transcription)[Tur and Stolcke 2007]、廣播新聞即時轉寫 (Broadcast News Transcription)[Chen et al. 2003] 或 是 課 程 即 時 轉 寫 (Lecture Transcription)[Novak and Mammone 2001]等。這類型的調適法主要是先透過語音 辨識技術對少量的語音語料進行辨識,得到相對應的最佳辨識文字結果或是 N 條 最佳辨識結果(N-Best List),再從中擷取資訊調適背景語言模型或是使用各種方式 運用於語音辨識上。

語言模型訓練的研究則是在探討使用各種訓練準則(Training criterion)於語言 模型。最大化相似度估測(Maximum Likelihood Estimation, MLE)是傳統語言模型 主要的訓練準則,其訓練目標是期望語言模型生成訓練語料的相似度越高越好;

近年來,使用鑑別式訓練的語言模型興起,這類語言模型多是以各種語言特徵 (Features)為基礎,透過定義各式各樣的減損函數,採用各種鑑別式訓練找出每一 個特徵相對應的模型參數, 這類型的語言模型稱之為鑑別式語言模型。

語言模型的建模是指用不同的思路去理解文字,有些研究以單詞的詞頻 (Term frequency)當作建模依據,有的則考慮詞與詞之間的相互關係,最近的類神 經網路的崛起也對語言模型的建模帶來新的思路,以下介紹兩種經典的語言模型 建模。

2.1.1 N 連詞語言模型(N-gram Language Model)

N 連(N-gram)語言模型是最為人所知且廣泛地運用於各種自然語言處理領域。N

連語言模型可以追溯至 Claude Elwood Shannon 在資訊理論中所提出的研究成果,

他以英文為研究對象,觀察在給定一串字母序列後,預測下一個最可能出現的字 母會是什麼,並且藉由馬可夫假設,探討每一個字母出現的可能性僅與前 N-1 個 字母有關,這就是至今最為人所熟知的 N 連語言模型。N 連語言模型嘗試紀錄詞 與詞之間共同出現的關係,估測每一個詞在其先前緊鄰 N-1 個詞已知的情況下出 現的條件機率,並以多項式(Multinomial)分布表示之,故下式可簡化為[Jelinek 1991]:

𝑃(𝑊) = 𝑃(𝑤1) ∏ 𝑃(𝑤𝑖|𝑤𝑖−𝑛+1, … , 𝑤𝑖−1)

𝑚

𝑖=2

(2-1)

由於詞與詞序列有相當多種排列組合,致使 N 連語言模型的參數量相當可觀。

N 連語言模型常會因為訓練語料的不足而限制其 N 值的大小(通常 N 設為 2 或 3),以致於它僅能用以計算短距離詞彙的接連機率,而缺乏擷取出語句中所隱 含的語意資訊之能力。

2.1.2 機率式潛在語意分析(Probabilistic latent semantic analysis)

圖 2-2 PLSA 示意圖

機率式潛藏語意分析(Probabilistic Latent Semantic Analysis)[Hofmann 1999;Glidea and Hofmann 1999]是由潛藏語意分析延伸發展而來;不同於潛藏語意分析以線性 代數的方法尋找語料集中隱含的主要語意結構成分,機率式潛藏語意分析使用機 率模型的方式,找出詞與文件之間的主題資訊。機率式潛藏語意分析可視為是一 種觀點模型(Aspect Model),透過一組隱藏變數的機率分布,達到共同預測同一事 件發生的可能性,而此組隱藏變數,就可以視為是一組潛藏主題,如下圖,藉由 一組共享的隱藏主題𝑍 = {𝑧1, 𝑧2, … , 𝑧𝑘},來描述一個詞w出現於文件𝑑𝑚中的機率,

𝑃(𝑧𝑘|𝑑𝑚)表示文件 d 與詞 w 的關係根據潛藏的主題機率分佈,而𝑃(𝑤|𝑧𝑘)為詞𝑤 出現在潛藏主題𝑧𝑘的機率:

P(𝑤|𝑑𝑚) = ∑ 𝑃(𝑤|𝑧𝑘)𝑃(𝑧𝑘|𝑑𝑚)

𝐾

𝑘=1

(2-2)

機率式隱藏語意分析的參數分別為每一個詞𝑤在每一潛藏主題𝑧𝑘下的機率值 以及每一篇文件的主題機率分佈,這些參數可以經由最大化訓練語料中每一文件 的對數相似度,已期望值最大化法(Expectation-Maximization, EM)求得:

L = ∑ ∑ 𝑐(𝑤𝑗, 𝑑𝑚)log⁡(∑ 𝑃(𝑤𝑗|𝑧𝑘)𝑃(𝑧𝑘|𝑑𝑚)

相關文件