• 沒有找到結果。

第二章 文獻回顧以及方法探討

2.4 主題模型

有許多模型的提出都是為了解決 N 連語言模型缺乏長距離的詞彙訊息以及 面臨資料稀疏的問題,其中潛藏主題(Latent Topic)模型也是為了解決此問題而被 提出。潛藏主題模型使用非監督的方式訓練(Unsupervised Training),找出隱含在 文件與詞彙間的主題資訊,並將每一個詞彙與每一篇文件賦予不同的主題機率,

透過此主題機率的分佈訊息,藉以描述詞與詞之間、詞與文件或文件與文件間的 關係。此類利用潛藏主題關係的模型包含潛藏語意分析(Latent Semantic Analysis, LSA)[48] [49] 、 機 率 式 潛 藏 語 義 分 析 (Probabilistic Latent Semantic Analysis, PLSA)[30]、潛藏狄利克里分配(Latent Dirichlet Allocation, LDA)[51]、以及詞主題 模型(Word Topic Model, WTM)[35]。

19

2.4.1

潛藏語意分析

圖 2.3 潛藏語意分析示意圖

潛藏語意分析(Latent Semantic Analysis, LSA)是將文件與詞彙以矩陣的形式 表示,假設文件集中文件與詞的組合代表其潛在的主題資訊,並藉由奇異值分解 (Singular Value Decomposition, SVD)將高維度的文件投影至低維度空間, 如圖

2.3 所示。

A ≈ UΣV

𝑇 (2-3)

假設A 為一個高維的文件-詞彙矩陣,U為|𝑉| × K 矩陣,其中的每一列為一 個 𝐾 維的詞向量 𝑢⃗ ,Σ為 𝐾 × 𝐾的對角矩陣,可將Σ視為一個潛藏的語意空間,V𝑇中 的每一行為𝐾維文件向量 v ⃗⃗ 。投影至潛藏主題空間後,藉由計算低維度潛藏語意

空間的向量距離或是計算其夾角可得到文件與詞之間的語意相似度。此做法不僅 可以降低在計算文件與詞向量的複雜度,也能去除在文件與詞之間的組合時包含 的部分雜訊資訊。

20

2.4.2

機率式潛藏語意分析

圖 2.4 機率式潛藏語意分析之圖形表示法

機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)[30],由潛 藏語意分析延伸而得,將每一篇文章建立一個生成模型,透過一組隱藏變數找出 詞 與 文 件 間 潛 藏 的 主 題 資 訊 , 如 圖 2.4 所 示 。 藉 由 一 組 共 享 的 潛 藏 主 題 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑘},來描述一個詞 𝑤 發生於文件 𝑑𝑚 中的機率,𝑃(𝑡𝑘|𝑑𝑚)表示文 件 𝑑 與詞 𝑤 的關係根據潛藏的主題機率分佈,而 𝑃(𝑡𝑘|𝑑𝑚) 為詞 𝑤 出現在潛藏 主題 𝑡𝑘 的機率,如式(2-4)所示:

𝑃(𝑤|𝑑𝑚) = ∑ 𝑃(𝑤|𝑡𝑘)

𝐾

𝑘=1

𝑃(𝑡𝑘|𝑑𝑚) (2-4)

機率式潛藏語意分析的參數分別為每一個詞 𝑤 在每一潛藏主題 𝑡𝑘 下的機率

值以及每一篇文件的主題機率分佈,這些參數可以經由最大化訓練語料中每一文 件的對數相似度,以期望值最大化法(Expectation-Maximization, EM)[50]求得,其 公式如式(2-5)所示:

21

L = ∑ ∑ 𝑐(𝑤𝑗, 𝑑𝑚)

𝑗

log [

𝑚

∑ 𝑃(𝑤𝑗|𝑡𝑘)

𝐾

𝑘=1

𝑃(𝑡𝑘|𝑑𝑚)] (2-5)

其中 𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑘}為一組潛藏主題,𝑃(𝑤𝑗|𝑡𝑘)與𝑃(𝑡𝑘|𝑑𝑚)參數使用期望 值最大化法求得, c(𝑤𝑗, 𝑑𝑚)表示𝑤𝑗出現在文件𝑑𝑚中的次數。

2.4.3

潛藏狄利克里分配

圖 2.5 潛藏狄利克里分配之圖形表示法

潛藏狄利克里分配模型(Latent Dirichlet Allocation, LDA)[51]可以將文件集 中的每篇文件的潛藏主題以機率分佈的方式來表示。此模型的優點在於對於一篇 未見過的文件皆可找出其中潛藏主題機率的分佈,在訓練時不須人工標註,為一 種非監督式學習。潛藏狄利克里分配模型假設在一篇文件中詞與詞之間不考慮先 後順序關係,為典型的詞袋模型。一篇文件可以包含多個潛藏主題,並且文章中 的每個詞都由其中的主題所生成。

在潛藏狄利克里分配下,文件 𝑑𝑚 的生成機率為:

22

𝑃(𝑑𝑚|α, β) = ∫ 𝐷𝑖𝑟(𝜃𝑑𝑚|𝛼) ∏(∑ 𝑃(𝑤𝑖|𝑇𝑘, 𝛽)

𝐾

𝑘=1

𝑃(𝑇𝑘|𝜃𝑑𝑚))𝑑𝜃𝑑𝑚

|𝑑𝑚|

𝑖=1

(2-6)

α為狄利克里分配參數,β為𝑉 × 𝐾矩陣,𝑃(𝑤𝑖|𝑇𝑘)表示在潛藏主題 𝑇𝑘下詞 𝑤𝑖

出現的機率。而潛藏狄利克里分配的參數估算,以變動性貝氏期望值最大化演算 法(Variational Bayesian Expectation Maximization, VBEM)。相較於機率式潛藏語 意分析,潛藏狄利克里分配能改善對於未出現過文件的預測能力以及在訓練語料 增加時參數會呈現性成長的缺點。潛藏狄利克里分配能也被廣泛應用於其他領域 之中,例如圖樣辨識(Pattern Recognition)、資訊檢索(Information Retrieval)、影像 處理(Image Processing)等等。

23

2.4.4

詞主題模型

圖 2.6 詞主題模型之圖形表示法

詞主題模型[52]最主要是透過一組潛藏主題機率分佈,並考慮詞彙間的相鄰 資訊,以獲得文件或是歷史詞序列的長距離語意訊息。此模型主要做法是從訓練 語料中收集每個詞 𝑤𝑗 的鄰近文字段落範圍內其他詞出現的資訊,將每一個詞 𝑤𝑗 訓練一個主題模型 𝑀𝑤𝑗 ,並建立詞虛擬文件(Word Pseudo-document),亦即將詞 𝑤𝑗 的鄰近文字聚集成詞主題模型對應的訓練文件 𝑑̃ 。接著透過一組潛藏主題機𝑗 率,估算詞 𝑤𝑗 的詞虛擬文件與其他詞共同出現關係,如式(2-7)所示:

𝑃 WTM(𝑤𝑖 |𝑀𝑤𝑗 ) = ∑ 𝑃(𝑤𝑖 |𝑇𝑘)

𝐾

𝑘=1

𝑃(𝑇𝑘|𝑀𝑤𝑗 ) (2-7)

其中 K 為潛藏主題個數,𝑃(𝑤𝑖 |𝑇𝑘)表示已知潛藏主題 𝑇𝑘 下詞 𝑤𝑗 出現的機率;

𝑃(𝑇𝑘|𝑀𝑤𝑗)為 𝑤𝑗 詞主題模型產生主題 𝑇𝑘 的機率。詞主題模型應用於語音辨識時,

在給定歷史詞序列 H 以及候選詞𝑤𝑖 後,預測𝑤𝑖 出現的機率。在計算歷史詞序列 產生潛藏的主題機率𝑃(𝑇𝑘|𝐻)時,可由歷史詞序列中每一個詞𝑤𝑗 的主題模型產生

24

主題 𝑇𝑘 的機率 𝑃 (𝑇𝑘|𝑀𝑤𝑗)線性結合組成,而加快了語音辨識搜尋時的速度。

相關文件