主題模型

第二章文獻回顧以及方法探討

2.4 主題模型

有許多模型的提出都是為了解決 N 連語言模型缺乏長距離的詞彙訊息以及 面臨資料稀疏的問題，其中潛藏主題(Latent Topic)模型也是為了解決此問題而被提出。潛藏主題模型使用非監督的方式訓練(Unsupervised Training)，找出隱含在文件與詞彙間的主題資訊，並將每一個詞彙與每一篇文件賦予不同的主題機率，

透過此主題機率的分佈訊息，藉以描述詞與詞之間、詞與文件或文件與文件間的關係。此類利用潛藏主題關係的模型包含潛藏語意分析(Latent Semantic Analysis, LSA)[48] [49] 、機率式潛藏語義分析 (Probabilistic Latent Semantic Analysis, PLSA)[30]、潛藏狄利克里分配(Latent Dirichlet Allocation, LDA)[51]、以及詞主題模型(Word Topic Model, WTM)[35]。

2.4.1

潛藏語意分析

圖 2.3 潛藏語意分析示意圖

潛藏語意分析(Latent Semantic Analysis, LSA)是將文件與詞彙以矩陣的形式表示，假設文件集中文件與詞的組合代表其潛在的主題資訊，並藉由奇異值分解 (Singular Value Decomposition, SVD)將高維度的文件投影至低維度空間，如圖

2.3 所示。

A ≈ UΣV

^𝑇 ^(2-3)

假設A 為一個高維的文件-詞彙矩陣，U為|𝑉| × K 矩陣，其中的每一列為一個 𝐾 維的詞向量 𝑢⃗ ，Σ為 𝐾 × 𝐾的對角矩陣，可將Σ視為一個潛藏的語意空間，V^𝑇中的每一行為𝐾維文件向量 v ⃗⃗ 。投影至潛藏主題空間後，藉由計算低維度潛藏語意

空間的向量距離或是計算其夾角可得到文件與詞之間的語意相似度。此做法不僅可以降低在計算文件與詞向量的複雜度，也能去除在文件與詞之間的組合時包含的部分雜訊資訊。

2.4.2

機率式潛藏語意分析

圖 2.4 機率式潛藏語意分析之圖形表示法

機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)[30]，由潛藏語意分析延伸而得，將每一篇文章建立一個生成模型，透過一組隱藏變數找出詞與文件間潛藏的主題資訊，如圖 2.4 所示。藉由一組共享的潛藏主題 𝑇 = {𝑡₁, 𝑡₂, … , 𝑡_𝑘}，來描述一個詞 𝑤 發生於文件 𝑑_𝑚 中的機率，𝑃(𝑡_𝑘|𝑑_𝑚)表示文件 𝑑 與詞 𝑤 的關係根據潛藏的主題機率分佈，而 𝑃(𝑡_𝑘|𝑑_𝑚) 為詞 𝑤 出現在潛藏主題 𝑡_𝑘的機率，如式(2-4)所示:

𝑃(𝑤|𝑑_𝑚) = ∑ 𝑃(𝑤|𝑡_𝑘)

𝐾

𝑘=1

𝑃(𝑡_𝑘|𝑑_𝑚) (2-4)

機率式潛藏語意分析的參數分別為每一個詞 𝑤 在每一潛藏主題 𝑡_𝑘 下的機率

值以及每一篇文件的主題機率分佈，這些參數可以經由最大化訓練語料中每一文件的對數相似度，以期望值最大化法(Expectation-Maximization, EM)[50]求得，其公式如式(2-5)所示:

L = ∑ ∑ 𝑐(𝑤_𝑗, 𝑑_𝑚)

𝑗

log [

𝑚

∑ 𝑃(𝑤_𝑗|𝑡_𝑘)

𝐾

𝑘=1

𝑃(𝑡_𝑘|𝑑_𝑚)] (2-5)

其中 𝑇 = {𝑡₁, 𝑡₂, … , 𝑡_𝑘}為一組潛藏主題，𝑃(𝑤_𝑗|𝑡_𝑘)與𝑃(𝑡_𝑘|𝑑_𝑚)參數使用期望值最大化法求得， c(𝑤_𝑗, 𝑑_𝑚)表示𝑤_𝑗出現在文件𝑑_𝑚中的次數。

2.4.3

潛藏狄利克里分配

圖 2.5 潛藏狄利克里分配之圖形表示法

潛藏狄利克里分配模型(Latent Dirichlet Allocation, LDA)[51]可以將文件集中的每篇文件的潛藏主題以機率分佈的方式來表示。此模型的優點在於對於一篇未見過的文件皆可找出其中潛藏主題機率的分佈，在訓練時不須人工標註，為一種非監督式學習。潛藏狄利克里分配模型假設在一篇文件中詞與詞之間不考慮先後順序關係，為典型的詞袋模型。一篇文件可以包含多個潛藏主題，並且文章中的每個詞都由其中的主題所生成。

在潛藏狄利克里分配下，文件 𝑑_𝑚的生成機率為:

𝑃(𝑑_𝑚|α, β) = ∫ 𝐷𝑖𝑟(𝜃_𝑑_𝑚|𝛼) ∏(∑ 𝑃(𝑤_𝑖|𝑇_𝑘, 𝛽)

𝐾

𝑘=1

𝑃(𝑇_𝑘|𝜃_𝑑_𝑚))𝑑𝜃_𝑑_𝑚

|𝑑𝑚|

𝑖=1

(2-6)

α為狄利克里分配參數，β為𝑉 × 𝐾矩陣，𝑃(𝑤_𝑖|𝑇_𝑘)表示在潛藏主題 𝑇_𝑘下詞 𝑤_𝑖

出現的機率。而潛藏狄利克里分配的參數估算，以變動性貝氏期望值最大化演算法(Variational Bayesian Expectation Maximization, VBEM)。相較於機率式潛藏語意分析，潛藏狄利克里分配能改善對於未出現過文件的預測能力以及在訓練語料增加時參數會呈現性成長的缺點。潛藏狄利克里分配能也被廣泛應用於其他領域之中，例如圖樣辨識(Pattern Recognition)、資訊檢索(Information Retrieval)、影像處理(Image Processing)等等。

2.4.4

詞主題模型

圖 2.6 詞主題模型之圖形表示法

詞主題模型[52]最主要是透過一組潛藏主題機率分佈，並考慮詞彙間的相鄰資訊，以獲得文件或是歷史詞序列的長距離語意訊息。此模型主要做法是從訓練語料中收集每個詞 𝑤_𝑗的鄰近文字段落範圍內其他詞出現的資訊，將每一個詞 𝑤_𝑗 訓練一個主題模型 𝑀_𝑤_𝑗，並建立詞虛擬文件(Word Pseudo-document)，亦即將詞 𝑤_𝑗的鄰近文字聚集成詞主題模型對應的訓練文件 𝑑̃ 。接著透過一組潛藏主題機_𝑗 率，估算詞 𝑤_𝑗的詞虛擬文件與其他詞共同出現關係，如式(2-7)所示:

𝑃_WTM(𝑤_𝑖|𝑀_𝑤_𝑗) = ∑ 𝑃(𝑤_𝑖|𝑇_𝑘)

𝐾

𝑘=1

𝑃(𝑇_𝑘|𝑀_𝑤_𝑗) (2-7)

其中 K 為潛藏主題個數，𝑃(𝑤_𝑖|𝑇_𝑘)表示已知潛藏主題 𝑇_𝑘 下詞 𝑤_𝑗出現的機率;

𝑃(𝑇_𝑘|𝑀_𝑤_𝑗)為 𝑤_𝑗詞主題模型產生主題 𝑇_𝑘的機率。詞主題模型應用於語音辨識時，

在給定歷史詞序列 H 以及候選詞𝑤_𝑖後，預測𝑤_𝑖出現的機率。在計算歷史詞序列產生潛藏的主題機率𝑃(𝑇_𝑘|𝐻)時，可由歷史詞序列中每一個詞𝑤_𝑗的主題模型產生

主題 𝑇_𝑘的機率 𝑃 (𝑇_𝑘|𝑀_𝑤_𝑗)線性結合組成，而加快了語音辨識搜尋時的速度。

在文檔中使用詞向量表示與概念資訊於中文大詞彙連續語音辨識之語言模型調適 (頁 30-36)

第二章 文獻回顧以及方法探討