基於 Local LDA 的 LARA 分析

第二章文獻探討

2.4 LARA 問題研究

2.4.2 基於 Local LDA 的 LARA 分析

在Wang et al. (2010) 提出用 Bootstrap 和 LRR 模型兩階段方法解決 LARA 問題之後，Ma et al.（2012）為了解決第一階段 Bootstrap 需要事先由人工決定面向種

子詞的限制，改為運用 Brody et al.（2010）所提出的 Local LDA 的方式，

將評論當中的句子（sentences）視為標準 LDA 模型（Blei & Ng & Jordan, 2003）

中的文件（document），並將抽取出的潛在主題（latent topic）和主題詞彙（vocabulary）

視為面向（aspect）的切割與代表詞的擷取，亦即將句子（sentences）分配到的主題視為屬於該面向（aspect）。

Latent Dirichlet allocation 模型介紹

LDA 模型是一個完整的生成模型（generative model）與主題模型（topic model）

架構，其修正了之前的主題模型（例如：Latent Semantic Analysis（潛藏語意分析）、

沒有辦法直接將機率分配給先前未出現(unseen)的文件；以及參數數量會隨著文件數量線性擴增等問題。

主題模型假設每一篇文件隱含了一個或多個主題，每個主題擁有特定詞彙的機率分布（probability distribution），而每篇文件是由這機率分布之下的詞彙所組成。LDA 是主題模型的一種，其假設每篇文章可能由多個主題所組成，故每篇文章擁有自己的主題機率分布，而每個主題擁有該主題下詞彙的機率分布，由這兩個機率分布決定了文件的組成內容。

用通俗的方式描述LDA 的模型則為：

（1）一位大文豪欲寫 M 篇文章，共涉及了 K 個主題，每個主題下的詞分布為從參數為的狄利克雷（Dirichlet）先驗分布中隨機抽樣出長度為 K 的多變量

（Multinomial）分佈。

（2）對於每篇文章，他會從泊松分佈中隨機抽取一文章長度的值。

（3）再從參數為的狄利克雷（Dirichlet）先驗分布中隨機抽樣出長度為 M 的多

變量（Multinomial）分佈當做該文章每個主題出現的機率分佈。

（4）當文豪想寫第 m 篇文章的第 n 個字時，首先先從該文章中每個主題出現的多變量機率分佈中抽取一個主題，再從這個主題所對應的多變量機率分佈中隨機取出想寫的詞。

（5）不斷重複隨機生成的過程，直到把 M 篇文章都寫完。

圖 2.4.2 LDA 模型示意圖（http://en.wikipedia.org/）

LDA 的模型架構如圖 2.4.2。此處假設 m 為文件的索引，n 為詞彙的索引。圖中K 為主題個數，M 為文件總數，N 為第 m 篇文件的總字數。模型假設文件的主題先驗分佈（prior probability distribution）與主題的詞彙先驗機率分佈符合狄利克雷分配（Dirichlet Allocation）。其中為產生每個文件下主題多項分佈的 Dirichlet

先驗參數，以向量表示主題先驗機率分佈，向量長度為 K；而為產生每個主題

下詞彙多項分佈的Dirichlet 先驗參數，以向量表示詞彙先驗機率分佈。

若文集（corpus）所有組成字以向量表示，對應的主題變數以向量表示，

其生成機率（generative probability）為：

公式2.4.11

圖 2.4.3 透過 Gibbs sampling 進行 LDA 過程（Wang, 2008）

過去研究指出由於和都牽涉到潛在變數，LDA 在使用精確估計（exact

inference）上並不容易實現，目前較常使用概似估計（approximate inference）的方法，例如：變形概似估計（Variational Approximation），馬可夫鍊蒙地卡羅法（Markov chain Monte Carlo）等方法（Blei et al., 2003）。

Gibbs Sampling 可視為 Markov-Chain Monte Carlo 演算法的特例，根據 Griffiths et al.（2004）的研究，其方法如下所述：初始值為給定每個詞彙隨機主題

, 然後統計每個主題下出現詞彙的數量以及每個文件下出現在主題中的

詞彙數量。每一次排除目前的詞彙計算，根據所有其他詞的主題分配

估計目前詞分配各主題的機率。當得到目前詞彙屬於所有主題的機率分佈後，根

據此機率分佈為該詞彙隨機取出一個新的主題，然後用同樣的方式持續迭代更新

下一個詞的主題，直到每個文件下主題分佈和每個主題下詞彙分佈收斂為

止。

我們的目標，可以透過分別對前後項

積分，完成吉伯斯抽樣（Gibbs sampling），使得整條馬可夫鍊的主題變數最終收斂趨於穩定，並可藉此估計和參數：

=

其中n 表示計數（count），其對應的左上標為計數的範圍，若以（.）表示則為全部範圍，即整個文集；左下標用來標記是否排除第i 個位置，若以（.）表示則為將所有位置納入計數範圍；右上標是指定要計數的詞彙，若以（.）表示則為

將所有詞彙納入計數範圍；右下標是指定要計數的主題，若以（.）表示則為將所

有主題納入計數範圍。所以，上面公式的是除了位置 i 外，向量出

現在主題k 的次數；而公式的是 d 文件出現在主題 k 的次數。有了上

述估計值，可根據現有的W, Z 條件進行新文件的主題機率分配的預測。

在文檔中應用潛藏面相評分分析於中文評論：使用局部潛藏狄利克雷分配方法 (頁 25-29)

第二章 文獻探討

2.4 LARA 問題研究

2.4.2 基於 Local LDA 的 LARA 分析

Latent Dirichlet allocation 模型介紹

=

=

第二章文獻探討