第二章 文獻探討
2.4 LARA 問題研究
2.4.2 基於 Local LDA 的 LARA 分析
在Wang et al. (2010) 提出用 Bootstrap 和 LRR 模型兩階段方法解決 LARA 問 題之後,Ma et al.(2012)為了解決第一階段 Bootstrap 需要事先由人工決定面向種
子詞的限制,改為運用 Brody et al.(2010)所提出的 Local LDA 的方式,
將評論當中的句子(sentences)視為標準 LDA 模型(Blei & Ng & Jordan, 2003)
中的文件(document),並將抽取出的潛在主題(latent topic)和主題詞彙(vocabulary)
視為面向(aspect)的切割與代表詞的擷取,亦即將句子(sentences)分配到的主 題視為屬於該面向(aspect)。
Latent Dirichlet allocation 模型介紹
LDA 模型是一個完整的生成模型(generative model)與主題模型(topic model)
架構,其修正了之前的主題模型(例如:Latent Semantic Analysis(潛藏語意分析)、
沒有辦法直接將機率分配給先前未出現(unseen)的文件;以及參數數量會隨著文件 數量線性擴增等問題。
主題模型假設每一篇文件隱含了一個或多個主題,每個主題擁有特定詞彙的 機率分布(probability distribution),而每篇文件是由這機率分布之下的詞彙所組 成。LDA 是主題模型的一種,其假設每篇文章可能由多個主題所組成,故每篇文 章擁有自己的主題機率分布,而每個主題擁有該主題下詞彙的機率分布,由這兩 個機率分布決定了文件的組成內容。
用通俗的方式描述LDA 的模型則為:
(1)一位大文豪欲寫 M 篇文章,共涉及了 K 個主題,每個主題下的詞分布為從 參數為 的狄利克雷(Dirichlet)先驗分布中隨機抽樣出長度為 K 的多變量
(Multinomial)分佈。
(2)對於每篇文章,他會從泊松分佈中隨機抽取一文章長度的值。
(3)再從參數為 的狄利克雷(Dirichlet)先驗分布中隨機抽樣出長度為 M 的多
變量(Multinomial)分佈當做該文章每個主題出現的機率分佈。
(4)當文豪想寫第 m 篇文章的第 n 個字時,首先先從該文章中每個主題出現的多 變量機率分佈中抽取一個主題,再從這個主題所對應的多變量機率分佈中隨機取 出想寫的詞。
(5)不斷重複隨機生成的過程,直到把 M 篇文章都寫完。
圖 2.4.2 LDA 模型示意圖(http://en.wikipedia.org/)
LDA 的模型架構如圖 2.4.2。此處假設 m 為文件的索引,n 為詞彙的索引。圖 中K 為主題個數,M 為文件總數,N 為第 m 篇文件的總字數。模型假設文件的主 題先驗分佈(prior probability distribution)與主題的詞彙先驗機率分佈符合狄利克 雷分配(Dirichlet Allocation)。其中 為產生每個文件下主題多項分佈的 Dirichlet
先驗參數,以 向量表示主題先驗機率分佈,向量長度為 K;而 為產生每個主題
下詞彙多項分佈的Dirichlet 先驗參數,以 向量表示詞彙先驗機率分佈。
若文集(corpus)所有組成字以 向量表示,對應的主題變數以 向量表示,
其生成機率(generative probability)為:
公式2.4.11
圖 2.4.3 透過 Gibbs sampling 進行 LDA 過程(Wang, 2008)
過去研究指出由於 和 都牽涉到潛在變數,LDA 在使用精確估計(exact
inference)上並不容易實現,目前較常使用概似估計(approximate inference)的方 法,例如:變形概似估計(Variational Approximation),馬可夫鍊蒙地卡羅法(Markov chain Monte Carlo)等方法(Blei et al., 2003)。
Gibbs Sampling 可視為 Markov-Chain Monte Carlo 演算法的特例,根據 Griffiths et al.(2004)的研究,其方法如下所述:初始值為給定每個詞彙隨機主題
, 然後統計每個主題 下出現詞彙 的數量以及每個文件 下出現在主題 中的
詞彙數量。每一次排除目前的詞彙計算 ,根據所有其他詞的主題分配
估計目前詞分配各主題的機率。當得到目前詞彙屬於所有主題 的機率分佈後,根
據此機率分佈為該詞彙隨機取出一個新的主題,然後用同樣的方式持續迭代更新
下一個詞的主題 ,直到每個文件下主題分佈 和每個主題下詞彙分佈 收斂為
止。
我們的目標 ,可以透過分別對 前後項
積分,完成吉伯斯抽樣(Gibbs sampling),使得整條馬可夫鍊的主題變數最終收斂 趨於穩定,並可藉此估計 和 參數:
=
=
其中n 表示計數(count),其對應的左上標為計數的範圍,若以(.)表示則 為全部範圍,即整個文集;左下標用來標記是否排除第i 個位置,若以(.)表示 則為將所有位置納入計數範圍;右上標是指定要計數的詞彙,若以(.)表示則為
將所有詞彙納入計數範圍;右下標是指定要計數的主題,若以(.)表示則為將所
有主題納入計數範圍。所以,上面 公式的 是除了位置 i 外, 向量出
現在主題k 的次數;而 公式的 是 d 文件出現在主題 k 的次數。有了上
述估計值,可根據現有的W, Z 條件進行新文件的主題機率分配的預測。