第二章 文獻探討
2.4 LARA 問題研究
2.4.1 基於 Bootstrap 的 LARA 分析
雖然已有許多研究針對主題面向層次的情感分析做出了貢獻,但過去的研究 多半只關心各個面向的整體狀況,而忽略了個別評論以及個別評論者之間的差 異 ,且並不把面向評分視為潛藏變數。因此首先有研究提出了 LARA 的問題和解 決方式,希望透過結合類似Bootstrap 方法和 LRR 生成模型的兩階段的步驟可以同 時推論出主題面向評分和評論者對於各面向所佔的權重(Wang, 2010)。
在進行主題面向評分和評論者對於各面向所佔的權重推論之前,我們必須先 進行主題面向的擷取和分割,將句子和詞指定給所屬於的主題面向。在這篇文獻 中(Wang, 2010),使用的是 Bootstrap 形式的分割方式,其演算法解釋如下:
在進行擷取主題面向演算法之前,需要先手動設定主題面向數量(K)和初始 種子的關鍵字,於本篇文獻中因應資料集的ground truth 共設計有 7 個主題面向。
表 2.4.1 主題面向分割演算法(Wang, 2010)
主題面向分割演算法(Aspect Segmentation Algorithm)
輸入:評論文件的集合 、主題面向關鍵字的集合 ,令
字彙集合為 ,閥值為 ,迭代次數設為
:sentences 屬於 且 出現在sentences 中 sentences 的數量
:sentences 不屬於 且 出現在sentences 中 sentences 的數量
:sentences 屬於 且 未出現在sentences 中 sentences 的數量
:sentences 不屬於 且 未出現在sentences 中 sentences 的數量
經過了 Bootstrap 的 Aspect Segmentation 演算法後,我們可以得到每個 document 都有一個 的特徵矩陣 ,其中d 是指 document 的 index,而 i 是指
aspect 的 index,j 為 token 的 index。 代表第d 個 document 中,屬於 aspect 的
第 個token 出現的頻率,這邊用屬於 aspect 所有 token 總數進行標準化。
在進行第二階段的LRR 模型之前,文獻假設評論者評分的行為定義為,如圖 2.4.1 所示:
(1) 當一個使用者要給予一個實體評分時,他會先決定他所希望評論的
面向(aspect),然後決定代表他意思的詞彙。而這個詞彙對應了相 對的情緒傾向
(2) 把所有針對這個主題面向所用的詞彙和它對應的情緒權重相加總後
就會得到該主題面向的評分。而每個評論者對於各個面向(aspect)
則有不同重視程度因而會給予不同的權重(weight)
(3) 將所有aspect 的評分(rating) 和評論者所給予的權重(weight)相 乘加總後,就會得到評論整體的分數(overall rating)
Wang et al. (2010) 為了成功捕捉上述使用者在評分時的行為而提出了 LRR 迴 歸模型,LRR 是一個生成模型(generative model),在上一階段對於每一個document 都有一個標準化過的列為面向(aspect)、行為詞彙(token)的頻率特徵矩陣。在 LRR 模型中將特徵矩陣 當做獨立變數,而整體評分 (overall rating)則當成預
測的應變數。
為了能夠建立可以推論出aspect rating 和 aspect weight 的模型,所以 LRR 模 型不直接由特徵矩陣 決定,而是由一組潛在的面向分數(latent aspect rating)所
預測,特徵矩陣 則直接預測潛在的面向分數(latent aspect rating)。由於已知有
k 個 aspect,同樣的每個文件(document)也會有 k 個潛在的面向分數(latent aspect rating)和 k 個潛在面向的權重(aspect weight)且總共有 n 個 unique token,所以 將潛在面向分數(latent aspect rating)表示成線性的組合:
公式 2.4.2
其中 為詞彙表在 的情感傾向。
接下來透過潛在的面向分數(latent aspect rating)和潛在面向的權重(aspect weight)的加總可以產生整體評分(overall rating),表示成 。
為了能夠模擬預測整體評分(overall rating)的不確定性,假設整體評分(overall
rating)是從平均數為 ,變異數為 的高斯分配(Gaussian distribution)所抽
取出來,表示為:
公式 2.4.3
欲建構評論(review)的內容以及整體評分(overall rating)的關係,以下做 更進一步的探討,發現評論者在針對不同面向給予潛在面向的權重(aspect weight)
時有以下特性:
(1) 不同的評論者偏好不同,所以在乎的面向也有所不同。(例如:商務旅 客可能比較在乎網路或是商務設備的完善,但新婚夫妻可能在乎的是 服務或是房間的氣氛)。
(2) 不同的面向並非獨立,而會有重疊的情況。(例如:在乎乾淨(cleanliness)
面向的評論者他有可能也會在乎房間(room)面向)。
因此文獻中為了考慮偏好的差異性,假設每個文件(document)中的潛在面 向權重(aspect weight)為從整個文集(corpus)的先驗(prior)分佈所產生的一 組隨機變數。而為了捕捉不同面向的相依性,假設潛在面向權重(aspect weight)
的先驗分佈為多變量高斯分佈(multivariate gaussian distribution),其中 和 分別
為其平均值和變異數,如下所示:
公式 2.4.4
合併2.4.3 和 2.4.4 將問題轉化成一個貝氏迴歸問題(Bayesian regression)。給 定評論文件(document)下觀察值為給定文件(document)的整體評分(overall rating)
的機率如下:
公式 2.4.5
=
其中 和 為文件中已知的觀察值,而文獻假設 與 獨立於個別的評論
(review ), 故 為 文 集 層 次 的 模 型 變 數 (corpus-level model
parameters),整個模型示意圖如圖 2.4.1:
圖 2.4.1 LRR 模型示意圖(Wang et al., 2010)
LRR 模型最終的目標是希望透過給定整體評分(overall rating)和評論的內容
(review content)能夠推論出潛在面向的權重(aspect weight)和潛在的面向分數
(latent aspect rating)。而推論方法如下:
(1)每個文件(document)擁有的潛在面向分數(latent aspect rating)可由 以定義好的2.4.2 來計算。
(2)每個文件(document)的潛在面向的權重(latent aspect weight)則運用 最大後驗機率概似法(maximum a posterior,簡稱:MAP)來計算最有可能的面向
公式 2.4.6
對應於每個文件(document)面向的權重(aspect weight),由於 和 由多變量高
斯分佈和高斯分佈所生成,可以將上述式子展開為:
=
假設限制條件如下:
; 公式 2.4.7
文獻中提供了共軛梯度下降法(conjugate-gradient-interior-point),求極大值:
公式 2.4.8
更進一步文獻使用最大概似估計法(Maximum Likelihood)找出最佳化的 以最大化給定評論文件(document)下觀察值為給定文件
(document)的整體評分(overall rating)的機率。
對於整體評論的log-likelihood 函數和 ML 估計式分述如下:
公式 2.4.9
公式 2.4.10
為了能最佳化問題,此處研究使用了類似 EM 演算法的方式,並於迭代開始
之前,先隨機初始化 :
(1)E 步驟:已知參數可以藉由推論公式 2.4.2 和 2.4.7 求得每個文件的潛在面 向分數(latent aspect rating)和潛在面向的權重(aspect weight)。
(2)M 步驟:透過求出的潛在面向分數(latent aspect rating)和潛在面向的權重
(aspect weight)去更新(update)模型參數 並透過極大化complete
likelihood 來得到 ,持續執行E 和 M 的步驟,最後參數會收
斂達到終止條件。