基於 Bootstrap 的 LARA 分析

第二章文獻探討

2.4 LARA 問題研究

2.4.1 基於 Bootstrap 的 LARA 分析

雖然已有許多研究針對主題面向層次的情感分析做出了貢獻，但過去的研究多半只關心各個面向的整體狀況，而忽略了個別評論以及個別評論者之間的差異，且並不把面向評分視為潛藏變數。因此首先有研究提出了 LARA 的問題和解決方式，希望透過結合類似Bootstrap 方法和 LRR 生成模型的兩階段的步驟可以同時推論出主題面向評分和評論者對於各面向所佔的權重（Wang, 2010）。

在進行主題面向評分和評論者對於各面向所佔的權重推論之前，我們必須先進行主題面向的擷取和分割，將句子和詞指定給所屬於的主題面向。在這篇文獻中（Wang, 2010），使用的是 Bootstrap 形式的分割方式，其演算法解釋如下：

在進行擷取主題面向演算法之前，需要先手動設定主題面向數量（K）和初始種子的關鍵字，於本篇文獻中因應資料集的ground truth 共設計有 7 個主題面向。

表 2.4.1 主題面向分割演算法（Wang, 2010）

主題面向分割演算法（Aspect Segmentation Algorithm）

輸入：評論文件的集合、主題面向關鍵字的集合，令

字彙集合為，閥值為，迭代次數設為

：sentences 屬於且出現在sentences 中 sentences 的數量

：sentences 不屬於且出現在sentences 中 sentences 的數量

：sentences 屬於且未出現在sentences 中 sentences 的數量

：sentences 不屬於且未出現在sentences 中 sentences 的數量

經過了 Bootstrap 的 Aspect Segmentation 演算法後，我們可以得到每個 document 都有一個的特徵矩陣，其中d 是指 document 的 index，而 i 是指

aspect 的 index，j 為 token 的 index。代表第d 個 document 中，屬於 aspect 的

第個token 出現的頻率，這邊用屬於 aspect 所有 token 總數進行標準化。

在進行第二階段的LRR 模型之前，文獻假設評論者評分的行為定義為，如圖 2.4.1 所示：

（1）當一個使用者要給予一個實體評分時，他會先決定他所希望評論的

面向（aspect），然後決定代表他意思的詞彙。而這個詞彙對應了相對的情緒傾向

（2）把所有針對這個主題面向所用的詞彙和它對應的情緒權重相加總後

就會得到該主題面向的評分。而每個評論者對於各個面向（aspect）

則有不同重視程度因而會給予不同的權重（weight）

（3）將所有aspect 的評分（rating）和評論者所給予的權重（weight）相乘加總後，就會得到評論整體的分數（overall rating）

Wang et al. (2010) 為了成功捕捉上述使用者在評分時的行為而提出了 LRR 迴歸模型，LRR 是一個生成模型（generative model），在上一階段對於每一個document 都有一個標準化過的列為面向（aspect）、行為詞彙（token）的頻率特徵矩陣。在 LRR 模型中將特徵矩陣當做獨立變數，而整體評分（overall rating）則當成預

測的應變數。

為了能夠建立可以推論出aspect rating 和 aspect weight 的模型，所以 LRR 模型不直接由特徵矩陣決定，而是由一組潛在的面向分數（latent aspect rating）所

預測，特徵矩陣則直接預測潛在的面向分數（latent aspect rating）。由於已知有

k 個 aspect，同樣的每個文件（document）也會有 k 個潛在的面向分數（latent aspect rating）和 k 個潛在面向的權重（aspect weight）且總共有 n 個 unique token，所以將潛在面向分數（latent aspect rating）表示成線性的組合：

公式 2.4.2

其中為詞彙表在的情感傾向。

接下來透過潛在的面向分數（latent aspect rating）和潛在面向的權重（aspect weight）的加總可以產生整體評分（overall rating），表示成。

為了能夠模擬預測整體評分（overall rating）的不確定性，假設整體評分（overall

rating）是從平均數為，變異數為的高斯分配（Gaussian distribution）所抽

取出來，表示為：

公式 2.4.3

欲建構評論（review）的內容以及整體評分（overall rating）的關係，以下做更進一步的探討，發現評論者在針對不同面向給予潛在面向的權重（aspect weight）

時有以下特性：

（1）不同的評論者偏好不同，所以在乎的面向也有所不同。（例如：商務旅客可能比較在乎網路或是商務設備的完善，但新婚夫妻可能在乎的是服務或是房間的氣氛）。

（2）不同的面向並非獨立，而會有重疊的情況。（例如：在乎乾淨（cleanliness）

面向的評論者他有可能也會在乎房間（room）面向）。

因此文獻中為了考慮偏好的差異性，假設每個文件（document）中的潛在面向權重（aspect weight）為從整個文集（corpus）的先驗（prior）分佈所產生的一組隨機變數。而為了捕捉不同面向的相依性，假設潛在面向權重（aspect weight）

的先驗分佈為多變量高斯分佈（multivariate gaussian distribution），其中和分別

為其平均值和變異數，如下所示：

公式 2.4.4

合併2.4.3 和 2.4.4 將問題轉化成一個貝氏迴歸問題（Bayesian regression）。給定評論文件（document）下觀察值為給定文件（document）的整體評分（overall rating）

的機率如下：

公式 2.4.5

其中和為文件中已知的觀察值，而文獻假設與獨立於個別的評論

（review ），故為文集層次的模型變數（corpus-level model

parameters），整個模型示意圖如圖 2.4.1：

圖 2.4.1 LRR 模型示意圖（Wang et al., 2010）

LRR 模型最終的目標是希望透過給定整體評分（overall rating）和評論的內容

（review content）能夠推論出潛在面向的權重（aspect weight）和潛在的面向分數

（latent aspect rating）。而推論方法如下：

（1）每個文件（document）擁有的潛在面向分數（latent aspect rating）可由以定義好的2.4.2 來計算。

（2）每個文件（document）的潛在面向的權重（latent aspect weight）則運用最大後驗機率概似法（maximum a posterior，簡稱：MAP）來計算最有可能的面向

公式 2.4.6

對應於每個文件（document）面向的權重（aspect weight），由於和由多變量高

斯分佈和高斯分佈所生成，可以將上述式子展開為：

假設限制條件如下：

；公式 2.4.7

文獻中提供了共軛梯度下降法（conjugate-gradient-interior-point），求極大值：

公式 2.4.8

更進一步文獻使用最大概似估計法（Maximum Likelihood）找出最佳化的以最大化給定評論文件（document）下觀察值為給定文件

（document）的整體評分（overall rating）的機率。

對於整體評論的log-likelihood 函數和 ML 估計式分述如下：

公式 2.4.9

公式 2.4.10

為了能最佳化問題，此處研究使用了類似 EM 演算法的方式，並於迭代開始

之前，先隨機初始化：

（1）E 步驟：已知參數可以藉由推論公式 2.4.2 和 2.4.7 求得每個文件的潛在面向分數（latent aspect rating）和潛在面向的權重（aspect weight）。

（2）M 步驟：透過求出的潛在面向分數（latent aspect rating）和潛在面向的權重

（aspect weight）去更新（update）模型參數並透過極大化complete

likelihood 來得到，持續執行E 和 M 的步驟，最後參數會收

斂達到終止條件。

在文檔中應用潛藏面相評分分析於中文評論：使用局部潛藏狄利克雷分配方法 (頁 18-25)

第二章 文獻探討

2.4 LARA 問題研究

2.4.1 基於 Bootstrap 的 LARA 分析

第二章文獻探討