評論議題擷取(Topic Extraction) - 文獻探討 - 對使用者評論之情感分析研究－以Google Play市集為例

第二章、文獻探討

4、評論議題擷取(Topic Extraction)

國

立政治大學

‧

Na tiona

l Ch engchi University

4、評論議題擷取(Topic Extraction)

於關注議題擷取的階段中，會使用字詞關係與字詞文件頻率來完成評論議題詞擷取，再透過 TF-IDF 模型配合 SOM(Self-Organization Map)、Kmeans 分群與 NPMI(Normorlized Pointwise Mutual Information)模型配合社會網路分析(Social Network Analysis, SNA)的 Concor(Convergence of iterated Correlation)分群方法來將議題詞作整併與分群，並比較分析兩類不同分群方法的結果。其中在擷取評論議題詞的部份，會使用詞性標注為體詞(N 和 Nv)的字詞。

首先使用議題詞和情感詞會共同出現在附近的語句特性，來找出候選的議題詞，接著利用過濾低文件頻率的字詞，來擷取出熱門討論的議題詞。最後使用不同的分群方法完成議題類別整併，並判斷評論所屬的議題類別，以下分成四個步驟說明：

 步驟一：找所有可能的議題詞(候選議題詞)

在情感分析中，每個情感詞都會有一個述敘與形容的對象，即為目標詞 (Target)，透過這個特性將每一篇評論中，將最靠近該情感詞的體詞取出並加入候選議題詞集。例如：「這個主題貼圖很可愛」，這則評論中的情感詞為「可愛」，而最靠近「可愛」的名詞為「貼圖」，故將貼圖取出作為候選議題詞(如圖十二)。

圖十二:候選議題詞擷取範例

 步驟二：篩選熱門關注的議題詞

通常越熱門的關注議題，在所有的評論中被提到的次數就會越高，透過這個情感詞集

評論資料擷取

候選議題詞

候選議題詞集 Ex: 這個主題貼圖(N) 很可愛(Vi)

可愛、不錯…

貼圖(N)

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

 步驟三：議題議分群與議題類別整併

在找出熱門議題詞後，因不同的議題詞可能屬於同一個類別，故透過將不同的議題詞作整併，不止可以用一個大方向表達同類別中的所有議題詞，更能縮減類別數量。在議題詞分群的工作上，本研究分別使用廣泛被使用在群聚分析的 Kmeans 和 SOM 演算法，並與社會網路分析的 Concor 方法作比較。

在採用 Kmeans 和 SOM 演算法來完成分群方面，透過建立以詞為主體並對上不同文件為特徵的 TF-IDF 模型為輸入資料(如圖十三)，即以字詞為分群對象，

並由字詞於每篇文件的 TF-IDF 值來描述字詞(將文章為主體，詞為特徵的向量空間轉置)，以完成對議題詞的分群。

圖十三: 議題詞資料對文件特徵的 TF-IDF 模型

在採用社會網路分析的 Concor 方法方面，利用計算各個議題詞之間的 NPMI(Normalized-PMI)值來衡量不同議題詞之同相依程度的強度，並建立成一個社會矩陣(Socialmetrix)模型(如圖十四)。在這個社會網路中，其中的節點，又稱為行動者(Actor)為議題詞。而節點間的連線，又稱為關係(Relation)為議題詞之間的 NPMI 值。透過判斷行動者(議題詞)間是否存在結構等同(Structural Equivalence) 的特性，將在網路中扮演相似角色的行動者(議題詞)分群。

Document₁ ．．．．．．．． Document_n Term₁ TF-IDF ．．．．．．．． TF-IDF

．

． TF-IDF ．．．．．．．． TF-IDF

．

． TF-IDF ．．．．．．．． TF-IDF

．

． TF-IDF ．．．．．．．． TF-IDF Term_n TF-IDF ．．．．．．．． TF-IDF

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖十四: 利用 NPMI 值將議題詞建立為社會矩陣

正規化的 PMI 值 NPMI 可以將原本範圍為[+∞, −∞]的 PMI 值，正規化至範圍[+1, −1]，排除出現+∞和−∞造成後續分析上的困難。假設要計算字詞𝑤_𝑖和字詞𝑤_𝑗之間的 NPMI(𝑤_𝑖, 𝑤_𝑗)值，如下公式：

N𝑃𝑀𝐼(𝑤_𝑖, 𝑤_𝑗) =_{−log [𝑃(𝑤}^{𝑃𝑀𝐼(𝑤}^𝑖^,𝑤^𝑗⁾

𝑖,𝑤_𝑗)]

PMI(w_i, w_j)表示文件中，字詞w_i和字詞w_j之PMI 分數 P(w_i, w_j)表示文件中，共同出現字詞w_i和字詞w_j之機率社會網路分析 Concor 方法為一持續對社會矩陣作相關性計算，直到社會矩陣的值收斂成-1 和+1 兩個群體，接著再將行動者分為兩群的方法。一開始先對社會矩陣作相關性計算，會得到一個相關性矩陣𝐶₁，接著再對相關性矩陣𝐶₁作相關性計算，會得到第二個相關性矩陣𝐶₂，一直到相關性矩陣𝐶_𝑛中的值收斂為止。

Term₁ ．．．．．．．．． Term_n

Term₁ 0 ．．．．．．．．． NPMI

．

． NPMI ．．．．．．．．． NPMI

．

． NPMI ．．．．．．．．． NPMI

．

． NPMI ．．．．．．．．． NPMI Term_n NPMI ．．．．．．．．． 0

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

 步驟四：判斷評論的議題類別

將議題詞分群分成不同的議題類別後，根據每篇評論出現的議題類別字詞給予一個議題類別(圖十五)。例如：「我很喜歡用貼圖，很棒」，在這則評論中的「貼圖」這個議題詞屬於應用加值服務這個類別，故將此評論標注為應用加值服務。

當評論中有出現多個類別的議題詞時，則標注出現次數最多次，即類別強度最強的類別。例如：應用加值服務類的議題詞出現 2 次，訊息傳送與社群類議題出現 3 次，即將評論標注為訊息傳送與社群類別。其中若有無法判斷類別的情況 (類別議題詞出現次數相同或是沒有議題詞出現)，則將評論丟棄不作標注。

圖十五: 議題類別判斷範例

Ex:我很喜歡用貼圖很棒

議題類別

評論資料判斷

議題類別

應用加值服務: 表情、貼圖、主題…

訊息傳送與社群: 語音、對話、語音…

………

應用加值服務

‧

在文檔中對使用者評論之情感分析研究－以Google Play市集為例 - 政大學術集成 (頁 53-57)

評論議題擷取(Topic Extraction)

第二章、 文獻探討

4、 評論議題擷取(Topic Extraction)

國

立 政 治 大 學

‧

4、 評論議題擷取(Topic Extraction)

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

Ex:我 很 喜歡 用 貼圖 很 棒

議題類別

評論資料 判斷

議題類別

應用加值服務: 表情、貼圖、主題…

訊息傳送與社群: 語音、對話、語音…

………

應用加值服務

‧

第二章、文獻探討

4、評論議題擷取(Topic Extraction)

立政治大學

4、評論議題擷取(Topic Extraction)

立政治大學

立政治大學

立政治大學

Ex:我很喜歡用貼圖很棒

評論資料判斷