第二章、 文獻探討
4、 評論議題擷取(Topic Extraction)
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
4、 評論議題擷取(Topic Extraction)
於關注議題擷取的階段中,會使用字詞關係與字詞文件頻率來完成評論議題 詞擷取,再透過 TF-IDF 模型配合 SOM(Self-Organization Map)、Kmeans 分群與 NPMI(Normorlized Pointwise Mutual Information)模型配合社會網路分析(Social Network Analysis, SNA)的 Concor(Convergence of iterated Correlation)分群方法來 將議題詞作整併與分群,並比較分析兩類不同分群方法的結果。其中在擷取評論 議題詞的部份,會使用詞性標注為體詞(N 和 Nv)的字詞。
首先使用議題詞和情感詞會共同出現在附近的語句特性,來找出候選的議題 詞,接著利用過濾低文件頻率的字詞,來擷取出熱門討論的議題詞。最後使用不 同的分群方法完成議題類別整併,並判斷評論所屬的議題類別,以下分成四個步 驟說明:
步驟一:找所有可能的議題詞(候選議題詞)
在情感分析中,每個情感詞都會有一個述敘與形容的對象,即為目標詞 (Target),透過這個特性將每一篇評論中,將最靠近該情感詞的體詞取出並加入 候選議題詞集。例如:「這個主題貼圖很可愛」,這則評論中的情感詞為「可愛」, 而最靠近「可愛」的名詞為「貼圖」,故將貼圖取出作為候選議題詞(如圖十二)。
圖 十二:候選議題詞擷取範例
步驟二:篩選熱門關注的議題詞
通常越熱門的關注議題,在所有的評論中被提到的次數就會越高,透過這個 情感詞集
評論資料 擷取
候選議題詞
候選議題 詞集 Ex: 這 個 主題 貼圖(N) 很 可愛(Vi)
可愛、不錯…
貼圖(N)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
步驟三:議題議分群與議題類別整併
在找出熱門議題詞後,因不同的議題詞可能屬於同一個類別,故透過將不同 的議題詞作整併,不止可以用一個大方向表達同類別中的所有議題詞,更能縮減 類別數量。在議題詞分群的工作上,本研究分別使用廣泛被使用在群聚分析的 Kmeans 和 SOM 演算法,並與社會網路分析的 Concor 方法作比較。
在採用 Kmeans 和 SOM 演算法來完成分群方面,透過建立以詞為主體並對 上不同文件為特徵的 TF-IDF 模型為輸入資料(如圖十三),即以字詞為分群對象,
並由字詞於每篇文件的 TF-IDF 值來描述字詞(將文章為主體,詞為特徵的向量空 間轉置),以完成對議題詞的分群。
圖 十三: 議題詞資料對文件特徵的 TF-IDF 模型
在採用社會網路分析的 Concor 方法方面,利用計算各個議題詞之間的 NPMI(Normalized-PMI)值來衡量不同議題詞之同相依程度的強度,並建立成一個 社會矩陣(Socialmetrix)模型(如圖十四)。在這個社會網路中,其中的節點,又稱 為行動者(Actor)為議題詞。而節點間的連線,又稱為關係(Relation)為議題詞之間 的 NPMI 值。透過判斷行動者(議題詞)間是否存在結構等同(Structural Equivalence) 的特性,將在網路中扮演相似角色的行動者(議題詞)分群。
Document1 ... ... .. Documentn Term1 TF-IDF ... ... .. TF-IDF
.
. TF-IDF ... ... .. TF-IDF
.
. TF-IDF ... ... .. TF-IDF
.
. TF-IDF ... ... .. TF-IDF Termn TF-IDF ... ... .. TF-IDF
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
圖 十四: 利用 NPMI 值將議題詞建立為社會矩陣
正規化的 PMI 值 NPMI 可以將原本範圍為[+∞, −∞]的 PMI 值,正規化至範 圍[+1, −1],排除出現+∞和−∞造成後續分析上的困難。假設要計算字詞𝑤𝑖和字 詞𝑤𝑗之間的 NPMI(𝑤𝑖, 𝑤𝑗)值,如下公式:
N𝑃𝑀𝐼(𝑤𝑖, 𝑤𝑗) =−log [𝑃(𝑤𝑃𝑀𝐼(𝑤𝑖,𝑤𝑗)
𝑖,𝑤𝑗)]
PMI(wi, wj)表示文件中,字詞wi和字詞wj之PMI 分數 P(wi, wj)表示文件中,共同出現字詞wi和字詞wj之機率 社會網路分析 Concor 方法為一持續對社會矩陣作相關性計算,直到社會矩 陣的值收斂成-1 和+1 兩個群體,接著再將行動者分為兩群的方法。一開始先對 社會矩陣作相關性計算,會得到一個相關性矩陣𝐶1,接著再對相關性矩陣𝐶1作相 關性計算,會得到第二個相關性矩陣𝐶2,一直到相關性矩陣𝐶𝑛中的值收斂為止。
Term1 ... ... ... Termn
Term1 0 ... ... ... NPMI
.
. NPMI ... ... ... NPMI
.
. NPMI ... ... ... NPMI
.
. NPMI ... ... ... NPMI Termn NPMI ... ... ... 0
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
步驟四:判斷評論的議題類別
將議題詞分群分成不同的議題類別後,根據每篇評論出現的議題類別字詞給 予一個議題類別(圖十五)。例如:「我很喜歡用貼圖,很棒」,在這則評論中的「貼 圖」這個議題詞屬於應用加值服務這個類別,故將此評論標注為應用加值服務。
當評論中有出現多個類別的議題詞時,則標注出現次數最多次,即類別強度 最強的類別。例如:應用加值服務類的議題詞出現 2 次,訊息傳送與社群類議題 出現 3 次,即將評論標注為訊息傳送與社群類別。其中若有無法判斷類別的情況 (類別議題詞出現次數相同或是沒有議題詞出現),則將評論丟棄不作標注。
圖 十五: 議題類別判斷範例