第二章、 文獻探討
1、 資料蒐集(Data Collection)
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
1、 資料蒐集(Data Collection)
針對在台灣使用人數最多的 Android 系統平台,本研究使用網路爬蟲程式擷 取 Android 系統上之線上應用程式商店 Google Play 市集裡通訊類別中,國人最 常使用的四款通訊類 App。分別為:LINE、Facebook Messenger、WhatsApp 和 WeChat 之 App 線上評論內容。
在 Google Play 市集中的單筆線上評價與評論的格式中,包含了使用者名稱、
評論留言日期、評價一到五顆星的等級和文字評論內容(圖七)。本研究使用每筆 評論中的評論內容作為情感分析研究中的資料。
圖 七: Google Play 的線上評價與評論
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
2、 評論文章前處理(Document Preprocessing)
在進行情感傾向計算前,本研究透過以下步驟進行評論的前處理,將文字評 論資料作初步的結構化與量化,以供後續階段分析使用。
中文斷詞(Segmentation/Tokenization)
將原始的評論資料透過中研 CKIP 斷詞系統進行中文文字斷詞。斷詞會將整 篇評論或是一段句子以詞為單位斷開。
CKIP 中文斷詞前 昨天版本更新後更不好用
CKIP 中文斷詞後 昨天 版本 更新 後 更 不 好用
詞性標注(Part-of-Speech Tagging)
App 評論在經由過 CKIP 中文斷詞後,會透過詞性標注將每個字詞標注其中 文詞性(Part-of-Speech)。其中中文詞性是採用中研究 CKIP 所訂定的詞性表。
詞性標注前 昨天 版本 更新 後 更 不 好用
詞性標註後
昨天(N) 版本(N) 更新(Vt) 後(POST) 更(ADV) 不(ADV) 好用(Vi)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
否定詞處理(Negation Process)
為了避免出現文意相反的情況,因此針對評論中所出現的否定詞進行處理,
其中使用(Wang and Lee, 2011)所提出的否定詞表並加以修改。
否定詞處理前
昨天(N) 版本(N) 更新(Vt) 後(POST) 更(ADV) 不(ADV) 好用(Vi) 否定詞處理後
昨天(N) 版本(N) 更新(Vt) 後(POST) 更(ADV) 不(ADV) 好用_NOT(Vi)
在判斷述詞是否被否定詞修飾時,採用區間判斷的方式處理。因為在中文上 否定詞一般可置於述詞(意見詞)前或是後。例如:訊息一直不能傳出去,其中
「不能」放置於述詞「傳」前面作修飾;另外否定詞放置於後方修飾例如:訊 息一直傳不出去,其中「不」放置於述詞「傳」後面作修飾。
本研究中採用區間為 4 的範圍來搜尋在述詞附近可能存在的否定詞(李啟 菁,2010),即為搜尋述詞前 2 個位置與後 2 個位置是否有存在否定詞,若存在則 將該述詞作否定詞處理(如圖八)。
圖 八: 區間為 4 的搜尋否定詞示意圖
1 2 3 4 5 6 7
述詞
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
詞性過濾(POS Filtering)
針所已標記的詞性,本研究保留於中文文字中,較能表達評論內容與具體意 義的體詞(名詞)(N 和 Nv)與述詞(動詞)(Vt 和 Vi)(劉吉軒、吳建良, 2007)。
詞性過濾前
昨天(N) 版本(N) 更新(Vt) 後(POST) 更(ADV) 不(ADV) 好用_NOT(Vi) 詞性過濾後
昨天(N) 版本(N) 更新(Vt) 好用_NOT(Vi)
本研究針對體詞和述詞,進一步透過詳細詞性(Detail Part-of-Speech)過濾,
在經由 CKIP 斷詞結果會標記上精簡詞性,其中針對最能表達評論內容的體詞(名 詞)和述詞(動詞)作保留,並移除其他多餘的詞性。然而,在體詞中,仍包含了許 多和研究領域不相關的詞,例如:專有名詞(人名、歷史事件等)、時間名詞(季節、
時間、朝代等)等的名詞(參考如表一)。因此針對中研院的體詞分類表,本研究進 一步的利用詳細詞性僅保留普通名詞(Na)作後續分析。
表 一: 中研院體詞詳細詞性表
詳細詞性 類別
Na 普通名詞
Nb 專有名詞
Nc 地方名詞
Nd 時間名詞
然而在述詞詞性方面,述詞主要可以分為動作類述詞與狀態類述詞,在中文 上,最具形容對象正反情感的詞大多屬於狀態類述詞,例如:好、差、漂亮、可 愛等等,詳細的述詞詞對對照表如表二。針對中研院的述詞分類表,本研究僅保 留狀態類動詞(VH 到 VL)作為後續的階段作分析。
詳細詞性過濾前
昨天(N) 版本(N) 更新(Vt) 後(POST) 更(ADV) 不(ADV) 好用_NOT(Vi) 詳細詞性過濾後
版本(Na) 好用_NOT(VH)
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
表 二: 中研究述詞詳細詞性表
詳細詞性 類別
VA 動作不及物動詞
VB 動作類及物動詞
VC 動作及物動詞
VD 雙賓動詞
VE 動作句賓動詞
VF 動作謂賓動詞
VG 分類動詞
VH 狀態不及物動詞
VHC 狀態使動動詞
VI 狀態類及物動詞
VJ 狀態及物詞
VK 狀態句賓動詞
VL 狀態謂賓動詞
停用字(Stop Word)過濾
在停用字過濾中,會去除高頻率出現,但無法提供重要資訊的字詞。停用字 廣意來說包含了各種高頻率但是卻對後續分析沒有實際貢獻的字詞,因為在中文 沒有一個通用的停用字詞集可供參考,因此大部份中文在處理停用字時,皆根據 不同的需求訂定所需要的停用字詞集。本研究針對許多高頻率但不屬於 App 評 論領域分析有直接相關的字詞,建立一個停用字詞集,並在詞性過濾後利用停用 字詞集將字詞作過濾。此外,中文上單一個字的名詞(即字詞的長度為 1)亦常為 高頻率但低貢獻度的詞,因此將字詞長度為 1 的名詞直接視為停用字。
計算字詞頻率
為完成文件的量化與分析不同字詞的重要性,會透過計算不同的字詞頻率如:
文件頻率、字詞頻率和逆向文件頻率來提供各個階段情感分析所需要的量化資訊,
並提供機器學習中,分群或分類任務所需要的文件特徵向量。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
3、 評論情感傾向計算(Sentiment Orientation)
在計算評論的情感傾向階段,會使用詞性標注為述詞(Vt 和 Vi)的字詞,
透過先判斷每個字詞的字詞情感傾向(Term Sentiment Orientation)並建立情感詞 集(Sentiment Lexicon)。於每篇評論加總評論中每個詞的情感分數後,再判斷每 篇評論的情感傾向。
3.1 建立情感詞集(Building Sentiment Term Set)
本研究主要使用由中研院最先啟用,目前交由台大語言所維護的中文詞彙網 路(Chinese WordNet)來建立判斷情感傾向所需的情感詞集,中文詞彙網路目的在 於提供完整的中文詞義(Sense)區分與詞彙語意關係知識庫。
圖 九:中文詞彙網路說明
圖九是一個中文詞彙網路的範例,其中心詞為「慢」,由圖可以看到實線(藍 色)與中心詞意同義,成為一個群聚(Cluster);相反的,會與虛線(綠色)的詞意相 反。透過中文詞彙網路可以瞭解每個詞與不同詞之間的極性(同義和反義)關係,
並進一步用來建立所需要的詞集。建立情感詞集的步驟主要分成以下三個階段:
步驟一:定義種子詞集(Seed Set)
定義小型的種子詞集,其中包含已知正面與反面的字詞,例如:好(正面)、
快(正面)、差(負面)等等。並利用此種子詞集之字詞於後續階段透過中文詞彙網 路擴充,最後產生用來判斷評論情感傾向的詞感詞集。
龜 慢
慢 慢 速
快 捷
‧
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
3.2 計算評論的情感傾向
在建立完計算評論分數所需要的情感詞集後,即開始加總每篇評論中的述詞 (Vt 和 Vi)的情感分數,若有出現於情感詞集則加總該情感詞的分數,以下為計算 情感分數的計算方法。
𝑆𝑒𝑛𝑡𝑚𝑒𝑛𝑡 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 𝑆𝑐𝑜𝑟𝑒 𝑜𝑓 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝑖 ∶ 𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖) 對於每一篇評論𝑑𝑖, 會基於所計算出來的情感傾向分數𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖),給與一 個情感傾向(正面、負面或中立)。其中透過文章中每一個字詞的情感傾向
𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛(𝑤)分數和該詞是否有經負向詞處理𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛來判斷,若評論中該 詞被標注經負向詞修飾,則乘上負向詞的權重。
𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖) = ∑ 𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛 × 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛(𝑤)
𝑤∈𝑑𝑖
𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛(𝑤) = { 1 𝑖𝑓 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒
−1 𝑖𝑓 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑜𝑛 = {1 𝑖𝑓 𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛 𝑛𝑜𝑡 𝑒𝑥𝑖𝑠𝑡
−1 𝑖𝑓 𝑛𝑒𝑔𝑎𝑡𝑖𝑜𝑛 𝑖𝑠 𝑒𝑥𝑖𝑠𝑡
每篇評論經過情感分數計算結果後,若情感分數大於 0 則標注為正面,小於 0 則標注為負面,等於 0 則標注為中立(即無法判斷)。無法判斷的評論將直接丟 棄不在後續的階段使用。
𝑆𝑂 𝑆𝑐𝑜𝑟𝑒(𝑑𝑖) {
> 0 → 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑂𝑟𝑖𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛
= 0 → Neutral
< 0 → Negative Orientation
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University