第二章、 文獻探討
2、 情感分析(Sentiment Analysis)
2.2 情感分析的方法
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
2.2 情感分析的方法
在文件層級和語句層級的感情分析研究中,主要專注於將文件或是語句根據 其情感傾向分類為正面、負面或是中立。針對情感傾向的分類上,有兩種主要的 方法,分別是監督式學習與非監督式學習(Fldman, 2013)。
( 1 ). 應用非監督式學習的情感分析
非監督式學習方法基礎上是建立在計算情感傾向(Sentiment Orientation),因 此又被稱為情感傾向方法(SO Approach)( Pang and Lee, 2008)。非監督式學習通常 會通過計算情感分數的方式,設定一個事先定義的臨界值(Threshold),當計算的 情感分數超過臨界值時會判為正面亦或是負面。
應用非監督式情感分數計算的方法主要的方法可以分成兩個方向,一個是使 用事先定義的 POS(Part of Speech)組合並結合相關性的計算。另一個是使用詞庫 來計算文章分數,再根據事先定義好的臨界值,決定文章為正面或是負面(Pang and Lee, 2008; Liu, 2013; Feldman, 2013)。
SO-PMI 與 POS 組合的計算方法
在應用 POS 組合的研究,(Turney, 2002)提出的語意導向 PMI(Pointwise Mutual Information)演算法(Semantic Orientation-PMI, SO-PMI)方法,首先找出語 句中適當的 POS 組合,並於段落中擷取重要的情感詞。例如當副詞和形容詞兩 詞相接,則取出副詞加形容詞的組合,或是當形容詞與名詞相連接時,則取出形 容詞作計算。
接著透過資訊檢索(Information Retrieval)的 hit 數量來計算文字間的 PMI 值,
其中將計算每個詞與正面詞「Excellent」和負面詞「Poor」之間共同發生的機率 來衡量每個段落接近正面或是負面。
SO − PMI(𝑤𝑜𝑟𝑑) = 𝑃𝑀𝐼(𝑤𝑜𝑟𝑑, "𝑒𝑥𝑐𝑒𝑙𝑙𝑒𝑛𝑡") − 𝑃𝑀𝐼(𝑤𝑜𝑟𝑑, "𝑝𝑜𝑜𝑟")
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
而 PMI 使用統計上的相互交互訊息(Mutual Information),進一步計算兩個事 件共同發生的機率。若兩個詞的共同發生機率愈高,則兩個詞愈相近,反之當兩 個詞為相互獨立,則 PMI 值為 0。
PMI(𝑤𝑜𝑟𝑑1, 𝑤𝑜𝑟𝑑2) = log2( 𝑃(𝑤𝑜𝑟𝑑1, 𝑤𝑜𝑟𝑑2) 𝑃(𝑤𝑜𝑟𝑑1)𝑃(𝑤𝑜𝑟𝑑2)) 將詞透過檢索結果的 hit 數量來計算 PMI,改為以下式子表示:
PMI(𝑤𝑜𝑟𝑑1, 𝑤𝑜𝑟𝑑2) = log2(
1
𝑁ℎ𝑖𝑡𝑠(𝑤𝑜𝑟𝑑1, 𝑁𝐸𝐴𝑅 𝑤𝑜𝑟𝑑2)
1
𝑁ℎ𝑖𝑡𝑠(𝑤𝑜𝑟𝑑1)1
𝑁ℎ𝑖𝑡𝑠(𝑤𝑜𝑟𝑑2))
使用外部詞庫的計算方法
情感分析研究常需要使用外部語言資料,如:詞集、詞庫或是不同的語言資 料原協助完成,如使用事先定義的正負面詞庫或詞集來完成情感分數的計算 (Taboada et al., 2011)。在中文的情感分析研究中,因為中文的詞庫相關資源較少,
大部份的研究通常會使用 HowNet(知網)或是 NTUSD(National Taiwan University Sentiment Dictionary)來完成情感分數計算(Wang and Lee, 2011; Sui et al., 2012 )。
除了使用已經事先定義好的詞庫之外,亦可透過自行建置的方式完成。其中 會先建立一個已知情感傾向的種子詞集(Seed Words),再透過外部的語彙資料找 出與種子詞所相關的詞彙,並加入種子詞集作擴充以完成自行建置的詞庫。
詞彙網路(WordNet)是一個提供完整語義區分與詞彙關係的知識庫,WordNet 會將語彙分成兩個極性(同義與反義),透過 WordNet 即可找出與種子詞集內已知 情感傾向的關係詞。例如:事先定義「好」這個字為正面,並將「好」這個字查 詢 WordNet,再將查詢到的同義詞加入正面,反義詞加入負面,透過這個方法即 可有效的擴增種子詞集,並建立未來計算文章情感分數所需的情感詞集(Hu and Liu, 2004; Ding et al., 2008)。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
( 2 ). 應用監督式學習的情感分類方法
監督式學習的情感分類方法通常為兩種類別的分類方法(正面和負面),其可 以視為文字分類(Text Classification)的問題。傳統的文字分類是將文本根據不同 議題類別作分類,如將新聞資料分成政治、科學和運動等等類別(Liu, 2012)。而 將傳統文字分類應用在情感分析上,最早(Pang et al., 2002)即使用監督式學習應 用在情感分析中,將電影的線上評論分成正面與負面兩種情感類別。
對於監督式的情感分類方法而言,最重要的關鍵是找出可以達到最佳分類效 果的資料特徵(Feature)(Liu, 2012)。如何找到適當能表達字詞對於文章的權重,
與保留重要的特徵詞皆會對分類的正確率造成影響。(Hotho et al., 2005)對文字分 類問題流程作了完整性的整理。在處理文字分類問題,將文章經過斷詞後,透過 進一步的文字前處理(Linguistic Preprocessing)可以加強分類效果。例如:移除停 用字(Stop Word)、詞性標記(POS)、文字串接(Text Chunking)等步驟。
在移除停用字的作法,除了人工判斷停用字的方法外,(Hao and Hao, 2008) 透過卡方統計量來衡量字詞有高詞頻,但是字詞和類別有低統計相關性的特性,
來自動化的判斷是否為停用字。而在詞性標記(Part-of-Speeh Tagging)方面,是將 各個詞標記上所屬的詞性,如:名詞、動詞、形容詞等。透過 POS 擷取重要詞 性的字詞,在情感分析研究中可以幫助找到較重要的情感詞或是議題詞,並作進 一步的分析(Hu and Liu, 2004; Soliman et al., 2013; Wang and Lee, 2011)。
除了使用 POS 之外,亦常使用字詞的頻率來找到重要的特徵,其中在情感 分析研究中,使用 TF-IDF 權重來計算每個特徵詞的重要性已經被證明有高度的 成效(Liu, 2012),亦常於監督式學習的情感分類上被應用(Mouthami et al., 2013)。
TF-IDF 目的在表達字詞在特定文章的重要程度,如果字詞於文章內的出現頻率 高,但在其他所有文章的出現頻率低則會生高權重的 TF-IDF 值。
監督式學習會使用向量空間模型(Vector Space Model)來對大量文件作有效率 的分析。向量空間模型是由 N 個特徵維度所構成,一筆真實文章會使用一個向
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
量來對應文章的多個特徵(Hotho et al., 2005; Manning et al, 2008),並將文章表現 成多維空間中的一點,以此來完成文章的向量化。其中可利用向量空間中特徵出 現的頻率來計算文件與文件間的相似度,以下為其中一種相似度計算方式,餘弦 相似度(Cosine Similarity)會衡量兩個向量𝑋⃑和𝑌⃑⃑的相似度,當兩向量越接近代表兩 向量越相似(Tata and Patel, 2007)。
Cosine Similarity ( 𝑋⃑.𝑌⃑⃑
‖𝑋‖‖𝑌‖)
在進行監督式學習並建立訓練資料前,會透過特徵詞選取步驟來選取較佳的 特徵。特徵詞選取會使用不同的演算法來計算並留下重要的特徵,其目的在不影 響分類結果品質的同時,降低向量空間的維度,並達到更快的計算速度與更佳的 分類正確率(Basu and Murthy, 2012; Stefano Baccianella, 2011)。最後使用監督式學 習演算法如 Naïve Bayes、Support Vector Machine、Decision Trees 等,透過訓練 資料集作資料訓練,再由測試資料集作驗證。在監督式學習的演算法中,SVM 被證實比起傳統文字分類方法 Naïve Bayes 的分類效果還更好(Joachims, 1998)。
(Neethu and Rajasree, 2013)使用不同的機器學習方法來分析 Twitter 上有關於 電子產品的使用者評論。其透過擷取 Twitter 上的文字資料,在經由人工標注類 別後,建立一個能代表文章的特徵向量,其中包含了正面關鍵字的數量、負面 關鍵字的數量等等共八個特徵,並使用監督式方法且比較了 Naïve Bayes、SVM 等四種分類方法的分類效果。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
( 3 ). 針對概念層級的情感分析方法
概念層級的情感分析可以視為資訊擷取(Information Extraction)的問題。在情 感分析中,每個情感或是意見詞往往都會有一個述敘的目標,而這個目標即是要 被擷取的概念詞或是議題詞。在進行概念層級的情分析進行擷取議題詞時,大至 有以下幾個簡易的方法(Liu, 2012):
找尋高頻率的名詞(Nouns)與名詞字句(Nouns Phrases)
在中文裡議題詞往往會以名詞(體詞)的形態出現,而使用高頻率出現的字詞 來判斷是否為議題詞之關鍵在於,當特定字詞出現的次數越多(即頻率越高),則 這個字詞即可能是熱門的關鍵議題詞。
(Ku et al., 2006)使用 TF-IDF 衡量不同的字詞在文件層級和語句層級的重要 性,並找出重要的字詞。(Hu and Liu, 2004)使用關聯規則(Association Rule)演算 法 Apriori Algorithm 在具有顯性特徵的文章中,透過 Apriori 演算法的第一個階 段找出高頻組合(Frequent Itemset)出現的字詞來擷取候選議題詞。例如:當在對 相機產品有關的文章使用 Apriori 演算法來擷取議題詞時,找出和「相機」這個 字高頻率共同出現的詞,例如:「畫質」和「相機」出現在高頻組合內,即可判 斷「畫質」這個詞可能對於相機產品的文章是熱門的關注議題。
使用情感詞與其述敘目標的相關性
在情感分析中,詞句或文章內的情感詞皆有一個描述的對象,因此情感詞往 往和所述敘的議題詞會很接近。
(Hu and Liu, 2004)使用了距離最相近的方法來判斷情感詞與名詞或是名詞子 句之間的相依關係。例如:這台相機的造型好漂亮,其中「漂亮」是情感詞,而 最靠近「漂亮」的是「造型」這個名詞,「造型」即可以判斷為一個情感詞所形 容的目標詞或議題詞,故擷取出造型這個議題詞。(Lek and Poo, 2013)則針對情 感詞左和右邊找出所有候選的文章概念。亦有同時擷取情感詞與議題詞的相關研 究,(Zhuang et al., 2006)使用相依的語法圖(Dependency Grammar Graph)來剖析顯
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
性特徵的詞句,用此方法找到共同出現的特徵與意見詞組(Feature-Opinion Pairs),
並同時擷取情感詞與議題詞。
使用監督式學習方法
使用監督式學習的方法來解決概念擷取或是情感目標詞擷取的問題中,最具 優勢的方法是基於 Sequential Learning 的方式(Liu, 2012)。即透過人工方式標注 資料集的類別,再使用不同的 Sequential Learning 演算法如:Conditional Random Fields(CRF)或是 Hidden Markov Models(HMM)等方法來進行議題分類。(Jakob and Gurevych, 2010)針對語句層級來找到情感目標詞的問題中,使用 CRF 來訓練 相同領域或是跨領域的文章,並使用不同的特徵組合來找出最佳的分類效果。
(Kovlamudi et al., 2011) 則提出一個應用在 Wikipedia 且不相依於單一領域的線 上使用者評論的屬性 (Attribute) 擷取方法。其中使用字詞頻率與文章相關性,
並使用 SVM 方法來分類資料。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University