第二章 意見探勘相關研究
2.2 意見詞擷取
意見詞擷取這部分,有些論文是直接利用已存在的情緒字典,例如:NTUSD、
HowNet,而有些方法則是利用詞性組合、語法結構來擷取意見詞,但當面對比 較獨特性的領域時,一般的情緒字典也比較難以涵蓋整個領域的詞彙,需要利用 本身的語料來擷取意見詞。
Turney [2002]判斷連續兩個詞的詞性組合,利用這些比較含有情緒的詞性組 合來建立詞性規則,提出五種片語模型,擷取其中的形容詞及動詞當作意見詞。
Chaovalit and Zhou [2005]及Ye et al. [2006]也採用 Turney 的五種模型來擷取意見 詞。五種片語模型如表 1 所示。
表 1:五種片語模型 (摘自[Turney, 2002]) First word Second word
Adjective Noun
Adverb Adjective
Adjective Adjective
Noun Adjective
Adverb Verb
Hu and Liu [2004]觀察到意見詞與屬性詞常一起出現,擷取出屬性詞之後,
利用這種特性,在屬性詞周圍擷取鄰近範圍內的形容詞當作意見詞,正確率約有 六成以上。此篇文章把意見詞定義為形容詞,只擷取形容詞當作有效的意見詞,
但意見詞有可能是動詞或副詞所組成,例如:well、outperform,忽略這些其它詞 性的意見詞,以致於實驗結果召回率較低。
Popescu and Etzioni [2005] 使用 MINIPAR 產生具有語法結構的斷詞,利用 詞性標記、句子結構及已知的屬性詞,整理出十種規則,利用這些規則來擷取意 見詞,規則舉例如表 2,利用這些規則擷取出的意見詞,不再限制只能為形容詞,
實驗結果與[Hu and Liu, 2004]相比,發現擷取意見詞效果比較好,這也代表擷取 其它詞性的意見詞,有助於提升實驗結果的正確率。
表 2:意見詞語法規則 (摘自[Popescu and Etzioni, 2005]) Extraction Rules Examples
If ∃ (M,NP=F) → Po = M (expensive) scanner If ∃ (S=F,P,O) → Po = O Lamp has (problems) If ∃ (S,P,O=F) → Po = P I (hate) this scanner If ∃ (S=F,P,O) → Po = P Program(crashed)
Po=potential opinion, M=modifier, NP=noun phrase S=subject, P=predicate, O=object
5
在[Zhuang et al. , 2006]文章中使用 Stanford Parser 斷詞,產生出含有語法結 構的 dependency grammar path,過濾掉低頻率的語法模型,保留四種語法模型來 擷取意見詞。如表 3 所示,NN 代表是名詞,JJ 是形容詞,RB 是副詞。
表 3:四種語法模型(摘自[Zhuang et al. , 2006]) Dependency relation template Feature word Opinion word NN – amod – JJ NN JJ
NN – nsubj – VB – dobj – NN The first NN The last NN NN – nsubj – JJ NN JJ
VB – advmod – RB VB RB
Jin et al. [2009]提出 Hidden Markov Model(HMM)為基礎去擷取意見,一開始 先斷詞,再人工標記屬性詞、意見詞,把這些的標記語料訓練 HMM 分類器,標 記測試語料上的意見詞,實驗是與[Turney, 2002]相比,發現實驗效果較好,正確 率明顯地提升 3 到 7%。
2.3 意見
意見意見意見極性極性極性極性判斷判斷判斷判斷意見詞的極性判斷,主要分為兩種方法,一個是利用網路資源,觀察兩個詞 彙的關連性,進而辨識意見詞極性。另一個是利用語料,語料是來自字典提供或 是自己的評論語料,藉由這些語料的輔助來判斷極性。
在使用網路資源這部分,Turney [2002]提出以網路為主的情緒極性判斷,利 用詞彙共現的頻率來推斷極性,也就是正向意見詞比較常跟正向意見詞一起出現,
而負向意見詞也比較常跟負向意見詞一起出現的現象,利用改良後的 PMI 來計 算此意見詞與正負向意見詞的關係,此篇中取正向意見詞為“Excellent”,負向意 見詞為“Poor”。經由下面的公式 1,計算出來的 SO 數值大於零就是正向意見,
小於零就是負向意見,hits 是代表搜尋回傳網頁數量,極性實驗的正確率將近七 成五。
SOphrase = log “ !!"”“##”
“##”“ !!"”$ (1)
在利用語料這部分, Hu and Liu [2004]利用 WordNet 字典辨別意見詞的情 緒極性。此論文中是首先收集三十個種子詞彙,這些種子詞彙已具有正負向極性,
可觀察跟未知極性意見詞的關係。利用 WordNet 的形容詞中,含有同義詞集和 反義詞集,如果未知意見詞的同義詞在種子詞集內,則標記跟種子詞相同情緒極 性,並加入種子詞集中。如果是反義詞在種子詞集內,則標記跟種子詞相反的情 緒極性。反覆此步驟擴充種子詞彙,但對 WordNet 中沒有的詞彙,無法辨識詞 彙極性,辨別句子極性的實驗正確率為 84%。朱嫣嵐等人[2006]則是利用 Hownet 來計算語義相似度及語義相關場,語義相關場是指把兩個語意概念的交集除以聯
6
集,個別對正負向詞彙計算數值,產生意見詞的情緒極性,在實驗中準確率有達 到 78%。
Marneffe et al. [ 2010] 使用 IMDB8的電影語料,每個評論上面有評論者本身 的評分,範圍是一到十分,一分是低評價,滿分十分是高評價。收集這些評論語 料之後,計算未知情緒的意見詞在個別分數的語料中出現的機率,把個別的機率 跟此分數互相乘積,例如:假設意見詞只出現在分數為一、二的評論,在分數為 一的評論機率是 0.4,在分數為二的評論機率是 0.6,0.4 乘上 1 加上 0.6 乘上 2 當作情緒分數,利用意見詞分數的高低來判斷極性。
在不考慮屬性詞的句子層級中,大部分方式是在評論內擷取特徵,使用分類 器去分類極性。Fingal et al. [2004]利用擷取出的英文評論,切成單詞及雙詞建成 字典,對照所建立的字典,產生出每個句子的特徵向量,使用分類器做極性分類 的實驗。Yessenov et al. [2009]把英文評論中每個字當作特徵向量,比較只擷取常 頻詞跟擷取形容詞、副詞當作特徵,進行意見極性分類的效果,實驗正確率將近 七成。
2.4 意見詞
意見詞意見詞意見詞與屬性詞的關連與屬性詞的關連與屬性詞的關連與屬性詞的關連[Su et al. , 2008] 此文章探討屬性詞與意見詞的關聯,對某些意見詞常只會 形容某類屬性詞,例如車子而言,貴與價錢、可愛與外型。所以當遇到意見詞找 不到形容的屬性詞時,可利用已分群好的意見詞,辨別意見詞對應哪一類別的屬 性詞。在同一個句子中,屬性詞和意見詞的共同出現建立連結權重矩陣(link weight matrix),利用兩部分來判別意見詞與屬性詞的相似性。第一個為Intra similarity是利用傳統方式,直接判別意見詞與屬性詞之間的相似度。第二個為 Inter similarity是建立的矩陣向量,利用某屬性詞與每一群意見詞集的共同出現,
產生每個屬性詞的特徵向量,在跟其他屬性詞的特徵向量用餘弦定理相乘,算出 兩個屬性詞之間的相似度,利用此相似度將屬性詞分群。再利用某意見詞與每群 屬性詞集的共同出現,也可以將意見詞重新分群。首先要設定分成多少群,一直 遞迴計算相似度加以分群,直到雙方的分群結果沒有變動,當作最後的分群結果。
利用特徵向量可以得知此群意見詞集跟那一群屬性詞集比較有關聯,就算意見詞 找不到形容的屬性詞,也可以得知意見詞可能對應在哪一群的屬性詞。本論文的 方法比較原本抓取鄰近屬性詞方式,多抓取百分之十三的意見詞與屬性詞配對。
Li et al. [2010]收集全部意見詞與屬性詞配對,以探討在不同意見領域上,顯 著的配對會隨著領域而不一樣。使用已有的屬性詞及意見詞,定義每篇評論的權 重、重要性,這些評論的權重是計算評論內含有多少個配對,評論中配對越多權 重越重。配對的權重也是計算在全部評論中出現頻率,出現次數越多權重越重。
在相互影響遞迴之下,在各別領域中產生權重高的配對,看是否符合這個領域的 配對。
8 http://www.imdb.com/
7
2.5 意見探勘相關研究比較
意見探勘相關研究比較意見探勘相關研究比較意見探勘相關研究比較表4列出英文意見探勘相關研究的比較,表5列出中文意見探勘相關研究的比 較。
表 4:英文意見探勘研究比較
英文語料 [Liu et al. , 2005] [Zhuang et al. , 2006] [Ding et al. ,2008]
應用領域 電子產品 電影 電子產品
外部支援辭典 無 WordNet WordNet
斷詞 Pos tagger Stanford Parser parser 實驗語料 15 個產品評論 11 部電影
各 100 篇評論 (IMDB)
445 篇評論 (Amazon)
訓練與測試語 料比
10:1 4:1 無訓練語料
意見層級 產品屬性詞彙 電影屬性詞彙 產品屬性詞彙
方法 利用關連規則探勘產
生模型, 來擷取特徵 詞 。最後比較產品之 間各方面的評價 ,例 如:相機的像素、螢 幕、重量...等。
手動收集特徵詞及分類
,收集意見詞並用 WordNet 擴充 ,最後產 生意見詞和屬性詞配對 的模型
屬性詞與意見詞庫比對
,對意見極性權重計 算,最後產生屬性意見 配對列表
目標 擷取意見詞所對應的
產品屬性詞
意見詞與屬性詞配對辨 識
擷取意見句及極性判別
實驗結果 0.84(precision) 0.53(F-score) 0.9(F-score)
8 正確率 0.65(precision) 0.76(accuracy) 0.63(F-score) 0.83(F-score)
9
第三章 第三章 第三章
第三章 研究方法 研究方法 研究方法 研究方法
圖 1:流程圖
本論文的處理流程如圖一所示,首先我們從網路上收集中文電影評論,作為 訓練及測試語料,透過自然語言處理方法,探索意見詞的詞組規則,利用這些詞 性組合規則自動化意見詞擴充及篩選。在電影屬性詞部分,我們手動收集電影相 關的屬性詞,再利用同義詞詞林擴充,最後把這些屬性詞人工分類。接著將意見 詞與屬性詞類別配對,以便計算電影在不同屬性詞類別的評價。
3.1 語料處理
語料處理語料處理語料處理我們從 Yahoo!奇摩電影9網頁上收集電影評論,這網路平台提供電影的相關 資訊,包括預告片、票房、使用者評論、使用者評分、電影類型、演員、導演...
等,也是台灣網站中含有最多電影評論的網路平台,如圖二所示。
使用者觀賞完電影之後,使用者可能會來此網站打下他對於這部電影的評論,
並且對這部電影來評分。奇摩電影將電影分為 1-5 顆星,1 顆星是低評價,5 顆 星則是高評價。在中文電影評論而言,奇摩電影平台屬於熱門的電影網站,擁有 許多相關的電影評論,而想去觀賞一部剛上檔電影的人們,常會來這網路平台查 看此部電影的評價,當作選擇電影的依據,使用者的電影評論特色及評分如圖三
9 http://tw.movie.yahoo.com/
屬性詞資料庫 中研院斷詞
屬性詞人工 擷取及分類
人工標記意見詞
探索詞性規則 同義詞詞林
維基百科
意見詞資料庫 電影評論
意見詞資料庫 電影評論