第一章 緒論
1.2 論文架構
在本論文中,我們從奇摩電影的語料中人工收集電影相關的屬性詞,並且使 用同義詞詞林加以擴充,最後以人工方式去把這些屬性詞分為四類。利用標記過 意見詞,建立意見詞的詞性組合序列,建立意見詞詞彙庫。最後我們利用評論中 的句型結構及特徵將意見詞對應所屬的屬性類別,產生電影各個類別的評價。
本論文章節架構包括,第二章為意見探勘相關研究;第三章介紹系統架構與 研究方法。我們首先介紹這些評論語料的來源,利用這些語料收集電影相關的屬 性詞並且分類,使用標記的訓練語料,來建立詞性組合序列產生電影意見詞,最 後收集意見詞的周圍特徵、條件,來對意見詞自動配對所屬的屬性詞類別。在第 四章中我們對 226 部電影做權重式電影評分,比較系統產生的評分與網頁上的電 影評價,並且對電影四種屬性類別來產生分數,第五章敘述結論和未來的發展方 向。
7 http://tw.movie.yahoo.com/
3
第二章 第二章 第二章
第二章 意見探勘 意見探勘 意見探勘相關研究 意見探勘 相關研究 相關研究 相關研究
在意見探勘這領域中,有許多議題可以研究,例如:評論目標、持有者辨識、
意見摘要、極性判斷、自動評分...等,每一個議題含有不同處理步驟去達成研究 目的。我們按照這篇論文架構,把相關研究分為屬性詞擷取、意見詞擷取、極性 判斷、意見詞與屬性詞的關連。
2.1 屬性
屬性屬性屬性詞擷取詞擷取詞擷取詞擷取屬性詞擷取有分為非監督式及監督式兩種,監督式方法需要人工去標記訊息,
產生訓練語料進而擷取屬性詞,但因為需要大量人工標記,不同領域的屬性詞也 需要重新地訓練,所以比較耗時間,但正確率較高。非監督式方式不需要大量的 人工標記,也可以利用在不同的領域,但相較監督式而言,擷取正確率較低。
在非監督式屬性詞擷取研究中, Hu et al. [2004]觀察電子產品評論的詞性標 記,發現常被當作屬性詞的詞性是名詞,所以專注評論中的名詞及名詞片語,我 們把斷好詞性的文字送入資料探勘系統(CBA),取出支持度大於 1 的屬性詞作為 高頻率屬性詞,對於那些無法擷取出來的低頻率屬性詞,則是尋找意見詞周圍的 名詞或名詞片語當作屬性詞。Popescu and Etzioni [2005]把屬性詞分為顯性屬性詞、
隱性屬性詞,在顯性屬性詞中又分為五類,五類為: “Properties”、“Parts”、“Feature of part”、“Related Conecpts” 和 “Related Concepts Feature ”,首先使用 MINIPAR 對評論做結構剖析斷詞,利用斷詞後的詞性標記,設定門檻來過濾可能性不高的 名詞,最後計算屬性詞之間的 Point-wise Mutual information(PMI),觀察每個屬性 詞之間的關聯性,將有關連性的屬性詞收集作為屬性詞。
在監督式屬性詞擷取的研究中, Liu et al. [2005 ]使用 NLProcessor linguistic parser 斷詞後,將評論中的屬性詞用“Feature”替代掉,因為使用者會使用相似的 語法結構來呈現評論,但屬性詞又不太相同,所以利用詞性標記及替代成“Feature”
來尋找語法。之後使用 Association Rule Mining 產生詞性關連規則,利用此規則 來擷取屬性詞,在這方法下可以達到將近九成以上的準確率、召回率。Zhuang et al. [2006]手動標記電影特徵,去除出現次數低於總次數 1%的屬性詞,並且把電 影的屬性詞分成六類,OA (overall), ST(story), CH(character design), VP(vision effects) , MS (music and sound effects), Movie-related people(director and actor) ,最 後比較意見極性辨識效果在電影領域與產品領域,發現在電影領域中極性辨識效 果較差,因為電影評論中常會出現談論電影的情節,但這些詞彙不代表評論者的 意見極性。Zhao et al. [2009]把電影屬性詞做 Ontology,具有階層式的電影屬性 詞,可以在上面屬性詞階層中計算底下階層的評價,產生上層階級的屬性詞的情 緒分數。
4
2.2 意見詞擷取
意見詞擷取意見詞擷取意見詞擷取意見詞擷取這部分,有些論文是直接利用已存在的情緒字典,例如:NTUSD、
HowNet,而有些方法則是利用詞性組合、語法結構來擷取意見詞,但當面對比 較獨特性的領域時,一般的情緒字典也比較難以涵蓋整個領域的詞彙,需要利用 本身的語料來擷取意見詞。
Turney [2002]判斷連續兩個詞的詞性組合,利用這些比較含有情緒的詞性組 合來建立詞性規則,提出五種片語模型,擷取其中的形容詞及動詞當作意見詞。
Chaovalit and Zhou [2005]及Ye et al. [2006]也採用 Turney 的五種模型來擷取意見 詞。五種片語模型如表 1 所示。
表 1:五種片語模型 (摘自[Turney, 2002]) First word Second word
Adjective Noun
Adverb Adjective
Adjective Adjective
Noun Adjective
Adverb Verb
Hu and Liu [2004]觀察到意見詞與屬性詞常一起出現,擷取出屬性詞之後,
利用這種特性,在屬性詞周圍擷取鄰近範圍內的形容詞當作意見詞,正確率約有 六成以上。此篇文章把意見詞定義為形容詞,只擷取形容詞當作有效的意見詞,
但意見詞有可能是動詞或副詞所組成,例如:well、outperform,忽略這些其它詞 性的意見詞,以致於實驗結果召回率較低。
Popescu and Etzioni [2005] 使用 MINIPAR 產生具有語法結構的斷詞,利用 詞性標記、句子結構及已知的屬性詞,整理出十種規則,利用這些規則來擷取意 見詞,規則舉例如表 2,利用這些規則擷取出的意見詞,不再限制只能為形容詞,
實驗結果與[Hu and Liu, 2004]相比,發現擷取意見詞效果比較好,這也代表擷取 其它詞性的意見詞,有助於提升實驗結果的正確率。
表 2:意見詞語法規則 (摘自[Popescu and Etzioni, 2005]) Extraction Rules Examples
If ∃ (M,NP=F) → Po = M (expensive) scanner If ∃ (S=F,P,O) → Po = O Lamp has (problems) If ∃ (S,P,O=F) → Po = P I (hate) this scanner If ∃ (S=F,P,O) → Po = P Program(crashed)
Po=potential opinion, M=modifier, NP=noun phrase S=subject, P=predicate, O=object
5
在[Zhuang et al. , 2006]文章中使用 Stanford Parser 斷詞,產生出含有語法結 構的 dependency grammar path,過濾掉低頻率的語法模型,保留四種語法模型來 擷取意見詞。如表 3 所示,NN 代表是名詞,JJ 是形容詞,RB 是副詞。
表 3:四種語法模型(摘自[Zhuang et al. , 2006]) Dependency relation template Feature word Opinion word NN – amod – JJ NN JJ
NN – nsubj – VB – dobj – NN The first NN The last NN NN – nsubj – JJ NN JJ
VB – advmod – RB VB RB
Jin et al. [2009]提出 Hidden Markov Model(HMM)為基礎去擷取意見,一開始 先斷詞,再人工標記屬性詞、意見詞,把這些的標記語料訓練 HMM 分類器,標 記測試語料上的意見詞,實驗是與[Turney, 2002]相比,發現實驗效果較好,正確 率明顯地提升 3 到 7%。
2.3 意見
意見意見意見極性極性極性極性判斷判斷判斷判斷意見詞的極性判斷,主要分為兩種方法,一個是利用網路資源,觀察兩個詞 彙的關連性,進而辨識意見詞極性。另一個是利用語料,語料是來自字典提供或 是自己的評論語料,藉由這些語料的輔助來判斷極性。
在使用網路資源這部分,Turney [2002]提出以網路為主的情緒極性判斷,利 用詞彙共現的頻率來推斷極性,也就是正向意見詞比較常跟正向意見詞一起出現,
而負向意見詞也比較常跟負向意見詞一起出現的現象,利用改良後的 PMI 來計 算此意見詞與正負向意見詞的關係,此篇中取正向意見詞為“Excellent”,負向意 見詞為“Poor”。經由下面的公式 1,計算出來的 SO 數值大於零就是正向意見,
小於零就是負向意見,hits 是代表搜尋回傳網頁數量,極性實驗的正確率將近七 成五。
SOphrase = log “ !!"”“##”
“##”“ !!"”$ (1)
在利用語料這部分, Hu and Liu [2004]利用 WordNet 字典辨別意見詞的情 緒極性。此論文中是首先收集三十個種子詞彙,這些種子詞彙已具有正負向極性,
可觀察跟未知極性意見詞的關係。利用 WordNet 的形容詞中,含有同義詞集和 反義詞集,如果未知意見詞的同義詞在種子詞集內,則標記跟種子詞相同情緒極 性,並加入種子詞集中。如果是反義詞在種子詞集內,則標記跟種子詞相反的情 緒極性。反覆此步驟擴充種子詞彙,但對 WordNet 中沒有的詞彙,無法辨識詞 彙極性,辨別句子極性的實驗正確率為 84%。朱嫣嵐等人[2006]則是利用 Hownet 來計算語義相似度及語義相關場,語義相關場是指把兩個語意概念的交集除以聯
6
集,個別對正負向詞彙計算數值,產生意見詞的情緒極性,在實驗中準確率有達 到 78%。
Marneffe et al. [ 2010] 使用 IMDB8的電影語料,每個評論上面有評論者本身 的評分,範圍是一到十分,一分是低評價,滿分十分是高評價。收集這些評論語 料之後,計算未知情緒的意見詞在個別分數的語料中出現的機率,把個別的機率 跟此分數互相乘積,例如:假設意見詞只出現在分數為一、二的評論,在分數為 一的評論機率是 0.4,在分數為二的評論機率是 0.6,0.4 乘上 1 加上 0.6 乘上 2 當作情緒分數,利用意見詞分數的高低來判斷極性。
在不考慮屬性詞的句子層級中,大部分方式是在評論內擷取特徵,使用分類 器去分類極性。Fingal et al. [2004]利用擷取出的英文評論,切成單詞及雙詞建成 字典,對照所建立的字典,產生出每個句子的特徵向量,使用分類器做極性分類 的實驗。Yessenov et al. [2009]把英文評論中每個字當作特徵向量,比較只擷取常 頻詞跟擷取形容詞、副詞當作特徵,進行意見極性分類的效果,實驗正確率將近 七成。
2.4 意見詞
意見詞意見詞意見詞與屬性詞的關連與屬性詞的關連與屬性詞的關連與屬性詞的關連[Su et al. , 2008] 此文章探討屬性詞與意見詞的關聯,對某些意見詞常只會 形容某類屬性詞,例如車子而言,貴與價錢、可愛與外型。所以當遇到意見詞找 不到形容的屬性詞時,可利用已分群好的意見詞,辨別意見詞對應哪一類別的屬 性詞。在同一個句子中,屬性詞和意見詞的共同出現建立連結權重矩陣(link weight matrix),利用兩部分來判別意見詞與屬性詞的相似性。第一個為Intra similarity是利用傳統方式,直接判別意見詞與屬性詞之間的相似度。第二個為 Inter similarity是建立的矩陣向量,利用某屬性詞與每一群意見詞集的共同出現,
產生每個屬性詞的特徵向量,在跟其他屬性詞的特徵向量用餘弦定理相乘,算出
產生每個屬性詞的特徵向量,在跟其他屬性詞的特徵向量用餘弦定理相乘,算出