中文文法剖析應用於電影評論之意見情感分類

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：侯文娟博士. 中文文法剖析應用於電影評論之意見情感分類. 研究生：. 中華民國. 張莊平. 一○一. 年. 撰. 六. 月.

(2) 摘要在網路發達的現今社會，各種領域的評論資訊觸手可及，人們也習慣於收集產品的網路評論作為消費前的參考。尤其在電影產品上，除了從片商釋出預告片裡的片段內容外，事前無法試看，事後也無法退費。因此在前往電影院購票前，人們會更加重視網路上的評論心得。在本篇論文中，收集來自電影評論網當中觀影民眾的評論文章，希望透過自然語言的分析技術，總結出一個電影整體的推薦分數以及數個電影元素（如劇情、演員、特效等）的高頻率意見詞，提供使用者選擇適合自己的電影觀賞。在研究方法上，選擇以中文電影的評論文章為主，在傳統的電影評論意見分類步驟中引入中央研究院的中文剖析器，發展一套根據文法關係圖判斷意見詞與屬性詞配對的程式流程，以便針對大量字數的評論文章獲得更準確的分析及評分結果，最後再以五等第制的方式呈現。實驗的結果證明本論文所提出系統的評分結果在誤差一分的情況下有 70.7% 的準確率，整體的 MRR 值為 0.61；將五等第化為推薦與不推薦的結論時，也分別獲得了 F-score 74.3%與 51.4%的成果。這表示本實驗系統在透過大量收集網路評論文章來幫助使用者判斷電影的推薦程度上，確實達到預期的效果。. 關鍵字：中文文法剖析、意見探勘、情感分類、電影評論.

(3) ABSTRACT In the modern society with highly developing internet, it is easy to reach reviews of various domains. People are used to collect the reviews as references before their consumption. Especially in movie products, we can only preview some brief and fragmented contents by trailers and cannot refund after we watched it, so people think more highly of the movie reviews on the internet. In this study, we collected movie reviews from websites and analyzed them with nature language processing approaches, which resulted in a general recommendation grade and several frequent opinion keywords in some movie elements such as plots, actors/actresses, special effects…etc. According to these results, people can choose the movies that suit themselves. Focusing on the movie reviews in Chinese, the study leaded the CKIP Chinese Parser into traditional opinion mining approach to propose a new procedure which can extract the pairs of opinion keywords and feature keywords according to dependency grammar graphs. This parsing-based approach is more suitable for articles with plenty of words. The grading results will be presented by a 5-grade marking system. The experimental results show that the accuracy of our system, with the deviation of grades less than 1, is 70.7%, and the MRR value is 0.61. In addition, when we changed the 5-grade marking system into the recommend and un-recommend choices,.

(4) we got F-score 74.3% and 51.4% respectively. The result indicates that our system can reach satisfied expectancy for movie recommendation.. Keywords: Chinese parser, opinion mining, sentiment classification, movie review.

(5) 誌謝本論文得以完成，首先要感謝我的指導教授侯文娟老師，在這兩年來引導我進入自然語言處理的領域並指導我做研究的方法；在研究遇到瓶頸時，老師也給了我莫大的幫助。我也要感謝口試委員方瓊瑤老師與郭俊桔老師，指導我許多寶貴的想法，讓本論文更加充實與完善。在此，我要特別感謝在本篇論文中協助我完成大量語料標記、整理與評分的同學與朋友們。人工標記語料是研究中工程最浩大的步驟，要是沒有他們，本論文恐怕無法如期完成。也感謝我的父母與家人，這兩年來的支持與鼓勵，能讓我無後顧之憂的專心完成碩士學位。最後，對於那些曾經幫助過我的人，在此致上最深的感謝。. iv.

(6) 目錄附表目錄....................................................................................................................... vii 附圖目錄........................................................................................................................ ix 第一章. 簡介................................................................................................................. 1. 第一節. 研究動機................................................................................................. 1. 第二節. 論文架構................................................................................................. 3. 第二章. 相關研究探討................................................................................................. 4. 第一節. 中文語料處理......................................................................................... 4. 第二節. 英文譯名辨識......................................................................................... 5. 第三節. 屬性詞擷取............................................................................................. 6. 第四節. 意見詞擷取............................................................................................. 8. 第五節. 屬性詞與意見詞配對........................................................................... 11. 第六節. 相關研究之改良................................................................................... 13. 第三章. 方法與步驟................................................................................................... 15. 第一節. 實驗語料............................................................................................... 16. 第二節. 中文斷詞與人工分類意見詞彙........................................................... 18. 第三節. 建立屬性詞詞庫與分類....................................................................... 19. 第四節. 使用中文剖析系統建立文法關係圖................................................... 21. 第五節. 配對屬性詞與意見詞........................................................................... 21 v.

(7) 第六節. 意見詞分類........................................................................................... 30. 第七節. 文章評分............................................................................................... 32. 第八節. 電影推薦分數....................................................................................... 33. 第四章. 實驗結果與分析........................................................................................... 34. 第一節. 實驗結果............................................................................................... 34. 第二節. 實驗評估............................................................................................... 35. 第三節. 錯誤分析............................................................................................... 40. 第四節. 電影屬性類別評分............................................................................... 42. 第五節. 與網路評分比較................................................................................... 43. 第五章. 結論與未來發展........................................................................................... 45. 第一節. 結論....................................................................................................... 45. 第二節. 未來發展............................................................................................... 46. 參考文獻....................................................................................................................... 47. vi.

(8) 附表目錄表 1：邱鴻達(2011)展示標記意見詞詞性統計 ......................................................... 10 表 2：Zhuang 等人(2006)展示的文法關係模型 ........................................................ 12 表 3：邱鴻達(2011)提出之屬性詞與意見詞配對句型 ............................................. 13 表 4：實驗語料來源.................................................................................................... 17 表 5：實驗語料之字數分布........................................................................................ 17 表 6：人工分類意見詞結果........................................................................................ 18 表 7：人工分類副詞結果............................................................................................ 19 表 8：一般電影屬性詞詞庫分類結果........................................................................ 20 表 9：屬性詞與意見詞的配對例子............................................................................ 30 表 10：以 TF-IDF 篩選出來的意見詞節錄 ............................................................... 31 表 11：五等第制分數與原始分數的對照表 .............................................................. 33 表 12：擷取的意見詞與屬性詞配對類型分布.......................................................... 34 表 13：系統評分結果分布.......................................................................................... 35 表 14：評分者甲與評分者乙的分數分布統計.......................................................... 36 表 15：評分者甲與評分者丙的分數分布統計.......................................................... 36 表 16：評分者乙與評分者丙的分數分布統計.......................................................... 36 表 17、三位評分者兩兩互相比較之 weighted kappa 值 .......................................... 37 表 18：人工評分結果分布.......................................................................................... 37 vii.

(9) 表 19：系統給分與人工給分的 rank 值分布 ............................................................ 38 表 20：將評分視為推薦與不推薦的實驗結果統計.................................................. 39 表 21：系統評分與人工評分的分數比較.................................................................. 39 表 22：電影屬性類別的評分結果.............................................................................. 42 表 23：評論者在特定電影中常用的詞彙節錄.......................................................... 43 表 24：實驗系統的評分與 IMDb 會員投票評分之比較 .......................................... 44. viii.

(10) 附圖目錄圖 1：中文斷詞系統的處理結果.................................................................................. 5 圖 2：邱鴻達(2011)展示來自 Wiki 的演員暱稱 ......................................................... 6 圖 3：Zhuang 等人(2006)展示的文法關係圖 ............................................................ 11 圖 4：系統流程圖........................................................................................................ 15 圖 5：批踢踢實業坊之 Movie 看板截圖 ................................................................... 16 圖 6：開眼電影網提供的電影資訊............................................................................ 20 圖 7：中文剖析系統建立之文法關係圖例子............................................................ 21 圖 8：例句 1 的文法樹狀圖........................................................................................ 22 圖 9：例句 2 的文法樹狀圖........................................................................................ 23 圖 10：例句 3 的文法樹狀圖...................................................................................... 24 圖 11：擷取屬性詞與意見詞配對的程式流程 .......................................................... 26 圖 12：擷取屬性詞與意見詞配對的演算法 Pseudo Code........................................ 27 圖 13：配對句型 1（N+V）....................................................................................... 28 圖 14：配對句型 2（N+VP） .................................................................................... 28 圖 15：配對句型 3（NP+V） .................................................................................... 29 圖 16：配對句型 4（NP+VP） .................................................................................. 29 圖 17：配對句型 5（NULL+V） ............................................................................... 29 圖 18：刺陵的評論文章節錄之一.............................................................................. 40 ix.

(11) 圖 19：刺陵的評論文章節錄之二.............................................................................. 40 圖 20：玩具總動員３的評論文章節錄...................................................................... 41 圖 21：飢餓遊戲的評論文章節錄.............................................................................. 41. x.

(12) 第一章第一節. 簡介. 研究動機. 在資訊爆炸的現今社會，網際網路的架構已經全面由 Web 2.0 所組成，人們的日常生活也早已離不開網路。比如我們如果想要買個日常用品，或者辦個下午茶聚會，可能就會想先去網路上查詢產品或餐廳的評價，作為下決定時的參考。也因為 Web 2.0 平台的日益增多，人們於是有越來越多的管道可以為各種事物寫下感想及評論，如博客來1的書籍感想、開眼電影網2的電影評論等等。因此，在這個每個人都能輕易發表評論、獲得評論的網路世界裡，網路意見不再只是微小的聲音。就算身為廠商而言，了解並分析客戶對自家產品的評論也是行銷中相當重要的一環。 2005 年，紐約時報(The New York Times)曾估計現今社會一週內所產生的資訊量比十八世紀一個人一生可能接觸到的資訊量還多。網路評論也同樣是數量驚人成長的一塊領域，隨著網路書寫平台的進步，各領域評論的文章數量正以極快的速度成長。但在 2012 年的今天，人類理解並處理資訊的速度仍遠遠不及資訊產生的速度。如何能在大量的評論文章中，迅速地獲得對某一特定主題的整體概念，正是意見探勘(Opinion Mining)的研究宗旨。. 1. http://www.books.com.tw/. 2. http://www.atmovies.com.tw/ 1.

(13) 在各種評論對象當中，電影評論的意見分析有著其獨有的特性，這在其他領域中相對是不常出現的。Zhuang 等作者(2006)曾說過，相對於產品評論，人們在撰寫電影評論時，往往除了評論產品主體（如劇情、特效、音樂等）外，同時也會對與產品相關聯的人物（如導演、演員、作者等）感興趣；而在一般的球鞋評論中，僅有少數使用者會想知道是誰設計了這雙鞋。邱鴻達(2011)也指出，電影評論中會使用的意見詞在其他領域中較不常出現。例如「好看」這個詞在一般的情緒字典中是尋找不到的；又例如「刺激」這個詞在大部份領域是屬於負向情緒，但在電影評論中，這往往比較偏於正向情緒。對於一般的使用者來說，參考網路上的電影評論可能尤其重要。這是因為對電影而言，人們往往只能從片商釋出的預告片窺知其內容，事前無法試看，事後也無法提供退費的服務。因此人們通常在前往電影院購票前，會更加重視已看過電影的人們所發表的心得。因此在本篇論文中，選定以電影評論作為意見探勘的應用領域。對每一部電影，收集來自電影評論網當中觀影民眾的迴響，取出大量評論文章，再透過自然語言的分析技術，總結所有評論，最後得出一個推薦分數以及數個電影元素（如劇情、特效、演員等）的推薦分數，以便讓使用者選擇適合自己的電影觀賞。在電影評論分析的相關研究中，中文的研究相對於英語來說並不多見，但華人和歐美國家對於不同類型的電影喜好卻不一定相同。為了能夠更貼近華語市場的喜好，選擇分析來自中文電影評論網的意見。同時嘗試在本次研究中加入中文. 2.

(14) 剖析系統，觀察在加入中文剖析技術後是否能為現有的中文電影評論情感分類帶來更精確的結果。. 第二節. 論文架構. 在接下來的章節裡，第二章會先探討目前意見探勘應用在電影評論的相關研究，了解此領域的研究背景、前人的研究成果以及希望達成的目標；第三章會逐步說明本論文所提的研究方法與實驗步驟；第四章則評估實驗的成果並針對實驗結果數據進行錯誤分析；最後一章會對整篇論文作個總結，並提出未來的研究發展方向。. 3.

(15) 第二章. 相關研究探討. 將意見探勘應用在電影評論的研究，國內外已有許多學者前輩發表其成果。 Zhuang 等作者(2006)就曾嘗試以意見探勘的方式從電影評論中摘錄帶有正反意見的句子。在 Zhuang 的論文中，作者定義了兩個名詞：feature keywords 和 opinion keywords；邱鴻達(2011)也在他的論文中使用屬性詞與意見詞這兩個名詞。意見詞（opinion keywords）代表的是帶有正負向情感極性的詞彙，如：好、壞、精采、無聊等，而屬性詞（feature keywords）則是被意見詞修飾的評論主體，如：電影、劇情、演員等。在接下來的論文中，將會延用此兩個名詞來闡述研究成果。在進行此領域之研究時，會面臨許多議題，例如：屬性詞及意見詞的擷取、極性的判斷、屬性詞與意見詞的配對，及評分方式等。另外，當語料是中文時，會另外面臨到中文前置處理（preprocess）的議題。在本章相關研究探討中，第一節和第二節會先針對中文文本特有的議題進行討論，第三節至第五節再探討意見探勘的相關研究，第六節會針對現有的研究提出改進的想法。. 第一節. 中文語料處理. 詞是具有意義的最小語言單位，在處理中文語料上，首先會面臨到的問題是如何斷詞。由於中文文本中不像英文文法，會在詞與詞之間加入空白或其他標點符號做為區隔；因此在一段中文句子當中，必須先根據句子前後文斷出正確的詞組，才能進行後續的詞性標記及語意分析。 4.

(16) 在以中文電影評論為研究主題的論文裡，陳立(2010)與邱鴻達(2011)在中文斷詞步驟上，皆採用中央研究院的中文斷詞系統3來作前置處理。此系統為一具有未知詞（未收錄於詞典的詞彙）辨識能力並附加詞類標記的中文分詞系統。過往的斷詞系統作法大都以語料庫統計為主，故統計特性低的未知詞會不容易被擷取出來，而統計特性強的不一定是一個合理的詞彙；此系統為解決上述問題，加入可以自動抽取新詞建立領域用詞並即時分詞的功能。圖 1 展示由中央研究院中文斷詞系統處理後的標示結果，可以看到句子中的詞彙均已正確分離並標示好其詞性。. 圖 1：中文斷詞系統的處理結果. 第二節. 英文譯名辨識. 由於目前熱門電影主要的出產國仍來自美國，因此在電影評論當中需要提到角色名或演員名時，通常都會使用英文譯名。然而英文譯名並沒有一個統一的標準，相同的英文名字很有可能在不同場合被譯為兩種截然不同的中文譯名（如：知名導演 James Cameron 常被譯為「詹姆斯卡麥隆」與「詹姆士柯麥隆」）。李振昌等人(1994)曾指出：「音譯人名的結構方面比起中式人名來得複雜得多。在中式人名中，有姓氏，而且姓氏的用字有固定的字集。另外，名字的長度也有 3. http://ckipsvr.iis.sinica.edu.tw/ 5.

(17) 限制。所以結構方面較為清楚。相較起來，音譯人名就沒有類似的結構。」他們提出一種基於注音音節的辨識規則並獲得大約 50%的精確度和 70%的召回率。李佳穎等人(2009)在意見持有者辨識的問題上，曾提出一個基於百萬人名詞典的做法，用來辨識未知的人名，然而此作法需要包含大量詞彙的字典，而且比較適用於姓名較有規則的中日文人名，而不適用於英文譯名。邱鴻達(2011)在處理電影評論裡的英文譯名時，採用擷取自 Yahoo!奇摩電影4 網站中的工作人員及演員名單，再從中文 Wiki 網站5上介紹演員的頁面中，收集演員的暱稱，作為人名的詞彙清單，結果如圖 2 所示。. 圖 2：邱鴻達(2011)展示來自 Wiki 的演員暱稱. 第三節. 屬性詞擷取. 在擷取屬性詞及意見詞的作法上，大致上可以分為監督式及非監督式兩種。監督式的方法需要人工標記訓練語料，正確率高，但因為需要大量人工介入，較花時間成本；而非監督式的作法則是基於規則設定或是依統計學的結果來處理語 4. http://tw.movie.yahoo.com/. 5. http://zh.wikipedia.org/wiki/Wiki 6.

(18) 料，不需人工，所以速度快，但正確性不如監督式作法來得高。在非監督式作法的研究中，Hu 及 Liu (2004)在電子產品評論中，以名詞及名詞片語為主，透過資料探勘系統 CBA 取出高頻率的屬性詞做為詞庫。Popescu 及 Etzioni (2005)則是採用 Lin (1998)提出的 MINIPAR 剖析器對評論進行文法剖析及詞性標記，以過濾出可能性較高的名詞視為屬性詞候選，再計算屬性詞之間的 PMI (Point-wise Mutual Information)，將關連性較高的屬性詞候選列入屬性詞詞庫。在監督式作法的研究中，Zhuang 等人(2006) 將來自 IMDb6網站的評論原始文章以人工標記屬性詞的位置，再去除出現次數低於總次數 1%的屬性詞作為屬性詞詞庫。同時，因為在電影評論當中，人們常會對演員或是電影當中的角色進行評論，故 Zhuang 先使用正規表示法擷取出字首大寫的詞組，進而拿去和演員名單進行比對，如果比對成功，會一併加入屬性詞詞庫。最後，Zhuang 將所有標示出來的屬性詞分為六類：OA (overall)、ST (story)、CH (character design)、VP (vision effects)、MS (music and sound effects)及 Movie-related people (director and actor)，以便在做意見摘要時，能依不同分類排序句子。邱鴻達(2011)則是從 Yahoo!奇摩電影中收集電影評論做為語料，以人工標記方式標出不含人名的屬性詞，並且考慮到評論者可能會使用不同的詞彙來表達相同的屬性，利用梅家駒等人(1997)出版的同義詞詞林以屬性詞的同義詞擴充詞庫，再輔以從 Wiki 網站中的演員暱稱擴充關於演員姓名的屬性詞詞庫。為了讓使用. 6. http://www.imdb.com/ 7.

(19) 者可以根據自己最在乎的電影評分項目做判斷，邱鴻達將所有屬性詞分成四類：電影整體、劇情、特效音效場景、及電影相關人物，以便在後續處理時能分別列出四個類別的意見評分。. 第四節. 意見詞擷取. 意見詞擷取與屬性詞擷取不同之處在於，屬性詞通常是一個收斂的集合，面對一個相同的評論主題，人們常會使用相同集合的名詞來描述。然而意見詞則不同，Zhuang 等作者(2006)就曾表示人們傾向於使用不同的詞彙來表達他們的意見。因此意見詞通常是一個發散的集合，僅使用統計學上的作法無法收集出現頻率低的情緒詞彙。而有些論文會選擇利用已存在的情緒字典，如：NTUSD7、How-Net8，作為意見詞詞庫，婁德成及姚天昉(2006)與朱嫣嵐等人(2006)均提出基於 How-Net 語意詞典裡的詞彙語意傾向標記進行計算。此方法雖較為快速，但面對專業領域時，一般性的情緒字典難以涵蓋所有特定領域之詞彙。 Turney (2002)採用基於 n-gram 與詞性分析的作法建立比較常帶有情緒的詞性組合規則。同時他認為正向意見詞比較常跟正向意見詞一起出現，反之亦然。故他利用修改後的 PMI 來計算由詞性組合規則篩選出來的意見詞與其它正負意見詞的關係，以便判斷意見詞極性。 Zhuang 等人(2006)則是先以人工標記語料中的意見詞及標記其正負向語意，. 7. http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html. 8. http://www.keenage.com/ 8.

(20) 並依詞彙出現頻率在正負向詞彙中取出前 100 名做為種子，再利用 WordNet9找出每個詞彙的同義詞，進而擴充意見詞詞庫，這樣做可以讓系統處理在訓練語料中未出現的隱含意見詞。然而人工標記意見詞極性的工程浩大，不適合大量詞庫。李政儒(2011)提出應用廣義知網10中用來定義詞彙的義原（primitive）為基礎定義特徵值，輔以其結構式作為特徵值的加權，再利用 SVM 進行意見詞極性的分類，最終獲得與人工標記幾乎相同的效能。以上研究都是基於語料（corpus-based）的做法，然而 Qiu 等作者(2009)認為基於詞典（lexicon-based）的做法較佳；因為後者只需利用較少的種子字即可自動標示大量的文件，而且也較前者更具領域獨立性（domain-independence）。陳立(2010)提出了一種非監督式的步驟便是基於詞典的作法。他首先選定中文裡常用的文法，以常見的否定字及副詞做為種子字彙，再放入來自開眼電影網的語料中，收集所有句子裡跟在種子字彙後面的詞，比較該詞彙在正負向語料中出現的次數，當差異度超過門檻值時即放入詞庫做為新的種子，不斷反覆訓練以擴充詞庫，直到種子字彙不再變化為止。邱鴻達(2011)提出另一種方法，先利用人工標記意見詞，探索哪些詞性較可能含有意見表達，再全方面地統計這些意見詞的詞性組合，整理出常見詞性組合並且利用這些詞性組合序列自動去辨識更多意見詞，經過篩選存成專屬電影的意 9. http://wordnet.princeton.edu/. 10. http://ehownet.iis.sinica.edu.tw/ 9.

(21) 見詞詞庫，再計算該詞彙出現於正負向語料的次數，設定門檻值，以作為詞彙極性判斷之依據。表 1 展示邱鴻達所標記之意見詞詞性組合，其中 V 代表動詞、N 代表名詞、ADV 為副詞、FW 為外文詞彙、Nep 則是指代定詞。表 1：邱鴻達(2011)展示標記意見詞詞性統計. 單詞. 雙詞. 三詞. 意見詞詞性組合. 標記頻率. 涵蓋率. V. 2158. 40%. N. 285. 5.3%. ADV. 50. 0.92%. FW. 24. 0.44%. ADV+V. 1780. 33%. V+V. 275. 5.1%. V+N. 43. 0.8%. ADV+N. 28. 0.52%. ADV+ADV. 21. 0.39%. A+V. 19. 0.35%. ADV+FW. 19. 0.35%. V+Nep. 16. 0.3%. V+ADV. 16. 0.3%. N+V. 15. 0.25%. ADV+ADV+V. 54. 1%. V+ADV+V. 44. 0.81%. ADV+V+V. 20. 0.37%. ADV+V+N. 17. 0.31%. V+Nep+N. 12. 0.22%. 此外，邱鴻達(2011)的研究成果指出，電影領域中的評論普遍使用一些固定的意見詞來形容電影，故只需建立一個專屬電影領域的意見詞彙庫後，即可涵蓋大部份的電影意見詞。. 10.

(22) 第五節. 屬性詞與意見詞配對. 確認語料中屬性詞及意見詞的位置後，在意見探勘的步驟上，還需要對屬性詞及意見詞做配對，才能獲知標示的正向或負向意見詞彙是否描述的是正確的評論主題。 Hu 及 Liu(2004)觀察到意見詞與屬性詞通常是一起出現的，故他們擷取出屬性詞之後，將鄰近的意見詞與屬性詞直接結合做為一個配對，達到 64%的精確率與 69%的召回率。 Zhuang et al. (2006)利用 Stanford Parser11從語料中建立每個句子的文法關係圖(dependency grammar graph)，並將之前人工標記的結果在圖上標出屬性詞及意見詞的位置（如圖 3）。. 圖 3：Zhuang 等人(2006)展示的文法關係圖. 作者接著從關係圖裡訓練出一句話當中屬性詞與意見詞配對時最常出現的一些文法規則，最後再以此文法規則套用至測試語料中，找出符合規則的意見句子並摘錄出來。表 2 展示作者所統計出來的文法規則，其中 NN 是名詞、JJ 是形. 11. http://nlp.stanford.edu/software/lex-parser.shtml 11.

(23) 容詞、VB 為動詞、RB 為副詞，而 amod 代表形容詞性修飾(adjectival modifier)、 nsub 代表名詞性主語(nominal subject)、dobj 為直接賓語(direct object)、advmod 則是副詞性修飾(adverbial modifier)。從 Zhuang 的實驗結果可以看出以文法關係圖作為屬性詞與意見詞配對的依據，獲得了比 Hu 及 Liu (2004)單純將相臨屬性詞及意見詞合併的作法高 5%~10%的精確率和召回率。表 2：Zhuang 等人(2006)展示的文法關係模型. Dependency relation template. Feature word. Opinion word. NN –amod– JJ. NN. JJ. NN –nsubj– JJ. NN. JJ. NN –nsubj– VB –dobj– NN. The first NN. The last NN. VB –advmod– RB. VB. RB. Zhuang 也指出，可以用文法關係模型擷取出來的句子屬於顯性配對，然而語料中仍存在許多的隱性配對無法由模型擷取出來，他提出兩個適用於單純句子的解決辦法；第一個是，如果文章的第一句和最後一句有出現意見詞，通常這個意見指的都是 OA (overall)，故將此意見詞配對至 OA 類別；第二個是，在訓練過程中，Zhuang 會統計每個意見詞常用在哪一類的屬性詞，若實驗語料中存在一個意見詞找不到對應的屬性詞時，則直接將其配對至該意見詞常見的屬性詞類別中。邱鴻達(2011)採用基於規則的方式，提出三種句型結構去辨識屬性詞與意見詞的對應，表 3 展示邱鴻達所提出之三種句型。. 12.

(24) 表 3：邱鴻達(2011)提出之屬性詞與意見詞配對句型. 句型. 例句. 屬性詞 + 連接詞 + 屬性詞 + 意見詞特效和劇情都很棒屬性詞 + 意見詞 + 連接詞 + 屬性詞這部電影都很棒除了女主角之外意見詞 + 連接詞 + 屬性詞. 真的很棒，比方特效方面. 然而邱鴻達也指出將近五成的意見詞在周圍詞彙內尋找不到屬性詞，故他使用 LibSVM 判別分類的特徵，以便自動辨識意見詞所屬的屬性詞類別。相較於大部份的研究會嘗試將屬性詞與意見詞配對，陳立(2010)的做法則是直接對一篇電影評論計算其連續的正負向詞彙語意分數。此做法雖然僅對意見詞做分析，未考慮意見詞是否確實配對至與電影評論相關之特徵詞，但仍獲得了約七成的正確率。. 第六節. 相關研究之改良. Turney (2002)發現電影評論之意見探勘之所以困難於其它產品評論，是因為評論者傾向於在評論中描述電影劇情，而那樣的描述通常會帶有情緒詞彙，如： bad guy 或者 violent scene 等字眼，但那通常不代表評論者的任何意見。林宇中 (2003)也在廣播劇語料情緒分類實驗中，表示具有故事敘述性的語料不適合在他的實驗中應用，因為此種情緒性語意屬於更深層的語意。相信在電影評論中，評論文章裡的字數越多時，這個問題會越容易被突顯出來。在中文電影評論相關研究中，邱鴻達(2011)的實驗語料中約只有 3%的文章字 13.

(25) 數超過 300 字，大部份文章均在 100 字以內。陳立(2010)的研究中雖未提及語料字數分布，但參考語料來源開眼電影網的評論特性，文章普遍在 200 字以內，通常以兩三句話的短評為主。整體而言，目前尚未有此領域之相關研究以長篇評論文章為語料。希望透過中文剖析系統的加入，能夠對長篇的中文電影評論更精確地配對屬性詞與意見詞，並獲得更好的評分結果。. 14.

(26) 第三章. 方法與步驟. 本論文的實驗步驟如圖 4 所示。. 圖 4：系統流程圖. 15.

(27) 第一節. 實驗語料. 本論文的實驗語料來自批踢踢實業坊12站上的 Movie 看板。批踢踢實業坊是台大學生創立並維護的電子佈告欄式網路論壇，也是目前極具人氣的網路社群之一，同時上站人數經常維持在十三萬人之譜。目前站上共一萬三千餘個討論看板，討論內容涵蓋學術、社團、生活、政治、消費、藝術等各個面向，其中的 Movie 看板便是用來討論電影情報，並提供使用者發表與電影相關之心得感想。. 圖 5：批踢踢實業坊之 Movie 看板截圖. 從近三年來的熱門電影當中，在各種不同類型或元素裡選出風格不同的七部電影，再從討論看板上針對這七部電影以程式自動擷取出各 50 篇電影評論文章作為語料。為了能夠專注在長篇電影評論的分析結果，因此實驗設定取回的電影評論字數必須超過 100 字。 12. telnet://ptt.cc 16.

(28) 在取出評論文章後，再以人工檢視每篇文章，排除掉內文明顯與評論主題無關或文章內僅包含大量重覆文字、特殊符號等不具文章性質的評論文章後，其餘文章作為實驗語料，最後實驗語料包含 321 篇文章，共 379360 字。表 4 展示每部電影所取得之有效評論文章數，表 5 展示所有有效評論文章的字數分布。表 4：實驗語料來源. 電影. 年份. 代表意義. 評論文章數. 不可能的任務４. 2011. 動作片. 49. 天龍特攻隊. 2010. 影集翻新. 47. 那些年，我們一起追的女孩. 2011. 華語劇情片. 41. 刺陵. 2009. 華語動作片. 40. 玩具總動員３. 2009. 動畫片. 49. 飢餓遊戲. 2012. 小說改編. 35. 復仇者聯盟. 2012. 科幻片. 60. 表 5：實驗語料之字數分布. 字數文章數比率. 100-500 500-1000 1000-1500 1500-2000 2000-2500 2500-3000 3000-. 72. 105. 60. 37. 20. 11. 16. 22%. 33%. 19%. 12%. 6%. 3%. 5%. 17.

(29) 第二節. 中文斷詞與人工分類意見詞彙. 首先使用中央研究院的中文斷詞系統為實驗語料進行斷詞及詞性標記。由於中文斷詞系統所標示的詞性會將帶有意見極性的詞彙標示為動詞的子分類（如： Vi 狀態類及物動詞、VH 狀態不及物動詞、VC 動作及物動詞等），所以將所有標示為動詞的詞彙擷取出來，以人工方式將每一個詞彙分為正向、負向、中性等三種類別。此外，因為副詞也會左右句子裡表達意見的情緒程度，如：「很」、「非常」會加強後續意見詞的語氣，「不」、「沒有」則會造成後續意見詞的語氣相反，故也將語料中標示為副詞（ADV）的詞彙一併擷取出來，由人工分類為加強、相反、無關等三類。表 6 與表 7 展示人工分類後的結果。表 6：人工分類意見詞結果. 意見詞個數. 原始擷取數量. 正向詞彙. 負向詞彙. 7316. 939. 841. 13%. 11%. 百分比例子. 一氣呵成、鮮明、不清不楚、落伍、高潮迭起、討喜. 18. 莫名其妙、貧乏.

(30) 表 7：人工分類副詞結果. 副詞. 原始擷取數量. 加強語氣用. 相反語氣用. 個數. 833. 85. 43. 10%. 5%. 不得不、十分、. 不可能、尚未、. 愈來愈、格外. 毫不、無法. 百分比例子. 第三節. 建立屬性詞詞庫與分類. 先從實驗語料中手動標記與電影相關的詞彙，排除特定電影專屬之名詞（如演員名、角色名等）後，建立一般電影屬性詞詞庫。接者，從 IMDb 及開眼電影網的電影資訊中（請參見圖 6），取得特定電影的導演、編劇、演員等相關人員之中英文姓名。為了解決作者在評論中使用暱稱或不同的英文譯名，透過 Google13搜尋取得每個人名的常見暱稱及各種可能的英文譯名，再加入從大量相關文章中以人工挑出特定影片中的角色名稱，彙整成特定電影屬性詞詞庫。. 13. http://www.google.com.tw/ 19.

(31) 圖 6：開眼電影網提供的電影資訊. Zhuang 等作者(2006)及邱鴻達(2011)在擷取屬性詞之後，會將每一個屬性詞分類，以便最後能依不同分類列出不同的情緒極性。在本篇論文中，參考上述兩篇論文的作法，將建立好的一般電影屬性詞詞庫分類為電影整體、劇情、人物（導演、編劇、演員、電影角色等電影相關人物）、特效音樂及其它（與評斷電影好壞有關之其它電影相關元素）等四類。表 8 展示了屬性詞的分類結果。表 8：一般電影屬性詞詞庫分類結果. 屬性詞分類. 個數. 例子. 電影整體. 65. 電影、影片、本部片、總體、刻劃、場面、戲. 劇情. 51. 主線、伏筆、劇本、情節、支線、敘事、片尾、結局. 人物. 39. 主角、人物、導演、演員、卡司、要角、選角、配角. 特效音樂及其它. 41. 主題曲、動畫、化妝、旋律、聲光、場景、佈景. 20.

(32) 第四節. 使用中文剖析系統建立文法關係圖. 句子的結構是語意分析及了解的必要訊息。在這邊選擇中央研究院的中文剖析器（CKIP Chinese Parser）14做為實驗工具。此系統為中央研究院中文詞知識庫小組所研發，採用機率式無語境規律的模型(Probabilistic Context-free Grammar)為基本剖析架構並加入結構中詞彙搭配關係機率解決結構歧義。在結構決定之後，此系統可選擇是否對結構進行語意角色的指派。分詞與詞類標記採用同為該實驗室發展的中文斷詞與詞類標記系統。透過中文剖析系統，可以為實驗語料中的所有評論文章建立文法關係圖，圖 7 為使用中文剖析系統建立文法關係圖的一個例子。. 圖 7：中文剖析系統建立之文法關係圖例子. 第五節. 配對屬性詞與意見詞. 在一般基於規則的演算法中，多半會建立類似「意見詞 + 連接詞 + 屬性詞」 14. http://godel.iis.sinica.edu.tw/CKIP/parser.htm 21.

(33) 的一條規則來配對意見詞與屬性詞。然而觀察到下面的例句 1：. 再好看的電影也會變得無聊. (例句 1). 在人工標示的結果裡，會將屬性詞「電影」配對給意見詞「無聊」。但若採用前述規則進行配對，系統會將屬性詞「電影」配對給意見詞「好看」，失去了本意。如果根據 Hu 及 Liu(2004)的作法，直接將屬性詞與最近的意見詞做配對，也會造成「電影–好看」的配對，而忽略了句子當中的另一個意見詞「無聊」的意見極性。因此，本論文引入中文文法剖析器的應用，嘗試解決這個問題。圖 8 是透過中央研究院之中文剖析系統對上面提及的例句進行分析後的結果。. 圖 8：例句 1 的文法樹狀圖. 可以看出在句子的結構中，屬性詞「電影」所在之 NP（Noun Phrase，名詞片語）與最後的意見詞「無聊」是在文法樹上的同一層級。這代表整個 NP 結構是被同一層級的「變得」、「無聊」所修飾，因此透過文法樹狀圖，可以知道應將 22.

(34) 「電影」與「無聊」配對。另外一個常見的問題是，當一個句子中同時出現兩個屬性詞時，通常會需要知道意見詞實際上是在修飾哪一個屬性詞，或者兩者均有修飾到。考慮下面例句 2 與例句 3：. 周杰倫的電影實在不吸引人. (例句 2). 周杰倫和電影都不吸引人. (例句 3). 例句 2 的「不–吸引人」主要是在形容「電影」，但例句 3 卻同時用來形容了「周杰倫」與「電影」，試著用中文剖析器分析這兩個句子，得到圖 9 與圖 10 的文法樹狀圖。. 圖 9：例句 2 的文法樹狀圖. 23.

(35) 圖 10：例句 3 的文法樹狀圖. 圖 9 中「周杰倫」與「電影」是在文法樹上落在不同層級，但在圖 10 中則是相同層級，這樣的特性提供了更多資訊去判斷屬性詞及意見詞的配對關係。根據以上三個例句，本論文提出一個判斷屬性詞及意見詞配對的步驟，說明如下： 1. 先以 Breadth-First Search 走訪文法樹，確認每個節點的所在層級。. 2. 從樹根開始，在第一個層級裡尋找是否存在屬性詞或意見詞，其中判斷方式以是否符合先前建立之屬性詞詞庫與意見詞詞庫為準。 2.1. 如果同時找到屬性詞與意見詞，則無論屬性詞與意見詞的個數有多少，將每一個屬性詞與所有的意見詞進行配對，例如：如果找到三個屬性詞與兩個意見詞，則會擷取出六個配對。最後結束這個句子的搜尋流程。. 2.2. 如果只找到屬性詞而沒有找到意見詞，則在此層級搜尋是否有子樹標示為 VP（Verb Phrase，動詞片語）。若存在 VP 子樹，則搜尋此子樹之所. 24.

(36) 有節點以擷取意見詞出來與屬性詞配對；若不存在 VP 子樹，或在子樹中找不到意見詞，則結束這個句子的搜尋流程。 2.3. 如果只找到意見詞而沒有找到屬性詞，則在此屬級搜尋是否有子樹標示為 NP。若存在 NP 子樹，則搜尋此子樹之所有節點以擷取屬性詞出來與意見詞配對；若不存在 NP 子樹，或在子樹中找不到屬性詞，則結束這個句子的搜尋流程。. 2.4. 如果兩者皆尋找不到，但同時存在 VP 與 NP 子樹，則分別在 NP 子樹中搜尋屬性詞及在 VP 子樹中搜尋意見詞，再將擷取出來的詞彙雙雙進行配對。. 2.5. 如果透過 2.1 至 2.4 仍然找不到配對，則透過遞迴方式對此層級的每一個子樹重覆步驟 2 的搜尋。. 3. 在屬性詞與意見詞分別的所在層級間，以先前建立的副詞詞庫判斷是否存在副詞，如有，則將此副詞附加在所擷取出來的配對當中。. 4. 在結束搜尋流程後，如果只有擷取出意見詞而沒有配對至屬性詞，系統會將此意見詞暫時配對至 NULL 屬性詞。. 5. 最後，依擷取出來的屬性詞所屬之四大類分類，將配對的句子收集在不同的類別當中，其中 NULL 屬性詞獨立出來成為另一個分類。圖 11 為程式實際執行時的流程，圖 12 為此流程演算法的 Pseudo Code。. 25.

(37) 圖 11：擷取屬性詞與意見詞配對的程式流程. 26.

(38) function match_pairs(sentence_tree) (feature_words, opinion_words, adv_words, np_struct, vp_struct) = find_in_first_level(sentence_tree). if length(opinion_words) == 0 then set adv_words to null. if length(vp_struct) == 0 then return "no pairs". (opinion_words, adv_words) = BFS_search(vp_struct). if length(opinion_words) == 0 then foreach sub_tree in sentence_tree do result = match_pairs(sub_tree) push result into sub_results. return sub_results end if end if. if length(feature_words) == 0 then if length(np_struct) == 0 then return pairs(null, adv_words, opinion_words). (feature_words) = BFS_search(np_struct). if length(feature_words) == 0 then return "no pairs" end if. return pairs(feature_word, adv_words, opinion_words). 圖 12：擷取屬性詞與意見詞配對的演算法 Pseudo Code. 27.

(39) 圖 13 至圖 17 展示此實驗步驟所處理的五種典型配對句型。以圖 14 為例，由於在文法樹狀圖的第一層找到屬性詞「電影」，但沒有找到意見詞庫中的詞彙，故改為從第一層中所找到的 VP 子樹中，以 BFS 搜尋層級最高且符合意見詞庫的詞彙找到意見詞「精彩」；因此在這個句子裡，將「電影」和「精彩」進行配對，完成擷取步驟。表 9 展示其他以此實驗步驟擷取出來的配對例子。. 圖 13：配對句型 1（N+V）. 圖 14：配對句型 2（N+VP）. 28.

(40) 圖 15：配對句型 3（NP+V）. 圖 16：配對句型 4（NP+VP）. 圖 17：配對句型 5（NULL+V）. 29.

(41) 表 9：屬性詞與意見詞的配對例子. 原始句子. 配對結果. 呈現笑點的手法可能也不是那麼精致. 手法–不–精緻. 是讓我們能反思人生的好故事. 好–故事. 對預告印象是配樂、特效感覺還不賴. 配樂–不–賴特效–不–賴 NULL –享受. 看下來還算享受. 第六節. 意見詞分類. 根據第五節所擷取出來的配對，分別統計配對至不同類別當中的意見詞出現次數，引入 TF-IDF（Term Frequency–Inverse Document Frequency）公式計算每個意見詞在特定類別中的重要程度。TF-IDF 是一種用於資訊檢索與文字探勘常用的加權技術，用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。使用的 TF-IDF 公式如下： 𝑡𝑓𝑖,𝑗 =. 𝑛𝑖,𝑗 ∑𝑘 𝑛𝑘,𝑗. 𝑖𝑑𝑓𝑖,𝑗 ∗ = log. (1). ∑𝑝 𝑛𝑖,𝑝 1 + ∑𝑝,𝑝≠𝑗 𝑛𝑖,𝑝. (2). 𝑡𝑓_𝑖𝑑𝑓𝑖,𝑗 ∗ = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖,𝑗 ∗. (3). 其中𝑛𝑖,𝑗 表示意見詞𝑡𝑖 在屬性詞類別𝑔𝑗 中的出現次數。𝑡𝑓𝑖,𝑗 表示在𝑔𝑗 中𝑡𝑖 的出現次數除以在𝑔𝑗 中出現的所有意見詞總次數，亦即𝑡𝑖 在𝑔𝑗 中的出現頻率。傳統的 IDF 30.

(42) 值分子是整體中有出現詞彙的文章篇數，但本實驗的意見詞是根據屬性詞做分類的，故在傳統定義上，IDF 值的分子固定會只有四種分類，不易鑑別。故選擇採用改良後的 IDF 定義，以𝑖𝑑𝑓𝑖,𝑗 ∗ 表示；其分子是意見詞𝑡𝑖 在所有屬性詞類別中出現的總次數，分母是意見詞𝑡𝑖 在𝑔𝑗 以外類別的出現次數總和（加 1 以避免除以零），兩者相除再取對數後得到𝑖𝑑𝑓𝑖,𝑗 ∗ 的值。而最後的𝑡𝑓_𝑖𝑑𝑓𝑖,𝑗 ∗ 即為上述兩個值的乘積。在計算出每個意見詞在不同屬性詞類別中的 TF-IDF 值後，設定兩個門檻值 𝑀1 及𝑀2。當某一屬性詞類別中的意見詞 TF-IDF 值大於𝑀1，並且與該意見詞出現在其它類別中最大的 TF-IDF 值，兩者相除後大於𝑀2 時，就定義此意見詞出現時若沒有配對的屬性詞，將自動歸類在此常見屬性詞類別下，公式如下： ∗. 𝑡𝑖 ∈ 𝑔𝑗 if 𝑡𝑓_𝑖𝑑𝑓𝑖,𝑗 > 𝑀1. 𝑡𝑓_𝑖𝑑𝑓𝑖,𝑗 ∗ and > 𝑀2 max{𝑡𝑓_𝑖𝑑𝑓𝑖,𝑘 |∀𝑘, 𝑘 ≠ 𝑗}. (4). 根據人工調整門檻值實驗觀察篩選出來的結果，考慮到意見詞與屬性類別的確實相關性，最後將此兩個門檻詞設定為𝑀1 = 0.02、𝑀2 = 2.0。表 10 為透過 TF-IDF 公式所篩選出來的意見詞例子。表 10：以 TF-IDF 篩選出來的意見詞節錄. 屬性詞類別. 篩選出的意見詞. 電影整體. 值得、推薦、瑕不掩瑜、叫座. 劇情. 鬆散、動人、老套、冗長. 人物. 迷人、鮮活、愛上、成熟. 特效音樂其它. 震撼、好聽、恰到好處、逼真. 31.

(43) 第七節. 文章評分. 整合第五節及第六節的成果，即可為每一個屬性詞與意見詞配對（即便是 NULL 配對）進行評分，採用的評分公式如下： 𝑆𝑐𝑜𝑟𝑒𝑖,𝑗 = 𝑜𝑝𝑖𝑛𝑖𝑜𝑛_𝑠𝑐𝑜𝑟𝑒(𝑂𝑝𝑖𝑛𝑖𝑜𝑛𝑖,𝑗 ) × ∏ 𝑎𝑑𝑣_𝑠𝑐𝑜𝑟𝑒(𝐴𝑑𝑣𝑖,𝑗,𝑘 ) 𝑘. (5). 𝑆𝑐𝑜𝑟𝑒𝑖,𝑗 代表這篇文章的屬性詞類別𝑔𝑗 裡的第 i 個配對的分數；𝑂𝑝𝑖𝑛𝑖𝑜𝑛𝑖,𝑗 表示在這個配對裡的意見詞；而𝐴𝑑𝑣𝑖,𝑗,𝑘 代表在這個配對裡的副詞，由於副詞可能不只一個，所以會有下標 k 的標示。opinion_score 函數會將意見詞轉換成 1 與-1 兩種數值，1 代表此意見詞具有正面情緒，而-1 則代表負面情緒。adv_score 函數會將副詞對應至 1.2 及-1 兩種數值，1.2 代表加強語氣的副詞，-1 代表相反語氣的副詞。而配對的分數即為每個詞的分數的乘積。有了每一個配對的分數，就可以將每一個配對的分數加總，計算整篇文章的意見分數，公式如下： 𝑆𝑐𝑜𝑟𝑒𝑗 = ∑ 𝑆𝑐𝑜𝑟𝑒𝑘,𝑗. (6). 𝑘. 對於計算出來的文章分數，將其對應至五個等第，也就是 1 至 5 分的評分結果。其中 3 分代表不含意見成份，1 分及 2 分代表整篇文章帶有負面情緒，而 4 分及 5 分代表整篇文章具有正面情緒。對應公式需要四個數值間隔，透過系統評分與第四章所獲得的人工評分計算誤差值作為訓練依據，反覆訓練找出能獲得最低總誤差值的數值間隔，最終得到表 11 的對照表格。 32.

(44) 表 11：五等第制分數與原始分數的對照表. 第八節. 五等第制分數. 原始分數 𝑺𝒄𝒐𝒓𝒆𝒋. 1. 𝑆𝑐𝑜𝑟𝑒𝑗 ≤ −0.9. 2. −0.9 < 𝑆𝑐𝑜𝑟𝑒𝑗 ≤ −0.5. 3. −0.5 < 𝑆𝑐𝑜𝑟𝑒𝑗 < 0.5. 4. 0.5 ≤ 𝑆𝑐𝑜𝑟𝑒𝑗 < 2. 5. 𝑆𝑐𝑜𝑟𝑒𝑗 ≥ 2. 電影推薦分數. 在最後這個步驟裡，將第七節計算出來每一篇評論文章的五等第制分數加總後計算平均分數，即可得到每部電影的一個五等第制推薦觀影分數。. 33.

(45) 第四章. 實驗結果與分析. 在這個章節裡，會說明評估方式與評估資料來源、分析實驗結果，以及與網路上一般電影評分網站互相比對，確定系統的可信度。. 第一節. 實驗結果. 本系統在實驗語料的七部電影共 321 篇電影評論文章中，一共擷取出 11837 個屬性詞與意見詞配對，其中有 4931 個無效配對，剩餘 6906 個有效配對作為系統評分之依據，平均每篇評論文章包含 21.5 個有效配對。表 12 展示配對類型的分布狀況。表 12：擷取的意見詞與屬性詞配對類型分布. 配對類型. 擷取出配對個數. 比例. 1. 屬性詞與意見詞配對. 5747. 48.5%. 2. 屬性詞為 NULL，但意見詞可區分類別. 1159. 9.8%. 3. 無效配對. 4931. 41.7%. 總計. 11837. 100%. 針對實驗語料的七部電影，觀察在「電影整體」類別中，五等第制系統評分所佔的評論文章數量，整理如下頁表 13。. 34.

(46) 表 13：系統評分結果分布. 電影. 1分. 2分. 3分. 4分. 5分. 平均分數. 不可能的任務４. 2. 0. 14. 8. 25. 4.1. 刺陵. 6. 1. 9. 14. 10. 3.5. 天龍特攻隊. 2. 3. 9. 14. 19. 4.0. 復仇者聯盟. 5. 1. 6. 17. 31. 4.1. 玩具總動員３. 1. 0. 10. 17. 21. 4.2. 那些年，我們一起追的女孩. 4. 1. 9. 7. 20. 3.9. 飢餓遊戲. 13. 0. 6. 9. 7. 2.9. 第二節. 實驗評估. 邀請三位平常有看電影習慣的同學為每一篇電影評論文章分別給予一個五等第制的分數。在回收所有分數後，對於每一篇評論文章，將三位同學的給分計算平均並四捨五入，做為系統評分的評估標準。為評估三位同學的給分一致性，採用 weighted kappa 計算其信度，其中加權方式採用平方加權，公式如下： κ𝑤 =. ∑ 𝑤𝑓0 − 𝑤𝑓𝑐 , 𝑛 − ∑ 𝑤𝑓𝑐. 𝑞𝑢𝑎𝑑𝑟𝑎𝑡𝑖𝑐 𝑤𝑒𝑖𝑔ℎ𝑡 = 1 − (. 𝑖−𝑗 ) 𝑘−1. (7). w𝑓0 表示每種不一致情況的加權頻率，w𝑓𝑐 表示每種不一致情況的預期加權頻率，𝑘是序位的個數，(𝑖 − 𝑗)是不一致性的程度。三位同學（以下稱甲、乙、兩）互相比較評分分數的分布如表 14、表 15 與表 16。. 35.

(47) 表 14：評分者甲與評分者乙的分數分布統計. 乙. 甲. 1. 2. 3. 4. 5. 1. 14. 15. 2. 0. 0. 31. 2. 9. 14. 7. 0. 0. 30. 3. 0. 11. 38. 8. 2. 59. 4. 0. 0. 8. 47. 31. 86. 5. 0. 0. 1. 27. 87. 115. 23. 40. 56. 82. 120. 321. 表 15：評分者甲與評分者丙的分數分布統計. 丙. 甲. 1. 2. 3. 4. 5. 1. 13. 15. 0. 0. 0. 28. 2. 10. 16. 11. 1. 0. 38. 3. 0. 9. 33. 8. 0. 50. 4. 0. 0. 12. 45. 23. 80. 5. 0. 0. 0. 28. 97. 125. 23. 40. 56. 82. 120. 321. 表 16：評分者乙與評分者丙的分數分布統計. 兩. 乙. 1. 2. 3. 4. 5. 1. 23. 5. 0. 0. 0. 28. 2. 8. 20. 10. 0. 0. 38. 3. 0. 4. 35. 10. 1. 50. 4. 0. 1. 13. 43. 23. 80. 5. 0. 0. 1. 33. 91. 125. 31. 30. 59. 86. 115. 321. 36.

(48) 表 17、三位評分者兩兩互相比較之 weighted kappa 值. 評分者. κ𝒘. 甲、乙. 0.872256. 甲、丙. 0.888578. 乙、丙. 0.892789. 表 17 為三位評分者兩兩互相比較之 weighted kappa 值，由結果可知其 kappa 值均高於 0.8，屬於 almost perfect，表示三位同學的給分具有高度一致性，這也表示實驗語料中的電影評論意見極性具有明確的傾向，適合進行分類與評估。表 18 為三位評分者的給分平均後的人工評分結果分布及各部電影的總平均分數。表 18：人工評分結果分布. 電影. 1分. 2分. 3分. 4分. 5分. 平均分數. 不可能的任務４. 0. 5. 8. 11. 25. 4.1. 刺陵. 21. 10. 4. 3. 2. 1.9. 天龍特攻隊. 1. 2. 8. 10. 26. 4.2. 復仇者聯盟. 0. 3. 16. 20. 21. 4.0. 玩具總動員３. 0. 0. 0. 16. 33. 4.7. 那些年，我們一起追的女孩. 1. 3. 10. 16. 11. 3.8. 飢餓遊戲. 7. 7. 14. 7. 0. 2.6. 37.

(49) 本實驗採用 Mean Reciprocal Rank (MRR) 評估每一篇評論文章的系統評分與人工評分之間的分數差距，使用公式如下： |𝐴|. 1 1 𝑀𝑅𝑅 = ∑ , |𝐴| 𝑟𝑎𝑛𝑘𝑖. 𝑟𝑎𝑛𝑘𝑖 = |人工評分(𝐴𝑖 ) − 系統評分(𝐴𝑖 )| + 1. (8). 𝑖=1. 其中 𝐴 是所有評論文章的集合，𝐴𝑖 是第 𝑖 篇評論文章。在 321 篇評論文章中，本實驗系統獲得 𝑀𝑅𝑅 = 0.61 的結果，其 𝑟𝑎𝑛𝑘 值分布如表 19。表 19：系統給分與人工給分的 rank 值分布. 評分誤差. 0. 1. 2. 3. 4. 𝒓𝒂𝒏𝒌𝒊. 1. 2. 3. 4. 5. 文章篇數. 110. 117. 67. 18. 9. 比例. 34.3%. 36.4%. 20.9%. 5.6%. 2.8%. 從 rank 值的分布狀況，可以看到有超過三成的文章是被正確評分的，而評分誤差在 1 分以內的文章更是佔了整體的 70.7%，誤差超過兩分的比例低於 9%，表示系統的評分結果具有一定的可靠性。由於五等第制的分數帶有一定的主觀因素，例如 4 或 5 分雖然代表作者推薦觀賞，但評分時要給予 4 分或是 5 分仍有模糊地帶，因此將 4 至 5 分視為評論者推薦這部電影，1 至 3 分視為不推薦，與人工評分的結果進行比較，觀察其 Recall 及 Precision 製成表 20。. 38.

(50) 表 20：將評分視為推薦與不推薦的實驗結果統計. 文章數. 系統評分. 正確評分. 推薦（4~5 分）. 201. 219. 156. 不推薦（1~3 分）. 120. 102. 57. Recall. Precision. F-score. 77.6%. 71.2%. 74.3%. 47.5%. 55.9%. 51.4%. 從表 20 中，發現本實驗系統對於推薦（4~5 分）的評論達到 77.6%的 Recall 及 71.2%的 Precision。但對於不推薦（1~3 分）的評論僅有約 50%的結果。表 21：系統評分與人工評分的分數比較. 電影. 系統評分. 人工評分. 誤差. 不可能的任務４. 4.1. 4.1. 0. 刺陵. 3.5. 1.9. -1.6. 天龍特攻隊. 4.0. 4.2. 0.2. 復仇者聯盟. 4.1. 4. -0.1. 玩具總動員３. 4.2. 4.7. 0.5. 那些年，我們一起追的女孩. 3.9. 3.8. -0.1. 飢餓遊戲. 2.9. 2.6. -0.3. 最後觀察表 21 人工評分的結果分布，可以看到大部份的電影平均分數均與實驗系統評分相近，「不可能的任務４」更是獲得完全吻合的評分結果，其中只有「刺陵」獲得高達-1.6 的分數誤差。下一節將針對「刺陵」的評分結果做錯誤分析。. 39.

(51) 第三節. 錯誤分析. 由表 21 中可以看到在電影「刺陵」的評分上，人工評分的平均分數為 1.9 分，但系統卻給了 3.5 分的結果。我們嘗試從原始語料中找出問題發生的原因。節錄語料中兩段關於「刺陵」的評論文章如圖 18 與圖 19。. …接下來的故事發展也是充滿令人意外的驚喜。繁華的城市和荒涼的沙漠、二十世紀初馬賊裝扮的沙塵暴兵團和二十一世紀的比基尼少女，展現劇組不受地理歷史拘束的創意。最酷的莫過於周杰倫和陳楚河的對手戲，看完這段，我才驀然驚覺原來開頭的打鬥片段只是劇組的障眼法… 圖 18：刺陵的評論文章節錄之一. …從這幾點來看刺陵確實是一部惡搞片沒錯我事先了解了這部片的劇情跟細節之後才來看這部片很意外的發現這是部中等以上的優良惡搞片將來出 dvd 時我會很樂意買一套來列入我的惡搞片收藏的圖 19：刺陵的評論文章節錄之二. 從圖 18 與圖 19，可以發現文章充滿明褒暗貶的語意。以圖 18 的段落來說，的系統擷取出「故事–驚喜」、「劇組–不–拘束」、「對手戲–最–酷」等三個帶正面情緒的配對；而圖 19 亦可擷取出「片–優良」、「NULL –收藏」等正面情緒的配對；因此系統對此兩篇評論給予了 4 與 5 分的結果。然而如果由人工觀看此兩篇評論文章，即可發現整篇評論都帶有不推薦的語意，因此人工標示的分數均只有 1 分，造成極大的誤差，這也是造成系統在不推薦的評論上獲得較低的 Recall 與 Precision 的原因。. 40.

(52) 再觀察分數誤差排第二名的「玩具總動員３」。從圖 20 的節錄文章中可以看到作者使用了「眼淚」、「崩潰」、「痛哭」等負面的情緒詞彙。事實上這是因為此部電影的劇情確實感動人心，導致大部份的評論者都會在文章中都提到了「流淚」的行為。這樣的負面詞彙雖然不致於造成評論分數從「推薦」變成「不推薦」的程度，但還是造成部份評論的系統評分略低於人工評分，以致分數誤差略高於其它電影。 …當我看到他們一個接著一個從容就義的表情，明明知道他們會安全離開，但是從翠斯握起紅心時，我就開始一滴二滴掉眼淚，到抱抱龍時已經是水龍頭沒二樣，最後到達胡迪時，簡直是將近崩潰痛哭… 圖 20：玩具總動員３的評論文章節錄. 此外，實驗系統在處理小說改編的電影時也易受影響，觀察圖 21 的「飢餓遊戲」評論文章段落。 …飢餓遊戲的小說是屬於鋪陳角色內心跟劇情張力很強的小說在看的時候會好像在看金庸小說一樣停不下來一直看下去內容透過文字的描述其實很多規則跟設定都講的很清楚但搬到電影上由於時間限制說真的一整個四不像… 圖 21：飢餓遊戲的評論文章節錄. 實驗系統從此段落中擷取出「劇情張力–很–強」、「設定–很–清楚」等多個正面情緒的配對，然而由人眼觀察發現此段落的正面意見詞均在描寫小說的內容，而非形容電影本身，造成系統評分的誤判。. 41.

(53) 第四節. 電影屬性類別評分. 在計算電影屬性類別的評分時，發現一個現象：不是每一篇評論文章都會同時提到「劇情」、「人物」及「特效音樂及其它」等元素。實驗顯示一部電影約 50 篇的評論中，大約會有一至三成的比例是完全沒有提到某一個元素的；比方說在劇情片中就不太會有人發表特效相關的意見。一篇沒有提到某個元素的評論，系統會在將該類別評為 3 分，但 3 分的出現比例太高時，會在計算平均分數時稀釋掉真正帶有意見的評論。因此在計算電影屬性評分的平均時，本實驗採取先排除 3 分的評論後，再計算平均分數的作法。表 22 為實驗的結果數據。表 22：電影屬性類別的評分結果. 電影. 劇情. 人物. 特效音樂及其它. 不可能的任務４. 3.90. 3.82. 4.06. 刺陵. 2.93. 2.48. 3.29. 天龍特攻隊. 3.59. 4.11. 3.60. 復仇者聯盟. 3.91. 4.10. 4.00. 玩具總動員３. 4.43. 4.03. 3.89. 那些年，我們一起追的女孩. 3.79. 3.88. 3.72. 飢餓遊戲. 3.55. 3.48. 3.47. 42.

(54) 從表 22 的結果中，發現動作片或科幻片符合預期，容易在「特效音樂及其它」類別中獲得較高的分數。而明星較多的電影如「天龍特攻隊」與「復仇者聯盟」會在「人物」類別獲得較高的分數，這或許是因為評論者傾向於在評論中提及喜愛的明星。透過針對不同電影屬性類別的評論，可以獲知評論者傾向於用什麼詞彙形容某個類別，而使用本系統的使用者也可以經由評論者常用的形容詞窺知電影的輪廓。表 23 節錄在此次實驗語料中常用在特定電影屬性類別的詞彙。表 23：評論者在特定電影中常用的詞彙節錄. 電影. 劇情. 不可能的任務４. 玩具總動員３. 人物. 特效音樂及其它. 緊湊、刺激、緊張、好、強、輕鬆、鮮. 經典、精彩、罕見、. 幽默、驚人. 明、帥氣. 豐富. 引人入勝、完美、. 重要、愛、深刻、. 漂亮、值得、中看. 感動、出乎意料. 幽默. 那些年，我們一起感動、低級、缺乏、喜歡、深刻、特別、出色、有趣、突兀追的女孩. 第五節. 感人、新鮮. 鮮活、清新. 與網路評分比較. 為了了解語料中的七部電影對一般民眾的觀影心得，試著從 IMDb 網站中收集會員投票評分的結果15。 15. IMDb 會員投票評分的結果參考截自 2012/6/15 於 IMDb 網站上呈現的分數. 43.

(55) IMDb 為目前全球公認最龐大的電影資料庫，在該網站上，註冊會員可以為每部電影給予最低 1 分至最高 10 分的評分，網站使用一種獨特的數學機制確保投票結果不受惡意投票的影響，維持公平性與可信度。由於 IMDb 採十分制，故表 24 中將 IMDb 的原始分數除以 2 之後對應至五等第制分數，以便與實驗系統評分做比較。表 24：實驗系統的評分與 IMDb 會員投票評分之比較. 電影. 系統評分. IMDb. IMDb 對應五等第制. 不可能的任務４. 4.1. 7.4. 3.70. 刺陵. 3.5. 3.9. 1.95. 天龍特攻隊. 4.0. 6.9. 3.45. 復仇者聯盟. 4.1. 8.6. 4.30. 玩具總動員３. 4.2. 8.5. 4.25. 那些年，我們一起追的女孩. 3.9. 7.5. 3.75. 飢餓遊戲. 2.9. 7.6. 3.80. 雖然 IMDb 的評論作者幾乎不可能與語料中的評論作者重疊，因此單純分數的比較不大具有意義。但仍然可以看出透過本實驗系統，在每部電影隨機擷取的約 50 篇評論文章中所計算出來的推薦觀影分數仍與 IMDb 網站的推薦分數相近。這表示透過本實驗流程所獲得的推薦分數符合一般大眾對電影的觀感且具有一定程度的可信度。. 44.

(56) 第五章第一節. 結論與未來發展. 結論. 在本論文的研究中，提出一個基於中文文法剖析系統的意見評分流程，改良屬性詞與意見詞的擷取與配對方式，可以針對具大量字數的評論文章獲得更有效的分析。並且透過本實驗系統，可以針對網路上收集回來的電影評論文章，計算出每篇文章的意見分數，進而獲得整個電影的推薦分數，以 5 等第制的方式呈現。實驗的結果證明本論文提出的系統的評分結果在誤差一分的情況下有 70.7% 的準確率；將五等第化為推薦與不推薦的結論時，也分別獲得了 F-score 74.3%與 51.4%的成果。透過針對不同屬性詞類別所擷取回來的意見詞，可以統計出評論者對於特定電影及特定屬性上常用的形容詞，讓系統的使用者可以初步先了解此電影的特性。最後，將系統的評分結果與著名的電影評分網站 IMDb 做比較，發現大部份電影的評分都相當接近 IMDb 會員投票的結果，這表示透過隨機擷取一定數量的網路評論文章以自然語言處理分析意見極性的結果，可以獲得與不同評論族群的人為投票評分相近的結果。說明在電影評論的意見極性分析上，本系統可做為參考輔助之用；對於使用者來說，也可以透過大量收集網路評論文章來幫助判斷電影的推薦程度，節省人工閱讀的時間。. 45.

(57) 第二節. 未來發展. 在實驗過程中，我們發現屬性詞可能會影響意見詞極性分類的潛在議題；也就是當意見詞用來形容不同的主體時，其極性可能會剛好相反。由於本實驗標記意見詞極性時採用獨立標記，並未參考意見詞在句子中的呈現方式，因此未能評估此議題對結果增進的幅度。然而未來若能透過機器學習的方式針對意見詞與不同屬性詞配對時的極性分類，應能獲得更為準確的情感分類結果。根據實驗結果分析，也發現造成評分結果不佳的兩個主要因素。一個是當電影改編自小說時，會導致文章作者傾向一併評論小說內容，造成系統無法正確判斷意見持有者（opinion holder）而獲得較差的評分結果。另一個則是當評論文章帶有明褒暗貶的語意或者強調感動的落淚時，系統無法從意見詞表面上的極性得知作者真正的意圖。事實上，判斷一句話在所屬情境下的實際語意，也就是語用學（pragmatics）的研究，一向是自然語言處理中相當重要的領域之一。在情感分類的議題上，如果能夠在處理評論文章時，從詞彙的意義、句子的意義，進而分析在整個文章情境下的語意，就應能獲得更正確的分類結果，這也將會是未來研究的首要目標。. 46.

(58) 參考文獻 Minqing Hu and Bing Liu (2004), “Mining and summarizing customer reviews,” Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2004, pp.168-177. Kekang Lin (1998), “Dependency-based evaluation of MINIPAR,” Workshop on the Evaluation of Parsing Systems, Granada, Spain, 1998. NTUSD. (National. Taiwan. University. Semantic. Dictionary). ，. http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html . Ana-Maria Popescu and Oren Etzioni (2005), “Extracting product features and opinions from reviews,” Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, Stroudsburg, PA, USA, 2005, pp.339-346. Likun Qiu, Weishi Zhang, Changjian Hu, and Kai Zhao (2009), “SELC: A self-supervised model for sentiment classification,” Proceedings of the 18th ACM Conference on Information and Knowledge Management, New York, NY, USA, 2009, pp.929-936. Peter D. Turney (2002), “Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews,” Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, 2002, pp.417-424. Li Zhuang, Feng Jing, and Xiao-Yan Zhu (2006). “Movie review mining and summarization,” Proceedings of the 2006 ACM CIKM International Conference on Information and Knowledge Management, Arlington, Virginia, USA, 2006, pp.43-50. 中文斷詞系統，中文詞知識庫小組，中央研究院，http://ckipsvr.iis.sinica.edu.tw/ 中文剖析系統，中文詞知識庫小組，中央研究院， http://ckip.iis.sinica.edu.tw/CKIP/parser.htm. 47.

(59) 朱嫣嵐，閔錦，周雅倩，黃萱菁，吳立德，“基於 HowNet 的詞彙語義傾向計算”，中文信息學報，第 20 卷第 1 期，2006 年，pp.14-20。李佳穎，古倫維，陳信希，“意見持有者辨識之研究”，中文計算語言學期刊，第 14 卷第 4 期，2009 年，pp.101-114。李政儒，“應用廣義知網以支援情緒分析之研究”，國立臺灣大學資訊工程學研究所碩士論文，2011 年。李振昌，李御璽，陳信希，“中文文本人名辨識問題之研究”，第七屆計算語言學研討會論文集，1994 年，pp.203-222。林宇中，“基於語意內容分析之情緒分類系統”，國立成功大學資訊工程學系碩士論文，2003 年。邱鴻達，“意見探勘在中文電影評論之應用”，國立交通大學資訊科學與工程研究所碩士論文，2011 年。陳立，“中文情感語意自動分類之研究”，國立臺灣師範大學資訊工程所碩士論文，2010 年。梅家駒，竺一鳴，高蘊琦，殷鴻翔編著，“同義詞詞林”，臺灣東華書局股份有限公司出版，1997 年。婁德成，姚天昉，“漢語句子語義極性分析和觀點抽取方法的研究”，計算機應用，第 26 卷第 11 期，2006 年，pp.2622-2625。. 48.

(60)