• 沒有找到結果。

使用廣義知網於情感詞彙之極性分析研究

N/A
N/A
Protected

Academic year: 2021

Share "使用廣義知網於情感詞彙之極性分析研究"

Copied!
113
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:. 侯文娟 博士. 使用廣義知網於情感詞彙之極性分析研究 Polarity Analysis of Sentiment Vocabulary Using E-HowNet. 研究生: 陳傳生 撰 中華民國 一零四年 六月.

(2) 摘要. 近幾年隨著網路的快速發展,我們可以根據自己的需求,很方便的找到各式 各樣相關的資料。在消費前,人們往往習慣於收集評論和分析做為參考;而評論 中出現的情感詞彙更是影響使用者看法的指標。採用人工的方式找出意見詞彙, 雖然準確度高,卻相當耗費時間和人力,更永遠不可能趕上資訊產生的速度。 在此本論文提出一種非監督的方法,過程不需要人工的介入。主要目的是分 析電影領域的評論文章,從中找出帶有情感的詞彙,並給予極性。本論文分兩大 部分處理此問題,第一部分透過中文的語法規則找出情感詞彙可能出現的位置, 收集這些位置出現的詞彙做為種子,接著透過廣義知網進行擴充。本研究統計廣 義知網對部分詞彙情緒標記的正負數目,給予一個類別中的成員相同的極性。 在第二部分中,針對國立臺灣大學情緒詞詞典 NTUSD(舊版)進行斷詞分 析,再次透過廣義知網擴充,找出可能的情緒詞彙。對於無法由廣義知網部分詞 彙的情緒標記而得到極性的詞彙,和 NTUSD(舊版)進行完全比對,試著納入 更多的擴充詞彙。最後利用前幾步驟中得到的類別整體極性,為帶有複雜概念結 構的詞彙分類極性。 結合兩部分後,本研究以人工方式選出的 980 個情緒詞彙做測試,實驗結果 顯示可以得到 92.48%的正確率。 關鍵詞:自然語言處理,情緒分析,中文處理,廣義知網,情感詞典 i.

(3) Abstract. The sentiment vocabularies are the most powerful key point which can influence user’s opinion in commends. It is very time-wasted and costs people lots of efforts to manually make the polarity classification. Besides, it is impossible for us to catch the speed of information produced in the World Wide Web. The thesis proposes an unsupervised method to deal with the problem of the polarity classification. The goal is to analyze the commends in the movie domain, to find the sentiment vocabularies, and to classify them with the polarity. The research consists of two main parts. In the first part, the Chinese syntactic rules are built to find the positions where the sentiment vocabularies may appear. The vocabularies in the positions are collected as the seeds, and then E-HowNet is utilized to expand the sentiment vocabularies. In the second part, the terms in NTUSD are segmented and served as seeds, and E-HowNet is employed subsequently. The terms in NTUSD are used to determine the polarity of the words which can't be classified in the preceding steps. At last, we use the polarity of the class to classify the structural words in E-HowNet. Combining with the two parts, there are 980 sentiment vocabularies chosen as the test data in a man-made fashion. The result shows a good performance of 92.48% ii.

(4) accuracy.. Keywords: NLP, sentiment analysis, Chinese parser, E-HowNet, semantic dictionary. iii.

(5) 謹獻給. 我的家人,指導教授,以及所有幫助過我的人. iv.

(6) 致謝. 本論文得以完成,首先要感謝我的指導教授侯文娟老師,在這兩年來引導我 做研究。讓我能從零開始,一步步踏進自然語言處理的領域中;在研究遇到瓶頸 時,老師也給我許多幫助和提點,讓我能突破困難,見識到不同的眼界。此外老 師也提供了良好的研究環境讓我們能夠心無旁騖的投入研究,獲得許多寶貴的知 識和追求學問的方法,在此向老師致上最高的謝意。 在研究所的期間,感謝一路上遇到的所有同學。無論是實驗室的同窗同學、 修課時互相討論和勉勵的同學、甚至是一起去享用午餐的同學。在課業上、在生 活都給我許多有形或無形的幫助,同時也為研究生活增添一點輕快和充實。 感謝我的家人,這兩年的支持讓我能無後顧之憂的完成學業,讓我在迎向未 來的挑戰時更有勇氣,更有自信面對。. v.

(7) 目錄. 摘要..................................................................................................................................i Abstract..........................................................................................................................ii 目錄................................................................................................................................vi 附表目錄......................................................................................................................viii 附圖目錄.......................................................................................................................xii 第一章. 緒論.................................................................................................................1. 第一節. 研究動機.................................................................................................1. 第二節. 論文架構.................................................................................................2. 第二章. 相關研究探討.................................................................................................3. 第一節. 情緒語意分析.........................................................................................3. 第二節. 中文斷詞系統.........................................................................................7. 第三節. 知網.......................................................................................................10. 第四節. 廣義知網...............................................................................................11. 第五節. NTUSD..................................................................................................14. 第三章. 研究方法.......................................................................................................16. 第一節. 緒論.......................................................................................................16. 第二節. 實驗資料...............................................................................................20 vi.

(8) 第三節. 種子詞彙的選取...................................................................................24. 第四節. 種子詞彙的擴充(同類別)...............................................................29. 第五節. 種子詞彙的擴充(同階層)...............................................................33. 第六節. 利用 NTUSD 的擴充............................................................................37. 第七節. 雙極性問題、已收錄但無法分類極性的詞彙問題...........................40. 第八節. 廣義知網中帶有結構的詞彙之極性分類...........................................43. 第四章. 實驗結果與分析...........................................................................................49. 第一節. 選取種子詞彙的分析...........................................................................49. 第二節. 種子詞彙的擴充(同類別)的分析...................................................56. 第三節. 種子詞彙的擴充(同階層)的分析...................................................61. 第四節. 引入 NTUSD 做斷詞並擴充的分析....................................................67. 第五節. 雙極性問題、已收錄但無法分類極性的詞彙問題的分析...............76. 第六節. 廣義知網中結構型詞彙分類極性的分析...........................................80. 第七節. 錯誤分析...............................................................................................87. 第五章. 結論與未來展望...........................................................................................92. 第一節 結論.........................................................................................................92 第二節 未來展望.................................................................................................93 參考文獻.......................................................................................................................95. vii.

(9) 附表目錄. 表 1:邱鴻達(2011)展式意見詞詞性統計(邱鴻達, 2011)..................................6 表 2:中研院平衡語料庫詞類標記集...........................................................................8 表 3:知網範例.............................................................................................................11 表 4:NTUSD positive 部分詞彙.................................................................................15 表 5:NTUSD negative 部分詞彙................................................................................15 表 6:實驗語料來源.....................................................................................................21 表 7:實驗語料字數分布.............................................................................................21 表 8:評分者 A、評分者 B 比較表.............................................................................22 表 9:評分者 A、評分者 C 比較表.............................................................................23 表 10:評分者 B、評分者 C 比較表............................................................................23 表 11:三位評分者相對 kappa 值..................................................................................23 表 12:所有極性詞彙整理.............................................................................................23 表 13:ViStopWord(陳昱年, 2013)..........................................................................25 表 14:NTUSD positive 斷詞後之詞性分類...............................................................38 表 15:NTUSD negative 斷詞後之詞性分類..............................................................38 表 16:NTUSD negative 中「過度」的出現情形......................................................39 表 17:節錄部份 NTUSD 詞彙之統計次數................................................................42 viii.

(10) 表 18:節錄部分結構型詞彙範例...............................................................................48 表 19:節錄 20 個由規則(一)截取出的正向 Vi....................................................50 表 20:節錄部份 20 個由規則(二)擷取出的負向 Vi............................................50 表 21:3 個由規則(二)擷取出的正向 Vi...............................................................51 表 22:16 個由規則(三)擷取出的正向 Vt.............................................................52 表 23:節錄部份 20 個由規則(四)擷取出的正向 Vi............................................52 表 24:1 個由規則(四)擷取出的負向 Vi...............................................................52 表 25:15 個由規則(四)擷取出的正向 Vt.............................................................53 表 26:1 個由規則(四)擷取出的負向 Vt...............................................................53 表 27:16 個由規則(四)擷取出的正向 V...............................................................54 表 28:1 個由規則(四)擷取出的負向 V.................................................................54 表 29:將 8 個橫跨區域的詞彙做簡單的投票結果...................................................55 表 30:分析四個規則的正確率...................................................................................55 表 31:四個規則的效能...............................................................................................56 表 32:節錄(同類別)擴充過程中得到的部份正向詞彙.......................................57 表 33:節錄(同類別)擴充過程中得到的部份負向詞彙.......................................57 表 34:(同類別)擴充過程中無法分類的詞彙.........................................................59 表 35:簡易的投票法試圖解決(同類別)中「擴充過程中產生的雙極性詞彙」...60 表 36:種子詞彙的擴充(同類別)的分析結果.......................................................61 ix.

(11) 表 37:節錄(同階層)擴充過程中得到的部份正向詞彙.......................................62 表 38:節錄(同階層)擴充過程中得到的部份負向詞彙.......................................63 表 39:(同階層)擴充過程中無法分類的詞彙.........................................................64 表 40:簡易的投票法試圖解決(同階層)中「擴充過程中產生的雙極性詞彙」...65 表 41:種子詞彙的擴充(同階層)的分析結果.......................................................66 表 42:第二部份的測試資料.......................................................................................67 表 43:NTUSD 部分節錄的詞彙.................................................................................68 表 44:「縮減」的相關擴充.........................................................................................70 表 45:透過 NTUSD 找出的種子詞彙「轟動一時」擴充後的情形........................71 表 46:20 個成功分類的「擴充過程中產生的雙極性詞彙」..................................72 表 47:引入 NTUSD 做斷詞並擴充的分析結果........................................................73 表 48:電影領域中的正向詞彙...................................................................................74 表 49:概念相似,但極性卻與同類別中多數成員不同的詞彙...............................75 表 50:針對跨 negative、positive 的詞彙做統計.......................................................76 表 51:節錄部份「廣義知網中的雙極性詞彙」.......................................................77 表 52:33 個中共有 25 個成功比對............................................................................77 表 53:135 個無法分類的「擴充過程中產生的雙極性詞彙」說明........................78 表 54: 「已收錄但無法分類極性的詞彙」與 NTUSD 比較時的小問題..................79 表 55:帶有結構性的詞彙標註極性的結果...............................................................80 x.

(12) 表 56:468 個測試資料中有結構性的詞彙................................................................84 表 57:第二部份總結...................................................................................................85 表 58:第一部分與第二部份總整理...........................................................................85 表 59:陳昱年(2013)的結果...................................................................................85 表 60:本研究和陳昱年(2013)的比較表...............................................................87 表 61:第一部份與第二部分誤判的 61 個詞彙.........................................................88 表 62:無法給予極性的 169 個詞彙...........................................................................89 表 63:更細部的詞彙分析...........................................................................................90 表 64:總結研究架構與方法.......................................................................................92. xi.

(13) 附圖目錄. 圖 1:剖析的範例(張莊平, 2012).............................................................................7 圖 2:中文斷詞處理結果...............................................................................................8 圖 3:廣義知網線上瀏覽系統.....................................................................................12 圖 4:詞彙「高潮迭起」在廣義知網的資訊.............................................................13 圖 5:詞彙「高潮迭起」在廣義知網的概念式結構圖.............................................13 圖 6:第一部分架構圖.................................................................................................18 圖 7:第二部分架構圖.................................................................................................19 圖 8:批踢踢實業坊的 Movie 板.................................................................................20 圖 9:詞彙「合理」在廣義知網的資訊.....................................................................29 圖 10:詞彙「保守」在廣義知網中的資訊...............................................................30 圖 11:詞彙「高明」在廣義知網的資訊...................................................................30 圖 12:類別「wise|智」...............................................................................................31 圖 13: 「非同小可」於「important|重要」之情形.....................................................31 圖 14:詞彙「熟」於「very|很」分類中的情形.......................................................32 圖 15:詞彙「熟」於「familiar|熟悉」分類中的情形...............................................32 圖 16:詞彙「熟」於「processed|已加工」分類中的情形.......................................32 圖 17: 「wise|智」類別在階層結構中的位置.............................................................34 xii.

(14) 圖 18:類別「inconsistent|沒條理」...........................................................................35 圖 19:類別「consistent|有條理」..............................................................................35 圖 20: 「差」在同類別「unqualified|不合格」的收錄..............................................35 圖 21: 「差」在同階層中「lack|缺少」的額外收錄..................................................36 圖 22: 「差」在同階層中「dispatch|差遣」的額外收錄...........................................36 圖 23: 「重」在同類別「strong|強」的收錄...............................................................36 圖 24: 「重」在同類別「heavy|重」的收錄...............................................................36 圖 25:「重」在同階層「PayAttention|注意」的收錄...............................................37 圖 26:完全比對演算法...............................................................................................42 圖 27:類別「great|偉」..............................................................................................44 圖 28:「名利雙收」的結構.........................................................................................45 圖 29:標註結構型詞彙的演算法...............................................................................46 圖 30:詞彙「倒楣」透過階層式的擴充得到的類別...............................................69 圖 31:「人逢喜事精神爽」在廣義知網中的資訊.....................................................71 圖 32:「轟動一時」在廣義知網中的資訊.................................................................72 圖 33:類別「farewell|離別」.....................................................................................75 圖 34:「叫座」位於廣義知網中的資訊.....................................................................91. xiii.

(15) 第一章 緒論. 第一節 研究動機. 自然語言處理是試著讓電腦學習,並處理和自然語言相關的問題。從古到今 很多知識都是以自然語言的方式被記錄下來,因此可想而知這些知識量有多龐 大。在這些龐大知識量的背後,應該有很多值得分析、並可以拿來應用的資訊。 這就是自然語言處理的研究目標之一。 隨著網路和科技的發達,現在不只透過電腦才能上網,用手機隨時隨地上網 也相當普及。由於網路蘊含了龐大的資訊量。因此人們在做一項決定前,便可以 透過網路來查詢相關的資料。舉例來說如果今天要和好友一起去看場電影,那麼 在行前就可以先搜尋相關論壇的評論、網誌、甚至是一些新聞來幫助你做決定。 不管是任何種類的評論文章,都會有一些原文作者的看法在裡面。找出文本 中作者對特定主題的意見,就是情緒分析的任務。但光是只利用搜尋引擎作關鍵 字的查詢,就能發現不計其數的資料,而這麼多的資料不見得都是我們需要的; 此外一一瀏覽也相當耗費時間。如何用最快的方法,有效率的找出使用者所關心 的議題,分析其中的優點或缺點以利參考,就是情緒分析其中一項重要的應用。 找出帶有情緒性質的詞彙或句子對於判斷文章的語意傾向很有幫助,但這些 觀點有時會隨著討論領域的不同而出現不同的意義。某些詞彙不管在任何領域中 1.

(16) 均有一致的極性,例如「快樂」 、 「幸運」等;某些詞彙卻會隨著使用的領域不同, 而出現和習慣上截然不同的情形。例如以電影領域來說,「刺激」、「意外」均代 表了正向的意義。「刺激」可能指的是電影中的劇情高潮迭起,看得讓人目不轉 睛;而「意外」指的則是內容超乎你原先所想像的。 本研究希望能在不使用人工分類並標記的前提下,讓電腦學習並辨識出帶有 極性的詞彙。因為網路的資料量相當龐大,且隨時都在更新,不太可能透過人力 完成這樣的工作。同時找出不同領域中會產生特殊用法的詞彙,如前一段的例 子:「刺激」和「意外」等,並判定此詞彙屬於「正向」或是「負向」,以提升未 來分析和應用時的正確率,讓處理文件類型的情緒分析變得更有效率。. 第二節 論文架構. 本論文的組織大綱如下:第一章介紹情緒分析及其研究背景。第二章探討相 關文獻:包含前人做過的研究、相關的工具和使用的語料庫。第三章是研究方法 與步驟,利用中文句法中的規則找出可能帶有極性的種子詞彙,透過廣義知網擴 充詞彙量並決定極性;另一部份則是使用 NTUSD 語料庫作為新的種子,再次透 過廣義知網擴充,同樣找出擴充詞彙的極性,並協助無法分類的詞彙決定極性。 第四章是實驗結果與分析,討論遇到的問題和相關的解決方法。最後的章節則總 結本論文所做的研究,並找出未來可能的發展和新的方向。 2.

(17) 第二章 相關研究探討. 第一節 情緒語意分析. 情緒分析是指透過自然語言處理的方式,找出作者在特定語料中的主觀意見 或是情緒,並把該觀點分類到正向或負向類別。通常這些觀點出現在特定的詞 彙,透過分析這些資訊,給予正確的分類,就能找出文章的語意傾向。情緒分析 相當實用,且結果往往富含重要資訊。Trindade 等人(2013)說明常見的情緒分 析目標包含: 1. 主觀意見的分類:決定一份文本中是否包含主觀的意見。 2. 極性的分類:找出一份文本是否包含正向、中性、或是負面的性質。 3. 極性強度的分類:決定該意見的方向(極性)以及相對應的強度。 4. 情緒特徵的分析:找出含有表達意見或是情緒的層面,並決定極性。 而將情緒分析應用在電影領域,古今中外已經有相當多學者做了研究。本論 文直接切入電影領域,分成英文和中文部分來討論。 英文方面,Singh 等人(2013a)說明一般情緒分類的作法大致上可以分成三 類:第一類是使用機器學習的文字分類器,像是 Naïve Bayes Classifier(John & Langley, 1995) 、SVM(Vapnik, 1995)或是選取適合特徵的 KNN 演算法(Altman, 1992)。第二類是使用非監督的方式,擷取語料中相關的 n-grams(Manning & 3.

(18) Schütze, 1999) ,接著將它們標記成正向或是負向。第三類是使用標記了正向、負 向、中性分數等公開可用的語料庫,像是 SentiWordNet(Esuli & Sebastiani, 2006) 等。他們嘗試第三類也就是以 SentiWordNet 為基礎,找出文章中的特定語意特徵, 包含以下 4 種組合: 1. 單獨找出文本中的 adjective 詞性。 2. 找出文本中 adjective+adverb 的組合,兩者的權重和參數相同。 3. 找出文本中 adjective+adverb 的組合,兩者的權重和參數可變。 4. 找出文本中 adjective+adverb 的組合,adjective 的權重較高。 接著將這些詞性組合與 SentiWordNet 中詞彙的分數作比較,最後透過判斷正 向或是負向的分數高低,將一篇文字語料分類到正面或負面。 Singh 等人(2013b)再次針對電影評論作情緒分析。這次分成:全文的情緒 分類與特定層面的情緒分析。全文的情緒分類承接上一篇 Singh 等人(2013a)的 研究,新增一種新的語意特徵「結合 adjective+adverb 與 adjective+verb」,也就 是同時考慮形容詞和動詞,再給予一個總分。考慮多種詞性組合將比考慮單一詞 性組合的結果更理想。而特定層面的情緒分析部份,Parkhe 等人(2014)也作了 類似的研究。在一篇電影評論中,常常可以看到作者針對不同的層面發表意見: 像是「剪輯」、「拍攝」、「劇本」等部份。每一部電影的主打可能不同,在評論中 遇到評論某些部份較優秀、某些部分較普通的情況是相當常見的,這代表正面和 負面的意見會在一篇文章中夾雜出現。針對層面作分析的好處是可以知道該部電 4.

(19) 影有哪些部分最值得觀賞(正向極性分數較高)。此外透過給予選定的層面評分 並對整篇評論做出總結,可以發現和全文的情緒分類結果是一致的。 Mouthami 等人(2013)認為情緒詞彙的極性是一種模糊的概念延伸。意思是 「正面」、 「負面」、 「中性」並沒有給人一種明顯區分邊界的感覺存在,為了處理 這種情緒極性的問題,他們應用模糊集理論。首先定義「正面」 、 「負面」 、 「中性」 三種模糊集,接著應用現有的模糊分類方式建立關係函數。Koncz 等人(2011) 設計了一個計算方法,相比於資訊獲利(Information Gain)的算法,提高了屬性 的權重,降低了文件數。好處是比起原來的公式更能符合電影領域的特性。雖然 就效能而言比使用外部語料庫的方法差,但在計算和演算法的複雜度上都更低。 此外唯一需要的資料只有測試的文件,不需要使用外部的語料庫。 中文電影評論的方面,陳立(2010)提出了一個自動分類文章語意的方法。 首先找中文裡常用的否定句型語法結構:像是「副詞+否定詞+形容詞」的組合, 例如「很不流暢」。接著抓取出否定詞後的形容詞「流暢」,定為正向種子詞彙。 整理後放入語料庫,收集出現次數頻繁且差異性夠大的詞彙,透過迭代訓練擴充 種子所形成的語意集,直到詞庫不再變化。而根據句子中正向字與負向字的多 寡,便可以為文章分類。 邱鴻達(2011)使用人工標記意見詞的方式,探索哪些詞性組合可能表達意 見,利用這些詞性組合序列自動辨識更多意見詞。詞數及出現頻率展示如下表 1。 可以看出帶有極性的詞彙,出現在文章中時是有跡可循的。 5.

(20) 表 1:邱鴻達(2011)展式意見詞詞性統計(邱鴻達, 2011). 單詞. 雙詞. 三詞. 意見詞詞性組合. 頻率標記. 涵蓋率. V. 2158. 40%. N. 285. 5.3%. ADV. 50. 0.92%. FW. 24. 0.44%. ADV+V. 1780. 33%. V+V. 275. 5.1%. V+N. 43. 0.8%. ADV+N. 28. 0.52%. ADV+ADV. 21. 0.39%. A+V. 19. 0.35%. ADV+FW. 19. 0.35%. V+Nep. 16. 0.3%. V+ADV. 16. 0.3%. N+V. 15. 0.25%. ADV+ADV+V. 24. 1%. V+ADV+V. 44. 0.81%. ADV+V+V. 20. 0.37%. ADV+V+N. 17. 0.31%. V+Nep+N. 12. 0.22%. 張莊平(2012)提出了一個基於中文文法剖析系統的意見評分流程。在網路 收集到的電影評論中引入中文剖析器,發展出一套文法關係判斷意見詞與屬性詞 配對的流程。以一個句子為例: 「電影演得很精彩」,在剖析文法關係後,可以找 到「電影」和「精彩」的配對,如下圖 1 所示。. 6.

(21) 圖 1:剖析的範例(張莊平, 2012). 陳昱年(2013)根據邱鴻達(2011)的詞性組合,透過中文語法中的結構找 出情緒詞彙可能出現的位置。將找出的詞彙設定為種子詞彙,透過教育部國語辭 典,產生同義詞和反義詞的擴充。鑒於成語和諺語可能無法從字面上推斷意義, 因此以詞彙的字數分類為(1)1 到 3 個字的處理方式,是於第二部分引入 NTUSD 且做模糊比對;(2)4 個字以上的詞彙則是使用教育部線上詞典,擷取出注釋部 分,從中分析出正負向極性。. 第二節 中文斷詞系統. 在語言學上, 「詞」是可以獨立運用並且含有語意或是語用內容的最小單位。 如果想對一份語料進行處理,首先必須找出語料中的詞。透過斷詞,可以將文本 的詞進行分割。英文中句子裡的詞有空白或是標點符號做分隔;但中文則沒有如 7.

(22) 此明顯的特點。因此處理中文文本的第一步便是如何分割中文語料句子中的詞, 並產生正確的詞性標記。 本篇論文與張莊平(2012)、陳昱年(2013)在中文斷詞的步驟上,皆使用 中央研究院(Academia Sinica)所提供的中文斷詞系統作為初步處理1。 此中文斷詞系統具有新詞辨識能力,附加詞類標記的選擇性功能。另外還包 含抽取新詞,並建立領域用詞或線上的即時分詞功能。系統中包含一個約十萬的 詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。圖 2 便是使用者輸 入一段文字,系統接著會把斷詞後的結果呈現出來,並包含了詞性標註:. 圖 2:中文斷詞處理結果. 而中研院平衡語料庫詞類標記集如下表 2 所示:. 表 2:中研院平衡語料庫詞類標記集 精簡 簡化 詞類 標記 A. A. 對應的CKIP詞類標記2 A. /*非謂形容詞*/. 1http://ckipsvr.iis.sinica.edu.tw/。 2斜體詞類,表示在技術報告#93-05中沒有定義,即後來增列的。. 8.

(23) C. Caa. Caa. /*對等連接詞,如:和、 跟*/. POST Cab. Cab. /*連接詞,如:等等*/. POST Cba. Cbab. /*連接詞,如:的話*/. Cbaa, Cbba, Cbbb, Cbca, Cbcb. /*關聯連接詞*/. ADV Da. Daa. /*數量副詞*/. ADV Dfa. Dfa. /*動詞前程度副詞*/. ADV Dfb. Dfb. /*動詞後程度副詞*/. ASP. Di. Di. /*時態標記*/. ADV Dk. Dk. /*句副詞*/. C. Cbb. ADV. D. Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj. /*副詞*/. N. Na. Naa, Nab, Nac, Nad, Naea, Naeb. /*普通名詞*/. N. Nb. Nba, Nbc. /*專有名稱*/. N. Nc. Nca, Ncb, Ncc, Nce. /*地方詞*/. N. Ncd. Ncda, Ncdb. /*位置詞*/. N. Nd. Ndaa, Ndab, Ndc, Ndd. /*時間詞*/. DET Neu. Neu. /*數詞定詞*/.. DET Nes. Nes. /*特指定詞*/. DET Nep. Nep. /*指代定詞*/. DET Neqa. Neqa. /*數量定詞*/. POST Neqb. Neqb. /*後置數量定詞*/. Nfa, Nfb, Nfc, Nfd, Nfe, Nfg, Nfh, Nfi. /*量詞*/. Ng. /*後置詞*/. M. Nf. POST Ng N. Nh. Nhaa, Nhab, Nhac, Nhb, Nhc. /*代名詞*/. Nv. Nv. Nv1,Nv2,Nv3,Nv4. /*名物化動詞*/. T. I. I. /*感嘆詞*/. P. P. P*. /*介詞*/. T. T. Ta, Tb, Tc, Td. /*語助詞*/. Vi. VA. VA11,12,13,VA3,VA4. /*動作不及物動詞*/. Vt. VAC. VA2. /*動作使動動詞*/. Vi. VB. VB11,12,VB2. /*動作類及物動詞*/. Vt. VC. VC2, VC31,32,33. /*動作及物動詞*/. Vt. VCL. VC1. /*動作接地方賓語動詞*/. Vt. VD. VD1, VD2. /*雙賓動詞*/. Vt. VE. VE11, VE12, VE2. /*動作句賓動詞*/. Vt. VF. VF1, VF2. /*動作謂賓動詞*/ 9.

(24) Vt. VG. VG1, VG2. /*分類動詞*/. Vi. VH. VH11,12,13,14,15,17,VH21. /*狀態不及物動詞*/. Vt. VHC. VH16, VH22. /*狀態使動動詞*/. Vi. VI. VI1,2,3. /*狀態類及物動詞*/. Vt. VJ. VJ1,2,3. /*狀態及物動詞*/. Vt. VK. VK1,2. /*狀態句賓動詞*/. Vt. VL. VL1,2,3,4. /*狀態謂賓動詞*/. Vt. V_2. V_2. /*有*/. T. DE. /*的, 之, 得, 地*/. Vt. SHI. /*是*/. FW. FW. /*外文標記*/ COMMACATEGORY. /* 冒號 */ /* 逗號 */. DASHCATEGORY. /* 破折號 */. ETCCATEGORY. /* 刪節號 */ /* 驚嘆號 */ /* 括弧 */. COLONCATEGORY. EXCLAMATIONCATEGORY PARENTHESISCATEGORY PAUSECATEGORY PERIODCATEGORY QUESTIONCATEGORY SEMICOLONCATEGORY SPCHANGECATEGORY. /* 頓號 */ /* 句號 */ /* 問號 */ /* 分號 */ /* 雙直線 */. 第三節 知網. 3. 董振東先生於 1988 年創建知網 ,是一個把詞彙透過概念之間的關係、概念 間的屬性關係形成的網狀知識系統(Dong 等人, 2010)。詞彙可以透過一些定義 式展現概念如何結合;概念則可以再分解為各種義原的組成。因此義原便是最小 的、不易再分割的基本單位。表 3 為知網的實例,等號左側有 5 種記錄:NO.(詞. 3http://www.keenage.com/html/c_index.html。. 10.

(25) 語的編號) 、W_C(詞語的中文名稱) 、G_C(詞語的中文詞性) 、E_C(詞語的中 文例子)、DEF(概念定義)。其中「buy|买」便是義原。將詞彙以結構式表達, 相當適合使用自然語言處理相關技術探討。. 表 3:知網範例 NO.=000001 W_C=打 G_C=V E_C=~酱油,~张票,~饭,去~瓶酒,醋~来了 DEF=buy|买. 劉群等人(2002)基於知網的結構式,計算其中詞彙間的語意相似度。相似 度反應的是兩個詞語間互相關聯的程度,例如「男人」和「父親」的相似度比「男 人」和「鯉魚」相比來得高。朱嫣嵐等人(2006)同樣利用知網計算語意相似度 和語意相關場。其中語意相關場指的是把兩個語意概念的交集個數除以聯集個數 後,同樣計算相似度。. 第四節 廣義知網. 2003 年董振東先生和中央研究院資訊所詞庫小組合作,試著將中央研究院詞 庫小組辭典(CKIP Chinese Lexical Knowledge Base)的詞條和知網做連結。過程中 對原先知網的定義架構做了一些改變,並設計了複雜關係的表達架構,使繁體字 11.

(26) 知網逐漸發展成為一個新的知識表達模型,便是廣義知網(E-HowNet)4,廣義 知網的線上瀏覽系統如圖 3 所示。線上瀏覽系統提供三種查詢功能: 1.. 節點查詢:以字串查詢本體架構中的節點。. 2.. 定義式查詢:以字串查詢詞彙的定義式,從符合的定義式來找尋詞彙。. 3.. 進階定義式查詢:採用樹狀結構比對的方式尋找定義式,再從符合的定 義式來找尋詞彙。. 圖 3:廣義知網線上瀏覽系統. 4 http://ehownet.iis.sinica.edu.tw/。. 12.

(27) 廣義知網內的詞條包含了以某一詞彙為基本的語法及語意訊息。實例如圖 4。以詞彙「高潮迭起」為例,包含了中文名稱、詞性、英文意涵、概念式與展 開式。概念式表達了高潮迭起的概念,透過義原(如:happen|發生、event|事件等) 以結構化的方式有層次的定義了「高潮迭起」。概念式結構圖如圖 5 所示。. 圖 4:詞彙「高潮迭起」在廣義知網的資訊. 圖 5:詞彙「高潮迭起」在廣義知網的概念式結構圖. 13.

(28) 李政儒(2012)提出了使用監督式學習的方式,為廣義知網的詞彙自動標註 極性資訊。利用 NTUSD 和廣義知網詞彙的交集建立標準答案,再由標準答案訓 練分類器,最後便可以為其他廣義知網的詞彙進行標記。在研究中作者實驗以不 同的詞彙特徵找出正確率最高的分類器。. 第五節 NTUSD. NTUSD(National Taiwan University Semantic Dictionary)(Ku & Chen, 2007) 是臺灣大學意見詞詞典。此詞典包含了常用的意見詞詞彙,以及該詞彙的極性。 將這些詞彙分類成正向極性與負向極性,分別屬於 NTUSD positive、NTUSD negative,本研究所使用的是舊版的 NTUSD,一共收錄了約 2810 個正向詞彙以 及 8276 個負向詞彙。在 NTUSD 中,除了意見詞本身外,也包含了該意見詞的實 際應用、例句等。以下節錄部分 NTUSD positive 於表 4;部分 NTUSD negative 於表 5。可以看到某些情緒詞有發生跨區出現的情形,例如兩張表中的詞彙「入 迷」、「入迷的」。. 14.

(29) 表 4:NTUSD positive 部分詞彙 了不起. 了不起的. 了解. 人情. 人情味. 入迷. 入迷的. 上等. 大膽. 大膽的. 小天使. 才氣. 才能. 才智. 才幹. 不任性. 不任性的. 中肯. 井然有序. 互相密合著的. 表 5:NTUSD negative 部分詞彙 一下子爆發. 一巴掌. 一再. 一再叮囑. 一陣緊張. 入迷. 入迷的. 入迷的人. 刀刃. 刁難. 匕首. 下垂. 下垂度. 下流. 下流的. 小心. 小卒. 小氣. 小氣的. 小偷. 15.

(30) 第三章 研究方法. 第一節 緒論. 本研究的目的是找出中文電影評論中帶有情感的詞彙,並做出極性類別的判 斷,根據不同的架構分成以下兩部分。首先利用規則與應用廣義知網找出情感詞 彙並分類極性,此方法架構圖如圖 6 所示,而未能判斷極性之詞彙,則以圖 7 之 架構進行分析。各架構圖說明如下: 第一部份架構圖:收集中文電影評論集,建立語料庫,並透過斷詞系統做初 步的處理。接著透過不同的規則,找出評論中可能的情緒詞,視為種子詞彙。接 著過濾種子詞彙重複出現與邏輯錯誤,並應用廣義知網擴充。每個種子詞彙分屬 廣義知網中的不同概念類別,因此使用兩個作法:同類別與同階層的方式擴充。 完畢後去除分類極性的過程產生矛盾的雙極性詞彙,與人工挑選出的測試詞彙做 比較。 第二部分架構圖:將 NTUSD 舊版透過斷詞系統處理。取出所有「形容詞」、 「動詞」類別的詞彙並設定為新種子,並藉由廣義知網,作同階層的擴充。一樣 去除矛盾的雙極性詞彙。收集所有無法給予極性的詞彙,與 NTUSD 舊版進行完 全比對。若有符合,則按照當初擴充的情形給予原始單詞、或是原始類別極性。 對於具有複雜結構的詞彙,則利用階層定義整體的極性。最後同樣與人工挑出的 16.

(31) 測試資料比較。 陳昱年(2013)的研究中,發現透過中文句法的規則,還是有很多評論內的 情感詞彙難以被取出。因此需要仰賴有效的擴充找出可能帶有極性的詞彙。本研 究以同樣的規則為基礎,提出不同的擴充方式,希望能提升詞彙的多樣性。. 17.

(32) 電影評論集. 斷詞分析. 中研院斷詞系統. 透過四個規則挑選正負極性種子詞彙 利用語法規則與 StopWord. 詞性分析比對. 去除相同詞與 邏輯錯誤. 擴充種子詞彙. 擴充種子詞彙 廣義知網. (同類別). (同階層). 是. 含有廣義知網中 的雙極性詞彙?. 的雙極性詞彙?. 否. 否. 投票決定類別極性. 投票決定類別極性. 極性判定結果. 可判定極性之詞彙 是. 是. 含有廣義知網中. 極性判定結果. 無法判斷極性之詞彙. 可判定極性之詞彙 是. 否. 無法判斷極性之詞彙. 否. 可用投票法. 可用投票法. 判定極性?. 判定極性?. 處理擴充過程中. 處理擴充過程中. 的雙極性詞彙. 的雙極性詞彙. 圖 6:第一部分架構圖 18.

(33) 整理無法判斷. 可以於 NTUSD 內. NTUSD. 完全比對?. 是. 極性之詞彙. 否 斷詞分析 詞彙概念式. 中研院斷詞系統. 否. 是否含有結構 選取斷詞後詞性為 形容詞類、動詞類詞彙. 是 利用階層演算法分類. 擴充種子詞彙 廣義知網. (同階層) 實驗最後的輸出結果 含有廣義知網中 的雙極性詞彙?. 是. 否 第一部分中無法 投票決定類別極性. 判斷極性之詞彙. 極性判定結果. 可判定極性之詞彙 是. 無法判斷極性之詞彙. 否. 可用投票法 判定極性? 處理擴充過程中 的雙極性詞彙. 圖 7:第二部分架構圖 19.

(34) 第二節 實驗資料. 本論文實驗資料是使用張莊平(2012)的實驗語料庫,取自批踢踢實業坊(簡 稱 PTT、批踢踢)上的 Movie 板。批踢踢實業坊是臺灣的一個網路論壇,以電子 佈告欄系統架設,提供一個快速、開放且自由的討論空間。看板和內容包羅萬象, 從地區、學術、感情均包含在內。其中 Movie 電影版如下圖 8,主要是消費者討 論電影的觀後感、評價等,好讓更多想看電影的人有參考的依據。. 圖 8:批踢踢實業坊的 Movie 板. 實驗中的語料選自 2009~2012 年較熱門的電影,且不限於同一類型的風格。 包含動作片、劇情片、科幻片等共 7 部電影。以程式自動擷取每部電影各約 50. 20.

(35) 篇的中文評論作為語料集。為了證明方法可用於擷取並分析中長篇的電影評論, 因此設定每篇電影評論中的字數必須超過 100 字,才會納入語料庫中。實驗的語 料文集總共包含 321 篇文章,合計 379360 個字。表 6 展示每部電影取得的有效 評論文章數;表 7 則為所有有效評論文章的字數分布。. 表 6:實驗語料來源 電影. 年份. 電影類型. 評論文章數. 不可能的任務 4. 2011. 動作片. 49. 天龍特攻隊. 2010. 影集翻新. 47. 那些年,我們一起追的女孩. 2011. 華語劇情片. 41. 刺陵. 2009. 華語劇情片. 40. 玩具總動員 3. 2009. 動畫片. 49. 飢餓遊戲. 2012. 小說改編. 35. 復仇者聯盟. 2012. 科幻片. 60. 表 7:實驗語料字數分布 字數. 文章數. 比率. 100-500. 72. 22%. 500-1000. 105. 33%. 1000-1500. 60. 19%. 1500-2000. 37. 12%. 2000-2500. 20. 6%. 2500-3000. 11. 3%. 3000+ 總計. 16. 5%. 321. 100%. 21.

(36) 人工標記極性的部分,由三位評分者 A、B、C 負責,總共擷取出 980 個帶 有極性的詞彙,非正即負。為評估三人給分的一致性,採用 Cohen's kappa coefficient (Carletta, 1996)計算可信度,使用公式如下:.  Pr(a) - Pr(e)  κ =  1 - Pr(e)  0 . if Pr(e) ≠1. (1). otherwise. 其中 Pr(a)為第一位評分者與第二位評分者同時認為詞彙是正向的機率、同時 認為詞彙是負向的機率加總;Pr(e)為第一位評分者分類詞彙時的正向機率乘以第 二位評分者分類詞彙時的正向機率,加上第一位評分者分類詞彙時的負向機率乘 以第二位評分者分類詞彙時的負向機率。個別評分者之比較的詳細內容,列於表 8、表 9、表 10 中。表 11 為三位評分者的相對 kappa 值;表 12 則整理所有極性 詞彙的字數分配與比率。. 表 8:評分者 A、評分者 B 比較表 B. A. Y. N. Y. 398. 27. N. 20. 535. 22.

(37) 表 9:評分者 A、評分者 C 比較表 C. A. Y. N. Y. 396. 29. N. 21. 534. 表 10:評分者 B、評分者 C 比較表 C. B. Y. N. Y. 395. 22. N. 23. 540. 表 11:三位評分者相對 kappa 值 kappa 值 A 和 B 評分者. 0.902. A 和 C 評分者. 0.896. B 和 C 評分者. 0.906. 表 12:所有極性詞彙整理 數目/比率 1 個字. 2 個字. 3 個字. 4 個字以上. 總計. 正向. 17. 1.73%. 306. 31.22%. 24. 2.45%. 86. 8.77%. 433. 44.18%. 負向. 51. 5.2%. 402. 41.02%. 30. 3.06%. 64. 6.53%. 547. 55.82%. 總和. 68. 6.93%. 708. 72.24%. 54. 5.51%. 150. 15.3%. 980. 100%. 23.

(38) 第三節 種子詞彙的選取. 建立好電影評論的語料集後,必須從中選出適合的正向及負向意義的種子詞 彙。首先排除一些語氣加強詞彙以及含有驚嘆語氣的詞彙。觀察這些評論,發現 情緒詞彙的出現位置和中文語法的結構有關。本研究根據此特性篩選出四個規 則,嘗試囊括平常表達時會出現的情緒詞彙,主要是尋找「否定詞」和「副詞」 後相連的詞彙。 以電影領域來說,如:「內容不太精彩」、「劇情很不完整」等。將這些常見 的描述過濾掉否定詞及副詞後,剩下的詞彙都代表了正面的極性。選取種子詞彙 的方式參照陳昱年(2013)的研究,首先定義常見的否定詞與副詞如下:. 否定詞定義:不、不是、不、不會、沒、沒有。(適用於所有規則) 副詞定義:很、非常、太、太過、最、比較、夠。 (用於規則(一) (二) (三)). 本研究使用的電影評論集,經過斷詞系統的處理後,每個詞彙皆有清楚的詞 性標註。根據詞類標記集,斷詞系統是沒有「形容詞」的標記;而是各類型的動 詞。以常見的形容詞如「好看」 、 「肯定」來說,分別被標註成「VH:狀態不及物 動詞」、「VK:狀態句賓動詞」。規則(一)首先擷取出詞性為「Vi:狀態類及物 動詞」的詞彙,作為正向種子詞彙。 24.

(39) 規則(一): 否定詞+副詞+Vi+(Vi)  副詞+否定詞+Vi+(Vi). Vi歸類為正向種子詞彙 Vi歸類為正向種子詞彙. 規則(一)中,否定詞和副詞沒有先後順序關係。另外此規則可以接受最多 擷取兩個 Vi。. 符合規則(一)的例子如下: 「這個瑕疵就讓人很不開心」 →. 這(Nep) 個(Nf) 瑕疵(Na) 就(D) 讓(VL) 人(Na) 很(Dfa) 不(D) 開心(Vi). 電影領域中有些常見,但沒有實質意義的修飾詞。例如:夠、長、短、大、 小、遠等。此處列出常見的,並建立針對電影領域的 ViStopWord,去除這些修飾 詞。共計 30 個,列於下表 13 中。. 表 13:ViStopWord(陳昱年, 2013) 夠. 長. 短. 大. 小. 遠. 近. 來. 去. 久. 古. 雅. 深. 淺. 是. 有. 高. 低. 的. 拍. 多. 少. 讓. 圓. 快. 慢. 出去. 進來. 開始. 結束. 25.

(40) 規則(二)中,雖然目的同樣是取出「Vi:狀態類及物動詞」 ,不過差別是此 法取出的種子詞彙大多數是負向詞彙,少部分為正向種子。. 規則(二): X+Vi  X+否定詞+Vi+(Vi). Vi歸類為負向種子詞彙 Vi歸類為正向種子詞彙. 規則(二)中的 X 為:有些、有點、有一點、些許。. 符合規則(二)的例子如下: 「但坦白說全片劇情和此開場白間的關聯有些薄弱」 →. 但(Cbb) 坦白(VH) 說(VE) 全(Neqa) 片(Nf) 劇情(Na) 和(Caa) 此(Nep) 開 場白(Na) 間(Ng) 的(DE) 關聯(Na) 有(V_2) 些(Nf) 薄弱(Vi). 如同規則(一),擷取出種子詞彙後需要使用 ViStopWord 來去除修飾詞彙。 規則(一)和規則(二)同樣是擷取「Vi:狀態類及物動詞」 ,因此可能出現重複 擷取的情形。可能一個詞彙既是正向種子詞彙,同時也是負向種子詞彙。這時先 將這種情況紀錄下來,之後另作處理。(如第四章第一節所述). 26.

(41) 規則(三)和規則(一)雷同,只是改為擷取「Vt:動作類及物動詞」。. 規則(三): 否定詞+副詞+Vt+(Vt)  副詞+否定詞+Vt+(Vt). Vt歸類為正向種子詞彙 Vt歸類為正向種子詞彙. 符合規則(三)的例子如下: 「其實本來沒有很期待」 →. 其實(D) 本來(D) 沒有(VJ) 很(Dfa) 期待(Vt). 此時仍然有很多值得擷取的詞彙尚未處理。規則(四)希望找出所有的 V。 但實際上主要還是以「Vi:狀態類及物動詞」、「Vt:動作類及物動詞」為大宗。. 27.

(42) 規則(四): 第一類: X+V+(V)  X+副詞+V+(V). V歸類為正向種子詞彙 V歸類為正向種子詞彙. 第二類: X+否定詞+V+(V)  X+否定詞+副詞+V+(V). V歸類為負向種子詞彙 V歸類為負向種子詞彙. 規則(四)中的 X 為:算是、還算、都算、還蠻。 規則(四)中的副詞定義:最、很、非常、真的。. 符合規則(四)的例子如下: 「電影在這方面的著墨其實還蠻加分」 → 電影(Na) 在(P) 這(Nep) 方面(Na) 的(DE) 著(VC) 墨(Na) 其實(D) 還(D) 蠻(Dfa) 加分(Vh). 當四個規則擷取完畢後,整理所有種子詞彙。並針對因為這些規則同時被分 類到正向和負向極性的詞彙進行多數決的投票,試著消除岐義性。投票的方式是 按照符合規則的多寡重新分類到極性區域中。. 28.

(43) 第四節 種子詞彙的擴充(同類別). 經過四種規則擷取後,可以得到一些正向和負向的種子詞彙。接著將這些詞 彙使用廣義知網進行擴充。以種子詞彙「合理」為例,如圖 9 所示。. 圖 9:詞彙「合理」在廣義知網的資訊. 詞彙「合理」的下方有 Sentiment 的說明:共有 6 種屬性,分別是 score(極 性分數) 、positive(正向) 、neutral(中性)、negative(負向)、non_opinion(非意 見詞)、non_word(非詞彙)。本研究只考慮 positive 及 negative 兩種。若 positive 屬性欄位中有出現大於 0 的值,便把詞彙定義為正向;反之若 negative 屬性欄位 中有出現大於 0 的值,便把詞彙定義為負向。但不是每個詞彙都只會有 positive 或 negative 中的某一種屬性。以詞彙「保守」為例,如圖 10 所示。「保守」有兩 筆資料,且在廣義知網中出現雙極性的情形:positive 及 negative 屬性均出現大於 0 的值。此時便將這類雙極性的詞彙取出,先不做處理,待第三章第七節再說明。 29.

(44) 為了以利後續說明,因此把這種雙極性稱為「廣義知網中的雙極性詞彙」。. 圖 10:詞彙「保守」在廣義知網中的資訊. 並非每個詞彙都有情緒屬性的標記,以種子詞彙「高明」為例,如圖 11 所 示,可以看出「高明」並沒有 Sentiment 項的說明。. 圖 11:詞彙「高明」在廣義知網的資訊. 本論文提出的擴充方式主要是基於廣義知網對同一個類別中的部份詞彙有 極性標註,且我們認為同一種概念的詞彙,可能也會具有類似的極性。再次以「高 30.

(45) 明」為例,「高明」屬於「wise|智」分類,如圖 12 所示。. 圖 12:類別「wise|智」. 首先將「wise|智」分類中的詞彙全部納入種子詞彙「高明」的擴充詞。接著 以投票的方式定義類別的極性,採取多數決。分別對「wise|智」中所有詞彙查詢, 發現「有頭腦」、「足智多謀」、「明智」、「知人」、「英明」、「睿智」、「天才」均有 Sentiment 的說明,且 positive 屬性值均大於 0。因此透過多數決將「wise|智」這 個類別中的詞彙均定義為正向極性。 由於使用多數決的方式,因此某個詞彙的極性可能在擴充的過程中發生改 變。以詞彙「非同小可」為例:「非同小可」屬於負面極性,「非同小可」又屬於 「important|重要」分類,如圖 13 所示。但「important|重要」分類經過投票後被 判定為正面極性。因此詞彙「非同小可」從負面極性被改為正面極性。. 圖 13:「非同小可」於「important|重要」之情形. 在廣義知網中,同一個類別的詞彙可能包含各種詞性,無法完全透過名稱來 31.

(46) 猜測類別成員的可能詞性組成。因此本研究透過種子詞彙來篩選類別。若種子詞 彙在該類別中是以詞性為「形容詞類」、 「動詞類」的型式出現,則將該類別作多 數決判定,納入擴充詞彙區中;反之其它詞性則不予擴充。 擴充的階段會遇到另一種雙極性問題(有別於上述「廣義知網中的雙極性詞 彙」) ,就是某個詞彙在收錄的過程中,於正面、負面極性類別均有出現,因此產 生矛盾。為此統計兩個極性類別中該詞彙的出現次數,以高者判定。舉詞彙「熟」 為例, 「熟」在擴充過程中總共收錄三筆資料。分別出現在「familiar|熟悉」 、 「very| 很」 、「processed|已加工」三個分類中。可以發現「very|很」屬於負面分類,如圖 14;「familiar|熟悉」、「processed|已加工」屬於正面分類,如圖 15、圖 16。最後 將「熟」判定為正向詞彙。. 圖 14:詞彙「熟」於「very|很」分類中的情形. 圖 15:詞彙「熟」於「familiar|熟悉」分類中的情形. 圖 16:詞彙「熟」於「processed|已加工」分類中的情形 32.

(47) 由於無法事先知道詞彙於電影評論中是在何種情形下被擷取,因此必須考慮 所有的出現情形。使用統計的方式是因為雖然某些詞彙在正、負向類別均出現 過,但實際上根據詞性和用法的不同,大部份的情況中它可能傾向某一種極性。 有別於「廣義知網中的雙極性詞彙」,我們將此種雙極性命名為「擴充過程中產 生的雙極性詞彙」。但當詞彙於正、負面類別中出現次數相同時,將無法以此種 投票方式決定極性,無法投票的詞彙將留待後續處理。(請見第三章第七節) 以此類推,將規則(一)(二)(三)(四)收集到的所有種子詞彙透過同樣 的方式進行擴充,最後再與人工分類的結果做比較。. 第五節 種子詞彙的擴充(同階層). 經過上一節的擴充後,得到了和種子詞彙同類別的詞彙。廣義知網中的所有 詞彙根據概念式的不同,會被分類到結構中的不同位置。考慮此種分類情形,可 以嘗試在擴充的過程中納入更多詞彙。首先將階層結構展開,同樣以「高明」為 例, 「高明」被分類到「wise|智」類別中。 「wise|智」的上一層分類是「WisdomValue| 智慧值」,而「WisdomValue|智慧值」中有兩個子類別「wise|智」、「foolish|愚」。 子類別雖然不同、收納的詞彙也不同,但卻和上層父類別的概念或性質有關,因 此才會被分到同一個父類別之下,如圖 17 所示。. 33.

(48) 圖 17:「wise|智」類別在階層結構中的位置. 以此為基礎,首先找到種子詞彙所在的類別。接著向上一層搜尋父類別,接 著往下一層找出全部的子類別。即為原先種子詞彙類別的所有兄弟類別,因為它 們均位於同樣的高度。本研究找出同樣高度類別中的詞彙,且只取一層。以「wise| 智」類別為例,透過上述方法可以增加擴充詞彙的範圍。現在將「foolish|愚」類 別中的所有詞彙如「不智」 、 「木雕泥塑」 、 「目光如豆」等,也納入擴充詞彙集中。 不同類別的擴充詞彙同樣使用投票的方式判定分類中的極性,如前一節的作法。 因此「foolish|愚」將被分類到負向擴充詞彙中。至於「wise|智」的下層還有更細 部的類別{技高一籌}、OtherWord(wise|智),將不做擷取。 由於廣義知網中某些類別的名稱前有否定字如: 「無」、 「不」、 「沒」,像是類 別「inconsistent|沒條理」 ,如圖 18 所示;此外還同時存在著類別「consistent|有條 理」,如圖 19 所示。若一組互為相反概念的某一個類別能分類出極性,且同時存 在無法分類極性的另一個類別,則我們給予無法分類的類別相反的極性。例如圖 19 的「consistent|有條理」 ,便可以透過圖 18 的負向類別「inconsistent|沒條理」而 34.

(49) 得到正向極性。. 圖 18:類別「inconsistent|沒條理」. 圖 19:類別「consistent|有條理」. 過程中,同樣會遇到「擴充過程中產生的雙極性詞彙」問題。在此重新對正 向、負向集合分別統計詞彙出現次數,再以投票的方式決定極性。理由是相較於 同類別的擴充,同階層的擴充收錄的詞彙量更加龐大,很有可能額外收錄了詞 性、用法不同的同一個詞彙。例如詞彙「差」 : 「差」在同類別的擴充中只收錄了 「unqualified|不合格」一種用法,此時被分類為負面詞彙,如圖 20 所示;但在同 階層的擴充中卻多收錄了負面類別「lack|缺少」,如圖 21、正面類別「dispatch| 差遣」,如圖 22 兩種用法。最後「差」依然為負向詞彙。. 圖 20:「差」在同類別「unqualified|不合格」的收錄. 35.

(50) 圖 21:「差」在同階層中「lack|缺少」的額外收錄. 圖 22:「差」在同階層中「dispatch|差遣」的額外收錄. 統計的過程中有時也可以解決第四節:種子詞彙的擴充(同類別)雙極性無 法解決的情況,例如詞彙「重」 。 「重」在同類別的擴充中共收錄兩種不同的用法, 分別是正向類別「strong|強」、負向類別「heavy|重」,如圖 23、圖 24 所示,因此 透過同類別的方式是無法分類極性的;而在同階層的擴充中額外收錄了正向類別 「PayAttention|注意」,如圖 25 所示,因此「重」得以分類為正向詞彙。. 圖 23:「重」在同類別「strong|強」的收錄. 圖 24:「重」在同類別「heavy|重」的收錄 36.

(51) 圖 25:「重」在同階層「PayAttention|注意」的收錄. 第六節 利用 NTUSD 的擴充. 此部份中應用 NTUSD positive 以及 NTUSD negative 兩份語料做進一步的擴 充,試圖納入更多電影評論中可能出現的情感詞彙。 NTUSD 為一份詳細標記極性的語料庫。除了情緒詞彙本身,甚至包含該詞 彙的相關用法、可能出現的句型。例如:詞彙「不凡」被歸類為正向極性詞彙; 相關的詞彙「不凡的人」同樣被歸類於正向極性詞彙中。「不凡的人」中多出了 「的」以及「人」兩個修飾詞彙。我們需要的關鍵是極性詞彙本身,而非相關的 修飾詞。雖然一個詞彙越是明確、描述的越仔細,判斷時的正確率越高;但另一 方面修飾詞卻可能影響擴充時的效率。為此本研究決定過濾掉修飾詞。 為了取出具有明確極性的詞彙,於是將 NTUSD positive 以及 NTUSD negative 分別經過斷詞系統做分析。由於不確定斷詞後的情緒詞彙將被判定為哪些類型的 詞性,為了盡可能增加擴充詞彙,同時不漏掉和習慣上認知類型不同的詞彙,因 此本研究統計了「形容詞」類型(如表 14 中的 A:非謂形容詞)以及所有的「動 詞」類型(如表 14 中的 VA:動作不及物動詞) ,對應 NTUSD positive 以及 NTUSD negative,分別列於表 14、表 15 中。 37.

(52) 表 14:NTUSD positive 斷詞後之詞性分類 詞性. 詞性說明. 部分範例. 數量. A. 非謂形容詞. 優質、嶄新、英雄式. 22. VA. 動作不及物動詞. 狂歡、報恩、嫣然一笑. 63. VAC. 動作使動動詞. 激盪. 1. VB. 動作類及物動詞. 道謝、學進去、廢寢忘食. 11. VC. 動作及物動詞. 改善、經營、美化. 156. VCL. 動作接地方賓語動詞. 進、度. 2. VD. 雙賓動詞. 給予、贊助、捐獻. 6. VE. 動作句賓動詞. 慶祝、樂見、讚歎. 35. VF. 動作謂賓動詞. 供、鼓勵、潛心於. 8. VG. 分類動詞. 練成、成為、成長成. 5. VH. 狀態不及物動詞. 易、周到、了不起、獨一無二. 724. VHC. 狀態使動動詞. 豐富、公開、堅定. 20. VI. 狀態類及物動詞. 鍾情、內行、引以為傲. 23. VJ. 狀態及物動詞. 欽佩、煥發、經得起. 115. VK. 狀態句賓動詞. 懂、願意、忘不了. 65. VL 總計. 狀態謂賓動詞. 便利、負責、樂於. 17 1273. 表 15:NTUSD negative 斷詞後之詞性分類 詞性. 詞性說明. 部分範例. 數量. A. 非謂形容詞. 莫名、非正式、突如其來. 38. VA. 動作不及物動詞. 戰鬥、消失、含沙射影. 433. VAC. 動作使動動詞. 動、落下、減損. 10. VB. 動作類及物動詞. 降級、獻殷勤、難以置信. 55. VC. 動作及物動詞. 破壞、瓜分、出賣. 911. VCL. 動作接地方賓語動詞. 陷入、捲入、流亡. 34. VD. 雙賓動詞. 偷、敲詐、誤傳. 22. VE. 動作句賓動詞. 賭、抗議、喃喃自語. 137. VF. 動作謂賓動詞. 勞、恐嚇、拒絕. 32. VG. 分類動詞. 淪為、鬼叫、批評為. 23. VH. 狀態不及物動詞. 臭、模糊、一團糟、提心吊膽. 1616. VHC. 狀態使動動詞. 熱、降低、粉碎. 71. 38.

(53) VI. 狀態類及物動詞. 心軟、沒辦法、漠不關心. 35. VJ. 狀態及物動詞. 鄙視、厭倦、談不攏. 203. VK. 狀態句賓動詞. 抱歉、擔憂、歸咎於. 108. VL 總計. 狀態謂賓動詞. 擅、後悔、招致. 27 3755. 電影領域中的情感詞彙,大部分是一般人平常認知的「形容詞」,也就是表 中的狀態類動詞。例如:「VH:狀態不及物動詞」便相當具有代表性。但有些詞 彙如:表 14「VF:動作謂賓動詞」的範例「鼓勵」;表 15「VG:分類動詞」的 範例「批評為」,都是評論中可能出現的極性詞彙。因此本研究決定將所有的「形 容詞」、「動詞」拿來作為再次擴充時的種子詞彙。 去除重複出現的情形後,positive 部份共有 1270 種辭彙;negative 部份共有 3743 種詞彙,這與上表兩部分總計的數量不符。原因是 NTUSD 的詞彙有些是以 「短句」的方式出現。在經過斷詞系統處理後,可能由於極性詞彙在句子中的出 現位置、語法結構不同而被判定為不同的詞性。以 NTUSD negative 的「過度」 為例,如表 16。在 NTUSD negative 中,「過度」出現在以下幾種情形中:. 表 16:NTUSD negative 中「過度」的出現情形 「過度」的詞性判定 工作過度. (A). 工作過度的. (A). 過度. (Dfa). 過度的. (VH). 過度的疲勞. (A). 39.

(54) 表 16 中「Dfa:動詞前程度副詞」並非「形容詞」類型或是「動詞」類型, 將之過濾後,可以發現「過度」在此會有兩種不同的詞性判定(「A:非謂形容 詞」、「VH:狀態不及物動詞」),因此將造成統計數量上的不同。不過此處的 目的只在於取出種子詞彙,擴充的部份將由廣義知網進行,所以可暫時忽略詞性 的問題。 最後將此部分的詞彙進行擴充。直接使用第五節:種子詞彙的擴充(同階層) 的方式;不再做基礎的同類型擴充。由於作法相同,因此雙極性詞彙的問題也是 採取同樣的處理模式。. 第七節 雙極性問題、已收錄但無法分類極性的詞彙問題. 截至目前為止,共發現了兩種雙極性詞彙,分別是「廣義知網中的雙極性詞 彙」、「擴充過程中產生的雙極性詞彙」。後者利用統計的方式,計算同一個詞彙 於正負類別中的出現次數,嘗試分類極性。但受限於正負區域出現的次數一樣, 有多數的詞彙仍然無法分類。而「廣義知網中的雙極性詞彙」則完全無法處理, 因為沒有其它資料以利進一步的判定。 無論是「廣義知網中的雙極性詞彙」,或是「擴充過程中產生的雙極性詞彙」 都可以說成是正負類別的出現次數相同,因而沒有明顯的極性。如果可以找出新 的參考,在平手的情況下作關鍵性的投票,便能成功分類極性。本研究使用 40.

(55) NTUSD 做為關鍵性的一票,試圖處理兩種雙極性問題。至於一開始就沒有任何 極性標註的詞彙,例如之前已收錄但無法分類極性的那些,也可用 NTUSD 來幫 忙標註極性。以下分別討論。 「廣義知網中的雙極性詞彙」是指廣義知網將一個詞彙的 sentiment 欄位中的 positive、negative 屬性同時標註大於 0 的值。這種詞彙本身可能也有不只一種詞 性。分析所有「廣義知網中的雙極性詞彙」後發現廣義知網對此種詞彙極性的標 註是一致的。也就是就算有超過一種詞性,因而出現在多個分類,極性分數也會 相同。但根據觀察,僅限「廣義知網中的雙極性詞彙」有此特性。 另外 NTUSD 本身也具有內部的雙極性問題,因此必須先決定出一種極性才 能使用。將原始 NTUSD 兩部分的詞彙合併觀察,發現一個詞彙在 negative、positive 中最多出現 3 次,出現 3 次的詞彙直接以投票的方式決定極性。如表 17 中詞彙 「羨慕」將被判定為正向。出現 2 次的詞彙,可能有三種情形:於 positive 中出 現 2 次;於 negative 中出現 2 次;於 positive、negative 中各出現 1 次。前兩種狀 況中將直接給予詞彙明確的極性。如表中「歡天喜地」 ,將被判定為正向; 「懼怕」 則為負向。「敏感的」由於兩邊的出現次數各一,因此無法判定。無法判定的詞 彙我們不給予極性,若前述過程中那些無法分類極性的詞彙,不巧剛好又是 NTUSD 這些無法判定的詞彙,則無法給定極性。剩餘出現 1 次的詞彙如「流行 的」,將維持原來 NTUSD 的極性判定。. 41.

(56) 表 17:節錄部份 NTUSD 詞彙之統計次數 原始 NTUSD 的詞彙. 出現次數. positive 中 出現次數. negative 中 出現次數. 結論. 羨慕. 3. 2. 1. 正. 羞怯. 3. 1. 2. 負. 歡天喜地. 2. 2. 0. 正. 懼怕. 2. 0. 2. 負. 敏感的. 2. 1. 1. 流行的. 1. 1. 0. 正. 金玉其外敗絮其中. 1. 0. 1. 負. 接著正式比對。先將前面三種擴充過程中找到的所有「廣義知網中的雙極性 詞彙」 ,與原始 NTUSD 做完全比對。只有兩個詞彙完全相同時,才可被引入比較 並投票決定極性。NTUSD 中除了「不」、「無」等明確的否定詞外,不確定還會 不會有其他可能影響原本詞彙極性的修飾詞,因此直接使用相同的詞彙是最精確 的。比對時使用圖 26 的演算法。. 首先輸入一個「無法判定極性的詞彙」。 接著去 NTUSD positive 比對,尋找是否有完全相符的詞彙。 若有,則該詞彙直接被定義為正向極性。 若無,則去 NTUSD negative 做比對。 若有,則該詞彙直接被定義為負向極性。 若無,但如果在 NTUSD negative 中有出現該詞彙前面加上否定 詞如:「不」、「無」之情形。則取出「不」、「無」後面的詞彙, 定義為正向極性。 若無,則詞彙維持原先無法判定極性的結果。 圖 26:完全比對演算法. 42.

(57) 鑒於先前的過程中,很多「擴充過程中產生的雙極性詞彙」還是無法透過投 票方式得出結果。因此同樣以上述演算法處理,希望能分類詞彙的極性。 擴充過程中,常遇到某些類別的詞彙中沒有任何一筆有極性標註,例如類別 「laugh|笑」;或是投票的過程中,廣義知網對於極性的部分標註在正向、負向的 票數是相同的,例如類別「finish|完畢」。但這些詞彙同樣可能帶有極性,因此也 將它們透過演算法處理。類別型的辭彙和兩種雙極性詞彙間的不同之處在於:雙 極性詞彙只有自己一個;而類別型則是一整個區域。因此若能擴充,則整個區域 內的詞彙均產生極性標註。. 第八節 廣義知網中帶有結構的詞彙之極性分類. 廣義知網所收納的詞彙,根據概念式(結構)的不同而出現在階層中的某個 位置。以下圖 27 為例: 「卓」出現在「great|偉」的類別,概念式同為「great|偉」。 通常結構簡單的詞彙會出現在比較上層的位置;而結構較為複雜的詞彙會出現在 比較下層的位置,像是某些詞彙的細部分類。如:「震天」出現在{震天}類別 中,包含在「great|偉」類別底下,概念式為「great|偉:degree={extreme|極}」;或 是被放到其他無法分類的詞彙(OtherWord 類別)中,如「志在千里」,位於 「OtherWord(great|偉)」,概念式為「great|偉:theme={aspiration|意願}」。. 43.

(58) 圖 27:類別「great|偉」. 結構簡單的詞彙中,一個類別往往包含好多個相同概念的成員;結構較為複 雜的詞彙則常常自成一類。又由於相同類別的詞彙有相同的概念式,因此結構複 雜的詞彙,概念式也常常彼此相異。如圖 27 中的詞彙「勞苦功高」的概念式為 「{great|偉:theme={accomplishment|成績}}」 、 「誰言寸草心報得三春暉」的概念式 為「{great|偉:theme={emotion({母親|mother})}}」。在前述的擴充過程中,若遇到 結構複雜的詞彙,且廣義知網沒有極性標註,則無法擴充(因為無法透過別人得 到極性)。 雖然詞彙被歸類為 OtherWord,但仍然屬於某個大分類。若大分類有極性; 則小分類也很有可能有極性。如上一段的「志在千里」,應該是屬於正向極性的 詞彙,但廣義知網未標註。此節嘗試為帶有結構(概念式中並非只有單純一個義 原),且廣義知網沒有極性標註的詞彙標註極性。 在前面的擴充階段,本研究以投票的方式為同一個類別的成員分類極性。當 時主要目的是取出類別中的詞彙用以擴充。類別本身只是給予一個極性,不做他 44.

(59) 用。詞彙的概念式,主要是由義原和連接詞所構成。每個詞彙均有其概念式,可 能由一到多個義原組成,端看如何定義。我們利用詞彙的概念式,將結構展開。 接著用類別的極性,為結構上的全部節點作標註。 以 含 有 多 個 義 原 的 詞 彙 「 名 利 雙 收 」 為 例 。 概 念 式 為 :「 {obtain| 得 到 :possession={or({famous| 著 名 },{money| 貨 幣 })},manner={simultaneous| 同 步}}」,邊上的 possession 和 manner 可以看成附加的描述。義原(類別)的極性 與結構展開如圖 28 所式。. 圖 28:「名利雙收」的結構. 這邊採用一個簡單的演算法,如圖 29 所示:觀察節點(上的義原),並以之 前對類別內成員投票找出的極性為其標註。如果結構內的義原在前述過程中沒有 分類極性、或是沒有收錄,則預設為正向,如「名利雙收」內的某一個義原「money| 貨幣」。. 45.

(60) //第一步:標註結構中的節點極性。 將概念式中的結構展開,並幫每個節點設定 2 個紀錄的欄位,第一個欄位名稱 為 primary,第二個欄位名稱為 final。 //為展開後的所有節點標註極性。 比較節點上的義原與擴充資料庫中的義原。 若有,則標註極性,將結果記錄於每個節點的欄位 primary 中。 或無,則標註為正向。(若出現非義原節點,如 OR、NOT、PartOf,則 同樣標為正向)將結果記錄於每個節點的欄位 primary 中。 檢查邊上的描述,看有沒有「StateFin」描述。 若有,將「StateFin」描述內的義原極性取出,直接做為整體的極性。 //第二步:定義整體的極性。 //從最下層節點開始開始逐步往上調整結構的極性,最後最上層的節點便代表 該詞彙的極性。 將全部無更下層節點的極性值從欄位 primary 複製到欄位 final。 順著往上找上層節點,直到無法往上。 如果上層節點非 NOT 觀察上層節點的欄位 primary 與其下一層所有節點欄位 final。如果任 一個欄位中出現負值,則上層節點的欄位 final 填入負值。 //也就是說只有全部欄位均為正值,上層節點欄位 final 才會為正值。 否則觀察 NOT 的下層節點欄位 final 屬性值,並取相反值,填入 NOT 的 欄位 final 中。 檢查最上層節點的 final 欄位值便能判定詞彙的正負極性。 圖 29:標註結構型詞彙的演算法. 以「名利雙收」為例,概念式中共有 4 個義原: 「obtain|得到」 、 「famous|著名」 、 「money|貨幣」、「simultaneous|同步」和 1 個「or」。「obtain|得到」與「famous| 著名」的類別,在先前擴充的過程中顯示正向類別; 「money|貨幣」 、 「simultaneous| 同步」 、 「or」則無,預設為正向類別。將正向資訊填入每個義原的 primary 欄位。 以義原「or」 、 「famous|著名」 、 「money|貨幣」子結構為例: 「famous|著名」 、 「money| 貨幣」primary 欄位的正向標記直接複製到 final 欄位。比較「or」的 primary 欄位、 46.

(61) 「famous|著名」、「money|貨幣」的 final 欄位,均為正向,因此「or」的 final 欄 位為正向。以此類推,最後「名利雙收」將被標記為正向辭彙。 分析廣義知網的概念式,我們認為越上層的節點越能代表詞彙的主體;而下 層的節點主要用於是修飾、並為上層的義原增添一些描述,使之更貼近原本的概 念。因此本研究的構想是:根據階層的特性,由下層開始,逐步影響上層節點極 性,應該就能體現概念式的意義。 此外方法是著重「負面」概念出現的情況。我們認為一個詞彙若是沒有給人 「負面」的概念,則不能說它是負面的,像大多數名詞就是如此。更貼切的來說: 名詞和某些詞類本身的確不帶有極性,應該增加中性類別。但是如果想正確幫研 究的實驗語料標註極性,就必須給予一個適當的極性。 為了測試標註結構型詞彙的演算法的效能,因此找出「種子詞彙的擴充(同 類別)」、「種子詞彙的擴充(同階層)」、「利用 NTUSD 的擴充」這三節擴充過程 中,滿足以下條件的詞彙做為測試資料。 條件為: 1.. 概念式中有「只用一個義原」表示以外的情形。. 2.. 必須是廣義知網已標註極性的詞彙。. 3.. 有明確極性的詞彙(不可以是雙極性詞彙)。. 首先以前述的演算法試著為詞彙標註極性,接著和廣義知網的答案做比較, 以檢驗正確性。在此說明一下測試資料。經過整理後共找出 1599 個詞彙。包含 47.

(62) 種子詞彙本身、或是種子詞彙的擴充詞,並有各種詞性。透過概念式將其展開, 從沒有任何節點的詞彙到超過 5 層以上,結構相當複雜的詞彙均有收錄。列出一 部分於表 18 中。. 表 18:節錄部分結構型詞彙範例 結構型 詞彙. 極性. 概念式. 層數. 節點數. 無疾而終. 負. {die|死:condition={not({ill|病態})}}. 3. 3. 可期. 正. {expect|期望:possibility={very|很}}. 2. 2. 旨在. 正. 0. 0. 劣勢. 負. purpose={} circumstances={disadvantageous|有弊}. 1. 1. 破門. 負. manner={bump|撞:result={separate|分 離},patient={PartOf({thing|萬 物}):telic={or({GoInto|進入},{GoOut|出 去}):LocationThru={~}}}}. 6. 8. 肘掖生變. 負. {appear|出現:theme={affairs|事 務:CoEvent={uprise|暴動:domain={politics| 政},location={surrounding({object|物 體})}}}}. 5. 6. 惡作劇. 負. {IllTreat|慢待:purpose={tease|取樂}}. 2. 2. 學壞. 負. {imitate|模仿:content={behavior({human| 人}):qualification={improper|不當}}}. 4. 4. 遠征. 正. {leave|離開:domain={military| 軍},manner={far|遠},purpose={attack|攻 打}}. 2. 4. 從良. 正. {cease|停做:content={affairs|事 務:qualification={or({lascivious| 淫},{unlawful|非法})}}}. 4. 5. 糟透了. 負. {bad|壞:attitude({speaker|說話者})={sigh| 嘆氣},degree={extreme|極}}. 2. 3. 人人自危. 負. {perception|感知:content={dangerous| 危},experiencer={human|人:quantity={all| 全}}}. 3. 4. 48.

參考文獻

相關文件

第四章 連續時間週期訊號之頻域分析-傅立葉級數 第五章 連續時間訊號之頻域分析-傅立葉轉換.. 第六章

第三節 研究方法 第四節 研究範圍 第五節 電影院簡介 第二章 文獻探討 第一節 電影片映演業 第二節 服務品質 第三節 服務行銷組合 第四節 顧客滿意度 第五節 顧客忠誠度

Chebyshev 多項式由 Chebyshev 於 1854 年提出, 它在數值分析上有重要的地位 [11], 本文的目的是介紹 Chebyshev 多項式及線性二階遞迴序列之行列式。 在第二節中, 我們先介

在第一章我們已瞭解一元一次方程式的意義與解法,而在本章當中,我們將介紹

第四章 直角座標與二元一次方程式.

第四章 直角座標與二元一次方程式.

在現行的 99

第四章: 中學報稅的設計 第五章: 初中諒程主建議 第六章: 高中諒我建議,..