非監督式學習方法介紹

第三章研究方法

第三節非監督式學習方法介紹

After CKIP word segmentation (ADV) 是(Vt) 反(Vt) 服貿(N)？(QUESTIONCATEGORY) 我(N) 不(ADV) 知道(Vt) 。(PERIODCATEGORY)

Post processing for segmented words

Sentiment Analysis based on Unsupervised Learning Method Topic-relevant Document

Retrieval Documents

CKIP word segmentation

system Compute the

frequency of topic seed words in each document

Extract top-M documents Compute PMI

score of each word in top-M

documents Extract nouns with

top-N PMI scores as query expansion

terms from top-M documents

Add query expansion terms to the topic-relevant term set Topic-relevant document

retrieval algorithm

Topic-relevant documents

Topic seed words

Output the polarity of each document

Topic-relevant terms

圖四以非監督式學習分析部落格文章意見傾向架構圖 Query Expansion

1. Word segmentation 2. POS tagging 3. Eliminating stop

words

4. Post processing for segmented words Data Preprocessing

NTUSD

Keenage- sentiment vocabulary Classify the polarity of each sentences

and sum up the polarity by majority rule Split sentence by comma

Detect sentiment words, negative words, question mark

and transitional expressions

一、 以非監督式學習分析部落格文章意見傾向架構圖說明

在資料前置處理(Data Preprocessing)後，主題相關文章擷取(Topic-relevant

Document Retrieval)的方法中，本研究透過查詢詞擴充技術(Query Expansion)擴充與主題相關的詞彙，主要流程為依據文件中包含主題種子詞彙(Topic Seed Words) 的頻率進行排序，接著擷取前 M 份文件，計算 M 份文件中的詞彙與查詢主題的

PMI 值，擷取 PMI 值排序後的前 N 個名詞詞彙作為查詢擴充詞(Query Expansion

Terms)。然後將主題種子詞彙和查詢擴充詞合併為主題關聯詞彙(Topic-Relevant Terms) ，再擷取包含主題關聯詞彙的文中作為主題相關文章 (Topic-Relevant Documents)。

接著是主題相關文章意見傾向分析的方法，在非監督式方法中，本研究使用以字典為基(Lexicon-Based)和分析句子結構的方法分析意見傾向，分析句子結構的方法主要是依據句子中的逗號(Comma)、情感辭典詞彙(Sentiment Words)、否定詞(Negative Words)、問號(Question Mark)和轉折詞(Transitional Expressions)判斷句子意見傾向，再以文章中不同極性的句子多數決決定整篇文章的極性。本研究所使用的情感辭典分別為 NTUSD 台大意見詞詞典和知網的情感分析用詞語集

(Keenage-sentiment Vocabulary)。

本論文所提的非監督式學習方法架構圖如圖四所示。各模組之運作說明請見以下各小節。

二、 擷取主題相關文章

(一) 主題與詞的 PMI 值

Duan 等人(2010)指出相互資訊(Mutual information, MI)可以定義為兩個事件之間的關聯，因此，在這篇論文中，本研究使用點對點相互資訊(Pointwise Mutual

Information, PMI)計算文中詞彙與主題種子查詢詞彙之間的關聯，PMI 的公式如 (4)(5)所示。

題查詢詞的分數加總，接著再將該分數除以查詢詞彙的總詞數，得到的分數代表該詞彙和查詢主題的關聯度，如公式(5)所示。舉例來說，主題種子詞彙為馬英九、

馬總統、馬政府、馬政權，若計算詞彙“w=政府”的 PMI(w,q)值，結果為 5.3840、

5.0442、4.9173 和 2.2553，也就是說馬英九與政府的分數為 5.3840，而四個 PMI(w,q) 值的總和為 17.6008，除以四個查詢種子詞彙後，PMI(w,Q)值為 4.4002，因此，

詞彙“政府”與馬英九的主題關聯分數為 4.4002。如果實驗主題為馬英九與學運，

則必須計算詞彙和馬英九主題的 PMI(w,Q)值、學運主題的 PMI(w,Q)值，再取平 均後，才為該詞彙與馬英九與學運的 PMI(w,Q)值。

(二) 查詢詞擴充

經過資料前置處理後，文章中的詞彙經過斷詞與標註詞性後，本研究希望能擴充與查詢詞相關的詞彙，以利系統找尋更多不包含查詢詞，但是與主題相關的文件，所以本研究的查詢詞擴充方法為透過計算文章中的詞彙與主題查詢詞之間 的 PMI 值，擷取 PMI 值高的詞彙當作擴充詞彙。

為了決定擷取多少詞成為擴充詞彙，本研究依據 Harman (1988)之研究，顯示從相關回饋所產生的詞彙清單擷取詞彙時，再增加 20 個詞彙，對於檢索效益有所提升，但是超過 20 個就會降低，代表候選詞彙清單都存在一個理想的切點 (Cut-off Point)，作者以 Cranfield 1400 測試資料庫進行實驗，發現切點介於 20 到 30 個詞彙之間。

所以在本篇論文中，本研究先根據主題查詢詞彙在文章中出現的頻率，排序文章的主題關聯度，接著擷取排序前 100、200 和 300 名的文章，用以計算主題 種子詞彙和這些文中每個詞彙的 PMI 值，實驗使用多少篇文章的詞彙對於分類主 題相關有幫助。當系統計算完每個詞彙的 PMI 值後，因為在查詢主題中本研究認 為名詞關連性強於其他詞性，所以實驗排序前 10、20 和 30 個名詞詞彙當作查詢擴充詞彙，最後將查詢擴充詞彙和主題種子詞彙形成主題相關詞彙集。

三、 主題相關文章之意見傾向分析

(一) 情感辭典

在本篇研究的非監督式方法中，本研究使用情感辭典做為判斷極性的主要依據，辭典的來源採用知網⁶的情感分析用詞語集和台大意見詞詞典 NTUSD (Ku and

Chen, 2007)。知網的情感辭典包含了 9,319 個詞彙，分別被分類為正面情感、負面情感、正面評價、負面評價、程度級別和主張詞語，如表四所示。台大意見詞詞典 NTUSD 則包含 2,810 個極性被分類為正面的詞彙，和 8,276 個負面的詞彙，

例如“大方的”為正面詞彙，“上癮”為負面詞彙。

6 http://www.keenage.com/

表四知網情感分析用詞語集分類

分類例子

正面情感愛、讚賞、表揚、稱羡

負面情感哀傷、半信半疑、懊惱

正面評價不可或缺、動聽、安如泰山

負面評價華而不實、荒涼、卑鄙無恥

程度級別極、非常、莫大、十足

主張詞語覺得、認定、感受到、認為

(二) 非監督式文章意見傾向判斷

關於意見擷取，Ku (2006)等人提到同一句中出現主題詞與意見詞的時候就可以將該句視為意見句，所以在本篇論文中，如果在同一句中出現主題詞與情感辭典的詞彙時，本研究依據該詞彙在辭典中的極性，給予該句子極性。而構成完整句子的條件則是句尾為句號、驚嘆號或問號。

本研究以多數決判斷句子極性，如果句子中包含的負面詞彙較多，則系統會判斷該句極性為負面；若正面詞彙較多，則判斷為正面句子；當正面詞彙和負面詞彙個數相同時，系統則會判斷該句子極性為中立，範例如表五所示。

變。最後，如果該段落為句尾，則判斷是否為問號並且依照規則修改極性，圖五的這個例子因為句尾為問號，所以將原本的正面極性轉為負面極性，根據非監督式意見傾向分析方法判斷該具為負面句子。

本文所使用的否定詞包括“沒有”、“沒”、“不是”、“不會”、“不”、“非”、“無”。

判斷完該句每個段落的極性後，若其中一個段落包含轉折詞，則該句極性以包含轉折詞的段落為主，否則以多數決決定該句極性。有關轉折詞的說明將在下一小節呈現。

圖五非監督式的意見傾向判斷流程

最後統計整篇文章的句子極性，依照句子極性的個數決定文章極性，如果正面句子個數較負面句子個數和中立句子個數多，則該文章為正面文章；如果負面句子個數較正面句子個數和中立句子個數多，則該文章為負面文章；當正面句子個數和負面句子個數相等，或是中立句子較其他兩種極性的句子個數多時，則該文章為中立文章。接下來將詳細說明關於各項判斷規則的細節。

(三) 轉折詞及問號判斷

當句子以逗號切割成多個段落時，本研究發現如果句子中包含轉折詞，整個句子的極性將會以包含轉折詞的段落為主，例如：“馬總統不少政策作為，都招致

「父子騎驢」的批評，但是低調處理母親後事展現儉樸家風，對社會也有示範的效果。”，該句子實際上是要表達稱讚馬總統的儉樸家風，而不是政策有父子騎驢的批評，所以如果句子中包含轉折詞，系統將只以轉折詞後的情感辭典詞彙極性，辨識該句的極性。在本篇論文中，本研究使用的轉折詞共有 11 個，分別是

“但”、“但是”、“可”、“可是”、“而”、“然而”、“否則只是”、“不過”、“卻”、“不然”、

“反之”。

除此之外，本研究發現如果句尾是問號時，將會使得該句的極性相反，例如：

“大家天天以罵馬英九為樂，是要讓全世界的人看不起我們的總統，因他很爛，馬英九是那點對不起我們？”，在該句中，“看不起”、“爛”、“對不起”皆為負面詞彙，

但是因為句尾為問號，所以原本為負面的句子，轉變成正面傾向。

而問號除了會改變意見傾向，也會將原本沒有任何意見傾向的句子轉變成負面句子，例如：“關於核四，這個馬英九越踢越像驢，封存和啟封到底要花多少錢？”，在該句中不包含任何情感辭典詞彙，只依照情感辭典判斷意見傾向將無法判斷該句為負面句子，所以本論文以政論性文章中的疑問句較少為實際提問，較多為反諷句的特性，增加無意見傾向的句子若包含問號，則判斷為負面句子的條件。句子包含問號的意見傾向判斷規則，如表六所示。

表六句子包含問號的意見傾向判斷規則 問號判斷前的意見傾向增加問號判斷後的意見傾向

正面句子負面句子

負面句子正面句子

中立句子負面句子

在文檔中中文部落格文章之相關性擷取與意見傾向分析之研究 (頁 26-37)

第三章 研究方法

第三節 非監督式學習方法介紹

PMI 值，擷取 PMI 值排序後的前 N 個名詞詞彙作為查詢擴充詞(Query Expansion

第三章研究方法

第三節非監督式學習方法介紹