中文部落格文章之相關性擷取與意見傾向分析之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：侯文娟博士. 中文部落格文章之相關性擷取與意見傾向分析之研究 Topic-Relevant Document Extraction and Opinion Analysis in Chinese Blog Posts. 研究生：顏安孜撰中華民國一零四年六月.

(2) 摘要. 隨著網路技術的發展，越來越多人透過網路分享自己的評論意見，如何在龐大的網路文章中，自動化分類文章意見傾向，是情感分析(Sentiment Analysis)重要的研究方向。在本論文中，本研究針對政論性文章，提出能擷取出與特定主題相關文章，並且進行文章的意見傾向分析的方法，意見傾向分類為正面、中立和負面。為了能精確的分類文章，本研究提出非監督式和監督式學習方法，實驗分為擷取主題相關文章與主題相關文章意見傾向分析兩大部分。在非監督式方法中，本研究利用點對點相互資訊(Pointwise Mutual Information, PMI)的公式計算文中名詞和主題的相關程度，將相關程度高的名詞作為查詢擴充詞彙，若文章中包含主題詞或查詢擴充辭彙則代表與主題相關。然後，本研究分析主題相關文章中的句子結構，以 lexicon-based 的方法給予句子極性，並且探討句子中包含否定詞、轉折詞和句尾為問號對於極性的影響。在監督式方法中，本研究選擇使用向量支援機器(SVM)進行文章分類，在主題相關文章擷取的實驗中，透過卡方檢驗(Chi-square test, CHI)的公式計算訓練資料的辭彙和類別為相關的分數，並將分數排序前 20 名的詞彙以兩個或三個為一組，本研究發現有些詞彙組合在同一篇文章中出現代表與主題相關。在主題相關文章意見傾向分析的實驗結果顯示，以詞彙在不同極性文章出現頻率選取訓練 I.

(3) 詞彙比使用卡方檢驗進行特徵挑選好，而特徵使用詞彙在訓練資料中的極性，比使用情感辭典的詞彙極性的結果好。最後，比較非監督式與監督式學習方法的主題相關文章之意見傾向分析實驗結果，顯示監督式方法的結果比非監督式的方法好，精確率因為實驗主題不同，最高為 70.84%，最低為 65.49%。. 關鍵字：情感分析、查詢詞擴充、主題相關文章擷取、意見極性分類. II.

(4) ABSTRACT. With the development of the internet technology, a lot of people express their opinions as reviews or comments on the Internet. Classifying the opinion polarity of documents automatically becomes an important research direction of sentiment analysis. In the thesis, the experiment data are political articles, some methods are designed to extract documents which are related to the topic and analyze the opinion polarity of documents. The polarities are classified as positive, neutral and negative. For the purpose of correctly classifying documents, the unsupervised learning and supervised learning methods are adopted. The experiments consist of the extraction of the topic-relevant documents and the analysis of the opinion polarity of the document. In the unsupervised learning method, the Pointwise Mutual Information score of each noun phrase is computed in order to extract the query expansion terms. Then, the topic-relevant documents are extracted by utilizing the topic-relevant terms and topic seed words. Next, we analyze the structures of the sentences where the lexicon-based method is utilized to determine the opinion polarity of the sentence. In addition, the issues of whether the sentence that contains negative words, transitional expressions and question mark will influence the opinion polarity are investigated. III.

(5) Furthermore, in the supervised learning method, the machine learning classifier SVM is employed to classify documents. In the experiment of extracting topic-relevant documents, the score of relevance between words and the topic is computed by the Chi-square test formula. Within the top twenty ranks, we discover that some pair words or trio words appearing in the document represent that the document is relevant to the topic. The experimental results of the opinion polarity show that extracting the training terms by the specific frequency condition is better than the feature selection based on the Chi-square test. Moreover, the result of feature selection shows that using the polarity of each word in the training data is better than using the polarity of the sentiment words in the sentiment lexicon. Finally, comparing the results of the unsupervised learning and the supervised learning methods in the analysis of the opinion polarity, the supervised learning method is better than the unsupervised learning one. Among the different experiment topics, the highest precision is 70.84%, and the lowest precision is 65.49%.. Keywords: Sentiment Analysis, Query Expansion, Topic-relevant Document Retrieval, Opinion Polarity Classification. IV.

(6) 謹獻給我的父母、指導教授、同學和朋友. V.

(7) 誌謝. 首先要感謝指導教授侯文娟老師，由於她的引導與細心教學，我才能完成這篇研究，同時也要感謝與我同實驗室的同學，常常與我進行討論與研究，並且感謝系上提供實驗室的研究環境與修習課程，讓我能在良好的學習環境中學習專業知識、進行研究。最後要感謝我的家人，提供我生活上的支援、支持我所做的決定，讓我能無後顧之憂的進行研究、完成學業。. VI.

(8) 目錄摘要................................................................................................................................ I ABSTRACT .................................................................................................................. III 附表目錄.................................................................................................................... VIII 附圖目錄........................................................................................................................ X 第一章緒論............................................................................................................. 1 第一節研究動機............................................................................................. 1 第二節研究目的............................................................................................. 2 第三節論文組織............................................................................................. 2 第二章相關研究探討............................................................................................. 3 第三章研究方法................................................................................................... 12 第一節緒論................................................................................................... 12 第二節資料前置處理................................................................................... 13 第三節非監督式學習方法介紹................................................................... 15 第四節監督式學習方法介紹....................................................................... 26 第四章實驗與結果............................................................................................... 47 第一節評估測量標準................................................................................... 47 第二節實驗資料........................................................................................... 48 第三節實驗結果與討論............................................................................... 54 第五章結論與未來發展....................................................................................... 86 參考文獻....................................................................................................................... 89. VII.

(9) 附表目錄表一表二表三表四表五表六表七. 中研院斷詞系統簡化詞性表....................................................................... 7 斷詞前後之範例......................................................................................... 13 斷詞後處理之範例..................................................................................... 15 知網情感分析用詞語集分類..................................................................... 21 句子極性分類例子..................................................................................... 22 句子包含問號的意見傾向判斷規則......................................................... 25 SVM 參數設定 ........................................................................................... 28. 表八表九表十表十一表十二表十三表十四表十五表十六表十七. 卡方檢驗公式符號介紹............................................................................. 29 LibSVM 檔案格式描述 ............................................................................. 31 主題與對應的 rule pattern ......................................................................... 35 主題相關實驗所使用的向量表示式描述................................................. 36 馬英九與學運訓練資料詞彙的四種情況................................................. 38 馬英九與學運主題的完整向量表示式..................................................... 39 rule pattern 句 ............................................................................................. 40 依照詞彙在不同極性文章出現頻率的特徵挑選條件(x=2,3,4,5) ........... 41 以監督式方法修感情感辭典極性規則..................................................... 43 學運主題的主題句單一極性詞彙............................................................. 43. 表十八表十九表二十表二十一表二十二表二十三表二十四表二十五表二十六表二十七. 馬英九主題的主題句單一極性詞彙......................................................... 44 學運主題的主題相關單一極性詞彙......................................................... 44 馬英九主題的主題相關單一極性詞彙..................................................... 45 本論文意見傾向分析實驗所使用的向量表示式描述............................. 46 三個實驗主題與其對應的主題種子詞彙................................................. 49 標記者標記情況......................................................................................... 51 標記者 A 和 B 之間的 Kappa 值............................................................... 51 標記者 B 和 C 之間的 Kappa 值 ............................................................... 52 標記者 A 和 C 之間的 Kappa 值............................................................... 52 Kappa 值解讀 ............................................................................................. 53. 表二十八表二十九表三十表三十一表三十二. 主題相關文章數......................................................................................... 53 各主題正面、中立和負面的文章數......................................................... 54 以非監督式方法擷取主題相關文章實驗方法描述................................. 55 以非監督式方法測試查詢詞擴充擷取文章數範圍的實驗結果............. 55 以非監督式方法擷取主題為學運相關文章的實驗結果......................... 56. 表三十三以非監督式方法擷取主題為馬英九相關文章的實驗結果..................... 57 表三十四以非監督式方法擷取主題為馬英九與學運相關文章的實驗結果......... 57 VIII.

(10) 表三十五情感辭典意見傾向分析結果..................................................................... 58 表三十六表三十七表三十八表三十九表四十表四十一表四十二表四十三表四十四表四十五. 以非監督式方法分析主題相關文章意見傾向實驗方法......................... 60 以非監督式方法分析主題相關文章意見傾向實驗結果......................... 61 以非監督式方法分析實際被標為有極性的文章之意見傾向實驗結果. 63 特徵選取實驗方法..................................................................................... 64 學運主題之特徵選取實驗結果................................................................. 65 主題相關實驗以 CHI 特徵選取不同詞彙量實驗結果 ............................ 66 以監督式方法擷取主題相關文章實驗方法............................................. 67 以監督式方法擷取主題為學運相關文章的實驗結果............................. 68 以監督式方法擷取主題為馬英九相關文章的實驗結果......................... 69 以監督式方法擷取主題為馬英九與學運相關文章的實驗結果............. 70. 表四十六修改情感辭典實驗所使用的特徵............................................................. 71 表四十七修改情感辭典實驗結果比較..................................................................... 72 表四十八意見傾向實驗以 CHI 特徵選取不同詞彙量實驗結果 ............................ 73 表四十九意見傾向實驗以詞彙在不同極性文章出現頻率的特徵挑選條件結果. 74 表五十以監督式方法分析主題相關文章意見傾向實驗描述............................. 75 表五十一以監督式方法分析主題為學運相關文章意見傾向的實驗結果............. 76 表五十二以監督式方法分析主題為馬英九相關文章意見傾向的實驗結果......... 77 表五十三句子中包含轉折詞或句尾為問號的比例(實驗句代表主題句和 rule pattern 句) ..................................................................................................................... 80 表五十四以監督式方法分析實際被標為有極性的文章意見傾向的實驗結果..... 81 表五十五代表特定極性的詞彙與無法確定極性的情感辭典詞彙例子................. 85. IX.

(11) 附圖目錄圖一圖二圖三圖四圖五圖六. 斷詞後並且被標註詞性的文章........................................................................... 6 支援向量機......................................................................................................... 10 主題相關意見擷取之流程................................................................................. 12 以非監督式學習分析部落格文章意見傾向架構圖......................................... 16 非監督式的意見傾向判斷流程......................................................................... 23 以監督式學習分析部落格文章意見傾向架構圖............................................. 26. 圖七以詞彙“馬英九”為例的向量表示式 ................................................................. 36 圖八以詞彙“小馬”為例的向量表示式 ..................................................................... 37. X.

(12) 第一章緒論第一節. 研究動機. 文章可以分成兩個主要類別，分別為事實與意見，事實是客觀的，而意見則是主觀的。意見也反映人類對於產品或事件的情緒與感受，過去有許多意見探勘的研究，領域包含汽車、銀行、電影、旅遊地點、電子產品(Ghorpade and Ragha, 2012)。近年來，隨著網路的興起，使用者可以透過網路表達自己的想法和意見，這些意見對於需要客戶回饋的公司，提供了相當豐富的資訊。因此，分析意見，以及將意見以情緒類別分類的結果，逐漸成為決策的關鍵因素。. 根據美國市調公司尼爾森針對全球 50 國、超過 2.5 萬網路消費者進行全球網路消費者調查報告，發表的「2009 年全球網路消費者調查報告」顯示，七成以上消費者相信網友在網路上發表的意見與評價，已超越網路廣告與其他資訊的重視程度。除此之外，每天超過 75,000 篇部落格被建立，並且伴隨著每天產生 1,200,000 篇的新文章，在現代社會中，有 40%的人時常瀏覽部落格、論壇或其他網站中的意見、評論和建議等相關文章(Pang and Lee, 2008)。由此可知，網路上的意見和評論的重要性。目前對於查詢主題關連性，Google1搜尋引擎已經有很好的成果，但是尚未應用在意見方面的搜尋，主要是因為對於搜尋主題的擴展與意. 1. http://www.google.com 1.

(13) 見的判斷仍有相當難度。所以本研究希望分析中文網路文章中，作者針對特定主題的主觀評論語句，並且能準確地辨識意見的傾向(正面、中立、負面)。因此，本論文的研究將分為兩個部分：首先從語料庫中擷取主題相關文章，接著對擷取出的文件進行情感分析(Sentiment Analysis)。. 第二節. 研究目的. 本研究以中文部落格文章為研究對象，實驗的部分分為兩個階段，首先是擷取出與查詢主題相關的文章，然後再從主題相關的文章中分類意見的傾向(正面、反面、中立或無意見)。為了讓意見擷取系統有更準確的效能，在本論文中嘗試比較監督式與非監督式學習方法，達到比使用原始查詢詞彙擷取更多的主題相關文件，並且準確分類意見極性為本實驗的目的。. 第三節. 論文組織. 本篇論文的組織架構如下：第一章為緒論，說明研究的動機與目的；第二章為相關研究的探討，介紹該領域的研究背景與研究成果；第三章提出本篇研究的架構，並且詳細說明本論文所提出的研究方法；第四章為實驗過程與實驗結果；第五章將說明本論文的結論以及未來的發展方向。. 2.

(14) 第二章相關研究探討. 本章將探討與整理與本論文相關的研究以及他們的實驗方法與成果，本研究相關研究領域為情感分析與機器學習，所使用到的技術分別為斷詞系統、查詢擴展、SVM、情緒分析等，相關文獻說明如下列各小節。. 一、. 研究背景. (一) 情感分析(Sentiment Analysis) 情感分析主要目的是分類文件或句子中的意見表達的極性為正、負或中立。常使用的方法是利用情感辭典，或是訓練已經標記好的評論，用於建立情感模型 (sentiment model)。在情感辭典的部分，可以是廣義的情緒詞彙，或者是特定領域的情緒詞彙(Lu and Tsou, 2010)。情感分析的技術是關於辨識和整合使用者表達的情緒或意見。在過去大部分情感分析研究的方法中，可以分成監督式 (Supervised)、非監督式(Unsupervised)和半監督式(Semi-Supervised)。監督式學習可以由訓練資料中學到或建立一個模式，並依此模式推測新的實例，例如使用以 Maximum Entropy 為主的機器學習演算法(Li et al., 2009)；使用 Support Vector Machines(SVM)分類微博文章的情感極性(Sui et al., 2012)；而在 Yang 和 Zhou (2011)所提的論文中，作者分析中文句子的語意結構，接著將分析的語意結構依照動詞的句法結構，分成直接和間接的意見，再使用 Maximum. 3.

(15) Entropy 演算法學習這兩種特徵，對中文句子進行情緒分析。文章情感分類的非監督式學習方法則是以辭典為主(Wang and Lee, 2011; Zhai et al., 2010)，Zhang 等人(2012)提出改善自動化產生情感辭典的方法，並且給予每個詞彙分數。首先利用已知的正負面情感詞彙建立初始的種子詞彙，然後定義代表詞彙的語意極性分數的分數向量，並建立種子詞彙和其他詞彙之間的關連圖，最後根據向量和關聯圖擴充種子詞彙；Wang 等人(2013)使用 lexicon-based 的方法並結合模糊理論，首先將情感詞彙進行強度量化，接著定義分類正面和負面的模糊集合和歸屬函數，然後透過實驗訓練資料集決定歸屬函數的最佳參數，最後利用模糊分類器對評論進行分類。另外，應用模糊理論在情感分析領域的研究是 Zhuo 等人(2014)提出根據情感程度詞彙和中文模糊語意模型對中文文章進行情感分析。而半監督式學習則是介於監督式與非監督式學習之間，有一部分使用者已經標記好的資料(labeled data)，而剩下尚未被發現的特徵為未標記資料(unlabeled data)，所以半監督式學習的目標是將未標記的資料分類到正確的特徵類別，例如 Zhai 等人(2011)應用半監督式學習於辨識領域的特徵，某些特徵在不同領域有不同意義，例如“picture” 這個詞在相機中代表相片，在電影領域則代表影片。. (二) 機器學習(Machine Learning) 機器學習的理論主要是設計和分析讓計算機可以自動「學習」的演算法。機器學習演算法是一種從數據中自動分析獲得規律，並利用規律對未知數據進行預測的演算法。近幾年有許多極性分類研究使用不同的監督式分類演算法，最常見被使用的方法是 Support Vector Machine (SVM) (Vapnik, 1995)、Naïve Bayesian Classifier (John and Langley, 1995)。雖然其他方法像是 Maximum Entropy (Jaynes, 4.

(16) 1957)、Decision Tree(Quinlan, 1993)、Latent Dirichlet Allocation (LDA) (Blei et al., 2003)和 Probability Latent Semantic Analysis (PLSA) (Hofmann, 1999)在過去的研究中也經常被使用，但是 Khan 等人(2009)收集了 336 篇使用機器學習演算法分類文章的相關論文，這些論文發表時間為 2002 年至 2008 年，2008 年使用 SVM 的論文篇數為 45 篇，使用 Naïve Bayesian 的論文篇數為 19 篇，而使用其他機器學習的方法則是 11 篇。在這六年間，SVM 相較其他機器學習方法，具較高的使用率。使用機器學習的優點在於如果訓練資料品質好的話，就能有很高的正確率，但是前處理的部分可能需要大量的人工標記資料。相反的，如果是使用辭典進行分析，則能夠簡單的應用在多種領域的文章分類，但是正確率不一定會比機器學習的方法好。因此，在一些論文研究中，整合了情感辭典和機器學習的技術 (Andreevskaia and Bergler, 2008; Qiu et al., 2009)。他們的方法只是使用一般手動標記的辭典，而 Lu 和 Tsou (2010)進一步將一般的情感辭典使用監督式學習的方法調整，他們將辭典中的詞彙和訓練資料進行比對，計算被標記的詞彙詞性正確率，刪除正確率低於門檻值的詞彙，最後利用修改後的情感辭典取得句子的極性分數當作 SVM 的特徵，該方法的正確率為 75%，比使用其他分類器的方法更好。. 二、. 斷詞系統(Word Segmentation System) 詞是最小有意義且可以自由使用的語言單位，任何語言處理的系統都必須先. 能分辨文本中的詞才能進行進一步的處理，中文句子無法像英文字詞之間有空格可做為詞與詞之間的分隔依據，因此必須透過斷詞處理切分出中文字詞，以便做進一步的分析。由於中文詞集是一個開放集合，不存在任何一個詞典或方法可以 5.

(17) 盡列所有的中文詞。當處理不同領域的文件時，領域相關的特殊詞彙或專有名詞，常常造成斷詞系統因為參考詞彙的不足而產生錯誤的切分。根據中央研究院資訊科學所詞庫小組的研究指出，在統計上，一篇文章當中約有 3%~5%的詞彙是未知詞，尤其新聞類型的文章更是明顯，因此未知詞的擷取一直是中文語言處理的一項重要且困難的研究課題。. 在此本研究使用由中央科學研究院所研發的 CKIP 中文斷詞系統2，此系統統計的材料以輸入文章為主，經過初步斷詞後(Chen and Liu, 1992)，進行未知詞偵測、中國人名擷取、歐美譯名擷取、複合詞擷取、bottom-up merging algorithm，以及重新斷詞，用以解決文件中未知詞偵測的問題。圖一顯示由 CKIP 中文斷詞系統斷詞後並且被標註詞性的文章。由於本論文採用線上斷詞服務，該系統的簡化詞性標記如表一。其他可以處理中文的斷詞研究還有中國科學院所研發的 ICTCLAS3、Stanford Parser4等。. 圖一斷詞後並且被標註詞性的文章. 2. http://ckipsvr.iis.sinica.edu.tw/ http://ictclas.nlpir.org/ 4 http://nlp.stanford.edu/software/lex-parser.shtml 3. 6.

(18) 表一中研院斷詞系統簡化詞性表精簡詞類. 三、. 詞性. A. 非謂形容詞. C. 連接詞. POST ADV. N/A 副詞. T. 語助詞. ASP. 時態. FW. 外文標記. NAV N. N/A 名詞. DET. 定詞. M. 量詞. Vt. 及物動詞. Vi. 不及物動詞. 查詢擴展(Query Expansion) 如果需要搜尋某個主題的文章，我們可以輸入一些代表該主題的關鍵字到搜. 尋引擎，但是有時候搜尋引擎回傳的搜尋結果並不符合使用者的需求。原始的查詢詞彙可能無法充分的表達使用者想要查詢的需求，查詢擴展嘗試建立更豐富的表達方式，透過擴充查詢詞彙，加入和查詢相關的詞彙，達到更完整表達使用者需求的目標。虛擬相關回饋(Pseudo relevance feedback)是目前很常使用的查詢擴展技術，其基本概念為從初始相關文件排名中，擷取相關程度較高的前 N 名文件中的詞彙作為擴充詞彙，加入初始查詢詞彙中，期望擴充後的查詢詞彙能讓查詢執行結果更佳(Li et al., 2008)。Tu 等人(2008)提出的擴充方法是使用 K-Means 將文件集分群，透過 Pat-tree-based 的方法自動從文件分群擷取長度少於四個字的詞彙。Luo 等人(2010)從初始查詢結果擷取權重排名較高的詞彙，方法是計算在相 7.

(19) 關文章中的詞彙和查詢詞彙之間的 Google similarity distance (Cilibrasi and Vitanyi, 2007)。. 四、. 支援向量機(Support Vector Machine, SVM) 支援向量機(Support Vector Machine, SVM)是一種監督式學習的方法，由學者. Vapnik (1995)提出的一種由統計理論發展出來的機器學習技術，SVM 的原理為將自變數與應變數從原本非線性對應關係，提升到高維度之向量空間中，稱為特徵空間(feature space)，在此空間中透過最佳化之工具尋找超平面(Separating Hyper plane)，將資料分隔成兩類，使得特徵空間中兩類模式之間的距離最大以達到分類效果最佳。SVM 目前為被廣泛運用在分類問題上的數學工具，近年來常應用於資料探勘、影像辨識、文字分類等領域，在自然語言處理領域中更涉及了語意分析、詞性標記、未知詞辨識等，結果都有相當不錯的準確率。相較於其他分類器，SVM 的優點為(林揚書, 2009)： 1.. 即使在高維的特徵向量空間下，效能仍然很好。. 2.. 核心函數能將資料映射到更高維的空間，而不會增加計算複雜度。. 3.. 可以使用少量樣本得到最佳解。. 4.. 非線性資料的效能優越。. SVM 的缺點為： 1.. 測試資料數量過多時，需要花費較多的時間。. 2.. 隨著訓練資料數量線性成長，可能造成過度調適（overfitting）的問題， 8.

(20) 並且浪費計算時間。 3.. SVM 的誤差參數 C 對結果有很大的影響，但是參數只能透過猜測各種可能值的方式，得到最佳的結果。. 4.. 無法得到機率式的預測。. SVM 主要以輸入的訓練資料(Training Data)於特徵空間中找出超平面，使得兩類型資料距離最大化，將資料分隔成兩個或多個同類別(Class)資料。假設有一個超平面可以將 +1 及-1 的資料加以區分，則此超平面就可稱為區分平面 (Separating Hyperplane)，若在此超平面上的 x 必須滿足：. w x  b  0. (1). 其中 w 為超平面的法向量，x 為樣本，b 為偏移值(bias)。而 SVM 的目標是要在高維度的特徵空間中，找出一個具有最大邊界(margin)的區分平面來隔開不同類別的資料，如圖二將資料( 與 )分成兩類。. 9.

(21) 圖二支援向量機資料來源：石琢暐(2011). 若訓練資料為 ( x1 , y1 ), ( x2 , y2 ),..., ( xi , yi ),..., ( xn , yn ) ， xi  R d ， yi   1,1 ， i=1,…,n，d 為維度存在可以將資料分為兩類的最佳超平面方程式 y  w  x  b  0 ，當訓練資料集合為線性可分之情形，存在一個將資料分為兩類的最佳超平面方程式， yi 表示兩種類別之資料以+1 或-1 標註，以公式(2)(3)表示(黃建銘, 2005)：. wx  b  0 for yi  1. (2). wx  b  0 for yi  1. (3). 由於 SVM 於分類問題上有不錯之成果，所以在文章情感分類的領域中也有許多研究採用 SVM 分類。Zan 等人(2010)使用 k-NN、Naïve Bayes 和 SVM 分類器進行針對數位產品的中文評論情感分類，實驗結果顯示以合併單詞與情感傾向 10.

(22) 的詞彙為特徵，SVM 分類器正確率達到 96.47%，比使用所有詞性的詞彙為特徵的方法提高了 3.34%，相較其他分類器的正確率，SVM 分類器正確率也最高。 Zheng 和 Ye (2009)使用 Lurong Li 開發的 SVMCLS2.0 工具完成中文評論的情感分類，其中特徵擷取的方法是使用資訊增益(Information Gain)，其中特徵空間維度 (feature space dimension)為 1000。相較 Ye 等人(2009)使用 SVM 分類英文評論情感的實驗，精確率提高 6.01%，回收率提高 9.37%。而 Huang 等人(2013)辨識情感詞彙極性的方法為根據表情符號建立情感詞彙模組，輸入 SVM 分類器訓練，精確率為 81.5%。目前 SVM 的工具很多，本實驗所使用的工具為 LibSVM，由台灣大學林智仁(Chih-Jen Lin)博士等開發設計的一個操作簡單的 SVM 套裝軟件(Chang and Lin, 2008)，可以應用於解決分類問題(C-SVC、n-SVC)、分佈估計(one-class-SVM)以及回歸問題(e-SVR、n-SVR)等，並且提供線性、多項式、徑向基和 S 形函數四種常用的核函數給使用者選擇，可以有效地解決多類問題、交叉驗証選擇參數、對不平衡樣本加權、多類問題的機率估計等。. 11.

(23) 第三章研究方法. 第一節. 緒論. 本研究訂立三種搜尋主題進行實驗：1.學運，2.馬英九，3.馬英九與學運。本研究的主題相關意見擷取方法分成三個階段，如圖三所示，分別為：(1)資料前置處理，(2)擷取主題相關文章，和(3)擷取並分析主題相關文章之意見傾向。在本論文中，第一階段會使用主題種子詞彙，本研究主題種子詞彙的建立方式為根據 Yahoo 奇摩新聞搜尋引擎查詢主題相關新聞，在新聞文章中代表主題的詞彙(詳細方法將於第四章第二節說明)，第二和第三階段，將比較非監督式與監督式學習的方法，最後回傳測試文章的分析結果。以下章節將先介紹本研究所使用的實驗資料，再對此兩種方法詳細的介紹，分為第二節資料前處理、第三節非監督式學習方法介紹、及第四節監督式學習方法介紹。. 資料前置處理. 擷取主題相關文章. 擷取並分析主題相關文章之意見傾向. 圖三主題相關意見擷取之流程. 12.

(24) 第二節. 資料前置處理. (一) 文件斷詞為了尋求語意上的切割，本研究以詞為單位，將文件透過中研院的斷詞系統進行斷詞。此系統以詞典跟語法為底，並且可以進行未知詞偵測。斷詞後的文件會根據標點符號切行，每行有不等數量以全型空格分開的詞跟詞性，本研究蒐集這些屬性後進行接下來的研究，斷詞前後的範例見表二。. 表二斷詞前後之範例 Process. Sentence. Original. 近兩年來，馬政府對街頭群眾一步步退讓，換得的只是公權. sentence. 力愈發萎縮。. After. 近(DET) 兩(DET) 年(M) 來(POST) ，(COMMACATEGORY). CKIP word. 馬(N) 政府(N) 對(P) 街頭(N) 群眾(N) 一步步(DET) 退讓. segmentation. (Vi) ，(COMMACATEGORY) 換得(Vt) 的(T) 只是(ADV) 公權力(N) 愈發(ADV) 萎縮(Vi) 。(PERIODCATEGORY). 在表二的例子中，第一行的“馬政府”被斷詞系統切割為“馬(N)”、“政府(N)”，括弧中間的英文表示該詞彙的詞性，皆被標為名詞。此問題以斷詞後處理，將被切割的種子詞彙合併。. 13.

(25) (二) 刪除停用字(Stop words) 停用字(Stop words)代表有些字在文章中會出現很多次，但是字的本身卻沒有太多的鑑別度。而在分類的過程中，由於 Stop words 出現的頻率很高，容易造成在分類時的雜訊過多進而影響分類結果。例如：你、我、他等代名詞，以及介系詞、語助詞等。所以在斷詞後，本研究將文中的 stop words 去除，不予以進行實驗。在本論文中的 stop word list 是引用自 Kevin Bougé 的 Google site5，在該網站中提供了阿拉伯語、巴西、中國等 28 種語言的 stop word list。其中，中文的 stop word list 列出 125 個 stop words，例如：一、不、在等等。. (三) 斷詞後處理經過斷詞後，本研究發現中研院的斷詞系統可能會分割主題種子詞彙，如表二和表三所示，主題種子詞彙“馬政府”被斷詞系統分為“馬(N)”和“政府(N)”，“反服貿”被斷詞系統分成“反”和“服貿”二字，這樣將會影響系統判斷主題相關的文章。因此，本論文針對主題種子詞彙，在斷詞後進行後處理，系統將會檢查前後的詞，如果該詞彙能與前一個詞彙或者後一個詞彙合併成主題種子詞彙，則系統. 5. https://sites.google.com/site/kevinbouge/stopwords-lists 14.

(26) 會自動將兩個詞彙合併成一個詞彙，並且改變新詞彙的詞性為名詞，如表三最後一列所示。表二的例子則是合併“馬(N)”和“政府(N)”為“馬政府(N)”。. 表三斷詞後處理之範例 Process. Sentence. Original sentence. 在他們的 Slogan 中提到「退回服貿、捍衛民主。」也明明白白的告訴我們，這群學生反黑箱，但是不是反服貿？我不知道。. After CKIP word. 在(P) 他們(N) 的(T) Slogan(FW) 中(POST) 提到(Vt) 退回. segmentation. (Vt) 服貿(N) 、(PAUSECATEGORY) 捍衛(Vt) 民主(N) 。 (PERIODCATEGORY) 也(ADV) 明明白白(Vi) 的(T) 告訴 (Vt) 我們(N) ，(COMMACATEGORY) 這(DET) 群(M) 學生(N) 反(Vt) 黑箱(A) ，(COMMACATEGORY) 但是(C) 不 (ADV) 是(Vt) 反(Vt) 服貿(N)？(QUESTIONCATEGORY) 我(N) 不(ADV) 知道(Vt) 。(PERIODCATEGORY). Post processing. 在(P) 他們(N) 的(T) Slogan(FW) 中(POST) 提到(Vt) 退回. for segmented. (Vt) 服貿(N) 、(PAUSECATEGORY) 捍衛(Vt) 民主(N) 。. words. (PERIODCATEGORY) 也(ADV) 明明白白(Vi) 的(T) 告訴 (Vt) 我們(N) ，(COMMACATEGORY) 這(DET) 群(M) 學生(N) 反(Vt) 黑箱(A) ，(COMMACATEGORY) 但是(C) 不 (ADV) 是(Vt) 反服貿(N) ？(QUESTIONCATEGORY) 我 (N) 不(ADV) 知道(Vt) 。(PERIODCATEGORY). 第三節. 非監督式學習方法介紹. 15.

(27) Query Expansion Compute the frequency of topic seed words in each document. Extract top-M documents Compute PMI score of each word in top-M documents Extract nouns with top-N PMI scores as query expansion terms from top-M documents. Documents. Data Preprocessing 1. Word segmentation 2. POS tagging 3. Eliminating stop words 4. Post processing for segmented words. CKIP word segmentation system. Topic seed words. Topic-relevant Document Retrieval Add query expansion terms to the topic-relevant term set Topic-relevant document retrieval algorithm. Topic-relevant terms. Topic-relevant documents Sentiment Analysis based on Unsupervised Learning Method Split sentence by comma NTUSD Detect sentiment words, negative words, question mark and transitional expressions. Classify the polarity of each sentences and sum up the polarity by majority rule. Keenagesentiment vocabulary. Output the polarity of each document. 圖四以非監督式學習分析部落格文章意見傾向架構圖 16.

(28) 一、. 以非監督式學習分析部落格文章意見傾向架構圖說明在資料前置處理(Data Preprocessing)後，主題相關文章擷取(Topic-relevant. Document Retrieval)的方法中，本研究透過查詢詞擴充技術(Query Expansion)擴充與主題相關的詞彙，主要流程為依據文件中包含主題種子詞彙(Topic Seed Words) 的頻率進行排序，接著擷取前 M 份文件，計算 M 份文件中的詞彙與查詢主題的 PMI 值，擷取 PMI 值排序後的前 N 個名詞詞彙作為查詢擴充詞(Query Expansion Terms)。然後將主題種子詞彙和查詢擴充詞合併為主題關聯詞彙(Topic-Relevant Terms) ，再擷取包含主題關聯詞彙的文中作為主題相關文章 (Topic-Relevant Documents)。接著是主題相關文章意見傾向分析的方法，在非監督式方法中，本研究使用以字典為基(Lexicon-Based)和分析句子結構的方法分析意見傾向，分析句子結構的方法主要是依據句子中的逗號(Comma)、情感辭典詞彙(Sentiment Words)、否定詞(Negative Words)、問號(Question Mark)和轉折詞(Transitional Expressions)判斷句子意見傾向，再以文章中不同極性的句子多數決決定整篇文章的極性。本研究所使用的情感辭典分別為 NTUSD 台大意見詞詞典和知網的情感分析用詞語集 (Keenage-sentiment Vocabulary)。本論文所提的非監督式學習方法架構圖如圖四所示。各模組之運作說明請見以下各小節。. 17.

(29) 二、. 擷取主題相關文章. (一) 主題與詞的 PMI 值 Duan 等人(2010)指出相互資訊(Mutual information, MI)可以定義為兩個事件之間的關聯，因此，在這篇論文中，本研究使用點對點相互資訊(Pointwise Mutual Information, PMI)計算文中詞彙與主題種子查詢詞彙之間的關聯，PMI 的公式如 (4)(5)所示。.   hitdoc  totaldoc   if hitdoc  0 log PMI ( w, q)    wdoc  qdoc   0 otherwise . PMI ( w, Q) . . qQ. (4). PMI ( w, q). Qlength. (5). 公式(4)的參數 w 代表文章中的詞彙，q 為主題種子詞彙，totaldoc 為文件集中總文件數量，wdoc 為文件集中包含詞 w 的文件數量，qdoc 為文件集中包含詞 q 的文件數量，hitdoc 為文件集中同時包含詞 w 跟詞 q 的文件數量。公式(5)的參數 Q 為查詢主題、Qlength 為查詢主題詞彙中的總詞數。公式(4)主要目的為計算詞彙 w 和主題種子詞彙 q 的關聯分數，如果 hitdoc 為 0，代表不存在任何一篇文章同時包含該詞彙 w 和該查詢詞彙 q，則 PMI 的值將設為 0。為了評估詞彙 w 和所有主題查詢詞的關聯，本研究將詞彙 q 和所有主 18.

(30) 題查詢詞的分數加總，接著再將該分數除以查詢詞彙的總詞數，得到的分數代表該詞彙和查詢主題的關聯度，如公式(5)所示。舉例來說，主題種子詞彙為馬英九、馬總統、馬政府、馬政權，若計算詞彙“w=政府”的 PMI(w,q)值，結果為 5.3840、 5.0442、4.9173 和 2.2553，也就是說馬英九與政府的分數為 5.3840，而四個 PMI(w,q) 值的總和為 17.6008，除以四個查詢種子詞彙後，PMI(w,Q)值為 4.4002，因此，詞彙“政府”與馬英九的主題關聯分數為 4.4002。如果實驗主題為馬英九與學運，則必須計算詞彙和馬英九主題的 PMI(w,Q)值、學運主題的 PMI(w,Q)值，再取平均後，才為該詞彙與馬英九與學運的 PMI(w,Q)值。. (二) 查詢詞擴充經過資料前置處理後，文章中的詞彙經過斷詞與標註詞性後，本研究希望能擴充與查詢詞相關的詞彙，以利系統找尋更多不包含查詢詞，但是與主題相關的文件，所以本研究的查詢詞擴充方法為透過計算文章中的詞彙與主題查詢詞之間的 PMI 值，擷取 PMI 值高的詞彙當作擴充詞彙。為了決定擷取多少詞成為擴充詞彙，本研究依據 Harman (1988)之研究，顯示從相關回饋所產生的詞彙清單擷取詞彙時，再增加 20 個詞彙，對於檢索效益有所提升，但是超過 20 個就會降低，代表候選詞彙清單都存在一個理想的切點 (Cut-off Point)，作者以 Cranfield 1400 測試資料庫進行實驗，發現切點介於 20 到 30 個詞彙之間。 19.

(31) 所以在本篇論文中，本研究先根據主題查詢詞彙在文章中出現的頻率，排序文章的主題關聯度，接著擷取排序前 100、200 和 300 名的文章，用以計算主題種子詞彙和這些文中每個詞彙的 PMI 值，實驗使用多少篇文章的詞彙對於分類主題相關有幫助。當系統計算完每個詞彙的 PMI 值後，因為在查詢主題中本研究認為名詞關連性強於其他詞性，所以實驗排序前 10、20 和 30 個名詞詞彙當作查詢擴充詞彙，最後將查詢擴充詞彙和主題種子詞彙形成主題相關詞彙集。. 三、. 主題相關文章之意見傾向分析. (一) 情感辭典在本篇研究的非監督式方法中，本研究使用情感辭典做為判斷極性的主要依據，辭典的來源採用知網6的情感分析用詞語集和台大意見詞詞典 NTUSD (Ku and Chen, 2007)。知網的情感辭典包含了 9,319 個詞彙，分別被分類為正面情感、負面情感、正面評價、負面評價、程度級別和主張詞語，如表四所示。台大意見詞詞典 NTUSD 則包含 2,810 個極性被分類為正面的詞彙，和 8,276 個負面的詞彙，例如“大方的”為正面詞彙，“上癮”為負面詞彙。. 6. http://www.keenage.com/ 20.

(32) 表四知網情感分析用詞語集分類分類. 例子. 正面情感. 愛、讚賞、表揚、稱羡. 負面情感. 哀傷、半信半疑、懊惱. 正面評價. 不可或缺、動聽、安如泰山. 負面評價. 華而不實、荒涼、卑鄙無恥. 程度級別. 極、非常、莫大、十足. 主張詞語. 覺得、認定、感受到、認為. (二) 非監督式文章意見傾向判斷關於意見擷取，Ku (2006)等人提到同一句中出現主題詞與意見詞的時候就可以將該句視為意見句，所以在本篇論文中，如果在同一句中出現主題詞與情感辭典的詞彙時，本研究依據該詞彙在辭典中的極性，給予該句子極性。而構成完整句子的條件則是句尾為句號、驚嘆號或問號。. 本研究以多數決判斷句子極性，如果句子中包含的負面詞彙較多，則系統會判斷該句極性為負面；若正面詞彙較多，則判斷為正面句子；當正面詞彙和負面詞彙個數相同時，系統則會判斷該句子極性為中立，範例如表五所示。. 21.

(33) 表五句子極性分類例子句子. 情感辭典詞彙. 至於太陽花學運，我不認為是學運，這是政負面詞彙：暴動變，是暴動、暴力。. 極性負面. 負面詞彙：暴力. 從某個角度來說，太陽花學運展現的自由與正面詞彙：自由奔放，對台灣社會有一定的正面作用。. 正面. 正面詞彙：正面. 這些學生並非完全反服貿，因為服貿協議的內負面詞彙：懵懵懂懂. 中立. 容，恐怕這些學生也懵懵懂懂。但是，有這樣正面詞彙：希望的人才存在，這才是台灣未來最大的希望。. 本研究所提出之非監督式的意見傾向判斷流程如圖五所示，分析句子為“馬總統說心中有我們這個國家，可是馬英九堅定的不認為台灣人是中國人？”。首先將句子以逗號切割成兩個段落，如果句子中包含轉折詞，則只分析包含轉折詞的段落，如圖五只分析“可是馬英九堅定的不認為台灣人是中國人？”的段落，然後根據情感辭典給予句子中的詞彙極性，整個句子的極性以正、負面詞彙個數的多數決決定，規則如表五，在圖五中，“堅定”為正面詞彙，所以判斷該句為正面極性。在這個步驟同時判斷情感辭典詞彙前是否有否定詞，如果有否定詞則改變詞彙極性，如果原本是正面極性則轉為負面極性，負面極性轉為正面極性，若為雙重否定則極性不變，而圖五中的否定詞“不”後面並非情感辭典詞彙，所以極性不 22.

(34) 變。最後，如果該段落為句尾，則判斷是否為問號並且依照規則修改極性，圖五的這個例子因為句尾為問號，所以將原本的正面極性轉為負面極性，根據非監督式意見傾向分析方法判斷該具為負面句子。本文所使用的否定詞包括“沒有”、“沒”、“不是”、“不會”、“不”、“非”、“無”。判斷完該句每個段落的極性後，若其中一個段落包含轉折詞，則該句極性以包含轉折詞的段落為主，否則以多數決決定該句極性。有關轉折詞的說明將在下一小節呈現。. 圖五非監督式的意見傾向判斷流程. 23.

(35) 最後統計整篇文章的句子極性，依照句子極性的個數決定文章極性，如果正面句子個數較負面句子個數和中立句子個數多，則該文章為正面文章；如果負面句子個數較正面句子個數和中立句子個數多，則該文章為負面文章；當正面句子個數和負面句子個數相等，或是中立句子較其他兩種極性的句子個數多時，則該文章為中立文章。接下來將詳細說明關於各項判斷規則的細節。. (三) 轉折詞及問號判斷當句子以逗號切割成多個段落時，本研究發現如果句子中包含轉折詞，整個句子的極性將會以包含轉折詞的段落為主，例如：“馬總統不少政策作為，都招致「父子騎驢」的批評，但是低調處理母親後事展現儉樸家風，對社會也有示範的效果。”，該句子實際上是要表達稱讚馬總統的儉樸家風，而不是政策有父子騎驢的批評，所以如果句子中包含轉折詞，系統將只以轉折詞後的情感辭典詞彙極性，辨識該句的極性。在本篇論文中，本研究使用的轉折詞共有 11 個，分別是 “但”、“但是”、“可”、“可是”、“而”、“然而”、“否則只是”、“不過”、“卻”、“不然”、 “反之”。除此之外，本研究發現如果句尾是問號時，將會使得該句的極性相反，例如： “大家天天以罵馬英九為樂，是要讓全世界的人看不起我們的總統，因他很爛，馬英九是那點對不起我們？”，在該句中，“看不起”、“爛”、“對不起”皆為負面詞彙，但是因為句尾為問號，所以原本為負面的句子，轉變成正面傾向。 24.

(36) 而問號除了會改變意見傾向，也會將原本沒有任何意見傾向的句子轉變成負面句子，例如：“關於核四，這個馬英九越踢越像驢，封存和啟封到底要花多少錢？”，在該句中不包含任何情感辭典詞彙，只依照情感辭典判斷意見傾向將無法判斷該句為負面句子，所以本論文以政論性文章中的疑問句較少為實際提問，較多為反諷句的特性，增加無意見傾向的句子若包含問號，則判斷為負面句子的條件。句子包含問號的意見傾向判斷規則，如表六所示。. 表六句子包含問號的意見傾向判斷規則問號判斷前的意見傾向增加問號判斷後的意見傾向正面句子. 負面句子. 負面句子. 正面句子. 中立句子. 負面句子. 25.

(37) 第四節. 監督式學習方法介紹. Documents. Topic seed words. Data Preprocessing CKIP word segmentation system. 1. Word segmentation 2. POS tagging 3. Eliminating stop words 4. Post processing for segmented words Topic-relevant Document Retrieval Identity topic-relevant document by SVM. Training Data Preprocessing Feature Selection Extract phrase patterns as feature from topic-relevant document of training data. Topic-relevant documents. Sentiment Analysis based on Supervised Learning Method Extract terms by specific frequency condition as training terms. Extract specific polarity terms as features from training data. Classify the polarity of sentences that contain topic-relevant terms and sentiment words in each document by SVM. NTUSD. Modify sentiment lexicon by supervised adjustment method. Output the polarity of each document. 圖六以監督式學習分析部落格文章意見傾向架構圖 26. Keenagesentiment vocabulary.

(38) 一、. 以監督式學習分析部落格文章意見傾向架構圖說明本研究選擇以 SVM 分類主題相關文章的意見傾向作為監督式學習方法，在. 擷取主題相關文章的方法中，本研究比較不同訓練詞彙挑選(Feature Selection)的方法，並且以監督式方法擷取能夠代表文章與主題相關的詞彙組合 (Phrase Patterns)作為特徵值。而主題相關文章意見傾向分析的方法中，本研究以特定頻率條件(Specific Frequency Condition)挑選訓練詞彙，再以特殊條件下可以代表特定極性的詞彙 (Specific Polarity Terms)和以監督式方法修改情感辭典(Modify Sentiment Lexicon by Supervised Adjustment Method)作為特徵值進行文章意見傾向分類。本論文所提的監督式學習方法架構圖如圖六所示。各模組之運作說明請見以下各小節。. 二、. LibSVM 分類在監督式方法的部分，本研究選擇使用 LibSVM 進行分類，參數只能以嘗試. 錯誤的方式(try and error)，盡可能找出適合分類的最佳參數，通常是調整 SVM 的在分類錯誤時的懲罰參數 C，加重分類誤差的權重，或者選擇不同的核心函數，例如：Linear、Polynomial、Radial Basis function 或 sigmoid。而本研究所使用的 SVM kernel 以及其他參數設定如表七所示。. 27.

(39) 表七 SVM 參數設定項目. 設定. type of SVM. C-SVC. type of kernel function set gamma in kernel function. Radial Basis function 1/特徵個數. the parameter C of type of SVM. 1. 本研究在擷取主題相關文章的部分將採用 10-fold Cross-Validation 驗證所提出方法之有效性，該方法是將資料集隨機分成十份，其中一份為測試用資料集，其他九份為訓練用資料集。因此，每項資料集將進行十次實驗，由於本研究的實驗資料無法切成十等分，所以前九份資料集共有 191 篇文章，剩下一份資料集則有 190 篇文章。而主題相關文章意見傾向分析的部分，因為實驗的文件數減少，所以採用 3-fold Cross-Validation。. 三、. 擷取主題相關文章. (一) 特徵選取 Yang 和 Pedersen (1997)比較了五種特徵選取的方法，分別為 document frequency (DF)、information gain (IG)、mutual information (MI)、Chi-square test (CHI) 和 term strength (TS)，他們發現 IG 和 CHI 在實驗中，是表現最好的方法，而本研究在擷取主題相關文章實驗中，希望能尋找和主題關聯的名詞，所以本研究嘗試使用 CHI 公式，期望改善效能及分類結果。CHI 公式如(6)所示。 28.

(40) N ( ABCD ) 2  (t , Ci )  ( A  C )( B  D)( A  B)(C  D) 2. (6). 此公式可以測量特徵 t 與類別 C i 間獨立程度，以特徵與類別為雙向列聯表之維度思考。A 表示包含詞彙 t 而且屬於類別 Ci 之文件數，B 表示包含詞彙 t 但不屬於類別 Ci 之文件數，C 表示不包含詞彙 t 但屬於類別 Ci 之文件數，D 表示不包含詞彙而且不屬於類別 Ci 之文件數，N 代表文件總數。. 表八卡方檢驗公式符號介紹屬於類別 Ci. 不屬於類別 Ci. 包含詞彙 t. A. B. 不包含詞彙 t. C. D. 依照每個名詞的 CHI 分數由大至小排序，排序越前面的詞彙代表與主題越相關，排序越後面的詞彙代表與主題越不相關，為了讓 SVM 訓練結果更好，本研究擷取了不同數量的詞彙進行實驗，分別為擷取排序前 100 個詞彙、排序前 x 個詞彙和從排序的一半往下擷取 y 個詞彙等方法，在第四章將說明擷取不同數量詞彙的實驗結果。. 29.

(41) 另外，本研究也嘗試使用 term frequency–inverse document frequency (TF-IDF)，選擇對文章分類有所助益的特徵，TF-IDF 公式如(7)所示。. tf i , j . ni , j. n k. idf i  log. k, j. D j : ti  d j. (7). tfidf i , j  tf i , j  idf i. 在上述 tf i , j 公式， ni , j 是該詞彙 ti 在文件 d j 出現的次數，而分母則代表在文件 d j 中所有詞彙出現的次數。而 idf i 公式中， D 代表語料庫的總文件數，分母 j : ti  d j 為包含詞彙 ti 的文件數量。TF-IDF 可以評估一個字詞對於一個文件集或. 一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現次數成正比增加，但是會隨著它在語料庫中出現的頻率成反比下降。因此，TF-IDF 傾向於過濾掉常見的詞語，保留重要的詞語。. (二) 轉換 SVM 向量將前置處理過後的文章，進一步以二元值或實數的方式轉換成 LibSVM 可以接受的檔案格式，格式為[label] [index1]:[value1] [index2]:[value2] ...，詳細檔案格式描述如表九所示。. 30.

(42) 表九 LibSVM 檔案格式描述格式. 描述. label. 也稱作 class，標示要分類的種類，通常是以整數表示。. index. 有順序的索引，通常是以連續的整數表示。. value. 訓練的特徵值。. 在本論文中，將文中的詞彙轉換為向量表示式，所以 label 代表該詞彙在訓練資料中被分類為相關或是不相關，而本研究的資料包含詞彙和主題種子詞彙之間的 Pointwise Mutual Information(PMI)值、該詞彙在文件集中的頻率、詞彙的 Information Gain(IG)值以及該詞彙是否為主題種子詞彙。而訓練資料和測試資料的 PMI 值與詞頻率，則有不同的計算方式。訓練資料中詞彙 t 的 IG 計算公式如(8)所示。在公式(8)中，m 表示類別中文件的數量， P(Ci ) 表示類別 Ci 在訓練資料中出現的機率， P(t ) 表示詞彙 t 出現的機率， P(t ) 表示詞彙 t 沒有出現的機率。 P(Ci t ) 代表當詞彙 t 出現時，該文件屬.  . 於 Ci 之機率，而 P Ci t 則表示當詞彙 t 沒有出現時，該文件屬於 Ci 之機率。 IG(t ) 的值越大，代表該特徵對於分類越重要。. IG(t )   P(Ci ) P(Ci t ) log PCi t  m. i 1.  P(t ) P(Ci t ) log PCi t  m. i 1.  . m.  P(t ) P(Ci t ) log P Ci t i 1. 31. (8).

(43) 而訓練資料的 PMI 值計算公式如查詢詞擴充所使用的公式(4)(5)，測試資料的 PMI 值計算公式如公式(9)所示。 p(w) 代表詞彙 w 在測試文件出現的機率，p(Q) 代表主題種子詞彙在測試文件是否出現的機率，也就是如果測試文章中若包含其中一個主題種子詞彙，則 p(Q) 設為 1， p(w, Q) 代表詞彙 w 和主題種子詞彙共同在該測試文件中出現的機率。PMI 值越大，代表詞彙與主題的關聯度越高。. PMI ( w, Q)  log. p( w, Q) p( w) p(Q). (9). 訓練資料所表示的詞頻率計算方式如公式(10)所示，測試資料的詞頻率公式如(11)所示。主要計算的差別在於以整個訓練資料集或是以單一測試文件為單位。. 詞彙在訓練資料中出現的次數訓練資料集的所有詞彙數. (10). 詞彙在該測試文件中出現的次數該測試文件的所有詞彙數. (11). 訓練資料中的詞頻率= 測試資料中的詞頻率=. 為了有助於參數的選擇和 SVM 運算的速度，本研究使用公式(12)將特徵值映射至[0,1]的範圍。x 為需要映射的特徵值， xmax 和 xmin 分別為所有特徵值中的最大值和最小值。. Scaling value= 32. x  xmin xmax  xmin. (12).

(44) 另外，本研究增加 rule pattern 的判斷，方法是從訓練資料中找出時常在主題相關的文章中出現的詞彙組合，首先利用 CHI 公式(6)計算訓練資料的辭彙和類別為相關的分數，並擷取排序前 20 個詞彙，列出以兩個、三個詞彙為一組各種不同順序的組合(即從 20 個詞彙中取出 2 個詞彙及 3 個詞彙的排列數)，總共 7220 個組合，計算所有詞彙組合在分類為相關及不相關的數量，詞彙組合挑選條件為： 1.. 存在分類為相關的文件數量比不相關的文件數量多。. 2.. 由於本研究使用 Cross-Validation 實驗，詞彙必須存在每份資料集中。. 3.. 詞彙組合中的詞彙之間行距不得超過 5 行。. 其中，馬英九主題較為特殊，該主題能夠以文章中是否包含該單一詞彙分辨主題是否相關，其他主題則需要以兩個或三個詞彙一組判斷。詳細的 rule pattern 內容如表十所示。詞彙組合中的詞彙之間行距若超過 5 行，則代表文章內容與主題不相關，文中雖然提到詞彙組合中的詞彙，但是有可能不同段落敘述不同的主題，以下列文章為例：蘇格拉底拒絕了他的學生安排他逃亡的計畫，平靜地接受了他的判決，飲下毒藥而死。蘇格拉底拒絕逃跑，因為他了解到他必須遵守法律，否則便會違反他與這個城邦的「契約」，這將違背自己提倡的原則。蘇格拉底一生拒絕進入政界；他指出他不可能干涉或指揮其他人要如何生活，因為他根本就還沒有徹底了解他自己。哲學家只是愛智者，不是真 33.

(45) 的具有智慧。林義雄先生作態絕食後，25 名中研院士連署發表聲明，建議盡快透過公投尋求共識，再決定核四是否續建及運轉。引來 5 月 6 日中國時報的時論「與中研院士商榷核四」，濮勵志、江仁台、鄒成虎、張枝峰四位作者皆為核能相關專家，針對聲明中質疑處作專業澄清。同日中國時報時論中央研究院院士李太楓，則呼籲不宜全面封殺核能的研發。一片肅殺反核聲中，稍有異聲即被譏不是人，被指控不愛台灣，難怪物理學家也怯於表態支持核四，院士們也噤聲不語或隨波逐流！為此我更佩服唐湘龍先生的勇於表態了！文中所提到 2008 年中研院「環境與能源小組」發表的「能源政策建言」。這和院士群今日的聲明內容判若雲泥，令人感嘆這群科學家們的真理好比月亮，初一十五都不一樣，更印證了核四議題已被非理性政治化。但堂堂中央研究院院士，國家授予榮譽的高級知識份子，面對民粹掛帥的反核行動，他們對核能問題的立場，竟可以在幾年內如此反覆！我感嘆：智者何在？若蘇格拉底要在台灣尋找愛智慧的哲學家，到南港大概找不到了！” 在上述例子中，依照本研究定義句子以句號、問號和驚嘆號為一行，“學生” 在第一行，“指揮”在第三行，“國家”在第十一行，雖然文中包含學運主題的 rule pattern 詞彙組合“學生”、“指揮”和“國家”，但是這篇文章並非談論學運學生佔領立法院是指揮國家、指揮總統的行為，與學運主題不相關，系統則可以依照本論文的方法判斷“國家”和另外兩個詞彙的行距超過 5 行，分類該文章與學運主題不 34.

(46) 相關。當詞彙組合中的詞彙之間行距少於 5 行，則詞彙組合代表該文章與主題相關，例如“造成社會動盪不安的因素，正是一群不知天高地厚、自以為有權代表多數公民意見的學生，逼著國家必須聽從他們的指揮，否則佔領公署、到處滋事、妨礙交通、攻擊辱罵警察。”，在該句中包含學運主題的 rule pattern 詞彙組合“學生”、“指揮”和“國家”，或者是“林飛帆：人民最大;總統應接受人民指揮;我就是人民！”，而在這一句中包含學運主題的 rule pattern 詞彙組合“林飛帆”、“指揮”和“總統”，這兩句的 rule pattern 詞彙之間行距皆少於 5 行，並且很明確地在談論對於學運學生的看法。表十主題與對應的 rule pattern 主題學運. rule pattern 1.學生、佔領、立法院 2.民主、警察、公物 3.學生、指揮、國家 4.林飛帆、綁架、總統 5.黑箱、服貿、學生 6.馬英九、黑箱、學生 7.野草莓、學生. 馬英九. 1.小馬 2.馬江郝 3.馬王 4.馬江 5.馬蘇. 馬英九與學運. 1.馬英九主題種子詞彙、林飛帆、指揮 2.馬英九主題種子詞彙、人民、指揮 3.學運主題種子詞彙、馬桶 4.林飛帆、指揮、總統 5.學生、指揮、總統 6.林飛帆、指揮、國家 7.學生、指揮、國家. 總結以上敘述，表十一為本論文中，主題相關文章擷取實驗中所使用的向量 35.

(47) 表示式。表十一主題相關實驗所使用的向量表示式描述格式. 描述. label. 以二元值呈現。該詞彙在訓練資料中被分類為相關或不相關，如果在訓練資料中，文件包含該詞彙被分類為相關的數量多於分類為不相關的數量，則判斷該詞彙 label 為 1，否則 label 為 0。而在測試資料中，此欄位則標示為本研究猜測的類別。. PMI. 以實數呈現。計算該詞彙與主題種子詞彙之間的關聯度，訓練資料以公式(4)(5)計算，測試資料以公式(9)計算。. 詞頻率. 以實數呈現。計算詞彙在文件中的頻率，訓練資料以公式(10)計算，測試資料以公式(11)計算。. IG 是否為主題種子詞彙. 以實數呈現。計算特徵的重要度，公式如(8)所示。以二元值呈現。判斷該詞彙是否為主題種子詞彙，如果是主題種子詞彙，則此欄位標示為 1，否則為 0。. 是否為 rule. 以二元值呈現。判斷該詞彙是否可以和文中其他詞彙組成 rule. pattern 詞彙. pattern 中的詞彙，如果是，則此欄位標示為 1，否則為 0。. 圖七依照向量表示式，特徵值以編號排列，例如：PMI 編號為 1，詞頻率編號為 2，實驗主題為馬英九主題，並且以詞彙“馬英九”為例。. 1 1:1.0 2:0.0787 3:0.9308 4:1 5:0 圖七以詞彙“馬英九”為例的向量表示式. 36.

(48) 圖七的 1 表示在訓練資料中，包含“馬英九”的文件大多數被分類為主題相關，1:1.0 代表“政府”與主題種子詞彙的 PMI 值為 1.0，在訓練資料中的詞頻率為 0.0787，IG 值為 0.9308，由於“馬英九”為主題種子詞彙，所以該欄位為 1，但是“馬英九”並非 rule pattern 中的詞彙，該欄位為 0，在 LibSVM 中可以不紀錄。. 1 1:0 2:0.0026 3:0.9978 4:0 5:1 圖八以詞彙“小馬”為例的向量表示式. 再舉一個屬於馬英九主題的 rule pattern 詞彙的例子“小馬”如圖八，最左端的 1 表示在訓練資料中，包含“小馬”的文件大多數被分類為主題相關，1:0 代表“小馬”與主題種子詞彙的 PMI 值為 0，也就是包含“小馬”的文章中沒有其他主題種子詞彙，另外，“小馬”在訓練資料中的詞頻率為 0.0026，IG 值為 0.9978，4:0 是因為“小馬”非主題種子詞彙，所以該欄位為 0，最後“小馬”為 rule pattern 中的詞彙，所以該欄位為 1。由於馬英九與學運的主題涉及了主題詞交集的問題，本研究的解決方法為增加 PMI 的特徵，所以在該主題使用的特徵共有表十一提到的詞頻率、IG、是否為主題種子詞彙、是否為 rule pattern 詞彙、馬英九主題的 PMI 值和與學運主題的 PMI 值，並且將訓練資料增加詞彙四種情況，如表十二所示，✓代表訓練的詞彙和該主題種子詞彙共同出現在文章中，X 則代表未共同出現。 37.

(49) 表十二馬英九與學運訓練資料詞彙的四種情況情況一. 情況二. 情況三. 情況四. ✓. X. ✓. X. X. ✓. ✓. X. 與馬英九主題的 PMI 值與學運主題的 PMI 值. 因為在測試文章中，可能只出現馬英九主題種子詞彙，或是只出現學運主題種子詞彙，如情況一、二。一般而言，馬英九與學運的主題會包含兩個主題的種子詞彙，如果把與兩個主題種子詞彙的 PMI 值合併紀錄於同一欄位，會無法分類出測試文章是否真的有兩個主題的交集，但是如果該詞彙為主題種子詞彙，則不會有情況四。所以本研究的訓練資料中紀錄了每個詞彙的四種情況，例如在文章中包含馬英九主題種子詞彙，但是不包含學運主題種子詞彙，可填入與馬英九主題的 PMI 值，與學運主題的 PMI 值則為零。除此之外，本研究重新記錄詞彙在四種情況下的 Label，也就是分別計算兩個主題種子詞彙的出現與否，文章被標記為相關或不相關的個數，並且重新記錄詞彙在四種情況下的特徵值。完整的向量表示式如表十三所示，✓代表依照不同情況填入特徵值，X 代表該詞彙在此情況不包含該特徵值。. 38.

(50) 表十三馬英九與學運主題的完整向量表示式情況一. 情況二. 情況三. 情況四. Label 詞彙與馬英九主題的 PMI 值. ✓. ✓. ✓. ✓. ✓. X. ✓. X. 詞頻率. ✓. ✓. ✓. ✓. IG 是否為主題種子詞彙. ✓. ✓. ✓. ✓. ✓. ✓. ✓. ✓. 詞彙與學運主題的 PMI 值. X. ✓. ✓. X. 是否為 rule pattern 詞彙. ✓. ✓. ✓. ✓. 四、. 監督式主題相關文章意見傾向分析. (一) 特徵選取雖然在主題文章擷取的實驗中，本研究定義了三個實驗主題，但是在馬英九與學運主題相關的文章中，會分別對於馬英九和學運有不同的意見傾向，所以在意見傾向分析的實驗中，只有兩個實驗主題，也就是將馬英九與學運主題的主題相關文章分別合併至學運主題和馬英九主題中，馬英九與學運主題中針對馬英九主題的意見傾向分析合併至馬英九主題的實驗，針對學運主題的意見傾向分析合併學運主題的實驗。本研究需要挑選能夠代表不同主題的正面、中立和負面的詞彙，所以除了使用 CHI 進行特徵挑選，本研究還嘗試擷取出現在主題句，以及在出現 rule pattern 之間句子的詞彙，稱為 rule pattern 句，例子如表十四所示，而主題句的定義是句子中包含主題詞的句子。再依照詞彙在不同極性文章出現的頻率進行特徵挑選，. 39.

(51) 希望挑選出能代表不同極性的詞彙，挑選條件如表十五所示，表中的 x 為頻率門檻值，在實驗時嘗試帶入 2、3、4 和 5，期望能找出產生最好分類結果的特徵挑選條件。其中負面的訓練詞彙條件和正面及中立詞彙的條件不同，因為政論性文章多數為負面文章，所以需要提高負面詞彙的挑選條件，以免造成負面的訓練詞彙過多，導致 SVM 無法有效分類文章的極性。. 表十四 rule pattern 句 rule pattern 句 (經由斷詞後). rule pattern. 學生、佔領、基本上綠營對「中華民國國旗」的態度就跟 318 立法院. 這些媽寶學生對「中華民國警察」態度是一樣的標準，當他們衝進行政院時或被警察驅離行政院時警察就成了「國家暴力」的 " 代名詞 " 把警察看做是「狗屎」，當他們發現白狼帶人要來立法院找他們理論時這時候他們又會把「警察」推到最前線要求「警察」保護他們不受 " 壞人 " 的干擾，好笑的是他們自己卻是非法佔領立法院的滋事份子。. 40.

(52) 表十五依照詞彙在不同極性文章出現頻率的特徵挑選條件(x=2,3,4,5) 訓練辭彙極性. 特徵挑選條件. 正面. 該詞彙在訓練資料中出現在正面文章中的頻率超過 x 次，並且出現在正面文章的頻率比出現在中立和負面文章的頻率高。. 中立. 該詞彙在訓練資料中出現在中立文章中的頻率超過 x 次，並且出現在中立文章的頻率比出現在正面和負面文章的頻率高。. 負面. 該詞彙在訓練資料中出現在負面文章中的頻率超過 x 次，並且出現在負面文章的頻率比出現在中立和正面文章的頻率總和高 2 倍。. (二) 主題相關文章意見傾向之特徵向量意見傾向分析的特徵分別為在情感辭典中的極性、情感傾向程度、詞彙在修改後的情感辭典中的極性、詞彙是否出現在主題句和是否與單一極性詞彙共同在同一句。情感傾向程度（Sentiment Orientation）由游和正等人(2012)提出，計算方式如公式(13) 、 (14)、及 (15)所示，以情緒詞彙在語料庫中之正負面文章頻率（Document Frequency）分辨該詞彙之極性程度，當詞彙出現在正面文章頻率較出現在負面文章頻率高，則此一詞彙較偏向正面；否則越偏向反面。正負號代表情感正負向。 41.

(53) PSO . Dw in P  1 Dp. (13). NSO . Dw in N  1 DN. (14).  PSO  SO  log e    NSO . (15). PSO 為正面情感傾向程度（Positive Sentiment Orientation），由詞彙所在的正面文章數量 Dw in P 除以所有正面文章數量 D p 。為了避免該詞彙在某類文章中未出現，導致 PSO 為 0，所以將 Dw in P 加 1。而 NSO 為負面情感傾向程度（Negative Sentiment Orientation），由詞彙所在的負面文章數量 Dw in N  1 除以所有負面文章數量 DN 。如果 PSO 大於 NSO 則情感傾向為正面，反之情感傾向為負面。由於本論文研究中需要分析正面、負面和中立三種意見傾向，所以當 PSO = NSO 時，SO 值為 0，本研究令該情況代表詞彙的情感傾向為中立。本研究嘗試利用監督式方法修改情感辭典的極性，主要方法是統計情感辭典詞彙在訓練資料中，出現在正面、中立和負面文章的頻率，再根據統計結果重新定義詞彙的極性，建立根據訓練資料修改的情感辭典，而修改後的辭典不只有正面和負面的極性，還新增了中立極性的情感辭典。例如該詞彙出現在正面極性文章的頻率較其他兩個極性的頻率高，則該詞彙定義為正面詞彙，假如詞彙出現在正面文章和負面文章的頻率相同，而且比出現在中立文章的頻率高，代表該詞彙 42.

(54) 並非決定文章極性的關鍵詞彙，則刪除該詞彙，詳細規則如表十六所示，以 a、b 和 c 代表不同極性，例如 a 為正面，b 為中立，c 為負面，當該詞彙在正面文章中出現的頻率比出現在中立文章中的頻率多，並且也比出現在負面文章中的頻率多，則定義該詞彙的極性為正面。. 表十六以監督式方法修感情感辭典極性規則詞彙在不同極性文章中的頻率. 新的極性. a>b and a>c. a. 其他情況. 不予以該詞彙極性，從辭典中刪除該詞彙. 本研究發現有些詞彙和主題詞出現在同一句時，只會是單一極性，所以稱此詞彙為主題句單一極性詞彙，這些詞彙的詞性為名詞、及物動詞與不及物動詞，學運主題和馬英九主題的主題句單一極性詞彙例子如表十七、表十八所示。. 表十七學運主題的主題句單一極性詞彙極性. 例子. 正面. 誇讚、六四、讚譽、社會主義、自主. 中立. 朱立倫、化解、連署、發聲、民主課. 負面. 強佔、基金會、冷氣、五四運動、小英. 43.

(55) 表十八馬英九主題的主題句單一極性詞彙極性. 例子. 正面. 儉樸、自抑、省卻、感動、美德. 中立. 儀式、軟土深掘、預算、關切. 負面. 青年軍、輿論、遊行、行政權、民粹. 如果主題相關文章中不包含主題詞，而是包含表十的 rule pattern，有些詞彙在文章的 rule pattern 句中只會是單一極性，本研究稱此詞彙為主題相關單一極性詞彙，學運主題和馬英九主題的主題相關單一極性詞彙例子如表十九、表二十所示。. 表十九學運主題的主題相關單一極性詞彙極性. 例子. 正面. 鼓勵、力量、讚許、盛譽. 中立. 和平、未來、問題、審查、全球化. 負面. 暴力、包圍、違法、暴民、民主. 44.

(56) 表二十馬英九主題的主題相關單一極性詞彙極性. 例子. 正面. 儉樸、努力. 中立. 郭台銘、台商、立法院、疑慮、蔡英文、共識. 負面. 違憲、朝野、訴求、政權、抗議. 總結以上敘述，表二十一為本論文中，意見傾向分析實驗中所使用的向量表示式。. 45.

(57) 表二十一本論文意見傾向分析實驗所使用的向量表示式描述格式. 描述. label. 共有三類(-1、0 和 1)。該詞彙在訓練資料中若多數被分類為正面以 1 表示，中立以 0 表示，負面則是-1。. 正面訓練詞彙. 以二元值呈現。如果該詞彙為正面訓練詞彙，則以 1 表示，否則為 0。. 中立訓練詞彙. 以二元值呈現。如果該詞彙為中立訓練詞彙，則以 1 表示，否則為 0。. 負面訓練詞彙. 以二元值呈現。如果該詞彙為負面訓練詞彙，則以 1 表示，否則為 0。. 是否為情感辭典的正面詞彙. 以二元值呈現。如果該詞彙為情感辭典中的正面詞彙，則以 1 表示，否則為 0。. 是否為情感辭典的負面詞彙. 以二元值呈現。如果該詞彙為情感辭典中的負面詞彙，則以 1 表示，否則為 0。. 情感傾向程度. 以實數呈現。計算詞彙的情感傾向程度，如公式(15)所示。. 詞彙是否出現在主題句. 以二元值呈現。判斷該詞彙是否為主題種子詞彙，如果是主題種子詞彙，則此欄位標示為 1，否則為 0。. 是否為修改後的情感辭典的正面詞彙. 以二元值呈現。如果該詞彙為修改後情感辭典中的正面詞彙，則以 1 表示，否則為 0。. 是否為修改後的情感辭典的中立詞彙. 以二元值呈現。如果該詞彙為修改後情感辭典中的中立詞彙，則以 1 表示，否則為 0。. 是否為修改後的情感辭典的負面詞彙. 以二元值呈現。如果該詞彙為修改後情感辭典中的負面詞彙，則以 1 表示，否則為 0。. 是否為主題句單一極性(正面)詞彙. 以二元值呈現。如果該詞彙每次與主題詞在同一句時，都是正面極性，則以 1 表示，否則為 0。. 是否為主題句單一極性(中立)詞彙. 以二元值呈現。如果該詞彙每次與主題詞在同一句時，都是中立極性，則以 1 表示，否則為 0。. 是否為主題句單一極性(負面)詞彙. 以二元值呈現。如果該詞彙每次與主題詞在同一句時，都是負面極性，則以 1 表示，否則為 0。. 是否為主題相關單一極性(正面)詞彙. 以二元值呈現。如果該詞彙出現在 rule pattern 句子中，都是正面極性，則以 1 表示，否則為 0。. 是否為主題相關單一極性(中立)詞彙. 以二元值呈現。如果該詞彙出現在 rule pattern 句子中，都是中立極性，則以 1 表示，否則為 0。. 是否為主題相關單. 以二元值呈現。如果該詞彙出現在 rule pattern 句子中，都. 一極性(負面)詞彙. 是負面極性，則以 1 表示，否則為 0。. 句尾是否為問號. 以二元值呈現。如果該詞彙的句尾是問號，則以 1 表示，否則為 0。 46.