結合監督式及非監督式方法進行新聞文章意見持有者辨識之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：侯文娟博士. 結合監督式及非監督式方法進行新聞文章意見持有者辨識之研究 Combining the Supervised and Unsupervised Approaches to Identifying Opinion Holders in News. 研究生：張益豪撰中華民國一零五年七月.

(2) 摘. 要. 意見探勘幫助我們自動地從大量的可靠來源文本，擷取人們感興趣且可利用的主觀性資訊。意見句可分為四個部分，包括意見主題、意見持有者、意見主張及意見情感，本研究目的在於辨識意見持有者。本研究提出一個結合監督式及非監督式學習的方法，辨識意見句中的文章作者或持有者代表詞，本研究的主要流程任務分成兩個部分：文章作者意見辨識、意見持有者辨識。意見持有者辨識目的是從意見句中擷取出表達此意見的人物名或組織名，以監督式學習方法為基礎，從包含主觀性意見句的文檔中，人工標記意見持有者的代表詞答案，再經由自然語言處理方法進行預處理步驟(包含斷詞、詞性標記及具名實體辨識等)，之後將兩個主要任務通過各自建立的數個支援向量機模型，對意見表達句進行文章作者辨識與意見持有者的識別。在文章作者意見辨識中使用包含詞彙相關資訊、詞性相關資訊、標點符號相關資訊、具名實體相關資訊、句法相關資訊、意見詞資訊等特徵值；在意見持有者的識別中則使用包含詞性相關資訊、詞彙相關資訊、具名實體相關資訊、文句組成相關資訊、標點符號相關資訊等特徵值。最後合併兩部分的辨識結果，產生系統提報的意見持有者。對於一個意見句中含有多個意見持有者候選詞之問題，我們利用公式計算出代表意見持有者的詞彙，並借助本研究制定的規則，修正持有者代表詞完整度不足的問題；此外，對於意見持有者涉及指代消解問題的情況，本研究使用 Hobbs Algorithm 句法剖析的方式解決此問題。本研究的系統辨識方法，實驗結果表明在英語新聞語料中，文章作者辨識可以達到 F-1 值 91.58%的效能，及意見持有者辨識可以達到 F-1 值 71.83%的效能，在此基礎上進行了交叉驗證和刪減特徵值分析重要程度的工作，並且能夠得到良好的辨識效果。. 關鍵字：意見探勘、意見持有者辨識、支援向量機、監督式學習、非監督式方法 I.

(3) Abstract Opinion mining helps us automatically extract useful subjective information from a large number of reliable texts. Opinion sentences can be decomposed into four parts, including opinion topic, opinion holder, opinion claim and opinion sentiment. Our goal aims to identify the holders of opinion. This study proposes a combination of supervised and unsupervised learning approaches to extract the article author and holders. The main flow of our research work is divided into two phases: identifying article author and holders of the opinion sentence among the labeled corpus. The purpose of opinion holder identification is to capture the expression of the person or organizations from the subjectivity opinion sentences. The approach is based on the supervised learning method using several manual annotated corpus provided in the online news articles. The preprocessing steps via natural language processing techniques, such as segmentation, part-of-speech tagging and named entity recognition, etc. Our feature analysis is based on both machine learning (i.e., support vector machine, SVM) and unsupervised pattern recognition techniques. Different SVM models are evaluated via cross-validation experiments. The proposed features consist of the lexical feature, part-of-speech feature, punctuation mark feature, named entity feature, syntactic feature, position feature, phrase composition feature and opinion word feature. The study also addresses the problem of multiple opinion holder candidates being realized in a single sentence. The proposed approach includes some unsupervised extracting methods to detect the opinion holders without labeled training data. Some manual rules are employed to revise the incomplete holder representations. Furthermore, the Hobbs algorithm is applied to resolve the anaphora resolution problem. Our approach is tested on an annotated news corpus with 10-fold crossvalidation and with feature deletion analysis, obtaining 91.58% and 71.83% of F-1 scores for the task of extracting author’s opinion and the task of opinion holder identification, respectively. Finally, the experimental results show the exhilaratingly good performance.. Keywords: opinion mining, opinion holder identification, support vector machine, supervised learning, unsupervised learning approach. II.

(4) 謹獻給‧‧‧‧ 我的父母、指導教授、同學和朋友，以及所有幫助過我的人. III.

(5) 誌. 謝. 本篇研究論文的完成，首先要感謝指導教授侯文娟老師，感謝老師引領我進入自然語言處理的領域，細心教導相關知識，並為我的研究方向提供了許多寶貴的建議，以及給予良好的實驗室環境。也要感謝實驗室中的學長姐與學弟妹，經常與我討論課業上的問題和分享生活裡的喜悅，讓我在碩士修業期間劃上難忘的快樂時光。最後感謝家人在各方面的支助，讓我得以完成碩士學位，在此致上我最大的感激，謝謝你們。. IV.

(6) 目. 錄. 摘要…………………………………………………………………………………...I Abstract……………………………………………………………………………..II 附表目錄…………………………………………………………………………...VI 附圖目錄…………………………………………………………………………..VII 第一章緒論................................................................................................................1 第一節研究動機…………………..…………………………………..………1 第二節研究目的………………………………………………………………2 第三節問題挑戰……………………………..…………………..……………3 第四節論文架構………………………………..…..…………………………4 第二章相關研究探討………………………………………………………………5 第一節意見探勘與情感分析……………………………………..………..…5 第二節意見持有者辨識的相關研究…………………………………………5 第三節監督式學習分類器……………………………………………………6 第四節本研究提出的方法…………………..…………………..……………7 第三章研究方法.......................................................................................................8 第一節辨識流程………..……………………………………..………………8 第二節前置處理程序…………………………………………………..…..…9 第三節文章作者意見辨識……………………………………………..……22 第四節意見持有者辨識………………………………………………..……28 第五節後置處理程序………………………………………………………..32 第六節合併文章作者與意見持有者辨識之結果…………..……………....44 第四章實驗與結果………………………………………………………………..45 第一節實驗語料………………………………..……………………………45 第二節實驗資源…………………………………………………..…………46 第三節文章作者意見辨識實驗……………………………………..………46 第四節意見持有者辨識實驗……………………………………..…………53 第五章. 結論與未來展望…………………………………………………………..64. 參考文獻…………………………………………………………..…………………68. V.

(7) 附表目錄表 3.2.1 表 3.2.2 表 3.3.1 表 3.3.2 表 3.3.3 表 3.4.1 表 3.4.2 表 3.4.3 表 3.5.1 表 3.5.2 表 3.5.3 表 3.5.4 表 3.5.5 表 3.5.6 表 3.5.7 表 4.3.1 表 4.3.2 表 4.3.3 表 4.3.4 表 4.3.5 表 4.3.6 表 4.4.1 表 4.4.2 表 4.4.3 表 4.4.4 表 5.1 表 5.2. Stanford part-of-speech tagger 詞性列表…………..……….…..12 MPQA 主觀性詞典部分內容………………………………..…20 文章作者意見辨識特徵值…………………………………..…23 文章作者意見轉折語氣詞彙表……………………………..…25 部分指示動詞列表………………………………………..……27 意見表達形式範例…………………………………..…………28 意見持有者辨識特徵值………………………………..………29 多種消息人士的表達方式………………………………..……30 可做為名詞使用的動詞字彙………………………………..…35 高於門檻值的指示動詞頻率表…………………………..……36 低於門檻值的指示動詞頻率表…………………………..……36 意見指示動詞計算權重設定…………………………………..38 具名實體和詞性相關資訊權重設定…………………………..40 名詞短語擴展的形式………………………………………..…40 限定詞範例…………………………………………………..…41 語料庫中的作者意見句數統計……………………………..…46 文章作者意見句辨識分析表………………………………..…47 以交叉驗證方式訓練文章作者辨識模型的實驗結果……..…49 測試文章作者辨識模型的實驗結果………………………..…50 刪減文章作者辨識訓練集特徵值的實驗結果……………..…51 刪減文章作者辨識測試集特徵值的實驗結果…………..……52 語料庫中的意見持有者候選詞數量統計……………….…….53 意見持有者的候選詞辨識分析表…………………………..…54 以交叉驗證方式訓練意見持有者辨識模型的實驗結果…..…55 刪減意見持有者辨識資料集特徵值的實驗結果………..……56 本研究的實驗結果表…………………………………………..64 其他意見持有者相關研究結果………………………………..65. VI.

(8) 附圖目錄圖 1.2.1 圖 3.1.1 圖 3.2.1 圖 3.2.2 圖 3.2.3 圖 3.2.4 圖 3.2.5 圖 3.2.6 圖 3.2.7 圖 3.2.8 圖 3.2.9 圖 3.2.10 圖 3.2.11 圖 3.2.12 圖 3.5.1 圖 3.5.2 圖 3.6.1 圖 4.1.1 圖 4.3.1 圖 4.3.2 圖 4.3.3 圖 4.4.1 圖 4.4.2 圖 4.4.3 圖 4.4.4 圖 4.4.5 圖 4.4.6 圖 4.4.7 圖 4.4.8 圖 4.4.9 圖 4.4.10 圖 4.4.11 圖 4.4.12. 意見持有者的類別樹狀圖………………………………………2 意見持有者辨識流程圖…………………………………………8 前置處理程序流程圖………………………………………..…10 例句 3.2.1 之斷詞處理執行畫面…...………………………..…10 例句 3.2.2 之斷句修改示意圖…….……………………………11 例句 3.2.3 之斷句修改示意圖……….…………………………11 例句 3.2.4 之詞性標記處理執行畫面………...…………..……12 例句 3.2.5 之具名實體辨識執行畫面…………...……..………16 例句 3.2.6 之錯誤標記的具名實體-以未標示為例…..…..……17 例句 3.2.7 之錯誤標記的具名實體-以組織名為例…...….……17 例句 3.2.8 之錯誤標記的具名實體-以地名為例…...…….……17 意見表達的涵蓋範圍………………………………………..…19 OpinionFinder 生成結果………………………………..………21 二元分類向量表示……………………………………………..22 例句 3.5.1 的句法分析樹………………………….……………34 意見持有者後置處理過程之範例………………………..……42 合併辨識結果的策略……………………………………..……44 台灣主流觀點 Taiwan News 入口頁面……………...…………45 測試文章作者辨識模型的實驗結果長條圖…………..………50 刪減文章作者辨識訓練集特徵值的實驗結果折線圖……..…52 刪減文章作者辨識測試集特徵值的實驗結果折線圖……..…52 意見持有者辨識模型的實驗結果長條圖……………...…...…56 刪減意見持有者辨識特徵值的實驗結果折線圖…………..…58 Stanford Coreference Resolution System 進行指代消解其一....59 Hobbs 演算法使用句法剖析樹進行指代消解其一………...…60 Hobbs 演算法使用句法剖析樹進行指代消解其二………...…60 Hobbs 演算法使用句法剖析樹進行指代消解其三………..….61 Stanford Coreference Resolution System 進行指代消解其二....61 短語擴展實驗示意圖其一………………………………..……62 短語擴展實驗示意圖其二……………………………………..62 短語擴展實驗示意圖其三…………………………………..…63 短語擴展實驗示意圖其四…………………………………..…63 短語擴展實驗示意圖其五…………………………………..…63. VII.

(9) 第一章緒論第一節. 研究動機. 隨著網路蓬勃發展，大量的資料湧進網際網路中，使用者可以方便地獲得感興趣的資訊，更能夠透過公開平台發表意見。意見是指人們對於事物所產生的看法或想法，大家都意識到意見的重要性，但是對於意見的定義卻沒有達成一致性，這些意見多半屬於非結構化資訊(Unstructured Information)，因此如何有效率地從中提取可用的資訊就成了相當重要的議題。人們無法逐字閱讀所有日積月累的大量資訊，意見探勘(Opinion Mining)幫助我們自動地從大量的意見中找出感興趣的資訊。Kim 和 Hovy [1]在 2004 年的研究中提出意見句可分為四個部分，包括意見主題(Opinion Topic)、意見持有者 (Opinion Holder)、意見主張(Opinion Claim)及意見情感(Opinion Sentiment)，意見主題為評論的目標，表達此意見的人或組織稱為意見持有者，持有者對於此意見的主觀性看法為意見主張，以及意見的詞彙強度為意見情感。例句 1.1.1 具有主張性但無意見情感字眼，意見主題為中國南海爭議(South China Sea disputes)、意見持有者為台灣(Taiwan)、主張和平地解決問題(peaceful resolution)。意見持有者常以單詞或詞組的形式出現，但有時意見持有者為文章作者，如例句 1.1.2 針對例句 1.1.1 而發表評論，此部份會依標記者定義的不同而產生差異性。例句 1.1.1：Taiwan calls for peaceful resolution of South China Sea disputes. 例句 1.1.2：Taiwan's government would be pleased to see regional peace and stability. 意見持有者對於議題的主觀情感可以分為正向、負向和中立，其中依照表達強度又可細分為顯性(Explicit)與隱性(Implicit)的表達方式，因為並無標準的規範，現今部分的研究依照經驗法則(Heuristic Rule)，使用大量的口語和正確文法句子做分析，其結果差異相當地懸殊，故本研究不加以討論表達明確性。如果能夠大量地自動分析文章中的意見情緒，並完善地做到意見持有者辨識，了解個人或組織對於某個議題的看法，可以幫助人們在海量的資訊中篩選意見，不論是政治、經濟和文化等議題，都能夠即時掌握大眾意見。 1.

(10) 第二節. 研究目的. 本研究希望從線上英語新聞語料中辨識出意見持有者，英語新聞在時態的表述上具有一特殊性，即英文善用歷史現在時式(Historical Present Tense)，也就是用一般現在時式代替過去時式，以強調消息的現實性與真實性。新聞語料與一般文本的不同，在於新聞語料中的意見句少有主觀的陳述或帶有情緒的字眼，必須在前置處理程序做得完善，才能有效地辨識出意見持有者。辨識過程視作序列標記(Sequential Labeling)的工作，將意見句定義成數個字詞的組合，S = {W1W2W3…} S 為意見句，Wi 為單一字詞，其中意見持有者的候選字詞 H = {Wi Wi+1 Wi+j ，j 為≧0 的整數}，因為意見持有者可能為單個字詞或連續之字詞；或者意見持有者為文章作者 H = {Ø}，即不以字詞出現在句子中，本研究希望盡可能辨識出意見句中的持有者單詞或詞組。. 意見持有者. 文章作者. 代表詞. 具名實體. 人名. 代名詞. 地名. 名詞片語. 組織名. 圖 1.2.1 意見持有者的類別樹狀圖. 經過觀察語料庫可歸類出六大類意見持有者類別：文章作者、人名、地名、組織名、代名詞、名詞片語，圖 1.2.1 為意見持有者的類別樹狀圖。首先根據意見句中的意見持有者，是否會以代表詞的形式出現，判斷意見句是否為文章作者。. 2.

(11) 本論文代表詞指的是具名實體辨識系統所得到的人名、地名與組織名，此外，代名詞為人稱代名詞，例如：he、she、they…，名詞片語則包括職稱名，例如：analyst、 expert、mayor…。此工作對於使用新聞語料是具有挑戰性的，因為報紙聚集了不同方面的人或組織的各種意見以及大量的未知具名實體(Unknown Named Entity) ，這表示意見持有者辨識的工作是相當重要，它有助於分析人們對社會議題的想法與議論。. 第三節. 問題挑戰. 意見語句辨識(Opinionated Sentence Recognition)的目的在於辨識當前句子是否帶有主觀性(Subjectivity)，如果是，則表示這一句子是意見句，可能存有意見持有者；反之，則代表該句是客觀性(Objectivity)事實的陳述句，句中不包含意見情感，此過程幫助判別一個句子是否為意見句。在原始語料中少有已經包含對整個句子極性的標記，研究者必須將句子裡的所有字彙分為正、負向及中立的標記，處理時依照不同需求，將句子標記成理想結果。指代消解(Coreference Resolution)的問題是意見持有者辨識的一大挑戰，文章為了避免重複的字詞出現，而導致語句結構冗贅和語意不清晰，或者想要簡化稱呼，所以會使用代詞(Pronouns)或是普通名詞(Common Nouns)來代替已經出現過的先行詞(Antecedent)。由於意見持有者很多情況下是以人稱代名詞的形式表現出來的，而如果把代詞直接提取出來做為意見持有者給使用者，顯然是沒有任何意義的。因此在進行意見持有者辨識之前，首先要進行人稱代名詞的指代消解。意見持有者的辨識通常以單詞為結果，也有以詞組的形式出現，如冠詞、分詞片語、連接詞、標點符號或複句。標記者對於語料的歧異標記，也是影響準確度的關鍵問題，可能會被標記出多個意見持有者答案，如何從候選詞中挑選出正確答案也是一大挑戰。標記意見持有者辨識語料時，不同的標記者的結果會產生歧異性，以例句 1.3.1 為例：. 3.

(12) 例句 1.3.1 ： Speaking to U.S. government officials, scholars and industry representatives at the defense conference, the DPP said that military personnel at the proposed command will be equipped with skills to manage and maintain websites and protect them from virus attacks, which will improve their job prospects in the information and communication industry after they retire from the military, the report said. 例句 1.3.1：學者和業界代表在國防會議上與美國政府官員對談，民進黨說，軍事人員在提議的命令下將培育技能來管理和維護網站，並保護他們免受病毒攻擊，這將增進他們從軍隊退役之後資通產業的就業前景，該報告稱。. 在例句 1.3.1 中以底線標示可能的候選詞，粗體表示標記者的判定，一位標記者認為該句的意見持有者為「民進黨」，另一位標記者則認為是「該報告」的文章作者所引述，兩種說法都沒有對錯，因此文句中可能會被標示出多個意見持有者結果，對於原始語料庫的標記處理就顯得額外重要。對於指代消解的處理，需要考量當前字詞應該指代到哪個具名實體，例句 1.3.1 中的「他們」必須指代到前面的「軍事人員」，否則會造成辨識的結果意義上的錯誤，現今已有各種解決指代問題的方法。以詞組為意見持有者答案的情況，分詞片語的選取範圍也為重要考量，為了考慮到意見持有者答案的完整度，如何在前後字詞的範圍內正確地擷取，才具有完整的意義，間接影響到整體辨識過程的準確性。. 第四節. 論文架構. 本篇論文共分成五個章節，第一章是緒論，說明研究動機、目的與需要挑戰的問題，第二章是相關研究探討，介紹過去研究不同的方法，第三章詳細說明本研究提出的方法，第四章進行實驗與討論結果，第五章是結論與未來展望。. 4.

(13) 第二章相關研究探討. 本章將整理相關文獻，做為本研究方法的理論基礎，第一節意見探勘與情感分析，說明根據研究目標制定的需求，所使用的方法與結果。第二節意見持有者辨識的相關研究，探討過去的研究以不同的做法解決此問題。第三節介紹相關研究所使用的機器學習的方法。第四節說明本研究對於意見持有者辨識的方法。. 第一節. 意見探勘與情感分析. 隨著社群網路的興起，意見探勘與情感分析是近年來熱門的研究主題， Cambria [2]等人統整過去使用意見探勘的研究方法，介紹一般的做法與近代發展做法的差異，從關鍵字分析延伸到整體概念式的方法，並說明新聞的資源不僅以文本的形式表達，更發展成聲音或影像等多型態方式出現。 Kim 和 Hovy [1]提出的系統裡，並沒有強調對於意見句的定義，他們描述構成意見句的一些要素，並使用數學模型計算字詞間的正負極性，通過數個詞性分類器產生帶有情感的句子。使用機器學習的方法中，Choi 等人[3]，結合條件隨機域(Condition Random Field, CRF) [4]與語義標記(Semantic Tagging)的做法辨識意見句，並詳細分析各種特徵值對於結果的影響，包括錯誤分析的結果。Ku 等人[5]使用支持向量機器 (Support Vector Machine, SVM) [6]從新聞與部落格文章裡，在句子層次和檔案層次上各自提出演算法，計算情感句的分數，並利用動詞和名詞等特徵值進行分析。. 第二節. 意見持有者辨識的相關研究. Das 和 Bandyopadhyay [7]使用孟加拉語系的部落格文章做為實驗語料，透過 SVM 分類器訓練不同主題的語料，利用語法聚類(Syntactic Clustering)的方法分析主題與意見持有者之間的關係。Elarnaoty 等人[8]使用 CRF 分類器和半監督式. 5.

(14) 訓練阿拉伯文新聞語料，是最先在此問題中使用阿拉伯語料的研究，並加強分析特徵值以彌補研究資源的短缺。其他也有針對新聞語料做研究，例如 Kim 和 Hovy [9]分析句子的語義結構並進行語義角色標記(Semantic Role Labeling)，標示出意見持有者。Kim 等人[10]則提出基於指代消解的做法利用字彙和語法資訊辨識意見持有者。使用句法關係的研究中，[11]、[12]、[13]透過句子的主從關係，先找出謂詞 (Predicate)，通常為動詞或形容詞，句子中伴隨的謂詞表示意見持有者的狀態或行為，對於辨識持有者是一大重要依據。在問答系統(Question Answering System) 中也有學者研究此問題，Kim 和 Hovy [14]使用最大熵排名演算法(Maximum Entropy Ranking Algorithm)，透過解析樹取得的解析特徵(Parsing Features)，計算句子中可能的意見持有者與其他字詞之間的距離。. 第三節. 監督式學習分類器. (一) 支持向量機(Support Vector Machine, SVM). 支持向量機由 Vapnik 等人[6]於 1995 年提出，是一種基於統計學習理論的監督式學習的方法，廣泛地運用於統計分類以及迴歸分析中。以二元分類問題為例，將每筆輸入的訓練資料視為向量空間中的一個點，其特徵值視為向量空間的維度。在 SVM 的學習過程中，其目標是找到一個特徵空間的分類超平面(Hyperplane)，在完全可分的情況下，使得兩類的訓練資料與分類界線的間隔(Margin)最大化。支持向量機經常應用於影像辨識與文本分類等問題，本研究將使用 Chang 和 Lin [15]開發的套裝軟體 LIBSVM。. (二) 條件隨機域(Condition Random Field, CRF). 由 Lafferty 等人於 2001 年提出的條件隨機域，是一種理想的序列標記鑑別式機率模型，目前在中文斷詞、詞性標記以及具名實體辨別領域都有相關應用。如同馬可夫隨機域(Markov Random Field)[16]，它指的是一個隨機變數序列按時間先後關係依次排開的時候，第 N+1 時刻的分佈特性，與 N 時刻以前的隨機變 6.

(15) 數的取值無關。CRF 為無向性的圖模型，圖中的頂點代表隨機變數。在 CRF 當中，定義一個條件機率 P = ( Y | X )，隨機變數 Y 的分布為條件機率，給定的觀察值則為隨機變數 X。在本研究中代表意見句中的字詞序列：S = {W1W2W3…}，例如序列 X = {the, report, said}，W1 = the、W2= report、W3= said，Y 為條件機率的分布，代表意見持有者的標籤序列：例如 H(意見持有者首詞)、I(意見持有者中間詞)、O(非意見持有者詞)，而序列 X 對於序列 Y 的意見持有者標籤為 P = {H, I, O}，相關研究經常使用的是 Kudo[17]所開發的套裝軟體 CRF++。. 第四節. 本研究提出的方法. 本研究將意見持有者辨識分成五個部份，首先將前置處理程序做得完善，是提高辨識準確度的重要環節；接著從語料庫中擷取主觀性情感意見語句，檢查是否有指代的問題需要解決，並使用機器學習的方式進行辨識文章作者與意見持有者這兩個部分，後置處理程序分別針對錯誤的結果進行修復動作，最後結合兩部份結果做為系統最終意見持有者辨識的答案，下一章將詳細介紹本研究意見持有者辨識的具體方法。. 7.

(16) 第三章研究方法本研究將辨識流程分成五個部分，包括前置處理程序、文章作者辨識、意見持有者辨識、後置處理程序、合併兩部分之結果。前置處理程序包括斷詞、詞性標記、具名實體辨識、文句情感分析、特徵值擷取，形成訓練和測試資料集，再運用 LIBSVM 和 OpinionFinder[18]等工具訓練之後得到分類模型。文章作者意見辨識判斷意見句是否為文章作者，意見持有者辨識標記意見句中的持有者代表詞。後置處理程序將錯誤的結果加以修復，最後合併兩種辨識結果做為最佳答案。. 第一節. 辨識流程. 意見持有者辨識可分為前置處理程序、文章作者意見辨識、意見持有者辨識、後置處理程序、合併兩部分之結果等五個部分，圖 3.1.1 為意見持有者辨識流程圖。. 語料. 前置處理程序. 文章作者意見辨識. 意見持有者辨識. 合併兩部分之結果. 後置處理程序. 辨識結果. 圖 3.1.1 意見持有者辨識流程圖 8.

(17) 前置處理程序將原始文句進行斷句、斷詞並標記詞性及具名實體。本研究主要的辨識工作可分為兩個階段，首先，當意見持有者為文章作者時，即不以單詞或詞組的形式出現在文句中的情況，文章作者意見辨識程序將判斷文句是否屬於文章作者，如是，將此文章作者意見句過濾，不做為第二階段訓練模型建立時使用；如非文章作者意見句，則進入第二階段，再透過意見持有者辨識程序標記出代表文句中特定具名實體為意見持有者，此做法能夠先保留下以具名實體(如人名、地名和組織名)為代表詞的意見句，將做為本研究建立訓練模型時使用。而為了能夠辨識出較完整的意見持有者單詞或詞組，透過後置處理程序進行修復動作，將意見持有者為詞組的詞彙組合起來，最後透過合併程序，將文章作者意見辨識和意見持有者辨識結果做為最終的意見持有者。對於意見持有者辨識的研究工作，研究者經常採用條件隨機域(Conditional Random Fields, CRFs)的方法，但現有基於條件隨機域的工作只是使用了關鍵詞、詞性、相鄰實體和文句正負極性等特徵，並未對這些特徵值進行有效的分析與修改。因此本研究針對英文語料，採用基於機器學習的方法，在特定詞彙、指示動詞的基礎特徵上結合詞彙的依賴關係、文句的組成方式，分析不同特徵對於意見持有者辨識的影響，以提高意見持有者辨識的效率。將英文語料透過 OpinionFinder 進行情感句分析，對得到的主觀性意見句進行意見持有者人工標記，經過前置處理程序後會產生文章作者意見辨識和意見持有者辨識的訓練和測試特徵值，這兩組特徵值分別建立數個模型進行機器學習，並加上後置處理程序的修復動作，產生最終的辨識結果。. 第二節. 前置處理程序. 前置處理程序包括斷句、斷詞和詞性標記、具名實體辨識、文本情感分析及特徵值擷取，圖 3.2.1 為前置處理程序的流程圖。原始語料文本會先進行斷句、斷詞及詞性標記，再進行具名實體辨識和文本情感分析，並引入具名實體詞典，以增加系統辨識度，最後擷取出文章作者意見和意見持有者的特徵值。. 9.

(18) 具名實體詞典. 原始語料集. 斷詞. 詞性標記. 具名實體辨識. 文本情感分析. 特徵值擷取. Standford coreNLP Toolkit. 訓練和測試資料集. 圖 3.2.1 前置處理程序流程圖. (一) 斷詞(Segmentation). 本研究使用 Stanford 大學所開發的套裝系統 Stanford CoreNLP Toolkit [19] Word Segmenter 和 English Tokenizer 進行文章的斷句和斷詞，先將整篇文章以句號為分隔點斷句，再逐一把文句斷詞。對於名詞縮寫表達的方式、名詞挾帶所有格、不同的括號種類與雙引號等標點符號，若有斷句或斷詞的錯誤發生，將採取本研究制定的方法修正結果。. 例句 3.2.1：State-owned CPC Corp. Taiwan is likely to raise gasoline and diesel prices by NT$0.6 (US$0.02)-NT$0.7 per liter next week after a week of unchanged prices, the sources said.. 圖 3.2.2 例句 3.2.1 之斷詞處理執行畫面. 10.

(19) 例句 3.2.1 中的「Corp.」為 corporation 股份(有限)公司的英文縮寫，Stanford 斷詞系統將此處標記為一般句號，因此會產生遺失完整名詞實體的錯誤，且此句原本為單獨的句子錯誤地被斷成兩句。為了將句子正確地斷句，本研究採取以下方法進行修改動作：. 規則(一)：不與標記為帶有句號的名詞實體進行修改動作。規則(二)：若句號向前參考包含大寫的名詞實體，則視為相同實體名稱。. 例句 3.2.2：Mr. Y.H. Chang is a Dr. in the Corp.. 圖 3.2.3 例句 3.2.2 之斷句修改示意圖. 若採用規則修改斷句和斷詞，例句 3.2.2 中，「Corp」實體將與右邊第一個句號結合，因此，第二句的句號將視為第一句的結尾，藉此方式解決斷句的錯誤。. 例句 3.2.3：Three little pigs’ courage defeats the big bad wolf’s scheme.. 圖 3.2.4 例句 3.2.3 之斷句修改示意圖 Stanford 斷詞系統中，例句 3.2.3 對於表達單、複數名詞所有格實體，都能夠與其名詞實體正確地斷開，藉此推測斷詞系統計算的方式，字彙與標點符號需為特定組合方式出現，對廣泛使用的搭配符號，系統則能夠正確斷詞，如：US$、 NT$、帶小數點的數字，系統都將這些視為相同實體組合，但卻會造成上述的名詞縮寫斷詞不佳的情形，在此，本研究使用基於規則的方法解決了此問題。 11.

(20) (二) 詞性標記(Part of Speech Tagging). 本研究使用 Stanford CoreNLP Toolkit [19] POS Tagger 進行意見句的詞性標記。修改範例及結果如例句 3.2.4 及圖 3.2.5 所示。. 例句 3.2.4：Russia's military action in Syria has also pushed up crude oil prices, the sources said.. 圖 3.2.5 例句 3.2.4 之詞性標記處理執行畫面. 表 3.2.1 為 Stanford POS Tagger 包含的詞性列表，對於特殊的文字表達格式和符號都有其細數項目，如：forty-seven 並不會被標記為三種實體的詞性，經由斷詞處理過後的文字和符號，能夠正確地標記出該字彙的詞性。. 表 3.2.1 Stanford part-of-speech tagger 詞性列表 Tag. Description. Examples. $. dollar. $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$. ``. opening quotation mark. ` ``. ''. closing quotation mark. ' ''. (. opening parenthesis. ([{. ). closing parenthesis. )]}. ,. comma. ,. --. dash. --. .. sentence terminator. .!?. :. colon or ellipsis. : ; .... CC. conjunction, coordinating. & 'n and both but either et for less minus neither nor or plus so therefore times v. versus vs. whether yet. CD. numeral, cardinal. mid-1890 nine-thirty forty-two one-tenth ten million 12.

(21) 0.5 one forty-seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025 fifteen 271,124 dozen quintillion DM2,000 ... DT. determiner. all an another any both del each either every half la many much nary neither no some such that the them these this those. EX. existential there. there. FW. foreign word. gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte terram fiche oui corporis .... IN. preposition or conjunction,. JJ. astride among uppon whether out inside pro despite on by throughout below within for towards near. subordinating. behind atop around if like until below next into if beside .... adjective or numeral, ordinal. third ill-mannered pre-war regrettable oiled calamitous first separable ectoplasmic battery-powered participatory fourth still-to-be-named multilingual multi-disciplinary ... bleaker braver breezier briefer brighter brisker. JJR. adjective, comparative. broader bumper busier calmer cheaper choosier cleaner clearer closer colder commoner costlier cozier creamier crunchier cuter .... adjective, superlative. calmest cheapest choicest classiest cleanest clearest closest commonest corniest costliest crassest creepiest crudest cutest darkest deadliest dearest deepest densest dinkiest .... LS. list item marker. A A. B B. C C. D E F First G H I J K One SP-44001 SP-44002 SP-44005 SP-44007 Second Third Three Two \* a b c d first five four one six three two. MD. modal auxiliary. can cannot could couldn't dare may might must need ought shall should shouldn't will would. noun, common, singular or mass. common-carrier cabbage knuckle-duster Casino afghan shed thermostat investment slide humour falloff slick wind hyena override subhumanity machinist .... JJS. NN. 13.

(22) Motown Venneboerger Czestochwa Ranzer NNP. NNPS. NNS. noun, proper, singular. noun, proper, plural. noun, common, plural. Conchita Trumplane Christos Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA Shannon A.K.C. Meltex Liverpool ... Americans Americas Amharas Amityvilles Amusements Anarcho-Syndicalists Andalusians Andes Andruses Angels Animals Anthony Antilles Antiques Apache Apaches Apocrypha ... undergraduates scotches bric-a-brac products bodyguards facets coasts divestitures storehouses designs clubs fragrances averages subjectivists apprehensions muses factory-jobs .... PDT. pre-determiner. all both half many quite such sure this. POS. genitive marker. ' 's. PRP. pronoun, personal. hers herself him himself hisself it itself me myself one oneself ours ourselves ownself self she thee theirs them themselves they thou thy us. PRP$. pronoun, possessive. her his mine my our ours their thy your. RB. RBR. RBS. adverb. occasionally unabatingly maddeningly adventurously professedly stirringly prominently technologically magisterially predominately swiftly fiscally pitilessly .... adverb, comparative. further gloomier grander graver greater grimmer harder harsher healthier heavier higher however larger later leaner lengthier less-perfectly lesser lonelier longer louder lower more .... adverb, superlative. best biggest bluntest earliest farthest first furthest hardest heartiest highest largest least less most nearest second tightest worst aboard about across along apart around aside at. RP. particle. SYM. symbol. away back before behind by crop down ever fast for forth from go high i.e. in into just later low more off on open out over per pie raising start teeth that through under unto up up-pp upon whole with you % & ' '' ''. ) ). * + ,. < = > @ A[fj] U.S U.S.S.R \* \*\* \*\*\* 14.

(23) TO. UH. VB. "to" as preposition or. to. infinitive marker. interjection. Goodbye Goody Gosh Wow Jeepers Jee-sus Hubba Hey Kee-reist Oops amen huh howdy uh dammit whammo shucks heck anyways whodunnit honey golly man baby diddle hush sonuvabitch .... verb, base form. ask assemble assess assign assume atone attention avoid bake balkanize bank begin behold believe bend benefit bevel beware bless boil bomb boost brace break bring broil brush build ... dipped pleaded swiped regummed soaked tidied. VBD. VBG. VBN. verb, past tense. verb, present participle or gerund. verb, past participle. convened halted registered cushioned exacted snubbed strode aimed adopted belied figgered speculated wore appreciated contemplated ... telegraphing stirring focusing angering judging stalling lactating hankerin' alleging veering capping approaching traveling besieging encrypting interrupting erasing wincing ... multihulled dilapidated aerosolized chaired languished panelized used experimented flourished imitated reunifed factored condensed sheared unsettled primed dubbed desired .... predominate wrap resort sue twist spill cure lengthen brush terminate appear tend stray glisten obtain comprise detest tease attract emphasize mold not 3rd person singular postpone sever return wag ... verb, present tense,. VBP. verb, present tense, VBZ 3rd person singular. bases reconstructs marks mixes displeases seals carps weaves snatches slumps stretches authorizes smolders pictures emerges stockpiles seduces fizzes uses bolsters slaps speaks pleads .... WDT. WH-determiner. that what whatever which whichever. WP. WH-pronoun. that what whatever whatsoever which who whom whosoever. WP$ WH-pronoun, possessive WRB. Wh-adverb. whose how however whence whenever where whereby wherever wherein whereof why 15.

(24) (三) 具名實體辨識(Named Entity Recognition). 本研究使用 Stanford CoreNLP Toolkit [19] Named Entity Recognizer 進行辨識，目的在於擷取我們感興趣的具名實體(PERSON, ORGANIZATION, LOCATION)，幫助我們有效地得到潛在的意見持有者候選詞彙，如圖 3.2.6 所示，並結合我們收集的具名實體詞典，能夠處理中文英譯姓名，至於比較不容易正確地辨識的實體，藉由後續修改步驟，判定是否為正確的具名實體，並在未來可加入需要新增的實體詞彙。為了能夠更精確地標記出與意見持有者相關的具名實體，本研究加入額外的具名實體詞典，包括中英譯名、職稱名、組織名縮寫和全名等字典，例如：中華民國公營事業列表、外交部雙語詞彙對照表、行政院雙語詞彙對照表(職稱名)、台灣地名中英對照表、中文姓名英譯表及相關國際組織專有名詞縮寫和全名列表，若有無法判讀的意見持有者候選詞實體，則使用維基百科新增擴展字彙和一階謂詞邏輯式，藉此判定不包括在實體資料庫的詞彙。. 例句 3.2.5：President Ma Ying-jeou said he would respect Kuomintang’s Central Standing Committee should it move forward on the decision to replace current presidential candidate Hung Hsiu-chu with KMT Chairman Eric Chu, reports said Thursday.. 圖 3.2.6 例句 3.2.5 之具名實體辨識執行畫面. Named Entity Recognizer 能夠正常地辨識大多數的具名實體，基於某些原因會導致系統判定錯誤，如例句 3.2.6 所示，實體「Hung」和「Ma」無法被系統有效地辨識為人名，若將輸入規模從單一個句子改為檔案層級，則同篇文章的前後文句，包含的實體「Hung」和「Ma」卻能夠正確辨認，結果如圖 3.2.7。 16.

(25) 例句 3.2.6： "We hope both sides [Chu and Hung] can hold further talks to work out a solution," Ma said.. 圖 3.2.7 例句 3.2.6 之錯誤標記的具名實體-以未標示為例. 除了無法正常辨識的實體之外，錯誤的具名實體標記而產生錯誤辨識，例句 3.2.7，實體「Hon Hai」錯誤辨識成人名，同理，若將輸入規模改為檔案層級，同篇文章的前後文句，實體「Hon Hai」卻能正確地標記為組織名，結果如圖 3.2.8。例句 3.2.8，實體「Hengchun」為地名卻錯誤被辨識為人名，原因可能為系統判定實體「include」是屬於人物的動作，其前後文句搭配更多的詞彙出現時，則該文句「Hengchun Airport」方能正確地標記為地名，結果如圖 3.2.9。. 例句 3.2.7：Hon Hai chairman donates cash dividends to bio-medical research.. 圖 3.2.8 例句 3.2.7 之錯誤標記的具名實體-以組織名為例. 例句 3.2.8：Not a single passenger arrived at or departed at the airport over the past year, even though Hengchun includes one of Taiwan’s most popular beach resorts and national parks.. 圖 3.2.9 例句 3.2.8 之錯誤標記的具名實體-以地名為例 17.

(26) 我們觀察執行結果，並推測具名實體辨識系統錯誤判定的可能原因如下：. 1.該詞彙並無收錄至系統實體資料庫。 2.錯誤的文法結構或不與系統匹配的句法結構。 3.文句篇幅過小，無法形成具有代表性的具名實體關係。. 為了能夠正確地標記重要的具名實體，本研究採取以下方法進行修改動作：. 規則(三)：同篇文章中的其他句子若出現相同實體且正確標記則採用之。規則(四)：系統無法判定實體時，則利用一階謂詞邏輯得到適合的實體類別。. (四) 文本情感分析(Sentiment Analysis). 廣泛的意見通常包含了客觀的陳述和主觀的意見或是帶有情緒、情感的訊息，並存在一個或數個意見的主題(Topic)與其主張性(Claim)。研究者必須取得這些資訊才能產生有意義的分析結果，此外，意見持有者(Opinion Holder)相關的背景資料也是重要的評估訊息。然而，意見分析的工作並不容易達成，因為語言彈性非常大，難以用精簡的規則加以表達或分析；語言存在的時空背景和情境狀況，也會影響所要表現的真正意義；甚至語言表達客觀陳述或主觀意見並沒有明確的界線，以及語言訊息存在冗贅的語句，意見表達的涵蓋範圍如圖 3.2.10 所示。因此需要採用多種方式，以利有效的分析工作，本研究使用 OpinionFinder 工具利用兩種分類器的結果，得到隱性意見持有者的主觀性文句。. 18.

(27) 意見句. 主觀意見客觀陳述. 情感意見贅字與垃圾訊息. 圖 3.2.10 意見表達的涵蓋範圍[20]. MPQA (Multi-Perspective Question Answering) [18]是一個語料庫和意見辨識系統(Corpus and Opinion Recognition System)，該系統包含以下幾個部分：. 1. 意見語料庫(MPQA Opinion Corpus)：包含人工標記的新聞文章意見語句 2. OpinionFinder：能夠自動地辨識情感字彙，得到主觀性語句 3. 主觀性辭典(Subjectivity Lexicon)：從意見語料庫得到的字彙表，包括主觀性強度和正負極性等資訊. 其開放軟體 OpinionFinder 能夠對文檔進行處理，並自動辨識主觀性和客觀性語句，以及代表它們的情緒表達詞彙，本研究利用 OpinionFinder 內建的兩種分類，得到屬於意見句的主觀性句子，該工具的 F-measure 為 77.5%。主觀性語句表達個人狀態(Private State)，以及內部心理或情緒狀態，包括猜測、信仰、情感、評價、目標和評論。底下是一些主觀性語句的例子： (1) Jill said, "I hate Bill." (2) John thought he won the race. (3) Mary hoped her presentation would go well. 情感的表達是一種主觀性的表現，它們都包含正面和負面情緒的表達、評論和立場。在上面的例子中，「hate」是一個負面的情緒表達，「hoped」是一種正面的情感表達。 19.

(28) OpinionFinder 使用了兩種分類器進行句子分類，一種是基於開發者訂定的句法規則建立模型，另一種是基於 MPQA 語料庫訓練的模型，MPQA 主觀性詞典 (MPQA Subjectivity Lexicon) 是由 Theresa Wilson 、 Janyce Wiebe 和 Paul Hoffmann 所建立[21]，如下表 3.2.2 展示詞典的結構。表 3.2.2 MPQA 主觀性詞典部分內容 Id. Strength. Length. Word. Part-of-speech. Stemmed. Polarity. 1.. type=weaksubj. len=1. word1=abandoned. pos1=adj. stemmed1=n priorpolarity=negative. 2.. type=weaksubj. len=1. word1=abandonment. pos1=noun. stemmed1=n priorpolarity=negative. 3.. type=weaksubj. len=1. word1=abandon. pos1=verb. stemmed1=y priorpolarity=negative. 4.. type=strongsubj. len=1. word1=abase. pos1=verb. stemmed1=y priorpolarity=negative. 5.. type=strongsubj. len=1. word1=abasement. pos1=anypos. stemmed1=y priorpolarity=negative. 6.. type=strongsubj. len=1. word1=abash. pos1=verb. stemmed1=y priorpolarity=negative. 7.. type=weaksubj. len=1. word1=abate. pos1=verb. stemmed1=y priorpolarity=negative. 8.. type=weaksubj. len=1. word1=abdicate. pos1=verb. stemmed1=y priorpolarity=negative. 9.. type=strongsubj. len=1. word1=aberration. pos1=adj. stemmed1=n priorpolarity=negative. 10.. type=strongsubj. len=1. word1=aberration. pos1= noun. stemmed1=n priorpolarity=negative. type=strongsubj. len=1. word1=zest. pos1= noun. stemmed1=n. ... 8221.. priorpolarity=positive. 以表 3.2.2 中的 id 1 為例，欄位 Strength 表達主觀性的強弱程度，可以分為 strongsubj 與 weaksubj，Length 等於 1 代表由一個字所組成，Word 為此 id 所代表的字，Part-of-speech 為詞性類別，Stemmed 表示是否已去詞根，Polarity 則為詞的正負面極性。OpinionFinder 工具進行意見探勘時，將執行下列六個步驟：. 1. 預處理(Preprocessing)：使用 Stanford POS Tagger 將句子切分並標記詞性和詞幹提取(Stemming)。 2. 特徵擷取(Feature Finder)：從文件檔案中擷取有用的特徵值並辨識出主觀性語句及是否附有情緒表達。 3. 基於規則主觀性分類器(Rule-based Subjectivity Classifier)：以規則為基礎的主觀性分類器，依賴於開發者制訂的句法規則，標記文件檔案中句子的主觀性或客觀性，具有高精確度和低召回率。. 20.

(29) 4. 主觀性分類器(Subjectivity Classifier)：基於 MPQA 語料庫訓練的模型，用以標記文件檔案中句子為主觀性或客觀性。 5. 極性分類器(Polarity Classifier)：基於 MPQA 語料庫訓練的模型，用以標記句子中的詞彙和前後文極性(Contextual Polarity)。 6. SGML 標記(Standard Generalized Markup Language markup)：最終原始文件檔案輸出成標準通用標記語言格式(SGML)。. 圖 3.2.11 OpinionFinder 生成結果. 圖 3.2.11 即為 OpinionFinder 生成結果範例，框線部分表示系統自動產生，每一段句子都由標籤<MPQASENT>及</MPQASENT>所包含，其中 autoclass1 與 autoclass2 分別為上述說明中的第 3 和第 4 步驟，<MPQAPOL>及</MPQAPOL> 標籤中為 MPQA subjectivity lexicon 收錄的情感字彙，顯示字彙的極性，極性分 21.

(30) 為正向(positive)、中立(neutral)、負向(negative)。對於一個帶有意見的句子，僅僅知道意見的極性是不夠的，大家更希望知道意見討論的主題(Topics)或特徵 (Features)是什麼，以及意見的持有者(Opinion Holder)是誰？統計學方法無法可靠地解決這一問題，需要對句子的結構進行句法分析，對於收集到的語料庫，建立模型進行機器學習。. (五) 特徵值擷取(Feature Extraction). 我們所收集的語料經過文本情感分析產生主觀性意見句，分析觀察並得到與文章作者意見和代表意見持有者詞彙相關的特徵值，透過建立二元分類向量表 (如圖 3.2.12)並使用支援向量機(SVM, Support Vector Machine)進行監督式學習的方法，將運用於文章作者辨識與意見持有者辨識階段。在文章作者辨識階段，一列向量表示一個句子的輸入；而在意見持有者辨識階段，一列向量代表一個字詞實體的輸入，第一行的+1 與-1 表示是否為文章作者意見或正確的意見持有者，而其他行則為各種不同特徵的表現與否(0 或 1)，如 1:0 代表特徵 1 的表現值為 0，本章第三節、第四節將詳細說明各種特徵值的意義和設定。. 圖 3.2.12 二元分類向量表示. 第三節. 文章作者意見辨識. 我們分析並擷取語料庫中屬於文章作者的特徵向量，目的為解決意見持有者不以單詞或詞組形式出現的情況。主要可以分為詞彙相關資訊、詞性相關資訊、標點符號相關資訊、具名實體相關資訊、句法相關資訊、意見詞資訊等六種特徵值類別，其中詞彙相關資訊中的轉折詞、句法相關資訊中的複合句和被動語態為本研究提出的做法，其他則為參考[22]之特徵值，表 3.3.1 列出文章作者意見辨識使用的特徵值。 22.

(31) 表 3.3.1 文章作者意見辨識特徵值特徵值類別詞彙相關資訊詞性相關資訊. 特徵值代號. 特徵值說明. ifHasI. 本句是否有 I 或 i. ifHasWe. 本句是否有 We 或 we. ifHasTransword. 本句是否有轉折詞，例如 however. ifHasPersPronoun. 本句是否有人稱代名詞本句是否有雙引號，例如【" "】、【「」】或【“ ”】. 標點符號相關資訊 ifHasQuotation. 具名實體相關資訊句法相關資訊意見詞資訊. ifHasPerson. 本句是否有人名. ifHasOrganization. 本句是否有組織名. isPassiveVoice. 本句是否為被動語態. isCompoundSentence. 本句是否為複合句. ifHasOperator. 本句是否有某個指示動詞. ˙詞彙相關資訊我們以反向思考文章作者意見句，幾乎不會出現的詞彙，例如：「I」和「we」，在新聞語料庫裡，「I」和「we」常伴隨著某個意見持有者候選詞出現，因此不會有無法標記出單詞或詞組，視為文章作者意見句的情況發生，如以下例句：. 例句 3.3.1："In June 2014, when I announced my bid for reelection as New Taipei mayor, I promised the city's 4 million people that I would serve well and complete my full term," he said. 在例句 3.3.1 中，以代名詞「he」指代到前面的「I」。. 例句 3.3.2："I am sincerely grateful to all of the legislative members for their guidance and support, " Su said during a post press conference in the morning. 在例句 3.3.2 中，以單詞人名「Su」代表前面的「I」。. 假設出現「I」和「we」這兩個字彙，幾乎可以判定不為文章作者，但不考慮「me」和「us」的情況，因為這樣就像是站在報導人物的角度去敘說新聞，並不會以這種奇怪的方式撰寫新聞。使用「I」和「we」搭配雙引號的方式，足以表達某意見持有人的說法，如以下例句 3.3.3, 3.3.4 及 3.3.5 所示。為了增加訓 23.

(32) 練可靠度，因此將詞彙相關資訊的權重列成兩項特徵。. 例句 3.3.3："We hope to end cross-strait hostility, " Chu said, calling on both sides of the strait to create a win-win situation that benefits the people. 上句中以單詞人名「Chu」代表前面的「We」。. 例句 3.3.4："We encourage both sides to continue their constructive dialogue on the basis of dignity and respect," Sonia Urbom, spokesperson of the American Institute in Taiwan said Wednesday. 上句以詞組人名「Sonia Urbom」代表前面的「We」。. 例句 3.3.5：Trudeau said "we look forward to discussing a wide range of issues with him, just as we did with Democratic Progressive Party candidate Tsai Ing-wen in June." 例句 3.3.5 以單詞人名「Trudeau」代表前面的「We」。. 將詞彙相關資訊中的轉折詞列為特徵的動機如下：經由觀察訓練集所得到的標記，我們將標記為文章作者意見句加以分析，發現新聞撰寫的用字會顯示作者的情感表達，文章作者意見句經常帶有轉折語氣的字眼，我們將標記為文章作者意見的句子，並收集這些共同重複出現的詞，從而得到表 3.3.2，這些都是透過文本情感分析步驟所得到的主觀性句子，如：however、as a result、in addition to、 whether…等為轉折詞。具有轉折詞的文章作者意見例句如：To a political party, however, there cannot be a common goal without unity, and without unity it is impossible to win people's support.. 24.

(33) 表 3.3.2 文章作者意見轉折語氣詞彙表表達文章作者意見的轉折語氣詞彙 although、but、currently、despite、especially、furthermore、frankly、 first、finally、however、instead、meanwhile、nevertheless、單字詞 otherwise、whenever、yet、previously、similarly、second、therefore、 unless、whether、while、whatever according to、as to、as for、but if、even though、even if、for now、雙字詞 most importantly、so that、so if、such as 三字詞三字詞以上. as a result、in addition to、in other words as a matter of fact、for a long time、in the long run、on the other hand. ˙詞性相關資訊擷取除了「I」和「we」的人稱代名詞，也考慮人稱代名詞為受格的情形，如：「him」、「her」、「them」等，人稱代名詞的使用讓意見句為文章作者的機會增大，總是代表前面被提及的名詞實體，因此包含人稱代名詞的意見句極有可能是以作者角度去撰寫的句子，雖然人稱代名詞的出現也有可能指代為某一意見持有者，此項特徵值與具名實體特徵有著關聯性。. ˙標點符號相關資訊英語新聞文章的撰寫方式，讓我們可以很確切的認定，附有雙引號內的句子為某意見持有者所表達的意見，引號的出現幾乎可以排除本句不為文章作者意見句，而能夠在引號附近的位置找到代表意見持有者的單詞或詞組，此特徵幫助我們找出引號附近的意見持有者，能夠減少標記錯誤的意見持有者候選詞。. ˙具名實體相關資訊只考慮人名和組織名，而不考慮地名，因為此階段目的為判斷是否為文章作者，假如專注於地名對整體辨識率並沒有幫助。假設一個句子中出現人名或組織名，則表示此句極有可能為包含意見持有者的意見句，進一步排除為文章作者意. 25.

(34) 見的可能性，並考量地名不常被當作意見持有者，因此也是去除此特徵的一大重要原因。. ˙句法相關資訊被動語態特徵值，可用以檢視是否為作者意見，因為以站在文章作者角度而撰寫的意見句子，常常使用 was/were + verb + by、is/are + being verb + by…等語法，這些例句的動詞都是：助動詞＋過去分詞，或加上介系詞 by，這是被動語態的基本結構，以例句 3.3.6 所示。. 例句 3.3.6：An analysis of viewpoints expressed by expatriates in Taiwan shows they have little difficulty settling in, while two thirds enjoy immersing themselves in Taiwan's rich culture. 被動語態表示，且標記為文章作者意見，少有能夠做為意見持有者候選詞的實體。. 例句 3.3.7：At Qingshui District, Taichung, the residents of Haibinli village were infuriated by certain company’s careless and inconsiderate waste dumping in early November. 在例句 3.3.7 中，雖然不同的標記者可能會將「the residents」視為意見持有者，但本句更像是作者的角度描寫，詳細地述說事件發生時間和地區與意見主題「waste dumping」，且有被動語態表示，且標記為文章作者意見。但是也並非所有被動語態均為文章作者意見，如下例：. 例句 3.3.8：An analysis of viewpoints expressed by expatriates in Taiwan shows they have little difficulty settling in, while two thirds enjoy immersing themselves in Taiwan's rich culture. 在上例句中，使用被動語態表示，且無標記出意見持有者的文章作者意見句。我們定義複合句為包含一個子句以上的句子，兩個子句之間以逗號劃分，目的在於有效地擷取文章作者意見句。我們觀察到文章作者意見句的表示通常為簡短的一句話，因此包含的意見持有者候選詞也較少。. 26.

(35) ˙意見詞資訊包含我們從訓練資料集收集的 112 個指示動詞或稱謂語動詞(Predicate Verb) 關鍵字，統計所有訓練集中潛在意見句的意見持有者所支配動詞的頻率，藉此來決定一個句子中的何項動詞做為該句的指示動詞，希望了解文章作者發表意見時，是否常使用特定的動詞關鍵字，例如：「say」、「express」、「add」等，英語新聞常用的動詞是「say」，通常以一般過去時式出現，即「said」。當同一則新聞中出現多次的動詞「say」或「said」時，可以選用其他的詞，以避免單調，例如：「claim/state 聲稱」、「call/ appeal 呼籲」、「add 補充」等。表 3.3.3 列出一些經常可以用來替代 say 的動詞，它們在含意和用法上存在著些微差異，以及其他用法的動詞。詳細的計算方法將在後置處理程序中說明，特徵值對於系統效能的影響將在第四章實驗中討論。. 表 3.3.3 部分指示動詞列表 accept. 接受. add. advise. 建議. advocate 主張. allege. 斷言. announce 宣布. approve. 同意. appeal. 呼籲. assure. 保證. allow. 允許. argue. 爭論. agree. 同意. accuse. 指控. ask. 詢問. apologize 道歉. acknowledge 確認. answer. 回答. admit. 承認. affirm. 確認. believe. bestow. 賜予. brainstorm 集思廣益 call. 呼籲. consider 考慮. 補充. 相信. confirm 確認. condemn 譴責. conclude 結論. criticize. claim. 聲稱. caution. 警告. cite. 引用. describe 描述. discuss. 討論. dismiss. 解僱. decide. 決定. decline. disagree 不贊成 deny. 否認. disclose. 透露. demand 要求. emphasize 強調. explain. 解釋. express. 表達. exchange 交換. exclaim 驚嘆. encourage 促進. expect. 期望. ……. 27. 批評. 取消.

(36) 第四節. 意見持有者辨識. 在意見持有者辨識階段，我們擷取新的特徵向量集，建立另一個訓練模型，再將測試資料輸入訓練好的模型，判斷句子中的某個候選詞是否為代表意見持有者的詞彙，針對意見持有者為單詞或詞組的形式出現，目的為從序列標記中，能夠正確標示出意見持有者實體名稱。意見持有者與表達的意見形式，從句子組成的結構上，大致可分成五類，意見持有者結合短語的表達方式，短語又可分為動詞短語、形容詞短語、副詞短語等形式，而我們著重在動詞短語的處理，藉此標記初步的意見持有者代表詞，如表 3.4.1 所示。. 表 3.4.1 意見表達形式範例 holder say .... 意見持有者+意見表達句. holder told(to) reporter .... 意見持有者+介詞短語+意見表達句. holder commend people .... 意見持有者+動詞短語+意見表達句. holder said happily .... 意見持有者+副詞短語+意見表達句. holder not agree .... 意見持有者+否定副詞短語+意見表達句. 經過文章作者意見句辨識作業後，過濾掉不具有意見持有者的意見句，為了重新建立新的模型，我們分析並擷取語料庫中屬於意見持有者代表詞的特徵向量，目的為辨識出意見持有者以單詞或詞組形式出現的情況，把每一句中的名詞實體依照特徵值進行模型訓練。主要可以分為詞性相關資訊、詞彙相關資訊、具名實體相關資訊、文句組成相關資訊、標點符號相關資訊等五種特徵值類別，其中詞彙相關資訊中的前後文是否出現過、文句組成相關資訊中是否靠近指示動詞和是否靠近連接詞、標點符號相關資訊中是否靠近逗號為本研究提出的做法，其他則參考[22]提出的特徵值，表 3.4.2 列出意見持有者辨識使用的特徵值。. 28.

(37) 表 3.4.2 意見持有者辨識特徵值特徵值類別詞性相關資訊詞彙相關資訊. 具名實體相關資訊. 特徵值代號. 特徵值說明. isNoun. 本詞是否為名詞. isPronoun. 本詞是否為代名詞. ifHasAppeared. 本詞在前後文是否出現過. isPerson. 本詞是否為人名. isLocation. 本詞是否為地名. isOrganization. 本詞是否為組織名. isCareer. 本詞是否為職稱詞. isNearStartOrEnd. 本詞是否靠近句首或句尾 25%. 文句組成相關資訊 isNearOperator. 標點符號相關資訊. 本詞是否靠近指示動詞三個字距. isNearConjunction. 本詞是否靠近連接詞三個字距. isNearComma. 本詞是否靠近逗號三個字距. isNearQuotation. 本詞是否靠近引號三個字距. ˙詞性相關資訊擷取本詞是否為名詞或人稱代名詞。. ˙詞彙相關資訊一般而言，新聞報導會將重要的人事物一再地提到，考慮到這些多次出現的名詞實體，極有可能做為意見持有者的詞彙，也能夠排除掉其他不重要的名詞實體。. ˙具名實體相關資訊在此部分，除了人名、地名、組織名之外，加入職稱詞特徵，擷取本詞是否為職稱詞的資訊，職稱詞為描述職業名稱或職位頭銜的詞，例如：記者、分析師、專家等。新聞消息來源有多種表示方法，新聞的正文內表示新聞消息來源大致可以分為兩種做法。第一種是明確指出消息來源，具體交代提供消息來源的人物、組織或機構，如例句 3.4.1。. 例句 3.4.1："It was no surprise that selling in these two major DRAM stocks emerged soon after the local equity market opened today," Ta Ching Securities Investment Consulting analyst Eric Lai said. 29.

(38) 例句 3.4.1："這不足為奇，在本地股市今日開盤後，這兩個主要的 DRAM 庫存銷售很快上升"，大慶證券投資諮詢公司分析師 Eric Lai 說。如例句 3.4.1，文中清楚地交代提供消息的人是 Eric Lai，毫不含糊的指名道姓。第二種如例句 3.4.2：Whales can become stranded for many reasons, including illness, injury, weather conditions, and sonar disruption of their ability to communicate with others in their pod, according to marine experts. 例句 3.4.2：根據海洋專家報導，鯨魚擱淺有很多的原因，包括疾病、受傷、天氣情況，以及他們與其他鯨魚群的溝通能力受聲納干擾。. 例句 3.4.2 則引述了海洋專家的報導，但有時候出於某種原因，文章作者不願意或不方便直接透漏消息的來源，只能委婉地表露一點。在這種情況下，英語新聞中最常使用的一個詞語就是「source」，除了「source」之外，英語新聞還經常採用許多其他表達方式，表示消息的來源，以下是一些常用的表達方式。. 表 3.4.3 多種消息人士的表達方式 activist. 活動人士. legislator. 立委. agency. 機構/辦事處. mayor. 市長. analyst. 分析家/員. observer. 觀察員. authority. 局/處/署. opposition. 反對派. bureau. 局/處/署. participant. 參與者. candidate. 候選人. premier. 首相/總理. CEO. 首席執行官/總裁 president. contender. 競爭者. prosecutor. 檢察官. dealer. 代理商/交易商. pundit. 權威人士. expert. 專家. reporter. 記者. forecaster. 預報員. senator. 參議員. general. 首席/將軍. spokesman. 發言人. investor. 投資者. supporter. 支持者. leader. 領導人. witness. 證人/目擊者. 30. 總統.

(39) 事實上，由於新聞報導中經常遇到提供消息人士不願透露姓名的情況，或有時候根本無需具體指出提供消息的人，所以記者常採用這種略帶含糊的方法表示消息來源。本研究之後將結合定冠詞、形容詞補語、頭銜名稱詞等進行詞組修復動作，將這些代表詞標記為更完整的意見持有者的單詞或詞組，詞組修復將於後置處理程序章節討論。. ˙文句組成相關資訊在文句組成相關資訊部分，特徵值考慮某詞是否靠近句首或句尾、指示動詞和連接詞，我們發現意見持有者經常出現在句首或句尾的地方，本論文定義句首和句尾的範圍為整句全部實體的前後四分之一部分。假設只分為兩部分，是毫無意義的劃分，分成五個部分以上，則是擷取中心實體的做法，本研究並無此運用，因此將句子劃分成四等份，嚴格判定前後整數個實體個數的距離。指示動詞的位置一般接近名詞實體、逗號、冒號和雙引號，我們原先擷取靠近指示動詞四分之一句子距離內的名詞實體，但分類結果過度偏移(Bias)，使得分類結果只趨近某一類，所以改為三個實體距離範圍內的名詞。其他設定的原因，意見持有者常以冠詞+形容詞+名詞的組合形式，名詞包含人名、組織名、職稱名，例如：職稱名+人名，「analyst Alex Huang」、「Mayor Ko Wen-je」，人名又包含幾種表示，只有姓氏「Huang」、「Chen」，姓氏+英文名字「Eric Chu」、「James Soong」，完整中文音譯姓名「Ma Ying-jeou」、「Tsai Ing-wen」。本研究制定新增的特徵值擷取規則：. 規則(五) ：只考慮屬於名詞、代名詞和人稱代名詞的實體。規則(六) ：從原本四分之一句長的實體距離，改為指示動詞左右兩邊各三個實體距離。規則(七)：基於規則六的名詞實體個數，假設超過整句名詞實體總數量的一半，則刪除不屬於具名實體相關資訊特徵的名詞實體(即人名、地名、組織名及職稱名)。. 但離指示動詞太遠的實體，可能造成抓不到代表意見持有者的候選詞，此問題本研究提出短語擴展方法解決，將在下一節詳述，如例句 3.4.3 和 3.4.4： 31.

(40) 例句 3.4.3：Holding a similar upbeat attitude, Chang Chih-yuan, secretary general of the Allied Association for Science Park Industries, said that he is delighted by the announcement of the Ma-Xi meeting and hopes that Ma will bring back good news after meeting with Xi. 例句 3.4.4：DPP Legislator Chao Tien-lin , who serves as the director of the DPP's China affairs department, said Ma should be clear on whether he has made any concessions on cross-Taiwan Strait relations. 連接詞有很多種類，我們採取以下兩類和名詞比較相關的連接詞，一種是對等連接詞，例如：「and」、「but」、「or」、「nor」、「for」、「so」、「yet」。對等連接詞(Coordinate Conjunction)是用來連接句子中的字、片語或子句。這種連接詞所連接的兩端必須是對等的；「字」和「字」、「片語」和「片語」或「子句」和「子句」，例如例句 3.4.5：Tsai and Chu accused each other of having made unpractical promises about the issues during their respective visits to the US last year. 其中 Tsai 和 Chu 是字，and 是對等連接詞。. 另一種是相關連接詞，例如：「either… or」、「neither… nor」、「both … and 」、「with」。相關連接詞(Correlative Conjunctions)與對等連接詞類似，也是用來連接兩端對等的元素，唯一不同的是相關連接詞必須成對使用。. ˙標點符號相關資訊標點符號相關資訊部分的特徵值，考慮實體與逗號和雙引號的距離，同文句組成相關資訊的設定，距離三個實體的位置，其中雙引號包括" "、「」或“ ”。. 第五節. 後置處理程序. 後置處理程序包含指代消解、確認指示動詞、擷取意見持有者、短語擴展四個部分。分析意見持有者辨識測試資料輸出模型的結果，若意見持有者表示為人稱代名詞的情形，則解決指代的問題，找出真正代表意見句的持有者，確認指示. 32.