緒論 - 結合監督式及非監督式方法進行新聞文章意見持有者辨識之研究

第一節研究動機

隨著網路蓬勃發展，大量的資料湧進網際網路中，使用者可以方便地獲得感興趣的資訊，更能夠透過公開平台發表意見。意見是指人們對於事物所產生的看法或想法，大家都意識到意見的重要性，但是對於意見的定義卻沒有達成一致性，

這些意見多半屬於非結構化資訊(Unstructured Information)，因此如何有效率地從中提取可用的資訊就成了相當重要的議題。

人們無法逐字閱讀所有日積月累的大量資訊，意見探勘(Opinion Mining)幫助我們自動地從大量的意見中找出感興趣的資訊。Kim 和 Hovy [1]在 2004 年的研究中提出意見句可分為四個部分，包括意見主題(Opinion Topic)、意見持有者 (Opinion Holder)、意見主張(Opinion Claim)及意見情感(Opinion Sentiment)，意見主題為評論的目標，表達此意見的人或組織稱為意見持有者，持有者對於此意見的主觀性看法為意見主張，以及意見的詞彙強度為意見情感。例句 1.1.1 具有主張性但無意見情感字眼，意見主題為中國南海爭議(South China Sea disputes)、意見持有者為台灣(Taiwan)、主張和平地解決問題(peaceful resolution)。意見持有者常以單詞或詞組的形式出現，但有時意見持有者為文章作者，如例句 1.1.2 針對例句1.1.1 而發表評論，此部份會依標記者定義的不同而產生差異性。

例句1.1.1：Taiwan calls for peaceful resolution of South China Sea disputes.

例句1.1.2：Taiwan's government would be pleased to see regional peace and stability.

意見持有者對於議題的主觀情感可以分為正向、負向和中立，其中依照表達強度又可細分為顯性(Explicit)與隱性(Implicit)的表達方式，因為並無標準的規範

，現今部分的研究依照經驗法則(Heuristic Rule)，使用大量的口語和正確文法句子做分析，其結果差異相當地懸殊，故本研究不加以討論表達明確性。

如果能夠大量地自動分析文章中的意見情緒，並完善地做到意見持有者辨識

，了解個人或組織對於某個議題的看法，可以幫助人們在海量的資訊中篩選意見，

不論是政治、經濟和文化等議題，都能夠即時掌握大眾意見。

第二節研究目的

本研究希望從線上英語新聞語料中辨識出意見持有者，英語新聞在時態的表述上具有一特殊性，即英文善用歷史現在時式(Historical Present Tense)，也就是用一般現在時式代替過去時式，以強調消息的現實性與真實性。新聞語料與一般文本的不同，在於新聞語料中的意見句少有主觀的陳述或帶有情緒的字眼，必須在前置處理程序做得完善，才能有效地辨識出意見持有者。

辨識過程視作序列標記(Sequential Labeling)的工作，將意見句定義成數個字詞的組合，S = {W1W2W3…} S 為意見句，Wi為單一字詞，其中意見持有者的候選字詞H = {Wi Wi+1 Wi+j ，j 為≧0 的整數}，因為意見持有者可能為單個字詞或連續之字詞；或者意見持有者為文章作者H = {Ø}，即不以字詞出現在句子中，

本研究希望盡可能辨識出意見句中的持有者單詞或詞組。

意見持有者

文章作者代表詞

具名實體

人名地名組織名

代名詞名詞片語

圖 1.2.1 意見持有者的類別樹狀圖

經過觀察語料庫可歸類出六大類意見持有者類別：文章作者、人名、地名、

組織名、代名詞、名詞片語，圖1.2.1 為意見持有者的類別樹狀圖。首先根據意見句中的意見持有者，是否會以代表詞的形式出現，判斷意見句是否為文章作者。

本論文代表詞指的是具名實體辨識系統所得到的人名、地名與組織名，此外，代名詞為人稱代名詞，例如：he、she、they…，名詞片語則包括職稱名，例如：analyst、

expert、mayor…。此工作對於使用新聞語料是具有挑戰性的，因為報紙聚集了不同方面的人或組織的各種意見以及大量的未知具名實體(Unknown Named Entity)

，這表示意見持有者辨識的工作是相當重要，它有助於分析人們對社會議題的想法與議論。

第三節問題挑戰

意見語句辨識(Opinionated Sentence Recognition)的目的在於辨識當前句子是否帶有主觀性(Subjectivity)，如果是，則表示這一句子是意見句，可能存有意見持有者；反之，則代表該句是客觀性(Objectivity)事實的陳述句，句中不包含意見情感，此過程幫助判別一個句子是否為意見句。在原始語料中少有已經包含對整個句子極性的標記，研究者必須將句子裡的所有字彙分為正、負向及中立的標記，處理時依照不同需求，將句子標記成理想結果。

指代消解(Coreference Resolution)的問題是意見持有者辨識的一大挑戰，文章為了避免重複的字詞出現，而導致語句結構冗贅和語意不清晰，或者想要簡化稱呼，所以會使用代詞(Pronouns)或是普通名詞(Common Nouns)來代替已經出現過的先行詞(Antecedent)。由於意見持有者很多情況下是以人稱代名詞的形式表現出來的，而如果把代詞直接提取出來做為意見持有者給使用者，顯然是沒有任何意義的。因此在進行意見持有者辨識之前，首先要進行人稱代名詞的指代消解。

意見持有者的辨識通常以單詞為結果，也有以詞組的形式出現，如冠詞、分詞片語、連接詞、標點符號或複句。標記者對於語料的歧異標記，也是影響準確度的關鍵問題，可能會被標記出多個意見持有者答案，如何從候選詞中挑選出正確答案也是一大挑戰。

標記意見持有者辨識語料時，不同的標記者的結果會產生歧異性，以例句 1.3.1 為例：

例句 1.3.1 ： Speaking to U.S. government officials, scholars and industry representatives at the defense conference, the DPP said that military personnel at the proposed command will be equipped with skills to manage and maintain websites and protect them from virus attacks, which will improve their job prospects in the information and communication industry after they retire from the military, the report said.

例句 1.3.1：學者和業界代表在國防會議上與美國政府官員對談，民進黨說，軍事人員在提議的命令下將培育技能來管理和維護網站，並保護他們免受病毒攻擊

，這將增進他們從軍隊退役之後資通產業的就業前景，該報告稱。

在例句1.3.1 中以底線標示可能的候選詞，粗體表示標記者的判定，一位標記者認為該句的意見持有者為「民進黨」，另一位標記者則認為是「該報告」的文章作者所引述，兩種說法都沒有對錯，因此文句中可能會被標示出多個意見持有者結果，對於原始語料庫的標記處理就顯得額外重要。

對於指代消解的處理，需要考量當前字詞應該指代到哪個具名實體，例句 1.3.1 中的「他們」必須指代到前面的「軍事人員」，否則會造成辨識的結果意義上的錯誤，現今已有各種解決指代問題的方法。以詞組為意見持有者答案的情況，

分詞片語的選取範圍也為重要考量，為了考慮到意見持有者答案的完整度，如何在前後字詞的範圍內正確地擷取，才具有完整的意義，間接影響到整體辨識過程的準確性。

第四節論文架構

本篇論文共分成五個章節，第一章是緒論，說明研究動機、目的與需要挑戰的問題，第二章是相關研究探討，介紹過去研究不同的方法，第三章詳細說明本研究提出的方法，第四章進行實驗與討論結果，第五章是結論與未來展望。

在文檔中結合監督式及非監督式方法進行新聞文章意見持有者辨識之研究 (頁 9-13)

緒論

第一節 研究動機

第二節 研究目的

第三節 問題挑戰

第四節 論文架構

第一節研究動機

第二節研究目的

第三節問題挑戰

第四節論文架構