相關研究探討

本章將整理相關文獻，做為本研究方法的理論基礎，第一節意見探勘與情感分析，說明根據研究目標制定的需求，所使用的方法與結果。第二節意見持有者辨識的相關研究，探討過去的研究以不同的做法解決此問題。第三節介紹相關研究所使用的機器學習的方法。第四節說明本研究對於意見持有者辨識的方法。

第一節意見探勘與情感分析

隨著社群網路的興起，意見探勘與情感分析是近年來熱門的研究主題，

Cambria [2]等人統整過去使用意見探勘的研究方法，介紹一般的做法與近代發展做法的差異，從關鍵字分析延伸到整體概念式的方法，並說明新聞的資源不僅以文本的形式表達，更發展成聲音或影像等多型態方式出現。 Kim 和 Hovy [1]提出的系統裡，並沒有強調對於意見句的定義，他們描述構成意見句的一些要素，

並使用數學模型計算字詞間的正負極性，通過數個詞性分類器產生帶有情感的句子。

使用機器學習的方法中，Choi 等人[3]，結合條件隨機域(Condition Random Field, CRF) [4]與語義標記(Semantic Tagging)的做法辨識意見句，並詳細分析各種特徵值對於結果的影響，包括錯誤分析的結果。Ku 等人[5]使用支持向量機器 (Support Vector Machine, SVM) [6]從新聞與部落格文章裡，在句子層次和檔案層次上各自提出演算法，計算情感句的分數，並利用動詞和名詞等特徵值進行分析。

第二節意見持有者辨識的相關研究

Das 和 Bandyopadhyay [7]使用孟加拉語系的部落格文章做為實驗語料，透過 SVM 分類器訓練不同主題的語料，利用語法聚類(Syntactic Clustering)的方法分析主題與意見持有者之間的關係。Elarnaoty 等人[8]使用 CRF 分類器和半監督式

訓練阿拉伯文新聞語料，是最先在此問題中使用阿拉伯語料的研究，並加強分析特徵值以彌補研究資源的短缺。其他也有針對新聞語料做研究，例如Kim 和 Hovy [9]分析句子的語義結構並進行語義角色標記(Semantic Role Labeling)，標示出意見持有者。Kim 等人[10]則提出基於指代消解的做法利用字彙和語法資訊辨識意見持有者。

使用句法關係的研究中，[11]、[12]、[13]透過句子的主從關係，先找出謂詞 (Predicate)，通常為動詞或形容詞，句子中伴隨的謂詞表示意見持有者的狀態或行為，對於辨識持有者是一大重要依據。在問答系統(Question Answering System) 中也有學者研究此問題，Kim 和 Hovy [14]使用最大熵排名演算法(Maximum Entropy Ranking Algorithm)，透過解析樹取得的解析特徵(Parsing Features)，計算句子中可能的意見持有者與其他字詞之間的距離。

第三節監督式學習分類器

(一) 支持向量機(Support Vector Machine, SVM)

支持向量機由Vapnik 等人[6]於 1995 年提出，是一種基於統計學習理論的監督式學習的方法，廣泛地運用於統計分類以及迴歸分析中。以二元分類問題為例，

將每筆輸入的訓練資料視為向量空間中的一個點，其特徵值視為向量空間的維度

。在SVM 的學習過程中，其目標是找到一個特徵空間的分類超平面(Hyperplane)，

在完全可分的情況下，使得兩類的訓練資料與分類界線的間隔(Margin)最大化。

支持向量機經常應用於影像辨識與文本分類等問題，本研究將使用Chang 和 Lin [15]開發的套裝軟體 LIBSVM。

(二) 條件隨機域(Condition Random Field, CRF)

由 Lafferty 等人於 2001 年提出的條件隨機域，是一種理想的序列標記鑑別式機率模型，目前在中文斷詞、詞性標記以及具名實體辨別領域都有相關應用。

如同馬可夫隨機域(Markov Random Field)[16]，它指的是一個隨機變數序列按時間先後關係依次排開的時候，第N+1 時刻的分佈特性，與 N 時刻以前的隨機變

數的取值無關。CRF 為無向性的圖模型，圖中的頂點代表隨機變數。在 CRF 當中，定義一個條件機率P = ( Y | X )，隨機變數 Y 的分布為條件機率，給定的觀察值則為隨機變數X。在本研究中代表意見句中的字詞序列：S = {W1W2W3…}，

例如序列X = {the, report, said}，W1 = the、W2= report、W3= said，Y 為條件機率的分布，代表意見持有者的標籤序列：例如 H(意見持有者首詞)、I(意見持有者中間詞)、O(非意見持有者詞)，而序列 X 對於序列 Y 的意見持有者標籤為 P = {H, I, O}，相關研究經常使用的是 Kudo[17]所開發的套裝軟體 CRF++。

第四節本研究提出的方法

本研究將意見持有者辨識分成五個部份，首先將前置處理程序做得完善，是提高辨識準確度的重要環節；接著從語料庫中擷取主觀性情感意見語句，檢查是否有指代的問題需要解決，並使用機器學習的方式進行辨識文章作者與意見持有者這兩個部分，後置處理程序分別針對錯誤的結果進行修復動作，最後結合兩部份結果做為系統最終意見持有者辨識的答案，下一章將詳細介紹本研究意見持有者辨識的具體方法。

在文檔中結合監督式及非監督式方法進行新聞文章意見持有者辨識之研究 (頁 13-16)

第一節 意見探勘與情感分析

第二節 意見持有者辨識的相關研究

第三節 監督式學習分類器

第四節 本研究提出的方法

第一節意見探勘與情感分析

第二節意見持有者辨識的相關研究

第三節監督式學習分類器

第四節本研究提出的方法