本章將整理相關文獻,做為本研究方法的理論基礎,第一節意見探勘與情感 分析,說明根據研究目標制定的需求,所使用的方法與結果。第二節意見持有者 辨識的相關研究,探討過去的研究以不同的做法解決此問題。第三節介紹相關研 究所使用的機器學習的方法。第四節說明本研究對於意見持有者辨識的方法。
第一節 意見探勘與情感分析
隨著社群網路的興起,意見探勘與情感分析是近年來熱門的研究主題,
Cambria [2]等人統整過去使用意見探勘的研究方法,介紹一般的做法與近代發展 做法的差異,從關鍵字分析延伸到整體概念式的方法,並說明新聞的資源不僅以 文本的形式表達,更發展成聲音或影像等多型態方式出現。 Kim 和 Hovy [1]提 出的系統裡,並沒有強調對於意見句的定義,他們描述構成意見句的一些要素,
並使用數學模型計算字詞間的正負極性,通過數個詞性分類器產生帶有情感的句 子。
使用機器學習的方法中,Choi 等人[3],結合條件隨機域(Condition Random Field, CRF) [4]與語義標記(Semantic Tagging)的做法辨識意見句,並詳細分析各種 特徵值對於結果的影響,包括錯誤分析的結果。Ku 等人[5]使用支持向量機器 (Support Vector Machine, SVM) [6]從新聞與部落格文章裡,在句子層次和檔案層 次上各自提出演算法,計算情感句的分數,並利用動詞和名詞等特徵值進行分 析。
第二節 意見持有者辨識的相關研究
Das 和 Bandyopadhyay [7]使用孟加拉語系的部落格文章做為實驗語料,透過 SVM 分類器訓練不同主題的語料,利用語法聚類(Syntactic Clustering)的方法分 析主題與意見持有者之間的關係。Elarnaoty 等人[8]使用 CRF 分類器和半監督式
訓練阿拉伯文新聞語料,是最先在此問題中使用阿拉伯語料的研究,並加強分析 特徵值以彌補研究資源的短缺。其他也有針對新聞語料做研究,例如Kim 和 Hovy [9]分析句子的語義結構並進行語義角色標記(Semantic Role Labeling),標示出意 見持有者。Kim 等人[10]則提出基於指代消解的做法利用字彙和語法資訊辨識意 見持有者。
使用句法關係的研究中,[11]、[12]、[13]透過句子的主從關係,先找出謂詞 (Predicate),通常為動詞或形容詞,句子中伴隨的謂詞表示意見持有者的狀態或 行為,對於辨識持有者是一大重要依據。在問答系統(Question Answering System) 中也有學者研究此問題,Kim 和 Hovy [14]使用最大熵排名演算法(Maximum Entropy Ranking Algorithm),透過解析樹取得的解析特徵(Parsing Features),計算 句子中可能的意見持有者與其他字詞之間的距離。
第三節 監督式學習分類器
(一) 支持向量機(Support Vector Machine, SVM)
支持向量機由Vapnik 等人[6]於 1995 年提出,是一種基於統計學習理論的監 督式學習的方法,廣泛地運用於統計分類以及迴歸分析中。以二元分類問題為例,
將每筆輸入的訓練資料視為向量空間中的一個點,其特徵值視為向量空間的維度
。在SVM 的學習過程中,其目標是找到一個特徵空間的分類超平面(Hyperplane),
在完全可分的情況下,使得兩類的訓練資料與分類界線的間隔(Margin)最大化。
支持向量機經常應用於影像辨識與文本分類等問題,本研究將使用Chang 和 Lin [15]開發的套裝軟體 LIBSVM。
(二) 條件隨機域(Condition Random Field, CRF)
由 Lafferty 等人於 2001 年提出的條件隨機域,是一種理想的序列標記鑑別 式機率模型,目前在中文斷詞、詞性標記以及具名實體辨別領域都有相關應用。
如同馬可夫隨機域(Markov Random Field)[16],它指的是一個隨機變數序列按時 間先後關係依次排開的時候,第N+1 時刻的分佈特性,與 N 時刻以前的隨機變
數的取值無關。CRF 為無向性的圖模型,圖中的頂點代表隨機變數。在 CRF 當 中,定義一個條件機率P = ( Y | X ),隨機變數 Y 的分布為條件機率,給定的觀 察值則為隨機變數X。在本研究中代表意見句中的字詞序列:S = {W1W2W3…},
例如序列X = {the, report, said},W1 = the、W2= report、W3= said,Y 為條件機率 的分布,代表意見持有者的標籤序列:例如 H(意見持有者首詞)、I(意見持有者 中間詞)、O(非意見持有者詞),而序列 X 對於序列 Y 的意見持有者標籤為 P = {H, I, O},相關研究經常使用的是 Kudo[17]所開發的套裝軟體 CRF++。
第四節 本研究提出的方法
本研究將意見持有者辨識分成五個部份,首先將前置處理程序做得完善,是 提高辨識準確度的重要環節;接著從語料庫中擷取主觀性情感意見語句,檢查是 否有指代的問題需要解決,並使用機器學習的方式進行辨識文章作者與意見持有 者這兩個部分,後置處理程序分別針對錯誤的結果進行修復動作,最後結合兩部 份結果做為系統最終意見持有者辨識的答案,下一章將詳細介紹本研究意見持有 者辨識的具體方法。