相關研究探討 - 中文部落格文章之相關性擷取與意見傾向分析之研究

第二章相關研究探討

本章將探討與整理與本論文相關的研究以及他們的實驗方法與成果，本研究相關研究領域為情感分析與機器學習，所使用到的技術分別為斷詞系統、查詢擴展、SVM、情緒分析等，相關文獻說明如下列各小節。

一、 研究背景

(一) 情感分析(Sentiment Analysis)

情感分析主要目的是分類文件或句子中的意見表達的極性為正、負或中立。

常使用的方法是利用情感辭典，或是訓練已經標記好的評論，用於建立情感模型 (sentiment model)。在情感辭典的部分，可以是廣義的情緒詞彙，或者是特定領域的情緒詞彙(Lu and Tsou, 2010)。情感分析的技術是關於辨識和整合使用者表達的情緒或意見。在過去大部分情感分析研究的方法中，可以分成監督式 (Supervised)、非監督式(Unsupervised)和半監督式(Semi-Supervised)。

監督式學習可以由訓練資料中學到或建立一個模式，並依此模式推測新的實 例，例如使用以 Maximum Entropy 為主的機器學習演算法(Li et al., 2009)；使用 Support Vector Machines(SVM)分類微博文章的情感極性(Sui et al., 2012)；而在 Yang 和 Zhou (2011)所提的論文中，作者分析中文句子的語意結構，接著將分析的語意結構依照動詞的句法結構，分成直接和間接的意見，再使用 Maximum

Entropy 演算法學習這兩種特徵，對中文句子進行情緒分析。文章情感分類的非 監督式學習方法則是以辭典為主(Wang and Lee, 2011; Zhai et al., 2010)，Zhang 等 人(2012)提出改善自動化產生情感辭典的方法，並且給予每個詞彙分數。首先利用已知的正負面情感詞彙建立初始的種子詞彙，然後定義代表詞彙的語意極性分數的分數向量，並建立種子詞彙和其他詞彙之間的關連圖，最後根據向量和關聯圖擴充種子詞彙；Wang 等人(2013)使用 lexicon-based 的方法並結合模糊理論，首先將情感詞彙進行強度量化，接著定義分類正面和負面的模糊集合和歸屬函數，

然後透過實驗訓練資料集決定歸屬函數的最佳參數，最後利用模糊分類器對評論進行分類。另外，應用模糊理論在情感分析領域的研究是 Zhuo 等人(2014)提出根據情感程度詞彙和中文模糊語意模型對中文文章進行情感分析。而半監督式學習則是介於監督式與非監督式學習之間，有一部分使用者已經標記好的資料(labeled data)，而剩下尚未被發現的特徵為未標記資料(unlabeled data)，所以半監督式學習的目標是將未標記的資料分類到正確的特徵類別，例如 Zhai 等人(2011)應用半監督式學習於辨識領域的特徵，某些特徵在不同領域有不同意義，例如“picture”

這個詞在相機中代表相片，在電影領域則代表影片。

(二) 機器學習(Machine Learning)

機器學習的理論主要是設計和分析讓計算機可以自動「學習」的演算法。機器學習演算法是一種從數據中自動分析獲得規律，並利用規律對未知數據進行預測的演算法。近幾年有許多極性分類研究使用不同的監督式分類演算法，最常見被使用的方法是 Support Vector Machine (SVM) (Vapnik, 1995)、Naïve Bayesian Classifier (John and Langley, 1995)。雖然其他方法像是 Maximum Entropy (Jaynes,

1957)、Decision Tree(Quinlan, 1993)、Latent Dirichlet Allocation (LDA) (Blei et al., 2003)和 Probability Latent Semantic Analysis (PLSA) (Hofmann, 1999)在過去的研究中也經常被使用，但是 Khan 等人(2009)收集了 336 篇使用機器學習演算法分類文章的相關論文，這些論文發表時間為 2002 年至 2008 年，2008 年使用 SVM 的論文篇數為 45 篇，使用 Naïve Bayesian 的論文篇數為 19 篇，而使用其他機器學習的方法則是 11 篇。在這六年間，SVM 相較其他機器學習方法，具較高的使用率。

使用機器學習的優點在於如果訓練資料品質好的話，就能有很高的正確率，

但是前處理的部分可能需要大量的人工標記資料。相反的，如果是使用辭典進行分析，則能夠簡單的應用在多種領域的文章分類，但是正確率不一定會比機器學習的方法好。因此，在一些論文研究中，整合了情感辭典和機器學習的技術 (Andreevskaia and Bergler, 2008; Qiu et al., 2009)。他們的方法只是使用一般手動標 記的辭典，而 Lu 和 Tsou (2010)進一步將一般的情感辭典使用監督式學習的方法調整，他們將辭典中的詞彙和訓練資料進行比對，計算被標記的詞彙詞性正確率，刪除正確率低於門檻值的詞彙，最後利用修改後的情感辭典取得句子的極性分數當作 SVM 的特徵，該方法的正確率為 75%，比使用其他分類器的方法更好。

二、 斷詞系統(Word Segmentation System)

詞是最小有意義且可以自由使用的語言單位，任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理，中文句子無法像英文字詞之間有空格可做為詞與詞之間的分隔依據，因此必須透過斷詞處理切分出中文字詞，以便做進一步的分析。由於中文詞集是一個開放集合，不存在任何一個詞典或方法可以

盡列所有的中文詞。當處理不同領域的文件時，領域相關的特殊詞彙或專有名詞，常常造成斷詞系統因為參考詞彙的不足而產生錯誤的切分。根據中央研究院資訊科學所詞庫小組的研究指出，在統計上，一篇文章當中約有 3%~5%的詞彙是未知詞，尤其新聞類型的文章更是明顯，因此未知詞的擷取一直是中文語言處理的一項重要且困難的研究課題。

在此本研究使用由中央科學研究院所研發的 CKIP 中文斷詞系統²，此系統統計的材料以輸入文章為主，經過初步斷詞後(Chen and Liu, 1992)，進行未知詞偵測、中國人名擷取、歐美譯名擷取、複合詞擷取、bottom-up merging algorithm，

以及重新斷詞，用以解決文件中未知詞偵測的問題。圖一顯示由 CKIP 中文斷詞系統斷詞後並且被標註詞性的文章。由於本論文採用線上斷詞服務，該系統的簡化詞性標記如表一。其他可以處理中文的斷詞研究還有中國科學院所研發的 ICTCLAS³、Stanford Parser⁴等。

圖一斷詞後並且被標註詞性的文章

2http://ckipsvr.iis.sinica.edu.tw/

3http://ictclas.nlpir.org/

4http://nlp.stanford.edu/software/lex-parser.shtml

7 需求的目標。虛擬相關回饋(Pseudo relevance feedback)是目前很常使用的查詢擴展技術，其基本概念為從初始相關文件排名中，擷取相關程度較高的前 N 名文件中的詞彙作為擴充詞彙，加入初始查詢詞彙中，期望擴充後的查詢詞彙能讓查詢 執行結果更佳(Li et al., 2008)。Tu 等人(2008)提出的擴充方法是使用 K-Means 將 文件集分群，透過 Pat-tree-based 的方法自動從文件分群擷取長度少於四個字的詞彙。Luo 等人(2010)從初始查詢結果擷取權重排名較高的詞彙，方法是計算在相

關文章中的詞彙和查詢詞彙之間的 Google similarity distance (Cilibrasi and Vitanyi, 2007)。

四、 支援向量機(Support Vector Machine, SVM)

支援向量機(Support Vector Machine, SVM)是一種監督式學習的方法，由學者 Vapnik (1995)提出的一種由統計理論發展出來的機器學習技術，SVM 的原理為將自變數與應變數從原本非線性對應關係，提升到高維度之向量空間中，稱為特徵空間(feature space)，在此空間中透過最佳化之工具尋找超平面(Separating Hyper plane)，將資料分隔成兩類，使得特徵空間中兩類模式之間的距離最大以達到分類效果最佳。SVM 目前為被廣泛運用在分類問題上的數學工具，近年來常應用於資料探勘、影像辨識、文字分類等領域，在自然語言處理領域中更涉及了語意分析、詞性標記、未知詞辨識等，結果都有相當不錯的準確率。

相較於其他分類器，SVM 的優點為(林揚書, 2009)：

1. 即使在高維的特徵向量空間下，效能仍然很好。

2. 核心函數能將資料映射到更高維的空間，而不會增加計算複雜度。

3. 可以使用少量樣本得到最佳解。

4. 非線性資料的效能優越。

SVM 的缺點為：

1. 測試資料數量過多時，需要花費較多的時間。

2. 隨著訓練資料數量線性成長，可能造成過度調適（overfitting）的問題，

並且浪費計算時間。

3. SVM 的誤差參數 C 對結果有很大的影響，但是參數只能透過猜測各種可能值的方式，得到最佳的結果。

4. 無法得到機率式的預測。

SVM 主要以輸入的訓練資料(Training Data)於特徵空間中找出超平面，使得兩類型資料距離最大化，將資料分隔成兩個或多個同類別(Class)資料。假設有一個超平面可以將 +1 及-1 的資料加以區分，則此超平面就可稱為區分平面 (Separating Hyperplane)，若在此超平面上的 x 必須滿足：

 0



 x b

w

(1)

其中 w 為超平面的法向量，x 為樣本，b 為偏移值(bias)。而 SVM 的目標是 要在高維度的特徵空間中，找出一個具有最大邊界(margin)的區分平面來隔開不同類別的資料，如圖二將資料( 與 )分成兩類。

圖二支援向量機

資料來源：石琢暐(2011)

若訓練資料為

( x

₁

, y

₁

), ( x

₂

, y

₂

),..., ( x

, y

),..., ( x

, y

)

，

x

 R

^d ，

y

  

¹^,





，

i=1,…,n，d 為維度存在可以將資料分為兩類的最佳超平面方程式 y  w  x  b  0

，當訓練資料集合為線性可分之情形，存在一個將資料分為兩類的最佳超平面方程式，

y 表示兩種類別之資料以+1 或-1 標註，以公式(2)(3)表示(黃建銘, 2005)：

1 for

0  



 b y

wx

(2)

1 for

0  



 b y

wx

(3)

由於 SVM 於分類問題上有不錯之成果，所以在文章情感分類的領域中也有許多研究採用 SVM 分類。Zan 等人(2010)使用 k-NN、Naïve Bayes 和 SVM 分類器進行針對數位產品的中文評論情感分類，實驗結果顯示以合併單詞與情感傾向

的詞彙為特徵，SVM 分類器正確率達到 96.47%，比使用所有詞性的詞彙為特徵的方法提高了 3.34%，相較其他分類器的正確率，SVM 分類器正確率也最高。

Zheng 和 Ye (2009)使用 Lurong Li 開發的 SVMCLS2.0 工具完成中文評論的情感分類，其中特徵擷取的方法是使用資訊增益(Information Gain)，其中特徵空間維度

(feature space dimension)為 1000。相較 Ye 等人(2009)使用 SVM 分類英文評論情感的實驗，精確率提高 6.01%，回收率提高 9.37%。而 Huang 等人(2013)辨識情感詞彙極性的方法為根據表情符號建立情感詞彙模組，輸入 SVM 分類器訓練，

精確率為 81.5%。

目前 SVM 的工具很多，本實驗所使用的工具為 LibSVM，由台灣大學林智仁(Chih-Jen Lin)博士等開發設計的一個操作簡單的 SVM 套裝軟件(Chang and Lin,

2008)，可以應用於解決分類問題(C-SVC、n-SVC)、分佈估計(one-class-SVM)以及回歸問題(e-SVR、n-SVR)等，並且提供線性、多項式、徑向基和 S 形函數四種常用的核函數給使用者選擇，可以有效地解決多類問題、交叉驗証選擇參數、對不平衡樣本加權、多類問題的機率估計等。

在文檔中中文部落格文章之相關性擷取與意見傾向分析之研究 (頁 14-23)

相關研究探討

第二章 相關研究探討

 0



 x b

w

( x

, y

), ( x

, y

),..., ( x

, y

),..., ( x

, y

)

x

 R

y

  





i=1,…,n，d 為維度存在可以將資料分為兩類的最佳超平面方程式 y  w  x  b  0

y 表示兩種類別之資料以+1 或-1 標註，以公式(2)(3)表示(黃建銘, 2005)：

1 for

0  



 b y

wx

1 for

0  



 b y

wx

第二章相關研究探討