• 沒有找到結果。

域有相當大的關係(張育蓉,2012;Dave et al., 2003; Liu, 2012; Pang & Lee, 2008a;

Pang et al., 2002)。意見探勘一詞最早出現於 Dave 等人(2003),而情感分析一 詞最早則見於 Nasukawa 與 Yi(2003)。有趣的是,和意見或情感有關的研究在 更早之前就已經開始(Das & Chen, 2001; Pang et al., 2002; Turney, 2002)

(一) 何謂「意見」?

「意見」由五個主要的元素所構成,如第 1 式(Liu, 2010; Liu, 2012;

Moghaddam & Ester, 2012)。

(1) 1. 持有者(Holder; hi

2. 目標個體(Target Entity; ej) 3. 個體的屬性(Entity Aspect; ajk) 4. 時間(Time; tl

5. 情感取向(Sentiment Orientation; soijkl

第 1 式可以用文字的形式解釋為「意見是由持有者 hi在時間 tl對目標個體 ej的屬性 ajk所表現的情感取向 soijkl」。其中,目標個體及個體的屬性都可以被稱 為意見目標(Opinion Target)。

首先,我們所分析的意見來源是網路論壇的文章,其意見持有者應為該文章 的作者(Liu, 2012; Pang & Lee, 2008a)。雖然文章中可能包含引用句,或是陳述 事實,但我們認為這些用法也是該作者為了輔助表達自己的意見而使用。因此,

在本研究中我們不考慮意見持有者的問題。

Classification)。Pang & Lee(2008a)認為,情感分類一詞可以指任何探討情感 取向的分類問題,包含兩類別分類、多類別分類、迴歸分析,以及排名等,而將 情感取向分為正面/負面兩個類別,或是包含中立在內的三個類別,則又稱為意 見的極性分類(Polarity Classification)。情感分類是目前意見探勘領域最廣為研 究的主題(Liu, 2012; Pang & Lee, 2008a),其問題與方法將在稍後做介紹。

另一方面,在進行意見的情感分類時,常常有許多非必要的詞彙存在於大量 文字中,而這些詞彙對意見並無影響,只會使分析變得複雜;相對地,在文字中 所包含的一些能夠表現情感或意見的詞彙則相當重要,是用來判斷該意見的情感 取向的依據,這些詞彙被稱為意見詞(Opinion Words; Sentiment Words)(Ding et al., 2008)。為了要專注於分析意見詞彙,將意見詞蒐集成詞彙列表是一個重要的 工作,而意見詞彙列表則稱為情感詞庫(Sentiment Lexicon)(Liu, 2012)。

綜上所述,本研究所關心的重要元素為意見的目標個體和情感取向,而必須

稱為屬性層次(Aspect Level; Feature Level)(Ding et al., 2008; Liu, 2012; Pang &

Lee, 2008a; Su et al., 2008)。本研究的情感分類屬於文件層次以及語句層次,並 不探討屬性層次的意見探勘。

不論是文件層次或是語句層次的意見探勘,情感分類都是主要的研究主題

(Liu, 2012; Pang & Lee, 2008a)。情感分類關心的主要問題是:給定一篇文章或 一個句子,判別該文章或句子的情感取向為正面或負面(或加上中立)。Pang 等 人(2002)將電影意見評論在文件層次分類為正負兩類。Turney(2002)蒐集意 見評論網站 Epinions3中的評論,分類為正負兩類。Na 等人(2004)則是分析產 品評論,並同樣分類為「推薦」(正面)與「不推薦」(負面)兩類。Dave 等人

(2003)將從 C|NET4與 Amazon5的產品評論切割為句子以進行意見的分類。

Demartini 與 Siersdorfer(2010)蒐集 3 個主流的搜尋引擎(Google、Yahoo!6、 Bing7)對 14 個爭議性議題的搜尋結果,並分別探討以詞庫為基礎的情感評分方 式和 SVM 的分類方式在結果上的不同。

由於近年來微型部落格(Microblogging)的發展,情感分類的研究領域有逐 漸往這方面發展的跡象。Pak 與 Paroubek(2010)分析推特(Twitter)上使用者 推文的情感取向(Tweet),並分類為正面/負面/中立三類。Kouloumpis 等人

(2011)分析的資料來源為推特,所以直接將每一則推文視為一個句子,並將其 分類為正負與中立三類。張育蓉(2012)從 Plurk 和圖書館討論區蒐集意見的文 章,並在斷句後分類其情感取向。

3 http://www.epinions.com/

4 http://www.cnet.com/

5 http://www.amazon.com/

6 https://www.yahoo.com/

文件層次的主觀分析(Pang & Lee, 2008b; Yu & Hatzivassiloglou, 2003),但整體 而言,語句層次的主觀分析較為重要且常見。然而,主客觀和意見的有無並無絕 對的關係(Liu, 2010)。對於本研究的目的而言,產品的意見是優先於主觀和客 觀的。我們認為,在一篇網路論壇的文章裡,不論是陳述客觀意見或是表達主觀 意見,都是作者企圖表示對該產品的意見。因此,本研究將不考慮主觀分析。

不論是中文或英文,比較句和反諷句一直都是語句層次較難以處理的問題

(張育蓉,2012;Liu, 2012)。我們認為中文的反諷句尚未存在一個可自動化的 辨識方法,因此本研究將不討論反諷句。過去關於比較句意見探勘的文獻多是探 討比較的意見目標雙方的關係,如 Ganapathibholta 與 Liu(2008)探討比較句中 意見持有者的偏好為何者。其定義了以下四種比較句:

1. 不對等的分級比較句(Non-equal Gradable)是指偏好一方優於另一方 的比較句。如:

「我覺得 iPad mini 比 Galaxy note 3 好。」

2. 對等比較句(Equative)是指偏好一樣的比較句。如:

「我覺得 iPad mini 和 Galaxy note 3 一樣好。」

3. 最高級比較句(Superlative)是指偏好一方優於其他全部的比較句。如:

「iPad mini 是我心目中最好用的平板。」

4. 不可分級的比較句(Non-gradable)是指沒有表示偏好的比較句。

「iPad mini 在使用上跟 Galaxy note 3 還是有點不一樣。」

詞庫特徵或一字詞(Unigram)(張育蓉,2012;Demartini & Siersdorfer, 2010;

Kouloumpis et al., 2011; Pak & Paroubek, 2010)、多字詞(N-gram)或搭配詞

(Collocation)(張育蓉,2012;Dave et al., 2003; Kouloumpis et al., 2011; Pak &

Paroubek, 2010)、詞性數量統計(Kouloumpis et al., 2011)、語句結構特性(Liu &

Seneff, 2009)等等。

詞庫特徵是指以情感詞庫為基礎計算的特徵。其中一種方式是統計該文章或 句子中的正負意見詞彙數量,並依此計算出一個分數。另一種方式則是將詞庫中 的每一個詞彙皆作為一個特徵,也就是代表該詞彙有出現(特徵值為 1)或沒有 出現(特徵值為 0)在這一篇文章或句子中,此計算方式為二元法。另外也有計 算 TF-IDF 的方式。TF-IDF 是過去在資訊檢索領域經常被使用的計算方式,其算 法是詞頻(Term Frequency; TF)與逆向文件頻率(Inversed Document Frequency;

IDF)的乘積。TF 是指一個字 w 在文章 d 內的出現次數除以 d 的總字數,所以

(Support Vector Machine; SVM)分類(張育蓉,2012;Dave et al, 2003; Demartini

& Siersdorfer, 2010; Pang et al., 2002)、簡單貝氏(Naïve Bayes)分類(張育蓉,

(K-nearest Neighbor; KNN)分類(張育蓉,2012)、最大熵(Maximum Entropy;

ME)分類(Pang et al., 2002)、AdaBoost.HM 分類(Kouloumpis et al., 2011)等 相當多種方法。以下將介紹本研究採用的 SVM 分類、簡單貝氏分類器,以及

詞辭典(NTU Sentiment Dictionary; NTUSD)(Ku & Chen, 2007)是以 General Inquirer8(GI)與 Chinese Network Sentiment Dictionary(CNSD)作為種子詞彙 表,並以同義詞詞林(梅家駒等人,1982)和中央研究院的中英雙語知識本體詞 網9(Academia Sinica Bilingual Ontological WordNet; BOW)做同義詞擴充而成。

NTUSD 共計有 20,595 個意見詞彙,分別為 9,365 個正向詞與 11,230 個負向詞。

目前適用於中文的情感字典尚有知網10(HowNet)創建者董振東先生於 2007 年 發布的情感分析用詞語集(beta 版)(Chinese/English Vocabulary for Sentiment Analysis; HowNet-VSA)。HowNet-VSA 有提供中文與英文兩種語言的詞彙,每 種語言都分為六個類別,其中中文的詞彙數量統計分別為:正面情感詞語 836

8 http://www.wjh.harvard.edu/~inquirer/

9 http://bow.sinica.edu.tw/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

本研究而言,蒐集而來的情感詞庫有重新定義情感取向的必要。此外,即使是同 一領域,同樣的意見詞也有可能是不同的意思。這樣的關係與屬性層次的意見探 勘有關。當同一個意見詞用來指不同的屬性時,其產生的情感取向可能會不同

(Ding et al., 2008)。比如:

「這支手機的電池可以用很久。」

「這支手機的瀏覽器讀網頁讀很久。」

前者的「久」是正面意義,但是後者的「久」卻是負面意義。從廣義的角度 來看,這樣的現象並不僅存在意見詞跟屬性之間。當意見詞與其他詞彙共同出現 卻能夠表現出特定的情感取向時,則稱這樣的現象為搭配詞(張育蓉,2012)。

Church 與 Hanks(1989)的 PMI(Pointwise Mutual Information)可用來計 算兩個字 w1與 w2之間的獨立性,其計算方法為:

(4) P(w1, w2)表示 w1與 w2同時出現的機率,P(w1)表示 w1出現的機率,P(w2)表 示 w2出現的機率。當 PMI 值為 0 時,代表兩個字相互獨立,也就是其中一個字 的出現不會影響另一個字的出現;而 PMI 越大代表兩個字越容易共同出現;反 之 PMI 越小則代表兩個字越不容易共同出現。因此 PMI 可被用來尋找適合特定 領域用的搭配詞(Popescu & Etzioni, 2005)。

Turney(2002)根據 PMI 演變出 SO(Semantic Orientation)的計算方法。

SO 是計算一個未知情感取向的字 w 與正面意見詞的 PMI 和 w 與負面意見詞的 PMI 的差,其算法為:

(5) 此處的 w+與 w-代表已知為正向和已知為負向的意見詞,在 Turney(2002)

的文中分別以「excellent」和「poor」為例。當 SO 大於 0 時,代表 w 是正面意 見;反之,當 SO 小於 0 時,代表 w 是負面意見。因此 SO 可用於重新定義意見 詞的情感取向(Turney & Littman, 2002)。

(張育蓉,2012;Das & Chen, 2001; Ding et al., 2008; Liu, 2010; Liu, 2012; Na et al., 2004; Pang & Lee, 2008a; Eirinaki et al., 2012)。否定詞很容易就能顛覆一個意見 的情感取向(Liu, 2010),如「好」和「不好」;「差」和「不差」。程度副詞是另

Lin 與 Chao(2010)分別探討規則式以及機器學習的辨識方法於擷取部落格 中關於旅遊的意見與旅遊景點,也就是意見目標。在蒐集資料的時候,其發現在

Ma 與 Wan(2010)則採用定心理論(Centering Theory)的規則搜尋在辨識 新聞評論中可能的意見目標,接著將這些可能的意見目標評價並排序,以取得最 有可能的意見目標。

有趣的是,我們發現過去的規則式方法之間皆具有共同的關鍵要素。在 Lin 與 Chao(2010)以及 Ma 與 Wan(2010)的規則中,皆具有相同的概念,指出 之前提過的意見目標可能是當前句子的意見目標,惟前者採用前五句,後者僅採 用前一句。又,在 Lu(2010)和 Ma 與 Wan(2010)的規則中,皆指出句法結 構對於意見目標辨識的重要性,乃是主詞的重要性大於受詞,最後才考慮句子中

相關文件