• 沒有找到結果。

第二章 文獻探討

第一節 SemEval-2015 Task 12(ABSA)

SemEval (Semantic Evaluation,語意評估)為 SIGLEX(Special Interest Group on the Lexicon)以處理計算語言學所舉辦的研討會,而 2015 年正是該會舉辦的第九 屆。前三次的評估(Senseval-1 到 Senseval-3)主要在探討消除歧義,自 2007 年的第 四屆(SemEval-1)開始演變為包含詞義消歧之外的語意分析的議題。2015 年的研討 會共探討 18 個子任務,而本論文著重研究的則為第 12 個子任務 Aspect Based Sentiment Analysis(ABSA 方面為基的情緒分析)。

該任務又包含三個子任務,分別為

1.Aspect Category(判定所屬之面向類別)。

2.Opinion Target Expression(OTE,意見擷取)。

3.Sentiment Polarity(情緒極性分析)。

該任務分析的三個領域分別為「筆電(Laptops)」、「飯店(Restaurants)」和「旅 館(Hotels)」,前兩項給予訓練資料(training data)進行 In-domain ABSA,而第三項 直接利用測試資料(test data)進行 Out-domain ABSA,比較其優劣。

San Vicente 等學者(2015)利用 Elixa 系統進行研究,該系統是基於 IXA pipes tools(Agerri et al., 2014)和 Weka (Hall et al., 2009)所構成的。利用𝑖𝑥𝑎-𝑝𝑖𝑝𝑒-𝑛𝑒𝑟𝑐 Named Entity Recognition system(https://github.com/ixa-ehu/ixa-pipe-nerc)進行意見

5

擷取,使用 Browm et al. (1992)、Clark(2003)和 Mikolov et al.(2013)三種方法進行 分群,並使用 Weka

library

判定極性後,再利用 SentiWordnet(Baccianella et al., 2010)、General Inquirer(Stone et al., 1966)、Opinion Finder(Wilson et al., 2005)和 Liu’s sentiment lexicon(Hu and Liu, 2004)使極性數值化。

Pontiki et al.(2015)手動給定各領域的實體標籤和特徵標籤並用 SVM 進行分

群,使系統可以找尋關鍵字後給予極性,筆電領域採用{E#A, polarity}的形式,而 剩下的飯店和旅館領域採用{E#A,OTE, polarity}的形式,其中 E 為 entity,例如 Laptop、Mouse、Restaurant 和 food 等;A 為 attribute,例如 Design、Price 和 Quality 等 ; OTE 為 意 見 擷 取 , 可 以 為 普 通 名 詞 例 如 place 、 bed 等 、 複 合 名 詞 如 conference/banquet room、vitello allamarsala 等,或是名詞實體如 The Four Seasons 等。polarity 為極性,其極性值為正向、負向和自然(輕微正向或輕微負向),下圖 1 為該論文提供各領域之詳細的實體、特徵標籤。

Jiménez-Zafra et al.(2015)利用形容詞、主被動詞、名詞和關係代名詞等詞性 圖 1:各領域之實體、特徵標籤(Pontikiet al., 2015)

當作特徵用以分析意見,並用 SentiWordNet(Miller, 1995)、MPQA(Wilson et al., 2005)和 eBLR(Lu et al., 2011)三個字典和 SVM 分析其極性。Garcıa-Pablos et

al.(2015)利用 Liu et al.(2014)的所建構的 aspect-terms 和 opinion-words 進行意見擷 取和語意分析,並用 Word2Vec (Mikolov et al., 2013)計算句子中的詞和屬性間的 距離以用於分群。極性也是利用相同概念:正向的詞與正向詞距離較為相近,反 之亦然的概念,利用正向與 Part-of Speech(POS)的距離減去負向與 POS 的距離,

若為正則屬於正向,小於零則為負向。而 De Clercq et al.(2015)在進行極性分析時 則是用 Pointwise Mutual Information(PMI)(Church and Hanks, 1990) ,也就是正向被 標記出來的頻率減去負向被標記的頻率,大於零則為正向,反之則為負向。

Koppula et al.(2015)在句子的處理上使用兩項規則:

1. 簡化句子(Clean the Sentence)。

2. 分割句子(Slipt the Sentence)。

在簡化句子的處理上除了將冠詞(a, an, the)去掉外,若出現「but」則會在該 字前面加上「,」。因為「but」為轉折語氣,因此由「,」分開成為兩句;而「at」

和「with」的後方三字內如果出現形容詞則會加上「,」。

分割句子就是由「,」和「and」去進行,若是分割後發現該句沒有名詞,則 會利用前一句的名詞;若是沒有形容詞也和上述方法相同。但若是分割後發現名 詞和形容詞皆沒有的狀況,則與前一句合併。接著使用 Wordnet 計算字與字的距 離和經由 SVM 分群後,再利用 TF-IDF 值和 Categorical Probability Proportion Difference(Agarwal et al., 2012)進行情緒分析。

Saias(2015)是利用 MALLET(McCallum,2002)進行分群,意見擷取中發現若是

7

有一個特徵沒有任何屬性,則會找尋出現頻率最多的屬性代替;沒有特徵卻有一 個屬性時也是同樣的處理方式。然而若是同時有多個特徵及屬性時則全數進行配 對。在進行情緒分析時,該研究提供幾項規則進行尋找:

1. 利用 BoW(Bag of Word)將每個分割下來的字作為特徵。

2. 找尋動詞及形容詞。

3. 動詞後面取出 bigram。

4. 紀錄負向詞彙。

5. 負向詞彙後面取出 bigram。

6. 找尋驚嘆號及問號。

7. 依據參考的情緒字典存取極性詞彙(包含正負向)。

8. 是否有極性詞彙出現在驚嘆號或問號的前面。

9. bigram 前後是否出現極性詞。

10. 利用極性詞彙的否定詞判定負向。

11. 最後五個字是否出現極性詞彙。

12. 给與領域、實體型態及屬性的特徵。

這些規則是依循 AFINN lexicon(Nielsen, 2011)、Bing Liu’s opinion lexicon(Liu et al., 2005)和 MPQA subjectivity clues(Wilson et al., 2005)所整理出來的。

相關文件