• 沒有找到結果。

第二章 相關研究探討

第一節 情緒語意分析

情緒分析是指透過自然語言處理的方式,找出作者在特定語料中的主觀意見 或是情緒,並把該觀點分類到正向或負向類別。通常這些觀點出現在特定的詞 彙,透過分析這些資訊,給予正確的分類,就能找出文章的語意傾向。情緒分析 相當實用,且結果往往富含重要資訊。Trindade 等人(2013)說明常見的情緒分 析目標包含:

1. 主觀意見的分類:決定一份文本中是否包含主觀的意見。

2. 極性的分類:找出一份文本是否包含正向、中性、或是負面的性質。

3. 極性強度的分類:決定該意見的方向(極性)以及相對應的強度。

4. 情緒特徵的分析:找出含有表達意見或是情緒的層面,並決定極性。

而將情緒分析應用在電影領域,古今中外已經有相當多學者做了研究。本論 文直接切入電影領域,分成英文和中文部分來討論。

英文方面,Singh 等人(2013a)說明一般情緒分類的作法大致上可以分成三 類:第一類是使用機器學習的文字分類器,像是 Naïve Bayes Classifier(John &

Langley, 1995)、SVM(Vapnik, 1995)或是選取適合特徵的 KNN 演算法(Altman, 1992)。第二類是使用非監督的方式,擷取語料中相關的 n-grams(Manning &

Schütze, 1999),接著將它們標記成正向或是負向。第三類是使用標記了正向、負 向、中性分數等公開可用的語料庫,像是 SentiWordNet(Esuli & Sebastiani, 2006)

等。他們嘗試第三類也就是以 SentiWordNet 為基礎,找出文章中的特定語意特徵,

包含以下 4 種組合:

1. 單獨找出文本中的 adjective 詞性。

2. 找出文本中 adjective+adverb 的組合,兩者的權重和參數相同。

3. 找出文本中 adjective+adverb 的組合,兩者的權重和參數可變。

4. 找出文本中 adjective+adverb 的組合,adjective 的權重較高。

接著將這些詞性組合與 SentiWordNet 中詞彙的分數作比較,最後透過判斷正 向或是負向的分數高低,將一篇文字語料分類到正面或負面。

Singh 等人(2013b)再次針對電影評論作情緒分析。這次分成:全文的情緒 分類與特定層面的情緒分析。全文的情緒分類承接上一篇 Singh 等人(2013a)的 研究,新增一種新的語意特徵「結合 adjective+adverb 與 adjective+verb」,也就 是同時考慮形容詞和動詞,再給予一個總分。考慮多種詞性組合將比考慮單一詞 性組合的結果更理想。而特定層面的情緒分析部份,Parkhe 等人(2014)也作了 類似的研究。在一篇電影評論中,常常可以看到作者針對不同的層面發表意見:

像是「剪輯」、「拍攝」、「劇本」等部份。每一部電影的主打可能不同,在評論中 遇到評論某些部份較優秀、某些部分較普通的情況是相當常見的,這代表正面和 負面的意見會在一篇文章中夾雜出現。針對層面作分析的好處是可以知道該部電

影有哪些部分最值得觀賞(正向極性分數較高)。此外透過給予選定的層面評分 並對整篇評論做出總結,可以發現和全文的情緒分類結果是一致的。

Mouthami 等人(2013)認為情緒詞彙的極性是一種模糊的概念延伸。意思是

「正面」、「負面」、「中性」並沒有給人一種明顯區分邊界的感覺存在,為了處理 這種情緒極性的問題,他們應用模糊集理論。首先定義「正面」、「負面」、「中性」

三種模糊集,接著應用現有的模糊分類方式建立關係函數。Koncz 等人(2011)

設計了一個計算方法,相比於資訊獲利(Information Gain)的算法,提高了屬性 的權重,降低了文件數。好處是比起原來的公式更能符合電影領域的特性。雖然 就效能而言比使用外部語料庫的方法差,但在計算和演算法的複雜度上都更低。

此外唯一需要的資料只有測試的文件,不需要使用外部的語料庫。

中文電影評論的方面,陳立(2010)提出了一個自動分類文章語意的方法。

首先找中文裡常用的否定句型語法結構:像是「副詞+否定詞+形容詞」的組合,

例如「很不流暢」。接著抓取出否定詞後的形容詞「流暢」,定為正向種子詞彙。

整理後放入語料庫,收集出現次數頻繁且差異性夠大的詞彙,透過迭代訓練擴充 種子所形成的語意集,直到詞庫不再變化。而根據句子中正向字與負向字的多 寡,便可以為文章分類。

邱鴻達(2011)使用人工標記意見詞的方式,探索哪些詞性組合可能表達意 見,利用這些詞性組合序列自動辨識更多意見詞。詞數及出現頻率展示如下表 1。

可以看出帶有極性的詞彙,出現在文章中時是有跡可循的。

表 1:邱鴻達(2011)展式意見詞詞性統計(邱鴻達, 2011)

圖 1:剖析的範例(張莊平, 2012)

陳昱年(2013)根據邱鴻達(2011)的詞性組合,透過中文語法中的結構找 出情緒詞彙可能出現的位置。將找出的詞彙設定為種子詞彙,透過教育部國語辭 典,產生同義詞和反義詞的擴充。鑒於成語和諺語可能無法從字面上推斷意義,

因此以詞彙的字數分類為(1)1 到 3 個字的處理方式,是於第二部分引入 NTUSD 且做模糊比對;(2)4 個字以上的詞彙則是使用教育部線上詞典,擷取出注釋部 分,從中分析出正負向極性。