文章心情偵測相關研究

第二章文獻探討

2.1 文章心情偵測相關研究

「文章心情偵測」是指當人寫作或閱讀一篇文章，大腦思考後產生對文字敘述的認知，進而產生心理的反應，譬如喜、怒、哀、樂；有些研究著重於寫作者的心情如何反映在文字上、有些則是著重於閱讀者從文字中感受到的心情。本節將介紹與文章心情偵測的相關研究：在2.1.1節中概述以部落格文章為資料來源，以作者心情為偵測目標的研究；在2.1.2節介紹以新聞文章為資料來源，以讀者心情為偵測目標的研究；2.1.3節介紹採用影評為資料來源，以影迷對電影的評價為偵測目標的研究。

2.1.1 部落格文章

目前線上已有不少提供部落格服務的網站，而在部落格中常見的一項功能為功能為提供作者在發表文章後，能為自己的文章標記一個心情標籤，讓其它讀者或往後檢視自己部落格文章時，能知道當時作者的心情(如圖 2 所示)，也提供依心情標籤分類的文章列表供讀者選取(如圖 3 所示)，而要如何以文章的文字訊息就能去預測出作者在寫作時可能的心情狀況，為此類型研究的主要目標。

圖 2 部落格文章編輯的心情標籤資料來源:部落格(blog.udn.com)

圖 3 心情標籤文章列表資料來源:部落格(blog.udn.com)

本節將在部落格文章內依詞彙、文章特徵、時間序列三種不同方向的部落格文章心情偵測研究再作更詳細的說明。

1. 詞彙心情強度：

在Building Emotion Lexicon from Weblog Corpora[6]一文中，以Blog 文章與其心情標籤作為資料，提出要以詞彙與心情計算出詞彙w在心情e中 Mutual Information)是用來計算兩個詞彙(t1、t2)間的結合程度

(2)

P(t1)為詞彙t2 出現的機率，P(t2)為詞彙t2 出現的機率，P(t1&t2)為此兩詞彙共同出現的機率。算出兩個詞彙之間的PMI值後，試圖要找出是否有哪些詞彙傾

向在同一種心情內一起出現，並將此特徵拿來作為預測心情的依據，而結果可以提升預測的準確率。後續有Yuchul Jung, Yoonjung Choi和Sung-Hyon Myaeng學者更深入研究，在Determining Mood for a Blog by Combining Multiple Sources of Evidence一文中[10]提出藉由之前所提的特徵值與PMI-IR值一起放到SVM分類器進行分類，效果明顯優於其它分類方法。

3. 時間序列分析：

Krisztian Balog ,Maarten de Rijke [11]提出了要以時間序列分析的方法檢視 Blog使用者的心情資料，將大量附有心情標籤的部落格文章作為資料來源，將所有心情的數量變動趨勢依時間序列分析分成(季節性、有特定的變動趨勢、循環性、以及不規則性等四類)，並討論心情與四類間的關係，例如「酒醉」心情標籤通常出現在深夜、清晨發表的部落格文章；「寒冷」心情標籤就跟著時間一同變化，越接近冬天數量呈現成長的趨勢，夏天就很明顯的降低；「睏」心情標籤就隨著每天的早晨與傍晚呈現循環的變動方式。

Gilad Mishne與Maarten de Rijke[12]將部落格作者所選擇的心情以整體數量的方式來呈現，描繪出在所有時間點每種心情標籤篇數的曲線表，並且與當時所發生的新聞事件一起觀察其中是否有關聯。而作者發現當 2005 年七月時英國倫敦地鐵遭到恐怖份子惡意攻擊時，在生氣、難過等心情分類的曲線圖明顯暴增；

作者認為部落格文章心情標籤篇數會受到社會事件影響。

2.1.2 新聞文章

在Emotion Classification of Online News Articles from the Reader's

Perspective[13]中作者提出拿先前Blog所建出的情緒詞彙庫及Yahoo!奇摩新聞當作資料，以詞彙的bigram (BI)、詞彙的情緒分數(WE)、詮釋資料(MT)、字綴相似度(AS)、及字彙本身(WD)作為特徵值，將這些特徵值放入LibSVM軟體[14]並使用特定的參數做測試，得到0.7688的準確率，實驗結果也顯示了SVM優於Naïve

Bayes、及其它兩位學者所提出的Passive-aggressive(PA)[15]與Cui's n-gram features(CN)[16]分類法。

Hsin-Yih Lin在Ranking Reader Emotions Using Pairwise Loss Minimization and Emotional Distribution Regression[17]中認為一般心情偵測研究都只預測單一作者寫作文章的一個心情類別，但若從眾多讀者看完文章後可能產生的心情，應該要以排名的方式列出各種可能出現的心情類別名次，才能更符合眾多讀者的需求，並非像先前預測單一作者寫作心情僅用一種預測結果就可滿足。作者採用 SVM以Pairwise Loss Minimization方式處理心情標籤名次上比對的問題，降低失誤率，再將Support Vector Regression與情緒分配迴歸結合，描繪出可能的各心情分類頻率比例，最終合併預測出結果。

Sentiment classification of movie reviews using mutiple perspectives[18]的作者將影評依整體、導演、卡司等三部分做影迷可能對一部影片的評價預測，作者認為在預測影迷看完影片的心情是正面或是負面前，需要將影評內容更進一步的分析，才能得到更佳的預測結果。一部電影有人可能對整體評價是正面的，但討厭其中某個演員的表現，如果不細分很難得到一個客觀的預測結果。作者認為要很有效率地分析影評可能要藉由更進步的資訊擷取工具，才能更精確的辨識出影評內容，否則系統效能將受限於此。此篇研究將SVM與優秀的資訊擷取工具

(GATE-ANNIE)[19]結合，將影評分三部分以不同角度預測皆達到不錯的準確率。

2.1.3 影評

在文檔中網際網路新聞文章心情偵測之研究 (頁 14-18)

第二章 文獻探討

2.1 文章心情偵測相關研究

2.1.1 部落格文章

2.1.2 新聞文章

2.1.3 影評

第二章文獻探討