• 沒有找到結果。

文章心情偵測相關研究

第二章 文獻探討

2.1 文章心情偵測相關研究

「文章心情偵測」是指當人寫作或閱讀一篇文章,大腦思考後產生對文字敘 述的認知,進而產生心理的反應,譬如喜、怒、哀、樂;有些研究著重於寫作者 的心情如何反映在文字上、有些則是著重於閱讀者從文字中感受到的心情。本節 將介紹與文章心情偵測的相關研究:在2.1.1節中概述以部落格文章為資料來 源,以作者心情為偵測目標的研究;在2.1.2節介紹以新聞文章為資料來源,以 讀者心情為偵測目標的研究;2.1.3節介紹採用影評為資料來源,以影迷對電影 的評價為偵測目標的研究。

2.1.1 部落格文章

目前線上已有不少提供部落格服務的網站,而在部落格中常見的一項功能為 功能為提供作者在發表文章後,能為自己的文章標記一個心情標籤,讓其它讀者 或往後檢視自己部落格文章時,能知道當時作者的心情(如圖 2 所示),也提供依 心情標籤分類的文章列表供讀者選取(如圖 3 所示),而要如何以文章的文字訊息 就能去預測出作者在寫作時可能的心情狀況,為此類型研究的主要目標。

6

圖 2 部落格文章編輯的心情標籤 資料來源:部落格(blog.udn.com)

圖 3 心情標籤文章列表 資料來源:部落格(blog.udn.com)

7

本節將在部落格文章內依詞彙、文章特徵、時間序列三種不同方向的部落格 文章心情偵測研究再作更詳細的說明。

1. 詞彙心情強度:

在Building Emotion Lexicon from Weblog Corpora[6]一文中,以Blog 文章與其心情標籤作為資料,提出要以詞彙與心情計算出詞彙w在心情e中 Mutual Information)是用來計算兩個詞彙(t1、t2)間的結合程度

(2)

P(t1)為詞彙t2 出現的機率,P(t2)為詞彙t2 出現的機率,P(t1&t2)為此兩詞彙 共同出現的機率。算出兩個詞彙之間的PMI值後,試圖要找出是否有哪些詞彙傾

8

向在同一種心情內一起出現,並將此特徵拿來作為預測心情的依據,而結果可以 提升預測的準確率。後續有Yuchul Jung, Yoonjung Choi和Sung-Hyon Myaeng學者 更深入研究,在Determining Mood for a Blog by Combining Multiple Sources of Evidence一文中[10]提出藉由之前所提的特徵值與PMI-IR值一起放到SVM分類 器進行分類,效果明顯優於其它分類方法。

3. 時間序列分析:

Krisztian Balog ,Maarten de Rijke [11]提出了要以時間序列分析的方法檢視 Blog使用者的心情資料,將大量附有心情標籤的部落格文章作為資料來源,將所 有心情的數量變動趨勢依時間序列分析分成(季節性、有特定的變動趨勢、循環 性、以及不規則性等四類),並討論心情與四類間的關係,例如「酒醉」心情標 籤通常出現在深夜、清晨發表的部落格文章;「寒冷」心情標籤就跟著時間一同 變化,越接近冬天數量呈現成長的趨勢,夏天就很明顯的降低;「睏」心情標籤 就隨著每天的早晨與傍晚呈現循環的變動方式。

Gilad Mishne與Maarten de Rijke[12]將部落格作者所選擇的心情以整體數量 的方式來呈現,描繪出在所有時間點每種心情標籤篇數的曲線表,並且與當時所 發生的新聞事件一起觀察其中是否有關聯。而作者發現當 2005 年七月時英國倫 敦地鐵遭到恐怖份子惡意攻擊時,在生氣、難過等心情分類的曲線圖明顯暴增;

作者認為部落格文章心情標籤篇數會受到社會事件影響。

2.1.2 新聞文章

在Emotion Classification of Online News Articles from the Reader's

Perspective[13]中作者提出拿先前Blog所建出的情緒詞彙庫及Yahoo!奇摩新聞當 作資料,以詞彙的bigram (BI)、詞彙的情緒分數(WE)、詮釋資料(MT)、字綴相似 度(AS)、及字彙本身(WD)作為特徵值,將這些特徵值放入LibSVM軟體[14]並使 用特定的參數做測試,得到0.7688的準確率,實驗結果也顯示了SVM優於Naïve

9

Bayes、及其它兩位學者所提出的Passive-aggressive(PA)[15]與Cui's n-gram features(CN)[16]分類法。

Hsin-Yih Lin在Ranking Reader Emotions Using Pairwise Loss Minimization and Emotional Distribution Regression[17]中認為一般心情偵測研究都只預測單一 作者寫作文章的一個心情類別,但若從眾多讀者看完文章後可能產生的心情,應 該要以排名的方式列出各種可能出現的心情類別名次,才能更符合眾多讀者的需 求,並非像先前預測單一作者寫作心情僅用一種預測結果就可滿足。作者採用 SVM以Pairwise Loss Minimization方式處理心情標籤名次上比對的問題,降低失 誤率,再將Support Vector Regression與情緒分配迴歸結合,描繪出可能的各心情 分類頻率比例,最終合併預測出結果。

Sentiment classification of movie reviews using mutiple perspectives[18]的作者 將影評依整體、導演、卡司等三部分做影迷可能對一部影片的評價預測,作者認 為在預測影迷看完影片的心情是正面或是負面前,需要將影評內容更進一步的分 析,才能得到更佳的預測結果。一部電影有人可能對整體評價是正面的,但討厭 其中某個演員的表現,如果不細分很難得到一個客觀的預測結果。作者認為要很 有效率地分析影評可能要藉由更進步的資訊擷取工具,才能更精確的辨識出影評 內容,否則系統效能將受限於此。此篇研究將SVM與優秀的資訊擷取工具

(GATE-ANNIE)[19]結合,將影評分三部分以不同角度預測皆達到不錯的準確率。

2.1.3 影評

相關文件