緒論 - 網際網路新聞文章心情偵測之研究

第一章緒論

1.1 研究背景與動機

在這資訊爆炸的時代，生活中有愈來愈多管道可以取得五花八門的資訊。

1970 年 Alvin Toffler 於他的著作 Future Shock[1]中首先提到資訊超載的問題，當能取得的資訊已超越人所能負荷的程度，不但對決策無益，甚至進一步造成干擾現象。

每天一大早起床，許多人的第一件事情就是翻閱報紙、或是打開電視接收最新的新聞內容。一天有上萬件新聞被記者所報導，新聞對於許多人來說擁有極高的閱讀價值，2000 年政大新聞系的大學報「網路成學子閱讀新寵閱讀率達二成八直逼報紙側重娛樂影視休閒資訊」[2]中提到大學生閱讀電子報的比例已跟傳統報紙差不多，但在那麼多的電子報中如何以最短時間去篩選出自己需要的、

喜愛的及完全不需閱讀的呢？

1974 年 Katz, Blumler & Gurevitch 所提出的使用與滿足理論[3]中，說明了在三十年前讀者就會主動地去尋找自己所需的資訊。值此網際網路資訊爆炸的時代，每天在電子報網站出現的新聞不計其數，讀者都希望以最短的時間內找到自己所想要看的新聞，正好印證了使用與滿足理論。而電子報網站上預先設定好之

「最多人閱讀的新聞」等格式並非完全符合所有人需求，讀者會主動地尋求自己想要的新聞資訊，並非將媒體所給的資訊照單全收，因此本研究試圖以心情類型為導向替使用者篩選、預測出他們所需要新聞內容，節省使用者在選擇有興趣的新聞時所浪費的時間。

2009 年四月南加大傳播學院數位未來中心(the Center for the Digital Future at USC’s Annenberg School of Communications)的研究發現[4]，隨著線上新聞讀者人數的增加，每個讀者花在線上閱讀新聞的時間也與日俱增，從 2007 年的網路使

用者每週平均 41 分鐘至 2008 年提升至 53 分鐘。此份研究報告提出造成此現象的四個原因是：

1. 分類廣告逐漸轉移至線上；

2. 關心紙本報紙對環境造成的不良影響；

3. 經濟不景氣；

4. 缺乏對紙本報紙感興趣的新讀者。

數位未來中心的總監 Jeffery I. Cole 認為讀者改變閱讀習慣的速度超乎他的預期，由於新一代的年輕人處在資訊社會中，大多數都有使用電腦和網路的習慣，

這些使用者可以在網路上輕易閱讀最新的新聞並且不需付任何費用，導致額外購買紙本報紙的意願低落，造成傳統紙本報紙的新客源逐漸減少，他更認為線上閱讀新聞是未來的趨勢。

2009 年四月中旬，美國建置了一個很特別的「新聞懶人包」網站

(Newsy.com)，他們研究現代人「看電視新聞」與「上網看新聞」的習慣[5]，從以前只有少數幾間電視台到現在有上百台可供選擇，而在網路上有非常多的網站提供不同國家、不同地區各式各樣的新聞，進一步發現現代人都以「跳躍」的方式瀏覽資訊，只想要看自己所感興趣的部份、不斷地轉台、跳過一篇又一篇不感興趣的文章，在這選擇自己所需資訊的過程中浪費了不少時間。「新聞懶人包」

網站因而採用一種主題式的包裝方式，雇用了一個編輯團隊，隨時觀看線上新聞、報章雜誌、電視新聞，然後將這些統整成一個「新聞短片」，當這網站的瀏覽者想要了解某個議題的完整內容時，只需要點選該議題對應的影片就能得到不同媒體、不同角度、不同觀點對於此議題的綜合整理報導。

每個人在閱讀一篇文章時，先看到人類所使用的文字符號，經由腦部思考後理解文字所敘述的主題，進一步由心理產生對這篇文章的感覺(心情)。近年來很流行在部落格發表文章，由於部落格是一個能讓每個人抒發自己情緒的平台，不少部落格提供在文章後面加註心情標記的服務，因此目前的文章心情偵測研究

中，已有不少將部落格文章做為資料來源，以研究作者心情為目標，分析作者心情是否與週遭環境或是季節、月份間的關係，造成在寫作時的心情差異；但卻僅有少數研究以讀者為目標，分析讀者讀完文章後的心情。

知名的入口網站 Yahoo!奇摩提供了線上閱讀新聞的服務，不同於其它提供新聞網站的在於它讓讀者閱讀後能依自己的心情為新聞選擇適當的標籤，並提供讀者可由之前使用者對新聞所加註的心情評價來做為選擇新聞的依據，而不同的新聞內容與讀者閱讀後的心情是否有特別的關係，如何有效率地由新聞內容偵測讀者可能出現的心情，乃是一值得關注的議題。畢竟在這資訊氾濫的時代，光是選擇電子報種類就會讓讀者頭痛，讀者在心情憂傷時通常不想看到會讓自己難過的新聞，在生氣的時候通常也不會想看到令人更加憤怒的新聞。

綜上所述，本研究之目的在於從讀者角度分析網路電子報文章所帶給讀者的感受(心情)，並將網路電子報文章以心情加以分類，讓讀者能根據自己閱讀新聞後想要感受的心情，過濾並找出適合自己心情的新聞文章。

1.2 研究目的

本研究希望在目前不斷成長的線上新聞閱讀人數以及閱讀者閱讀時間的環境下，以心情為導向為使用者過濾掉他們不期望看到之心情的新聞，節省他們在搜尋自己所需要新聞時花費的時間。本研究將利用特徵挑選(Feature Selection) 和支援向量機(Support Vector Machine, SVM)，與Yahoo!奇摩新聞之心情相關資訊結合，期望在新的新聞文章出現時即可預測出讀者看完後的心情，並進一步研究心情與新聞文章分類、時間、詞彙等特徵是否有特殊關係。整體的研究方向如下：

1. 可以對大量的文章進行心情偵測；

2. 找出每個期間內各個心情分類具有代表性的詞彙，並提供給讀者相關新聞題材。

1.3 論文架構

本論文分成五章。第一章說明本研究的動機與目的；第二章介紹文章心情分析相關的研究與方法；第三章敘述新聞文章心情預測系統的設計方式，闡述如何將網路新聞文章處理，導入特徵值挑選並結合LibSVM分類器，將LibSVM分類結果進一步延伸應用；第四章說明實驗結果與分析；第五章為結論與未來改善方向。

研究動機與目的

文獻探討

特徵挑選文章心情偵測研究

研究方法 Support Vector

Machine

Log Likelihood Ratio

系統發展與分析

結論與建議

新聞心情分數自動分類

方式

圖 1 論文架構

在文檔中網際網路新聞文章心情偵測之研究 (頁 10-14)

緒論

第一章 緒論

1.1 研究背景與動機

1.2 研究目的

1.3 論文架構

第一章緒論