第一章 緒論
1.1 研究背景與動機
在這資訊爆炸的時代,生活中有愈來愈多管道可以取得五花八門的資訊。
1970 年 Alvin Toffler 於他的著作 Future Shock[1]中首先提到資訊超載的問題,當 能取得的資訊已超越人所能負荷的程度,不但對決策無益,甚至進一步造成干擾 現象。
每天一大早起床,許多人的第一件事情就是翻閱報紙、或是打開電視接收最 新的新聞內容。一天有上萬件新聞被記者所報導,新聞對於許多人來說擁有極高 的閱讀價值,2000 年政大新聞系的大學報「網路成學子閱讀新寵 閱讀率達二成 八 直逼報紙 側重娛樂影視休閒資訊」[2]中提到大學生閱讀電子報的比例已跟 傳統報紙差不多,但在那麼多的電子報中如何以最短時間去篩選出自己需要的、
喜愛的及完全不需閱讀的呢?
1974 年 Katz, Blumler & Gurevitch 所提出的使用與滿足理論[3]中,說明了在 三十年前讀者就會主動地去尋找自己所需的資訊。值此網際網路資訊爆炸的時 代,每天在電子報網站出現的新聞不計其數,讀者都希望以最短的時間內找到自 己所想要看的新聞,正好印證了使用與滿足理論。而電子報網站上預先設定好之
「最多人閱讀的新聞」等格式並非完全符合所有人需求,讀者會主動地尋求自己 想要的新聞資訊,並非將媒體所給的資訊照單全收,因此本研究試圖以心情類型 為導向替使用者篩選、預測出他們所需要新聞內容,節省使用者在選擇有興趣的 新聞時所浪費的時間。
2009 年四月南加大傳播學院數位未來中心(the Center for the Digital Future at USC’s Annenberg School of Communications)的研究發現[4],隨著線上新聞讀者人 數的增加,每個讀者花在線上閱讀新聞的時間也與日俱增,從 2007 年的網路使
2
用者每週平均 41 分鐘至 2008 年提升至 53 分鐘。此份研究報告提出造成此現象 的四個原因是:
1. 分類廣告逐漸轉移至線上;
2. 關心紙本報紙對環境造成的不良影響;
3. 經濟不景氣;
4. 缺乏對紙本報紙感興趣的新讀者。
數位未來中心的總監 Jeffery I. Cole 認為讀者改變閱讀習慣的速度超乎他的預 期,由於新一代的年輕人處在資訊社會中,大多數都有使用電腦和網路的習慣,
這些使用者可以在網路上輕易閱讀最新的新聞並且不需付任何費用,導致額外購 買紙本報紙的意願低落,造成傳統紙本報紙的新客源逐漸減少,他更認為線上閱 讀新聞是未來的趨勢。
2009 年四月中旬,美國建置了一個很特別的「新聞懶人包」網站
(Newsy.com),他們研究現代人「看電視新聞」與「上網看新聞」的習慣[5],從 以前只有少數幾間電視台到現在有上百台可供選擇,而在網路上有非常多的網站 提供不同國家、不同地區各式各樣的新聞,進一步發現現代人都以「跳躍」的方 式瀏覽資訊,只想要看自己所感興趣的部份、不斷地轉台、跳過一篇又一篇不感 興趣的文章,在這選擇自己所需資訊的過程中浪費了不少時間。「新聞懶人包」
網站因而採用一種主題式的包裝方式,雇用了一個編輯團隊,隨時觀看線上新 聞、報章雜誌、電視新聞,然後將這些統整成一個「新聞短片」,當這網站的瀏 覽者想要了解某個議題的完整內容時,只需要點選該議題對應的影片就能得到不 同媒體、不同角度、不同觀點對於此議題的綜合整理報導。
每個人在閱讀一篇文章時,先看到人類所使用的文字符號,經由腦部思考後 理解文字所敘述的主題,進一步由心理產生對這篇文章的感覺(心情)。近年來很 流行在部落格發表文章,由於部落格是一個能讓每個人抒發自己情緒的平台,不 少部落格提供在文章後面加註心情標記的服務,因此目前的文章心情偵測研究
3
中,已有不少將部落格文章做為資料來源,以研究作者心情為目標,分析作者心 情是否與週遭環境或是季節、月份間的關係,造成在寫作時的心情差異;但卻僅 有少數研究以讀者為目標,分析讀者讀完文章後的心情。
知名的入口網站 Yahoo!奇摩提供了線上閱讀新聞的服務,不同於其它提供 新聞網站的在於它讓讀者閱讀後能依自己的心情為新聞選擇適當的標籤,並提供 讀者可由之前使用者對新聞所加註的心情評價來做為選擇新聞的依據,而不同的 新聞內容與讀者閱讀後的心情是否有特別的關係,如何有效率地由新聞內容偵測 讀者可能出現的心情,乃是一值得關注的議題。畢竟在這資訊氾濫的時代,光是 選擇電子報種類就會讓讀者頭痛,讀者在心情憂傷時通常不想看到會讓自己難過 的新聞,在生氣的時候通常也不會想看到令人更加憤怒的新聞。
綜上所述,本研究之目的在於從讀者角度分析網路電子報文章所帶給讀者的 感受(心情),並將網路電子報文章以心情加以分類,讓讀者能根據自己閱讀新聞 後想要感受的心情,過濾並找出適合自己心情的新聞文章。
1.2 研究目的
本研究希望在目前不斷成長的線上新聞閱讀人數以及閱讀者閱讀時間的環 境下,以心情為導向為使用者過濾掉他們不期望看到之心情的新聞,節省他們在 搜尋自己所需要新聞時花費的時間。本研究將利用特徵挑選(Feature Selection) 和支援向量機(Support Vector Machine, SVM),與Yahoo!奇摩新聞之心情相關資 訊結合,期望在新的新聞文章出現時即可預測出讀者看完後的心情,並進一步研 究心情與新聞文章分類、時間、詞彙等特徵是否有特殊關係。整體的研究方向如 下:
1. 可以對大量的文章進行心情偵測;
2. 找出每個期間內各個心情分類具有代表性的詞彙,並提供給讀者相關新 聞題材。
4
1.3 論文架構
本論文分成五章。第一章說明本研究的動機與目的;第二章介紹文章心情分 析相關的研究與方法;第三章敘述新聞文章心情預測系統的設計方式,闡述如何 將網路新聞文章處理,導入特徵值挑選並結合LibSVM分類器,將LibSVM分類 結果進一步延伸應用;第四章說明實驗結果與分析;第五章為結論與未來改善方 向。
研究動機與目的
文獻探討
特徵挑選 文章心情偵測研究
研究方法 Support Vector
Machine
Log Likelihood Ratio
系統發展與分析
結論與建議
新聞心情 分數 自動分類
方式
圖 1 論文架構
5