• 沒有找到結果。

新聞輿情與民意偵測追蹤之研究-大資料之研究取向 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "新聞輿情與民意偵測追蹤之研究-大資料之研究取向 - 政大學術集成"

Copied!
83
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理學系. 碩士學位論文 指導教授:楊建民博士. 學. ‧ 國. 立. 政 治 大. 新聞輿情與民意偵測追蹤之研究. sit. y. ‧. Nat. -大資料之研究取向. n. er. io. A Study of News Sentiment & Public Opinion al v Detection and Tracking i n Ch engchi U -A Big Data Research Approach. 研究生:鄒函升 中華民國 103 年 7 月.

(2) 誌謝 碩班兩年的時光轉眼間就消逝了,想當初來找楊建民老師當指導教授的情 景依然歷歷在目。十分佩服楊老師的思考邏輯,常常給我全新的觀點,不管是 在論文上或者是在人生道路上皆有重大的收穫。也要感謝從論文提報給我建議 的李有仁老師與劉文卿老師,到論文最後的邱光輝老師與季延平老師,做研究 很容易陷入自己的迷霧中,感謝各位老師的指點與建議,讓我能夠撥雲見日, 增進此論文的完整性。 感謝偉志、弘業、智勝、子洋、珀豪、伯呈學長們,在我還是碩一的時期. 政 治 大. 就大力相助,傳授了許許多多的觀念。多虧 Lab 夥伴良杰的陪伴,不然可能只. 立. 剩下我寂寞一人。. ‧ 國. 學. 感謝大學四年就讀的輔仁大學,謝謝胡筱薇老師在畢業專題的指導,以及 在大學那段時間一起為畢業專題努力的夥伴們,也是因為那段時間啟發,我才. ‧. 會決定報考研究所。. sit. y. Nat. 謝謝這兩年政大資管所的大家陪伴,能在出社會前結交到一群好朋友實在. al. er. io. 是莫大的榮幸,祝各位在未來都能平安健康事事順心。感謝家人這兩年的支持. v. n. 與鼓勵,常常早出晚歸,心情不穩,謝謝家人的包容。. Ch. engchi. i n U. 每一段經歷都像是生命中的一塊拼圖,在還沒拼湊起完整的一幅圖之前, 或許都看不清某一塊的意義,甚至花了一輩子時間都無法拼湊起一幅畫,但相 信每一塊拼圖都是有它存在的意義。謝謝令我成長的每一塊。. i.

(3) 摘要 隨著人們習慣的改變,從網路上獲取新知漸漸取代傳統媒體,網路新聞比 起傳統新聞有著即時且大量的特性,然而面對快速又大量的新聞訊息,人們更 加難以去整理吸收。此外,新聞是經過媒體驗證和包裝過的社會輿論,其客觀 地闡述事件的發生與經過,亦可以藉由新聞投射出民情民意。因此,要如何在 大量的資料中有效且正確地找到想要的資訊是很重要的議題,但更重要的是如 何在這些大資料(Big Data)中,發現、解決問題、甚至預測未來。本研究在龐大 的資訊海中,除了運用新聞偵測追蹤技術幫助使用者更有效的尋找到資訊之外, 更將在這大量新聞中利用意見探勘技術分析新聞事件之輿情,了解社會情緒氣 候樂觀或悲觀。. 立. 政 治 大. 在研究過程撰寫爬蟲程式自動蒐集中央新聞社 2013 年 6 月 10 日至 2014 年. ‧ 國. 學. 5 月 6 日共 14,729 篇的政治類新聞,運用 Single-pass Clustering 加時間概念進行 新聞偵測、kNN 分類法進行新聞追蹤,將結果群集再次利用 k-means 做第二次. ‧. 分群,以提高事件品質,最後利用意見探勘技術進行輿情分析。. Nat. sit. y. 在研究結果中,我們將結果的新聞事件群集結果與民間的民意調查資料互. er. io. 相比較。其中負面的新聞事件對照 TVBS 民意調查中心的資料,可以發現在事. al. v i n Ch 四週左右,可以在事件爆發時,做好相關的規劃措施,避免社會情緒持續低落。 engchi U n. 件輿情與熱門區間皆有一定相關性。此外,也發現負面的新聞事件大約都持續. 在整體新聞輿情方面,利用整體新聞輿情趨勢,對照台灣指標民調公司發布的 行政院長不滿意趨勢,發現有高於七成的相關性。從研究結果可看出能有效的 反映出社會民情。 本研究在資料科學(Data Science)的現今中,提出一種即時且省資源的觀察新 聞事件輿情與社會氣候方式。在未來希望加入不同新聞媒體或更多元的意見來 源(社群網站、部落格),來更真實直接反映出社會輿情,或可成為一種新的洞察 民情之方式。 關鍵字:文字探勘、意見探勘、事件偵測追蹤、民意、大資料 ii.

(4) Abstract Recently, acquiring knowledge and current events from the Internet is gradually replacing traditional media. However, It is more difficult for people to organize and absorb because of the huge amount of news information. In addition, the news is the social conditions that verified and packaged through the media. It implies the public sentiment and public opinions. Therefore, how to effectively and accurately find the information in a large amount of data is a important issue. More importantly, founding & solving problem and even predicting the future is significant issue in this current. In this study, in addition to the use of detection and tracking technique to find. 政 治 大. the information more effectively, we also apply opinion mining to analyze news. 立. sentiment to understand about the optimistic or pessimistic social conditions.. ‧ 國. 學. In this study, we write a program to collect the political news automatically from The Central News Agency. And then applying event detection and tracking algorithm. ‧. for classification and opinion mining for sentiment analysis.. y. Nat. io. sit. In the conclusions, we take public opinion polls to valid our results, founding. n. al. er. between the news sentiment and public opinion polls exist a certain relevance.. i n U. v. Besides, it found that all the negative news lasts about four weeks at peak periods.. Ch. engchi. Overall news sentiment trends have the exceeding seventy percent correlation with the dissatisfaction index of Premier. The results can be effectively reflected the public opinion. In the data science of current, we propose a real-time and resource saving way to observe the news events and society. In the future, we will plan to add various media sources to reflect directly the real public opinion and even become a new way to insight into the public opinion. Keywords:Text Mining, Opinion Mining, Events Detection and Tracking, Public Opinion, Big Data iii.

(5) 目錄 第一章 緒論 ............................................................................................................... 1 1.1. 研究背景與動機 ........................................................................................... 1. 1.2. 研究目的 ....................................................................................................... 2. 第二章 文獻探討 ....................................................................................................... 3 資料科學 ....................................................................................................... 3. 2.1 2.1.1. 資料科學概述 ........................................................................................... 3. 2.1.2. 資料科學應用 ........................................................................................ 4. 政 治 大. 新聞事件偵測與追蹤 ................................................................................... 5. 2.2. 立. 事件偵測 ................................................................................................... 6. 2.2.2. 事件追蹤 ................................................................................................... 7. ‧ 國. 學. 2.2.1. ‧. 意見探勘與相關應用 ................................................................................... 7. 2.3. 意見探勘 ................................................................................................... 8. 2.3.2. 意見詞彙獲取 ........................................................................................... 9. 2.3.3. 意見探勘與輿情分析 ............................................................................. 11. n. al. er. io. sit. y. Nat. 2.3.1. Ch. i n U. v. 小結 ............................................................................................................. 12. 2.4. engchi. 第三章 研究方法 ..................................................................................................... 14 3.1. 研究架構 ..................................................................................................... 14. 3.2. 研究設計 ..................................................................................................... 15. 3.2.1. 研究資料來源 ......................................................................................... 15. 3.2.2. 資料前處理模組 ..................................................................................... 16. 3.2.3. 新聞偵測與追蹤模組 ............................................................................. 17. 3.2.4. 分群結果評估 ......................................................................................... 20. 3.2.5. 事件偵測追蹤之參數選擇 ..................................................................... 21 iv.

(6) 3.2.6. 第二階段分群 ......................................................................................... 23. 3.2.7. 意見辭典 ................................................................................................. 24. 3.2.8 意見萃取 ................................................................................................. 24 3.2.9 文件極性計算 ......................................................................................... 25 3.2.10. 群集結果與輿情分析 ......................................................................... 26. 第四章 研究結果 ..................................................................................................... 27 4.1. 事件輿情與民意關聯 ................................................................................. 27. 4.2. 輿情趨勢關聯 ............................................................................................. 61. 政 治 大. 第五章 結論與未來展望 ......................................................................................... 65. 立. 結論與建議 ................................................................................................. 65. 5.2. 未來研究方向與建議 ................................................................................. 66. ‧ 國. 學. 5.1. ‧. 參考文獻 ..................................................................................................................... 68. sit. y. Nat. 附錄一 中研院平衡語料庫詞類標記集 ................................................................... 71. n. al. er. io. 附錄二 否定辭庫 ....................................................................................................... 73. Ch. engchi. v. i n U. v.

(7) 圖目錄 圖 2-1 資料科學相關領域 .......................................................................................... 3 圖 2-2 雙極形容詞結構 ............................................................................................ 10 圖 2-3 情感比率趨勢與時間區間調整 .................................................................... 12 圖 3-1 研究架構 ........................................................................................................ 15 圖 3-2 相似度比較概念圖 ........................................................................................ 26 圖 4-1 太陽花學運之文件極性與累積趨勢圖 ........................................................ 29 圖 4-2 太陽花學運之文件成長斜率趨勢圖 ............................................................ 30. 政 治 大 圖 4-4 九月政爭之文件成長斜率趨勢圖 ................................................................ 33 立 圖 4-3 九月政爭之文件極性與累積趨勢圖 ............................................................ 32. ‧ 國. 學. 圖 4-5 洪仲丘之文件極性與累積趨勢圖 ................................................................ 36 圖 4-6 洪仲丘之文件成長斜率趨勢圖 .................................................................... 37. ‧. 圖 4-7 軍事國軍之文件極性與累積趨勢圖 ............................................................ 39. sit. y. Nat. 圖 4-8 軍事國軍之文件成長斜率趨勢圖 ................................................................ 40. al. er. io. 圖 4-9 食安風波之文件極性與累積趨勢圖 ............................................................ 42. v. n. 圖 4-10 食安風波之文件成長斜率趨勢圖 .............................................................. 43. Ch. engchi. i n U. 圖 4-11 服貿議題之文件極性與累積趨勢圖........................................................... 45 圖 4-12 服貿議題之文件成長斜率趨勢圖 .............................................................. 46 圖 4-13 大埔事件之文件極性與累積趨勢圖 .......................................................... 48 圖 4-14 大埔事件之文件成長斜率趨勢圖 .............................................................. 49 圖 4-15 財政預算相關之文件極性與累積趨勢圖 .................................................. 51 圖 4-16 財政預算相關之文件成長斜率趨勢圖 ...................................................... 52 圖 4-17 九月政爭倒閣案之文件極性與累積趨勢圖 .............................................. 55 圖 4-18 九月政爭倒閣案之文件成長斜率趨勢圖 .................................................. 55 圖 4-19 九月政爭監聽關說之文件極性與累積趨勢圖 .......................................... 58 vi.

(8) 圖 4-20 九月政爭監聽關說之文件成長斜率趨勢圖 .............................................. 58 圖 4-21 行政院長不滿意度趨勢 .............................................................................. 61 圖 4-22 整體文件情緒趨勢線 .................................................................................. 62 圖 4-23 不滿意度與情緒移動平均之趨勢 .............................................................. 62 圖 4-24 不滿意度與加權後情緒移動平均之趨勢 .................................................. 63 圖 4-25 行政院長不滿意度與加權後 15 日情緒移動平均線趨勢 ........................ 64. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vii. i n U. v.

(9) 表目錄 表 3-1 事件偵測參數選擇 ........................................................................................ 22 表 3-2 事件追蹤 k 值參數選擇 ................................................................................ 22 表 4-1 負向文件群集資訊 ........................................................................................ 27 表 4-2 負面事件群集熱門程度 ................................................................................ 28 表 4-3 太陽花學運群集 ............................................................................................ 29 表 4-4 太陽花學運之熱門週期資訊 ........................................................................ 30 表 4-5 九月政爭與立法院學運群集 ........................................................................ 32. 政 治 大 表 4-7 洪仲丘群集 .................................................................................................... 36 立 表 4-6 九月政爭之熱門週期資訊 ............................................................................ 33. ‧ 國. 學. 表 4-8 洪仲丘之熱門週期資訊 ................................................................................ 37 表 4-9 軍事國軍群集 ................................................................................................ 39. ‧. 表 4-10 軍事國軍之熱門週期資訊 .......................................................................... 40. sit. y. Nat. 表 4-11 食安風波群集 ............................................................................................... 42. al. er. io. 表 4-12 食安風波之熱門週期資訊 .......................................................................... 43. v. n. 表 4-13 服貿議題群集 .............................................................................................. 45. Ch. engchi. i n U. 表 4-14 服貿議題之熱門週期資訊 .......................................................................... 46 表 4-15 大埔事件群集 .............................................................................................. 48 表 4-16 大埔事件之熱門週期資訊 .......................................................................... 49 表 4-17 財政預算相關群集 ...................................................................................... 51 表 4-18 財政預算相關之熱門週期資訊 .................................................................. 52 表 4-19 事件週期與相關資訊 .................................................................................. 53 表 4-20 九月政爭之倒閣案 ...................................................................................... 54 表 4-21 九月政爭倒閣案之熱門週期資訊 .............................................................. 55 表 4-22 九月政爭之監聽關說 .................................................................................. 57 viii.

(10) 表 4-23 九月政爭監聽關說之熱門週期資訊 .......................................................... 59 表 4-24 事件週期與相關資訊(九月政爭子事件版) ................................................ 60. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i n U. v.

(11) 第一章 緒論. 1.1. 研究背景與動機 現在,世界上的資料量不僅前所未見,每日更是以驚人的數量在倍增,因而. 創造出「大資料」(Big Data)這個詞。資料規模的改變已經驅使其狀態的改變。 如何在巨量的資料中發現、解決問題、甚至預測將來,變成現今最熱門的議題。 由於網路的普及便利與即時性,傳統報章雜誌的新聞內容,快速被網路媒體. 政 治 大 的特性,每日都有成千上萬的新聞資訊湧入,雖然各大新聞網站都有分門別類(如 立 所吞噬,使得網路電子新聞成為人們獲得時事新知的重要管道,但是也因為網路. 娛樂、財經等),仍然充斥著數以千萬的新聞洪流,閱讀者須花費大量時間去自. ‧ 國. 學. 行整理吸收。再者,如果要了解整個新聞事件的始末經過,讀者很難短時間內去. ‧. 追溯以往發生的新聞事件來以窺全貌。此外,常常因為單一新聞議題的密集討論. y. Nat. (如林書豪、洪仲丘事件),媒體在一段時間內持續對同一新聞事件進行報導,造. er. io. sit. 成新聞單一化現象,使得社會大眾疏忽甚至漠視其他重要的新聞事件。而對於這 些大量的新聞資料,過去人們僅認為是提供時事新知的資訊管道,閱讀吸收後便. n. al. i n 無用處,但如果能加以利用,便能產生新的價值。 Ch engchi U. v. 傳統上,若想了解社會大眾對某事件議題的觀感,基本是藉由電話、問卷、. 焦點團體訪問,透過抽樣法收集來的資料統計之後才能了解公眾的想法,但是通 常都是事件發生之後隔了一段時間才會去進行民意調查。如果能夠透過廣泛的收 集大量新聞文件,即時分析新聞事件輿情並掌握大眾對事件議題的觀感,在民意 開始低落悲觀時能夠適時的妥善處理、防患未然,相信對人民與相關單位都會有 極大的幫助。 基於以上理由,本研究利用新聞文件資料,配合文字探勘技術來進行偵測新 聞事件的發生及追蹤舊有的新聞事件,將新聞文件做有效的分群歸類,幫助民眾 1.

(12) 更快速、更有效率了解目前的新聞事件種類、新聞事件的始末經過。此外,新聞 事件的內容能反映出民眾的輿論情感,利用意見探勘技術分析新聞事件的意見情 感,即時的追蹤事件輿論之趨勢,迅速掌握民意的變化與社會輿論的脈動。 1.2. 研究目的 依上述背景與動機,本研究針對以下作為研究目的:. 1.. 利用文字探勘技術進行新聞偵測與追蹤,將新聞文件歸類至適當的事件群集, 方便讀者能夠有效的了解目前新聞事件種類以及新聞事件的來龍去脈。. 政 治 大 傾向,分析可能的危機發生,以便提早預防。 立. 2.. 利用意見探勘技術評估新聞文件的意見為何,進而明白各個新聞群集的意見. 3.. 結合上述兩點,觀察新聞事件群集的此消彼漲以及意見傾向,得出新聞事件. ‧ 國. 學. 輿情趨勢走向,提出一種即時、省資源的洞察民情方式。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(13) 第二章 文獻探討. 2.1. 資料科學 面對資料量每分每秒都在暴增的現今,該如何在龐雜的資料中發現價值並掌. 握先機。電腦時代「數位革命」演進到現今「資料革命」 ,將掀起一波全新改革。 2.1.1 資料科學概述. 政 治 大 量資料為基礎解決問題甚至預測未來,讓資料述說出全新的價值。現在不論是醫 立 從前在白紙黑板用人工分析,到利用電腦科技進行運算,現在未來將會以大. 療、財務、社交網路各個大大小小的領域上,無時無刻都在產生龐大的資料量,. ‧ 國. 學. 資料科學(Data Science)的目的就是利用各式各樣領域的大資料(Big Data)來發現. ‧. 新價值。資料科學整合了許多不同的領域,包括了電腦科學、數學、統計知識等. y. Nat. 其他實質性的專業知識。利用電腦科學能力將各領域知識獲取並轉換成統計數學. er. io. sit. 方式計算分析,視覺化方式將資料的價值展現出來。總而言之,就是從資料內容 去發現未知問題、了解問題本質、讓資料驅使出新的價值。. n. al. Ch. engchi. i n U. 圖 2-1 資料科學相關領域 資料來源:(Jones, 2013) 3. v.

(14) 大資料(Big Data)也可稱作巨量資料、海量資料、大數據等。其資料來源可 以是社交網路上的訊息圖片、部落格、行動裝置、感應器等各式各樣獨立或連結 的管道(Fan & Bifet, 2013)。IBM 提出大資料應該具有三種特色:資料量(Volume) 指現在資料量動輒來到 Petabyte(1015 )來計算,舉例來說 Facebook 一天有 32 億 筆使用者的使用資訊,一個月就有將近 1000 億筆的資料;速度(Velocity)因為資 料量非常龐大以及無論是消費者、業主,每個人的需求變化都是快速的,想要掌 握最即時的需求,資料處理的速度是關鍵;種類(Variety)對於海量的資料中,其 內容不僅只有式文字而已,還包括圖片、音樂、影片等多媒體資訊,其中隱藏的. 政 治 大 要有完整性高的資料集,是利用整體的資料去做測試而不是隨機抽取的樣本,但 立. 資訊更是不可小覷(Collett, 2011)。大資料的資料量不是絕對而是相對的,指的是. 是通常完整性高的資料其資料量也很大(麥爾荀伯格 & 庫基耶, 2013)。. ‧ 國. 學. 面對每日資料量倍增的現今,資料科學改變了傳統上的思維。在大量的資料. ‧. 中能夠增加測試的樣本來減少細微的誤差,在微觀層面失去一些精確度,在宏觀. y. Nat. 層面獲得更多觀點、知識。過去認為分析資料是要有因果關係,但在大資料下反. er. io. sit. 而應該注重於資料的相關性,Taleb (2012)提到當資料變數的增加,其他相關性 也會增加。舉例來說,Leinweber (2007)發現標準普爾 500 指數(Standard & Poor's. al. n. v i n 500)與孟加拉國的黃油產量有正相關。利用資料的相關性雖然不可以真正預知未 Ch engchi U 來,但光是具有一定程度的相關性,就已具重大價值。 2.1.2 資料科學應用 相關應用十分廣泛,從商業、科技、醫學、運動到近年熱門的智慧城市等。 其中 Google 是資料科學中的佼佼者,Google 的工程師 Ginsberg et al. (2009)收集 前五千萬美國人最常搜尋的詞彙,再與美國疾病管制局在 2003 年至 2008 年之間 的流感傳播資料比對,找出這些詞彙出現的頻率與流感傳播的時間、地區有沒有 相關性。結果發現與美國官方的資料十分符合,於是可以利用這種模式即時的掌 4.

(15) 握甚至預測流感的動態。Google 也利用其搜尋引擎蒐集來的詞彙,來創造出最 完整的拼字檢查器。過去拼字檢查大多依照內建的辭典來比對拼字正確與否, Google 利用人們輸入搜尋引擎的詞彙,那些可能是錯誤、不正確、有問題的資 料加以利用,將已認為完成目的的資料重複利用,產生出新的價值(麥爾荀伯格 & 庫基耶, 2013)。 台灣團隊 Gogolook 旗下開發的 whoscall 手機通訊軟體,透過網路搜尋、相 關資料(通話時間、發話頻率等)以及使用者回報,即時辨識陌生來電的手機號碼 是否為惡意號碼或垃圾號碼。在全球累積了 5 億筆電話號碼,每天辨識 1 千萬通. 政 治 大 間、通話模式等,這些資料未來還可創造出更多價值(呂紹玉, 2013)。 立. 電話,利用這些資料分析出許多 Call Pattern,像是惡意電話的發話頻率、鈴響時. Amazon 追蹤人們在網路書城留下來的資料,將顧客購買了甚麼書、點擊哪. ‧ 國. 學. 個頁面和停留時間等大量的資料加以分析,推測出顧客那些書也會有興趣購買。. ‧. Asur and Huberman (2010)利用社群網站 Twitter 上面的新電影推文的頻率來. y. sit er. 新聞事件偵測與追蹤. io. 2.2. Nat. 預測電影的票房是否會賣座,其預測比傳統指標來的快速且有更高的準確度。. al. n. v i n 由於網路上每日都有成千上萬的新聞產生,為了解決這洪流般資訊的問題, Ch engchi U. 就有相關研究計畫誕生。美國國防部高等研究計畫局所主導的主題偵測與追蹤. (Topic Detection and Tracking, TDT)計畫,研究目的是從各種管道的新聞串流中找 出或追蹤事件。研究任務包括五大方向:主題追蹤(Topic Tracking)是找出新進文 件是否與之前發生過的主題相關、關聯偵測(Link Detection)兩篇文件是否論述同 一話題、主題偵測(Topic Detection)探討相同主題的文件分類、第一則新聞偵測 (Frist Story Detection)的任務判斷新進文件是否為新的主題或尚未討論過的主題、 文件切割(Story Segmentation)將則包含許多新聞的文件切割成單獨新聞的文件 (Allan, 2002)。 5.

(16) 而新聞事件偵測與追蹤(New Event Detection and Tracking, EDT)為 TDT 其中 一個子項目計畫。事件(Event)可以被定義為:「在特定的時間與地點所發生的事 情」(Allan, Papka, & Lavrenko, 1998)。舉例來說, 「1999 年 9 月 21 日在台灣發生 大地震」可以被視為一個事件。而「地震」則是屬於一種主題(Topic)。參與 TDT 計畫中較著名的學術單位有卡內基美隆大學(Carnegie Mellon University, CMU)與 麻州大學(University of Massachusetts, UMass),而台灣地區則有台灣大學資訊工 程系的陳信希教授加入相關研究計畫(L.-W. Ku, 2000)。 近年來藉由新聞文件來預測股票趨勢的相關研究十分熱門,利用文字探勘技. 政 治 大. 術進行新聞文件分群分類,建立出預測股價的模型(K.-j. Kim & Han, 2000; 歐智 民, 2011)。. 立. ‧ 國. 學. 2.2.1 事件偵測. ‧. 事件偵測(Event Detection)目的是在連續的新聞串流中發現新的或之前未發. y. sit. io. er. 法。. Nat. 現的事件(Allan, Carbonell, Doddington, Yamron, & Yang, 1998),屬於非監督學習. 事件偵測又可以分為兩類:回顧偵測(Retrospective Detection)及線上偵測. al. n. v i n (On-line Detection)。回顧偵測(Retrospective Detection)是在文件集合中找出之前 Ch engchi U 未發現的事件。將有關聯的文件進行集群處理,每一個群集代表一個事件,每群. 集中的文件都在討論同一事件,因此每件文件至多被歸類到一個群集。線上偵測 (On-line Detection)是從一連串循序的文件中(例如:即時新聞)辨認出新事件。若 偵測出來是屬於新事件,則標記為 YES,若偵測出來是屬於已經發生的事件, 則標記為 NO,指出新進文件中是否為新事件的開始(Allan, Papka, et al., 1998)。 CMU 在新聞事件偵測與追蹤研究中使用的群聚方法為 Single-pass Clustering, 其計算方式為在已存在的事件內算出所有文件的質心,接下來新進的文件與每群 事件的質心做相似度比較。在計算相似度時 CMU 加入了時間區間(Time Window) 6.

(17) 篩選的概念,將與新進文件所要比較的群集限制在一段時間內(Yang, Ault, Pierce, & Lattimer, 2000),原因是同一件新聞事件通常會在一段時間內頻繁的報導,隨 著時間的衰退新進文件會漸漸與舊有事件的關聯度愈低。在新進文件做完相似度 比較後篩選出候選事件,找出與新進文件中最高相似度的事件,其相似度結果小 於設定的門檻值則判斷為不屬於已存在的事件,反之,則進行事件追蹤方法判斷 屬於哪件舊有事件。 2.2.2 事件追蹤. 政 治 大 Tracking)歸類至已發生的事件群集。換句話說就是將文件分類至已標記類別的事 立. 經事件偵測判定為已經發生過的事件後,該文件再交由事件追蹤 (Event. 件群集中,是屬於監督式學習法。. ‧ 國. 學. CMU 其中一個追蹤方法為 kNN(k-Nearest Neighbor)分類法,其概念就是物以. ‧. 類聚,將新進文件歸類至前 k 個最近鄰的文件中最高相似度的類別。我們將在第. y. Nat. 三章中再詳細說明 kNN 的方法。. er. io. sit. 為了提升事件的品質將其改良成 2-way kNN,最大的差異在於 2-way kNN 能 夠針對每個候選事件獨立追蹤,將比較的群集分為目標群集以及其他群集,不像. al. n. v i n 將所有文件來做比較僅會被加入最高相似度的事件群集。雖然改良後的 Ch engchi U. kNN. 2-way kNN 能夠增加群集的品質,但是在效能上會大幅降低。 2.3. 意見探勘與相關應用 自從 Web2.0 時代蓬勃發展,人們在網路上大量的互動產生了龐大的文字評. 論意見,這些訊息表達了人們對於某件人事物的想法或經驗,由於資料量以驚人 的速度成長著,若是以人工的方式一一檢視這些訊息十分困難,因此自動化處理 這些意見訊息的相關技術就顯得非常重要,此外,這些巨量資料(Big Data)對於 社會或是商業上都有極大的價值。 7.

(18) 2.3.1 意見探勘 意見探勘(Opinion Mining)又可以稱為情感分析(Sentiment Analysis),藉由分 析文字傳達出來的正負情感與觀感,可視為文字探勘的技術應用延伸。主要研究 分析人們的意見、情感、評論、態度或是情緒。近年來,論壇、部落格、微網誌、 社交網路的崛起,每個人都可以利用這些工具進行意見的發表,因而有數以億計 的意見資料被記錄在網路上,也帶來巨大的商機。早在 2000 年之前,情感分析 已經是自然語言處理一個重要的研究領域,其後也廣泛用於資料探勘、網路探勘、. 政 治 大 及社會科學。情感分析(Sentiment Analysis)這個詞最早出現在 Nasukawa and Yi 立. 文字探勘領域中。事實上,意見探勘不只包含計算機科學,也涵蓋至管理科學以. (2003),而意見探勘(Opinion Mining)首次出現在 Dave, Lawrence, and Pennock. ‧ 國. 學. (2003)。但是在這之前已經有相關研究被提出,Turney (2002)提出一非監督式學. ‧. 習判別詞彙極性為正向還是負向;J. M. Wiebe (1994)研究判別文本意見觀點;. y. Nat. Morinaga, Yamanishi, Tateishi, and Fukushima (2002)進行產品屬性意見的研究。意. er. io. (Liu, 2012)。. sit. 見探勘與情感分析主要聚焦於意見是明示或是暗示地表達出正面或負面之情緒. al. n. v i n 目前研究大致有文件的主觀性分析(找出帶有主觀意見的文件)、判別意見持 Ch engchi U. 有者(找出評論者)及意見評論目標(找出被評論的人事物)、意見極性判別(判別意 見的正負或中立等立場)以及意見極性強度(判別意見的強弱)等。J. Wiebe, Wilson, Bruce, Bell, and Martin (2004)對於主觀性語言文件之研究中,將華爾街日報內容 分為意見資料(Opinion Pieces),包括社論、讀者來信、藝術休閒評論以及華爾街 日報觀點,與其他不包括以上類型的非意見資料(Nonopinion Pieces),研究中發 現在意見資料中有 70%的主觀性與 30%的客觀性,在非意見資料中有 44%主觀 性與 56%客觀性。可以得知在新聞文件報導中,雖然新聞報導原則是要客觀去闡 述一件事情,但是其中也包含了主觀性的褒貶成分。 8.

(19) 在大量的意見資訊中,不論是對於商家、商品、社群網路分析等都具有極大 的價值。Yessenov and Misailovic (2009)收集電影評論文章,進行主客觀分析以及 意見極性的分類,其結果可以讓觀眾參考,也可讓電影廠商得知民眾對電影的想 法。趙品銜 (2010)收集部落格中旅遊文章辨識旅遊景點和該景點的好或壞評論, 可供大眾查看哪些景點值得一去。McGlohon, Glance, and Reiter (2010)收集大眾 的評論來做商品或商家的推薦排序,供需求者能在平台上比較且快速有效地找到 想要的相關資訊。 2.3.2 意見詞彙獲取. 政 治 大 帶有意見的文件可以是詞彙、句子或是文章。詞彙是能夠表達意見的最基本 立. 單位,例如「美麗」此詞彙是帶有正面的意見,而「醜陋」則帶有負面的意見;. ‧ 國. 學. 句子通常可以表達出針對某一主題的意見或者是立場的判斷,例如「我非常同意. ‧. 這篇新聞報導」;文章是由內容的詞彙或句子集結而成,整體來看也可以表達出. io. er. 是正向、負向還是中立,變成意見探勘的必要課題。. sit. y. Nat. 意見傾向。詞彙是意見分析的最基本單位,因此要如何決定詞彙極性(Polarity). 意見詞彙是意見探勘中最關鍵的資源。目前研究可以把意見極性判斷歸類為. al. n. v i n 三 種 方 法 : 人 工 方 法 (Manual 於 字 典 方 法 (Dictionary-Based C hApproaches) 、 基 U engchi Approaches)與基於語料庫方法(Corpus-Based Approaches) (Feldman, 2013)。. 人工方法是人們基於語言學知識人工下去定義詞彙極性,顯然而之,其擴充 性低、耗費勞力。 基於字典方法主要是利用事先定義過的特定種子詞,藉由利用語彙資源(例 如:WordNet)的同義詞與反義詞進行詞彙的擴張。Hu and Liu (2004)收集了三十 個種子字,這些字彙事先標記意見極性,利用 WordNet 形容詞的同義詞集與反 義詞集(概念如圖 2-2),如果未知意見詞的同義詞出現在種子詞集內,則標記與 種子詞相同極性,如果未知意見詞的反義詞在種子詞集內,則標記與種子詞相反 9.

(20) 的極性。但對於 WordNet 中沒有的詞彙,則無法得知其字彙的極性。. 圖 2-2 雙極形容詞結構. 政 治 大. 資料來源:(Hu & Liu, 2004). 立. 由於字典法擴展範圍有限且不同領域意見極性可能不同,所以也有學者利用. ‧ 國. 學. 語料方法配合演算法來自動學習。Hatzivassiloglou and McKeown (1997)以標記好. ‧. 極性的種子詞彙,配合語法上的連結詞(例如:and, but)在大量的語料庫中找出相 同極性的形容詞,例如「This guy is both handsome and strong」,如果我們知道. y. Nat. io. sit. 「handsome」是正向詞彙,我們就可以推測「strong」也是正向的,但是此種方. n. al. er. 法只限於形容詞。Turney (2002)提出利用 PMI(Point Mutual Information)來計算意. Ch. i n U. v. 見極性,先挑選出正向與負向的種子詞彙(poor 及 excellent)與未知的意見詞連結. engchi. 一語料庫,計算未知詞與種子詞的共同出現的次數,若與正向的種子詞共同出現 的次數大於負向種子詞的共同出現次數,則該未知意見詞為正向。反之,則為負 向。楊昌樺, 高虹安, and 陳信希 (2007)收集大量的部落格文章且利用部落格的 表情符號與詞彙關係來建立意見辭典,並用機器學習法決定句子極性。 基於語料庫方法是透過演算法從大量的語料庫中自動學習詞彙、語句、文章 間與意見傾向的關係,但此種方式需要透過收集大量的語料已進行訓練學習,且 較依賴種子詞彙的個數和質量,容易因為一些詞彙具有多義性而造成意見極性判 斷錯誤。基於字典方法是利用建構好的意見詞典一一比對決定文件內的字詞情感 10.

(21) 傾向為何,其不須經過訓練的過程即可進行意見分析。 而目前建立好的意見字典,常見的有台灣大學情感詞辭典(National Taiwan University Sentiment Dictionary;NTUSD)以及《知網》情感分析用詞語集(beta 版)。 NTUSD 是由(2007)所建置,其辭典內容是由 General Inquirer(GI)及 Chinese Network Sentiment Dictionary(CNSD)所組合而成,先將 GI 所包含的 2,333 個英 文正向情緒字詞和 5,830 個英文負向情緒字詞翻譯成中文個英文負向情緒字詞 翻譯成中文,加上 CNSD 網路蒐集的中文情緒字,當作中文種子情緒單詞,利 用同義詞詞林與中研院中英雙語知識本體詞網進行擴張。NTUSD 精簡版收錄. 政 治 大 小組利用 HowNet 的漢語語意辭典所建立,包含 9,193 個中文評價詞語以及 9,142 立. 2,810 個正向詞與 8,276 個負向詞。而《知網》情感分析用詞語集是由 HowNet. 個英文評價詞語,並分為褒貶兩類。. ‧ 國. 學. 2.3.3 意見探勘與輿情分析. ‧. y. Nat. 隨著社群網路的發展,人們愈來愈願意透過社群網路發表自己意見想法,網. er. io. sit. 路已經成為輿情話題產生和傳播的主要空間。意見探勘除了用在判斷文件或使用 者的意見情感之外,還可以藉由網路資訊進行社會輿情分析。. al. n. v i n Li and Wu (2010)蒐集各個論壇的大眾討論,利用演算法將來源不同的討論 Ch engchi U. 議題分群分類,計算出各個議題的意見情感值,最後得到各個議題的討論熱度,. 提供某段時間某個的議題熱門程度和該議題的情感資訊,供商家或大眾可以做為 參考或利用。 在財經方面,L. W. Ku, Ho, and Chen (2009)建立一系統可以追蹤事件的意見 情感與公司股價趨勢做相似度比較,找出具有影響力的配對,供需求者進一步分 析。Zhang and Skiena (2010)分析不同媒體(新聞、部落格)與股價的關係,利用媒 體的發文頻率、股票的交易量以及媒體的意見情感與股票收益等參數,討論參數 之間的相關性,提出在不同情況下可以讓投資者持續獲益的市場中立策略 11.

(22) (Market-Neutral Strategy)。 對於民意調查方面,也有學者利用分析網路輿情來做預測。S.-M. Kim and Hovy (2007)透過分析大量的網路評論訊息來預測選舉結果,首先在相關選舉網 站收集大眾的評論意見,像是部落格或者討論版,計算出黨派與意見正負情感關 係,並且用往年的選舉資料建立一預測模型。 O'Connor, Balasubramanyan, Routledge, and Smith (2010)分析推特(Twitter)上 的民眾的文字訊息,針對幾個關鍵字(如:Obama、Mccain、Economy)去收集推 特上的意見訊息,計算出每天訊息的意見分數,藉由調整不同時間區間的意見分. 政 治 大. 數(圖 2-3)與傳統民調進行相似度分析,結果發現與傳統民調相較之下高達 80% 的相關性。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-3 情感比率趨勢與時間區間調整 (其中 k 為天數的時間區間,lead 為右移的天數) 資料來源:(O'Connor et al., 2010) 2.4. 小結 在文獻探討中我們可得知意見探勘除了利用在商品商業上,還可用在社會輿. 情分析。藉由文字探勘技術將龐大的新聞文件分群歸類,依序擷取出新聞事件始 末經過的文件,並且利用意見探勘技術來得知事件的情感,配合縱斷面的新聞時 12.

(23) 間軸,可以發展出意見趨勢圖。 而新聞輿情是經過媒體驗證和包裝過的社會輿論,是具有客觀性以及公正性, 目的是為了客觀誠實的闡述一件事情並進行報導與分析。從新聞報導的內容中, 可以端倪出民意的意涵(楊意菁, 2005),新聞文件包含了主觀性褒貶性質(J. Wiebe et al., 2004),所以新聞輿情與民意具有相關性。本研究將利用新聞文件來進行輿 情分析。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 13. i n U. v.

(24) 第三章 研究方法 經過以上文獻探討評估之後,本研究透過撰寫程式蒐集網路新聞,經過資料 前處理步驟,踢出雜質資料、斷詞、內容過濾,利用 Single-pass Clustering 演算 法以及 kNN 分類技術進行新聞偵測與追蹤,將群集品質低於平均的群集進行第 二階段分群,並且利用字典法進行意見極性比對,得出新聞文件的情感,透過研 究提出的文件極性算法後,進而得到新聞事件輿情的脈絡趨勢。. 3.1. 研究架構. 政 治 大 本研究針對中央新聞社政治類新聞進行撰寫爬蟲程式以蒐集新聞文件資料, 立. 隨後將新聞文件資料前處理,包含去除資料雜訊、利用 CKIP 進行斷詞、將處理. ‧ 國. 學. 過後的字詞做內容過濾,取出本研究所需的字詞與詞類,並且利用本研究建立的. ‧. 意見辭典做意見極性正負向的比對處理。事件偵測之前,將每篇新聞文件計算出. y. Nat. 詞彙特徵值並且轉換成向量空間模型表示,利用 Single-pass Clustering 加上時間. er. io. sit. 區間(Time Window)偵測新聞事件的發生以及 kNN 分類技術對新聞事件追蹤歸類, 接著用 k-means 做第二階段分群,將群集切割以提升事件品質,最後,萃取出文. al. n. v i n 件的意見詞彙,對每個新聞文件計算出意見分數,進而得到將文件的極性。整理 Ch engchi U. 出事件群集的群集脈絡與意見傾向,最後進行群集評估與分析。本研究之研究架 構如下圖 3-1:. 14.

(25) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 3-1 研究架構. i n U. v. 資料來源:本研究自行整理 3.2. 研究設計. 3.2.1 研究資料來源 首先,本研究分析網頁的 HTML 標籤語法撰寫爬蟲程式,自動化蒐集中央 通訊社(The Central News Agency,簡稱中央社)底下「政治」類別的新聞作為研 究的新聞資料來源。新聞資料的時間區間介於 2013 年 6 月 10 日至 2014 年 5 月 15.

(26) 6 日,總篇數有 14,729 篇。 3.2.2 資料前處理模組 1.. 資料清理 由於電子新聞是經人工打字撰寫,有些資料會收集到文章時間標明錯誤、文. 章內容錯誤的雜質資訊,若略過這些雜訊處理會造成資料異端的出現,之後的探 勘品質就會下降,所以必須將雜質、有異樣的資訊先清理去除。 2.. 中文斷詞. 政 治 大 本研究知新聞文件能做有效且迅速的斷詞,且有提供客戶端的 API,在操作上也 立 本研究使用中研院研發的 CKIP 中文斷詞系統,CKIP 內建的中文詞庫對於. 十分方便,故本研究使用 CKIP 作為中文斷詞的工具。. ‧ 國. 學. CKIP 中文斷詞系統會依照內建辭庫將輸入的文章進行斷詞處理並且標記上. ‧. 詞性。中研院詞庫小組將中文詞分為八種基本詞性,除了體詞和述詞之外,其他. y. Nat. 的詞性大多無具體意義(劉吉軒 & 吳建良, 2007)。所以本研究採用精簡詞類中的. er. io. sit. 名詞(N)、名物化動詞(Nv)、不及物動詞(Vi)、及物動詞(Vt)以及副詞(ADV)等五 種詞性之詞彙(附錄一),作為文字探勘與意見探勘的依據,其中選取副詞是用於. al. n. v i n 擷取否定詞並進行反向意見的標記。以下為 CKIP 斷詞前與斷詞後的對照範例: Ch engchi U 斷詞前:. 陸軍義務役男洪仲丘死亡案引發社會關注,國防部長高華柱今早赴洪家探視、 表達歉意,保證全力查明事實真相,還給家屬真相。 斷詞後: 陸軍(N)義務(N)役男(N)洪仲丘(N)死亡案(N)引發(Vt)社會(N)關注(Nv)國防部長 (N)高華柱(N)今(N)早(ADV)赴(Vt)洪家(N)探視(Vt)表達(Vt)歉意(N)保證(Vt)全 力(ADV)查明(Vt)事實(N)真相(N)還給(Vt)家屬(N)真相(N) 資料來源:本研究自行整理 16.

(27) 3.. 內容過濾 利用 CKIP 斷完詞之後的詞彙,來做分群以及意見分析的計算。在進行新聞. 偵測追蹤前,為了節省儲存空間以及提高計算的效率和準確度,需去除不必要的 停用字(Stop Words),例如:她、他、是、、、,將較具有意義的詞彙留下,以 便降低運算範圍,增加群集的品質。 在進行新聞偵測與追蹤時,根據新聞文章的特性,新聞事件的名詞(例如: 人、組織、地點)通常會持續的出現在同一新聞事件中(L.-W. Ku, 2000),所以本 研究只考慮名詞(N)、名物化動詞(Nv)兩種詞性的詞彙來進行運算。此外,考慮. 政 治 大 能造成分群結果意見情感全部倒向同一邊的情況。 立. 到如果把動詞以及副詞加入分群分類計算會將同樣的意見傾向分在同一群集,可. 而在意見分析時,根據中研院斷詞小組對詞性的分類,其中狀態類不及物動. ‧ 國. 學. 詞(Vi)最能表現出形容詞的概念(陳立, 2010),此外,本研究認為及物動詞(Vt)也. ‧. 能夠表達出意見情感,所以資料庫保留的詞彙為精簡詞類標記中的不及物動詞. io. y. sit. 反向意見標記. er. 4.. Nat. (Vi)、及物動詞(Vt)當作意見詞。. 當某個意見詞予以否定其意見指向,則其意見極性會隨之反向,例如「我喜. al. n. v i n 歡上學」表達出正面的意見,而「我不喜歡上學」則因為前面有否定詞表達出負 Ch engchi U. 面的意見。因此本研究自行整理以及參考李啟菁 (2010)整理出的否定詞當作本 研究的否定辭庫(附錄二)。在此步驟如果意見詞前面的詞彙內有出現否定辭庫中 的詞彙,則在意見詞前標記反向記號,用以表示該意見詞是相反的意見極性。 3.2.3 新聞偵測與追蹤模組 1. 特徵值計算 在執行事件偵測之前,我們需要將每份新聞文件轉換成計算過權重後的形式, 才能自動化的在各篇文章中擷取出足以代表該文件的特徵。本研究使用正規化後 17.

(28) 的 TF-IDF 作為新聞文件的特徵值。其公式如下: 𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖. 𝑡𝑓𝑖,𝑗 =. (1). 𝑛𝑖,𝑗 ∑𝑘 𝑛𝑘,𝑗. 𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔⁡(. (2). 𝑁 ) 𝑑𝑓𝑖. (3). 𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 為詞彙 i 在文件 j 的權重值,其值為𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖 。𝑡𝑓𝑖,𝑗 為詞彙 i 在文件 j. 政 治 大 j 的總詞彙數。𝑖𝑑𝑓 為詞彙 i 的逆向文件頻率(Inverse Document Frequency),其值 立. 中出現的頻率(Term Frequency),其中𝑛𝑖,𝑗 是詞彙 i 在文件 j 中出現次數,k 為文件 𝑖. 為總文件數目(N)除以含有詞彙 i 的文件數目(𝑑𝑓𝑖 ),再將得到的數值取對數(log)。. ‧ 國. 學. 為了避免文件長度不一影響文件各字詞權重比較,所以將得到的𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 正規. n. Ch. 2. 向量空間轉換及相似度計算. 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖 ⃗⃗⃗𝑗 ‖ ‖𝑑. engchi. er. io. al. 𝑤𝑖,𝑗 =. sit. y. Nat. ⃗⃗⃗𝑗 ‖: 長度‖𝑑. ‧. 化,其作法是將𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 除以文件向量中所有元素(權重)平方合再開根號,即文件. i n U. v. (4). 在進行文件的相似度計算之前,需要將文件轉換成向量空間模型表示,因此 我們能藉由上述特徵值的權重計算,將斷詞後各個詞彙在文章中所佔的權重計算 出來,並透過相似度計算來進行分群歸類。本研究採用餘弦相似度 (Cosine Coefficient)來進行相似度的運算,公式如下: ∑𝑛𝑖=1 𝐴𝑖 × 𝐵𝑖 𝐴∙𝐵 cos(θ) = = ‖𝐴‖ ∙ ‖𝐵‖ √∑𝑛 (𝐴𝑖 )2 × √∑𝑛 (𝐵𝑖 )2 𝑖=1 𝑖=1. (5). A 和 B 分別代表兩向量文件,n 表示兩向量文件之維度,其計算結果介於 0 18.

(29) 至 1 之間,當 A 和 B 向量的角度差距愈小時,結果會愈接近 1,表示兩文件相 似度愈高;反之,則愈不相似。 3. 事件偵測 計算完字詞權重並轉換成向量空間表示後,就可以進行事件偵測步驟,本研 究沿用 CMU 提出的方法,也就是利用 Single-pass Clustering 加上時間區間(Time Window)的處理來進行新聞事件的偵測。其計算公式如下 score(x) = 1 −. max {⁡(1 −. 𝑐𝑖 ∈𝑤𝑖𝑛𝑑𝑜𝑤. 𝑘 ) × 𝑠𝑖𝑚(𝑥⁡ ⃗⃗⃗ , ⃗⃗𝑐𝑖 )⁡} 𝑚. (6). 政 治 大. 其中 x 代表新進文件,𝑐𝑖 為時間區間中第 i 個群集之質心,𝑠𝑖𝑚(𝑥⁡ ⃗⃗⃗ , ⃗⃗𝑐𝑖 )為 x 與𝑐𝑖 的. 立. 相似度,m 為時間區間中所含的新聞文件數目,k 為群集𝑐𝑖 中最新一篇文件收錄. ‧ 國. 學. 時間至新進文件 x 到達的時間之間所增加的文件數目。. 可由上述得知 k 值愈大,對新事件的關聯度愈低。當計算出來的分數大於門. ‧. 檻值,則判定為新事件,反之,小於門檻值,則判定為舊有事件,交給事件追蹤. Nat. sit. y. 步驟進行歸類。之前學者研究發現事件通常至少會持續一星期以上,於是我們參. al. n. 4. 事件追蹤. er. io. 照前人將 m 設為一星期的平均新聞量。. Ch. engchi. i n U. v. 而在事件追蹤部分,本研究採用了 kNN 分類演算法來進行事件追蹤,以物 以類聚的概念,將相似的新聞文件進行歸類,其演算法步驟如下: 1. 將新進文件以向量表示 2. 其後進來的資料與先前資料兩兩比較 3. 擷取相似度最高的前 k 篇 4. 將擷取出的 k 篇中,相同群集內的所有文件與新進文件的相似度加總並除 以文件個數,結果數值最高的那群,則歸類成該群 重複 1~4 步驟,直到所有資料完成歸類。其計算公式如下:. 19.

(30) p(𝑥⁡ ⃗⃗⃗ , 𝐶𝑗 ) =. 1 ⃗⃗⃗⃗𝑖 ⁡, 𝐶𝑗 ) ×∑ 𝑠𝑖𝑚(𝑥⁡ ⃗⃗⃗ , ⃗⃗⃗⃗ 𝑑𝑖 ⁡) 𝑦(𝑑 𝑛𝑗 ⃗⃗⃗⃗⃗ 𝑑𝑖 ⁡∈𝑘𝑁𝑁. (7). 其中 x 為新進新聞文件之特徵向量,𝑛𝑗 為第 j 群集所包含的文件數量, ⃗⃗⃗⃗𝑖 ⁡, 𝐶𝑗 )為類別屬性函數,若d ⃗⃗⃗⃗i ⁡屬 𝑠𝑖𝑚(𝑥⁡ ⃗⃗⃗ , ⃗⃗⃗⃗ 𝑑𝑖 ⁡)為向量 x 與文件 i 向量之相似度,𝑦(𝑑 於𝐶𝑗 群集,函數值為 1,反之為 0。計算完後結果數值最高的那類別,將新進文 件歸類至該類別。 3.2.4 分群結果評估. 政 治 大. 為了得知新聞分群分類之品質,來判斷及調整何種參數組合為最佳之分群,. 立. 本研究將用平均群內相似度以及平均群間相似度計算出分群品質之衡量指標。. ‧ 國. 學. 1. 平均群內相似度. 平均群內相似度是將各群集內之文件,兩兩比較之後將其相似度全部加總除. ‧. 以比較次數已獲得群內相似度。而各群的群內相似度乘上各群所含的文件數目佔. Nat. sit. y. 總文件數目之比例,即可獲得平均群內相似度。計算出來的數值介於 0 到 1 之間,. n. al. er. io. 愈接近 1 表示群內相似度愈高。公式如下:. Ch. 平均群內相似度 = ∑. i n U. v. ∑𝑑𝑖 ∈𝐶𝑘 ∑𝑑𝑗∈𝐶𝑘 𝑠𝑖𝑚(𝑑𝑖 , 𝑑𝑗 ). e𝑁n ×g(𝑁 c h−i 1) × 1 𝑘. 𝑘. 2. ×. 𝑁𝑘 𝑁. (8). 其中,N 表示資料總數,𝑁𝑘 表示𝐶𝑘 群的文件數量,⁡𝑠𝑖𝑚(𝑑𝑖 , 𝑑𝑗 )則表示𝐶𝑘 群內 𝑑𝑖 與𝑑𝑗 二筆文件比較後得到的相似度。 2. 平均群間相似度 平均群間相似度是計算各群之間的相似度,計算時以各群的質心為該群的代 表點,將各群之質心做兩兩相似度比較,接著將相似度加總,並除以比較次數, 便可以得到平均群間相似度。此數值愈高表示群間的相似度愈高。公式如下:. 20.

(31) 平均群間相似度 =. ∑𝐶𝑖 ∈𝐶 ∑𝐶𝑗∈𝐶 𝑠𝑖𝑚(𝐶𝑖 , 𝐶𝑗 ) (9). 1 𝐶 × (𝐶 − 1) × 2. 其中 C 為群集總數,𝑠𝑖𝑚(𝐶𝑖 , 𝐶𝑗 )為𝐶𝑖 與𝐶𝑗 兩群集的質心相似度。 3. 分群品質 為了衡量分群品質優劣,可以利用以下公式:. 分群品質 =. 平均群內相似度. (10). 平均群間相似度. 政 治 大. 一個好的分群之意義在於將群集內的相似度程度高以及群間的相似程度低,. 立. 可以利用分群品質來衡量分群的優劣。. ‧ 國. 學. 3.2.5 事件偵測追蹤之參數選擇. ‧. 本研究將依照事件偵測的 Single-pass Clustering 加時間區間的分群法以及事. y. Nat. io. sit. 件追蹤的 kNN 分類法進行參數的選擇。. n. al. er. 事件偵測演算法部分,本研究希望能夠在包含最多的文件量下,剔除不重要. Ch. i n U. v. 的小事件群集。由表 3-1 可以看出,將事件追蹤參數 k 固定,其高於平均每群文. engchi. 件數的文件量在 0.97 時有最大值 92%,故將公式(6)的新聞偵測門檻值 score 設 為 0.97。. 21.

(32) 表 3-1 事件偵測參數選擇 高於平均每群文件數的 k. 群集數量. score. 平均每群文件數 文件比例. 3173. 4. 0.73. 0.9. 2773. 5. 0.74. 0.91. 2420. 6. 0.76. 0.92. 2013. 7. 0.79. 0.93. 1541. 9. 0.82. 0.94. 1133. 0.95. 715. 0.96. 420. 35. 191. 77. 86. 171. 47. 313. 0.91 0.92 0.88. io. sit. y. 0.83. 資料來源:本研究自行整理. n. al. 0.88. er. Nat. 0.99. 0.84. ‧. 0.98. 立. 政 13 治 大 20. 學. 0.97. ‧ 國. 3. 0.89. i n U. v. 事件追蹤部分,經前測實驗發現當 kNN 演算法的 k 值越高平均群間的相似. Ch. engchi. 度也會愈高。表 3-2 以 0.94 為新聞偵測門檻值為範例,為了讓群間的相似度盡 量低,所以本研究採用 k 值為 3 來進行參數設定來進行最後的結果分析。 表 3-2 事件追蹤 k 值參數選擇 Score. 0.94. k. 平均群內相似度. 平均群間相似度. 3. 0.1171226945. 0.02041581124. 5. 0.117136695. 0.0215298196. 7. 0.1210459039. 0.02317893855. 22.

(33) 9. 0.1154632775. 0.02354204524. 11. 0.1150840478. 0.02524676531. 13. 0.1143222841. 0.02619265414. 15. 0.116595416. 0.02672168928. 資料來源:本研究自行整理 所以本研究使用 0.97 為新聞偵測門檻值以及使用 3 為新聞追蹤的 k 值,其 分群歸類後的結果交給下一步驟處理。 3.2.6 第二階段分群. 立. 政 治 大. 本研究在研究過程中,發現在政治類別下的新聞,常常會有相同的詞彙重複. ‧ 國. 學. 出現在不同的新聞事件中,例如:總統、立法院、行政院、王金平、馬英九等等, 導致會有同一群集內出現不同的新聞事件。所以本研究認為有要做第二階段分群. ‧. 的需要。. Nat. sit. y. 透過新聞偵測追蹤模組出來的新聞事件群集,計算其平均群內相似度,將低. n. al. er. io. 於平均群內相似度的群集做第二階段分群,將其事件群集更進一步的細分。. i n U. 本研究選擇用 k-means 分群演算法,其做法如下:. Ch. engchi. v. 1.. 隨機選定 k 個資料點作為初始群集質心點. 2.. 計算離質心點最近的文件,並將其文件分到該群集. 3.. 重新計算出該群的新質心點. 4.. 重複 2 與 3 步驟,直到質心點不再更變. 其 k 值代表欲分出的群集數量,本研究將 k 設定為 2,因為經過第一次的分 群歸類,群集已經有一定的相似程度,所以再經由第二次分群把群集切割成兩個 群集,更能夠把事件劃分出來。再者,選用不同的演算法能夠泥補不同演算法之 間的缺陷。 23.

(34) 經由 k-means 分出來的群集之群內相似度若低於新聞偵測與追蹤的平均相 似度則繼續分群。直到群內相似度高於平均相似度。 3.2.7 意見辭典 本 研 究 利 用 台 灣 大 學 情 緒 詞 辭 典 (National Taiwan University Sentiment Dictionary;NTUSD)以及知網所發佈的中文情感分析用詞語集作為本研究的意見 辭典主要資源,並且擷取以往學者研究所列出的否定詞和本研究自行整理的否定 詞作為否定辭庫,經研究整理過後一同彙整到我們的意見辭庫中。. 政 治 大 分別是正面情緒字詞(如:歡喜、喝采),負面情緒字詞(如:哀傷、懊悔),正面 立 其中,知網發布的情感辭典內容包含約 9,193 字詞,共有六個子類別詞語集,. 評價字詞(如:純真、誠實),負面評價字詞(如:霸道、卑微),程度級別字詞(如:. ‧ 國. 學. 過度、非常、格外、更為、蠻、半點),主張字詞(如:發覺、相信)。在本研究不. ‧. 採用主張字詞以及程度級別字詞作為意見分析詞彙。. y. Nat. 在意見詞的擷取部分,中文情感分析用詞語集作的正(負)面情緒子類別字詞,. er. io. sit. 是描述內心有所觸發而引起的心理反應,而正(負)面評價子類別字詞,則用來評 估人事物的優劣、善惡美醜。在本研究範圍裡,情緒字詞與評價字詞皆能表達出. al. n. v i n 意見,只是從不同角度來表達。因此本研究將正面情緒字詞與正面評價字詞,一 Ch engchi U. 同視為「正面意見詞」 ;負面情緒字詞與負面評價字詞一同視為「負面意見詞」。 並且統整 NTUSD 的正向詞 2,810 個與負向詞 8,276 個當作本研究的意見詞彙。 3.2.8 意見萃取 就一般而言,動詞是主要含有意見的字詞詞性,形容詞亦可以表現出情緒傾 向,本研究經由 CKIP 中研院斷詞系統斷詞,CKIP 將大多的形容詞斷詞為狀態 不及物動詞,所以不及物動詞(Vi)、及物動詞(Vt)是本研究意見判斷的範圍。 此步驟在於擷取文件中含有的意見詞語,主要方式是擷取文章中的意見詞, 24.

(35) 以及經過反向標記的意見詞。經由斷詞詞性篩選過後的詞彙與本研究的意見辭典 比對相同,即代表含有意見的字詞並標記該意見詞是正向還是負向。若遇到比對 相同的意見詞前有反向標記,則將該意見詞的極性反轉。 3.2.9 文件極性計算 本研究將比對出來的意見詞作為文件極性計算的出發點,透過以下公式計算 出意見分數: 1⁡, 𝑖𝑓⁡𝑜𝑡𝑖 ⁡𝑖𝑠⁡𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 −1⁡, 𝑖𝑓⁡𝑜𝑡𝑖 ⁡𝑖𝑠⁡𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒 polarity(𝑜𝑡𝑖 ) = { 3⁡, 𝑖𝑓⁡𝑜𝑡𝑖 ⁡𝑖𝑠⁡𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒⁡𝜖⁡𝑡𝑖𝑡𝑙𝑒 −3⁡, 𝑖𝑓⁡𝑜𝑡𝑖 ⁡𝑖𝑠⁡𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒⁡⁡𝜖⁡𝑡𝑖𝑡𝑙𝑒. 立. (11). 政 治 大. 𝑛. ‧ 國. 學. positive_score(𝑑𝑗 ) = ∑ polarity(𝑜𝑡𝑖 ) , 𝑖𝑓⁡polarity(𝑜𝑡𝑖 ) > 0 𝑖=1. (12). 𝑛. ‧. negative_score(𝑑𝑗 ) = ∑ polarity(𝑜𝑡𝑖 ) , 𝑖𝑓⁡polarity(𝑜𝑡𝑖 ) < 0 𝑖=1. Nat. sit. y. (13). io. er. 其中 ot(opinion term)代表意見詞或意見片語,polarity(𝑜𝑡𝑖 )表示意見語彙所 屬的意見極性傾向,若意見語彙極性是正向,則分數計算為 1;反之則為-1。如. al. n. v i n Ch 果新聞標題的意見詞彙出現在新聞內容中,則給予加權 e n g c h i U 3。d(document)代表新聞. 文件,n 代表文章𝑑𝑗 中意見詞彙之個數,positive_score(𝑑𝑗 )為𝑑𝑗 新聞文件的正向 極性分數,negative_score(𝑑𝑗 )則為𝑑𝑗 新聞文件的負向極性分數。 文件極性部分,將所有新聞文件正向與負向極性分數的絕對值加總,得到分 數總量,再利用正向極性分數除以分數總量,得到正向文件門檻值。最後將每一 則新聞文件之正向極性分數與負向極性分數的比例做運算,超過正向文件門檻值 該文件則為正向,標示為 1;低於門檻值該文件則為負向,標示為-1;等於門 檻值或該文件無任何極性分數,則標記為 0,代表該文件為中立文件。. 25.

(36) 3.2.10 群集結果與輿情分析 本研究將整體政治新聞意見趨勢圖與群集事件意見趨勢圖,與民意調查公布 的結果進行相似度分析。透過文獻中提到的(O'Connor et al., 2010)學者,利用每 日意見趨勢圖進行時間區間的平滑以及相關調整,與民調結果做敏感度分析計算,. 本研究意見趨勢. 再進一步深入探討相關結果。. 立. 政 治 大. y. sit. io. n. er. 民意調查趨勢. ‧. ‧ 國. 學. Nat. al. Ch. engchi. i n U. v. 圖 3-2 相似度比較概念圖 資料來源:修改自(O'Connor et al., 2010). 26.

(37) 第四章 研究結果 本研究擷取 2013 年 6 月 10 日至 2014 年 5 月 6 日共 14,729 篇中央通訊社的 政治類新聞。在經過資料前處理步驟後,利用新聞偵測追蹤演算法配合第二階段 分群的 k-means 演算法將新聞分群歸類,且進行意見詞萃取與意見分數計算得到 文件極性,最後得到的分群結果進行事件輿情分析。 將研究結果分成兩個部分,第一為事件輿情與民意關聯,探討負面事件群集 並以民意調查資料進行相關比對。第二為輿情趨勢關聯,利用民意調查滿意度趨 勢配合整體新聞輿情趨勢線,進行相似度分析與探討。 事件輿情與民意關聯. 4.1. 立. 政 治 大. 研究結果分出來的群集數量有 208 群,由於事件群集數量眾多,且其中有許. ‧ 國. 學. 多群集只包含個位數的文件,故本研究挑出群集內文件數大於平均值且負向比例. sit. y. 表 4-1 負向文件群集資訊. Nat. 文件數量 正向文件數量 負向文件數量 正向比例(%) 負向比例(%). io. 140002. 94. 59. 254. a l 16 C 84 h. 41000191. 608. 206. 330001. 807. 410002. er. 群集編號. ‧. 大於 50%的群集來討論。下表 4-1 是挑選出來的群集資訊:. 82.98. 33.07. 66.54. 401. 33.88. 65.95. 300. 506. 37.17. 62.70. 1499. 589. 908. 39.29. 60.57. 1150001. 230. 94. 134. 40.87. 58.26. 100. 209. 93. 116. 44.50. 55.50. 61. 113. 53. 60. 46.90. 53.10. 58. 140. 67. 73. 47.86. 52.14. 570001. 235. 114. 121. 48.51. 51.49. n. v 17.02 i n. 78. e n g c169 hi U. 資料來源:本研究自行整理 27.

(38) 本研究認為一件新聞事件至少會持續一個禮拜以上,所以利用計算出該事件 群集某一日期至前六個日期(包含當下的日期)的文件成長數量之斜率,斜率越高 代表那一週此事件群集的文件成長數量越多,也代表該週此事件的熱門程度越大。 此外,取出高於平均的斜率值,來找出該事件發生的熱門週期區間。最後本研究 再把高於平均的斜率值取平均值,作為該群集的事件熱門程度。以下就依照事件 熱門程度由高到低來分析各個事件輿情。將該群集內 TF-IDF 總和前十高的新聞 標題列出,作為該群集的代表新聞文件,進而觀察其新聞內容,將該群集命名。 如下表 4-2。. 政 治 大. 表 4-2 負面事件群集名稱與熱門程度. 41000191. 太陽花學運. 15.5767. 410002. 九月政爭. 11.3436. 330001. 洪仲丘. 10.7760. 1150001. 軍事國軍. 4.4890. y. 59. 食安風波. 3.9285. sit. 服貿議題. i n U. Nat. io. n. al. 570001. Ch. engchi. 大埔事件. 100. er. ‧ 國. 事件熱門程度. 學. 群集名稱. ‧. 立. 群集編號. v. 3.1576 2.4188. 58. 財政預算相關. 2.0344. 140002. N/A. 1.9323. 61. N/A. 1.4555. 資料來源:本研究自行整理. 28.

(39) 首先是事件熱門程度 15.5767 的群集,觀察新聞文件內容,將它命名為太陽 花學運。 表 4-3 太陽花學運群集 群集編號. 41000191. 群集名稱. 太陽花 學運. 立. 新聞標題. TF-IDF 總和. 馬總統在黨團大會談話全文 反服貿 民眾學生占立院議場 反服貿占議場 超過 24 小時 總統向學生喊話 把議場還國會 現場直擊:群眾占政院史上首遭 江揆:總統願和蘇貞昌辯服貿. 10.4801 10.3923 10.3462 9.6419 9.2677 9.1306. 反服貿學運大事記 反服貿集會凱道 繼續占據國會 江揆在黨團大會談話全文 為何要退回服貿 總統想問學生. 9.0180 8.9871 8.9568. 政 治 大. ‧ 國. 學. 資料來源:本研究自行整理. 8.9356. -10 -15. y. sit er. al. n. -5. io. 0. Nat. 5. ‧. 將太陽花學運的新聞文件極性與文件累積數量以每日為單位,其趨勢圖呈現 於圖 4-1。也將其文件累積數量與七個單位日期計算出斜率,將趨勢呈現於圖 4-2。. Ch. n U engchi. iv. -20. 700 600 500 400 300. -25. 200. -30 100. -35 -40. 0 文件極性. 文件累積數量. 圖 4-1 太陽花學運之文件極性與累積趨勢圖 資料來源:本研究自行整理 29.

(40) 30. 700. 25. 600 500. 20. 400. 15. 300. 10. 200. 5. 100. 0. 0. 斜率. 文件累積數量. 政 治 大. 圖 4-2 太陽花學運之文件成長斜率趨勢圖. 學. ‧ 國. 立資料來源:本研究自行整理. 再從太陽花學運的斜率取出高於平均值的斜率值呈現於表 4-4,代表事件發 生的熱門區間週期。. y. ‧ 斜率. 48. 133. 9.142857. er. a l18 22C h. sit. 文件累積數量. v ni. n. 2014/3/20. 當日文件數量. io. 2014/3/19. Nat. 日期. 表 4-4 太陽花學運之熱門週期資訊. 151. 11.57143 14.57143. 2014/3/22. 32. 173 e n g c h i U205. 2014/3/23. 35. 240. 23.71429. 2014/3/24. 26. 266. 25.85714. 2014/3/25. 6. 272. 19.85714. 2014/3/26. 8. 280. 18.42857. 2014/3/27. 7. 287. 16.28571. 2014/3/28. 22. 309. 14.85714. 2014/3/29. 36. 345. 15. 2014/3/30. 12. 357. 13. 2014/3/31. 14. 371. 14.14286. 2014/3/21. 30. 19.

(41) 32. 403. 17.57143. 2014/4/2. 20. 423. 19.42857. 2014/4/3. 31. 454. 20.71429. 2014/4/4. 6. 460. 16.42857. 2014/4/5. 7. 467. 15.71429. 2014/4/6. 15. 482. 15.85714. 2014/4/7. 41. 523. 17.14286. 2014/4/8. 12. 535. 16. 2014/4/9. 10. 545. 13. 2014/4/10. 14. 559. 14.14286. 2014/4/11. 8. 567. 2014/4/12. 2. 2014/4/13. 立3. 政 治 大 569 572. 14.28571. 2014/4/14. 1. 573. 5.428571. 資料來源:本研究自行整理. 12.42857 7. 學. ‧ 國. 2014/4/1. ‧. Nat. sit. 至 2014/4/14,所以太陽花學運的熱門週期約為四個禮拜。. y. 從表 4-4 中,我們找出連續且不中斷超過一週的時間區間,結果為 2014/3/19. n. al. er. io. 以 TVBS 民意調查中心的民調資料作為標準,我們可以發現在 2014/3/24 時. i n U. v. 有最高的峰波值 25.85714,參照 TVBS 民調中心在 103 年 03 月 24 日發表的學生. Ch. engchi. 佔領行政院事件民調與 103 年 03 月 21 日發表的兩岸服務貿易協議及學生佔領立 院事件民調,可以發現相關性。第二高的波峰值為 2014/4/3 的 20.71429,參照 TVBS 在 103 年 04 月 03 日發布的「反反服貿」前進立院後,反服貿學運民調。 陸續的波峰值對照 103 年 04 月 08 日學生宣佈退出立法院議場服貿民調、103 年 04 月 10 日太陽花學運退場民調,以上皆可發現其時間上的相關性。. 31.

(42) 接著是熱門程度 11.3436 的群集,觀察其新聞內容有包含監聽風波、關說案、 王馬鬥爭、倒閣案以及學運期間的立法院相關新聞,命名為九月政爭與立法院學 運(以下皆簡稱九月政爭)。 表 4-5 九月政爭與立法院學運群集 群集編號. 410002. 群集名稱. 九月政爭 與 立法院 學運. 立. 新聞標題. TF-IDF 總和. 江揆對不信任案回應聲明全文 江宜樺談王金平涉關說案摘要 國慶大會 精彩活動獲滿堂彩. 12.8659 10.7863 9.7794. 馬江對王釋善意 僵局有解 匡正監聽亂象 蘇促提修法對案 小英籲修法釋憲 補正制度缺失 立院開議 江揆王金平暫無互動 總統兼黨魁 政務黨務團結改革 馬家悼秦厚修 來世再續親緣 開議日江宜樺未報告 立院空轉. 9.7655 9.5009 9.3567. 政 治 大. ‧ 國. 學. 9.3098 9.1798 9.0520 8.9952. 資料來源:本研究自行整理. ‧. 0. y. sit. al. n. 5. io. 10. er. 現於圖 4-4。. Nat. 按照同樣的方式,將九月政爭的新聞文件極性與文件累積數量的趨勢圖呈現 於圖 4-3 圖 4-1。也將其文件累積數量與七日的日期單位計算出斜率,將趨勢呈. Ch. n U engchi. iv. 1600 1400 1200 1000. -5. 800 -10. 600. -15. 400. -20. 200. -25. 0 文件極性. 文件累積數量. 圖 4-3 九月政爭之文件極性與累積趨勢圖 資料來源:本研究自行整理 32.

(43) 25. 1600. 1400 20. 1200 1000. 15. 800 10. 600 400. 5. 200 0. 0. 斜率. 文件累積數量. 政 治 大. 圖 4-4 九月政爭之文件成長斜率趨勢圖. 立資料來源:本研究自行整理. ‧ 國. 學. 再從九月政爭的斜率取出高於平均值的斜率值呈現於表 4-6,代表事件發生 的熱門區間週期。. 2013/9/11. 80. 30. 110. 2013/9/12. 17. 2013/9/13. i n U 163 129. engchi. er. a l19 C 34 h. y. 15. sit. 文件累積數量. n. 2013/9/10. 當日文件數量. io. 2013/9/9. ‧. 2013/9/8. Nat. 日期. 表 4-6 九月政爭之熱門週期資訊. v. 斜率 6.428571 10.57143 13 17.42857. 180. 17.71429. 23. 203. 19.71429. 2013/9/14. 17. 220. 20. 2013/9/15. 12. 232. 17.42857. 2013/9/16. 18. 250. 17.28571. 2013/9/17. 36. 286. 17.57143. 2013/9/18. 16. 302. 17.42857. 2013/9/19. 4. 306. 14.71429. 2013/9/20. 2. 308. 12.57143. 2013/9/21. 3. 311. 11.28571. 2013/9/22. 4. 315. 9.285714. 33.

(44) 2013/9/23. 16. 331. 6.428571. 2013/9/24. 27. 358. 8. 2013/9/25. 17. 375. 9.857143. 2013/9/26. 13. 388. 11.42857. 2013/9/27. 16. 404. 13.28571. 2013/9/28. 9. 413. 14. 2013/9/29. 10. 423. 13.14286. 2013/9/30. 29. 452. 13.42857. 2013/10/1. 22. 474. 14.14286. 2013/10/2. 22. 496. 15.42857. 2013/10/3. 15. 511. 15.28571. 2013/10/4. 23. 534. 17.28571. 2013/10/5. 8. 2013/10/6. 6. 2013/10/12 2013/10/14. 2013/10/17. 582. 12.28571. 16. 598. 27. 625. 13. 638. 13.71429. 4. 642. 10. 652. 12.85714. 33. 685. 41. 726. a l10 C 8 h. n. 2013/10/16. io. 2013/10/15. Nat. 2013/10/13. 20. 736. engchi. 12.42857 13. sit. 2013/10/11. 12.57143. er. 2013/10/10. 562. 學. 2013/10/9. 13.71429. y. 2013/10/8. ‧ 國. 立14. 17. ‧. 2013/10/7. 政 治 542 548 大. Un. iv. 13.42857 14.71429 18.28571 15.85714. 744. 15.14286. 763. 17.28571. 2013/10/18. 19. 2013/10/19. 5. 768. 16.57143. 2013/10/20. 4. 772. 12.42857. 2013/10/21. 13. 785. 8.428571. 2013/10/22. 6. 791. 7.857143. 2013/10/23. 7. 798. 7.714286. 2013/10/25. 11. 811. 6.142857. 2013/10/26. 1. 812. 5.714286. 2013/11/4. 17. 871. 6.571429. 2013/11/5. 6. 877. 6.857143. 2013/11/6. 4. 881. 7. 34.

(45) 2013/11/7. 5. 886. 6.285714. 2013/11/8. 6. 892. 6.285714. 2014/3/14. 6. 1255. 6.142857. 2014/3/16. 3. 1258. 6.428571. 2014/3/17. 13. 1271. 8. 2014/3/18. 7. 1278. 8.428571. 2014/3/19. 7. 1285. 7.428571. 2014/3/20. 6. 1291. 6. 2014/3/21. 19. 1310. 7.857143. 2014/3/22. 7. 1317. 8.428571. 2014/3/23. 2. 1319. 6.857143. 2014/3/24. 4. 1323. 6.428571. 2014/3/25. 2. 2014/4/3. 10. 立1. 2014/4/7 2014/5/6. 5.714286 5.714286. 1378. 5.714286. 5. 1383. 6.285714. 11. 1489. 學. 2014/5/5. ‧ 國. 2014/4/6. 政 治 1325 1377 大. 6.857143. ‧. 10 1499 資料來源:本研究自行整理. 6.142857. Nat. sit. y. 挑選連續且不中斷超過七日的時間區間,為 2013/9/8 至 2013/10/26,其中 11/4. n. al. er. io. 與 10/26 超過七日時間所以中斷,九月政爭的熱門持續期間約為七個禮拜。. i n U. v. 在 2013/9/14 有斜率最高值 20,TVBS 民調中心分別在 102 年 09 月 13 日發. Ch. engchi. 表王金平關說風波:民眾對特偵組看法民調、102 年 09 月 11 日發表國民黨撤銷 王金平黨籍事件民調以及在 102 年 09 月 09 日發表王金平涉關說柯建銘案民調。 觀察斜率趨勢圖,可以發現在 2013/10/4 又有一頂峰值為 17.28571,對照 TVBS 在 102 年 10 月 02 日發表的特偵組監聽立法院事件及馬總統滿意度民調。而又在 2013/10/15 可以發現一頂峰值為 18.28571,對照 TVBS 在 102 年 10 月 14 日發表 的倒閣案民調。 以上眾多數值皆符合九月政爭的相關重大內容之時間點。九月政爭事件群集 中有一定水準反映出真實情況。. 35.

(46) 觀察事件熱門程度 10.7760 的群集,觀察新聞內容皆與「2013 年 7 月發生的 陸軍義務役洪仲丘死亡」事件有關,將它命名為洪仲丘。 表 4-7 洪仲丘群集 群集編號. 330001. 群集名稱. 洪仲丘. 新聞標題. TF-IDF 總和. 白衫軍找正義 總統訪洪家呼應 總統:護漁列海巡海軍持續目標 空軍參謀長 首位台大畢中將 禁閉廢不廢 軍方兩案並陳 航太國防展 國軍自製軍備亮相 洪仲丘案 總統:絕不能再發生. 9.9462 9.6969 9.6801 9.6340 9.4032 9.1783. 洪案步步錯 軍方該痛定思痛 禁閉流程涉法 軍檢持續調查 蘇貞昌籲總統 與民和解停核四 馬促查洪案真相 軍方再祭懲處. 9.1458 9.1232 9.0919. 立. 政 治 大. ‧ 國. 學. 資料來源:本研究自行整理. 8.9077. y. sit. al. n. -5. io. 0. er. 5. Nat. 10. ‧. 將洪仲丘的新聞文件極性與文件累積數量的趨勢圖呈現於圖 4-5 也將其文 件累積數量與七日的日期單位計算出斜率,將趨勢呈現於圖 4-6。. Ch. engchi. i n U. v. -10. 900 800 700 600 500 400 300. -15. 200 -20. 100. -25. 0 文件極性. 文件累積數量. 圖 4-5 洪仲丘之文件極性與累積趨勢圖 資料來源:本研究自行整理. 36.

(47) 18. 900. 16. 800. 14. 700. 12. 600. 10. 500. 8. 400. 6. 300. 4. 200. 2. 100. 0. 0. 政 治 大 圖立 4-6 洪仲丘之文件成長斜率趨勢圖 斜率. 文件累積數量. ‧ 國. 學. 資料來源:本研究自行整理. y. a l4. 文件累積數量. n. 2013/7/15. io. 2013/7/14. 當日文件數量. Ch. 23. 2013/7/16. 23. 2013/7/17. sit. Nat 日期. 表 4-8 洪仲丘之熱門週期資訊. i n U68 45. engchi. er. 期。. ‧. 取出高於平均值的斜率值呈現於表 4-8,代表洪仲丘事件發生的熱門區間週. v. 斜率 4 6.571429. 91. 9.571429. 27. 118. 12.28571. 2013/7/18. 19. 137. 14.28571. 2013/7/19. 8. 145. 14.85714. 2013/7/20. 15. 160. 16.42857. 2013/7/21. 14. 174. 15.14286. 2013/7/22. 19. 193. 14.57143. 2013/7/23. 15. 208. 12.85714. 2013/7/24. 12. 220. 11.85714. 2013/7/25. 16. 236. 13. 2013/7/26. 22. 258. 14. 2013/7/27. 12. 270. 13.71429. 37.

(48) 2013/7/28. 11. 281. 12.57143. 2013/7/29. 6. 287. 11.28571. 2013/7/30. 6. 293. 10.42857. 2013/7/31. 19. 312. 10.85714. 2013/8/1. 15. 327. 9.857143. 2013/8/2. 21. 348. 11.14286. 2013/8/3. 9. 357. 10.85714. 2013/8/4. 22. 379. 13.14286. 2013/8/5. 20. 399. 15.14286. 2013/8/6. 24. 423. 15.85714. 2013/8/7. 19. 442. 16.42857. 2013/8/8. 11. 453. 15. 2013/8/9. 4. 14.28571. 2013/8/11. 1. 457 政 治 大 458 467. 9.714286 6.571429. 2013/8/13. 2. 469. 1. 470. 19. 679. 5. 684. 4.428571. 1. 685. 2. 687. y. 4.571429. 3. 690. 5. 695. 2014/1/26 2014/1/27 2014/1/29. io. a資料來源:本研究自行整理 iv l C n hengchi U. n. 2014/1/30. Nat. 2014/1/28. 4 4. sit. 2014/1/25. er. 2013/8/14. ‧ 國. 立9. 學. 2013/8/12. ‧. 11.28571. 4.428571 4.714286 5. 觀察洪仲丘事件的時間區間,可得從 2013/7/14 至 2013/8/14,持續了四個禮 拜。 在 2013/7/20 時候有著第一次最高的斜率 16.42857,日期也大約與 TVBS 在 102 年 07 月 25 日所進行的洪仲丘事件及軍人形象調查有著相關性。. 38.

參考文獻

相關文件

&#34;Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values,&#34; Data Mining and Knowledge Discovery, Vol. “Density-Based Clustering in

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

“Water control and useful knowledge: river management and the evolution of knowledge in China, Northern Italy and the Netherlands.” Paper presented at the Global Economic

Paper presented at an invitational conference sponsored by the National Educational Research Policy and Priorities Board, the Office of Educational Research and Improvement, and

Parallel dual coordinate descent method for large-scale linear classification in multi-core environments. In Proceedings of the 22nd ACM SIGKDD International Conference on

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

Wolfgang, &#34;The Virtual Device: Expanding Wireless Communication Services through Service Discovery and Session Mobility&#34;, IEEE International Conference on