以社群媒體輔助新聞主題探索的視覺化資訊系統 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文. 立. Master’s 政治Thesis. 大. ‧ 國. 學. 以社群媒體輔助新聞主題探索的視覺化資訊系統. ‧. A Visualization Information System to Assist News. y. Nat. n. al. er. io. sit. Topics Exploration with Social Media. Ch. engchi. i n U. v. 研究生：林靖雅指導教授：李蔡彥. 中華民國一百零四年十月 Oct 2015.

(2) 摘要. 隨著社群媒體的普及，群眾產製的內容（ User-generated content, UGC）時常成為新聞記者取材的對象，但現今隨著社群媒體爆發的資料量，記者不易從資料中看到事件的全貌，僅將社群媒體當作一種消息來源，因此報導的內容經常抄襲網友的意見或是落入片面討論的窠臼，無法駕馭社群媒體帶來的豐富資料。考慮. 治政改善這樣的現象，本研究透過將新聞取材的過程分為探索事件、收集素材以及回大立溯情境三個動作來協助記者探索新聞主題。以推特（ Twitter）的資料為例，以網 ‧ 國. 學. 路為系統平台，開發一個輔助記者探索社群媒體上的事件、挖掘新聞主題的資訊. ‧. 系統，利用網絡分析以及自然語言處理的技術，結合視覺化的介面將事件資料集用故事元素的方式呈現，四種故事元素模型提供不同的觀察資料集的角度，並利. y. Nat. io. sit. 用調整四種故事元素的權重，還原推文文本的語境，找出使用者想看的內容。我. n. al. er. 們設計了兩階段的任務式實驗以及評估問卷來證明系統的可用性，透過實驗結果. Ch. i n U. v. 驗證了本研究在以社群媒體輔助記者探索新聞主題的系統之價值，能讓對事件不. engchi. 同熟悉程度的傳播記者在此平台上探索新聞主題，並寫下深度報導的編採線索或是一篇新聞報導，透過本系統的輔助，讓使用者在探索及追蹤一起事件時，變得較為快速。. i.

(3) Abstract. With the popularity of social media, news reporters usually draw the news materials from mass user-generated content. However, with the outbreak of social media data, the reporter is not easy to see from the data in the whole picture of event. They only use the social media as a news source, so the reported content often copied the views of users, or fall into the stereotype. 政治大 social media. Consider improving this phenomenon, our study use Twitter data for example, 立. of a one-sided discussion. The reporters can not control the wealth of information brought from. ‧ 國. 學. develop an information system to assist reporters to explore the events on social media, and mine the news topics. We use network analysis and natural language processing as our. ‧. technique, and show the story elements with the visualization interface. We apply four different. sit. y. Nat. story elements model, support the different way to explore data, and let user can adjust the. io. er. weights from different model to retrospect to the context of tweets, help user find the news. al. v i n C hexperimental results. the availability of the system through e n g c h i U We can allow the reporters who are n. topics. We have designed a two-stage task experiment and assessment questionnaire to prove. varying degrees of familiarity of the event to explore news topics from our system. We make the reporter to explore and track some events faster.. ii.

(4) 致謝. 終於到寫致謝的時候了！在碩士班一路學習的路上，最為感謝我的指導教授李蔡彥老師，老師在平常忙碌的生活中，仍時常撥出時間與學生互動、開會，與老師每次的開會都讓我獲益良多，老師除了教導我研究上的專業知識外，待人處世的態度更是讓人敬佩！跟著老師學習的這兩年來，我感受到自己學業及視野上的提升，也讓我更加堅信對於研究領域的興趣。接著要感謝水火計畫的陳百齡老師和鄭宇君老師，每兩週一次的計畫會議，在跨領域的合作上提供了很多有意義的建議及想法，透過在計畫中的交流，這本論文才得以完成。另外，謝謝擔任校外口委的王浩全老師，老師在口試後給予了許多很好的建議以及未來可能的發展。在研究所階段，對於給予各種幫助以及教導的老師們，真心表達感謝！. 立. 政治大. ‧ 國. 學. ‧. 除了老師們之外，感謝 IMLAB 的成員們！能來到這個大家庭是我的榮幸，與大家一起學習成長是前進的動力。感謝小蜜蜂學長一直以來的提點以及鼓勵、在我忙不過來的時候給予種種幫助的 Iris、不時提供 3D 列印產物療癒心靈的科西、一起在水火奮鬥的 Shota、從大學一直以來的同好 Co 菇、坐在我後面爆炸的小遊(XD)、有球球的橘子(XDD)，以及剛進實驗室的學弟妹酥酥、毅聖、恩加。謝謝你們豐富了我碩士階段的生活！另外，. sit. y. Nat. n. al. er. io. 也感謝水火計畫團隊的成員，非常有耐心的當我實驗的受測者，幫我做評估實驗！與你們一起研究的這段期間是非常有趣的時光。對於給予我各種鼓勵的親愛朋友們，衷心表達謝意！. Ch. engchi. i n U. v. 最後，非常感謝家人一路上的鼓勵，總是在我心情低落的時候給予我最好的安慰，尊重我的想法，給予我很多發揮的空間，你們是我最好的港灣，有你們的包容與支持是我前進的能量，謝謝你們！靖雅. iii. 2015/10/21.

(5) 目錄. 以社群媒體輔助新聞主題探索的視覺化資訊系統 ............................................................. 1 摘要........................................................................................................................................ i. Abstract ................................................................................................................................. ii. 政治大. 目錄...................................................................................................................................... iii. 立. ‧ 國. 學. 圖目錄 ................................................................................................................................. vii 表目錄 ................................................................................................................................... x. ‧ sit. er. 研究動機 ............................................................................................................... 1. io. 1.1. y. Nat. 第 1 章導論 ......................................................................................................................... 1. al. n. v i n Ch 研究目標 ............................................................................................................... 4 engchi U. 1.2. 1.3. 論文貢獻 ............................................................................................................... 5. 第 2 章相關研究 ................................................................................................................. 8. 2.1. 分析推特資料的工具 ............................................................................................ 8. 2.2. 使用推特幫助新聞記者 ........................................................................................ 9. 第 3 章系統概念與介面設計 ............................................................................................ 12. iv.

(6) 3.1. 系統概念 ............................................................................................................. 13. 3.2. 資料來源 ............................................................................................................. 14. 3.3. 系統介面設計 ...................................................................................................... 16. 3.4. 故事元素模型 ...................................................................................................... 21. 3.5. 推文素材收集、整理與歸類 ............................................................................... 34. 4.1. 推特資料蒐集 ...................................................................................................... 37. 4.2. 推文斷詞與主題探勘 .......................................................................................... 39. 4.3. 故事元素模型之視覺化技術 ............................................................................... 40. 4.4. 客製化決定推文順序 .......................................................................................... 43. 政治大第 4 章系統實作技術 ........................................................................................................ 37 立 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 第 5 章實驗設計與結果分析 ............................................................................................ 47. 5.1. 實驗目標 ............................................................................................................. 47. 5.2. 實驗對象 ............................................................................................................. 48. 5.3. 實驗流程 ............................................................................................................. 49. 5.3.1. 引導式任務熟悉介面 ...................................................................................... 49. 5.3.2. 第一階段問卷調查 .......................................................................................... 50 v.

(7) 5.3.3. 指定任務 .......................................................................................................... 55. 5.3.4. 第二階段問卷調查 .......................................................................................... 56. 5.4. 實驗結果分析與討論 .......................................................................................... 58. 5.4.1. 系統易用性問卷內容分析 ............................................................................... 59. 5.4.2. 系統有用性問卷內容分析 ............................................................................... 61. 學. 5.5. ‧ 國. 5.4.3. 政治大系統可用性尺度量表（SUS）比較分析結果................................................. 64 立開放性問題訪談結果 .......................................................................................... 73. ‧. 第 6 章結論與未來展望 .................................................................................................... 77. y. Nat. 6.2. 未來發展與改進 .................................................................................................. 78. n. al. er. sit. 研究結論 ............................................................................................................. 77. io. 6.1. Ch. engchi. i n U. v. 參考文獻 ............................................................................................................................. 80 附錄..................................................................................................................................... 84 附錄 A. 第一階段：引導式任務熟悉介面 ................................................................... 84. 附錄 B. 受測者開放性問題回饋................................................................................... 95. vi.

(8) 圖目錄. 圖 1. 記者認為將資訊快速傳播的重要性逐年比例變化圖 ....................................... 2 圖 2. 記者認為分析複雜問題的重要性逐年比例變化圖 ........................................... 2 圖 3. 系統概念示意圖 ................................................................................................... 13. 政治大. 圖 4. Browsing Room 的系統介面圖 ................................................................................. 18. 立. ‧ 國. 學. 圖 5. 推文介面範例........................................................................................................... 18 圖 6. Materials Room 的系統介面圖 .................................................................................. 19. ‧ sit. y. Nat. 圖 7. History 的系統介面圖 ............................................................................................... 20. er. io. 圖 8. History Items 的系統示意圖...................................................................................... 21. al. n. v i n C h..................................................................................... 9. Browsing Room 概念示意圖 22 engchi U. 圖. 圖 10. Time Model 的系統介面圖 ...................................................................................... 23 圖 11. Time Model 的局部放大功能 .................................................................................. 23 圖 12. Keywords Model 流程圖 ......................................................................................... 24 圖 13. BTM 計算後返回的十個主題與其關鍵字 .............................................................. 25 圖 14. Keywords Model 視覺化 ......................................................................................... 26. vii.

(9) 圖 15. Keywords Model 的系統介面圖 .............................................................................. 27 圖 16. Users Model 的流程圖............................................................................................. 28 圖 17. Users Model 的系統介面圖 ................................................................................ 30 圖 18. 調整 Users Model 的篩選功能後之示意圖 ..................................................... 31 圖 19. Noun Co-Word Model 的流程圖 ........................................................................ 31. 學. ‧ 國. 圖 20.. 政治大推文萃取出名詞的範例 ..................................................................................... 32 立. 圖 21. Noun Co-Word Model 系統介面圖 .................................................................... 33. ‧. 圖 22. 黃之鋒之名詞共字網路圖 ................................................................................ 34. y. Nat. al. er. io. sit. 圖 23. Tags Subgroup 介面圖 ......................................................................................... 35. n. 圖 24. 兩個 Tags Subgroup 區塊示意圖 ...................................................................... 36. Ch. engchi. i n U. v. 圖 25. 直覺化拖曳素材示意圖 ..................................................................................... 36 圖 26. 推特資料前處理流程圖 ......................................................................................... 38 圖 27. tweets 與 mentions 資料表....................................................................................... 38 圖 28. Users Model 視覺化示意圖 ..................................................................................... 42 圖 29. Noun Co-Word Model 視覺化示意圖 ...................................................................... 43 圖 30. 客製化標籤區塊之介面圖 ................................................................................ 44 viii.

(10) 圖 31. Tweets Display Area 中以不同順序顯示推文 .................................................. 46 圖 32. 實驗流程圖 ......................................................................................................... 49 圖 33. Windows 的自黏便箋 .............................................................................................. 61 圖 34. 系統可用性量表分數等級解釋圖 .......................................................................... 65 圖 35. 受測者問卷—系統滿意度結果 .............................................................................. 67. 政治大圖 36. 受測者問卷—系統可學習性結果 .......................................................................... 69 立. ‧ 國. 學. 圖 37. 受測者問卷—系統可用性結果 .............................................................................. 71. ‧. 圖 38. 受測者問卷—系統整合性結果 .............................................................................. 72. n. er. io. sit. y. Nat. al. Ch. engchi. ix. i n U. v.

(11) 表目錄表 1. 資料集資訊 .............................................................................................................. 15 表 2. 受測者基本資訊 ....................................................................................................... 48 表 3. 系統可用性問卷 ................................................................................................... 51 表 4. 系統細部功能的易用性問卷 .............................................................................. 52. 立. 政治大. 表 5. 各資料集指定任務 ............................................................................................... 56. ‧ 國. 學. 表 6. 系統有用性問卷 ................................................................................................... 57. ‧. 表 7. 系統易用性問卷分數 ............................................................................................... 59. y. Nat. n. al. er. io. sit. 表 8. 系統有用性問卷分數 ............................................................................................... 62. i n U. v. 表 9. 系統可用性量表（SUS）結果 ................................................................................ 64. Ch. engchi. 表 10. 可用性分類屬性表 ................................................................................................. 66 表 11. 問卷評分—系統滿意度結果 .................................................................................. 67 表 12. 問卷評分—系統可學習性結果 .............................................................................. 69 表 13. 問卷評分—系統效率性結果.................................................................................. 71 表 14. 問卷評分—系統整合性結果.................................................................................. 72. x.

(12) 表 15. 開放性問題............................................................................................................. 73. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. xi. i n U. v.

(13) 第1章. 立. 1.1 研究動機. 導論. 政治大. ‧ 國. 學. 隨著廿一世紀大數據（big data）時代來臨，新傳播科技革命大幅度地改變了新聞媒體的形貌，在蓬勃發展的社群媒體（social media）下，每時每刻不斷湧出大量. ‧. 的群眾資料，時常成為記者採集新聞題材的來源。記者漸漸從負責挑選新聞以及. Nat. sit. y. 報導呈現方式的資訊守門人（gatekeeper）[1]角色轉變為守候在社群媒體中，觀. n. al. er. io. 察哪些是有新聞價值才來報導的監看者（gatewatcher）[2]角色。在 2013 年一項. i n U. v. 關於美國新聞業（journalism）的調查中[3]，樣本數為 1000 位記者，有 53.8%的. Ch. engchi. 記者在工作時會使用微網誌（microblogs）類型的社群媒體例如推特來蒐集資料。而在使用社群媒體的目的上，78.5%的記者常用來檢查突發新聞，59.8%的人則表示也會用來找尋點子或故事。社群媒體重新定義了新聞記者的任務，面對廣泛且鉅量的社群媒體素材，記者該如何選取新聞主題？且這些素材又會如何被報導？在同樣一份調查中，針對記者這個職業角色，普遍認為將訊息快速傳播給公眾這件事的重要性日益下降（如圖 1），而分析事件的複雜問題的重要程度則日益上升（如圖 2）：. 1.

(14) 立. 政治大. 圖 1. 記者認為將資訊快速傳播的重要性逐年比例變化圖[3]. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2. 記者認為分析複雜問題的重要性逐年比例變化圖[3]. 這代表他們認為記者現在的職業力量漸漸從資訊傳遞的任務轉向為分析複雜的問題，不在於快速的資訊傳遞，而是提供調查報告和深度分析。但在這種取材於眾、資料由下而上（由一般人到記者）[4]的新聞產製中，不斷湧出的社群媒體資料造成記者難以面面俱到，而新聞故事（news story）的特性在面對網路媒體帶. 2.

(15) 來的衝擊中漸漸無法彰顯。. 以臺灣的現象為例，目前記者在撰寫新聞或找尋題材時，常利用批踢踢實業坊（PTT）作為蒐集素材的來源。PTT 是一個 BBS 型態的言論空間，由於具有相當大規模的社群，以及極佳的即時性互動，因此在 PTT 上發生的一些事情時常成為新聞媒體報導對象。批踢踢系統的特性，是以各式各樣的話題分成許多板，假如現在發生了一起事件，記者只要看完幾個板的內容，就可以大概知道網民們. 政治大當時間線拉長到一個禮拜，其資料刷新的速度就不適合用於較長時間的事件分析，立. 的意見。批踢踢可以當作一種消息的來源，但無法知道這起事件更全面的發展，. ‧ 國. 學. 且批踢踢的討論數量比起其他的社群媒體是較為有限且片面的。因此，記者在無法掌握其他社群媒體海量資料的情況下，光憑一己之力不可能去看到一起事件的. ‧. 整個面向以及脈絡，無法做出專業且客觀的分析，因此當點閱成了主導新聞內容. sit. y. Nat. 取向的標準後，回過頭也嚴重影響媒體篩選議題的格局，在沒有更好的議題下，. io. al. er. 造成常常一成不變的抄襲其他媒體已發表的新聞[5]或是網友們個人的評論內容。. n. 記者無法善用社群媒體帶來的資料能量，無法回歸記者本業進行較為深度的分析與挖掘事件。. Ch. engchi. i n U. v. 我們思考若記者要以社群媒體進行深度分析，挖掘新聞題材時，可能遇到的困難：第一個即為海量的資料，一起事件的推文筆數與使用者數量動輒上萬，記者在一開始接觸社群媒體的資料時，找新聞主題就會碰到第一個困難；第二個困難為取材是需要反覆探索的過程，當記者在進行取材的動作時，會以像是探索的方式進行，在挖掘的時候，並不肯定這條線索是不是有新聞價值的議題，可能在挖到中途時，對這條故事線沒有興趣或是線索遺失了、挖掘錯方向了，因此這個探索的取材過程是可能會不斷反復的；而第三個困難可能是在探索過後的思緒整. 3.

(16) 理，因為記者在挖掘的過程中，並不會只是單純挖掘一條故事線，在取材的過程中可能對很多內容有印象，太多的內容可能會導致思緒的混亂，因此無法從挖掘的過程中獲得有意義的新聞主題。綜上所述，記者因為這些困難導致他們無法利用社群媒體來進行一起事件的深度分析，只能將社群媒體用來當作一種消息來源，無法善用社群媒體帶來的資料能量，因此我們希望可以透過機器的輔助來解決記者在使用社群媒體取才會遇到的困難，讓記者可以透過本系統來深入探索一起事件，挖掘有新聞價值的主題，深化新聞的內涵。. 立. 1.2 研究目標. 政治大. ‧ 國. 學. 本研究希望開發一個為記者量身打造的輔助探索新聞主題的資訊系統，以一個完. ‧. 整的事件為本系統的資料主體。我們透過觀察記者在進行新聞取材時的行為，發. sit. y. Nat. 現記者在取材時有一些固定的模式，首先記者在剛接觸事件時，會先對資料進行. io. er. 廣泛的瀏覽，在瀏覽的過程中，不斷的更新對這個事件的瞭解，並從其中去挖掘. al. 一些有新聞價值的報導題材，但在以社群媒體為對象時，這個過程將會更加的複. n. v i n Ch 雜，而這個部分正是本研究專注的問題，我們希望能解決記者在探索海量資料時 engchi U 會遇到的困難，我們試著歸納記者的行為，將新聞取材的過程分為三個行為，分別是：＂探索事件＂、＂收集素材＂、以及＂回溯探索情境＂，我們認為透過系統來輔助這三個行為可以幫助記者從海量資料中挖掘報導題材，因此本系統以這三個行為為核心的概念，輔助記者探索社群媒體並撰寫深度報導分析。. 考慮到記者為使用對象，我們以容易接入（access）的網路為實作平台。而在社群媒體的選用上，本研究專注於將社群媒體的資料分析並探討是否可以透過本系統的操作方式輔助記者探索，希望資料集的內容是以一個事件為單位，可以讓. 4.

(17) 記者在本系統對一個持續追蹤的事件進行分析，以此為條件我們認為現今有兩大社群媒體符合我們的需求，分別是臉書以及推特，它們皆擁有豐富的討論社群，是值得探索的社群媒體，它們皆擁有開放的應用程式介面（ Application Programming Interface, API）供研究者撈取資料。但在撈取資料的方式，推特是以關鍵字為撈取對象，而臉書則是以粉絲頁為撈取對像，我們認為推特撈回來的資料較為符合本研究目標想要使用的內容，除此之外，臉書因為隱私問題大多數的使用者資料欄位不公開，推特在這方面則相對的較為開放，因此在本系統的個. 政治大. 案中，我們採用推特作為我們社群媒體資料集的來源。. 立. ‧ 國. 學. 在新聞取材中的探索事件行為，為了讓記者可以快速的瞭解事件資料集進行探索，我們將會使用四個不同資料探索的角度，利用網絡分析以及自然語言. ‧. 處理的技術建立故事元素模型，並結合視覺化的呈現，讓記者可以快速地瀏覽一. sit. y. Nat. 起事件的全貌，也可以深入探索、挖掘新聞主題。本系統考慮到記者的職業特性，. io. er. 在意資料的來源及原始內容，我們讓記者在探索的過程中，以互動的方式客製化. al. 調整權重，讓記者可以從事件故事中的脈絡連結，還原推文的語境，找到想看的. n. v i n Ch 內容。本系統在記者探索的過程中，會主動記錄其探索情境的歷程，以供記者需 engchi U. 要回溯時使用，記者也可以在一面探索推文時，收集（collect）有新聞感覺的推文，系統並提供整理素材的功能，讓記者可以更專注於思緒的收整。. 1.3 論文貢獻. 本論文的主要貢獻包含：. 1.. 開發一個善用的工具幫助使用者發掘及整理社群媒體資料. 5.

(18) 我們選擇以網路為系統平台，使用者不需另行安裝任何系統，方便日常隨時使用。我們著重在新聞故事的發掘以及脈絡的整理，過去已有工具專注於即時發掘熱門的主題，因討論熱烈而浮現的推文縱然有其報導熱點，但是基於記者特性，應注重於引發讀者對不同議題的重視。我們希望記者能對事件有更全面的了解，我們透過將新聞取材的過程分為探索事件、收集素材、回速探索情境的行為，幫助記者探索新聞主題，在一起事件中進行深度的分析，能在以社群媒體提出新聞觀點的同時避免因片面的資料而過度偏頗，且通過綜合其他網路使用者的意見，. 政治大. 撰寫出使讀者對事件引發反思的新聞，進一步引起對相關事件的重視。. 立可客製化探索推文之系統. ‧ 國. 學. 2.. ‧. 新聞記者關注一起事件可能是因為不同的原因，例如特別的字眼、敏感的時間點、某位發文的使用者，抑或是各項因素交雜的關係，所以我們規劃系統以探. y. Nat. io. sit. 索層面起始，以四種不同的故事元素模型呈現在社群媒體上發酵的故事，使用者. n. al. er. 可以根據自己的經驗選擇要從哪個方向切入資料，使用者可以自行調整想觀看的. Ch. i n U. v. 內容之權重，系統會依據依照計算後的權重，優先排序可能是使用者較關注的內. engchi. 容，降低使用者因為海量的資料迷失方向的可能，也能更快找出相關的內容，整出條理。. 3.. 專門針對記者使用之整理編輯介面. 我們觀察一般人在使用社群媒體找題材時，都是先從大量瀏覽開始，當發現足夠的話題點時再進一步深入，但我們認為在瀏覽的過程中，許多在此時不起眼的線索會被遺失掉，可能暫時看不出可以發展的題材，但或許彼此之間有隱匿的關係，所以我們提供「收集」的功能，幫助使用者加上記憶點，可以隨. 6.

(19) 時於素材空間（Materials Room）整理收集的內容，或是當素材還不足的時候繼續至瀏覽區（Browsing Room）發掘更多的內容；系統除了提供收集整理的功能，也提供「回溯」的功能，因為一般人在探索的過程中，不斷的往一個方向挖掘，難免會有碰壁、覺得這裡挖不下去的時候，而會想要重新回去上一層挖掘，因此系統的回溯功能會記錄使用者探索的歷程，以幫助使用者在探索的過程更加順利。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.

(20) 第 2 章相關研究. 政治大本章節我們將會分二個面向討論：第一部分為分析推特資料的工具、第二部分為使用推立. ‧ 國. 學. 特來幫助新聞記者的工具。. ‧. 2.1 分析推特資料的工具. y. Nat. io. sit. 推特（Twitter）是一個微網誌（microblogs）服務類型的社群媒體，使用者利用 140. n. al. er. 個字為一個單位來發一則訊息，這些訊息被稱為推文（tweet），使用者可以對任. Ch. i n U. v. 一則推文選擇轉推（retweet）到自己的狀態列上，在推文中可以利用 mention 的. engchi. 方式標註其它使用者，以及將詞彙前加上井字號（ #）標註為 hashtag。過去推特的研究大致可以分為兩個部分，分別是蒐集（ capture）與分析（analysis），蒐集的目的是在研究推特資料的撈取，而分析是針對推特的資料欄位、內容進行分析，延伸出許多應用工具，本系統以下將會針對分析工具進一步探討。. 在我們系統包含一些資料探索的工具，過去已經有許多分析推特資料工具的實現。例如 Twitonomy[6]是一個基於網路的工具，介面與推特工具相似，提供一些數據化的統計例如推文的數量、被轉推最多的推文等，以長條圖以及圓餅圖的方式呈現。 Twitter Collection and Analysis Toolkit（TCAT）[7]提供收集推文接著 8.

(21) 網路分析（network analysis）最後以視覺化完成的工具，也是一個基於雲端（ cloudbased）的工具。根據他們的發現，最常被使用的是 mention 共現圖（co-mention），通常被使用來找有影響力的人物、發掘有興趣的發文者。. 在使用推特資料的研究中，即時監測熱門主題也是一個蓬勃發展的領域，推特本身在 2014 年初與 Dataminr 公司合作推出 Dataminr for News[8]，幫助找到突發事件。 TwitterGathering[9]透過機器學習的方法幫助使用者找到當下熱門的話題，並萃取出竄升. 政治大. 的使用者、網址、Hashtag，以數量排列高低，將內容導回推特的頁面。. 立. 從過去的研究發現在探索社群媒體的使用者關聯的時候，普遍在意使用者之間的轉. ‧ 國. 學. 推、mention 的相互關係，並從中找到有影響力的使用者；並利用推特於發現突發新聞，. ‧. 第一手的爆料資料，較為注重數量級的分析，如高轉推的推文、高 mention 的使用者等；我們認為從推文發掘推文間的關聯可以發現更多線索，而不只是追求第一時間的爆料。. y. Nat. io. sit. Digital Methods Initiative Twitter Capture and Analysis Toolset（DMI-TCAT）[10]於 2014 年. n. al. er. 提出的工具集，提供涵蓋較廣的分析工具，包含從數量級統計推文數量、使用者活動、. Ch. i n U. v. Hashtag 等，或是從網路圖分析使用者 mention 的關係、Reply 的關係、co-hashtag 等。. engchi. 我們綜合這些在使用推特的資料進行的分析，收斂出四個探索資料的象限，從時間的推文數量級、推文內容的主題關係、推文內容的名詞共字以及使用者 mention/RT 的相互關係，希望能透過這些綜合指標的探索方式，幫助使用者從我們工具得到進行下一步的深入探索。. 2.2 使用推特幫助新聞記者. 社群網路的普及，打破了過去傳統媒體以菁英、專家意見為主的新聞內容偏向，大量的使用者自創內容（User-generated content, UGC）的湧出，使得新聞變得更 9.

(22) 加多元，社群媒體成為許多記者賴以找尋故事題材的地方，各式各樣的素材提供記者創作新聞的靈感。但水能載舟亦能覆舟，正因為如此龐大的資料量，記者往往在尋找素材的時候，無暇顧及其中的意涵，淪為看圖說故事，看網友反應決定新聞價值，反而使得網路成為廉價的競爭工具，新聞專業的特性漸漸無法彰顯，因此漸漸有許多工具被發展出，為了幫助記者從社群媒體得到更多資訊來創作新聞。. 政治大應用，Marcus 等人[11]從推文活動（tweets activity）的高峰（peak）來找出事件立分析推特資料來找尋資訊的研究相當多，我們專注於推特與新聞媒體相關的. ‧ 國. 學. （event）與子事件（sub-event）的關係，發展出一個叫 TwitInfo 的工具，目的在幫助做一起事件的摘要（summarization）。Diakopoulos and Shamma[12]利用視覺. ‧. 化的方式，將推文中所偵測到的情緒隨著時間用動態的方式呈現，以一個政治辯. io. n. al. er. 展一個幫助記者找出事件中的目擊者（eyewitness）。. sit. y. Nat. 論為個案展示結果。Diakopoulos 等人[13]之後透過分析事件的情境（context），發. Ch. i n U. v. 還有一些研究專注於即時發現突發事件 [14][15] 或是追蹤熱門話題. engchi. [16][17][18]。Zubiaga 利用轉推的數量在總推文中所佔的比例，即時分類推特官方篩選出的熱門話題[19]，考慮多樣性（Diversity）和分享（Reshare）的特性，加上一些社群特徵值（social features）來定義一個話題是不是有新聞價值（newsworthy），提出整合性的推特故事策展（curating）系統來幫助蒐集新聞[9]，這個研究專注於在即時熱門話題中找到有新聞價值的主題。. 可以看到目前已經有相當多的工具分析推特的資料，提供給不同類型的使用者運用，但據我們的了解，目前尚沒有協助記者進行一起事件進行深度探索事件的分析工具，但我們認為對於需要大量瀏覽、蒐集素材的記者來說，更是需要在 10.

(23) 這方面透過機器來輔助記者去分析較為複雜的事件，我們利用視覺化網絡分析以及文本分析的方式幫助記者觀察資料，客製化的根據每個記者的需求，篩選資訊有助於降低其工作的負擔，希望幫助他們可以更快速且方便的找到新聞主題，系統提供儲存推文與編輯素材的功能，幫助記者記憶較為複雜的事件，從中找到有用的資訊。我們的系統更專注於整合記者需要的分析功能，希望無論是偏向社群媒體分析的記者、或是以挖掘新聞線索來進行深度報導的記者都可以透過本系統挖掘新聞主題。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 11. i n U. v.

(24) 第 3 章系統概念與介面設計. 政治大我們觀察記者在找尋題材時的行為，將從社群媒體中新聞取材的過程分為＂探索事件＂、立. ‧ 國. 學. ＂收集素材＂、＂回溯探索情境＂，依照這三個行為我們將本系統分為三個部分，第一部分為素材瀏覽區（Browsing Room），提供使用者基本的資料分析工具，主要是作為探. ‧. 索故事用途的空間，並加入客製化標籤（tags）的概念，讓使用者可以透過不同層面的. sit. y. Nat. 解析資料的方法進入推特資料故事中，再以不同使用者會有不同的挖掘點出發，幫助使. io. er. 用者更加深入事件中心。第二部分是素材整理區（Materials Room），以新聞撰寫的流程. al. 為概念而設計的介面，提供素材收集、整理、歸類的功能，讓使用者從紛雜混亂的資料. n. v i n Ch 中，一步一步提取素材，收整成好的題材，開始進行撰寫新聞的醞釀。第三部分則是歷 engchi U. 史記錄（History），此部分記錄了使用者的探索歷程，幫助使用者回溯過往的探索情境，透過卡片式的方式陳列，隨時可以點選來回溯到 Browsing Room 的狀態。以下我們說明本研究的系統概念、資料集來源、系統介面設計、以及 Browsing Room 中故事元素模型與標籤面板，最後則是 Materials Room 及 History 的概念設計。. 12.

(25) 3.1 系統概念. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i n C圖h 3. 系統概念示意圖 engchi U. v. 本研究在設計一個結合社群媒體資料輔助新聞主題探索的視覺化資訊系統，圖 3 為本系統概念圖，主要概念為三大部分分別是 Browsing Room、Materials Room 以及 History。在 Browsing Room 中，使用者利用本空間進行探索推文、收集素材的動作，此時使用者一面收集推文進入素材庫，一面在內心對於新聞主題開始漸漸有雛型及撰寫的大綱，當收集到一定的數量或是對於新聞內容有大致的撰寫方向後，進入到 Materials Room 查看收集到的推文、從素材庫取出推文、編排素材，順一順思緒脈絡，並在此構思內容、撰寫新聞。系統允許使用者在 Browsing Room 與 Materials Room 之間來回移動，使用者檢. 13.

(26) 查收集到的推文是否有可寫的題材時，可能會發現還缺少一些素材，此時需要回到 Browsing Room 再進行探索內容的動作。. 探索主題的過程是一個不斷深入挖掘的行為，當對事件還沒有什麼想法的時候，可以先從廣泛的瀏覽開始，依據內容間的關聯性步步往下挖深。但當發現方向錯誤了、這個主題沒有什麼東西可以挖掘的時候，需要回到上一個探索點換一個路線繼續挖掘，此時便需要 History 空間提供的回溯功能，History 幫助使用者瀏覽歷程記錄以及回溯過去的狀態。. ‧ 國. 學. 3.2 資料來源. 立. 政治大. ‧. 為了建構與測試我們的系統，我們使用由推特官方提供的一系列 Web API（Application Programming Interface）服務，它提供程式開發人員可以透過這些 API 來存取推特上的. y. Nat. io. sit. 推文，多數以 JSON（Javascript Object Notation）的格式回傳存取的資料。推特從 2013. n. al. er. 年的 3 月開始，正式將 Twitter API 更新為 1.1 版本，其中比較常用的兩個 API 為 Streaming. Ch. i n U. v. API[20]與 Search API[21]。Streaming API 存取的資料是推特最即時的資料，推特會返回. engchi. 送出查詢（query）後到中止抓取資料當時的最後一筆資料；而 Search API 存取的資料則是推特的歷史推文資料，最多可查詢到時間點前七天的資料。. 目前為止，Streaming API 的關鍵字查詢不支援中文，因為 Streaming API 的實作是使用空格作為區分字彙的依據，但是中文的書寫習慣中並沒有依據空白來區隔字詞，因此我們選擇使用 Search API。我們基於 Digital Methods Initiative Twitter Capture and Analysis Toolkit （DMI-TCAT）[10]去改寫 Search 的撈取機制。DMI-TCAT 是一個幫助從推特上撈取資料以及收集分析的工具集，在撈取部份，實現了推特的 Streaming API 以及 Search API，我們從 Github 獲得其開放源碼後，將 Search 的撈取機制改寫成以每兩 14.

(27) 小時為單位自動執行一次程式，去撈取過去的資料。. 本次研究採用兩個資料集來實現本系統的功能，並於實驗評估階段交叉施測。第一個以 2014 年香港佔中事件[22]為個案資料集，我們透過下多個事件關鍵字的方式撈取推文，關鍵字包含政改、抗命、罷課、hkclassboycott、OccupyCentral、occupycentral、佔中、占中、UmbrellaRevolution、HKStudentStrike、雨傘革命、雨遮革命、遮打革命、清場、雨傘運動、佔領中環、UmbrellaMovement、occupyHK。蒐集回來的資料區間為從 2014. 政治大簡中文，因此排除掉非中文的語系推文之後，剩餘的數量為 497,519 筆推文，之後將會立. 年 8 月 24 日至同年 12 月 17 日，本次研究我們僅針對中文的推文做實驗分析，包含繁. ‧ 國. 學. 以此資料集進行系統展示。而第二個事件資料集為 2014 下半年的臺北市長選舉事件[9] 為個案資料集，蒐集的關鍵字包含柯文哲 , 柯 P , 連勝文 , 台北市長 , 民進黨 , 七合. ‧. 一選舉 , 國民黨 , 2014 選舉 , 勝文 , 馮光遠。蒐集回來的資料區間從 2014 年 8 月 5. sit. y. Nat. 日至同年 12 月 17 日，排除掉非中文語系的推文後，剩餘的推文數量為 144,572 筆。詳. io. n. al. er. 細資料集資訊如表 1：. 資料集名稱蒐集關鍵字. i n U. 表 1. 資料集資訊. Ch. engchi. 香港占中. 政改 , 抗命 , 罷課 , hkclassboycott , 清場 , 雨傘運動 , 佔領中環 , UmbrellaMovement , OccupyCentral , occupyHK , 雨傘革命 , UmbrellaRevolution ,. v. 台北市長選舉. 柯文哲 , 柯 P , 連勝文 , 台北市長 , 民進黨 , 七合一選舉 , 國民黨 , 2014 選舉 , 勝文 , 馮光遠. 佔中 , 占中 , 雨遮革命 , 遮打革命推文總筆數. 497,519 筆推文. 144,572 筆推文. 資料區間. 2014-08-24 22:06:20 ～ 2014-. 2014-08-05 07:05:03 ～ 2014-. 12-17 13:55:22. 12-17 15:29:00. 15.

(28) 3.3 系統介面設計. 系統介面分成三個空間，分別為素材瀏覽區（Browsing Room）、素材整理區（Materials Room）、歷史記錄（History），本章節會針對各個空間說明介面設計的概念。. 首先說明 Browsing Room 的部分，Browsing Room 之介面如圖 4，我們以顏色的區別依序介紹各區塊的用途、數字編號說明細部的功能。介面主要分為四個區塊，黃色區. 政治大 Zone）、綠色區塊則是故事元素模型（Story Elements Model）。立. 塊為工具列、藍色區塊為推文顯示區（Tweets Display Area）、紅色區塊為標籤面板（Tags. ‧ 國. 學. 黃色區塊的工具列包含導向至 Materials Room、History 的連結（編號 1）及顯示當. ‧. 下系統載入的資料集資訊總覽（編號 2），包含資料集名稱、總推文筆數、資料區間，讓使用者可以清楚知道現在在探索的是什麼故事。. sit. y. Nat. n. al. er. io. 綠色區塊的用途為，當使用者在開始接觸資料集、探索資料、尋找素材的時候，可. i n U. v. 能沒有頭緒要從何處下手，我們試想在社群媒體中，記者可能會需要的分析，第一個：. Ch. engchi. 時間，在故事元素中，我們認為時間在探索社群媒體的資料中是最為重要的元素，事件隨著時間的討論聲量變化，可以幫助記者瞭解全貌以及事件的趨勢；第二個是討論的意見、主題，記者需要瞭解在這事件中大概發生了什麼類型的事情，也想要知道網民們的意見；第三個是活躍的使用者，在社群媒體中，與一般線下的事件不同的是多了使用者這個傳播事件的角色，記者可能會想去關注這個事件中的意見領袖；第四個是線下事件中人事物間的關聯，什麼東西彼此有關係，其中是不是隱含了線索可以挖掘？透過上述的歸納，我們提供了從資料的不同方向探索的四個故事元素模型（編號 3），分別是時間（Time）、關鍵字（Keywords）、社群媒體用戶（Users）、名詞共字（Noun Co-Word）模型，我們認為記者在不同的事件找尋素材的起始點不一定一樣，可能會先根據事件發生 16.

(29) 的時間點、事件當中的關鍵人物、或是從時事議題著手、也有可能從社群媒體上活躍人物開始挖掘新聞，因此我們設計了多樣化的探索方式，使用者可從右上方的頁籤依據主觀意見選擇欲瀏覽的起點。而除了時間（Time）模型外的其他三個模型都可以在根據模型中的元素進行第二層的時間查詢（編號 4），詳細的說明留至第 3.3 節說明。. 紅色區塊的標籤面板（Tags Zone）代表的意涵是使用者在故事元素模型探索時，可以對故事元素模型中的任何元素進行＂選取＂的動作，此動作將會記錄該元素成為標籤. 政治大系統要返回的推文內容。我們也考慮到當使用者在接使用本系統時，對該資料集已經有立（tags）（編號 8），使用者可以根據自己的想法調整每個模型的權重（編號 5），以控制. ‧ 國. 學. 預定想要瞭解、關注的內容的話，可以手動輸入該關鍵字（編號 7）。編號 6 是一個儲存此時標籤權重狀態的書籤（Bookmark）按鈕，這部分會在 3.3 節詳細說明。. ‧. 藍色區塊的推文顯示區（Tweets Display Area）會因為客製化的條件不同，出現不同. y. Nat. io. sit. 的推文，使用者在 Tags Zone 加入標籤、調整權重後，按下 Apply 按鈕後，系統會從使. n. al. er. 用者給予的條件去計算推文的相關程度，並返回相關的推文於藍色區塊中，除此之外，. Ch. i n U. v. 會將此探索狀態（Exploring state）記錄下來，供使用者在 History 回溯時套用。推文的. engchi. 介面（如圖 4）包含推文內容、發文者、發文時間、轉推（retweet）數量、該推文含有的標籤，將滑鼠徘徊在發文者的帳號時會顯示該發文者的推特自我介紹，每則推文左下角為收集（Collect）的按鈕，使用者點選收集按鈕後，該則推文就會被收集到 Materials Box 中，使用者可於 Materials Room 看到該則推文。. 在推文內容的處理上，我們偵測推文文本原本的結構，包含＂#hashtag＂、＂@＂，若這些內容含有這些結構，將會還原成連結導向至其原始的頁面，例如使用者可以點選圖 4 的＂@mingjingblog＂，將可被導向該使用者的推特個人畫面，我們認為設計這樣的友善介面，可以幫助使用者在探索推文的時候對發文者的背景、Hashtags 的情境有更多 17.

(30) 的瞭解。我們也希望能給使用者越充足的資訊，幫助其在探索的時候挖掘到更多有趣的主題。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4. Browsing Room 的系統介面圖. 圖 5. 推文介面範例. 18.

(31) 系統的第二個介面為素材整理區（Materials Room），目的為幫助使用者將在 Browsing Room 探索過程中收集到的素材進行整理、收整想法、撰寫新聞的動作，主要畫面為素材陳列板如圖 5，編號 1 為存放使用者儲存的推文素材庫（Materials Box），編號 2 及 3 為進行標籤分類（Tags Subgroup）的陳列素材區，每位使用者可以依照自己收集的內容、想法、思緒將推文歸類，詳細的內容將會在 3.4 節說明。而最右邊的編號 4 則為供記者撰寫編輯內容的區域（Text Editor），讓使用者在靈感一來的時候，就可以將想法馬上記錄下來。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 6. Materials Room 的系統介面圖. 系統的第三個介面為 History（如圖 6），系統在使用者探索的過程中，會記錄使用者每次調整權重、使用的標籤，此為一個探索狀態（Exploring State），系統以卡片介面 19.

(32) 的形式儲存每一次的探索狀態為一個 History Item（如圖 7），人們隨時都可能因為瀏覽了什麼資訊，而觸發需要回憶的動作，History 的用途希望幫助使用者藉由追溯過往的瀏覽，激發其思緒脈絡的連接。圖 7 為三個 History Items 的示意圖，分別可以看到在某個時間點使用者的記錄，系統除了自動記憶探索狀態外，使用者也可以主動的 Bookmark 任何一個探索狀態，從圖 6 編號 2 的按鈕可以從 History 切換成只看 Bookmark 的探索狀態，在進行長時間的探索後，狀態會漸形增長，因此當使用者有主動 Bookmark 的習慣時，可以快速找到欲回溯的探索狀態。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 7. History 的系統介面圖. 20.

(33) 政治大. 圖 8. History Items 的系統示意圖. 立. ‧ 國. 學. 3.4 故事元素模型. ‧ sit. y. Nat. 本系統在 Browsing Room 的故事元素模型（Story Elements Model）提供了四種資料探索. io. er. 方式，分別是時間模型（Time Model）、關鍵字主題模型（Keywords Model）、發文者模. al. 型（Users Model）、名詞共字模型（Noun Co-Word Model），四個模型分別用不同的視覺. n. v i n Ch 化方式呈現。這四個故事元素模型的選用原因為我們試想在一個社群媒體的故事中，記 engchi U 者可能會關心且需要的內容，我們認為有：一、時間的聲量與趨勢，因為時間是重要的故事元素之一，什麼事情在何時發生可能是記者很關心的部分；二、討論的聲音，記者可能會想知道一起事件中的討論主題以及網友們的意見；三、活躍的使用者，例如是不是有意見領袖在事件中引導，這也是我們認為記者可能會需要的探索角度；四、線下（Offline）事件發生的人、事、物間的關聯，記者可能在聯想事件的關係上比較困難，我們認為可以透過詞彙共字的關聯來發掘其中隱藏的線索。透過系統提供的四種探索模型，我們希望能利用這些元素去塑造使用者對資料集的概念，讓他們可以快速地瀏覽一起事件的全貌，也可以深入探索及挖掘。. 21.

(34) 本章節會說明 Story Elements Model 的視覺化設計，以及將四個模型的故事元素串起的 Tags Zone，其中的關係如圖 9，使用者探索 Story Elements Model 時，在過程中可以透過點選故事元素來將其保存為 Tags。在時間模型，每個時間點就是一個 Tag；在關鍵字模型，每個關鍵字就是一個 Tag，以此類推。使用者透過探索，進而留下探索後的 Tags 後，可以在 Tags Zone 調整每個故事模型的權重，控制想要聚焦的推文內容，系統會客製化返回相關的推文，此部分的細節內容將於 4.5 節說明。. Explore Story Elements Model. 學. Group Tags & Adjust weights. ‧ 國. 立. 政治大. Browse Tweets Content. n. al. er. io. sit. y. ‧. Nat. 圖 9. Browsing Room 概念示意圖. Ch. i n U. v. 以下依序分別介紹四個 Story Elements Model 的設計：. . engchi. 時間模型（Time Model）. 時間對於一個社群媒體故事來說，我們認為是最不可或缺的基本要素。我們將這段期間每天的推文數量作為時間模型的視覺化內容，從推文數量的多寡大概會對當天事件的熱度有個基本的認知。在時間模型中可以綜覽整起事件發生的趨勢以及聲量的多寡，使用者馬上就可以大概對整個事件發展的時程有個基本的認識（如圖 9）。考慮到社群媒體上的事件蒐集時間可能長至半年甚至更久，為了不讓因為時間過長而失焦，我們設計了局部放大的功能（如圖 10），使用者可以隨意從其中一個時間點＂從左至右拖曳＂至. 22.

(35) 另外一個時間點，使用者可以更聚焦於這個時間區段的聲量起伏，如果想要進一步聚焦這個時間點發生的事件推文，點選任何一個時間點就可將該時間點保存成 Tag。. 立. 政治大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 圖 10. Time Model 的系統介面圖. Ch. engchi. i n U. v. 圖 11. Time Model 的局部放大功能. 23.

(36) 關鍵字主題模型（Keywords Model）. 關鍵字主題模型是以推文之主題分群為主體的視覺化模型，主要的目的是協助記者瞭解事件資料集包含的討論議題，流程如圖 11，我們將整個資料集的推文內容，作一些基本的文本資料前處理，去除重複的推文、網址、停用詞之後，將每則推文斷詞，並進行 Biterm Topic Model（以下簡稱 BTM）主題探勘計算，BTM 是利用兩詞之間在每則推文的關係去學習主題建模，避免了因為每篇推文的詞稀疏性帶來的. 政治大節將會詳細介紹 BTM 主題模型的細節，在經過 BTM 分群回來的內容是以一群關立. 學習難度，在此我們的說明會針對主題模型計算後的結果如何視覺化的過程，在 4.3. 學. 鍵字為單位的多個主題，如圖 13：. Ch. engchi. sit. Biterm Topic Model. n. al. Tokenize every tweets. er. io. Remove punctuati on, urls, stop words. y. Nat. Raw tweets from dataset. ‧. ‧ 國. . i n U. v. 圖 12. Keywords Model 流程圖. 24. Top 10 topics. Visualiza tion.

(37) 政治大. 圖 13. BTM 計算後返回的十個主題與其關鍵字. 立. ‧ 國. 學. 我們將圖 13 的結果以視覺化的方式呈現，考量到以 BTM 模型計算後的結果，在不同主題下會有重複的關鍵字，這個現象可以理解為同一個詞可能會有不同的討論方向，. ‧. 而該關鍵字則代表了一個連接的意涵，我們將此概念視覺化成 Keywords Model（如圖. sit. y. Nat. 13）。每個節點（Node）為一個關鍵字，相同顏色的節點表示屬於相同的主題，一個關. io. er. 鍵字可能同時討論了不同的主題，此時以邊（Edge）相交關連的詞彙，由圖 13 可以看. al. n. 到紫色主題及靛色主題以＂中国＂這個關鍵字相連，代表這兩個主題的討論同時包含了. i n C 此關鍵字，也可以說這個關鍵字有兩個討論的主題。 hengchi U. 25. v.

(38) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 14. Keywords Model 視覺化 Keywords Model 代表的意涵是這個事件資料集涵蓋的主題，其元素已包含人、事、地、物的意義，在整個事件其討論的主題會不斷的變化，為了讓 Keywords Model 可以看到更細微的主題，我們加上了時間區段的選擇，因為在 Pilot Study 中，我們透過諮詢專家的意見，在社群媒體中主題變化的觀察時間單位可以以＂週＂為一個單位去關注主題，若以天為單位則太細，可能不會有太多討論的主題。因此我們以週為單位切分推文，並進行主題分群，系統介面如圖 15，在左上角可以針對週期數切換探索不同週的主題討 26.

(39) 論。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 15. Keywords Model 的系統介面圖在 Keywords Model 的下方可以看到有一個時間軸的設計，我們在除了時間模型外的其他三個模型中下方都加上了時間的概念，因為對於社群媒體的事件資料集來說，時間是一個方便對齊各個子事件的基準線，使用者可以從時間曲線觀察，這個關鍵字的發展是不是值得報導，討論的人數、頻率是不是代表有什麼跡象可循，因此我們在每個模. 27.

(40) 型都在加上了第二維時間軸的概念。使用者在直接點選關鍵字節點的時候，便可以看到該字的推文數量時間變化圖，藉此對其討論的聲量多寡、週期時間有些概念。如果想要進一步聚焦這個關鍵字的相關事件推文，點選任何一個關鍵字節點就可將該關鍵字保存成 Tag。. . 發文者模型（Users Model）. 在社群媒體的事件與一般線下（Off-line）的事件不同的地方在於包含了發文者的角. 治政色，這些發文者可能同時真實參與線下的事件，例如香港佔中事件的活躍發文者＂大立 joshuawong1013＂，便是在線下參與佔領中環的社會運動領袖之一；抑或只是在線上 ‧ 國. 學. （On-line）當作一個擴散事件的角色，使用者在開始觀察線上的事件與活動時，這些在. ‧. 線上活躍的發文者，在整個資料集中是相對重要的角色，我們認為其也是一個探索資料的角度，因此我們特別針對 Users 的活躍建立了一個視覺化模型。. sit er. io. Build Get a lconnection top v Count i Betweenness by 50 n Centrality CRT U h e& n g cusers mention(@) hi. n. Get the users of tweets. y. Nat. Raw tweets from dataset. Visualization. 圖 16. Users Model 的流程圖圖 16 為流程圖，從抓取回來的推文中我們可以得到每篇推文的發文者，將發文者依照推文的內容彼此建立關係，如果一個使用者 A 轉推使用者 B 的推文或是 Mention 使用者 B，他們之前將會建立一個從 A 到 B 的邊（Edge），這個邊會隨著彼此互動的次數而增加，我們可以從這個關係發現誰是在這個事件中的較為有影響力的人物，這個指標稱之為使用者可視度（User visibility）[23]。直觀地，在考慮社會網路的人物關係結構時，. 28.

(41) 時常利用圖論的方式將結果展示出來，我們也認為這是一個更容易發現重點的方法，所以我們的實作也是以此視覺化呈現。. 使用者可視度中每位使用者會帶有一個它被指向次數的權重，這抽象地代表了它的影響力，我們在此引入 Centrality 的概念來描述此社會網路的概況，Centrality 是在衡量一個節點在社會網路中重要性的指標之一，Centrality 有各式各樣的定義，在此我們選擇 Betweenness centrality [24]作為我們視覺化中節點的大小呈現，Betweenness centrality 的. 政治大會具有較大的 Betweenness centrality。我們認為在發文者關係網路中，記者有可能想要立. 核心概念為如果一個節點位於其他節點間的多條最短路徑上，那麼該節點就是核心節點，. ‧ 國. 學. 先從在事件中最能居中掌握互動關係的發文者觀察起，因此我們設計以 Betweenness centrality 作為視覺化節點大小的依據。Betweenness centrality 的量化細節為計算除了該. ‧. 節點外的所有節點中，任兩節點之間的路徑裡，通過該節點的路徑數除以此兩節點所有. sit. y. Nat. 路徑數比值的總和，當一節點在網路中扮演著連結兩個原先互不相連的集團的角色時，. io. n. al. er. 該節點的 betweenness centrality 值則會較高：. i n U. v. |𝑝𝑎𝑡ℎ𝑣𝑖𝑎 𝑛𝑖 (𝑛𝑗 , 𝑛𝑘 )| Betweenness centrality(𝑛𝑖 ) = ∑ 𝑗,𝑘≠𝑖 |𝑝𝑎𝑡ℎ𝑡𝑜𝑡𝑎𝑙 (𝑛𝑗 , 𝑛𝑘 )|. Ch. engchi. 圖 17 為 Users Model 的視覺化系統介面圖，在將 Users Model 視覺化後發現發文者彼此間有互相轉推以及 mention 的現象，因此邊邊相連的情況相當明顯，為了方便使用者觀察活躍的發文者，我們設計了右邊的篩選（filters）功能，使用者可以透過調整邊的數量觀察更重要的使用者（如圖 18）。在 Users Model 下方也包含前述提到的時間軸，當使用者點選視覺化的任一節點，就可以觀察該使用者在整個事件區間被 mention 的情形，有助於使用者探索不同時期的活躍使用者。如果想要進一步聚焦某發文者的推文內容，點選該發文者節點就可將該發文者保存成 Tag。. 29.

(42) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 17. Users Model 的系統介面圖. 30.

(43) 立. 政治大. 圖 18. 調整 Users Model 的篩選功能後之示意圖. ‧ 國. 學. . 名詞共字模型（Noun Co-Word Model）：. ‧. 上述有從時間探索的模型、從主題關鍵字探索的模型、從發文者探索的模型，最後. y. Nat. io. sit. 一個模型考慮在新聞故事中一個重要的元素：人以及物，記者時常會從已知的人物開始. n. al. er. 探索資料，例如說哪幾位人物是時常一起被提到的，那他們是否之間有什麼關係？可以. Ch. i n U. v. 從中發現什麼隱匿的線索嗎？諸如此類，會從觀察這個人物與其他人或物的關聯開始，. engchi. 因此我們設計一個可以從社群媒體中的推文觀察事件故事中人物之間的關聯的共字網路圖。. Raw tweets. Remove punctuati on, urls, stop words. Extract Nouns from same tweet. Tokenize every tweets. Build Co-word Relation. 圖 19. Noun Co-Word Model 的流程圖. 31. Visualiza tion.

(44) 圖 19 為流程圖，首先我們將推文的內容去除標點符號、網址以及停用詞後，接著從推文中抽取出詞性為名詞的詞彙，窗口（window-size）為一則推文，如圖 20，從右圖可以看到取出名詞可以將一些人物、角色、事件、物的元素萃取出來。. 立圖. 政治大 20. 推文萃取出名詞的範例. ‧ 國. 學. 若詞之間共同出現在一則推文內，彼此之間的連結強度會加一，以此類推建立出推. ‧. 文的名詞共字網路圖。圖 21 為 Noun Co-Word Model 系統介面圖，為了讓視覺化共字的. Nat. sit. y. 網絡發揮其輔助探索的用途，我們設計了一個觀察子網絡的操作方式，使用者可以點選. n. al. er. io. 感興趣的節點，系統將會從原來的網絡畫面進入其子網絡畫面，如圖 18 的範例為點選. i n U. v. ＂香港政府＂而顯示的共字子網絡圖，圖 22 則為點選香港佔中事件的社運領袖之一＂. Ch. engchi. 黃之鋒＂的共字子網路圖，透過介面右邊的按鈕讓使用者可以操作此視覺化網絡進行探索。在 Noun Co-Word Model 下方也包含前述提到的時間軸，當使用者點選視覺化的任一節點，就可以觀察此子網絡在整個事件區間相關推文的情形，有助於使用者瞭解子網絡討論的聲量。根據我們的觀察，記者在意的是這個子網絡之間為什麼有關係，是因為什麼內容將他們一起談論，因此如果想要進一步聚焦某子網絡的推文內容，點選該介面右邊的按鈕就可將該子網絡的節點存成 Tags。. 32.

(45) 立. 政治大. ‧. ‧ 國. 學 sit. y. Nat. n. al. er. io. 圖 21. Noun Co-Word Model 系統介面圖. Ch. engchi. 33. i n U. v.

(46) 立. 政治大. ‧ 國. 學圖 22. 黃之鋒之名詞共字網路圖. ‧. io. sit. y. Nat. 3.5 推文素材收集、整理與歸類. n. al. er. 使用者在經過 Story Elements Model 的探索，將 Tags 選至 Tags Zone，客製化篩選條件，. Ch. i n U. v. 瀏覽返回的推文後，深入找到一些感興趣、有意思的推文，收集了一些素材，使用者便. engchi. 可進入素材整理區（Materials Room）。此介面以幫助記者整理收集的推文素材並撰寫新聞的概念為設計原則，包含了素材盒（Materials Box）、整納推文的 Tags Subgroup 陳列區以及內容編輯區（Text Editor）。以下說明 Materials Room 的細部功能。在 3.2 節有提到使用者在 Browsing Room 進行一番探索過後，系統允許從推文展示區收集推文，考慮到在記者的專業領域中，抓住事件的敏感度很重要，所以我們希望當對某則推文有感覺的時候，可以先將其加入 Materials Room。. 當記者的推文素材收集到一定的數量後，對於新聞題材應該也有初步的構思，因此我們設計了素材整理的功能，在 Materials Room 內的 Materials Box 陳列出使用者收集的 34.

(47) 所有推文素材，在使用者探索的過程中，一一收集的內容不一定是針對一個題材，可能同時有很多思緒在構思，因此我們提供 Tags Subgroup 的功能（如圖 23），使用者可以挑選 Tags 來觀察與這些 Tags 相關的推文內容，透過 Subgroup 的功能讓使用者可以聚焦於越來越有想法的新聞主題。. 立. 政治大. Nat. sit. y. ‧. ‧ 國. 學圖 23. Tags Subgroup 介面圖. io. er. 本系統考慮到就像作家在寫小說時會將素材做歸類，記者在撰寫新聞的時候，尤其. al. 重視素材的來源。當記者在整理思緒、構想主題的時候，也會需要編排或歸類的動作來. n. v i n C h Tags SubgroupU的區塊（如圖 24），方便在探討兩個幫助撰寫文章，因此我們提供了兩個 engchi 新聞主題線的情形下，可以用來對照不同 Tags 群的相關推文。除此之外，也可以將此兩個區塊用來進行主題內的正反方意見比較。另外，系統也允許使用者進行主動整理的動作，使用者可以將推文從 Materials Box 拖曳至 Tags Subgroup 下插入排列，如圖 25 所示。. 35.

(48) 立. 政治大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 圖 24. 兩個 Tags Subgroup 區塊示意圖. Ch. engchi. i n U. v. 圖 25. 直覺化拖曳素材示意圖. 36.

(49) 第 4 章系統實作技術. 政治大本章介紹本系統的實作技術，分為四個部分，第一部分為推特資料的前處理，第二部分立. ‧ 國. 學. 為文本處理及主題探勘技術說明、第三部分為 Story Elements Model 的視覺化說明，第三部分為客製化之標籤權重計算。. ‧. io. sit. y. Nat. 4.1 推特資料蒐集. n. al. er. 上述提到我們使用 DMI-TCAT 作為我們蒐集推特資料的工具，但因為 Stream API 不支. Ch. i n U. v. 援中文關鍵字，因此我們改寫 DMI-TCAT 的 Search API 蒐集的方式（如圖 26），使其以. engchi. 兩小時為一個執行單位，時間上往前蒐集資料。Twitter API 回傳資料的型態為 JSON 格式。JSON 是一個簡單的結構，由物件（Object）組成，每個物件由一對大括號（{}）構成，一個物件內含一個以上非排序成對的「名稱:值」（name:value）組成，每個成對之間以「,」分隔，DMI-TCAT 將回傳的 JSON 資料解析後分別存成四個資料表，分別是 hashtags、 mentions、tweets、urls；其中，我們只使用到其中的 mentions 與 tweets 資料表。. 37.

(50) 圖 26. 推特資料前處理流程圖. 政治大. tweets 及 mentions 資料表結構如圖 27 所示，將本研究會使用到的欄位以紅色線框. 立. 圈出。而 tweets 資料表中，我們需要的欄位大致可分為推文資訊，例如推文 id、推文時. ‧ 國. 學. 間、推文內容、轉推次數、轉推 id 等，以及發文者的資訊，例如 id、地點、自介、追隨的人數（friend count）、被追隨的人數（follower count）、發文數等。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 27. tweets 與 mentions 資料表 38.

(51) 4.2 推文斷詞與主題探勘. 在我們的 Story Elements Model，Keywords Model 以及 Noun Co-Word Model 主要是針對推文的內容進行分析再視覺化，在此我們說明如何將推文的文本內容進行資料前處理以及 Keywords Model 使用到的 Biterm Topic Model 主題分群。. 在中文的句子中，詞彙（Word）是最小有意義且可以自由使用的語言單位，任何語. 政治大多，無法僅藉由空白格斷開句子。目前中文斷詞系統以有許多方案被提出，例如中央研立言處理的系統都必須先能分辨文本中的詞才能進一步處理。中文斷詞比英文斷詞複雜的. ‧ 國. 學. 究院官方提供中文斷詞系統（ckip）供研究人員使用，但其開放的 API 呼叫的次數有限制[25]，且僅能針對繁體中文進行斷詞，而我們的資料集包含了簡體中文的推文內容。. ‧. 近來在 Github 平台上開放了一套新的中文斷詞工具：結巴（Jieba）[26]，它是一個 Python. sit. y. Nat. 語言的開源中文斷詞程式，所使用的演算法是基於字典樹（Trie Tree）結構去生成句子. io. er. 中文字所有可能成詞的情況，然後使用動態規畫來找出最大機率的路徑，此路徑就是基. al. 於詞頻的最大斷詞結果。結巴在找新詞的方法使用基於 HMM（Hidden Markov Model）. n. v i n Ch 的 Viterbi 算法做中文分詞，除了有新詞識別能力，支援繁簡中分詞，還可以添加自定義 engchi U 辭典以確保更高的正確率。本研究採用結巴作為我們斷詞的工具。. 在將推文內容經過斷詞分解語句後，為了幫助記者從廣大文本資料中先有基本的了解與概觀性的總覽，我們採取分群的方法實作 Keywords Model，從文字與文字間的關係出發，而不是單一看高頻的文字。在主題探勘分群的研究領域中，相關演算法非常多，但由於推文是屬於沒有結構化的短文本（short text），推文每則的字數限制為 140 字以下，傳統的主題探勘模型如 Latent Dirichlet Allocation（以下簡稱 LDA）[27] 往往針對常規文本，沒有考慮到短文的特殊性，其基於詞袋模型（Bag-of-words model）進行機率. 39.

(52) 建模的方式會因為短文本的詞向量的稀疏性導致學習參數不準確，且 LDA 並沒有考慮詞與詞之間的關係，因此在短文本中不能很好的提煉出主題。. 基於改善以上兩點，Yan 等人[28]提出了 Biterm Topic Model（以下簡稱 BTM），打破了傳統機率模型的文本即為主題的層面，他們將所有的文本建立並抽出一個 biterm 為一個元組（tuple）集合，biterm 元組是指在一個文本中兩個字同時出現時，將這兩個字做為一個元組，直接從 biterm 元組集合中去學習隱藏主題變量，這樣做的好處是可以較. 政治大能更好的考慮了短文內容的詞間依賴關係，因此本系統採用 BTM 作為推文內容主題探立好的避免單篇文本的詞向量的稀疏性，同時又考慮到詞之間的關係，較以前的詞袋模型. ‧ 國. 學. 勘的模型。. ‧. 我們將整個資料集區間的推文，以週為單位區分開來做主題分群，原始的推文為了不讓雜訊影響分群的效果，我們去除重複的推文、網址、停用詞後，開始將每則推文利. y. Nat. io. sit. 用結巴的演算法斷詞，斷詞後的結果可以看到一則推文會是由一群詞彙組成的型態，將. n. al. er. 每週斷詞過後的推文集合使用 BTM 主題分群的演算法將該週的討論主題區分出來，各. Ch. 主題的內容結果可參考第 3.4 節。. engchi. i n U. v. 4.3 故事元素模型之視覺化技術. 本系統之 Users Model 與 Noun Co-Word Model 採用網路圖（Network）的視覺化方式，因為在這兩張圖主要在呈現節點之間的關係，而網路圖是最直接且容易理解的。本研究使用一個開源的輕量級 Javascript 的網路圖（network graph）套件－Sigma.js[29]，它是一個致力於在 Web 應用中進行圖形繪製的 Javascript 函式庫，目的在幫助開發者們創建圖形，同時也能夠讓用戶在網頁上進行操控。它是基於 HTML5 畫布的實現，能夠生成靜態或者動態的互動網路圖形。因為本系統是基於網路的互動系統，特別需要注意套件相 40.

(53) 依性的問題，而這個套件是一個獨立的不依賴於第三方的圖形函式庫，支持主流的瀏覽器，且高度的自定義性以及易於操作的 API，因此我們選擇利用此套件來實現我們的互動視覺化。. 上述提到 Users Model 以及 Noun Co-Word Model 會使用網路圖的視覺化互動方式幫助使用者探索資料，在此說明兩個模型所使用的視覺化繪圖方式。在 Users Model 方面，為了反映事件中使用者之間的互動關係，我們萃取推文中的使用者以及轉推者、. 政治大的關係被建立，會隨著次數而增加邊的權重，依照使用者在這段期間被轉推或 mention 立 mention 者間的關係，當發文者 A 轉推或是 mention 使用者 B，則會有一條由 A 指向 B. ‧ 國. 學. 的次數給予節點大小的設定，顏色的設定使用 modularity class 的計算結果[30]，布局（layout）方式使用 Force Atlas 2 演算法[31]，它是一種模仿物理世界中的引力和斥力，. n. al. er. io. sit. y. Nat. 示意圖。. ‧. 計算網路節點間的力關係並對網路重新局布局直到力平衡，圖 28 為 Users Model 視覺化. Ch. engchi. 41. i n U. v.

(54) 立. 政治大. ‧. ‧ 國. 學 y. sit. io. er. Nat. 圖 28. Users Model 視覺化示意圖. al. Noun Co-Word Model 內的名詞是利用結巴內建的詞性標註工具辨識出來的，其原. n. v i n Ch 理為如果辭典中有這個詞，就從辭典中讀取該詞的詞性；如果辭典中沒有該詞，用 Viterbi engchi U 算法來估計。我們利用其標註後的結果取出名詞的關鍵詞，將這些關鍵詞基於推文進行共字的統計。當同一個關鍵詞出現在同一則推文中，彼此之間將會建立連線，隨著次數的增長權重增加，節點的大小設定依照此權重設定，顏色的設定也是使用上述提到的. Modularity class 的計算結果，布局的方式則採用 Fruchterman-Reingold 演算法[32]。它是一種圓形布局，利用兩點間的斥力，有邊關聯的兩點有引力的概念，不斷迭代，計算出所有點對間的斥力，再對於每個點考慮和它關聯的彈簧對它產生的引力，自動把節點排成一個圓形。圖 29 為 Noun Co-Word Model 視覺化示意圖的範例。使用此布局的特點考慮到詞語間的共字情形，可能會較常出現節點群體明顯的現象，也有一些少數討論的名. 42.

(55) 詞存在，從圖中可以看到有一些邊緣節點，為了不忽略這些節點，我們選擇此種布局方式。. 立. 政治大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n C h Co-Word Model U 29. Noun e n g c h i 視覺化示意圖. 圖. 4.4 客製化決定推文順序. 本系統客製化的部分係利用使用者在 Story Elements Model 探索得來的 Tags，讓使用者自己去決定欲探索的內容，在 Tags Zone 進行權重調整後，系統依據給定的權重去計算每則推文的素材分數（Materials Score）高低，最後將計算結果返回至推文顯示區來顯示推文。. 我們訂定了系統客製化的規則，每則推文都有一個素材分數，這個分數的高低攸關 43.

(56) 推文在套用客製化後排列顯示的順序。在 3.4 節我們介紹了本系統中四個 Story Elements Model，分別是時間（Time）、關鍵字（Keywords）、發文者（Users）、名詞共字（Noun Co-Word），使用者在探索資料的時候，會有各自想要關注的主題內容，可能是在某幾個時間點的推文、或是跟某些關鍵字相關的推文等不同的出發點，因此我們提供讓使用者可以客製化決定欲聚焦的內容，透過調整從不同 Story Elements Model 得來的元素權重，因此這四個項目的權重即為我們客製化規則中可調整的變因（variables），系統以標籤（tags）的形式顯示於 Tags Zone（如圖 30）。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 30. 客製化標籤區塊之介面圖. 素材分數計算的公式採用排名系統（Ranking System）的概念，我們有四個可調整. 44.