• 沒有找到結果。

新聞事件於社群媒體之發展歷程的視覺化分析工具―以Twitter為例 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "新聞事件於社群媒體之發展歷程的視覺化分析工具―以Twitter為例 - 政大學術集成"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 政 治 大. 學. ‧ 國. 立 新聞事件於社群媒體之發展歷程的視覺化分析 工具―以 Twitter 為例. ‧. A Visual Analysis Tool on the News Development. Nat. n. al. er. io. sit. y. in Social Media―Using Twitter as an Example. i n U. C. 研 h 究e 生:林聖翔 ngchi. v. 指導教授:李蔡彥. 中華民國一百零六年一月 January 2017.

(2) 摘要. 當一個新聞事件發生時,相關訊息通常會被新聞媒體所報導,而民眾 亦能透過網路上各種管道發表己見。近年來,社群媒體已成為記者與民眾 散播訊息的重要平台,也是研究新聞發展的重要管道。但隨著時間累積的 龐大訊息量,使用人工的方式來收集資料,以了解事件整體脈絡的方式往 往事倍功半。本研究利用 Twitter 做為資料來源,透過各種視覺化的圖表及. 政 治 大 篩選出新聞事件的關鍵推文。系統可客製化參數的設計讓使用者能依觀察 立 統計資訊,協助新聞研究者透過漸進的方式操作系統各階段的功能,逐步. ‧ 國. 學. 到的現象來調整系統推薦的推文,進而達到瞭解發展歷程的目標。我們邀 請 4 位受試者,透過系統操作教學及引導式任務讓受試者學習如何使用系統,最. ‧. 後讓受試者自由探索,並透過問卷與訪談的方式來探討系統的優缺點。問卷的評. sit. y. Nat. 分使用 5 分量表,實驗結果在有用性向度的平均分數為 4.1,表示本系統能有效. io. er. 地幫助使用者分析事件的發展歷程;而易用性向度的平均分數為 4.3,顯示受試. al. 者對本系統的易用性表示認同。本系統的主要目的,是希望能協助使用者找尋新. n. v i n Ch 聞事件中的關鍵推文,並瞭解其發展歷程,由實驗結果與受試者回饋顯示,本研 engchi U 究的視覺化分析系統具有幫助理解事件脈絡的能力,證實了本系統的發展價值。. i.

(3) Abstract. When a new event happens, related messages can not only be released by the press but also through various network channels by the general public. In recent years, social media have become a popular and important platform for news reporters and the general public to propagate news messages. However, due to the massive amount of messages on the social media platforms, it is very time consuming to manually collect these data in order to grasp the development of a news event over time. In this. 政 治 大. research, we aim to develop a visualization system that can help researchers find key. 立. tweets on twitters for a news event in an incremental manner. Our system allows a. ‧ 國. 學. user to customize design parameters for finding key tweets from various aspects in order to understand how a news event evolve over time on social media. We have. ‧. invited four participants to test use our system through a tutorial, guided tasks, and. y. Nat. sit. free exploration. A questionnaire survey and interview were conducted after the. n. al. er. io. experiments. The evaluation results show that the average score for the usability. i n U. v. dimension is 4.1 out of 5, showing that the system can effectively assist the users in. Ch. engchi. analyzing the development of a news event. The average score for the ease-of-use dimension is 4.3, meaning that most users agree that our system is easy to use. The results reveal that our research goals of helping users find key tweets and understand news development have been achieved and the development of such a visualization system is valuable for news analysis on social media.. ii.

(4) 致謝. 終於到了寫致謝的時候,在碩士班的研究生涯中,最感謝我的指導教授李蔡 彥老師,從我還是大學專題生時,就受到老師各種方面的照顧,除了研究方面的 指導外,待人處世的態度以及時間管理分配的掌控更是令人敬佩。另外也感謝水 火計畫的陳百齡老師、鄭宇君老師以及同學,跨領域的合作使我了解到技術以外, 傳播背景研究者的觀點以及想法,拓展了我的研究視野。在研究所階段,對於給 予各種幫助以及指導的老師們,真心表達感謝之意!. 政 治 大. 除了老師們之外,也感謝 IMLab 的各位,很高興能成為這個大家庭的一份. 立. 子,感謝小蜜蜂學長給予的各種協助與鼓勵,也讓我踏進路跑這個從沒接觸過的. ‧ 國. 學. 領域;分享路跑經驗的原原;一起在水火奮鬥的 koba;同樣是宅宅的 Co 菇、Iris、 橘子;最後一同衝刺的小遊;一起練拳擊有氧的科科;以及學弟妹酥酥、毅聖、. ‧. 恩加、莞茜、玟璇。沒有大家,我的菸酒生活不會有這麼美好的回憶!感謝給予. y. Nat. sit. 我各種鼓勵的朋友們!. n. al. er. io. 最後,非常感謝家人一路上的陪伴與鼓勵,讓我在學生時期能夠全心投入在. i n U. v. 研究中,沒有經濟上的煩惱,你們是我最好的避風港,謝謝你們!. Ch. engchi. 聖翔. 2017/01/25. 於政大資科 IMlab 智慧型媒體實驗室 筆. iii.

(5) 目錄. 新聞事件於社群媒體之發展歷程的視覺化分析工具―以 Twitter 為例 .................. 1 摘要................................................................................................................................. i Abstract ..........................................................................................................................ii 致謝.............................................................................................................................. iii 目錄............................................................................................................................... iv 圖目錄........................................................................................................................... vi 表目錄..........................................................................................................................vii 第1章 導論 ........................................................................................................... 1 1.1 研究動機 .................................................................................................. 1 1.2 研究目標 .................................................................................................. 2 1.3 研究問題 .................................................................................................. 2 1.4 論文貢獻 .................................................................................................. 3 1.5 論文架構 .................................................................................................. 4 第2章 相關研究 .................................................................................................. 5 2.1 資訊視覺化 .............................................................................................. 5 2.2 Twitter 的分析工具 ................................................................................ 6 第3章 系統架構與設計 ..................................................................................... 9 3.1 系統架構 .................................................................................................. 9 3.2 資料來源 ................................................................................................ 10. 立. 政 治 大. ‧. ‧ 國. 學. er. io. sit. y. Nat. al. n. 3.2.1 Twitter ......................................................................................... 10 3.2.2 Klout ............................................................................................ 11 3.2.3 Website ........................................................................................ 12 系統介面設計........................................................................................ 13 3.3.1 資料選擇區 ................................................................................ 14 3.3.2 個人篩選區 ................................................................................ 19 3.3.3 關鍵事件分析區 ....................................................................... 22 系統實作 ................................................................................................ 27 資料收集 ................................................................................................ 27 文本處理 ................................................................................................ 28 推文分群 ................................................................................................ 29 視覺化呈現 ............................................................................................ 32 實驗設計與結果分析........................................................................... 35 實驗目標 ................................................................................................ 35 實驗對象 ................................................................................................ 35. 3.3. 第4章 4.1 4.2 4.3 4.4 第5章 5.1 5.2. Ch. engchi. iv. i n U. v.

(6) 實驗流程 ................................................................................................ 36 5.3.1 引導式任務 ................................................................................ 36 5.3.2 自由操作 .................................................................................... 37 5.3.3 問卷與訪談 ................................................................................ 37 5.4 實驗結果分析與討論........................................................................... 41 5.4.1 有用性評估 ................................................................................ 41 5.4.2 易用性評估 ................................................................................ 43 第6章 結論與未來展望 ................................................................................... 46 6.1 研究結論.................................................................................................. 46 6.2 未來發展與改進...................................................................................... 46 參考文獻 .................................................................................................................... 48 附錄 ............................................................................................................................. 51 附錄 1 引導式任務熟悉介面............................................................................. 51 5.3. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. v. i n U. v.

(7) 圖目錄. 圖 圖 圖 圖 圖 圖 圖. 1. 視覺化流程圖............................................................................................... 6 2. 系統架構圖 ................................................................................................. 10 3. 某使用者於 klout 網站的簡介頁面 ........................................................ 12 4. 擷取網頁標籤內容範例 ........................................................................... 13 5. 資料選擇區(Data Selection)介面圖 ................................................. 14 6. 推文屬性說明............................................................................................. 16 7. Word Cloud【Tweet】介面圖 ...................................................................... 17. 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖. 8. Noun Co-word【Tweet】介面圖 .................................................................. 18 9. Noun Co-word【URL】介面圖 ................................................................... 19 10. 個人篩選區(Your Selection)介面圖 ............................................... 20 11. Hashatg 頻率統計圖.................................................................................... 21 12. Key Event Parameters 介面圖 ................................................................ 22 13. 關鍵事件分析區(Key Events Analysis)介面圖 ............................ 23 14. Tweets Timeline 中的一則推文 ............................................................. 23 15. Hashtag 參數所推薦的關鍵推文頁面 .................................................. 24 16. Retweet 參數所推薦的關鍵推文頁面 .................................................. 25 17. User 參數所推薦的發文者頁面 ............................................................. 26 18. Twitter 資料收集流程圖 ......................................................................... 28 19. 文本處理流程圖 ...................................................................................... 29 20. Stanford NER 視窗版分析範例 ............................................................. 32 21. Noun Co-word【Tweet】於 Gephi 軟體中的網路圖 ................................ 34 22. 實驗流程圖................................................................................................. 36 23. 使用者介面一致性的問題......................................................................... 45. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vi. i n U. v.

(8) 表目錄. 1. 資料集資訊 ................................................................................................. 11 2. 受試者基本資訊........................................................................................... 35 3. 參考的新聞事件列表................................................................................ 37 4. 受試者基本資訊中調查的問題 .............................................................. 38 5. 系統評估問卷項目與評分方式................................................................... 38 6. 系統功能評估問卷與評估向度................................................................... 39 7. 感知有用性、感知易用性問卷................................................................... 40 8. 開放性問題問卷題目................................................................................... 41 9. 感知有用性問卷分數與平均....................................................................... 42 10. 系統功能問卷平均與標準差..................................................................... 42 11. 感知易用性問卷分數與平均 ................................................................. 44. 立. 政 治 大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 表 表 表 表 表 表 表 表 表 表 表. Ch. engchi. vii. i n U. v.

(9) 第1章 導論. 1.1 研究動機. 近年來,隨著網際網路與行動裝置的普及,各種社群媒體(Social media)隨之 興起,例如:Twitter、Facebook、Plurk、Google+、Instagram。人們接收訊息的 方式亦逐漸改變。相較以往的傳統媒體(Traditional media),如報章雜誌、廣播. 政 治 大. 與電視等,新媒體(New media)一詞約在 20 世紀後期出現了。新媒體是泛指利. 立. 用電腦及網路科技的媒體,其內容具有任何時間、任何地點訪問的可能性,並可. ‧ 國. 學. 使用 3C(Computer、Communication、Consumer electronics)設備存取[1]。社群 媒體即是新媒體之一。. ‧ sit. y. Nat. 傳統媒體業者嗅到了可能被邊緣化的危機,開始架設數位化平台,在網際網. al. er. io. 路上提供相同的服務,於是有了新聞網站(News site)的誕生。有些業者,甚至. v. n. 搭配社群媒體,建立官方帳號,定期發佈含有短網址的貼文,而這些短網址導向. Ch. engchi. i n U. 了自家網站的新聞報導,利用社群媒體來增加新聞網站的可見度。. 這些新媒體的發展,成了新聞研究的重要研究主題。但正因社群媒體的蓬勃 發展,不可避免的,研究者必須收集並處理網路上大量的資料。2001 年 META Group 分析員 Doug Laney 指出資料增長的挑戰有三個方向:量(Volume) ,資料 大小、速(Velocity) ,資料輸入輸出的速度與多變(Variety) ,多樣性,合稱「3V」 [2]。而 2012 年紐約時報的一篇專欄[3]中寫到,「大數據(Big data)」時代已經 降臨,在商業、經濟及其他領域中,決策將日益基於資料和分析而作出,而並非 基於經驗和直覺。現在大部分大數據產業中的公司,都持續使用 3V 來描述大數 1.

(10) 據。而英國大學聯盟(University Alliance)在 3V 之外定義第 4 個 V:真實性 (Veracity)[4]為第四特點,在分析大數據時需要注意有無偏差、偽造、異常的資 料。. 而觀察資料時,如果能善用資訊視覺化(Information visualization)的技術來呈 現數據,則可一定程度放大人類的認知能力,使我們更容易推理與歸納,進一步 對相關事件作出決策和判斷。所以我們期望能透過程式的輔助來解決在社群媒體 中找尋某個主題的關鍵訊息所耗費的時間,同時瞭解被社群媒體使用者所引用的 網站內容,來掌握新聞事件的整體脈絡。. 立. 1.2 研究目標. 政 治 大. ‧ 國. 學. 當一重大事件發生時,例如天災人禍、抗議遊行、選舉等等,相關訊息會被新聞. ‧. 媒體所報導,民眾亦能透過各種管道發表己見。這時,社群媒體就成為記者與民. sit. y. Nat. 眾散播訊息的網路平台。我們能從中收集針對某一事件豐富的原始資料,但其中. al. er. io. 很可能也充滿了不相關的訊息。對於一般的新聞研究者而言,收到資料後,往往. v. n. 使用人工的方式來過濾雜訊,或者使用各式統計、試算表軟體來輔助觀察。在如. Ch. engchi. i n U. 今資訊爆炸的時代,龐大資料接踵而來,我們需要一個有效率的方式來解決面臨 到的問題。. 本研究的目標為開發出一個視覺化的分析工具,輔助研究者從社群媒體的資 料中尋找關鍵訊息,縮短研究者瞭解事件發展歷程所需的時間。另外,在鄭等人 的研究[5]中發現,許多 Twitter 使用者想要傳遞的訊息不在於推文(tweet)內 容本身,而是推文帶有的延伸資訊──超連結(hyperlinks)。因此,關鍵訊 息內含網址的內容亦是我們分析的對象。. 1.3 研究問題 2.

(11) 關於選用社群媒體的問題,雖然目前台灣社群媒體以 Facebook 為最大宗, 但由於隱私權設定,大多數的使用者資料欄位為非公開,Twitter 在這方面 則相對較為開放。除此之外,在撈取資料的方面,Facebook 以粉絲專頁為 撈取對象,Twitter 則是以關鍵字為撈取對象,我們認為以關鍵字為單位所 撈取的資料集較能掌控議題的廣泛程度。而 Twitter 上的推文(tweet),有 著 140 個字的限制,在此字數限制下,分析關鍵訊息時的文本處理會較為方便。 根據鄭等人的相關研究[6]經驗及上述原因,我們最後選擇 Twitter 做為社 群媒體資料集的來源。. 政 治 大. 在 Twitter 上一則推文的關鍵與否,往往與推文本身的屬性有著密不可. 立. 分的關係,例如:推文內文使用到的主題標籤(hashtag),該推文的轉推. ‧ 國. 學. 數(retweet)、發文者(user)等。我們希望能利用這些屬性,輔助新聞研 究者從資料集中找出關鍵推文。. ‧. al. n. 本論文的主要貢獻包含:. er. io. sit. y. Nat. 1.4 論文貢獻. 1.. Ch. engchi. i n U. v. 協助使用者找尋事件中的關鍵推文並瞭解其發展歷程. 我們將從 Twitter 上蒐集下來的推文進行文本處理,進一步利用斷詞後的結 果來呈現字雲(word cloud) 、詞語共現圖(co-word network)等視覺化圖表,並 搭配關鍵字或推文分群的結果來找出子資料集,再透過推文數量時序圖、推文屬 性的統計表格,幫助使用者選定找尋關鍵推文的指標,最後利用大事記、傳統表 格、折線圖等視覺化方式,來輔助使用者瞭解其感興趣事件的發展歷程。. 2.. 推文與網址之內容比較 3.

(12) Twitter 上的每一則訊息,也就是推文(tweet) ,有著 140 個字的限制,而發 佈推文時所分享的網址內容,代表著使用者額外想傳達的延伸資訊。當使用 者想觀察含有網址的推文時,只能透過一一點擊連結瀏覽內容。我們的系 統預先抓取了網址的部分資訊,並將其與推文內容分別進行文本處理,以 詞語共現網絡圖的方式呈現,期能達到快速瞭解比較兩者內容異同的目 標。. 3.. 可客製化的視覺化分析系統. 政 治 大 數來改變結果。例如,瀏覽過所有推文分群的群組後,依然沒有使用者想觀察的 立 當使用者不滿意本系統所產生的分析結果時,使用者能自行調整各指標的參. ‧ 國. 學. 事件時,可直接利用關鍵字搜尋,找出相關推文;只想檢視該群組中,必須含有 網址的關鍵推文等客製化的篩選條件。而篩選後子資料集的時間區間亦可自由選. ‧. 擇,選擇日期後,我們搭配推文內四種屬性:主題標籤(hashtag) 、mention(提. sit. y. Nat. 及) 、domain name(網域名稱) 、media(圖片)等屬性的統計數據,列出使用頻. 1.5 論文架構. al. n. 據。. er. io. 率上熱門的屬性元素,提供使用者從中選擇探索,當作最後分析關鍵推文的依. Ch. engchi. i n U. v. 在本論文第二章中,我們會探討過去關於資訊視覺化的應用與技術,以及 Twitter 的分析工具。第三章則為我們系統的架構與設計。第四章會說明系統實作的方式 與技術。第五章為實驗設計與實驗結果分析。最後第六章為本研究的結論與未來 發展和改進方式。. 4.

(13) 第2章 相關研究. 在本章節中,我們將會分兩個面向討論相關研究:第一部分為資訊視覺化的應用 與技術、第二部分為 Twitter 的分析工具。. 2.1 資訊視覺化. 政 治 大 一個全盤的介紹和統整。列出了七項敘事性視覺化可能的類型:文繞圖的雜誌風 立. 資訊視覺化的技術可以被應用在各領域上,Segel 等人對於敘事性視覺化[7]做了. 格(Magazine Style) 、在圖表上描述或標記(Annotated Chart) 、分區塊呈現說明. ‧ 國. 學. 的海報(Partitioned Poster) 、流程圖(Flow Chart) 、連環漫畫(Comic strip) 、投. ‧. 影片呈現(Slide Show) 、影片或動畫(Film/Video/Animation)等。該研究舉了. y. Nat. 許多應用:運動員施打類固醇與否的表現、人口經濟發展趨勢等。而拿資料說明. er. io. sit. 一件事時,資料如何呈現是很重要的,他們亦歸納出各類型視覺化圖表的元素, 並對敘事性視覺化提出一套設計策略的框架。而 Satyanarayan 等人所開發出來的. al. n. v i n Ellipsis[8],是一敘事創作的視覺化平台,利用圖形化的使用者介面,讓使用者 Ch engchi U. 能直覺地編輯出想要的敘事創作視覺化圖表。並找了專業記者做系統測試,評估 結果顯示他們的系統介面降低了敘事創作的門檻,這也代表特定的視覺化可以降 低解決某些問題的困難度。. 在 Liu 等人的研究[9]中,他們歸納了資訊視覺化近年來所使用的技術、 方法與應用。如圖 1 為他們統整出來的視覺化流程圖,首先是資料的轉換 與分析,整理成結構化資料後,進行第二步的過濾。設計自動或半自動化 的篩選條件來過濾出使用者想聚焦的部分資訊。第三步則是將過濾出的資 料給予幾何定義(點、線等)、以及屬性(大小、位置、顏色等),以便做 5.

(14) 第四步的繪圖。最後再透過介面與使用者互動,瞭解資料的各種面向。. 學. ‧ 國. 立. 政 治 大 圖 1. 視覺化流程圖. ‧. 2.2 Twitter 的分析工具. sit. y. Nat. al. er. io. 對於 Twitter,Kraft 等人所開發的 Geo and Temporal Association Creator(GTAC)[10]. v. n. 專門處理 Twitter 上的資料,透過互動式視覺化的介面,顯示出 4W(Who, When,. Ch. engchi. i n U. Where, and What)事件指標,簡單清楚呈現了資料在時間及空間上的分佈。最後 透過實際案例證明了他們的系統具有近即時(near real-time)的分析能力。然而, 該系統並無法觀察資料集的原始推文,如想進一步探索事件脈絡較為困難。另外, Bosch 等人所開發出來的 ScatterBlog2[11]雖然也是分析 Twitter 的視覺化分析系 統,但他們加入了以使用者為導向的過濾器(filter)來篩選推文,使用者能自行增 刪或載入既有的過濾器並調整其門檻,並觀察顯示出來的內容是不是自己想要見 到的。. 而 Borra 等人所開發的 Digital Methods Initiative Twitter Capture and Analysis 6.

(15) Toolset (DMI-TCAT)[12]工具集,除了抓取 Twitter 推文資料外,亦提供各種分析 數據,包含了推文總數、URL、照片、co-hashtag、user-mention 等。匯出後的資 料可進一步提供使用者做後續的統計或者網絡圖分析。雖然此工具集提供了收集 和匯出分析數據的功能,但目前並不支援中文語系推文的收集。在 Lin 等人的研 究[13]中,就利用到 DMI-TCAT 來蒐集資料,並設計一個以輔助記者探索 Twitter 上的事件、挖掘新聞主題為目標的系統。該研究分析了推文的文本內容以建立關 鍵字主題模型與名詞共字模型,接著結合視覺化的介面來協助使用者找出想看的 內容,但尚未分析推文內含網址的內容。. 政 治 大. Meng 等人的研究[14]則利用 Twitter 資料找出以主題為導向的意見總結. 立. (opinion summary)。為了找出具有關鍵訊息的推文,他們做了 insightful tweet 及. ‧ 國. 學. opinionated tweet 的分類,前者從英文的語法結構進行,再依關鍵字作分類;後 者則比較推文內情緒詞正反面的個數,來判斷該推文針對某個主題是支持、反對. ‧. 或中立的立場。只可惜上述兩項研究皆無視覺化的工具來協助呈現結果。. sit. y. Nat. al. er. io. 在 Phuvipadawat 等人的研究[15]中,他們設計了一套流程去收集、分群、評. v. n. 分並追蹤 Twitter 上是即時新聞(breaking news)的推文,依照推文的發文時間、. Ch. engchi. i n U. 轉推數(retweet) 、發文者追蹤數(follower)等指標來為每一群推文評分。而我 們參考該研究中推文分群(grouping)的演算法,協助我們將資料集中的推文分 群,演算法的實作細節留在第 4.3 節說明。. 針對 Twitter 與傳統新聞媒體的資料,Zhao 等人[16]利用主題模型來比較了 兩者間的異同,只可惜大都是數值統計上的分析。本研究做完文本處理後,將字 詞間關係利用網絡圖做視覺化的呈現,以期能更深入地比較推文與網址內容上的 差異。. 由此可知,目前已有不少針對 Twitter 的分析工具以及資訊視覺化的相關研 7.

(16) 究,但尚未有一個較為完整的事件探索輔助系統,我們希望開發出的系統,可以 引導使用者探索事件的發展歷程。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i n U. v.

(17) 第3章 系統架構與設計. 本章將分為三個部分來說明系統的架構與設計:第一部分為系統架構說明、 第二部分為資料來源,第三部分為系統的介面設計。. 3.1 系統架構. 政 治 大 第一部分先將原始資料從來源方抓取後,存入關聯式資料庫中。接著第二部分是 立. 圖 2 為我們的系統架構圖,分為三大部分,資料收集、資料處理與使用者介面。. ‧ 國. 學. 資料處理,進行資料前處理後,分別進行推文分群、建立字雲(word cloud)和 詞語共現圖(co-word network)的計算。我們會將推文分群的結果回存進資料庫. ‧. 中。第三部分系統前端的使用者介面則會呈現字雲和詞語共現圖的視覺化圖表。. sit. y. Nat. 使用者操作系統的流程分成三大階段:資料選擇區(Data Selection)、個人篩選. al. er. io. 區(Your Selection)與關鍵事件分析區(Key Events Analysis) 。使用者先在資料. v. n. 選擇區選擇並瀏覽整個資料集的概觀,對於資料有了基本的認識後,透過初步的. Ch. engchi. i n U. 參數過濾資料,進到第二階段的個人篩選區,在這裡使用者能看到子資料集的統 計分析,從中篩選出自己有興趣的推文屬性,作為第三部分關鍵推文分析的參數, 最後呈現系統推薦的關鍵推文,來輔助使用者了解此事件在推特上的發展歷程。. 9.

(18) 立. 政 治 大 圖 2. 系統架構圖. ‧ 國. 學 ‧. 3.2 資料來源. y. Nat. sit. 本系統的資料來源共分為三大項,第一為我們選擇的社群媒體:推特(Twitter). n. al. er. io. 的推文資料;第二為發文者於社群媒體的影響力指數:klout score[17];第三則是 推文內含網址的資訊。. 3.2.1. Ch. engchi. i n U. v. Twitter. 我們利用 Twitter 官方提供的 Web API(Application Programming Interface)來存取 推文。其中兩個常用的 API 為 Streaming API[18]與 Search API[19],Streaming API 存取的是 Twitter 最即時的資料,Twitter 會回傳送出查詢後到中止抓取時的相關 推文;而 Search API 存取的則是 Twitter 上的歷史推文資料,最多可查詢到七天 前的資料。. 目前為止,Streaming API 的關鍵字查詢不支援中文,因為 Streaming API 的 10.

(19) 實作方法是利用空格作為區分字詞的依據,但中文的書寫習慣並沒有依據空白來 區隔字詞,因此我們選擇使用 Search API。我們基於 Digital Methods Initiative Twitter Capture and Analysis Toolset (DMI-TCAT)[12]工具集來改寫 Search 的撈取 機制,我們從 Github 獲得其原始碼後,將 Search 的撈取機制改寫成以每一小時 為單位自動執行一次程式,來撈取過去的推文資料。. 本研究為了測試從廣泛的資料中,找出關鍵議題事件的能力,我們選擇了台 灣的繁體與簡體中文作為資料集的蒐集關鍵字。蒐集回來的資料區間從 2016 年 6 月 20 日至同年 8 月 1 日,排除掉非繁簡中文的推文後,剩餘的推文數量為. 政 治 大. 153,186 筆。詳細資料集資訊如表 1:. 立. ‧ 國. 資料集名稱 台灣. 學. 表 1. 資料集資訊. 蒐集關鍵字 Taiwan、台灣、台湾 資料區間. y. sit er. io. Klout. 2016-06-20 21:41:04 ~ 2016-08-01 01:59:36. Nat. 3.2.2. ‧. 推文總筆數 153,186 筆推文. al. n. v i n Ch 本研究其中一個主要貢獻為尋找事件中的關鍵推文。我們認為,判斷發文 engchi U 者在社群媒體上的地位是找出關鍵推文的重要指標之一,例如一般民眾與. 蔡英文總統皆於同一時間轉發了中央氣象局所發布關於颱風警報的推文, 我們可以合理判斷蔡英文總統該篇推文所產生的影響力會比一般民眾推 文來的大。在 Rao 等人的研究[17]中,他們提出一個量化使用者於社群媒 體的影響力指數(klout score),每天蒐集橫跨 9 個社群媒體 7.5 億位使用 者的 450 億個互動行為,再將這些互動行為萃取出約 3600 個特徵(feature) , 這些特徵包含點擊貼文中的某個連結、留言回覆、分享貼文等行為。並透 過監督式學習(Supervised Learning)的模型,產生這些特徵的權重,最後 11.

(20) 依此特徵向量產生每位使用者的影響力指數,值的範圍為 0 到 100。. 圖 3 為一位使用者於 klout 網站[20]上的簡介頁面,以 Twitter 來說, 將使用者的 Twitter 帳號接在 klout 網址後即可查詢該使用者的 klout score, 並顯示其經常觸及到的話題,我們將從 Twitter 上蒐集到的發文者帳號,一 一利用 klout 網站來抓取其影響力指數。在台灣的資料集中,扣除掉非繁簡 中文推文的發文者,以及 Twitter 帳號已被停權或自行停用者,我們自行設計網 路爬蟲程式,總共抓取了 50,579 位使用者的分數。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3. 某使用者於 klout 網站的簡介頁面. 3.2.3. Website. Twitter 上的每一則訊息,也就是推文(tweet) ,有著 140 個字的限制,而發佈推 文時所分享的網址內容,代表著使用者額外想傳達的延伸資訊。為了比較推 文與其內含網址之內容的異同,我們的系統從資料集的推文中獲得短網址 (tiny URL)後,再將短網址迭代還原成原始真實網址(real URL),最後 只取 HTTP 狀態碼[21]為 200 的網址進行內容的抓取。 12.

(21) 由於網際網路上有各式各樣的網站(website),內容長短也不一,我 們認為直接將網站全部內容與短文本的推文內容比較並不適當,本研究折 衷的辦法為擷取該網站頁面部分的標籤內容,如圖 4 所示,選用<title>、 <meta name=”keywords” >與<meta name=”description” >中 content 屬性的 值作為一個網址所代表的內容。在台灣的資料集中,扣除掉來自非繁簡中 文推文的網址,以及 HTTP 狀態碼非 200 者,總共抓取 110,292 個網址的內容。. 立. 政 治 大. 圖 4. 擷取網頁標籤內容範例. ‧ 國. 學 ‧. 3.3 系統介面設計. y. Nat. sit. 如 3.1 節所述,本系統介面分為三大階段:資料選擇區(Data Selection)、. n. al. er. io. 個人篩選區(Your Selection)與關鍵事件分析區(Key Events Analysis)。. i n U. 本節將依各階段分別說明設計理念與操作方式。. Ch. engchi. 13. v.

(22) 立. 政 治 大. 圖 5. 資料選擇區(Data Selection)介面圖. ‧ 國. 學. 3.3.1. 資料選擇區. ‧ sit. y. Nat. 如圖 5 為本系統介面第一階段的資料選擇區(Data Selection) ,首先是圖 5. al. er. io. 編號 1 區塊:Data Selection,除了選擇資料集外,我們整理出推文的屬性. v. n. 後,將這些屬性作為初步的過濾條件,屬性的相關說明如下,可參考圖 6 對照。. 1.. Ch. engchi. i n U. 提及(mention). 在推文內文中,可使用@符號後面加上其他使用者帳號名稱,來提及某位使 用者,並附帶該使用者頁面的連結。. 2.. 主題標籤(hashtag). 在推文內文中,可使用#後面加上文字,直到輸入空白鍵為止,通常用來表 14.

(23) 達該則推文的主題,並附帶 Twitter 上使用相同 hashtag 推文們的連結。. 3.. 網址(URL). 在推文內文中,如果含有網址時,Twitter 會自動產生一超連結。. 4.. 圖片(photo). 在發文時,使用 Twitter 加入相片的功能。. 5.. 政 治 大. 已認證帳號(verified account). 立. 經過 Twitter 官方認證的帳號,在帳號名稱旁會有一個藍色勾勾符號,能被. ‧ 國. 學. 官方認可的帳號,通常是某一領域的專家、名人、品牌等。. ‧. 6.. 轉推(retweet). sit. y. Nat. al. er. io. 此推文為轉推其他使用者的推文,在 Twitter 上會顯示來源推文,且下方的. v. n. 轉推圖示會亮起。這類推文抓取下來後,內文開頭會加上”RT @user: ”,user 為. Ch. 來源推文使用者的帳號名稱。. 7.. engchi. i n U. 回覆(reply). 此推文為回覆其他使用者的推文,該推文上方會顯示回覆的來源推文, 且推文內容會提及來源推文的使用者。. 8.. 原生(original). 此推文為原生推文,使用者自行發表內容。 15.

(24) 9.. 地理資訊(location). 此推文含有地理訊息。. 政 治 大. 立 圖 6. 推文屬性說明. ‧ 國. 學. 我們將這些推文屬性分成四類,使用者種類(User’s type)、推文內容. ‧. (Tweet’s content)、推文種類(Tweet’s type)再加上推文語系(Tweet’s. sit. y. Nat. language)。User’s type 與 Tweet’s content 的屬性選項有三種狀態,分別為. al. er. io. 包含(藍)、不包含(紅)與無此限制(白),預設皆為無此限制,使用者. v. n. 可透過滑鼠點擊做切換。而 Tweet’s type 與 Tweet’s language 的屬性選項則. Ch. engchi. i n U. 只有包含(藍)與不包含(紅)兩種狀態,分別至少需勾選一種屬性。當使用者 按下綠色 Update 按鈕後,會分別於圖 5 編號 2、3、4、5 區塊顯示資料集對應的 概述、字雲與推文、網站的詞語共現圖。而圖 5 下方編號 6 區塊的推文群組內的 推文數量也會隨之更新。. 再來是圖 5 編號 2 的 Overview of this dataset,此區塊可瀏覽該資料集各種推 文屬性在整體所佔的比例,以期協助使用者在前面 Data selection 下參數時做出 決定。而圖 5 編號 3 的 Word Cloud【Tweet】所顯示的內容可參考圖 7,我們將 資料集所有的推文內文做文本處理後,計算各字詞在本資料集的重要程度,所採 16.

(25) 用的統計方法為 TF-IDF(term frequency–inverse document frequency)[22, 23], 它用以評估一字詞對於整個文件庫裡其中一份文件的重要程度。假如一個詞彙在 該文件中具有較高的詞頻,而在整個文件庫中有較低的文件頻率,則 TF-IDF 的 數值會較高。此方法會傾向於過濾掉常見的詞語,保留重要的詞語。為了計算一 字詞在整個資料集中的重要程度,我們會先計算有出現該詞的各推文中,該詞各 別的 TF-IDF 值,然後加總,除以有出現該詞的推文數,最後求出該詞在資料集 的平均 TF-IDF 值,如過該詞的平均 TF-IDF 值越大,在字雲中所佔大小也會越 大。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 7. Word Cloud【Tweet】介面圖 圖 5 編號 4 的 Noun Co-word【Tweet】所顯示的內容可參考圖 8,我們挑選 資料集中轉推數最高的前 10%原始推文的內文,進行文本處理,並將斷詞後的結 果進行詞性分析,只保留名詞,我們認為,在使用者對於本資料集尚未有一個大 17.

(26) 略的認識時,透過名詞與名詞之間在推文的共現關係,有助於讓使用者瞭解資料 集中有哪些可能的事件發生。而圖 5 編號 5 的 Noun Co-word【URL】的內容則 可見圖 9,其為圖 8 的延伸資料:推文中 URL 網址的內文,文本處理同上,但 資料來源則為網站內容,期盼能達到推文與網址內容比較的目的。另外這兩張詞 語共現圖皆能透過縮放與拖曳的方式瀏覽,點擊某點可進去觀看該點與其他詞彙 共現的子網路,右側兩個按鈕分別能將畫面定位回中心點、將整個網路圖重繪等 功能。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 8. Noun Co-word【Tweet】介面圖. 18.

(27) 立. 政 治 大. sit. y. ‧. ‧ 國. 學. Nat. 圖 9. Noun Co-word【URL】介面圖. n. al. er. io. 最後為圖 5 編號 6 的 Advanced Filter,透過各區塊對於資料集的描述後,使. i n U. v. 用者可選擇利用關鍵字或者推文群組來進一步過濾資料,有關推文分群的計算會. Ch. engchi. 於第 4 節做詳細的說明。當使用者按下綠色 Update 按鈕後,系統會將參數帶往 第二階段的個人篩選區讓使用者做關鍵事件參數的挑選。. 3.3.2. 個人篩選區. 如圖 10 為本系統介面第二階段的個人篩選區(Your Selection),首先是圖 10 編號 1 區塊:Result of Your Selection,此區塊會顯示從上一階段帶來的 參數,並顯示此子資料集所找到的發文者與推文數。參數中藍色代表包含, 紅色為不包含,綠色表示選擇關鍵字或推文群組,黑色則是使用者輸入的 19.

(28) 關鍵字或者群組編號。. 立. 政 治 大. ‧ 國. 學 ‧. 圖 10. 個人篩選區(Your Selection)介面圖. y. Nat. sit. 接下來為圖 10 編號 2 的 Tweets Per Day 區塊,我們利用折線圖來呈現. n. al. er. io. 推文在時序上每天的分布,使用者將滑鼠游標移至任一點上可得知該天的. i n U. v. 發文量,點擊後會將該日期傳至圖 10 編號 4,Key Event Parameters 的 Data. Ch. engchi. Duration 中,點擊奇數次更新起始日期(From)、偶數次則更新結束日期 (To)。此推文時序分布圖能快速地讓使用者確認感興趣的時間區間,作 為最後分析關鍵推文階段的參數之一。. 20.

(29) 圖 11. Hashatg 頻率統計圖. 政 治 大 而圖 10 編號 3 共有立 4 種推文屬性的頻率統計排行,依序為主題標籤. ‧ 國. 學. (hashtag) 、提及(mention) 、網域名稱(domain name)及圖片(media), 我們列出各屬性在子資料集中頻率排行前 30 名的元素,如圖 11 即為. ‧. hashtag 的頻率統計圖,點擊元素本身的超連結即會導向至 Twitter 頁面顯. sit. y. Nat. 示更詳細的資訊。另外我們將每一個元素旁邊加上 add 的按鈕,如果使用. al. er. io. 者對於此元素感興趣,點擊後會將該元素傳至圖 10 編號 4,Key Event. v. n. Parameters 對應的推文屬性中,同樣作為分析關鍵推文的參數之一。. Ch. engchi. i n U. 本階段的最後為圖 10 編號 4 的 Key Event Parameters,此區塊顯示了使 用者挑選的日期與各項推文屬性元素的參數,如圖 12,如使用者後悔自己 所選擇的元素時,點擊元素旁邊的 delete 按鈕即可移除。當使用者按下綠色 Update 按鈕後,系統會移至第三階段的關鍵事件分析區來呈現系統依照參數所 推薦的關鍵推文。. 21.

(30) y. ‧. 圖 12. Key Event Parameters 介面圖. Nat. io. n. al. sit. 關鍵事件分析區. er. 3.3.3. 學. ‧ 國. 立. 政 治 大. i n U. v. 圖 13 為本系統第三階段的關鍵事件分析區(Key Events Analysis),圖 13. Ch. engchi. 編號 1 為呈現關鍵推文的時間軸,右側編號 2 則為系統依照各屬性所推薦 的關鍵推文列表。我們將第二階段個人篩選區的四個推文屬性 hashtag、 mention、domain name 及 media 分別使用紅、橙、黃、綠色來顯示,而另 外的轉推(Retweet)、收藏(Favorite)及發文者(User)的屬性則用藍、 靛、紫色顯示。以圖 14 為例,該則推文同時被 hashtag、domain name、retweet 及 favorite 屬性所推薦,很可能代表該則推文在此子資料集中扮演重要的 角色。利用顏色的呈現方式,能讓使用者很直覺的觀察時間軸上各則推文 被那些屬性所推薦。滑鼠游標移至點上時,會顯示該則推文內文,點擊發 文者名稱則會被導向至該則推文頁面,而下方會顯示該則推文的轉推數以 22.

(31) 及收藏數。時間軸本身亦可縮放、拖拉,來改變呈現的時間區間。. 立. 政 治 大. ‧. ‧ 國. 學. 圖 13. 關鍵事件分析區(Key Events Analysis)介面圖. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 14. Tweets Timeline 中的一則推文. 介面右側的關鍵推文推薦列表,我們分成三部分說明:前四個推文屬 性 hashtag、mention、domain name 及 media 都會在上方顯示 Tweets have this _____ per day 的按鈕,底線部分為屬性名稱,點擊後會在下方顯示具有該 屬性元素的推文的時序分布圖,如圖 15。點擊折線圖上任一點,系統則會 23.

(32) 將該點日期傳至左側的推文時間軸,將顯示區間改變成該日,方便使用者 快速確認那一天有哪些關鍵推文。剩餘的 retweet、favorite 屬性則不會有 下方的時序分布圖,而是直接列出資料集裡前 10 則最高轉推數或收藏數 的推文資訊,如圖 16。最後的 user 屬性則是顯示資料集中前 10 名最具影 響力的發文者資訊,如圖 17,每位使用者名稱下方亦有 This user’s tweets per day 的按鈕,點擊後會在下方顯示該發文者發文的時序分布圖,同樣點 擊折線圖上任一點,亦會將左側推文時間軸所顯示的時間區間改成該日 。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 15. Hashtag 參數所推薦的關鍵推文頁面. 24.

(33) 立. 政 治 大. ‧ 國. 學. 圖 16. Retweet 參數所推薦的關鍵推文頁面. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 25. i n U. v.

(34) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. v. n. 圖 17. User 參數所推薦的發文者頁面. Ch. engchi. i n U. 當使用者想對事件有個概略的了解時,可透過左側關鍵推文的時間軸 來觀察,如對於某個顏色的關鍵推文感興趣,可馬上對照顏色知道屬於哪 個屬性,再點擊右側的推薦列表觀察推文詳細內容,我們期望透過關鍵事 件分析區左右兩邊區塊相互的瀏覽,能幫助使用者找尋事件中的關鍵推文 並瞭解其發展歷程。. 26.

(35) 第4章 系統實作. 本章節講解本系統的實作技術,共分為四個部分:第一部分為 Twitter 與網 站資料的收集、第二部分為資料前處理及文本斷詞、第三部分為推文分群 的方法說明、第四部分為系統將資訊做視覺化呈現時所使用的技術。. 4.1 資料收集. 政 治 大 於 3.2.1 節中提到我們使用 立 DMI-TCAT 作為我們蒐集 Twitter 的工具,但因. ‧ 國. 學. 為 Stream API 不支援中文關鍵字,因此我們改寫 DMI-TCAT 中 Search API 蒐集的方式,使其能以一小時為一個執行單位,往前蒐集資料。而 Twitter. ‧. API 回傳資料的型態為 JSON(JavaScript Object Notation)格式,JSON 的. sit. y. Nat. 結構基本上由物件(Object)組成,每個物件由一對大括號({})所構成,. al. er. io. 一個物件包含一系列非排序成對的「名稱:值」(name:value)組成,每個. v. n. 成對之間再以逗號「,」分隔。DMI-TCAT 將回傳的 JSON 資料解析後分別. Ch. engchi. i n U. 存成 6 個資料表,分別是 hashtags、media、mentions、places、tweets、urls。 收集流程如圖 18。. 27.

(36) 政 治 大. 圖 18. Twitter 資料收集流程圖. 立. 而於 3.2.2 及 3.2.3 節中所提到的 klout 與 website,則是利用 PHP 撰寫. ‧ 國. 學. 網路爬蟲將我們想要的資料抓取下來,存進對應格式的資料表中。. ‧. 4.2 文本處理. sit. y. Nat. al. er. io. 在將推文分群以及作詞語共現網絡的分析之前,我們必須先將推文與網址. v. n. 內容做文本處理,因不同語言有著不同的處理方式,本研究將以繁簡中文. Ch. engchi. i n U. 語系為例,說明如何針對中文進行資料前處理及文本斷詞。. 在中文的句子中,詞彙(word)是最小有意義且能夠自由使用的語言 單位,任何語言處理的系統都必須先能辨別文本中的詞才能進一步處理。 中文斷詞相較英文斷詞複雜的多,無法僅藉由空白來斷開句子,這個問題 在先前的研究中,已提出解決辦法。例如,中央研究院有提供中文斷詞系 統(CKIP)[24]供研究人員使用,但其開放的 API 呼叫的次數有限制,且 僅能針對繁體中文進行斷詞,而我們的資料集包含了簡體中文的推文內容。 近年來在 Github 上有另一套中文斷詞工具:結巴(jieba)[25],由 Python 28.

(37) 程式語言所編寫的開源中文斷詞程式,所使用的演算法是基於字典樹(Trie) 結構來生成句子中文字所有可能成詞的情況,然後使用動態規劃來找出最 大機率的路徑,此路徑就是基於詞頻的最大斷詞結果。結巴在找新詞的方 法則使用基於隱馬爾可夫模型(Hidden Markov Model)的 Viterbi 動態規 劃演算法做中文分詞,除了有新詞的識別能力,同時支援繁簡中文斷詞, 亦可添加自定義詞典以確保更高的正確率,故本研究採用結巴作為我們斷 詞的工具。. 要處理的文本有兩部分,一為推文內文,取自 tweets 資料表的 text 欄. 政 治 大. 位;二為網頁標籤內容。將兩者資料從資料庫取出後,利用正規表示式. 立. (Regular Expression)去除內含的網址,再放入結巴做斷詞的處理,並去. ‧ 國. 學. 除標點符號、停用詞(Stop Words)等雜訊,最後將斷詞結果回存進資料 庫,以便接下來做推文分群和詞語共現網絡的分析。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 19. 文本處理流程圖. 4.3 推文分群. 由於本研究為了測試從廣泛的資料中,找出關鍵議題事件的能力,我們選 擇了台灣的繁體與簡體中文作為資料集的蒐集關鍵字。因此我們認為,直 29.

(38) 接尋找整個資料集中的關鍵推文是沒有意義的,將內文類似的推文分在同 一群後,再從該群找尋關鍵推文,才能幫助使用者了解某個議題事件的發 展歷程。我們參考 S. Phuvipadawat 等人追蹤 Twitter 上即時新聞的研究[15],採 用他們推文分群(grouping)的演算法,協助我們將資料集中的推文分群。. 為了分群,我們需要量化推文間的相似程度,以下為計算兩推文的相 似度公式[15]:. sim(𝑚𝑚1 , 𝑚𝑚2 ) = � [𝑡𝑡𝑡𝑡(𝑡𝑡, 𝑚𝑚2 ) × 𝑖𝑖𝑖𝑖𝑖𝑖(𝑡𝑡) × 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏(𝑡𝑡)]. 政 治 大 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐(𝑡𝑡 𝑖𝑖𝑖𝑖 𝑚𝑚). 𝑡𝑡∈𝑚𝑚1. idf(t) = 1 + log �. 𝑁𝑁 � 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐(𝑚𝑚 ℎ𝑎𝑎𝑎𝑎 𝑡𝑡). ‧. ‧ 國. 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠(𝑚𝑚). 學. 立tf(t, m) =. sit. y. Nat. 其中用到了由 G. Salton 等人所提出的 TF-IDF(Term Frequency -. n. al. er. io. Inverse Document Frequency)[22]統計方法,在資訊檢索(Information. v. Retrieval)領域中,常用來評估一個詞彙對於一個文件集的重要程度。將. Ch. engchi. i n U. 其拆成兩部分,詞頻(Term Frequency,TF)是指一個詞彙於文件中出現 的頻率,為了避免單純使用詞彙次數會出現的偏差,除以文件中的詞彙總 數來標準化數值。逆向文件頻率(Inverse Document Frequency,IDF)是 用來表示一個詞彙在整個文件庫的普遍重要程度。如果包含某個詞彙的文 件越多,代表這詞彙在文件庫中較不具有分辨的重要性,其 IDF 數值就較 低。結合詞頻與逆向文件頻率的想法,可以得到 TF-IDF= tfIDF 的的計算. 式。如果一個詞彙在文件中具有較高的詞頻,並且在整個文件庫中有較低 的文件頻率,則此詞彙會有較高的 TF-IDF 值,具有較好的類別區分能力, 適合用來分類。 30.

(39) 而boost(𝑡𝑡)則是用來提升特定字詞比重的數值,判別特定字詞的方法為 命名實體識別(Named Entity Recognition,NER) ,是指從文本中識別具有 特定類別的實體(通常是名詞) ,例如人名、地名、機構名、專有名詞等。 我們採用由 Stanford 大學自然語言研究小組所公開的 Stanford Named Entity Recognizer(NER)[26]來找出特定字詞,它是一個以 Java 語言實做 出來的函式庫套件,主要是用做英文的命名實體識別,於 2012 年起支援 中文的識別。. 圖 10 為 Stanford NER 視窗版對於英文文本的分析範例,可以看到找. 政 治 大. 出了一些人名、地名與組織名稱等實體,這些名詞我們將乘上一個權重,. 立. 以期提高比較推文間相似程度的準確度。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 31. i n U. v.

(40) 圖 20. Stanford NER 視窗版分析範例. 接下來則將說明推文分群的演算法,詳細如下:將一則待分類的推文 與每群第一則發佈的推文和詞頻高的字詞(預設取前 10 個)比較相似度, 計算相似度的公式,可參考我們前面的敘述。這樣會計算出該推文對應於 每一群的相似度分數,之中的最高分數如果大於一個門檻值,則該推文就 屬於那一群;如果沒有,就將該推文建立新的一群,由此依序將所有推文 分群。. 政 治 大. 𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀𝐀 𝟏𝟏 Assign message 𝑚𝑚 into a group in 𝐺𝐺 𝐟𝐟𝐟𝐟𝐟𝐟 𝑔𝑔 in 𝐺𝐺 𝐝𝐝𝐝𝐝. 立. n. sit er. io. al. y. Nat. Assign(𝑚𝑚, 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔) 𝐞𝐞𝐞𝐞𝐞𝐞 𝐢𝐢𝐢𝐢 𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫𝐫 𝐺𝐺. ‧. ‧ 國. 學. 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆[𝑔𝑔] ← Sim(𝑚𝑚, 𝑔𝑔. firstDoc, 𝑔𝑔. topTerms) 𝐞𝐞𝐞𝐞𝐞𝐞 𝐟𝐟𝐟𝐟𝐟𝐟 𝐢𝐢𝐢𝐢 Max(𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆) > 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀ℎ𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟ℎ𝑜𝑜𝑜𝑜𝑜𝑜 𝐭𝐭𝐭𝐭𝐭𝐭𝐭𝐭 𝐞𝐞𝐞𝐞𝐞𝐞𝐞𝐞 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 ← 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺. create( ). i n U. v. 我們從資料庫取出各推文斷詞後的結果,進行推文分群後,將各推文. Ch. engchi. 屬於的群編號回存進資料庫,群內的推文理想情況下都應該是討論類似的 議題。在本研究的資料集中,總共 153,186 筆推文被分為 338 個群組,此群組 數是調整此演算法中的門檻值,讓分群產生的群組數最少的結果。. 4.4 視覺化呈現. 本系統利用到的視覺化圖表共有四大項:字雲(word cloud)、名詞共現網 絡圖(noun co-word)、推文時序分布折線圖以及推文時間軸的關鍵推文大 事記。 32.

(41) 字雲(word cloud)如在 3.3.1 節中所示,我們計算完各詞彙的 TF-IDF 之後,將其儲存為每行”字詞,TF-IDF 值”的純文字檔,利用基於 D3.js[27] 所開發的一個 Javascript 函式庫 d3-cloud[28]來實作。D3.js 為一個 Javascript 函式 庫,具有豐富的繪圖輔助函式,提供較為彈性的視覺化設計,有許多延伸的套件 以提供各種資訊視覺化的需求。. 針對名詞共現網絡圖(noun co-word),本研究使用一個開源的輕量級 Javascript 的網絡圖(network graph)套件 Sigma.js[29],它是一個致力於在 web 應用中進行圖形繪製的 Javascript 函式庫,目的在幫助開發者們創建圖形,同時. 政 治 大. 也能夠讓用戶在網頁上進行操控。它是基於 HTML5 畫布的實現,能夠生成靜態. 立. 或者動態的互動網路圖形。此套件支持主流的瀏覽器,其高度的自定義性以及易. ‧ 國. 學. 於操作的 API,因此我們選擇利用此套件來實現我們的互動視覺化。. ‧. Sigma.js 所能讀取的檔案格式為 JSON 格式,我們透過一個開源的視覺化. sit. y. Nat. 軟體 Gephi[30],先繪製完成共現網絡圖後,再匯出成 JSON 格式的檔案,. al. er. io. 以便 Sigma.js 讀取。以圖 21 為例,每個節點的定義為一個名詞,節點越大代表. v. n. 與越多字詞出現在同則推文中,顏色的設定使用 modularity class[31]的計算結果,. Ch. engchi. i n U. 當兩詞彙出現在同一則推文中,彼此之間將會建立連線,隨著共現次數的增長, 會增加邊的權重。布局(layout)的方式則採用 Fruchterman Reingold 演算法[32]。 它是一種圓形布局,利用兩節點間的斥力,有邊關連的兩點有引力的概念,不斷 迭代,計算出所有點之間的斥力,自動把節點排成一個圓形。使用此布局是因為 考慮到詞語間的共字情形,可能會較常出現節點群體明顯的現象,亦有一些少數 討論的名詞存在,從圖 21 中可以看到有一些邊緣節點,為了不讓這些節點過於 向外延伸,導致使用者較需大幅度拖拉畫面才能觀察整個網絡圖,因此我們選擇 此種布局方式。. 33.

(42) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. 圖 21. Noun Co-word【Tweet】於 Gephi 軟體中的網路圖. 而推文時序分布的折線圖則利用 Highcharts[33]實作,其同樣是 Javascript. al. n. v i n 函式庫,適合用來繪製統計圖表。最後呈現關鍵推文的大事記則採用 vis.js[34] Ch engchi U. 實作,適合用來處理大量的動態資料,我們利用該函式庫其中的 timeline 元件來 繪製時間軸。以上這些視覺化圖表,我們將其放在系統的各階段中,期望讓 使用者在找尋關鍵推文時的探索更加容易。. 34.

(43) 第5章 實驗設計與結果分析. 我們根據第 3、4 章的描述所設計實作出的系統,設計了一套實驗流程,我們希 望透過受試者的體驗,進一步了解系統是否能輔助受試者找尋特定事件中的關鍵 推文並瞭解其發展歷程?受試者透過系統教學學習如何操作系統後,再透過引導 式任務來熟悉系統介面,並在系統中進行自由探索,最後透過問卷與訪談來評估 系統目標設計、系統有用性與易用性。. 政 治 大. 立. 5.1 實驗目標. ‧ 國. 學. 本實驗目標希望了解對社群媒體有興趣,可能做過相關研究分析的受試者,是否. ‧. 能透過本系統所提供的介面,快速地探索及分析 Twitter 上有哪些新聞事件及其. sit. n. al. er. io. 饋。. y. Nat. 關鍵推文,並利用質化研究訪談受試者,來了解受試者對於本系統的意見及回. 5.2 實驗對象. Ch. engchi. i n U. v. 本系統的設計目標是輔助使用者找尋事件中的關鍵推文並瞭解其發展歷程,我們 挑選的實驗對象為使用過社群媒體,但對於社群媒體資料分析的瞭解程度各不相 同的受試者,使用我們的系統時是否需要具備相關的背景知識。實驗人數為 4 人,表 2 為受試者的基本資訊。 表 2. 受試者基本資訊 受試者. 對於 Twitter 的使用經驗. 對社群媒體分析的瞭解程度. A. 有用過,約 1 次/月. 經常分析:Facebook、PTT;分析討論 內容與重大話題。 35.

(44) B. 有用過,約 2 次/週. 曾經聽過. C. 沒用過. 經常分析:Facebook. D. 沒用過. 曾經聽過. 5.3 實驗流程. 在實驗正式開始前,我們會先進行實驗流程的講解,並透過紙本讓受試者瀏覽系 統介面的操作步驟教學,以使受試者對於本系統有初步的了解。之後開始實驗, 首先請受試者完成引導式任務來熟悉介面,從中瞭解系統能給予使用者什麼資訊。. 政 治 大. 接下來則是至少 20 分鐘的自由探索,讓受試者在資料集中自行找出有興趣的新. 立. 聞事件和關鍵推文。最後是問卷填寫與訪談,詳細了解受試者使用系統的情況與. ‧. ‧ 國. 學. 心得,如圖 22 為實驗流程圖。. n. 5.3.1. 引導式任務. Ch. engchi. er. io. al. sit. y. Nat. 圖 22. 實驗流程圖. i n U. v. 為確保每位受試者對於本系統介面各個功能的了解是相等的,我們將會利 用範例做基本的操作說明與練習(附錄 1)。在訓練的過程中,我們會在一 旁觀察並回答受試者對於介面操作上的問題,受試者亦可參考前一步驟的 操作教學解惑。. 引導式任務主要分為三個部分,分別對應至系統介面的三個階段: (一) 熟悉資料選擇區(Data Selection)的各項功能、 (二)熟悉個人篩選區(Your Selection)的各項功能、 (三)熟悉關鍵事件分析區(Key Events Analysis) 36.

(45) 的各項功能。每一部分的每個小任務皆附有介面功能的截圖,讓受試者在 進行任務的同時也可以理解自己的操作帶來怎樣的效果,我們透過這個過 程,讓受試者在完成引導式任務的過程中熟悉系統介面。. 5.3.2. 自由操作. 透過系統教學與引導式任務練習,確認受試者對於系統操作與探索方式有 一定的瞭解程度後,開始進行自由探索的階段。自由探索階段的目標是希 望能夠驗證受試者能否透過系統找出新聞事件,進而從中探索關鍵推文,. 政 治 大. 最後瞭解整個事件的發展歷程。. 立. 在這個階段,探索時間至少為 20 分鐘,讓受試者在系統介面的三個. ‧ 國. 學. 階段間充分地來回探索。由於每位受試者對於資料集的背景知識各不盡相. ‧. 同,因此假如受試者不知道該探索什麼事件時,我們列出以下新聞事件提. y. Nat. 供受試者參考,如表 3,此表中的事件是基於表 1 台灣這個資料集的時間. er. io. sit. 區間,去尋找有哪些重大新聞事件。. n. a表l 3. 參考的新聞事件列表 i v n Ch 發生起始日期 U engchi. 事件名稱. 2016 年中華航空空服員罷工事件. 2016 年 6 月 24 日. 雄風三型反艦飛彈誤射事件. 2016 年 7 月 1 日. 強烈颱風尼伯特(2016 年). 2016 年 7 月 2 日(生成日期). 臺鐵 1258 次區間車爆炸事故. 2016 年 7 月 7 日. ATM 無卡盜領案. 2016 年 7 月 9 日. 南海仲裁案. 2016 年 7 月 12 日. 2016 年桃園火燒車事件. 2016 年 7 月 19 日. 5.3.3. 問卷與訪談. 在受試者完成自由操作的階段後,我們會請受試者填寫問卷,問卷分為兩 37.

(46) 個部分:受試者基本資訊、系統評估問卷與受試者訪談。我們會依照受試 者所填寫的問卷內容與受試者訪談,了解受試者在探索事件的歷程中的思 考方式或面臨到的困難。. 1.. 受試者基本資訊. 這部分的問題是為了瞭解受試者對於使用 Twitter 以及社群媒體分析的相 關經驗與瞭解程度。調查的問題如表 4,調查的結果可參考表 2。 表 4. 受試者基本資訊中調查的問題. # 1. 學. 2.. ‧ 國. 2. 治 政 調查的問題 大 對於推特(Twitter)的使用經驗為何? 立 對「社群媒體分析」的瞭解程度。. 系統評估問卷. ‧. sit. y. Nat. 系統評估的問卷,我們分成三個部分:系統功能評估、系統整體評估與開放性問. io. er. 題。我們希望透過這三個部分的問卷,得到受試者對系統的有用性、易用性產出 結果。以下將介紹三個部分的問卷設計,表 5 為整理不同面向問卷的評估內容。. n. al. Ch. engchi. i n U. v. 表 5. 系統評估問卷項目與評分方式 問卷評估項目. 問卷目標. 答題方式. 題數. 系統功能. 評估系統功能的有用性、易用性與滿意度。. 5 分量表. 11. 5 分量表. 9. 開放性問答. 3. 系統整體 對系統整體的有用性、易用性評估。 (結論性評估) 開放性問題. 從受試者回答中,得到系統對探索過程輔 助的不同回饋。以及受試者透過系統所發 掘的內容。. (1) 系統功能評估. 系統功能評估的部分,共有 11 題,使用 5 分量表,分數從 1 分到 5 分,同意程 38.

(47) 度分別為非常不同意、不同意、普通、同意、非常同意。我們依照 3 個系統目標: 了解資料集概觀並挑選參數、瀏覽進階資訊,給予系統關鍵事件(推文)的參數、 觀察系統推薦的關鍵推文,輔助瞭解事件發展歷程來設計問題,並隱藏個問題所 對應的系統目標,對有用性、易用性、滿意度,分別設計不同的問題,詳見表 6。. 系統功能評估的問卷我們參考 USE (Usefulness, Satisfaction, and Ease of Use) 量表[35]中提供的問題來設計。USE 量表分為 4 個評估向度,總共有 30 題,分 別對應到不同向度中。USE 中的 4 個評估向度分別為有用性(Usefulness) 、易用 性(Ease of Use) 、易學性(Ease of Learning) 、滿意度(Satisfaction) 。依據我們. 政 治 大. 的系統目標,修改 USE 量表所提供的問題,做為我們系統功能評估的問卷。 表 6. 系統功能評估問卷與評估向度. 了解資料集概觀並挑選參數(第一層 Data Selection). 使用此系統可以讓我快速對資料集有個概觀 的瞭解。. 有用性. 在此系統中使用視覺化的方式呈現字詞間的 關係,可以幫助我找尋關鍵字。. 4. 滿意度. sit. al. n. 易用性. 使用視覺化的方式呈現詞雲(word cloud)和 詞語共現圖(co-word),是清楚而且可以理解 的。. er. io. 3. y. Nat. 2. 有用性. ‧. 1. 學. ‧ 國. 立. v i n C h我對此系統能讓我「快速的對資料集有個概 engchi U 觀的瞭解」感到滿意。. 瀏覽進階資訊,給予系統關鍵事件(推文)的參數(第二層 Your Selection) 5. 有用性. 使用此系統可以讓我在不同統計資料間切換 (hashtag, mention, domain, media 頻率),探索 可能的關鍵事件。. 6. 易用性. 學習操作此介面來設定系統關鍵事件(推文) 的參數對我來說是容易的。. 7. 滿意度. 我對此系統能讓我「在不同統計資料間切換」 感到滿意。. 觀察系統推薦的關鍵推文,輔助瞭解事件發展歷程(第三層 Key Events Analysis) 8. 有用性. 我覺得系統推薦的關鍵事件(推文)是有參考 39.

(48) 價值。 9. 有用性. 我覺得以時間軸呈現的視覺化方式能讓我快 速瀏覽有哪些關鍵事件(推文)。. 10. 易用性. 我覺得以縮放、拖曳時間軸的方式瀏覽關鍵 事件(推文)對我來說是容易的。. 11. 滿意度. 我對此系統能「推薦事件的關鍵事件(推文)」 感到滿意。. (2) 系統整體評估. 系統整體評估的部份,共有 9 題,使用 5 分量表,分數從 1 分到 5 分,同意程度. 政 治 大 (Technology Acceptance Model, 科技接受模型)中提到的感知有用性(Perceived 立 分別為非常不同意、不同意、普通、同意、非常同意。我們參考 TAM[36]. ‧ 國. 學. Usefulness) 、感知易用性(Perceived Ease of Use)問卷量表,修改為表 7 中的問. ‧. 感知有用性(Perceived Usefulness). Nat. 表 7. 感知有用性、感知易用性問卷. y. 題,並隱藏各問題對應的向度分類。. 2. 在我的工作中使用此系統能提高我在分析事件發展歷程的產出。. 3. 此系統讓我更容易分析事件的發展歷程。. al. er. sit. 在我的工作中使用此系統,能幫助我更快地分析事件的發展歷程。. io. 1. 5. 學習操作此系統對我來說是容易的。. 6. 此系統的操作方式是清楚而且可以理解的。. 7. 我覺得此系統的操作方式是靈活、有彈性的。. 8. 我可以很容易學會操作此系統。. 9. 我覺得此系統容易使用。. n. 4. v i n Ch 我覺得此系統在我分析事件的發展歷程是有用的。 U i e h n c g 感知易用性(Perceived Ease of Use). (3) 開放性問題. 在開放性問題的部分,共有 3 題,使用開放式問答的方式。我們希望透過開放性 問題得到無法預期的受試者對系統使用者體驗的回饋。問題如表 8,並隱藏各問 40.

(49) 題對應的向度分類。 表 8. 開放性問題問卷題目 #. 向度. 問題. 1. 系統特色. 系統有什麼特別吸引您的功能或特色?. 2. 未來發展. 希望增加什麼功能?. 3. 改進之處. 對系統有什麼建議?請敘述說明。. 5.4 實驗結果分析與討論. 本實驗的受試者共 4 人,受試者基本資訊請見 5.2 節,受試者皆完成 5.3 實 驗流程中的 4 個階段。. 立. 政 治 大. ‧ 國. 學. 在這個章節,我們會討論受試者在問卷與訪談階段中所填寫的問卷資料、訪 談內容、自由探索階段中產出的受試者結論與發現。本章節將實驗結果分別對有. ‧. 用性、易用性來做討論。在有用性的部份,我們會討論 TAM 中的感知有用性問. Nat. sit. y. 卷結果。在易用性的部份,將會討論 TAM 中的感知易用性問卷結果。在分析有. n. al. er. io. 用性及易用性的同時,也會搭配探討訪談過程來做討論。. 5.4.1. 有用性評估. Ch. engchi. i n U. v. 在有用性評估中,我們會討論TAM中的感知有用性問卷結果,以及受試者如何 透過3個系統設計目標來輔助受試者找出關鍵推文,並探索事件的發展歷程。. 在有用性評估方面,我們修改TAM中感知有用性的問卷題目,來了解受試 者對系統整體有用性的評估,問卷題目與分數如表9。. 41.

(50) 表 9. 感知有用性問卷分數與平均 A. B. C. D. 平均. 標準差. 在我的工作中使 用此系統,能幫助 1 我更快地分析事 件的發展歷程。. 5. 3. 4. 5. 4.25. 0.96. 在我的工作中使 用此系統能提高 2 我在分析事件發 展歷程的產出。. 4. 3. 3. 3. 3.25. 0.50. 此系統讓我更容 3 易分析事件的發 展歷程。. 5. 3. 4. 4. 4.00. 0.82. 政 治 大 4 5 5. 4.75. 0.50. #. 題目. 我覺得此系統在 4 我分析事件的發 展歷程是有用的。. 立5. ‧ 國. 學. 從有用性每題的平均分數來看,第 2 題是否能提高產出的平均分數較低,不. ‧. 到 4 分,其他皆高於 4 分以上。我們認為,本系統基本上能有效地幫助使用者分. Nat. sit. y. 析事件的發展歷程,但不一定能提升產出。在開放性問題中,受試者 A 就希望. n. al. er. io. 針對推薦關鍵推文的結果能有下載檔案的機制,以利他作後續的文本分析。受試. i n U. v. 者 D 也提出增加使用者紀錄的需求,讓系統能紀錄上一次過濾資料的參數,使 操作更加方便。. Ch. engchi. 除了對系統整體的有用性評估,我們希望從系統功能評估的部分,來瞭解受 試者覺得系統是否有達到設計目標,問卷的題目與分數如表 10。 表 10. 系統功能問卷平均與標準差 #. 題目. 平均. 標準差. 1. 使用此系統可以讓我快速對資料集有個概觀的瞭 解。. 4.50. 1.00. 2. 在此系統中使用視覺化的方式呈現字詞間的關 係,可以幫助我找尋關鍵字。. 4.25. 0.96. 3. 使用視覺化的方式呈現詞雲(word cloud)和詞語. 4.50. 0.58. 42.

(51) 共現圖(co-word),是清楚而且可以理解的。 4. 我對此系統能讓我「快速的對資料集有個概觀的 瞭解」感到滿意。. 4.50. 0.58. 5. 使用此系統可以讓我在不同統計資料間切換 (hashtag, mention, domain, media 頻率),探索可能 的關鍵事件。. 4.50. 0.58. 6. 學習操作此介面來設定系統關鍵事件(推文)的參 數對我來說是容易的。. 4.00. 0.00. 7. 我對此系統能讓我「在不同統計資料間切換」感 到滿意。. 4.50. 0.58. 4.25. 0.96. 4.75. 0.50. 5.00. 0.00. 我覺得系統推薦的關鍵事件(推文)是有參考價. 8. 值。. 政 治 大 我覺得以縮放、拖曳時間軸的方式瀏覽關鍵事件 立 我覺得以時間軸呈現的視覺化方式能讓我快速瀏 覽有哪些關鍵事件(推文)。. 9 10. (推文)對我來說是容易的。. ‧ 國. 學. 我對此系統能「推薦事件的關鍵事件(推文)」感 到滿意。. 11. 4.25. 0.50. ‧. 系統功能評估問卷中,平均分數都有在 4 分以上,顯示從受試者的體驗,本. y. Nat. io. sit. 系統有達到設計目標。其中在第 10 題: 「我覺得以縮放、拖曳時間軸的方式瀏覽. n. al. er. 關鍵事件(推文)對我來說是容易的。」所有受試者都給了 5 分,認為時間軸提供. Ch. i n U. v. 縮放及拖曳的功能能很容易地瀏覽推文。經常分析 Facebook 及 PTT 上討論內容. engchi. 的受試者 A 在開放性問題中表示,利用時間軸來呈現關鍵推文的功能對他來說 十分有用且便利,以往分析資料需要類似的圖表時,需要人力自製時間軸,再將 一則一則推文標示上去畫成圖表,現在系統有了這個功能有助於理解事件脈絡。. 5.4.2. 易用性評估. 針對易用性評估,我們修改 TAM 中感知易用性的問卷題目,來瞭解受試 者對系統整體易用性的評估,問卷題目與分數如表 11。. 43.

(52) 表 11. 感知易用性問卷分數與平均 A. B. C. D. 平均. 標準差. 學習操作此系統 5 對我來說是容易 的。. 4. 4. 5. 4. 4.25. 0.50. 此系統的操作方 6 式是清楚而且可 以理解的。. 4. 4. 5. 4. 4.25. 0.50. 我覺得此系統的 7 操作方式是靈 活、有彈性的。. 4. 3. 5. 5. 4.25. 0.96. 我可以很容易學 會操作此系統。. 4. 4. 5. 4. 4.25. 0.50. 我覺得此系統容 9 易使用。. 4. 4.25. 0.50. #. 立. 政4 治5 大 4. 學. ‧ 國. 8. 題目. 易用性每題的平均分數差異不大,平均皆有 4 分以上的分數,但透過訪談後. ‧. 仍得知有改善之處。例如受試者 A 希望在關鍵事件分析區右側的影響力發文 者列表中,點擊發文者就能列出該發文者所發的推文,否則還要回到左側. y. Nat. io. sit. 的時間軸瀏覽。受試者 C 則希望資料選擇區中字雲及名詞共現圖上的字詞能透. n. al. er. 過點擊,自動加入至關鍵字輸入的欄位,省去自行輸入的麻煩。而受試者 D 則. Ch. i n U. v. 針對關鍵事件分析區的時間軸提出改善建議,希望點擊右側關鍵推文列表下方. engchi. 的時序分布折線圖時,能將時間軸所對應的日期用顏色提示出來。. 我們認為,若未來要提高系統易用性,除了新增一些更加便利的功能之外, 使用者介面的一致性也很重要,例如受試者 B 表示在關鍵推文列表中推文內文 提及(mention)是用綠色呈現,但該推文屬性提及(mention)卻是用橘色表示, 容易讓使用者在認知上有衝突(見圖 23)。. 44.

(53) 圖 23. 使用者介面一致性的問題. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 45. i n U. v.

(54) 第6章 結論與未來展望. 6.1 研究結論. 本研究所開發的的視覺化分析系統,收集了 Twitter 上的推文、透過各種視覺化 的圖表及統計資訊,協助使用者透過漸進的方式來操作系統各階段的功能,以便 逐步篩選出新聞事件的關鍵推文,而可客製化參數的設計也讓使用者能依觀察到. 政 治 大. 的現象來調整系統推薦的推文,進而達到瞭解發展歷程的目標。. 立. ‧ 國. 學. 在實驗評估的部分,本實驗邀請 4 位受試者,我們透過系統操作教學及引導 式任務,讓受試者對系統的熟悉程度趨近相同,再讓受試者自由操作本系統,最. ‧. 後透過問卷與訪談的方式來探討系統的優缺點。我們從受試者填寫的問卷中計算. sit. y. Nat. 系統目標、有用性與易用性的評分結果:3 項系統目標的平均分數均超過 4 分,. al. er. io. 代表受試者對於本系統是否有達到系統目標表示同意;有用性的平均分數為 4.1,. v. n. 表示本系統基本上能有效地幫助使用者分析事件的發展歷程,但協助提高分析結. Ch. engchi. i n U. 果產出的部分尚待加強;易用性的平均分數為 4.3,顯示受試者對本系統的易用 性表示同意,但在使用者介面上的設計也提出了一些改善的建議。. 本系統的主要目的,是希望能協助使用者找尋事件中的關鍵推文並瞭解其發 展歷程,由實驗結果與受試者回饋顯示,本研究的視覺化分析系統具有幫助理解 事件脈絡的能力,證實了本系統的發展價值。. 6.2 未來發展與改進. 本研究所提出的視覺化分析系統,提供了以視覺化的分析方式結合推文與網址內 46.

參考文獻

相關文件

常識科的長遠目標是幫助學生成為終身學習者,勇於面對未來的新挑 戰。學校和教師將會繼續推展上述短期與中期發展階段的工作

從視覺藝術學習發展出來的相關 技能與能力,可以應用於日常生 活與工作上 (藝術為表現世界的知

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

SerialNumber specifies the desired serial number, allowing the call to open a specific Phidget.. Speci- fying -1 for the serial number will cause it to open the first

在【逐步解析 1】中,共需要輸入 2 個答案,為了避免「後面 輸入的答案(數學分數)」取代「前面的答案(國文分數)」,我 們要利用 2 個不同的變數來區別兩者,並以變數

在這一節中,我們將學習如何利用 變數類 的「清 單」來存放資料(表 1-3-1),並學習應用變數的特

YouTuber 們只要點開網頁,就能快速使用這些服務。此外 Google 也推出 了 YouTube API,能讓開發者利用 YouTube

我們提出利用讀取器與讀取器間的距離為參數來優化利用分層移除讀取器之方法的最佳 化技術 Distance Based Optimization for Eliminating Redundant Readers (DBO) ,此方法完全