跨平台社群媒體巨量資料蒐集與分析

(1)

科技部補助專題研究計畫成果報告

期末報告

跨平台社群媒體巨量資料蒐集與分析

計畫類別：個別型計畫計畫編號： MOST 104-2420-H-004-043-執行期間： 104年09月01日至105年06月30日執行單位：國立政治大學資訊科學系計畫主持人：陳恭共同主持人：陳百齡、鄭宇君計畫參與人員：碩士級-專任助理人員：黃于育碩士級-專任助理人員：黃明怡

中　華　民　國　105　年　09　月　30　日

(2)

中文摘要：本文主要介紹傳播領域與資料科學的跨領域合作，運用大數據發展出創新的研究方法設計，用來收集與分析社交媒體上重大事件之資料。本研究以Twitter及Facebook做為資料收集平台進行研究設計，發展了可蒐集這兩個平台的工具。 (1)Twitter部份，是根據貼文資料（tweets）與後設資料（metadata）的特性，以及Twitter社群互動與發言習慣，設計符合華語用戶之資料收集與分析工具，以便在事件發生第一時間收集大量推文資料。研究者首先透過語言辨識工具區分出繁體中文、簡體中文、日文、英文等不同語系推文，藉此區分不同語言社群的傳播模式；同時利用超連結分析，瞭解各種社交媒體、新聞來源被網路社群引用的狀況；亦可透過社會網絡分析找出不同語言社群中重要的連結者。 (2)Facebook部份，我們以粉絲頁為對象，開發了粉絲頁內容撈取工具，並根據粉絲頁間的貼文分享為出發點，尋找當公共議題事件發生時，粉絲頁間透過分享而產生的互動關聯性，讓使用者可以針對其關注之公共議題事件設定原始種子粉絲頁及指定資料蒐集期間及設定相關蒐集參數。系統會透過Facebook提供的應用程式介面，並自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。每一次資料蒐集完成後系統會分析是否具有符合使用者指定條件的新粉絲頁，並將之加入新種子粉絲頁的行列，逐次推導出完整的粉絲頁關聯性。中文關鍵詞：社群媒體、巨量資料、跨平台資料蒐集系統、臉書、推特

英文摘要： This project designs and develops a cross-platform social media data collector for the academia. The system is

designed based on the following objectives: (1) this system shall help the researchers to collect data from Facebook and Twitter for the agenda locally and internationally; (2) this system shall help the researchers to acquire the raw data and to keep the data processing as transparent as possible; (3) The system shall provide a user-friendly interface for viewing the basic statistics of the collected datasets, so the researchers are able to scan the data profiles and to make better query decisions. The output of this project include: (1) a prototype of the data collector system, (2) an analysis of the operation and management mechanisms required for a practical data collector system. 英文關鍵詞： Social media, Big data, Data collection, Facebook, Twitter

(3)

中文摘要

本文主要介紹傳播領域與資料科學的跨領域合作，運用大數據發展出創新的研究方法設計，用來收集與分析社交媒體上重大事件之資料。本研究以 Twitter 及 Facebook 做為資料收集平台進行研究設計，發展了可蒐集這兩個平台的工具。 (1)Twitter 部份，是根據貼文資料（tweets）與後設資料（metadata）的特性，以及 Twitter 社群互動與發言習慣，設計符合華語用戶之資料收集與分析工具，以便在事件發生第一時間收集大量推文資料。研究者首先透過語言辨識工具區分出繁體中文、簡體中文、日文、英文等不同語系推文，藉此區分不同語言社群的傳播模式；同時利用超連結分析，瞭解各種社交媒體、新聞來源被網路社群引用的狀況；亦可透過社會網絡分析找出不同語言社群中重要的連結者。 (2)Facebook部份，我們以粉絲頁為對象，開發了粉絲頁內容撈取工具，並根據粉絲頁間的貼文分享為出發點，尋找當公共議題事件發生時，粉絲頁間透過分享而產生的互動關聯性，讓使用者可以針對其關注之公共議題事件設定原始種子粉絲頁及指定資料蒐集期間及設定相關蒐集參數。系統會透過Facebook提供的應用程式介面，並自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。每一次資料蒐集完成後系統會分析是否具有符合使用者指定條件的新粉絲頁，並將之加入新種子粉絲頁的行列，逐次推導出完整的粉絲頁關聯性。關鍵字：社群媒體、巨量資料、跨平台資料蒐集系統、臉書、推特

(4)

Abstract

This project designs and develops a cross-platform social media data collector for the academia. The system is designed based on the following objectives: (1) this system shall help the researchers to collect data from Facebook and Twitter for the agenda locally and internationally; (2) this system shall help the researchers to acquire the raw data and to keep the data processing as transparent as possible; (3) The system shall provide a user-friendly interface for viewing the basic statistics of the collected datasets, so the researchers are able to scan the data profiles and to make better query decisions. The output of this project include: (1) a prototype of the data collector system, (2) an analysis of the operation and management mechanisms required for a practical data collector system.

(5)

一、前言

在社交媒體資料收集方面，有二個媒體來源 Twitter 和 Facebook。 (1) Twitter，本研究團隊根據 Twitter 貼文資料（tweets）與後設資料（metadata）的特性，以及 Twitter 社群互動與發言習慣，設計符合華語用戶之資料收集與分析工具，以在事件發生第一時間收集大量推文資料。在完成資料收集與清理之後，資料分析階段可採取不同的分析方式：首先，透過語言辨識工具區分出繁體中文、簡體中文、日文、英文等不同語系推文，藉此區分不同語言社群的傳播模式；其次，利用超連結分析，瞭解各種社交媒體、新聞來源被網路社群引用的狀況；第三，透過社會網絡分析找出不同語言社群中重要的連結者。透過傳播研究與大數據方法之結合，研究者得以掌握鉅觀的社交媒體訊息變化趨勢，同時捕捉事件中的浮現社群，進而比較跨語言社群的傳播模式，以及挖掘新聞來源的引用情況，藉由社會網絡分析探索全球社交網絡在特定事件脈絡下的互動。 (2) Facebook，是根據粉絲頁間的貼文分享為出發點，尋找當公共議題事件發生時，粉絲頁間透過分享而產生的互動關聯性，讓使用者可以針對其關注之公共議題事件設定原始種子粉絲頁及指定資料蒐集期間及設定相關蒐集參數。系統會透過Facebook提供的應用程式介面，並自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。每一次資料蒐集完成後系統會分析是否具有符合使用者指定條件的新粉絲頁，並將之加入新種子粉絲頁的行列，逐次推導出完整的粉絲頁關聯性。本研究藉由粉絲頁分享粉絲頁的貼文、活動、照片、影片等，試著藉由粉絲頁分享的概念並透過少數粉絲頁找出同性質相關粉絲頁中哪些是活躍的參與者、哪些是主要的輿論發起者，使得粉絲頁數量如雪球般越滾越多。

(6)

二、研究方法

本研究團隊成員除了我之外，還包含政治大學資科系李蔡彥、陳恭教授、新聞系陳百齡教授，結合傳播與資科專長的專家，發展新的方法取徑。主要目的在建立重大事件中社交媒體資料收集與分析之標準作業程序(SOP) ，以減少鉅量資料( Big data)在資料處理與轉換過程中的流失與誤差，同時在人力及物力資源有限的情況下，能夠有效運用計算資源與節省研究成本。

我們主要使用 Twitter、Facebook 做為資料收集平台，由於 Twitter API 規定

可提供所收集關鍵字或帳號七日內的貼文資料量的百分之一，另Facebook 在使

用Graph API 時，使用規則中明確規定若要使用 Graph API 必須要先取得一組授

權碼(Access Token)，而此授權碼內包含著可以存取的「用戶」及「資料權限」，而取得該授權碼的方式即為透過Facebook Login 功能，讓用戶登入並同意授權，才能取得授權資料範圍之授權碼，而且個人的資料Graph API 無法獲得，故我們只抓取粉絲頁的資料，因此我們面臨的研究方法議題主要有二：(一)如何在第一時間決定資料撈取方法，包括關鍵字、關鍵帳號之選擇；(二)設計有效率、具彈性的社交媒體資料收集、貯存與分析平台。透過這個研究方法及資料收集工具的開發，我們的研究問題主要是在重大事件發生時，如何瞭解網路社群討論的聲量與內容變化的趨勢，以及掌握浮現社群（emerging community）之社交網絡關係，同時探索特定貼文、特定 Tweets、YouTube 影片連結、新聞連結在重大事件中的擴散效果。

三、研究設計

(1)本研究團隊所使用的 Twitter 資料收集分析平臺，主要根據荷蘭阿姆斯特

(7)

丹大學 Rieder 教授開發的開源軟體 DMI-TCAT 為資料收集工具（Borra &

Rieder, 2014）。然而，此項工具主要針對英文貼文所開發，因此它的 Stream API

無法支援中文貼文資料的收集，且 Search API 功能太簡易且沒有 UI，因此我們自行修正增添了部分功能，成為 FloodFire-TCAT-v2（水火計畫 Twitter 資料收集與分析工具），主要加入了語言辨識功能（除了接受 Twitter 原本的主要語系的語言標識外，並可區分繁體中文與簡體中文）、URL 分析（用來分析大量貼文中所帶有的 hyperlinks，統計那些網域是最常被引用的超連結）、Mention 分析（主要用來找出最常被引用的用戶有那些，又稱為用戶能見度分析 user visibility）。因此，社交媒體鉅量資料處理流程如下圖一所示：圖一社交媒體鉅量資料處理流程

首先，透過 Twitter Search API 收集特定關鍵字的相關貼文並存於 NoSQL 資料庫，再轉到 SQL 資料庫進行資料貯存與清理，在去除重複或不完整資料後，成為乾淨的資料集，此時再計算資料集裡不重複的貼文與發文者人數。

(8)

其次，在進行資料處理的同時，我們也會根據研究所需進行貼文時間的轉換（由格林威治標準時間轉換為台灣時間）、加上語言辨識的結果（Twitter 本身提供了主要語言的標識，但繁體中文與簡體中文被 Twitter 同樣標識為 ZH，透過本研究團隊自行開發工具可將其區分為繁體中文 ZH-TW 與簡體中文 ZH）。最後，在獲得乾淨的事件資料集之後，研究者可根據不同研究目的進行各種類型的分析，若要分析眾多網路用戶之間的互動或群聚關係，可以使用社會網絡分析、若是要分析大量貼文中那些詞彙之間彼此同時出現，則可使用詞語共現網絡分析（co-concurrence analysis），倘若要探討大量貼文當中出現的主要超連結為何，則可使用引用來源分析（hyperlink analysis）。藉由這些貼文資料及後設資料的內容，研究者得以進行社交媒體鉅量資料分析，從鉅觀的角度來掌握事件發生的動態過程並發現洞見。

(2) 本研究團隊使用Facebook Graph API來擷取粉絲頁內容，以及分享其它

粉絲頁之貼文、活動、相片、影片等方式以建立粉絲頁群組。收集觀點則是以以粉絲頁間的貼文分享為出發點，尋找當公共議題事件發生時，粉絲頁間透過分享而產生的互相關聯性。因此我們設計與實作了一套「透過貼文分享以蒐集相關臉書粉絲頁之機制(Collecting Related Facebook Pages via Shared Post) 」系統，讓使用者可以針對其關注之公共議題事件設定原始種子粉絲頁及指定資料

蒐集期間及設定相關蒐集參數。系統會透過Facebook公司提供的應用程式介

面，並自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。每一次資料蒐集完成後系統會分析是否具有符合使用者指定條件的新粉絲頁，並將之加入新種子粉絲頁的行列，逐次推導出完整的粉絲頁關聯性。因粉絲頁通常

為輿論發起者，其分享來源多是同類型的粉絲頁，而Facebook Graph API應用程

式介面，因隱私問題並不提供一般使用者資料，因此若被分享者為一般臉書使用者而非粉絲頁時，在本研究實驗中會加以過濾。

(9)

綜合上述，本研究僅考慮到被分享者為漢字粉絲頁，不包含非漢字粉絲頁及臉書個人頁，並依使用者所設定的分享次數1、2、3(門檻值1、門檻值2、門檻值3)來達到粉絲頁的過濾機制。相關過濾流程如下圖二過濾過漢字粉絲頁及非漢字粉絲頁。圖二過濾過漢字粉絲頁及非漢字粉絲頁流程若該粉絲頁被種子粉絲頁群內任意粉絲頁分享之總次數符合使用者設定之被分享次數門檻值時且該粉絲頁為漢字粉絲頁，系統就會將被分享的粉絲頁加入新種子粉絲頁清單之中，經由逐次蒐集資料，使得相關粉絲頁群組如雪球般地擴大，直到滿足使用者設定的停止條件或無相關粉絲頁時停止。 (3)資料檢索部份，則設計並建置一個跨媒體來源的資料檢索系統，依據所收集到的 Twitter、Facebook 之文本的data 與 metadata(後設資料)的特性，經由

資料欄位重新定義、關聯式資料轉換、中文斷詞等機制，將data 轉換成適合中

(10)

的搜尋，建立一個具有彈性資料查詢界面與使用者的管理機制。方便研究者可以針對資料集、關鍵字詞、圖片、時間區間等等，快速的搜尋各社群媒體文本內容，並藉由視覺化檢索成果展示不同社群媒體上對特定事件關注程度及反應狀況。以使用者的操作檢索流程面向來看的話，使用者會依據使用者所鍵入的關鍵字詞，進行檢索，檢索時會依其資料的特性，來呈現不同的資料檢索結果，如圖三所示。圖三使用者操作檢索流程示意圖

四、結語

我們主要展現了傳播研究與大數據方法結合之優勢，可以幫助研究者掌握鉅觀的社交媒體訊息變化趨勢，特別是時間趨勢上的劇烈變化，可以用每天、

(11)

每小時為單位計算變化趨勢。透過語言辨識軟體區分大量貼文裡的不同語言比例，得以比較跨語言社群的傳播模式。此外，透過超連結分析，可以幫助我們挖掘新聞來源的引用情況。透過社交媒體事件研究的方法創新，幫助研究者瞭解重大事件發生時在訊息流動及網路社群的動態變化，藉此瞭解全球社交網絡的互動。另根據社群媒體資料特徵修正了傳統的資訊檢索之技術，並整合了現有的資訊檢索與處理技術，提供整理性跨媒體來源的查詢介面，幫助研究者來對這些議題進行篩選的動作，並可就其搜索的結果，快速的辨識並探究其內容。參考文獻

1. Borra, E. & Rieder, B. (2014). Programmed method: developing a toolset for capturing and analyzing tweets. Aslib Journal of Information Management, 66(3), 262-278.

2. Castells, M. (2007). Communication, power and counter-power in the network society. International Journal of Communication, 1, 238-266.

3. Cheng, Y.-C. & Chen, P.-L. (2014). Global social media, local context: A case study of Chinese-language tweets about the 2012 presidential election in Taiwan.

Aslib Journal of Information Management, 66 (3), 342 – 356.

4. Volkmer, I. (2003). The global network society and the global public sphere,

Development, 46 (1), 9-16. 5. 鄭宇君、陳百齡（2016）。〈探索線上公眾即時參與網絡化社運—以台灣 318 運動為例〉。《傳播研究與實踐》6（1）：117-150。 6. 鄭宇君、施旭峰（2016）。〈探索 2012 台灣總統大選社交媒體之新聞來源引用〉，《中華傳播學刊》，29：107-133。鄭宇君、陳百齡（2014）。〈探索 2012 台灣總統大選之社交媒體浮現社群：鉅量資料分析取徑〉。《新聞學研究》，120：121-165。

(12)

科技部補助計畫衍生研發成果推廣資料表

日期:2016/09/30

科技部補助計畫

計畫名稱: 跨平台社群媒體巨量資料蒐集與分析計畫主持人: 陳恭計畫編號: 104-2420-H-004-043- 學門領域: 網路社群巨量資料研究

無研發成果推廣資料

(13)

104年度專題研究計畫成果彙整表

計畫主持人：陳恭計畫編號：104-2420-H-004-043-計畫名稱：跨平台社群媒體巨量資料蒐集與分析成果項目量化單位質化（說明：各成果項目請附佐證資料或細項說明，如期刊名稱、年份、卷期、起訖頁數、證號...等）　　　　　　　國內學術性論文期刊論文 1 篇 1. 陳百齡、鄭宇君、陳恭（2016）。〈社群媒體資料分析：鑲嵌探問於資料處理的考掘歷程〉，《傳播與文化》，15，頁 xxx。(修訂中) 研討會論文 1 鄭宇君，社交媒體事件研究之方法創新。彭芸（編）《「創新、創意、創世紀」研討會論文集》，頁283-297。新北市，風雲論壇。專書 0 本專書論文 0 章技術報告 0 篇其他 0 篇智慧財產權及成果專利權發明專利申請中 0 件已獲得 0 新型/設計專利 0 商標權 0 營業秘密 0 積體電路電路布局權 0 著作權 0 品種權 0 其他 0 技術移轉件數 0 件收入 0 千元國外學術性論文期刊論文 0 篇研討會論文 0 專書 0 本專書論文 0 章技術報告 0 篇其他 0 篇智慧財產權及成果專利權發明專利申請中 0 件已獲得 0 新型/設計專利 0 商標權 0

(14)

營業秘密 0 積體電路電路布局權 0 著作權 0 品種權 0 其他 0 技術移轉件數 0 件收入 0 千元參與計畫人力本國籍大專生 0 人次碩士生 0 博士生 0 博士後研究員 0 專任助理 0 非本國籍大專生 0 碩士生 0 博士生 0 博士後研究員 0 專任助理 0 其他成果（無法以量化表達之成果如辦理學術活動、獲得獎項、重要國際合作、研究成果國際影響力及其他協助產業技術發展之具體效益事項等，請以文字敘述填列。）　　本研究以Twitter及Facebook做為資料收集平台進行研究設計，所以我們開發了適用於這兩個平台的資料蒐集工具。

(15)

跨平台社群媒體巨量資料蒐集與分析

科技部補助專題研究計畫成果報告

期末報告