• 沒有找到結果。

跨平台社群媒體巨量資料蒐集與分析

N/A
N/A
Protected

Academic year: 2021

Share "跨平台社群媒體巨量資料蒐集與分析"

Copied!
15
0
0

加載中.... (立即查看全文)

全文

(1)

科技部補助專題研究計畫成果報告

期末報告

跨平台社群媒體巨量資料蒐集與分析

計 畫 類 別 : 個別型計畫 計 畫 編 號 : MOST 104-2420-H-004-043-執 行 期 間 : 104年09月01日至105年06月30日 執 行 單 位 : 國立政治大學資訊科學系 計 畫 主 持 人 : 陳恭 共 同 主 持 人 : 陳百齡、鄭宇君 計畫參與人員: 碩士級-專任助理人員:黃于育 碩士級-專任助理人員:黃明怡

中 華 民 國 105 年 09 月 30 日

(2)

中 文 摘 要 : 本文主要介紹傳播領域與資料科學的跨領域合作,運用大數據發展 出創新的研究方法設計,用來收集與分析社交媒體上重大事件之資 料。本研究以Twitter及Facebook做為資料收集平台進行研究設計 ,發展了可蒐集這兩個平台的工具。 (1)Twitter部份,是根據貼文資料(tweets)與後設資料 (metadata)的特性,以及Twitter社群互動與發言習慣,設計符合 華語用戶之資料收集與分析工具,以便在事件發生第一時間收集大 量推文資料。研究者首先透過語言辨識工具區分出繁體中文、簡體 中文、日文、英文等不同語系推文,藉此區分不同語言社群的傳播 模式;同時利用超連結分析,瞭解各種社交媒體、新聞來源被網路 社群引用的狀況;亦可透過社會網絡分析找出不同語言社群中重要 的連結者。 (2)Facebook部份,我們以粉絲頁為對象,開發了粉絲頁內容撈取工 具,並根據粉絲頁間的貼文分享為出發點,尋找當公共議題事件發 生時,粉絲頁間透過分享而產生的互動關聯性,讓使用者可以針對 其關注之公共議題事件設定原始種子粉絲頁及指定資料蒐集期間及 設定相關蒐集參數。系統會透過Facebook提供的應用程式介面,並 自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。 每一次資料蒐集完成後系統會分析是否具有符合使用者指定條件的 新粉絲頁,並將之加入新種子粉絲頁的行列,逐次推導出完整的粉 絲頁關聯性。 中 文 關 鍵 詞 : 社群媒體、巨量資料、跨平台資料蒐集系統、臉書、推特

英 文 摘 要 : This project designs and develops a cross-platform social media data collector for the academia. The system is

designed based on the following objectives: (1) this system shall help the researchers to collect data from Facebook and Twitter for the agenda locally and internationally; (2) this system shall help the researchers to acquire the raw data and to keep the data processing as transparent as possible; (3) The system shall provide a user-friendly interface for viewing the basic statistics of the collected datasets, so the researchers are able to scan the data profiles and to make better query decisions. The output of this project include: (1) a prototype of the data collector system, (2) an analysis of the operation and management mechanisms required for a practical data collector system. 英 文 關 鍵 詞 : Social media, Big data, Data collection, Facebook, Twitter

(3)

中文摘要

本文主要介紹傳播領域與資料科學的跨領域合作,運用大數據發展出創新的 研究方法設計,用來收集與分析社交媒體上重大事件之資料。本研究以 Twitter 及 Facebook 做為資料收集平台進行研究設計,發展了可蒐集這兩個平台的工具。 (1)Twitter 部份,是根據貼文資料(tweets)與後設資料(metadata)的特性, 以及 Twitter 社群互動與發言習慣,設計符合華語用戶之資料收集與分析工具, 以便在事件發生第一時間收集大量推文資料。研究者首先透過語言辨識工具區分 出繁體中文、簡體中文、日文、英文等不同語系推文,藉此區分不同語言社群的 傳播模式;同時利用超連結分析,瞭解各種社交媒體、新聞來源被網路社群引用 的狀況;亦可透過社會網絡分析找出不同語言社群中重要的連結者。 (2)Facebook部份,我們以粉絲頁為對象,開發了粉絲頁內容撈取工具,並根 據粉絲頁間的貼文分享為出發點,尋找當公共議題事件發生時,粉絲頁間透過分 享而產生的互動關聯性,讓使用者可以針對其關注之公共議題事件設定原始種子 粉絲頁及指定資料蒐集期間及設定相關蒐集參數。系統會透過Facebook提供的應 用程式介面,並自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。 每一次資料蒐集完成後系統會分析是否具有符合使用者指定條件的新粉絲頁,並 將之加入新種子粉絲頁的行列,逐次推導出完整的粉絲頁關聯性。 關鍵字:社群媒體、巨量資料、跨平台資料蒐集系統、臉書、推特

(4)

Abstract

This project designs and develops a cross-platform social media data collector for the academia. The system is designed based on the following objectives: (1) this system shall help the researchers to collect data from Facebook and Twitter for the agenda locally and internationally; (2) this system shall help the researchers to acquire the raw data and to keep the data processing as transparent as possible; (3) The system shall provide a user-friendly interface for viewing the basic statistics of the collected datasets, so the researchers are able to scan the data profiles and to make better query decisions. The output of this project include: (1) a prototype of the data collector system, (2) an analysis of the operation and management mechanisms required for a practical data collector system.

(5)

一、 前言

在社交媒體資料收集方面,有二個媒體來源 Twitter 和 Facebook。 (1) Twitter,本研究團隊根據 Twitter 貼文資料(tweets)與後設資料 (metadata)的特性,以及 Twitter 社群互動與發言習慣,設計符合華語用戶之 資料收集與分析工具,以在事件發生第一時間收集大量推文資料。 在完成資料收集與清理之後,資料分析階段可採取不同的分析方式:首 先,透過語言辨識工具區分出繁體中文、簡體中文、日文、英文等不同語系推 文,藉此區分不同語言社群的傳播模式;其次,利用超連結分析,瞭解各種社 交媒體、新聞來源被網路社群引用的狀況;第三,透過社會網絡分析找出不同 語言社群中重要的連結者。 透過傳播研究與大數據方法之結合,研究者得以掌握鉅觀的社交媒體訊息 變化趨勢,同時捕捉事件中的浮現社群,進而比較跨語言社群的傳播模式,以 及挖掘新聞來源的引用情況,藉由社會網絡分析探索全球社交網絡在特定事件 脈絡下的互動。 (2) Facebook,是根據粉絲頁間的貼文分享為出發點,尋找當公共議題事件 發生時,粉絲頁間透過分享而產生的互動關聯性,讓使用者可以針對其關注之 公共議題事件設定原始種子粉絲頁及指定資料蒐集期間及設定相關蒐集參數。 系統會透過Facebook提供的應用程式介面,並自動蒐集種子粉絲頁指定期間之 貼文、貼文留言、貼文按讚資料。每一次資料蒐集完成後系統會分析是否具有 符合使用者指定條件的新粉絲頁,並將之加入新種子粉絲頁的行列,逐次推導 出完整的粉絲頁關聯性。 本研究藉由粉絲頁分享粉絲頁的貼文、活動、照片、影片等,試著藉由粉 絲頁分享的概念並透過少數粉絲頁找出同性質相關粉絲頁中哪些是活躍的參與 者、哪些是主要的輿論發起者,使得粉絲頁數量如雪球般越滾越多。

(6)

二、 研究方法

本研究團隊成員除了我之外,還包含政治大學資科系李蔡彥、陳恭教授、 新聞系陳百齡教授,結合傳播與資科專長的專家,發展新的方法取徑。主要目 的在建立重大事件中社交媒體資料收集與分析之標準作業程序(SOP) ,以減少 鉅量資料( Big data)在資料處理與轉換過程中的流失與誤差,同時在人力及物力 資源有限的情況下,能夠有效運用計算資源與節省研究成本。

我們主要使用 Twitter、Facebook 做為資料收集平台,由於 Twitter API 規定

可提供所收集關鍵字或帳號七日內的貼文資料量的百分之一,另Facebook 在使

用Graph API 時,使用規則中明確規定若要使用 Graph API 必須要先取得一組授

權碼(Access Token),而此授權碼內包含著可以存取的「用戶」及「資料權限」, 而取得該授權碼的方式即為透過Facebook Login 功能,讓用戶登入並同意授 權,才能取得授權資料範圍之授權碼,而且個人的資料Graph API 無法獲得,故 我們只抓取粉絲頁的資料,因此我們面臨的研究方法議題主要有二:(一)如何 在第一時間決定資料撈取方法,包括關鍵字、關鍵帳號之選擇;(二)設計有效 率、具彈性的社交媒體資料收集、貯存與分析平台。 透過這個研究方法及資料收集工具的開發,我們的研究問題主要是在重大 事件發生時,如何瞭解網路社群討論的聲量與內容變化的趨勢,以及掌握浮現 社群(emerging community)之社交網絡關係,同時探索特定貼文、特定 Tweets、YouTube 影片連結、新聞連結在重大事件中的擴散效果。

三、研究設計

(1)本研究團隊所使用的 Twitter 資料收集分析平臺,主要根據荷蘭阿姆斯特

(7)

丹大學 Rieder 教授開發的開源軟體 DMI-TCAT 為資料收集工具(Borra &

Rieder, 2014)。然而,此項工具主要針對英文貼文所開發,因此它的 Stream API

無法支援中文貼文資料的收集,且 Search API 功能太簡易且沒有 UI,因此我們 自行修正增添了部分功能,成為 FloodFire-TCAT-v2(水火計畫 Twitter 資料收 集與分析工具),主要加入了語言辨識功能(除了接受 Twitter 原本的主要語系 的語言標識外,並可區分繁體中文與簡體中文)、URL 分析 (用來分析大量貼 文中所帶有的 hyperlinks,統計那些網域是最常被引用的超連結)、Mention 分 析(主要用來找出最常被引用的用戶有那些,又稱為用戶能見度分析 user visibility)。 因此,社交媒體鉅量資料處理流程如下圖一所示: 圖一 社交媒體鉅量資料處理流程

首先,透過 Twitter Search API 收集特定關鍵字的相關貼文並存於 NoSQL 資料庫,再轉到 SQL 資料庫進行資料貯存與清理,在去除重複或不完整資料 後,成為乾淨的資料集,此時再計算資料集裡不重複的貼文與發文者人數。

(8)

其次,在進行資料處理的同時,我們也會根據研究所需進行貼文時間的轉 換(由格林威治標準時間轉換為台灣時間)、加上語言辨識的結果(Twitter 本 身提供了主要語言的標識,但繁體中文與簡體中文被 Twitter 同樣標識為 ZH, 透過本研究團隊自行開發工具可將其區分為繁體中文 ZH-TW 與簡體中文 ZH)。 最後,在獲得乾淨的事件資料集之後,研究者可根據不同研究目的進行各 種類型的分析,若要分析眾多網路用戶之間的互動或群聚關係,可以使用社會 網絡分析、若是要分析大量貼文中那些詞彙之間彼此同時出現,則可使用詞語 共現網絡分析(co-concurrence analysis),倘若要探討大量貼文當中出現的主要 超連結為何,則可使用引用來源分析(hyperlink analysis)。藉由這些貼文資料 及後設資料的內容,研究者得以進行社交媒體鉅量資料分析,從鉅觀的角度來 掌握事件發生的動態過程並發現洞見。

(2) 本研究團隊使用Facebook Graph API來擷取粉絲頁內容,以及分享其它

粉絲頁之貼文、活動、相片、影片等方式以建立粉絲頁群組。收集觀點則是以 以粉絲頁間的貼文分享為出發點,尋找當公共議題事件發生時,粉絲頁間透過 分享而產生的互相關聯性。因此我們設計與實作了一套「透過貼文分享以蒐集 相關臉書粉絲頁之機制(Collecting Related Facebook Pages via Shared Post) 」系 統,讓使用者可以針對其關注之公共議題事件設定原始種子粉絲頁及指定資料

蒐集期間及設定相關蒐集參數。系統會透過Facebook公司提供的應用程式介

面,並自動蒐集種子粉絲頁指定期間之貼文、貼文留言、貼文按讚資料。每一 次資料蒐集完成後系統會分析是否具有符合使用者指定條件的新粉絲頁,並將 之加入新種子粉絲頁的行列,逐次推導出完整的粉絲頁關聯性。因粉絲頁通常

為輿論發起者,其分享來源多是同類型的粉絲頁,而Facebook Graph API應用程

式介面,因隱私問題並不提供一般使用者資料,因此若被分享者為一般臉書使 用者而非粉絲頁時,在本研究實驗中會加以過濾。

(9)

綜合上述,本研究僅考慮到被分享者為漢字粉絲頁,不包含非漢字粉絲頁 及臉書個人頁,並依使用者所設定的分享次數1、2、3(門檻值1、門檻值2、門 檻值3)來達到粉絲頁的過濾機制。相關過濾流程如下圖二過濾過漢字粉絲頁及 非漢字粉絲頁。 圖二 過濾過漢字粉絲頁及非漢字粉絲頁流程 若該粉絲頁被種子粉絲頁群內任意粉絲頁分享之總次數符合使用者設定之 被分享次數門檻值時且該粉絲頁為漢字粉絲頁,系統就會將被分享的粉絲頁加 入新種子粉絲頁清單之中,經由逐次蒐集資料,使得相關粉絲頁群組如雪球般 地擴大,直到滿足使用者設定的停止條件或無相關粉絲頁時停止。 (3)資料檢索部份,則設計並建置一個跨媒體來源的資料檢索系統,依據所 收集到的 Twitter、Facebook 之文本的data 與 metadata(後設資料)的特性,經由

資料欄位重新定義、關聯式資料轉換、中文斷詞等機制,將data 轉換成適合中

(10)

的搜尋,建立一個具有彈性資料查詢界面與使用者的管理機制。方便研究者可 以針對資料集、關鍵字詞、圖片、時間區間等等,快速的搜尋各社群媒體文本 內容,並藉由視覺化檢索成果展示不同社群媒體上對特定事件關注程度及反應 狀況。以使用者的操作檢索流程面向來看的話,使用者會依據使用者所鍵入的 關鍵字詞,進行檢索,檢索時會依其資料的特性,來呈現不同的資料檢索結 果,如圖三所示。 圖三 使用者操作檢索流程示意圖

四、結語

我們主要展現了傳播研究與大數據方法結合之優勢,可以幫助研究者掌握 鉅觀的社交媒體訊息變化趨勢,特別是時間趨勢上的劇烈變化,可以用每天、

(11)

每小時為單位計算變化趨勢。透過語言辨識軟體區分大量貼文裡的不同語言比 例,得以比較跨語言社群的傳播模式。此外,透過超連結分析,可以幫助我們 挖掘新聞來源的引用情況。透過社交媒體事件研究的方法創新,幫助研究者瞭 解重大事件發生時在訊息流動及網路社群的動態變化,藉此瞭解全球社交網絡 的互動。另根據社群媒體資料特徵修正了傳統的資訊檢索之技術,並整合了現 有的資訊檢索與處理技術,提供整理性跨媒體來源的查詢介面,幫助研究者來 對這些議題進行篩選的動作,並可就其搜索的結果,快速的辨識並探究其內容 。 參考文獻

1. Borra, E. & Rieder, B. (2014). Programmed method: developing a toolset for capturing and analyzing tweets. Aslib Journal of Information Management, 66(3), 262-278.

2. Castells, M. (2007). Communication, power and counter-power in the network society. International Journal of Communication, 1, 238-266.

3. Cheng, Y.-C. & Chen, P.-L. (2014). Global social media, local context: A case study of Chinese-language tweets about the 2012 presidential election in Taiwan.

Aslib Journal of Information Management, 66 (3), 342 – 356.

4. Volkmer, I. (2003). The global network society and the global public sphere,

Development, 46 (1), 9-16. 5. 鄭宇君、陳百齡(2016)。〈探索線上公眾即時參與網絡化社運—以台灣 318 運動為例〉。《傳播研究與實踐》6(1):117-150。 6. 鄭宇君、施旭峰(2016)。〈探索 2012 台灣總統大選社交媒體之新聞來源引 用〉,《中華傳播學刊》,29:107-133。 鄭宇君、陳百齡(2014)。〈探索 2012 台灣總統大選之社交媒體浮現社群:鉅量 資料分析取徑〉。《新聞學研究》,120:121-165。

(12)

科技部補助計畫衍生研發成果推廣資料表

日期:2016/09/30

科技部補助計畫

計畫名稱: 跨平台社群媒體巨量資料蒐集與分析 計畫主持人: 陳恭 計畫編號: 104-2420-H-004-043- 學門領域: 網路社群巨量資料研究

無研發成果推廣資料

(13)

104年度專題研究計畫成果彙整表

計畫主持人:陳恭 計畫編號:104-2420-H-004-043-計畫名稱:跨平台社群媒體巨量資料蒐集與分析 成果項目 量化 單位 質化 (說明:各成果項目請附佐證資料或細 項說明,如期刊名稱、年份、卷期、起 訖頁數、證號...等)         國 內 學術性論文 期刊論文 1 篇 1. 陳百齡、鄭宇君、陳恭(2016)。〈 社群媒體資料分析:鑲嵌探問於資料處 理的考掘歷程〉,《傳播與文化》 ,15,頁 xxx。(修訂中) 研討會論文 1 鄭宇君,社交媒體事件研究之方法創新 。彭芸(編)《「創新、創意、創世紀 」研討會論文集》,頁283-297。新北市 ,風雲論壇。 專書 0 本 專書論文 0 章 技術報告 0 篇 其他 0 篇 智慧財產權 及成果 專利權 發明專利 申請中 0 件 已獲得 0 新型/設計專利 0 商標權 0 營業秘密 0 積體電路電路布局權 0 著作權 0 品種權 0 其他 0 技術移轉 件數 0 件 收入 0 千元 國 外 學術性論文 期刊論文 0 篇 研討會論文 0 專書 0 本 專書論文 0 章 技術報告 0 篇 其他 0 篇 智慧財產權 及成果 專利權 發明專利 申請中 0 件 已獲得 0 新型/設計專利 0 商標權 0

(14)

營業秘密 0 積體電路電路布局權 0 著作權 0 品種權 0 其他 0 技術移轉 件數 0 件 收入 0 千元 參 與 計 畫 人 力 本國籍 大專生 0 人次 碩士生 0 博士生 0 博士後研究員 0 專任助理 0 非本國籍 大專生 0 碩士生 0 博士生 0 博士後研究員 0 專任助理 0 其他成果 (無法以量化表達之成果如辦理學術活動 、獲得獎項、重要國際合作、研究成果國 際影響力及其他協助產業技術發展之具體 效益事項等,請以文字敘述填列。)   本研究以Twitter及Facebook做為資料收集平台進行研究 設計,所以我們開發了適用於這兩個平台的資料蒐集工具 。

(15)

科技部補助專題研究計畫成果自評表

請就研究內容與原計畫相符程度、達成預期目標情況、研究成果之學術或應用價

值(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性)、是否適

合在學術期刊發表或申請專利、主要發現(簡要敘述成果是否具有政策應用參考

價值及具影響公共利益之重大發現)或其他有關價值等,作一綜合評估。

1. 請就研究內容與原計畫相符程度、達成預期目標情況作一綜合評估

■達成目標

□未達成目標(請說明,以100字為限)

  □實驗失敗

  □因故實驗中斷

  □其他原因

說明:

2. 研究成果在學術期刊發表或申請專利等情形(請於其他欄註明專利及技轉之證

號、合約、申請及洽談等詳細資訊)

論文:□已發表 □未發表之文稿 ■撰寫中 □無

專利:□已獲得 □申請中 ■無

技轉:□已技轉 □洽談中 ■無

其他:(以200字為限)

1. 陳百齡、鄭宇君、陳恭(2016)。〈社群媒體資料分析:鑲嵌探問於資料

處理的考掘歷程〉,《傳播與文化》,15,頁 xxx。

3. 請依學術成就、技術創新、社會影響等方面,評估研究成果之學術或應用價值

(簡要敘述成果所代表之意義、價值、影響或進一步發展之可能性,以500字

為限)

本研究為一傳播領域與資料科學的跨領域合作,共同設計與開可蒐集社交媒體

上重大事件之資料的工具。本研究以Twitter及Facebook做為資料收集平台進

行研究設計,所以我們開發了適用於這兩個平台的工具,除了撈取資料外,我

們的工具也可針對一些特定的meta-data進行量化分析,方便文人學者快數蒐

集到相關是建的資料,並對資料的一些樣貌可以快速掌握。

4. 主要發現

本研究具有政策應用參考價值:■否 □是,建議提供機關

(勾選「是」者,請列舉建議可提供施政參考之業務主管機關)

本研究具影響公共利益之重大發現:■否 □是 

說明:(以150字為限)

參考文獻

相關文件

 Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated

Based on the suggestions collected from the Principal Questionnaire and this questionnaire, feedback collected from various stakeholders through meetings and

Teachers may consider the school’s aims and conditions or even the language environment to select the most appropriate approach according to students’ need and ability; or develop

Monopolies in synchronous distributed systems (Peleg 1998; Peleg

In this work, for a locally optimal solution to the NLSDP (2), we prove that under Robinson’s constraint qualification, the nonsingularity of Clarke’s Jacobian of the FB system

This kind of algorithm has also been a powerful tool for solving many other optimization problems, including symmetric cone complementarity problems [15, 16, 20–22], symmetric

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,