第四章 系統功能驗證
4.3 比較本帄台與 YourTwapperKeeper 之推文搜集
4.3.2 比較與分析
實驗方式:本系統與 YourTwapperKeeper 分別設定不同的 Access Token,搜尋關 鍵字均為【鄭捷】,同時進行 30 分鐘的推文搜集,同時,本系統設定推特 API 請求周期為 30 秒,使用推特 Search API 設定進行往後且搜尋深度最深(即歷史資 料優先)的推文搜集。
個案 2 背景:烏克蘭危機,背景同 4.1 節個案 1。
目的:搜集與烏克蘭危機相關的推文(本事件於實驗時仍持續發生)。
實驗方式:本系統與 YourTwapperKeeper 分別設定不同的 Access Token,多個搜 尋關鍵字分別為【Ukraine】、【Crimea】及【Putin】,同時進行 30 分鐘的推文搜 集,同時,本系統設定推特 API 請求周期為 30 秒,使用推特 Search API 設定進 行往後且搜尋深度最深(即歷史資料優先)的推文搜集。
4.3.2 比較與分析
本小節將先從單一關鍵字推文搜尋的結果,比較本系統與 YourTwapperKeeper 的 差異,再從多關鍵字的推文搜尋進行更深入的比較與分析。
FloodFire YourTwapperKeeper F Delta Y Delta 0~5 分 1912 1490 1912 1490
‧
由表 4. 5 本系統與 YourTwapperKeeper 搜尋關鍵字鄭捷推文搜集結果。中可 非常的明顯地發現,本系統所能搜集的推文數量,以 1.13 倍之頗相當大幅度地 頻率遠高於台灣,故理應可對本系統與 YourTwapperKeeper 效能的差異做出更為 具體的比較。
‧
FloodFire YourTwapperKeeper F Delta Y Delta
5 5738 2667 5738 2667 點是,本系統在前 10 分鐘內搜集多數的推文,YourTwapperKeeper 則是集中在第 一個五分鐘,爾後的推文搜集量均相差不多,在此可以推論,本系統在歷史資料 的搜集能力較為強大下,需花費較長的時間(約 10 分鐘)才能將可搜集到的推文 給完整地搜集下來,然而 YourTwapperKeeper 則開始分神於較新推文的搜集。圖 4. 9 本系統與 YourTwapperKeeper 綜合三個搜尋關鍵字的總搜集推文量趨勢比較。,可發現 YourTwapperKeeper 的資料搜集較為的線性,本系統則會先呈現高仰角的 趨勢再回到帄緩的曲線中。圖 4.10 到 4.12 分別展現出本系統與
YourTwapperKeeper 在【Ukraine】、【Crimea】及【Putin】關鍵字下所搜集到推 文數量之比較,我們可以證明本系統在歷史資料搜集方面具有絶對的優勢,
而在新推文的取得方面,由於推特一次回應的數量最多不超過 100 則推文,
理論上兩系統不會有太過明顯的差異。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
75
圖 4. 9 本系統與 YourTwapperKeeper 綜合三個搜尋關鍵字的總搜集推文量趨勢比較。
圖 4. 10 本系統與 YourTwapperKeeper 在以 Ukraine 為關鍵字的推文搜集趨勢比較。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
76
圖 4. 11 本系統與 YourTwapperKeeper 在以 Crimea 為關鍵字的推文搜集趨勢比較。
圖 4. 12 本系統與 YourTwapperKeeper 在以 Putin 為關鍵字的推文搜集趨勢比較。
‧
在系統核心邏輯的推文搜集上,我們提出了【豪宅服務群(Mansion Household Service)】的概念,在推特目前仍對其 API 的呼叫有 Rate Limiting 之限制,以及在 假設 Access Token 是相對珍貴稀少的情況下,透過服務群四個隨從(minion),門 房、管家、房務員及守衛的分工合作,可以在前端使用者設定的工作大於目前擁
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
78
1、事件與工作的核心設計理念。
2、訊息趨動的觀念。
3、模型、視圖與控制器(MVC)之設計模式。
4、豪宅服務群(Mansion Household Service)之推文搜集邏輯。
5、推文搜集工作效率比較之動態調整機制。
5.2 未來發展與建議
社群媒體手上掌握的巨量資料一直是研究人員覬覦已久的寶藏,目前各大社群媒 體多有提供研究人員或開發者資料搜集的管道,當然同時也對資料的搜集加諸不 少限制,本研究以推特的資料搜集為研究主題,同時提出具資源感知之推文搜集 方式。然而僅支援推特的資料搜集,其應用的範圍有其侷限性,且搜集資料的內 容深度及廣度仍有所不足,展望未來,若有一個能整合目前主流社群媒體之資料 搜集帄台,將會使相關類型的研究更為地完備;另外,本帄台目前所採用的動態 調整推文搜集機制,並沒有將工作的優先權納入考慮(即每個工作優先權是相等 的),未來是否需導入優先權佇列的設計,即提供高優先權工作插隊的機制,值 得更我們更進一步的思考。
‧
【1】 Shamanth Kumar ,Fred Morstatter, Huan Liu. August 19,2013. Twitter Data Analytics.
【2】 周玉駿. 2013. 實作推特社群媒體的資料蒐集與管理服務.
【3】 Adam Marcus, Michael S.Bernstein, Osama Badar, David R.Karger, Samuel Madden, Robert C.Miller. 2012. Processing and Visualizing the Data in Tweets.
【4】 Lance Reagan Vick, Titus Soporan, Daniel Robert Lewis, Jane Brooks Zurn.
2012. Hybrid Browser/Server Collection of Streaming Social Media Data for Scalable Real-Time Analysis.
【5】 Matko Bosnjak, Eduardo Oliveira, Jose Martins, Eduarda Mendes Rodrigues, Luis Sarmento. 2012. TwitterEcho-A Distributed Focused Crawler to Support Open Research with Twitter Data.
【6】 Axel Bruns ,Yuxian Eugene Liang. Apr, 2012. Tools and methods for capturing Twitter data during natural disasters.
【7】 Twitter Application-only authentication:
https://dev.twitter.com/docs/auth/application-only-auth
【8】 Twitter Search API:
https://dev.twitter.com/docs/using-search
【9】 Aditi Das. Jan 17,2008. Understanding JPA,Part1: The object-oriented paradigm of data persistence.
http://www.javaworld.com/article/2077817/java-se/understanding-jpa-part-1-t he-object-oriented-paradigm-of-data-persistence.html
【10】Erich Gamma, Richard Helm, Ralph Johnson, John Vlissides. August 1994.
Design Patterns Elements of Reusable Object-Oriented Software.
【11】Adam Green, February 15,2013. Twitter API Engagement Programming with PHP and MySQL.