• 沒有找到結果。

臉書粉絲頁超連結分析系統 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "臉書粉絲頁超連結分析系統 - 政大學術集成"

Copied!
55
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 臉書粉絲頁超連結分析系統 A Hyperlink Analyzer for Facebook Pages. 研 究 生:李燕宜 指導教授:陳 恭. 中華民國一百零四年六月 June 2015.

(2) 臉書粉絲頁超連結分析系統 A Hyperlink Analyzer for Facebook Pages 研 究 生: 李燕宜. Student:Lee, Yen-I. 指導教授: 陳 恭. Advisor:Kung Chen. 國立政治大學 資訊科學系 碩士論文. A Thesis submitted to Department of Computer Science National Chengchi University in partial fulfillment of the Requirements for the degree of Master in Computer Science. 中華民國一百零四年六月 June 2015.

(3) 臉書粉絲頁超連結分析系統 摘要 近年來隨著網際網路快速發展和社群網站的盛行,社群網站已成為許 多名人、明星、公司、機關團體等與一般使用者溝通的新管道,其中很 常見的就是透過建立臉書(Facebook)粉絲頁的方式來發佈消息更新狀況, 一般使用者可藉由臉書平台來快速獲取名人動態或產品資訊等與其他網 友之評論與意見,透過網路社群經營與粉絲頁建立已成為許多名人、公 司企業與團體進行行銷、發表意見與粉絲互動的重要管道。 不僅於此,當重大公共事件發生時,許多臉書粉絲頁也會成為訊息與 意見傳播的重要管道,所以許多傳播研究學者紛紛投入研究粉絲頁所發 佈的貼文內容與來源,其中一個重點就是粉絲頁貼文所引用的外部網站 內容。本論文針對轉發超連結的貼文以及大量貼文內含的超連結作處 理,透過網址擷取和網址還原技術(URL unshorten)的應用加以分析統計, 以供傳播研究學者快速了解粉絲頁貼文內容分布狀況,並藉此了解在不 同情境下的社交媒體策略以及與粉絲之間的互動關係。另外為優化本系 統效能,對於排程分析工作中提出並導入了「排程資料處理機制」,可 顯著降低重覆分析貼文的次數,以提升資料分析的效率。. i.

(4) A Hyperlink Analyzer for Facebook Pages Abstract Nowadays, social networking sites have become the new media for many celebrities, groups and business to communicate in societies and worldwide. Many celebrities, groups and business post their new status through Facebook fan pages and users can get status about celebrities or product information through Facebook immediately. Creating a Facebook fan page is an amazing way to promote business and build closer relationship with audiences and customers. Besides, during the outbreak a public event, many fan pages would become important sources of news and information dissemination. Thus, many Humanities and Social Sciences scholars are eager to investigate the sources and contents of posts in fan pages. In particular, many posts contain hyperlinks pointing to outside news or information sources. This thesis design and implement a fan page content analyzer, focusing on hyperlinks analysis. By parsing URLs and URL unshortening, our tool offers hyperlink analysis for scholars to get quick overview about fan page feeds and to understand how they cite news or information from various sources. In addition, our tool is equipped with an aggregated data sharing mechanism to avoid parsing redundant feeds, thus being able to improve the performance of the tool.. ii.

(5) iii.

(6) 目錄 第一章 緒論................................................................................................................... 1 1.1 背景 ................................................................................................................................. 1 1.2 研究動機 ......................................................................................................................... 1 1.3 研究目的 ......................................................................................................................... 2 1.4 研究成果 ......................................................................................................................... 3 1.5 論文大綱 ......................................................................................................................... 4. 第二章 技術背景與相關研究....................................................................................... 5 2.1 擷取網址與短網址還原 ................................................................................................. 5 2.1.1 短網址還原 .............................................................................................................. 5 2.2 資料庫及存取技術 ......................................................................................................... 6 2.2.1 MySQL ..................................................................................................................... 6 2.3 前端頁面技術 ................................................................................................................. 7 2.3.1 ASP.NET .................................................................................................................. 7 2.3.2 jQuery ....................................................................................................................... 9 2.3.3 AJAX ........................................................................................................................ 9 2.3.4 Highcharts .............................................................................................................. 10 2.4 工作排程技術 ............................................................................................................... 10 2.5 超連結分析相關研究 ................................................................................................... 11. 第三章 系統設計與架構............................................................................................. 12 3.1 系統設計原則 ............................................................................................................... 12 3.1.1 資料處理模組 ........................................................................................................ 14 3.1.2 資料統計分析模組 ................................................................................................ 15 3.1.3 資料展示模組 ........................................................................................................ 15 3.2 資料儲存機制設計 ....................................................................................................... 21 3.2.1 資料表設計 ............................................................................................................ 21 3.3 排程資料處理機制設計與實作 ................................................................................... 22 3.3.1 問題探討 ................................................................................................................ 22 3.3.2 機制設計與實作 .................................................................................................... 23. 第四章 系統功能驗證與蒐集成果............................................................................. 24 4.1 系統驗證計畫設計與評估方法 ................................................................................... 24 4.1.1 驗證計畫設計 ........................................................................................................ 24 4.1.2 評估方法 ................................................................................................................ 26 iv.

(7) 4.2 驗證計畫執行成果 ....................................................................................................... 27 4.2.1 執行結果分析 ........................................................................................................ 27 4.2.2 導入排程資料處理與未導入機制間差異分析 .................................................... 35 4.3 分析成果展示畫面 ....................................................................................................... 36. 第五章 結論與建議..................................................................................................... 43 5.1 結論 ............................................................................................................................... 43 5.2 未來發展與建議 ........................................................................................................... 43. 參考文獻...................................................................................................................... 45. v.

(8) 圖目錄 圖 1-1 臉書粉絲頁超連結分析系統架構圖 ................................................................ 3 圖 2- 1 短網址原理 ....................................................................................................... 6 圖 2- 2ASP.NET 運行架構 引用來源:http://zh.wikipedia.org/wiki/ASP.NET ........ 8 圖 3- 1 臉書粉絲頁超連結分析系統架構 ................................................................. 12 圖 3-2 臉書粉絲頁超連結分析系統技術架構 .......................................................... 13 圖 3-3 臉書粉絲頁超連結分析系統模組架構 .......................................................... 14 圖 3-4 臉書超連結分析系統資料處理模組 .............................................................. 15 圖 3-5 貼文資料呈現示意圖 ...................................................................................... 16 圖 3-6 網域資料呈現示意圖 ...................................................................................... 17 圖 3-7 基本統計-每日/累計貼文數量資料呈現示意圖 ............................................ 18 圖 3-8 依內容統計-貼文分類比例統計呈現示意圖 ................................................. 18 圖 3- 9 依內容統計-每日貼文分類數量統計呈現示意圖 ........................................ 19 圖 3- 10 依網域統計-連結網域統計呈現示意圖 ...................................................... 19 圖 3- 11 依網域統計-每日連結網域統計呈現示意圖 .............................................. 20 圖 3-12 依網域統計-使用網域的分享統計值呈現示意圖 ....................................... 20 圖 3-13 依網域統計-使用網域的留言統計值呈現示意圖 ....................................... 20 圖 3-14 依網域統計-使用網域的按讚統計值呈現示意圖 ....................................... 21 圖 3-15 排程資料處理機制流程圖 ............................................................................ 23 圖 4-1 驗證計畫流程 .................................................................................................. 26 圖 4-2 每日使用網域數量圖 ...................................................................................... 32 圖 4-3 使用網域分享統計值圖 .................................................................................. 34 圖 4-4 使用網域留言統計值圖 .................................................................................. 34 圖 4-5 使用網域按讚統計值圖 .................................................................................. 34 圖 4-6 驗證計畫中的粉絲頁「黑色島國青年陣線」首頁 ...................................... 36 圖 4-7 貼文清單 .......................................................................................................... 37 圖 4-8「每日/累計貼文數量」圖表 .......................................................................... 37 圖 4-9 依內容統計 ...................................................................................................... 38 圖 4-10「貼文分類每日數量」圖 ............................................................................. 38 圖 4-11 網域清單 ........................................................................................................ 39 vi.

(9) 圖 4-12 依網域統計 .................................................................................................... 39 圖 4-13「使用網域比例」圖 ..................................................................................... 40 圖 4-14「每日使用網域數量」圖 ............................................................................. 40 ...................................................................................................................................... 41 圖 4-15「使用網域的分享統計值」圖 ..................................................................... 41 圖 4-16「使用網域的留言統計值」圖 ..................................................................... 41 圖 4-17「使用網域的按讚統計值」圖 ..................................................................... 42. vii.

(10) 表目錄 表 3-1 貼文清單資料欄位表 ...................................................................................... 16 ...................................................................................................................................... 17 表 3-2 網域清單欄位表 .............................................................................................. 17 表 3-3 系統資料表 ...................................................................................................... 22 表 4-1 專案分析組及對照分析組差異表 .................................................................. 25 表 4-2 驗證計畫粉絲頁一覽表 .................................................................................. 27 表 4-3 各粉絲頁貼文分類數量 .................................................................................. 28 表 4-4 各粉絲頁貼文分類百分比 .............................................................................. 28 表 4-5 粉絲頁「公民覺醒:Big Citizen Is Watching You」的貼文連結資料 ........ 29 表 4-6 粉絲頁「公民覺醒:Big Citizen Is Watching You」的網域清單 ................ 31 表 4-7 粉絲頁「公民覺醒:Big Citizen Is Watching You」2014/3/29 的貼文連結 資料.............................................................................................................................. 32 表 4-8 粉絲頁「公民覺醒:Big Citizen Is Watching You」Google Doc 的貼文列表 統計值.......................................................................................................................... 33 表 4-9 參與者蒐集組及專案蒐集組蒐集花費時間 .................................................. 35. viii.

(11) 第一章 緒論 1.1 背景 近年來隨著網路的普及和社群媒體風行,尤其在台灣許多人成為社群服務 的使用者。根據創市際市場研究顧問公司於 2014 年關於社群服務的調查[1]顯 示,在 2014 年 5 月份,社群服務共有 1083.8 萬不重複使用者造訪,佔台灣上網 人口的 90.3%;其中台灣網友在社群服務中計停留 44.59 億分鐘、瀏覽 50.41 億 頁,換算成單一社群使用者平均會在社群服務中停留 411.4 分鐘、瀏覽 465.1 頁,約佔台灣網友四分之一的網友使用時間、五分之一的瀏覽網頁數。而在社 群網站上最常從事的活動有「瀏覽朋友即時訊息(短篇)」、「瀏覽他人照 片」、「社交交流/與他人互動/按讚」及「觀看各式他人轉貼的連結」等;且有 使用社群網站的網友中,擁有「Facebook」(99.3%)帳號的比例最高。Facebook 於 2004 年被創立後,至今全球已突破五億使用者,以台灣來說,使用人數已破 1500 萬,為數可觀。根據 2014 年 Facebook 委託模範市場研究顧問進行的 「Facebook 台灣消費者線上行為調查」[2]指出,Facebook 是台灣人最常使用的 平台。2007 年推出的 Facebook 粉絲專頁將網站點閱數轉換為可實質估算的「粉 絲數」,被認為最具有發展商業的潛力。有越來越多企業開始使用 Facebook 粉 絲專頁做為行銷工具,對其市場行銷功能給予正面肯定。 因此 Facebook 用戶在 Facebook 上的活動情形以及數量越來越多的粉絲專 頁活動,成為許多人文社會學者研究的目標。. 1.2 研究動機 臉書粉絲頁管理者會於粉絲頁上貼文以跟粉絲互動,除了直接用文字和圖 片之外,其中若有更多訊息想要告知粉絲的話,據觀察很多時候粉絲頁管理者 都會運用超連結的方式以表達更多額外的訊息。 1.

(12) 超連結(Hyperlink)相關的研究歷史久遠[4],許多研究學者認為超連結有 相當不同的意涵,其暗示了多樣性的社會關係,「超連結是網路資料與網友之 間的關係調解員」(Foot, Schneider, Dougherty, Xenos, & Larsen, 2003, n.p.),也有學者比喻超連結是「道路、電話線或索引」(Halavais, 2000, p. 12)。Matheson (2004) 與 Dimitrova, Kaid, Williams, 和 Trammell (2005)指出,超連結為那些想要知道更多相關故事的讀者,提供額 外的資訊。對部落格和個人網頁的研究則強調,超連結有自我表達的能力,可 以滿足個人利益和陳述社會身份(Papacharissi, 2002;Trammell & Keshelashvili, 2005; Trammell et al., 2006)。於按讚經濟學(Carolin Gerlitz, and Anne Helmond, 2013)[5]中也提到了超連結的重要性,社交媒體 中的按鈕提供用戶共享和推薦內容,可放置在任何網站中,讓網站以參與式、 以用戶為中心的方法來推薦和創建網站內容和連結,這些連結的紀錄則能夠進 一步產生更完整的社交網絡,產生對網站與社交平台有價值的瀏覽行為數據。 目前市面上許多臉書粉絲頁的分析工具,如 socialbaker[6]、fanpage karma[7]等對於粉絲頁經營成效都有提供各方面的分析,但沒有針對超連結的 部分進行分析統計。面對大量臉書粉絲頁貼文內容中所出現的超連結,研究者 想追蹤新聞媒體在社交媒體上的表現,或是其他方面的研究,像是分析不同粉 絲頁所分享的超連結網域時,所獲得的使用者參與度為何等等,就需要利用資 訊技術的協助,來做進一步的貼文超連結分析。. 1.3 研究目的 本研究主要係以輔助學者(以下簡稱:系統使用者)分析臉書粉絲頁貼文 中的超連結為目的,設計並實作一個可以相容臉書粉絲頁貼文內容格式、進行 超連結擷取分析,並清楚呈現分析結果的系統。 抓取下來的臉書粉絲頁貼文內容,若該則貼文為分享或轉發超連結的話, 可以直接分析貼文內容中所含的連結欄位,若為別種貼文類型的話,可以再針 2.

(13) 對貼文訊息中所包含超連結,運用正規表示式(Regular Expression)1擷取出來 後,再進行短網址還原已取得原始網址,並擷取原始網址中的網域來加以統計 分析,進而找出臉書粉絲頁分享哪一類的連結較能獲得粉絲互動,並藉由建立 臉書粉絲頁、連結網域和粉絲互動(如分享、留言和按讚)的模板,以觀察這 三個變項之間的相互關聯性,從中可看出哪類型的臉書粉絲頁分享哪一類的連 結較能獲得粉絲互動。. 1.4 研究成果 依據前一節研究目所述,我們已基於此完成一套臉書粉絲頁超連結分析系 統,其系統架構如下圖 1-1。本系統將可提供系統使用者(即社會人文學者) 方便進行臉書粉絲頁的貼文分析。. 圖 1-1 臉書粉絲頁超連結分析系統架構圖 其系統組成主要由三個模組所組成,分別為「資料處理模組」、「資料統 計分析模組」及「資料展示模組」,透過這些模組運作即可達成分析臉書粉絲 頁貼文資料之目的。. 正規表示式:Regular Expression,在代碼中常簡寫為 regex、regexp 或 RE,正規表示 式使用單個字串來描述、匹配一系列符合某個句法規則的字串。在很多文字編輯器裡,正 則運算式通常被用來檢索、替換那些符合某個模式的文字。 1. 3.

(14) 因在本系統上可同時分析多個粉絲頁專案,其中可能有多個專案都設定了 同個粉絲頁,並且產生在每日排程的超連結擷取分析作業中重複分析相同貼文 的情況,為節省分析時間,在超連結擷取過程中導入的「排程資料處理機 制」,該機制主要為減少重複處理資料的情況,進而提升本研究之成果系統的 效能,有效提升分析效率。. 1.5 論文大綱 本論文主要分為五個章節,第一章為緒論,主要在介紹本篇論文研究的緣 起及研究成果,包含前言、研究動機、研究目的、研究成果及論文大綱;第二 章,主要介紹本論文所使用相關概念與技術背景,包含資料庫儲存、頁面呈現 等;第三章,完整介紹本論文的系統設計與架構,包含了資料分析、前端頁面 設計與操作流程、排程資料處理機制等;第四章,說明本系統的功能驗證與分 析成果,實際運用臉書粉絲頁貼文來解析超連結並套用排程資料處理機制後的 成效,以及實際分析資料後的成果展示說明;最後,於第五章提出本論文的結 論與未來可能的發展。. 4.

(15) 第二章 技術背景與相關研究 本研究成果系統主要分為前端頁面網站以及後端資料分析作業兩個部分, 前者採用 ASP.NET 網站技術,使用其 Web Form 架構2搭配 jQuery 等頁面技術 來呈現系統使用者操作的網站介面;後者則是以 C#語言開發工作排程技術來執 行資料分析工作,透過資料庫的結合,兩者可以分別獨立運行。本章節簡介所 使用的技術與相關研究。. 2.1 擷取網址與短網址還原 後端資料分析作業的部分包含萃取臉書粉絲頁貼文內容中網址的部分,再 將短網址轉換成原網址存入資料庫以供後續統計與分析。於此小節介紹與短網 址相關的技術。. 2.1.1 短網址還原 對於有些字串很長的網址,為方便資訊交換,縮短網址(URL shortening) 即成為網路上一個方便使用的網路服務,以一個非常簡短的網址代替原來的長 網址,當使用者存取短網址時,將會被導向原來的網址。短網址的原理為各家 提供短網址服務的服務提供者會存有一個對照表(URL Mapping table),裡面 存放 key 值和其所對應的原網址,當收到 Request 時,便可比對對照表找出原網 址,並重新導向之,流程圖可參考下圖 2-1:. Web Form 架構:建立主要具有瀏覽器使用者介面的應用程式。這當然包括可透過全球資訊網 公開取得的應用程式。 5 2.

(16) 圖 2- 1 短網址原理. 2.2 資料庫及存取技術 在資料分析作業中,最重要的部分即是資料的保存及其存取技術,因此資 料庫的選擇亦成為本研究很重要的一環。在學術研究中,往往受限於研究經費 的限制,無法購買使用市面上盛行的大型商業資料庫系統如 Oracle3、IBM DB24、MS-SQL 等等。但現今有許多屬自由開放軟體的資料庫系統可以提供有 需求者選擇使用,譬如關聯式資料庫中的 MySQL、PostgreSQL5等或 NoSQL 的 HBase6、MongoDB7等。但因在分析過程中,我們已經會先將蒐集回來的資料 進行資料分析後再存入資料庫提供查詢使用,所以在比較這些自由開放的資料 庫系統並對照本研究的使用需求,我們選擇 MySQL 作為本研究成果系統使用 之資料庫管理系統。. 2.2.1 MySQL MySQL[10]是一套開放原始碼的關連式資料庫管理系統,原開發者為瑞典 的 MySQL AB 公司,該公司再 2008 年被昇陽微系統(Sun Microsystems)收 購。2009 年,甲骨文公司(Oracle)收購昇陽微系統公司,MySQL 成為 Oracle 旗 下產品。 MySQL 以成本低廉且擁有高效能及可靠性著名,並成為許多新興網站最想 選用的資料庫系統,尤其以資金成本較低的中小型網站為主。MySQL 的特色在 於其效能高、成本低、可靠性好,是目前最流行的開源資料庫之一,甚至許多 中小企業受因無法負擔較高成本的大型資料庫系統,多轉向使用 MySQL 作為. Oracle:甲骨文股份有限公司,是全球大型資料庫軟體公司,其下 Oracle 資料庫系統為目前最 被廣泛運用的商業資料庫系統。 4 DB2:DB2 是 IBM 公司開發的一種大型關係型資料庫平台.它支持多用戶或應用程序在同一條 SQL 語句中查詢不同 database 甚至不同 DBMS 中的數據。 5 PostgreSQL:是 Open Soruce 的資料庫管理系統,在靈活的 BSD-風格授權條款下發行。 6 HBase:Hbase 是 Apache Hadoop 的資料庫, 能夠對大型資料提供隨機、即時的讀寫存取 7 MongoDB:是一種檔案導向資料庫管理系統,由 C++撰寫而成,以此來解決應用程式開發社 群中的大量現實問題。 6 3.

(17) 其資料庫系統使用。而隨著 MySQL 的逐漸成熟穩定,甚至目前也有許多大規 模的網站如維基百科8、Facebook、Google9等也都有使用 MySQL 作為資料儲存 使用;更有著名的網站程式語言 PHP 結合 MySQL 推出一整套的開放、免費網 站的解決方案套件 PHPMyAdmin10,甚至在建置動態網站中所盛行的自由、免 費網站的整體解決方案「LAMP」11,其中的「M」即代表 MySQL。 雖然說在 Oracle 公司收購 MySQL 後,有許多傳聞說 MySQL 將成為收費的 資料庫管理系統,但就目前為止仍有 MySQL 社群版是免費提供所有開發者選 擇使用,所以在本研究中即選擇 MySQL 5.6.22 版作為本研究成果使用之資料庫 管理系統。. 2.3 前端頁面技術 前端頁面在本研究之成果系統中扮演著很重要的角色,須將分析結果用簡 潔明瞭的方式呈現,舉凡現今有許多網站的開發工具演進至今都非常方便開發 者使用,而其中微軟推出的.Net Framework 更包含有一整套的開發工具以及程 式語言完整的套件,因此在前端頁面開發部分即採用此整合套件之平台以開發 前端頁面,此外再搭配一些開發前端頁面技術常用的套件如 jQuery、AJAX 等 和 jQuery 的圖表套件 Highcharts 做圖表化的結果呈現,讓頁面能更豐富完整。. 2.3.1 ASP.NET 本研究之成果系統前端頁面主要是採用 ASP.NET[11],其是由微軟 (Microsoft)在.NET Framework 框架中所提供,開發 Web 應用程式的類別庫,. 維基百科:是一個自由內容、公開編輯且多語言的網路百科全書協作計畫,透過 Wiki 技術使 得包括您在內的所有人都可以簡單地使用網頁瀏覽器修改其中的內容。 9 Google:是一家美國的跨國科技企業,業務範圍涵蓋網際網路搜尋、雲端運算、廣告技術等領 域,開發並提供大量基於網際網路的產品與服務。 10 PHPMyAdmin:是一個以 PHP 為基礎,以 Web-Base 方式架構在網站主機上的 MySQL 的資 料庫管理工具,讓管理者可用 Web 介面管理 MySQL 資料庫 11 LAMP:一個是 Linux 作業系統上面,搭配 Apache + MySQL + PHP 等而達成,這個系統被稱 為 LAMP。此為流行的自由軟體架構。 7 8.

(18) 可以運行在安裝.Net Framework 的 IIS(Internet Information Services,網際網路 資訊服務)伺服器12上,包含一般 Win Server13或是 Windows 系統的個人電腦皆 可安裝運行,其運作架構如下圖 2-2,堪稱是一套很方便的網站開發平台,很多 人都把 ASP.NET 當做是一種程式語言,但它實際上只是一個由 .NET Framework 提供的一種開發平台,並非程式語言。也可認為 ASP.NET 是.NET 元件,任何.NET 語言,例如 C#,可以參照該元件,建立網頁或 Web 服務,而 本研究主要採用 C#做為開發之程式語言。. 圖 2- 2ASP.NET 運行架構 引用來源:http://zh.wikipedia.org/wiki/ASP.NET. 12 IIS(Internet Information Services,網際網路資訊服務)伺服器:是由微軟公司提供的基於 運行。Microsoft Windows 的網際網路基本服務的伺服器。 13 Win Server:運行由微軟公司提出的伺服器作業系統,如 Win2003、Win2008、 Win2012 等。 8.

(19) 2.3.2 jQuery jQuery[12]是一套跨瀏覽器的 JavaScript 函式庫,簡化 HTML 與 JavaScript 之間的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上釋出第一個版 本。目前是由 Dave Methvin 領導的開發團隊進行開發。全球前 10,000 個存取最 高的網站中,有 65%使用了 jQuery,是目前最受歡迎的 JavaScript 函式庫。而 微軟的 ASP.NET 中亦整合 jQuery 來輔助網頁程式的開發,其特色在於可以使 用 DOM(Document Object Model, 文件物件模型)14快速對 Web Form 上的欄 位進行操作,此功能可節省開發者不少的開發時間;另外對於一些畫面的呈現 如 CSS15、特效及動畫等也都有很足夠支援,也因此 jQuery 幾乎成為了開發網 頁中不可或缺的重要函式庫。. 2.3.3 AJAX AJAX(Asynchronous JavaScript and XML, 非同步的 JavaScript 與 XML 技 術) [13]指的是一套綜合了多項技術的瀏覽器端網頁開發技術。傳統的 Web 應 用允許用戶端填寫表單,當送出表單時就向 Web 伺服器傳送一個請求。伺服器 接收並處理傳來的表單,然後送回一個新的網頁,但這個做法浪費了許多頻 寬,因為在前後兩個頁面中的大部分 HTML 碼往往是相同的。由於每次應用的 溝通都需要向伺服器傳送請求,應用的回應時間依賴於伺服器的回應時間。這 導致了使用者介面的回應比本機應用慢得多。 與此不同,AJAX 應用可以僅向伺服器傳送並取回必須的資料,並在客戶 端採用 JavaScript 處理來自伺服器的回應。因為在伺服器和瀏覽器之間交換的 資料大量減少(大約只有原來的 5%),伺服器回應更快了。同時,很多的處理 工作可以在發出請求的客戶端機器上完成,因此 Web 伺服器的負荷也減少了。. DOM(Document Object Model, 文件物件模型):是 W3C 組織推薦的處理可擴展置標語言的標 準編程介面。它是一種與平台和語言無關的應用程序介面,它可以動態地訪問程序和腳本,更 新其內容、結構和 www 文檔的風格。 15 CSS:Cascading Style Sheets,一種用來為結構化文件(如 HTML 文件或 XML 應用)添加樣 式(字型、間距和顏色等)的電腦語言,由 W3C 定義和維護。 9 14.

(20) 2.3.4 Highcharts Highcharts[14] 是一個用純 JavaScript 編寫的一個圖表庫, 能夠很簡單便捷 的在 Web 網站或是 Web 應用程式添加有交互性的圖表,並且免費提供給個人 學習、個人網站和非商業用途使用。Highcharts 支援的圖表類型有曲線圖、區域 圖、柱狀圖、餅狀圖、散狀點圖和綜合圖表。Highcharts 介面美觀,由於使用 JavaScript 編寫,所以不需要像 Flash 和 Java 那樣需要外掛程式才可以運行,而 且運行速度快。另外 Highcharts 還有很好的相容性,能夠完美支持當前大多數 瀏覽器。現在官方的最新版本為 Highcharts-4.1.5。Highcharts 的主要特性包括: 1. 相容性:Highcharts 採用純 JavaScript 編寫,相容當今大部分的流覽 器,包括 Safari、IE 和 Firefox 等等; 2. 圖表類型:Highcharts 支援圖表類型,包括曲線圖、區域圖、柱狀圖、 餅狀圖、散狀點圖和綜合圖表等等,可以滿足各種需求。 3. 不受語言約束:Highcharts 可以在大多數的 WEB 開發中使用,並且對 個人用戶免費,支援 ASP,PHP,JAVA,.NET 等多種語言中使用。 4. 提示功能:Highcharts 生成的圖表中,可以設置在資料點上顯示提示效 果,即將滑鼠移動到某個資料點上,可以顯示該點的詳細資料,並且可 以對顯示效果進行設置。 5. 放大功能:Highcharts 可以大量資料集中顯示,並且可以放大某一部分 的圖形,將圖表的精度增大,進行詳細的顯示,可以選擇橫向或者縱向 放大。 6. 時間軸:可以精確到毫秒。. 2.4 工作排程技術 除了前端頁面技術,本研究主要目的在於分析貼文中所包含的超連結,會 透過工作排程的技術定期擷取已蒐集 Facebook 貼文資料中的超連結,而工作排 10.

(21) 程技術則使用運行在 Windows 系統內建的工作排程器[15]。這個工具也能讓使 用者建立、刪除、查詢、變更、執行和結束本機或遠端電腦上排定的工作。. 2.5 超連結分析相關研究 在「網址還原探勘技術於傳播研究之應用:解析2012台灣總統大選Twitter 之新聞來源引用」的研究中[3],開發了社交媒體之探勘技術,透過資訊科技與 傳播研究結合,探討於Twitter上在2012台灣總統大選期間對於新聞來源之引 用。本研究參考其分析Twitter上超連結的方式,運用在臉書粉絲頁貼文中的超 連結分析。. 11.

(22) 第三章 系統設計與架構 3.1 系統設計原則 本研究之目的主要為了提供社會人文學者一個能分析 Facebook 粉絲頁貼文 內容的輔助系統,因此在系統設計時,除了必須考量到分析資料的穩定性及系 統效能之外,學者們的使用行為也須一併考量,才能讓本研究成果系統更貼近 學者們的使用需求。另外為考量本研究成果系統後續維護修改等議題,在程式 架構上必須也要著重於擴充性、延展性等,因此本系統的設計原則共有下列幾 點: 1. 前端操作頁面主要作為 Client 端使用者與系統間互動的圖形化介面,而後端 超連結擷取還原作業則為自動排程架構,兩者皆可獨立執行,並以資料庫資 料作為溝通的管道,其架構如下圖 3-1 臉書粉絲頁超連結分析系統架構。. 圖 3- 1 臉書粉絲頁超連結分析系統架構. 2. 簡化前端頁面操作流程,讓使用者能夠快速地熟悉應用本研究成果之系統。. 12.

(23) 3. 超連結擷取還原作業以工作排程方式採獨立進行,以定期檢查的方式來確保 資料的完整性,而每次作業間的資料軌跡都有另作紀錄,可作為日後觀察使 用。 4. 分析成果以圖形化介面方式展現,除了基本原始資料呈現,對於未來有可能 新增其他不同項目的分析成果也保留有擴充性。. 臉書粉絲頁超連結分析系統技術架構如下圖 3-2 臉書粉絲頁超連結分析系 統技術架構,基於此架構,本研究總共開發出三個主要的功能模組,並由這三 個模組組成臉書粉絲頁超連結分析系統,模組架構圖如圖 3-3。. 圖 3-2 臉書粉絲頁超連結分析系統技術架構. 13.

(24) 圖 3-3 臉書粉絲頁超連結分析系統模組架構. 3.1.1 資料處理模組 本系統所取得的 Facebook 粉絲頁貼文資料是由 Facebook 粉絲頁資料蒐集 系統所取得,從資料庫讀取已取得的貼文資料後接下來就進入資料處理模組, 進行超連結擷取、短網址還原以及連結網域資料儲存,共三項工作。 超連結擷取:因為由 Facebook 粉絲頁資料蒐集系統透過 Graph API 所取得 的貼文資料中含有超連結資訊的有兩個欄位-連結(link)與訊息(message),當中 訊息欄位中可能包含許多其他文字,所以需使用正規表示式擷取訊息中所包含 的超連結。 短網址還原:擷取出來的超連結可能為原始網址亦或是短網址,短網址就 需要進一步做還原的動作已取得原始網址。還原的方式為發送 HttpRequest,取 得回應中所含的 location 欄位即為原始網址。 連結網域資料儲存:前兩個步驟結束後可以取得原始網址,再由原始網址 中取出網址的網域並儲存。. 14.

(25) 圖 3-4 臉書超連結分析系統資料處理模組. 3.1.2 資料統計分析模組 資料統計分析模組,主要為支援 Client 端使用者相關操作的圖形化介面, 如統計每日貼文種類數量、連結網域數量等等於後端先行查詢資料庫並依據分 析的項目做不同的資料查詢整理及邏輯運算,以供前端畫面呈現。. 3.1.3 資料展示模組 資料展示模組主要為展示資料分析成果,其呈現方式目前有兩種,一種為 使用表格方式呈現粉絲頁貼文資料以及網域排行資料,另一種則是用圖表呈現 統計分析結果。 在表格方式呈現部分,主要是透過 HTML、CSS 以及 Javascript,同時搭 配.NetFramework 提供的 Data Source 資料來源控制項,使得資料可以直接由資 料庫查出並呈現,整體使用方式更為簡便,同時也有多樣化的事件處理,可以 讓我們在呈現原始資料時能更貼近系統使用者需求。因此我們在設計部分,僅 需要著墨於資料呈現的議題,在本研究中,我們將所有原始資料稍做整理,較 為重要的欄位才顯示於表格中,其中文字內容較長的欄位則簡短呈現。以下圖 3-5 貼文資料為例,我們將重要資訊如「種類(Type)」、「按讚數(Likes)」16、 「貼文時間(Created Time)」等訊息放置於主畫面表格中,而相對內容較長或較 複雜資料內容部分則另以縮短文字、游標移至該欄位才會秀出全部訊息的方式 呈現,如「貼文訊息(Post message)」、「生活故事(Story)」等,以及將「連結 (Link)」欄位依照不同的貼文種類用 Facebook 預設的小圖示呈現,用來代表不. 按讚數:是用來表示網友對發文者的表態,發文者可以是個人、社團、公司、與粉絲專頁。 利用「讚」按鈕網友們對該頁面進行讚賞及表態。而其總數稱為按讚數。 15 16.

(26) 同的貼文種類該欄位所提供的連結也會連至不同的內容,如貼文種類為連結 (link)的話,該欄位會指向該則連結網址,若貼文種類為照片(photo)的話,該欄 位會指向該則貼文所附加的照片網址。相較於以往將所有資料都放在同一畫面 的設計方式,本研究的方法更為精簡易懂。其中貼文清單所提供的資料欄位如 下表 3-1 貼文清單資料欄位表,網域清單所提供的資料欄位如下表 3-2 網域清單 資料欄位表。. 圖 3-5 貼文資料呈現示意圖 表 3-1 貼文清單資料欄位表 欄位名稱. 欄位說明. Post. 該則貼文的 Facebook 頁面連結,點選可開啟 Facebook 頁面. Type. 貼文種類. Status Type. 狀態更新種類的描述. Created Time 貼文建立時間 由系統自動產生的一段文字,用來簡短描述該則貼文的行 Story. 為,如分享他人的貼文等。. Post message. 貼文訊息內容. Link. 附於該則貼文的連結. Shares. 分享數. Comments. 留言數. 16.

(27) 按讚數. Likes. 圖 3-6 網域資料呈現示意圖 表 3-2 網域清單欄位表 欄位名稱. 欄位說明. #. 序號. 網域. 網域網址. 名稱. 網域名稱描述. 引用次數. 該網域引用次數. 佔整體 URL 數量之%. (該網域引用次數/全部超連結數)*100%. 而另一部分則是將統計分析過後的資料,分別在不同的頁簽中顯示,目前 分為三個頁簽「基本統計」、「依內容統計」和「依網域統計」。 「基本統計」頁簽包含了「每日/累計貼文數量」,依照日期顯示當日的貼 文數量,並且游標移至該點時會顯示當日/累計的分享數、留言數和按讚數量, 如下圖 3-7 所示。. 17.

(28) 圖 3-7 基本統計-每日/累計貼文數量資料呈現示意圖 「依內容統計」頁簽包含了「貼文分類比例統計」和「每日貼文分類數量 統計」。「貼文分類比例統計」依照貼文種類(Type)統計各分類貼文所佔的比 例,並且游標移至該分類時會顯示該分類貼文的實際數量與全部貼文的數量, 目前有的分類為 Photo、Link、Status、Video、Offer、Event 以及 Note,如下圖 3-8 所示。「每日貼文分類數量統計」依照貼文種類統計各分類貼文每日的數 量,並且游標移至該點時會顯示該分類貼文當日的數量,如下圖 3-9 所示。. 圖 3-8 依內容統計-貼文分類比例統計呈現示意圖. 18.

(29) 圖 3- 9 依內容統計-每日貼文分類數量統計呈現示意圖 「依網域統計」頁簽可依名次和引用次數篩選網域,預設為前九大網域, 其餘的網域會加總顯示於 Others。統計圖表包含了「連結網域統計」、「每日 連結網域統計」、「使用網域的分享統計值」、「使用網域的留言統計值」和 「使用網域的按讚統計值」。「連結網域統計」依照網域引用次數統計各網域 所佔的比例,並且游標移至該網域時會顯示該網域的實際引用次數與百分比, 如下圖 3-10 所示。「每日連結網域統計」依照網域統計各網域每日的數量,並 且游標移至該點時會顯示該網域當日出現的數量,如下圖 3-11 所示。「使用網 域的分享統計值」(如圖 3-12 所示)、「使用網域的留言統計值」(如圖 3-13 所 示)和「使用網域的按讚統計值」(如圖 3-14 所示) 分別會顯示貼出該網域的貼文 所獲得的分享數、留言數、按讚數的各個統計值,游標移上該網域分別會顯示 貼出該網域的貼文所獲得的分享數、留言數、按讚數量的最大值(Max)、平均值 (μ)、最小值(Min)、平均值(μ)±標準差(σ),水平紅線則顯示所有網域的分享數、 留言數、按讚數量的平均值。. 圖 3- 10 依網域統計-連結網域統計呈現示意圖 19.

(30) 圖 3- 11 依網域統計-每日連結網域統計呈現示意圖. 圖 3-12 依網域統計-使用網域的分享統計值呈現示意圖. 圖 3-13 依網域統計-使用網域的留言統計值呈現示意圖. 20.

(31) 圖 3-14 依網域統計-使用網域的按讚統計值呈現示意圖 而因目前本系統為保留資料主題的擴充性,在規劃設計之時,將所有呈現 畫面依照不同主題分類,意即日後若針對新的主題做分析時亦可輕易擴充版 面。. 3.2 資料儲存機制設計 擷取並還原超連結完成後的資料,系統會將其儲存至系統資料庫中,以及 相關的工作排程紀錄等也都ㄧ併存放於系統資料庫中,因此資料庫在本研究成 果系統中扮演著不可或缺的重要角色。而在資料庫的議題中,除了資料表的設 計必須符合系統之應用外,對於本研究所分析完成的資料必須能夠穩定保存及 查詢使用;此外在每日排程的超連結擷取還原作業中,會判斷已解析過的貼文 若沒變動的話,就不會重新解析,根據這樣的特性也設計了一套資料儲存表以 供使用。. 3.2.1 資料表設計 在資料表的設計部分,本研究所使用的資料表如下表 3-3 所示,主要用來 儲存解析完成的超連結網域資料,以及其與貼文之間的關聯表。另外設計有記 21.

(32) 錄連結處理工作記錄表和常見的網域說明分類表,以供畫面呈現時可將常見網 域用使用者較容易理解的說明方式呈現,而非直接呈現網域的網址。. 表 3-3 系統資料表 項. 資料表名稱. 次. 中文名稱. domaindescription. 網域描述資料表. 2. linkjobs. 連結處理工作資料表. 3. links. 貼文與連結關聯表. 4. pagefeeddata. 貼文資料表. 1. 功能. 常見網域的說明和分類 對照表 儲存已解析過的貼文及 資料蒐集時間 貼文與相對應的連結網 域資料 粉絲頁貼文資料. 3.3 排程資料處理機制設計與實作 本節將完整介紹在超連結擷取過程中導入的排程資料處理機制,該機制主 要為減少重複處理資料的情況,進而提升本研究之成果系統的效能,並在此節 說明該機制設計的原委。. 3.3.1 問題探討 使用者在 Facebook 粉絲頁蒐集資料系統中可以設定多個專案,並於各個專 案設定欲蒐集的粉絲頁,所以若多個專案同時運行且設定了重疊的蒐集時間, 此時以專案為主去抓取相關貼文資料來執行擷取和還原超連結作業時,就會發 生已解析過的粉絲頁貼文,且貼文內容未變更的情況下進行重複解析進而拉長 整體超連結解析時間的問題,超連結解析作業中包括還原短網址,需逐條將從. 22.

(33) 貼文中擷取出來的超連結送 HttpRequest,並讀取回傳值,若貼文中包含多個超 連結且同則貼文重複解析,就會在此一步驟耗費過多時間。 因此我們需要設計一個機制來有效預防上述的狀況的發生,為減少超連結 解析運算時間,此類的問題必須審慎思考並設計改善。. 3.3.2 機制設計與實作 為解決前一小節提到的已解析過的粉絲頁貼文重複進行超連結解析的議 題,本研究設計出一套「排程資料處理機制」以改善避免此狀況的產生。其機 制的設計理念在於,設計一個資料表 linkjobs,用來儲存已解析過的貼文編號以 及貼文蒐集時間,每次執行排程工作的時候都會檢查此資料表,若貼文蒐集時 間未更新就不再次解析該則貼文,若貼文蒐集時間有更新或是沒有解析過的記 錄的話,才會進行解析,流程簡圖如圖 3-15,其優點說明如下: 節省整體解析時間:因可能有粉絲頁貼文重複解析,在原本的解析方式之 下假設 P 個專案中都有設定同個粉絲頁且設定了重複的蒐集時間,那在解析過 程中就必須解析 P 次的資料,而反之若以粉絲頁貼文為蒐集基礎,不論幾個專 案都設定了該粉絲頁,解析過程中最多僅會解析 1 次,若該則貼文已解析過的 話就不會再解析,所以花費時間會更少!因此可以證明解析時間ㄧ定會優於原 始的解析時間。. 圖 3-15 排程資料處理機制流程圖 23.

(34) 第四章 系統功能驗證與蒐集成果 為了瞭解臉書粉絲頁超連結分析系統是否符合系統使用者之需求,我們針 對第三章設計所實作出來的成果系統進行系統功能驗證,透過驗證結果除了證 明本系統是可以提供使用者分析臉書粉絲頁貼文作為研究分析之外,在導入排 程資料處理機制後,是否可以有效縮短分析時間,進而提升系統的效能和穩定 度等,將在本章節內逐一介紹說明。. 4.1 系統驗證計畫設計與評估方法 在本研究中設計並實作了一個臉書粉絲頁超連結分析系統,可評估本系統 在有無導入排程資料處理機制間的差異,但最主要的目的是能輔助系統使用者 完成臉書粉絲頁貼文超連結分析工作,我們以此為目的進行驗證計畫的設計。 驗證過程將專注於系統的穩定度、分析的效率以及分析資料的精準度及完整度 等議題。. 4.1.1 驗證計畫設計 在驗證計畫設計上,因應此本研究成果系統之設計目的,以觀察 2014 年的 318 學運事件相關粉絲頁之間的行為比較作為出發點,使用「臉書粉絲頁蒐集 系統」17預先蒐集了「黑色島國青年陣線」和「反黑箱服貿協議」此兩個主要 發起事件的粉絲頁在 2014/3/11 至 2014/4/17 之間發表的貼文以及另外相關的 18 個粉絲頁貼文,分別就這些貼文做基本以及超連結相關分析。 而在系統驗證的部分,我們設計於用相同貼文資料且模擬部分貼文已分析 的狀況分別執行兩套分析系統,主要目的為驗證導入排程資料處理機制後與未 導入間的差異,我們分別定義這兩套分析系統為專案分析組、對照分析組(專案. 17. 臉書粉絲頁蒐集系統:另外開發的蒐集臉書粉絲頁貼文的系統,在此可引用其蒐集好的臉書. 粉絲頁貼文資料 24.

(35) 分析組為臉書粉絲頁超連結分析系統;對照分析組為未導入排程資料處理機制 的分析系統),兩組之間的差異如下表 4-1 所示;此外,為能驗證排程資料處理 機制對分析系統所產生的效益是否符合我們設計時的期望,因此必須模擬部分 貼文資料已分析的狀況: 表 4-1 專案分析組及對照分析組差異表 專案分析組. 分析狀況. 判斷若未執行過分析的貼文. 對照分析組 所有貼文皆分析. 才做(排程資料處理機制). 除上表之差異以外,其他則為我們的控制變因,控制項目如下列: 1. 專案:專案分析組及對照分析組的粉絲頁貼文以及內容皆相同。 2. 粉絲頁貼文數量:本驗證計畫設定幾種情況,詳細狀況如 4.2.2 節所述。 3. 硬體及網路配置:使用個人 PC 期規格為 Win8 作業系統、i5CPU、4G 記憶 體以及 500GB 的硬碟,網路則為 3G 行動網路。 4. Visual Studio C#:Microsoft Visual Studio 2013。 5. 資料庫:MySQL 5.6 在設定完驗證計畫的前置作業及蒐集完粉絲頁貼文資料等,隨即開始執行 驗證計畫,圖 4-1 為驗證計畫流程。. 25.

(36) 圖 4-1 驗證計畫流程. 在驗證結束後,我們將驗證期間內的分析記錄完整保存,進行後續的分析 與評估。. 4.1.2 評估方法 本驗證計畫之評估方法,主要是以貼文數量、貼文內容所夾雜的超連結和 分享超連結數以隨機擷取之貼文做數量及內容比對,並觀察專案分析組及對照 分析組分析所花費的時間與分析過程中的穩定性。 因每個粉絲頁的貼文筆數甚多,當中包含的超連結數量也很多,所以在驗 證超連結資料的時候,我們採用所有分析粉絲頁中的 10 個粉絲頁中隨機選取的 部分貼文來比對連結資料正確性,並採取單日的貼文種類以及網域資料來比對 前端呈現圖表是否正確。結論是,透過觀察貼文中內含的超連結資料、單日的 貼文種類以及網域資料,我們可以經由這三個面相來驗證資料的完整性。. 26.

(37) 在排程資料處理機制的驗證部分,主要為觀察專案分析組及對照分析組的分 析時間,分析時間包含從臉書粉絲頁的貼文內擷取超連結以及短網址還原等 等。. 4.2 驗證計畫執行成果 在經過跑排程超連結分析作業和前端頁面呈現各個粉絲頁貼文的分析結 果,我們成功完成了臉書粉絲頁超連結分析與呈現的的作業,以下將以前一節 所述的評估方法來驗證臉書粉絲頁超連結分析系統功能。. 4.2.1 執行結果分析 本驗證計畫共計用了 10 個粉絲頁的於 2014/3/11 至 2014/4/17 之間發表的貼 文來做驗證,如下表 4-2 所示。 表 4-2 驗證計畫粉絲頁一覽表 編號. 粉絲頁 id. 粉絲頁名稱. 貼文總數量. 1. 177308745785713. 黑色島國青年陣線. 411. 2. 503119123092267. 反黑箱服貿協議. 406. 3. 240170506141170. 沃草!(Watchout). 359. 4. 119282744754924. Taiwan Association for Human Rights. 228. 台灣人權促進會 5. 722825317762908. 台大法律學生挺 318. 128. 6. 145510498819475. 台灣守護民主平台. 101. 7. 1415446228712676. One More Story 公民路. 92. 8. 248848828633500. Appendectomy Project 割闌尾計畫. 77. 27.

(38) 9. 325874310840688. [我是學生,我反旺中] 反媒體巨獸. 51. 青年聯盟 10. 384162281712780. 公民覺醒:Big Citizen Is Watching. 37. You 我們可以先初步整理貼文資料各分類數量和百分比以供前端頁面呈現時使 用,所有分類包含 Photo、Link、Status、Video、Event、Note、Offer,粉絲頁 編號則沿用表 4-2 中的編號,貼文分類數量及百分比如下表 4-3 和表 4-4: 表 4-3 各粉絲頁貼文分類數量 編號. Photo. Link. Status. Video. Event. Note. Offer. 1. 163. 68. 149. 29. 2. 0. 0. 2. 128. 102. 149. 22. 5. 0. 0. 3. 118. 143. 44. 53. 1. 0. 0. 4. 131. 56. 30. 9. 2. 0. 0. 5. 29. 74. 22. 2. 1. 0. 0. 6. 31. 50. 8. 6. 5. 1. 0. 7. 73. 13. 3. 3. 0. 0. 0. 8. 18. 47. 12. 0. 0. 0. 0. 9. 23. 12. 12. 2. 2. 0. 0. 10. 13. 8. 5. 9. 2. 0. 0. Note. Offer. 表 4-4 各粉絲頁貼文分類百分比 編號. Photo. Link. Status. Video. 1. 39.7%. 16.5%. 36.3%. 7.1%. 0.5%. 0.0%. 0.0%. 2. 31.5%. 25.1%. 36.7%. 5.4%. 1.2%. 0.0%. 0.0%. 28. Event.

(39) 3. 32.9%. 39.8%. 12.3%. 14.8%. 0.3%. 0.0%. 0.0%. 4. 57.5%. 24.6%. 13.2%. 3.9%. 0.9%. 0.0%. 0.0%. 5. 22.7%. 57.8%. 17.2%. 1.6%. 0.8%. 0.0%. 0.0%. 6. 30.7%. 49.5%. 7.9%. 5.9%. 5.0%. 1.0%. 0.0%. 7. 79.3%. 14.1%. 3.3%. 3.3%. 0.0%. 0.0%. 0.0%. 8. 23.4%. 61.0%. 15.6%. 0.0%. 0.0%. 0.0%. 0.0%. 9. 45.1%. 23.5%. 23.5%. 3.9%. 3.9%. 0.0%. 0.0%. 10. 35.1%. 21.6%. 13.5%. 24.3%. 5.4%. 0.0%. 0.0%. 以編號 10 的粉絲頁「公民覺醒:Big Citizen Is Watching You」為例,先逐 一觀察含有超連結的貼文及其超連結的網域數量,總計共有 37 則貼文,其中 21 則含有超連結,超連結數共有 38 個,整理如下表 4-5: 表 4-5 粉絲頁「公民覺醒:Big Citizen Is Watching You」的貼文連結資料 貼文編號. 網域. 數量. www.facebook.com. 2. www.youtube.com. 2. linoit.com. 1. drive.google.com. 1. www.facebook.com. 1. docs.google.com. 1. billy3321.github.io. 2. www.youtube.com. 2. news.ltn.com.tw. 1. www.slideshare.net. 1. 384162281712780_471889396273401 www.facebook.com. 1. 384162281712780_481436821985325. 384162281712780_481018672027140. 384162281712780_480725755389765. 384162281712780_476679339127740. 29.

(40) 384162281712780_471522732976734 www.appledaily.com.tw. 1. www.nownews.com. 1. www.appledaily.com.tw. 1. 384162281712780_471341689661505. 384162281712780_467216753407332 www.youtube.com. 1. 384162281712780_467019243427083 docs.google.com. 1. 384162281712780_10203257361291793 billy3321.github.io. 1. 384162281712780_10203253407032939 www.facebook.com. 1. 384162281712780_10203225782182335 www.facebook.com. 1. disp.cc 384162281712780_10200897242273628 www.facebook.com www.youtube.com. 1 2 4. 384162281712780_10200896485174701 www.facebook.com. 1. 384162281712780_10200896157566511 www.facebook.com. 1. 384162281712780_10200896147246253 www.facebook.com. 1. 384162281712780_10200896141286104 www.facebook.com. 1. 384162281712780_10200888908665293 www.facebook.com. 1. 384162281712780_10200842027013281 www.youtube.com. 1. 384162281712780_10200836874804479 www.youtube.com. 1. 384162281712780_10200823461909165 www.appledaily.com.tw. 1 總計 38. 將上表 4-5 以網域的數量自行加以彙整統計,與系統匯出的網域清單數據 相吻合,以此可以驗證擷取分析的超連結數量正確,系統匯出的網域清單如下 表 4-6: 30.

(41) 表 4-6 粉絲頁「公民覺醒:Big Citizen Is Watching You」的網域清單 網域. #. 名稱. 引用次數. 佔整體 URL 數量之%. 1 www.facebook.com. Facebook. 13. 34.21%. 2 www.youtube.com. Youtube. 11. 28.95%. 3. 7.89%. 3 billy3321.github.io 4 www.appledaily.com.tw. 蘋果日報. 3. 7.89%. 5 docs.google.com. Google Doc. 2. 5.26%. 6 disp.cc. Disp BBS. 1. 2.63%. 7 drive.google.com. Google Drive. 1. 2.63%. 1. 2.63%. 自由時報. 1. 2.63%. 10 www.nownews.com. NOWnews 今日新聞. 1. 2.63%. 11 www.slideshare.net. Slideshare. 1. 2.63%. lino-共享貼紙和照 8 linoit.com. 9 news.ltn.com.tw. 片. 另外針對被引用最多的 Facebook 網域,再作進一步分析發現,13 次引用次 數當中包含了 Facebook 活動頁面(7 次皆為 3/30 凱達格蘭大道遊行活動頁面) 以及其他粉絲頁貼文(共 6 次,各為「反黑箱服貿協議」2 次、「Mockingbird 仿聲鳥快閃」2 次、「黑色島國青年陣線」1 次、「反服貿-高中職不缺席」1 次)。 另外驗證每日網域的數量圖,系統產生的圖表如下圖 4-2:. 31.

(42) 圖 4-2 每日使用網域數量圖 採用網域數量最多的一天(2014/3/29)來驗證資料正確性,根據圖 4-2 顯示, 當天 Facebook 的連結共有 7 個、Youtube 的連結共有 4 個、Disp BBS 的連結共 有 1 個,根據表 4-2 當中所觀察到含有連結的貼文中,發表日期為 2014/03/29 的共有 6 則貼文如下表 4-7,當中的連結資料與圖表的相吻合。 表 4-7 粉絲頁「公民覺醒:Big Citizen Is Watching You」2014/3/29 的貼文連結 資料 貼文編號. 網域. 384162281712780_471889396273401 www.facebook.com disp.cc 384162281712780_10200897242273628 www.facebook.com www.youtube.com. 數量 1 1 2 4. 384162281712780_10200896485174701 www.facebook.com. 1. 384162281712780_10200896157566511 www.facebook.com. 1. 384162281712780_10200896147246253 www.facebook.com. 1. 32.

(43) 1. 384162281712780_10200896141286104 www.facebook.com. 總計 12 接下來驗證使用網域相關的統計圖─分享統計值、留言統計值和按讚統計 值。首先逐一計算貼文的分享數、留言數和按讚數以及各項統計值,包括平均 值和標準差,可得統計數據如下表 4-8: 表 4-8 粉絲頁「公民覺醒:Big Citizen Is Watching You」Google Doc 的貼文列表 統計值 貼文編號. 分享數. 留言數. 按讚數. 384162281712780_467019243427083. 2505. 134. 2718. 384162281712780_481018672027140. 0. 3. 332. 137. 3050. 平均值(μ) 1252.5. 68.5. 1525. 標準差(σ) 1252.5. 65.5. 1193. μ+σ 2505. 134. 2718. μ-σ 0. 3. 332. 總計 2505. 並逐一比對系統所產生的使用網域分享統計值圖(如圖 4-3)、使用網域留言 統計值圖(如圖 4-4)和使用網域按讚統計值圖(如圖 4-5),兩邊數據都吻合。. 33.

(44) 圖 4-3 使用網域分享統計值圖. 圖 4-4 使用網域留言統計值圖. 圖 4-5 使用網域按讚統計值圖 34.

(45) 綜合以上的資料筆數確認以及超連結網域資料內容的檢查作業後,我們可 以驗證本研究設計實作之臉書粉絲頁超連結分析系統在分析臉書粉絲頁貼文上 是有一定程度的準確度。. 4.2.2 導入排程資料處理與未導入機制間差異分析 在本研究中運用了排程資料處理機制,目的在於能有效縮短分析時間,在 分析過程中,判斷此貼文已分析過或比對貼文最新更新時間未變動的話,就不 再執行分析作業,實際運行測試分析時間差距跟貼文數量以及內含連結數量相 關,若越多內含多個連結的貼文則分析時間越長,若預先判斷則可節省時間。 以下表 4-9 為專案分析組(皆已分析無須重新分析)和對照分析組(全部貼文皆重 新分析)實際運行包含不同數量連結的貼文分析所需的時間。. 表 4-9 參與者蒐集組及專案蒐集組蒐集花費時間 貼文數. 內含連結數. 專案分析組(sec). 對照分析組(sec). 22. 12. 0.26. 25.30. 497. 27. 1.9. 116.41. 92. 64. 0.4. 120.41. 由表 4-9 我們可發現在本驗證計畫下,導入排程資料處理機制後的分析時 間比未導入該機制的分析時間快,依照貼文和連結數量會有運算時間上的不 同,因此可以證實導入排程資料處理機制來分析超連結可以明顯降低分析時 間,提高系統的效率。. 35.

(46) 4.3 分析成果展示畫面 在前面章節主要為驗證臉書粉絲頁超連結分析系統的穩定性以及資料的正 確性等。而本節主要為展示本次驗證計畫後,後續將介紹本系統分析資料之成 果展示頁面,並以粉絲頁「黑色島國青年陣線」為例完整介紹。 首頁:預設由臉書粉絲頁蒐集專案的畫面中點選某一粉絲頁,連結至本系 統的首頁如下圖 4-6,標題會顯示點選的粉絲頁名稱,並顯示蒐集專案的名稱 (例如:黑島青、反黑箱服貿)和蒐集時間(例如:2014/03/11 至 2014/04/17)。畫 面預設會顯示該粉絲頁蒐集期間內的貼文清單,畫面中共有 5 個頁籤,包括貼 文清單、基本統計、依內容統計、網域清單、依網域統計。. 圖 4-6 驗證計畫中的粉絲頁「黑色島國青年陣線」首頁 貼文清單:點選第一頁籤即為「貼文清單」,字串較長的欄位如 Post message 和 Story 預設只顯示一行,游標移至該欄位才會顯示完整內容,如下圖 4-7。. 36.

(47) 圖 4-7 貼文清單 基本統計:點選第二頁籤即為「基本統計」,包含了「每日/累計貼文數 量」圖表,游標移至某日期的點會顯示當日或累計的貼文數量、分享數量、留 言數量和按讚數量,如下圖 4-8 所示:. 圖 4-8「每日/累計貼文數量」圖表 依內容統計:點選第三頁籤即為「依內容統計」,包含了「貼文分類比 例」和「貼文分類每日數量」圖表,游標移至某區塊或點會顯示詳細的貼文數 量,如下圖 4-9 和圖 4-10。. 37.

(48) 圖 4-9 依內容統計. 圖 4-10「貼文分類每日數量」圖 網域清單:點選第四頁籤即為「網域清單」,顯示網域清單列表及百分 比,如下圖 4-11 網域清單。. 38.

(49) 圖 4-11 網域清單 依網域統計:點選第五頁籤即為「依網域統計」,使用者可依照網域排名 數和出現次數過濾顯示依網域統計的圖表,如下圖 4-12 依網域統計。此頁籤包 含了「使用網域比例」圖、「每日使用網域數量」圖、「使用網域的分享統計 值」圖、「使用網域的留言統計值」圖和「使用網域的按讚統計值」圖。游標 移至圖上某區塊或點可以顯示詳細數量或統計值資訊,依序如圖 4-13、圖 414、圖 4-15、圖 4-16、圖 4-17。. 圖 4-12 依網域統計 39.

(50) 圖 4-13「使用網域比例」圖. 圖 4-14「每日使用網域數量」圖. 40.

(51) 圖 4-15「使用網域的分享統計值」圖. 圖 4-16「使用網域的留言統計值」圖. 41.

(52) 圖 4-17「使用網域的按讚統計值」圖 以上為臉書粉絲頁超連結分析系統的資料展示成果,但就目前的成果展示 頁面應可以輔助社會人文學者進行分析粉絲頁超連結以及檢視粉絲頁分析統計 成果。. 42.

(53) 第五章 結論與建議 5.1 結論 現今臉書粉絲頁的資料蒐集和分析研究成為許多社會人文學者想研究的重 點項目之一。在本系統中,除了一般的基本分析之外,亦提供了超連結網域相 關的統計分析,輔助學者們在進行相關分析研究時能夠使用。本研究之成果除 了分析臉書粉絲頁貼文資料之外,對於排程工作中亦導入了排程資料處理機 制,並進行實際驗證,而驗證結果指出,若重複分析貼文,會造成分析時間拉 長,若貼文數量和內含的超連結數量更多,則花費的分析時間更長。 最後在驗證過程中,我們分析其驗證成果也可以證明本研究所開發的臉書 粉絲頁超連結分析系統可以完整地分析臉書粉絲頁貼文,並且分析成果能以精 簡易懂的資料呈現方式提供給學者們進行研究分析使用。. 5.2 未來發展與建議 在本研究成果所發展出的臉書粉絲頁超連結分析系統中,兼具了粉絲頁貼 文資料分析以及精簡易懂的資料展示頁面,提供社會人文學者能操作本研究成 果系統來分析臉書粉絲頁貼文內容。雖在本研究驗證計畫中已證實本系統分析 資料的完整性,以及導入本研究所提出之概念能確實提升系統效率,但本研究 中仍有許多未竟之處,因此在本節中提中以下幾點建議事項,希望未來能朝以 下建議事項持續發展: 1. 分析內容擴充:目前分析項目包含了幾項基本分析和超連結網域的分析,除 了這些分析項目之外,還有許多其他分析項目可以加以擴充,如針對貼文發 表時間點的統計、針對貼文內容文字加以分析等等。 2. 彈性化的排程時段設計:就本研究目前針對排程工作的執行時間設計為一 天,但在有密集研究需求的議題之下,可能會出現需要更短時間就必須分析 一次的需求,也因此在排程工作的設計,可以再調整的更彈性化,以滿足更 多的使用者需求。 43.

(54) 3. 與蒐集系統完全整合:本研究中所用來分析的貼文資料是預先蒐集而來的粉 絲頁貼文資料,若能與臉書粉絲頁蒐集系統完全整合,勢必能提供使用者更 方便使用的分析系統。 4. 資料呈現擴充:目前本研究針對資料展示除以原始資料加上一些的整理呈現 之外,主要以統計圖表的方式呈現,若使用者有其他呈現方式的需求,如將 所有數據表格化以方便下載另行統計等,可以再針對使用者的需求加以擴 充。 以上是對於本研究未來發展的建議,在 Facebook 仍持續提供粉絲頁資料的 前提之下,本系統仍具有許多的潛在價值,若就本系統目前的分析成果範圍能 提供的研究成果仍有限,盼未來能更進一步的加值,並設計出能讓社會人文學 者更便於使用之臉書粉絲頁分析系統。. 44.

(55) 參考文獻 [1]. 創世紀雙周刊第二十一期 社群服務調查暨台灣社群相關網站使用概況: http://www.taaa.org.tw/userfiles/0923.pdf. [2]. 模範市調查公司(TNS). 2014. Facebook 台灣消費者線上行為調查: http://share.inside.com.tw/posts/5249. [3]. 鄭宇君(2014.07)。〈網址還原探勘技術於傳播研究之應用:解析 2012 台灣總統大選 Twitter 之新聞來源引用〉。中華傳播學會 2014 年 會,Panel:向運算轉,台北市,銘傳大學,2014 年 6 月 27 日。. [4]. Freelon, D. (2014). On the interpretation of digital trace data in communication and social computing research. Journal of Broadcasting & Electronic Media,58(1), 59-75.. [5]. The Like economy: Social buttons and the data-intensive web. Carolin Gerlitz, and Anne Helmond. New Media & Society 15(8):1348-1365 (2013). [6]. socialbakers:http://www.socialbakers.com/. [7]. fanpage karma:http://www.fanpagekarma.com/. [8]. Facebook Graph API:https://developers.facebook.com/docs/graph-api. [9]. Regular Expression Pattern Website:http://regexlib.com/. [10]. Oracle Corporation. MySQL:http://www.mysql.com/. [11]. Microsoft. ASP.Net:http://www.asp.net/. [12]. jQuery:http://jQuery.com/. [13]. AJAX:http://en.wikipedia.org/wiki/Ajax_(programming). [14]. Highcharts:http://www.highcharts.com/. [15]. Windows 工作排程器:https://technet.microsoft.com/zhtw/library/cc721931.aspx. 45.

(56)

參考文獻

相關文件

Key words: Virtual community, technology acceptance model, social network, word-of- mouth

最新的權威性的美國市調公司─鮑爾市場研究公司 J.D.Power. 1)

„ 傳統上市場上所採取集群分析方法,多 為「硬分類(Crisp partition)」,本研 究採用模糊集群鋰論來解決傳統的分群

實務上在應用 SPSS 軟體 run 完主 成分分析後,應該進一步進行因素 轉軸,在社會科學研究中,varimax 法為最常使用的,varimax

日本電信電話公社宣布,於 9 月 30 日起正式終止呼叫器(BB Call)的服務。日本 呼叫器服務從 1968 年起由電信電話公社開始提供,與當年台灣的

中國雲南有一群由 15 頭成員組成的象群,自 2020 年 3 月即離開位於自然保護 區的家向北方遷徙,2021 年 4 月中抵達有 260

認識多媒體服 務行業相關知 識、技能和職 場要求.. 聖雅各福群會

事實 1: 很多家庭暴力因為社會對受害人的支持不足,而使受害人沒有勇氣公