• 沒有找到結果。

第三章 系統設計與架構

3.3 排程資料處理機制設計與實作

3.3.2 機制設計與實作

為解決前一小節提到的已解析過的粉絲頁貼文重複進行超連結解析的議 題,本研究設計出一套「排程資料處理機制」以改善避免此狀況的產生。其機 制的設計理念在於,設計一個資料表 linkjobs,用來儲存已解析過的貼文編號以 及貼文蒐集時間,每次執行排程工作的時候都會檢查此資料表,若貼文蒐集時 間未更新就不再次解析該則貼文,若貼文蒐集時間有更新或是沒有解析過的記 錄的話,才會進行解析,流程簡圖如圖 3-15,其優點說明如下:

節省整體解析時間:因可能有粉絲頁貼文重複解析,在原本的解析方式之 下假設 P 個專案中都有設定同個粉絲頁且設定了重複的蒐集時間,那在解析過 程中就必須解析 P 次的資料,而反之若以粉絲頁貼文為蒐集基礎,不論幾個專 案都設定了該粉絲頁,解析過程中最多僅會解析 1 次,若該則貼文已解析過的 話就不會再解析,所以花費時間會更少!因此可以證明解析時間ㄧ定會優於原 始的解析時間。

圖 3-15 排程資料處理機制流程圖

24

25

分析組為臉書粉絲頁超連結分析系統;對照分析組為未導入排程資料處理機制 的分析系統),兩組之間的差異如下表 4-1 所示;此外,為能驗證排程資料處理 機制對分析系統所產生的效益是否符合我們設計時的期望,因此必須模擬部分 貼文資料已分析的狀況:

表 4-1 專案分析組及對照分析組差異表

專案分析組 對照分析組

分析狀況 判斷若未執行過分析的貼文 才做(排程資料處理機制)

所有貼文皆分析

除上表之差異以外,其他則為我們的控制變因,控制項目如下列:

1. 專案:專案分析組及對照分析組的粉絲頁貼文以及內容皆相同。

2. 粉絲頁貼文數量:本驗證計畫設定幾種情況,詳細狀況如 4.2.2 節所述。

3. 硬體及網路配置:使用個人 PC 期規格為 Win8 作業系統、i5CPU、4G 記憶 體以及 500GB 的硬碟,網路則為 3G 行動網路。

4. Visual Studio C#:Microsoft Visual Studio 2013。

5. 資料庫:MySQL 5.6

在設定完驗證計畫的前置作業及蒐集完粉絲頁貼文資料等,隨即開始執行 驗證計畫,圖 4-1 為驗證計畫流程。

26

圖 4-1 驗證計畫流程

在驗證結束後,我們將驗證期間內的分析記錄完整保存,進行後續的分析 與評估。

4.1.2 評估方法

本驗證計畫之評估方法,主要是以貼文數量、貼文內容所夾雜的超連結和 分享超連結數以隨機擷取之貼文做數量及內容比對,並觀察專案分析組及對照 分析組分析所花費的時間與分析過程中的穩定性。

因每個粉絲頁的貼文筆數甚多,當中包含的超連結數量也很多,所以在驗 證超連結資料的時候,我們採用所有分析粉絲頁中的 10 個粉絲頁中隨機選取的 部分貼文來比對連結資料正確性,並採取單日的貼文種類以及網域資料來比對 前端呈現圖表是否正確。結論是,透過觀察貼文中內含的超連結資料、單日的 貼文種類以及網域資料,我們可以經由這三個面相來驗證資料的完整性。

27 3 240170506141170 沃草!(Watchout) 359 4 119282744754924 Taiwan Association for Human Rights

台灣人權促進會

228

5 722825317762908 台大法律學生挺 318 128 6 145510498819475 台灣守護民主平台 101 7 1415446228712676 One More Story 公民路 92 8 248848828633500 Appendectomy Project 割闌尾計畫 77

28

9 325874310840688 [我是學生,我反旺中] 反媒體巨獸 青年聯盟

51

10 384162281712780 公民覺醒:Big Citizen Is Watching You

37

我們可以先初步整理貼文資料各分類數量和百分比以供前端頁面呈現時使 用,所有分類包含 Photo、Link、Status、Video、Event、Note、Offer,粉絲頁 編號則沿用表 4-2 中的編號,貼文分類數量及百分比如下表 4-3 和表 4-4:

29

以編號 10 的粉絲頁「公民覺醒:Big Citizen Is Watching You」為例,先逐 一觀察含有超連結的貼文及其超連結的網域數量,總計共有 37 則貼文,其中 21 則含有超連結,超連結數共有 38 個,整理如下表 4-5:

表 4-5 粉絲頁「公民覺醒:Big Citizen Is Watching You」的貼文連結資料

貼文編號 網域 數量

384162281712780_481436821985325

www.facebook.com 2 www.youtube.com 2 linoit.com 1 drive.google.com 1

384162281712780_481018672027140

www.facebook.com 1 docs.google.com 1

384162281712780_480725755389765

billy3321.github.io 2 www.youtube.com 2

384162281712780_476679339127740

news.ltn.com.tw 1 www.slideshare.net 1 384162281712780_471889396273401 www.facebook.com 1

30

384162281712780_471522732976734 www.appledaily.com.tw 1

384162281712780_471341689661505

www.nownews.com 1 www.appledaily.com.tw 1 384162281712780_467216753407332 www.youtube.com 1 384162281712780_467019243427083 docs.google.com 1 384162281712780_10203257361291793 billy3321.github.io 1 384162281712780_10203253407032939 www.facebook.com 1 384162281712780_10203225782182335 www.facebook.com 1

384162281712780_10200897242273628

disp.cc 1

www.facebook.com 2 www.youtube.com 4 384162281712780_10200896485174701 www.facebook.com 1 384162281712780_10200896157566511 www.facebook.com 1 384162281712780_10200896147246253 www.facebook.com 1 384162281712780_10200896141286104 www.facebook.com 1 384162281712780_10200888908665293 www.facebook.com 1 384162281712780_10200842027013281 www.youtube.com 1 384162281712780_10200836874804479 www.youtube.com 1 384162281712780_10200823461909165 www.appledaily.com.tw 1 總計 38

將上表 4-5 以網域的數量自行加以彙整統計,與系統匯出的網域清單數據 相吻合,以此可以驗證擷取分析的超連結數量正確,系統匯出的網域清單如下 表 4-6:

31

表 4-6 粉絲頁「公民覺醒:Big Citizen Is Watching You」的網域清單

# 網域 名稱 引用次數 佔整體 URL

11 www.slideshare.net Slideshare 1 2.63%

另外針對被引用最多的 Facebook 網域,再作進一步分析發現,13 次引用次 數當中包含了 Facebook 活動頁面(7 次皆為 3/30 凱達格蘭大道遊行活動頁面)

以及其他粉絲頁貼文(共 6 次,各為「反黑箱服貿協議」2 次、「Mockingbird 仿聲鳥快閃」2 次、「黑色島國青年陣線」1 次、「反服貿-高中職不缺席」1 次)。

另外驗證每日網域的數量圖,系統產生的圖表如下圖 4-2:

32

圖 4-2 每日使用網域數量圖

採用網域數量最多的一天(2014/3/29)來驗證資料正確性,根據圖 4-2 顯示,

當天 Facebook 的連結共有 7 個、Youtube 的連結共有 4 個、Disp BBS 的連結共 有 1 個,根據表 4-2 當中所觀察到含有連結的貼文中,發表日期為 2014/03/29 的共有 6 則貼文如下表 4-7,當中的連結資料與圖表的相吻合。

表 4-7 粉絲頁「公民覺醒:Big Citizen Is Watching You」2014/3/29 的貼文連結 資料

貼文編號 網域 數量

384162281712780_471889396273401 www.facebook.com 1

384162281712780_10200897242273628

disp.cc 1

www.facebook.com 2 www.youtube.com 4 384162281712780_10200896485174701 www.facebook.com 1 384162281712780_10200896157566511 www.facebook.com 1 384162281712780_10200896147246253 www.facebook.com 1

33

384162281712780_10200896141286104 www.facebook.com 1 總計 12 接下來驗證使用網域相關的統計圖─分享統計值、留言統計值和按讚統計 值。首先逐一計算貼文的分享數、留言數和按讚數以及各項統計值,包括平均 值和標準差,可得統計數據如下表 4-8:

表 4-8 粉絲頁「公民覺醒:Big Citizen Is Watching You」Google Doc 的貼文列表 統計值

貼文編號 分享數 留言數 按讚數

384162281712780_467019243427083 2505 134 2718 384162281712780_481018672027140 0 3 332

總計 2505 137 3050 平均值(μ) 1252.5 68.5 1525 標準差(σ) 1252.5 65.5 1193 μ+σ 2505 134 2718 μ-σ 0 3 332

並逐一比對系統所產生的使用網域分享統計值圖(如圖 4-3)、使用網域留言 統計值圖(如圖 4-4)和使用網域按讚統計值圖(如圖 4-5),兩邊數據都吻合。

34

圖 4-3 使用網域分享統計值圖

圖 4-4 使用網域留言統計值圖

圖 4-5 使用網域按讚統計值圖

35

綜合以上的資料筆數確認以及超連結網域資料內容的檢查作業後,我們可 以驗證本研究設計實作之臉書粉絲頁超連結分析系統在分析臉書粉絲頁貼文上 是有一定程度的準確度。

4.2.2 導入

排程資料處理

與未導入機制間差異分析

在本研究中運用了排程資料處理機制,目的在於能有效縮短分析時間,在 分析過程中,判斷此貼文已分析過或比對貼文最新更新時間未變動的話,就不 再執行分析作業,實際運行測試分析時間差距跟貼文數量以及內含連結數量相 關,若越多內含多個連結的貼文則分析時間越長,若預先判斷則可節省時間。

以下表 4-9 為專案分析組(皆已分析無須重新分析)和對照分析組(全部貼文皆重 新分析)實際運行包含不同數量連結的貼文分析所需的時間。

表 4-9 參與者蒐集組及專案蒐集組蒐集花費時間

貼文數 內含連結數 專案分析組(sec) 對照分析組(sec)

22 12 0.26 25.30

497 27 1.9 116.41

92 64 0.4 120.41

由表 4-9 我們可發現在本驗證計畫下,導入排程資料處理機制後的分析時 間比未導入該機制的分析時間快,依照貼文和連結數量會有運算時間上的不 同,因此可以證實導入排程資料處理機制來分析超連結可以明顯降低分析時 間,提高系統的效率。

36

4.3 分析成果展示畫面

在前面章節主要為驗證臉書粉絲頁超連結分析系統的穩定性以及資料的正 確性等。而本節主要為展示本次驗證計畫後,後續將介紹本系統分析資料之成 果展示頁面,並以粉絲頁「黑色島國青年陣線」為例完整介紹。

首頁:預設由臉書粉絲頁蒐集專案的畫面中點選某一粉絲頁,連結至本系 統的首頁如下圖 4-6,標題會顯示點選的粉絲頁名稱,並顯示蒐集專案的名稱 (例如:黑島青、反黑箱服貿)和蒐集時間(例如:2014/03/11 至 2014/04/17)。畫 面預設會顯示該粉絲頁蒐集期間內的貼文清單,畫面中共有 5 個頁籤,包括貼 文清單、基本統計、依內容統計、網域清單、依網域統計。

圖 4-6 驗證計畫中的粉絲頁「黑色島國青年陣線」首頁

貼文清單:點選第一頁籤即為「貼文清單」,字串較長的欄位如 Post message 和 Story 預設只顯示一行,游標移至該欄位才會顯示完整內容,如下圖 4-7。

37

圖 4-7 貼文清單

基本統計:點選第二頁籤即為「基本統計」,包含了「每日/累計貼文數 量」圖表,游標移至某日期的點會顯示當日或累計的貼文數量、分享數量、留 言數量和按讚數量,如下圖 4-8 所示:

圖 4-8「每日/累計貼文數量」圖表

依內容統計:點選第三頁籤即為「依內容統計」,包含了「貼文分類比 例」和「貼文分類每日數量」圖表,游標移至某區塊或點會顯示詳細的貼文數 量,如下圖 4-9 和圖 4-10。

38

圖 4-9 依內容統計

圖 4-10「貼文分類每日數量」圖

網域清單:點選第四頁籤即為「網域清單」,顯示網域清單列表及百分 比,如下圖 4-11 網域清單。

39

圖 4-11 網域清單

依網域統計:點選第五頁籤即為「依網域統計」,使用者可依照網域排名 數和出現次數過濾顯示依網域統計的圖表,如下圖 4-12 依網域統計。此頁籤包 含了「使用網域比例」圖、「每日使用網域數量」圖、「使用網域的分享統計 值」圖、「使用網域的留言統計值」圖和「使用網域的按讚統計值」圖。游標 移至圖上某區塊或點可以顯示詳細數量或統計值資訊,依序如圖 13、圖 4-14、圖 4-15、圖 4-16、圖 4-17。

圖 4-12 依網域統計

40

圖 4-13「使用網域比例」圖

圖 4-14「每日使用網域數量」圖

41

圖 4-15「使用網域的分享統計值」圖

圖 4-16「使用網域的留言統計值」圖

42

圖 4-17「使用網域的按讚統計值」圖

以上為臉書粉絲頁超連結分析系統的資料展示成果,但就目前的成果展示 頁面應可以輔助社會人文學者進行分析粉絲頁超連結以及檢視粉絲頁分析統計 成果。

43

44

3. 與蒐集系統完全整合:本研究中所用來分析的貼文資料是預先蒐集而來的粉

3. 與蒐集系統完全整合:本研究中所用來分析的貼文資料是預先蒐集而來的粉

相關文件