• 沒有找到結果。

超連結分析相關研究

第二章 技術背景與相關研究

2.5 超連結分析相關研究

在「網址還原探勘技術於傳播研究之應用:解析2012台灣總統大選Twitter 之新聞來源引用」的研究中[3],開發了社交媒體之探勘技術,透過資訊科技與 傳播研究結合,探討於Twitter上在2012台灣總統大選期間對於新聞來源之引 用。本研究參考其分析Twitter上超連結的方式,運用在臉書粉絲頁貼文中的超 連結分析。

12

第三章 系統設計與架構

3.1 系統設計原則

本研究之目的主要為了提供社會人文學者一個能分析 Facebook 粉絲頁貼文 內容的輔助系統,因此在系統設計時,除了必須考量到分析資料的穩定性及系 統效能之外,學者們的使用行為也須一併考量,才能讓本研究成果系統更貼近 學者們的使用需求。另外為考量本研究成果系統後續維護修改等議題,在程式 架構上必須也要著重於擴充性、延展性等,因此本系統的設計原則共有下列幾 點:

1. 前端操作頁面主要作為 Client 端使用者與系統間互動的圖形化介面,而後端 超連結擷取還原作業則為自動排程架構,兩者皆可獨立執行,並以資料庫資 料作為溝通的管道,其架構如下圖 3-1 臉書粉絲頁超連結分析系統架構。

圖 3- 1 臉書粉絲頁超連結分析系統架構

2. 簡化前端頁面操作流程,讓使用者能夠快速地熟悉應用本研究成果之系統。

13

3. 超連結擷取還原作業以工作排程方式採獨立進行,以定期檢查的方式來確保 資料的完整性,而每次作業間的資料軌跡都有另作紀錄,可作為日後觀察使 用。

4. 分析成果以圖形化介面方式展現,除了基本原始資料呈現,對於未來有可能 新增其他不同項目的分析成果也保留有擴充性。

臉書粉絲頁超連結分析系統技術架構如下圖 3-2 臉書粉絲頁超連結分析系 統技術架構,基於此架構,本研究總共開發出三個主要的功能模組,並由這三 個模組組成臉書粉絲頁超連結分析系統,模組架構圖如圖 3-3。

圖 3-2 臉書粉絲頁超連結分析系統技術架構

14

圖 3-3 臉書粉絲頁超連結分析系統模組架構

3.1.1 資料處理模組

本系統所取得的 Facebook 粉絲頁貼文資料是由 Facebook 粉絲頁資料蒐集 系統所取得,從資料庫讀取已取得的貼文資料後接下來就進入資料處理模組,

進行超連結擷取、短網址還原以及連結網域資料儲存,共三項工作。

超連結擷取:因為由 Facebook 粉絲頁資料蒐集系統透過 Graph API 所取得 的貼文資料中含有超連結資訊的有兩個欄位-連結(link)與訊息(message),當中 訊息欄位中可能包含許多其他文字,所以需使用正規表示式擷取訊息中所包含 的超連結。

短網址還原:擷取出來的超連結可能為原始網址亦或是短網址,短網址就 需要進一步做還原的動作已取得原始網址。還原的方式為發送 HttpRequest,取 得回應中所含的 location 欄位即為原始網址。

連結網域資料儲存:前兩個步驟結束後可以取得原始網址,再由原始網址 中取出網址的網域並儲存。

15

在表格方式呈現部分,主要是透過 HTML、CSS 以及 Javascript,同時搭 配.NetFramework 提供的 Data Source 資料來源控制項,使得資料可以直接由資 料庫查出並呈現,整體使用方式更為簡便,同時也有多樣化的事件處理,可以 讓我們在呈現原始資料時能更貼近系統使用者需求。因此我們在設計部分,僅 需要著墨於資料呈現的議題,在本研究中,我們將所有原始資料稍做整理,較 為重要的欄位才顯示於表格中,其中文字內容較長的欄位則簡短呈現。以下圖 3-5 貼文資料為例,我們將重要資訊如「種類(Type)」、「按讚數(Likes)」16

「貼文時間(Created Time)」等訊息放置於主畫面表格中,而相對內容較長或較 複雜資料內容部分則另以縮短文字、游標移至該欄位才會秀出全部訊息的方式 呈現,如「貼文訊息(Post message)」、「生活故事(Story)」等,以及將「連結 (Link)」欄位依照不同的貼文種類用 Facebook 預設的小圖示呈現,用來代表不

16按讚數:是用來表示網友對發文者的表態,發文者可以是個人、社團、公司、與粉絲專頁。

利用「讚」按鈕網友們對該頁面進行讚賞及表態。而其總數稱為按讚數。

16

17

Likes 按讚數

圖 3-6 網域資料呈現示意圖

表 3-2 網域清單欄位表

欄位名稱 欄位說明

# 序號

網域 網域網址

名稱 網域名稱描述

引用次數 該網域引用次數

佔整體 URL 數量之% (該網域引用次數/全部超連結數)*100%

而另一部分則是將統計分析過後的資料,分別在不同的頁簽中顯示,目前 分為三個頁簽「基本統計」、「依內容統計」和「依網域統計」。

「基本統計」頁簽包含了「每日/累計貼文數量」,依照日期顯示當日的貼 文數量,並且游標移至該點時會顯示當日/累計的分享數、留言數和按讚數量,

如下圖 3-7 所示。

18

圖 3-7 基本統計-每日/累計貼文數量資料呈現示意圖

「依內容統計」頁簽包含了「貼文分類比例統計」和「每日貼文分類數量 統計」。「貼文分類比例統計」依照貼文種類(Type)統計各分類貼文所佔的比 例,並且游標移至該分類時會顯示該分類貼文的實際數量與全部貼文的數量,

目前有的分類為 Photo、Link、Status、Video、Offer、Event 以及 Note,如下圖 3-8 所示。「每日貼文分類數量統計」依照貼文種類統計各分類貼文每日的數 量,並且游標移至該點時會顯示該分類貼文當日的數量,如下圖 3-9 所示。

圖 3-8 依內容統計-貼文分類比例統計呈現示意圖

19

圖 3- 9 依內容統計-每日貼文分類數量統計呈現示意圖

「依網域統計」頁簽可依名次和引用次數篩選網域,預設為前九大網域,

其餘的網域會加總顯示於 Others。統計圖表包含了「連結網域統計」、「每日 連結網域統計」、「使用網域的分享統計值」、「使用網域的留言統計值」和

「使用網域的按讚統計值」。「連結網域統計」依照網域引用次數統計各網域 所佔的比例,並且游標移至該網域時會顯示該網域的實際引用次數與百分比,

如下圖 3-10 所示。「每日連結網域統計」依照網域統計各網域每日的數量,並 且游標移至該點時會顯示該網域當日出現的數量,如下圖 3-11 所示。「使用網 域的分享統計值」(如圖 3-12 所示)、「使用網域的留言統計值」(如圖 3-13 所 示)和「使用網域的按讚統計值」(如圖 3-14 所示) 分別會顯示貼出該網域的貼文 所獲得的分享數、留言數、按讚數的各個統計值,游標移上該網域分別會顯示 貼出該網域的貼文所獲得的分享數、留言數、按讚數量的最大值(Max)、平均值 (μ)、最小值(Min)、平均值(μ)±標準差(σ),水平紅線則顯示所有網域的分享數、

留言數、按讚數量的平均值。

圖 3- 10 依網域統計-連結網域統計呈現示意圖

20

圖 3- 11 依網域統計-每日連結網域統計呈現示意圖

圖 3-12 依網域統計-使用網域的分享統計值呈現示意圖

圖 3-13 依網域統計-使用網域的留言統計值呈現示意圖

21

圖 3-14 依網域統計-使用網域的按讚統計值呈現示意圖

而因目前本系統為保留資料主題的擴充性,在規劃設計之時,將所有呈現 畫面依照不同主題分類,意即日後若針對新的主題做分析時亦可輕易擴充版 面。

3.2 資料儲存機制設計

擷取並還原超連結完成後的資料,系統會將其儲存至系統資料庫中,以及 相關的工作排程紀錄等也都ㄧ併存放於系統資料庫中,因此資料庫在本研究成 果系統中扮演著不可或缺的重要角色。而在資料庫的議題中,除了資料表的設 計必須符合系統之應用外,對於本研究所分析完成的資料必須能夠穩定保存及 查詢使用;此外在每日排程的超連結擷取還原作業中,會判斷已解析過的貼文 若沒變動的話,就不會重新解析,根據這樣的特性也設計了一套資料儲存表以 供使用。

3.2.1 資料表設計

在資料表的設計部分,本研究所使用的資料表如下表 3-3 所示,主要用來 儲存解析完成的超連結網域資料,以及其與貼文之間的關聯表。另外設計有記

22

23

貼文中擷取出來的超連結送 HttpRequest,並讀取回傳值,若貼文中包含多個超 連結且同則貼文重複解析,就會在此一步驟耗費過多時間。

因此我們需要設計一個機制來有效預防上述的狀況的發生,為減少超連結 解析運算時間,此類的問題必須審慎思考並設計改善。

3.3.2 機制設計與實作

為解決前一小節提到的已解析過的粉絲頁貼文重複進行超連結解析的議 題,本研究設計出一套「排程資料處理機制」以改善避免此狀況的產生。其機 制的設計理念在於,設計一個資料表 linkjobs,用來儲存已解析過的貼文編號以 及貼文蒐集時間,每次執行排程工作的時候都會檢查此資料表,若貼文蒐集時 間未更新就不再次解析該則貼文,若貼文蒐集時間有更新或是沒有解析過的記 錄的話,才會進行解析,流程簡圖如圖 3-15,其優點說明如下:

節省整體解析時間:因可能有粉絲頁貼文重複解析,在原本的解析方式之 下假設 P 個專案中都有設定同個粉絲頁且設定了重複的蒐集時間,那在解析過 程中就必須解析 P 次的資料,而反之若以粉絲頁貼文為蒐集基礎,不論幾個專 案都設定了該粉絲頁,解析過程中最多僅會解析 1 次,若該則貼文已解析過的 話就不會再解析,所以花費時間會更少!因此可以證明解析時間ㄧ定會優於原 始的解析時間。

圖 3-15 排程資料處理機制流程圖

24

25

分析組為臉書粉絲頁超連結分析系統;對照分析組為未導入排程資料處理機制 的分析系統),兩組之間的差異如下表 4-1 所示;此外,為能驗證排程資料處理 機制對分析系統所產生的效益是否符合我們設計時的期望,因此必須模擬部分 貼文資料已分析的狀況:

分析組為臉書粉絲頁超連結分析系統;對照分析組為未導入排程資料處理機制 的分析系統),兩組之間的差異如下表 4-1 所示;此外,為能驗證排程資料處理 機制對分析系統所產生的效益是否符合我們設計時的期望,因此必須模擬部分 貼文資料已分析的狀況:

相關文件