第二章 相關研究與技術背景
2.1 社群媒體資料特徵
為主,資料來源為輔。相較於 Twitter, Facebook 等社交網絡平台,以用戶做為訊 息流動的主要節點,批踢踢 BBS 站的形式則接近傳統的網路論壇,用戶必須到一
在個人檔案中用來分析的最重要欄位,包括用戶帳號(user id,以@user 表 示,不可更改)、用戶名稱(screen names,可編輯)、用戶描述,研究者可從這些 資料來判斷該用戶的身份;其餘欄位用戶的追蹤人數(following)、追蹤者人數 (followers)則可用來瞭解用戶與社群的互動關係,甚至可進一步收集該用戶的 following/ follower 清單,以建立用戶之間的社會網絡關係,但這二個數目卻會隨 時變化,每一刻鐘都可能新增或減少人數。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2-1 Twitter 個人檔案頁面
其次,在 Twitter 上,一則貼文(tweet)的結構,如圖 2-2,主要為貼文本文,
當中內含主題標籤(hashtag)、超連結(hyperlinks)等延伸資訊。用戶與其他用戶的 互動也都具體包含在一則推文之中,除了原創貼文之外,若該則貼文是轉推(分 享)自其他用戶的貼文,則會顯示 RT 在貼文句首,若用戶在該則貼文內與其他用 戶對話,則可直接用 reply 表示,則在內文中會出現@User 的標示。
圖 2-2 一則推文 Tweet 的結構
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2.1.2 Facebook 資料結構特徵
本系統的 Facebook 資料來源,是 Facebook Page(粉絲頁)的公開資料,以下 即以粉絲頁的資料結構特徵為例說明,由於 Facebook 更強調社交互動,在用戶 檔案界面上的設計更加豐富多元,如圖 2-3。
圖 2-3 Facebook page 用戶檔案界面
圖 2-3 呈現了 Facebook 粉絲頁檔案中用來分析的最重要欄位,包括用戶帳 號(user id,不可更改)、用戶名稱(screen names,可編輯)、粉絲頁類型、用戶描 述,研究者可從 API 取得這些資料。
另外,Facebook 的貼文互動結構則比 Twitter 複雜,Twitter 將用戶的互動水 平呈現在貼文內容裡,但 Facebook 用貼文互動則是階層化,每一則貼文本身具 有三個數字指標:按讚數、分享數、留言數,這三個指標可以反應這則貼文引起 的用戶投入度(user engagement),而具體的貼文互動內容最多可包含三層內容:
貼文(post)評論(comment)回應(reply),每一層內容都包含了發言者名稱與內
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
容(文字、圖片),留言也可以有按讚數為依據。Facebook 的貼文互動結構,如圖 2-4 所示。
圖 2-4 Facebook 貼文互動結構
2.1.3 批踢踢 BBS
根據《數位時代》的最新報導,批踢踢實業坊簡稱 PTT,目前有超過 2 萬個 分類看板,每天有超過 2 萬篇文章更新,從八卦、娛樂、運動、政治、文學、旅 遊等各種主題皆有,註冊帳號約有 150 萬,尖峰時段有 15 萬人同時在線,年齡 集中在 18~35 歲,是台灣最有影響力的網路社群。以最熱門的八卦版為例,它 是台灣鄉民爆料的主要地方,PTT 的版面結構,如圖 2-5 所示。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2-5 PTT 的版面結構
從圖 2-5 來看,PTT 的版面上有每則貼文的發文標題、作者 id、發言時間,
以及每則貼文獲得回應數目,每則貼文的回應又可分為「推」(正面回應)與
「噓」(負面反應),因此一則貼文及回應的結構可參見圖 2-6。
圖 2-6 PTT 貼文與回應之結構
‧
(source name)、新聞標題(news title)、發佈時間(time)、新聞內文(news content)、該則新聞超連結(link)。即時新聞資料收集平台的設計,在概念上類
1、資料平台類型:Twitter, Facebook, 批踢踢、即時新聞
2、用戶類型:一般個人帳號、個人粉絲頁、媒體帳號、機構或組織帳號 3、貼文類型:標題、貼文內容(文字、圖像、影片、超連結)
4、背景資料:時間資料、地理位置資料、使用載具等後設資料
由於 Twitter、Facebook、批踢踢 PTT、即時新聞的資料欄位差異很大,且 Twitter、Facebook 是依據特定事件或主題才收集的資料集,如:太陽花學運、
2016 總統大選等,而批踢踢 PTT、即時新聞則是自某一個時間點開始持續收集特 定版面(如:八卦版)或特定媒體來源(如:蘋果日報)發送的所有內容,這二種類 型的資料集屬性差異頗大。為了建立跨平台的資料查詢機制,根據目前所收集四