Facebook、Twitter 無論是社群群體互動或商業應用都扮演著舉足輕重的角色。
另根據亞馬遜子公司,Alexa3最新調查,顯示台灣網站流量排名第 3 名為
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
報)發送的所有內容,資料區分類型如圖 1-1 所示,這些資料的格式與特性差異 極大且檢索資料不易,因此本研究目的為建置出一套依社群媒體資料特徵為主要 查詢條件的跨平台社群媒體檢索系統,透過改善中文斷詞的檢索機制、資料關聯 階層儲存機制、視覺化關聯式資料展示等等來檢索及呈現這些鉅量的社群媒體及 新聞類資料。
圖 1-1 收集資料區分類型
在本研究實際設計一個可以對不同社群媒體進行關鍵字詞圖文檢索功能的一 個跨平台社群媒體圖文檢索系統。並改善目前數位人文研究學者在分別收集完各 種的社群媒體及即時新聞資料以後,所產生的一些問題。1、資料儲存分散,不 易管理;2、無整合檢索介面;3、無跨平台資料統計分析;4、不易展示圖文關 係。希望透過建立一套跨平台社群媒體資料查詢機制,將上述問題一一解決。而
‧
檢索系統關鍵性的成敗因素是在於 Search Engine 的選擇,我們選擇
Elasticsearch6,藉由它來斷詞、建立 index、檢索,使用者可透過相關的關鍵字 詞可以至各社群媒體平台進行鉅量資料的搜尋功能,並以視覺化的功能展示其搜 尋結果。我們所收集到的各社群媒體資料,大致可以根據以下四個類型的資料特 徵來建立查詢條件:
1、資料平台類型:Twitter, Facebook, 批踢踢、即時新聞
2、用戶類型:一般個人帳號、個人粉絲頁、媒體帳號、機構或組織帳號 3、貼文類型:標題、貼文內容(文字、圖像、影片、超連結)
4、背景資料:時間資料、地理位置資料、使用載具等後設資料
要在複雜的 Facebook、Twitter 社群媒體網絡中找出貼文和留言的關聯性、
貼文和圖片的關聯性,我們選擇透過 Elasticsearch 中的 Parent-Child Relationshop 功能達成在 NoSQL 中需要有關聯性的需求。在使用者管理機制方面,為了讓不 擎,基於 RESTful web 接口。Elasticsearch 是用 Java 開發的,並作為 Apache 許可條款下的開放源
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
可照依第一次搜尋的結果,再次的縮小範圍搜尋;3、跨平台貼文與圖片關聯式查 詢;4、跨平台貼文與留言雙向關聯式查詢;5、跨平台社群媒體數據視覺化呈現。
1.5 論文大綱
本論文主要分為五個章節,第一章緒論,其內容為介紹本論文研究的由來與 研究成果,包含研究背景、研究動機、研究目的、研究成果及論文大綱;第二 章,介紹實作系統開發設計所使用的相關研究與技術背景;第三章,說明我們研 究的系統設計架構理念;第四章說明我們系統的實作成果與驗證結果;最後,於 第五章提出本論文的結論與未來可能的發展。
‧
為主,資料來源為輔。相較於 Twitter, Facebook 等社交網絡平台,以用戶做為訊 息流動的主要節點,批踢踢 BBS 站的形式則接近傳統的網路論壇,用戶必須到一在個人檔案中用來分析的最重要欄位,包括用戶帳號(user id,以@user 表 示,不可更改)、用戶名稱(screen names,可編輯)、用戶描述,研究者可從這些 資料來判斷該用戶的身份;其餘欄位用戶的追蹤人數(following)、追蹤者人數 (followers)則可用來瞭解用戶與社群的互動關係,甚至可進一步收集該用戶的 following/ follower 清單,以建立用戶之間的社會網絡關係,但這二個數目卻會隨 時變化,每一刻鐘都可能新增或減少人數。