S OCIAL M EDIA

第二章文獻探討

2.1 S OCIAL M EDIA

2.1 Social Media

社交媒體(Social Media)⁷，又稱作社會化媒體、社會性媒體，是一種人與人彼此用來分享意見、經驗、觀點的工具或平台，最早的起點源自於社交網路（Social Network Service ,SNS）⁸的電子郵件(E-mail)，也是互聯網最早普及的應用，

接著 BBS 將「群發」、「轉發」的概念帶入，理論上的實現向所有人發布訊息的功能，讓網路社交躍進了一大步。而即時訊息與博客(Blog)則是在其之後盛行的兩種社交工具，緊接著就是近年發展蓬勃的 YouTube、Twitter、Facebook、

Instagram …等等。維基百科上定義，社交媒體與商業媒體(Industrial Media)，

也就是傳統媒體不同，社交媒體透過互聯網技術與工具，以極低的成本在進行訊

7 資料來源：http://www.twword.com/wiki/%E7%A4%BE%E4%BA%A4%E5%AA%92%E9%AB%94

8 資料來源：http://www.twword.com/wiki/%E7%A4%BE%E4%BA%A4%E7%B6%B2%E8%B7%AF

‧

該研究亦採用主成份分析(Principal Component Analysis)來降低資料維度，在超過預測門檻值時會給予警告或提供專業協助的訊息，該結果具有 70%的精確度。而 Jie Yin 等人則是提出了[28]對現實世界所發生的緊急情況進行分析，

以 Burst Detection、貼文過濾分類、線上分群、地理標記等方法獲取貼文中有價值的訊息，即時了解危害影響相關之內容。其中在分群部分，採取的是傳統的向量空間模型，以 TF-IDF 權重的方式來處理詞彙，並採用稀疏矩陣(Sparse Matrix)來處理分群演算法中動態變化的詞彙，最後以 F-measure 作為評估指標。他們發現透過刪除 hashtag，「#」符號來處理標籤，將標籤內容作為詞彙，

可助於增加貼文中同一主題詞的頻率，進而提升分群效果，在本研究亦同意此觀點，貼文處理上並未將標籤內容刪除，而是將標籤內容作為詞彙一同放入資料矩陣中。與[28]相關的還有[31]，以 Online indexing 的方式設計分群，目標與[28]

相同，其文中提及社交媒體的資訊對於緊急情況應變有著極大的潛力，透過分析

常見是利用社區偵測(Community Detection)的方法來進行分群，社區偵測是 2002 年由 Newman 所提出的「社區」概念[30]，他們認為複雜的社群網路之間存在著許多交互關係，「社區結構」是一個常見的特徵，整個網路是由無數個社區所組成，而社區偵測即是藉由社區中成員彼此之間的這些交互關係來構成。如 [32]文中所舉出的 Blog 例子，與「可再生能源」主題相關的所有 Bloggers、文

‧

成顯性與隱性兩種，顯性社區是根據人類的決定所創建的社區（Facebook 的 Friendship）；隱性社區則是不需透過人，能夠透過社交媒體系統去找出的隱含社區。

由於社區檢測的此種特性，許多的研究都將社區檢測應用於社交媒體上，除了將其結果應用於各式智能服務外，也有以此概念進行資料探勘發現潛在資訊的研究。在[33]研究中，是透過隨機遊走「Random Walks」的概念掃描節點，在隨機拜訪相鄰節點的過程中組成社區結構，結構之中的成員可以被放置在一個或多率很高，而[34]則提出利用 Single Linkage 的概念將事件紀錄進行連結分析，

這種方法是凝聚分層法(Agglomerative)的其中一種，概念是去考慮接近的兩群之間是否有著高相似度的物件，在此篇文獻中針對各種算法做了比較，證實比起 [36]的方法更加的快速，然而在[35]中則提到，Single Linkage 的方式，可能會導致分群結果群集會有極大極小之分，稱為所謂的鏈結效應 (chaining effect)[37]。

在 [38] 中 Ferrara1 等人提出了一個 Detecting Early Signatures of Persuasion in Information Cascades (DESPIC)的平台，內容分為兩個部分，

其一是對資訊進行分群的演算法，將資訊中的資料分群並找出其中的「Memes」，

‧

式，以非監督式的方法來處理 Tweets message，從資訊中偵測出正確的模因，

並依據模因進行分群，接著再以第二部分的分類方法對模因進行分類。該研究亦提及社交媒體之資料稀疏性質，在他們觀察 Twitter 中的推文時，注意到了和 [29]一樣的困難點，另外，除了[29]所提到的內文較短問題外，在這篇文獻也提到了 Twitter 有著內文長度的限制，另外也提出有關 hashtag、URL、用戶標籤 (i.e @Jenny)、引用等等的問題，如表 2。

Hashtag 所標籤的內容，並不一定就是該貼文的主題，有時也會有各式不同的用意；而 Mention 的部分，在臉書貼文上則已經以「超連結」的方式來取代「@」，

因此在分析上不需特別處理。[38]研究裡將以上這些內容稱之為「Protomemes」，形容能夠進行組合的資訊，而研究中也表示，單以 Protomeme 作為重點依據有時會過於籠統，應該加入其他簡單的描述，因此該研究提出了一個分群前的處理機制將推文中的資訊依據上表的概念進行擷取，並視為一個個的 Protomeme，接著計算這些 Protomeme 之間的相似度作為分群之依據。而本研究並不採用複雜的前處理方法，而是將所有的字詞(Stop Word 除外)都視為等值，依據雙分群法針對

9 資料來源：https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%86%E7%B4%85

‧

著高聚類係數（Clustering Coefficient）和資料間的平均距離短的問題，聚類係數高代表社區結構強且複雜，無法輕易給予明確的定義。他們考量了許多研究方法，像是 Newman 關於社區結構的研究，以及圖分割的概念，但這些方法應用於此皆為 NP-hard，最後他們採取了 Dhillon 等人[15]將文件和字詞共同考量的策略，將用戶與標籤建構成二分圖，與相比在計算上較不耗費時間。

在文檔中結合中文斷詞系統與雙分群演算法於音樂相關臉書粉絲團之分析：以KKBOX為例 - 政大學術集成 (頁 20-24)

第二章 文獻探討

2.1 S OCIAL M EDIA

‧

‧

‧

‧

第二章文獻探討