• 沒有找到結果。

第二章 文獻探討

2.1 S OCIAL M EDIA

2.1 Social Media

社交媒體(Social Media)7,又稱作社會化媒體、社會性媒體,是一種人與人彼 此用來分享意見、經驗、觀點的工具或平台,最早的起點源自於社交網路(Social Network Service ,SNS)8的電子郵件(E-mail),也是互聯網最早普及的應用,

接著 BBS 將「群發」、「轉發」的概念帶入,理論上的實現向所有人發布訊息的功 能,讓網路社交躍進了一大步。而即時訊息與博客(Blog)則是在其之後盛行的兩 種社交工具,緊接著就是近年發展蓬勃的 YouTube、Twitter、Facebook、

Instagram …等等。維基百科上定義,社交媒體與商業媒體(Industrial Media),

也就是傳統媒體不同,社交媒體透過互聯網技術與工具,以極低的成本在進行訊

7 資料來源:http://www.twword.com/wiki/%E7%A4%BE%E4%BA%A4%E5%AA%92%E9%AB%94

8 資料來源:http://www.twword.com/wiki/%E7%A4%BE%E4%BA%A4%E7%B6%B2%E8%B7%AF

該研究亦採用主成份分析(Principal Component Analysis)來降低資料維度,在 超過預測門檻值時會給予警告或提供專業協助的訊息,該結果具有 70%的精確 度。而 Jie Yin 等人則是提出了[28]對現實世界所發生的緊急情況進行分析,

以 Burst Detection、貼文過濾分類、線上分群、地理標記等方法獲取貼文中有 價值的訊息,即時了解危害影響相關之內容。其中在分群部分,採取的是傳統的 向量空間模型,以 TF-IDF 權重的方式來處理詞彙,並採用稀疏矩陣(Sparse Matrix)來處理分群演算法中動態變化的詞彙,最後以 F-measure 作為評估指 標。他們發現透過刪除 hashtag,「#」符號來處理標籤,將標籤內容作為詞彙,

可助於增加貼文中同一主題詞的頻率,進而提升分群效果,在本研究亦同意此觀 點,貼文處理上並未將標籤內容刪除,而是將標籤內容作為詞彙一同放入資料矩 陣中。與[28]相關的還有[31],以 Online indexing 的方式設計分群,目標與[28]

相同,其文中提及社交媒體的資訊對於緊急情況應變有著極大的潛力,透過分析

常見是利用社區偵測(Community Detection)的方法來進行分群,社區偵測是 2002 年由 Newman 所提出的「社區」概念[30],他們認為複雜的社群網路之間存 在著許多交互關係,「社區結構」是一個常見的特徵,整個網路是由無數個社區 所組成,而社區偵測即是藉由社區中成員彼此之間的這些交互關係來構成。如 [32]文中所舉出的 Blog 例子,與「可再生能源」主題相關的所有 Bloggers、文

成顯性與隱性兩種,顯性社區是根據人類的決定所創建的社區(Facebook 的 Friendship);隱性社區則是不需透過人,能夠透過社交媒體系統去找出的隱含 社區。

由於社區檢測的此種特性,許多的研究都將社區檢測應用於社交媒體上,除 了將其結果應用於各式智能服務外,也有以此概念進行資料探勘發現潛在資訊的 研究。在[33]研究中,是透過隨機遊走「Random Walks」的概念掃描節點,在隨 機拜訪相鄰節點的過程中組成社區結構,結構之中的成員可以被放置在一個或多 率很高,而[34]則提出利用 Single Linkage 的概念將事件紀錄進行連結分析,

這種方法是凝聚分層法(Agglomerative)的其中一種,概念是去考慮接近的兩群 之間是否有著高相似度的物件,在此篇文獻中針對各種算法做了比較,證實比起 [36]的方法更加的快速,然而在[35]中則提到,Single Linkage 的方式,可能 會 導 致 分 群 結 果 群 集 會 有 極 大 極 小 之 分 , 稱 為 所 謂 的 鏈 結 效 應 (chaining effect)[37]。

在 [38] 中 Ferrara1 等 人 提 出 了 一 個 Detecting Early Signatures of Persuasion in Information Cascades (DESPIC)的平台,內容分為兩個部分,

其一是對資訊進行分群的演算法,將資訊中的資料分群並找出其中的「Memes」,

式,以非監督式的方法來處理 Tweets message,從資訊中偵測出正確的模因,

並依據模因進行分群,接著再以第二部分的分類方法對模因進行分類。該研究亦 提及社交媒體之資料稀疏性質,在他們觀察 Twitter 中的推文時,注意到了和 [29]一樣的困難點,另外,除了[29]所提到的內文較短問題外,在這篇文獻也提 到了 Twitter 有著內文長度的限制,另外也提出有關 hashtag、URL、用戶標籤 (i.e @Jenny)、引用等等的問題,如表 2。

Hashtag 所標籤的內容,並不一定就是該貼文的主題,有時也會有各式不同的用 意;而 Mention 的部分,在臉書貼文上則已經以「超連結」的方式來取代「@」,

因此在分析上不需特別處理。[38]研究裡將以上這些內容稱之為「Protomemes」, 形容能夠進行組合的資訊,而研究中也表示,單以 Protomeme 作為重點依據有時 會過於籠統,應該加入其他簡單的描述,因此該研究提出了一個分群前的處理機 制將推文中的資訊依據上表的概念進行擷取,並視為一個個的 Protomeme,接著 計算這些 Protomeme 之間的相似度作為分群之依據。而本研究並不採用複雜的前 處理方法,而是將所有的字詞(Stop Word 除外)都視為等值,依據雙分群法針對

9 資料來源:https://zh.wikipedia.org/wiki/%E7%B6%B2%E8%B7%AF%E7%88%86%E7%B4%85

著高聚類係數(Clustering Coefficient)和資料間的平均距離短的問題,聚類 係數高代表社區結構強且複雜,無法輕易給予明確的定義。他們考量了許多研究 方法,像是 Newman 關於社區結構的研究,以及圖分割的概念,但這些方法應用 於此皆為 NP-hard,最後他們採取了 Dhillon 等人[15]將文件和字詞共同考量的 策略,將用戶與標籤建構成二分圖,與相比在計算上較不耗費時間。