• 沒有找到結果。

第一章 緒論

1-1 研究動機

在 Web 2.0 的時代,部落格的發達讓使用者可以很容易的發表自己的意見,

與朋友及網友產生互動,Facebook 以及微網誌更拉近了個人及朋友之間的距離。

微網誌(micro-blogging)是一個最近很熱門的社交網路平台,使用者可以加 入朋友並能擁有自己的粉絲,或訂閱名人或專家的微網誌文章來獲得資訊。微網 誌使用者在發表文章後,好友及粉絲都可以立即看到文章內容並且能進行回覆,

和傳統部落格需要透過直接連結才能看到使用者文章相比,微網誌使用者可以更 即時的看到其他使用者的文章內容且可以很容易的進行互動。

微網誌和部落格最不一樣的特性在於部落格上的使用者可能會需要花費較 多的時間準備文章內容來經營部落格,而微網誌則相反,微網誌有 140 字的字數 限制,使用者不用再長篇大論,所以微網誌使用者可以輕鬆地與好友分享心情、

興趣、建立自己的社群等。微網誌的代表性網站是 Twitter、Plurk、Yahoo! meme、

無名小站 Digu 等。

一個微網誌使用者發表的文章內容通常是使用者有興趣的主題,而且使用者 也會跟興趣相似的使用者有更密切的互動。但由於微網誌的字數限制,每一篇文 章的長度都很短,也增加分析微網誌文章主題內容的難度,因此我們將微網誌文 章的回覆內容也視為該篇文章的討論主題。

2

因此本研究的目的希望由使用者文章及文章回覆內容探勘出一篇微網誌文 章內容中涵蓋的主題,藉由探勘使用者所發表的文章主題來找出使用者的興趣。

分析出之使用者興趣可以用在進行微網誌搜尋及微網誌好友推薦等應用。

1-2 相關文獻探討

1-2.1 文章分類

文章分類要事先決定想要分的類別,與類別相關的文章會被分類到該類別中。

過去有很多關於文章分類的研究,常見應用機器學習進行分類的方法包括了

Naïve Bayes、k-Nearest Neighbor、決策樹(Decision Tree)、類神經網路(Neural Network)、Support Vector Machine(SVM)[17]等,這些機器學習的方法決定類別的 標準是透過測試資料而來,因此每個類別需有一定數量的訓練資料。

1-2.2 部落格分類

由於近來部落格使用的普遍化,藉由分析使用者的文章內容來對部落格分類 的研究也愈來愈多。[16]透過相同政黨的部落格使用者會連結在一起的連結特性,

提出半監督式學習的演算法來對政治類部落格進行分類並對預測類別之部落格 進行排名。[15]透過統計學習的方法及詞彙特徵來找出包含意見的部落格,實驗 結果顯示所選取的特徵可以有效地找出表示意見的句子,不同的分類策略對意見 的分類效能有顯著的影響。[12]則透過興趣字典來訓練分類器,並結合分類器的

3

分類結果來將部落格文章分類。[14]運用部落格的標籤資訊來分類部落格,其實 驗結果顯示採用標籤資訊比採用文章標題作為來分類特徵,可得到更好的分類正 確率。此外有些研究考慮部落格中可能存在有廣告(spam)部落格,其透過文章的 內容以及連結來增加搜尋引擎的排名,因此提出廣告部落格的偵測方法[10][11]。

1-2.3 部落格搜尋

關於部落格搜尋的研究,[2]考慮將一整個部落格視為一個單位,或以部落格 的文章當作單位,來計算部落格查詢結果的排名分數,其中並驗證專家搜尋機制 可以套用在部落格搜尋,且使用偵測每一個部落格的中心或常出現的興趣來增加 系統有效率的檢索。[3]研究如何運用三種不同的資源選擇方法在部落格搜尋:(1) 其將部落格的文章集合視為一篇大的文章,並運用語言模型及查詢機率來對部落 格搜尋進行排名;(2)估計一篇文章與查詢的相關機率值,並累加一個部落格中各 文章的相關機率值總和當作該部落格符合查詢的分數;(3)由一般搜尋方法對各部 落格文章與查詢的相關性進行排名取前 k 名,將同一個部落格中在前 k 高中的文 章聚集起來形成虛擬的聚落,再估算查詢的關鍵字出現在各虛擬聚落的機率來排 名部落格,並提出衡量部落格主題多樣性的方法,以考慮該部落格討論內容主題 集中性,搜尋出的結果為符合且主題集中的部落格。

4

1-2.4 微網誌研究分析

由於微網誌可提供使用者很快的與其他使用者分享文章內容,並能快速地與 朋友建立連結,使得微網誌越來越熱門,因此也有越來越多關於微網誌的研究。

[1]主要分析了熱門微網誌平台 Twitter 的成長趨勢、網路特性及使用者地理分佈,

對微網誌使用者意圖分成三大類:分享資訊、尋找資訊、友誼關係,並對使用者 所屬的社群,觀察社群中使用者常用的詞彙。

微網誌的文章內容也蘊含了很多有用的資訊。[6]發現再發生重大緊急事件的 期間根據微網誌內容的觀察,發現會比平常的微網誌包含較少量的個人特定回應,

而包含較多 URL 連結,顯示此期間使用者會透過微網誌大量廣播資訊。[5]則分 析微網誌包含品牌評論、意見的文章,分析正面及負面的意見,並討論公司使用 微網誌當作市場行銷及品牌競爭工具的效應。

[8]使用文字探勘方法來探勘使用者如何用微網誌來表達興趣,將微網誌使用 者常用來表示興趣的關鍵字分成類別關鍵字及表示用法(usage-indicative)關鍵字,

即出現在類別關鍵字的前後動詞及時間關鍵字,並分析使用者在表達興趣時常用 的句型樣式。

1-2.5 運用維基百科之研究

由於維基百科蘊含豐富的文章資訊內容與完善的分類架構,有許多運用維基 百科的研究。[13] 透過將字詞當作維基百科的查詢,取回與該字詞查詢相關的文

5

章之標題與類別來當作候選標籤,加強對文章聚落下標籤的結果。[9]分析文章中 字詞對應到的維基百科概念(維基百科中的條目),建立出「文章—概念」矩陣,

由維基百科條目對應到的類別,將文章對應到維基百科類別,結合文章字詞相似 度與概念相似度及類別相似度來計算兩個文章的相似度。

1-3 論文方法

本論文的研究目標是分析微網誌使用者的文章,藉由分析使用者常用之字詞 所涵蓋的類別概念,來找出微網誌使用者的興趣類別。

本論文先對一個使用者的微網誌文章萃取出關鍵字。運用維基百科分類架構 來探勘使用者文章內容所涵蓋的類別概念,對文章所涵蓋的類別概念給予權重,

以分析出文章該使用者中各類別概念的程度。對於在維基百科中查詢不到的字詞,

則透過線上連結維基百科找出重定向字詞所涵蓋的類別概念,或透過相關字詞的 聚落分析結果,運用屬於相同聚落的其他字詞來探勘出可能的類別概念。我們使 用字詞是否出現在維基百科中、文章是否可以找到主題、主題概念分數的集中與 分散程度特徵來探勘微網誌使用者文章的集中度。實驗顯示本論文方法用來判別 使用者文章集中度的效果不錯,挑選出的使用者類別與受試者標示的結果一致性 高。

6

1-4 論文架構

本論文以下章節內容簡介如下:第二章說明本論文所研究的問題及相關工具。

第三章說明本論文提出的研究方法,包含如何結合維基百科分類架構探勘出文章 主題,及使用重定向字詞或相關字詞分群結果來輔助文章所涵蓋之類別概念的探 勘。第四章我們將以實驗結果顯示本論文方法的結果準確率。最後在第五章提出 總結並探討未來研究方向。

7

相關文件