第二章 問題描述與定義
2-1 問題描述
本論文所要解決的問題是:給定微網誌使用者,藉由分析微網誌使用者所發 佈的文章內容,來探勘出微網誌使用者所討論的興趣主題,並探討使用者的文章 主題集中度。
所以本論文目標是先取得微網誌使用者發佈的文章內容,接著對每一則文章 內容進行關鍵字擷取,使用維基百科來找出字詞所屬的類別概念。此外,事先將 文章關鍵字擷取的字詞蒐集起來,計算字詞之間的相似度,對字詞進行分群。若 字詞在維基百科中找不到,則由該字詞所屬聚落的其他字詞來找出該字詞所隱含 的類別概念。最後,集合微網誌使用者發佈文章的字詞類別概念,來代表使用者 的興趣類別。
2-2 使用工具介紹
2-2.1 Yahoo!『斷章取義』API
在本論文所分析的微網誌是在台灣廣受歡迎的 Plurk(http://www.plurk.com),
所分析的使用者之文章內容大部分都是中文,因此需要對中文的文章進行斷詞或 擷取重要的關鍵字。
8
Yahoo!『斷章取義』API (http://tw.developer.yahoo.com/cas/)提供使用者一 個介面,可以進行自動化的文字語意分析與處理。此介面除了方便開發者應用於 各種網路服務外,也可以提供學術界進行相關的研究。
要使用此 API 時,需先註冊申請服務授權以取得授權碼,如圖 2.1 所示。Yahoo!
『斷章取義』API 網路服務每一組授權碼有限制每天 2,000 次的使用上限。
圖 2.1 註冊以取得授權碼
9
圖 2.2 成功取得授權碼
如圖 2.2 所示,申請成功會取得一組授權碼。取得授權碼之後,仍須進行授 權碼啟動,才能使用 Yahoo!『斷章取義』所提供之服務。啟動授權碼網址:
http://asia.search.yahooapis.com/cas/v1/AuthBootUp.php?appid='{}',在{}內填入授 權碼即可啟動。
圖 2.3 啟動授權碼成功訊息
啟動授權碼後,網頁會顯示啟動授權碼成功之訊息,如圖 2.3 所示。
Yahoo!『斷章取義』API 提供兩個功能:
(1) 斷詞與詞性標註:將文章傳送給 Yahoo 進行分析後,會傳回文章斷詞後的字 詞並標註字詞的詞性。
(2) 文章關鍵字擷取:將文章傳送給 Yahoo 進行分析後,會傳回此篇文章的重要 關鍵字及關鍵字的分數,分數是以 TF-IDF(term frequency - inverse document
frequency)的計算方式來計算。TF-IDF 值是用來衡量文章字詞分數的方法,
TF-IDF 值越高表示字詞的重要性及代表性越高。
10
圖 2-4 新聞範例
以實際一篇新聞為例,如圖 2.4 所示,以下是將新聞文章內容分別使用 Yahoo!
『斷章取義』的斷詞與詞性標註及文章關鍵字擷取兩種功能之結果。
如圖 2.5 所示,使用斷詞與詞性標註功能,會回傳文章斷詞後的字詞及詞性。
11
圖 2.5 新聞斷詞與詞性標註結果
新聞文章關鍵字擷取的結果如圖 2.6 所示,將關鍵字分數門檻值設定為 30,設 定最多取回 100 個字詞數之結果。
圖 2.6 新聞關鍵字擷取結果
在本論文中,使用 Yahoo!『斷章取義』API 先對微網誌文章作關鍵字擷取,
再對傳回之文章關鍵字進行詞性分析,僅保留名詞、專有名詞、形容詞與動詞,
其他詞性的字詞語意我們認為較不重要,如副詞、連接詞、介系詞等,因此將這 些詞性過濾掉。
12
2-2.2 Wikipedia 維基百科
維基百科(http:// http://zh.wikipedia.org/)是一個多語言、內容開放的網路百 科全書,維基百科的內容是來自世界各地自願者的貢獻,使用者無論是來自不同 文化或社會背景都可以撰寫與編輯維基百科內容。由於人人都可以自由編輯與使 用的特性,讓維基百科累積了豐富的知識,儘管維基百科的內容正確性可能會受 到質疑,但若所列出來的參考資料來源受到審查及確認,其文章內容也會受到一 定的肯定,而且正確的維基百科文章內容是經得起廣大使用者的檢視與考驗,不 符合標準或引發爭議的內容都可能會被移除。
中文維基百科自 2002 年十月成立起至 2010 年一月,已累積了將近三十萬條 條目,是一個蘊含豐富資訊的龐大知識庫。一個維基百科條目頁面包含了條目標 題、條目文章的內容及條目分類,如圖 2.7 所示。
13
圖 2.7 維基百科的條目頁面
一個維基百科條目可能會有一個以上的類別,如圖 2.7 所示,『玉山』在維 基百科中有五個分類。透過頁面的超連結可以直接連到此類別的分類頁面,在分 類頁面可以方便地瀏覽觀看屬於同一類別的其他條目及此類別下有哪些其他的 子類別。
14
圖 2.8 維基百科分類頁面
如圖 2.8 所示,『棒球』的分類頁面,包含了 19 個子分類及 13 個頁面。
[定義 2.1] 上層類別概念
維基百科的分類索引中包含了許多類別,如圖 2.9 所示。我們由分類索引所 列出的類別中挑選部分能代表使用者興趣的類別來表示字詞的上層類別概念,詳
15
細挑選之類別見附錄 A。
圖 2.9 維基百科分類索引
除了一個條目可能會有多個類別,每一個類別也可能會有多個父類別,因此,
若不斷地透過類別之間的連結,最後可以找出此條目的上層類別概念。
我們不希望將每一個字詞都一一當作查詢,在線上連結維基百科查出該字詞 的類別,因為除了造成維基百科網站的額外負擔,也會增加處理時間。維基百科 提供了所有完整內容的電子檔案讓有興趣的使用者下載(維基百科中文版下載處
http://download.wikimedia.org/zhwiki),其中包含完整的 XML 檔案及 SQL 檔案,
使用者可以根據需求下載最新備份的檔案。在本論文中,我們使用維基百科類別 連結資訊,因此主要使用 categorylink.sql 檔案。
16