本章節將評估本論文方法的效果,在 4-1 節說明驗證本論文方法所提出的文 章集中度評估方法以及探勘微網誌使用者所找出的興趣類別正確性之實驗方法 與結果,並在 4-2 節分析及討論實驗之結果。
4-1 實驗評估
本論文的系統介面,在給定微網誌使用者,系統會對微網誌使用者的每一篇 文章進行分析,顯示每一篇文章內容與關鍵字擷取結果,以及與該篇文章最相關 的五個類別概念,並在最後顯示與該使用者最相關的前五個類別概念。一位微網 誌使用者的文章分析結果如附錄 B 所示。
4-1.1 微網誌使用者文章主題集中程度探勘評估
從抓取回來的微網誌使用者資料中,由筆者自行判斷使用者主題集中或主題 不集中,最後挑選出一共 50 位使用者,其中 25 位為主題集中度高之微網誌使用 者,另 25 位為主題集中度低之微網誌使用者。
我們從 50 位使用者中隨機挑選出 20 位微網誌使用者之微網誌文章,每一位 微網誌使用者的文章都由三位受試者來判別主題集中度分類結果是否與筆者判 斷一致。在三位受試者一共分類的 60 筆結果中,有三筆結果與筆者所標示結果 不同,但此三筆中的任兩筆都不是出現在同一位微網誌使用者,因此由多數決來
看
40
若只取兩項特徵來估算文章集中度,結果如圖 4.2 所示。當集中度分數為
0.11~0.12 時,最高準確率可達到 0.98,比取全部特徵估算文章集中度之結果還好。
因此在估算使用者文章集中度時,特徵 . _ _ _ 較無幫助,結合另兩項特徵 來估算文章集中度的結果較佳。
圖 4.2 取兩項特徵之準確率
4-1.2 微網誌使用者之興趣類別探勘結果評估
為了評估本論文方法所探勘出的微網誌使用者興趣概念結果,我們由網路蒐 集 Plurk 名人的微網誌文章,挑選出 40 位有特定討論主題的微網誌使用者來當作 本實驗用來評估的使用者集合。
參與本實驗的受試者共有 6 位,每一位受試者閱讀 20 位微網誌使用者之文 章,同一個微網誌使用者的文章都有三位受試者閱讀,並由受試者依據觀看微網 誌文章的內容,從所有興趣類別集合中,根據類別相關程度依序標示出最多五個 興趣主題類別。
41
我們先將受試者所標示的類別排名結果綜合起來得到一個受試者類別排名,
綜合排名是採用 Reciprocal Ranking 的計算方式。Reciprocal Ranking 的排名計算 公式:Reciprocal_Rank c ∑ ,當有一個類別 c 在不同的 k 個受試者有不
42
行比較,使用 confusion matrix 來觀察本論文方法所預測的結果。受試者標示之第 一個類別與本論文方法所標示之第一類別的比對結果,如表 4.1 所示。
我們由 confusion matrix 來計算準確率,準確率為 confusion matrix 之對角線 總和除以使用者總數,計算出的準確率之為 16 採用 NDCG(Normalize Discounted Cumulative Gain)的評估方法來進行評估。
43
NDCG 常被用來衡量搜尋引擎在不同查詢所檢索出來的文章相關程度。
NDCG 會考量檢索相關度,對於相關度越高的文章給予更高的權重,同時 NDCG 會考慮排名的位置,排名越前面的文章重要程度越高。NDCG 是由 DCG 進行標 準化而來,DCG 的計算方式如以下式子所列:DCG ∑ ,其中 k 為 檢索的資料筆數,i 為檢索文章之排名, 為檢索文章的相關度。NDCG 的算式 如以下式子所列:NDCG DCG
IDCG,其中 IDCG 為檢索文章結果之理想 DCG 值,當 檢索文章結果所計算出的 DCG 值與 IDCG 值越接近時,代表系統檢索的效果越 好。以一則例子簡單說明:
假設系統檢索出五筆資料,資料相關度依序為 3, 5, 1, 4, 2,則所計算出的 DCG 值為DCG ∑ 3 5 0.63 2 0.86 11.49,而理想的資料 相關度為 5, 4, 3, 2, 1,IDCG 值為5 4 1.89 1 0.43 12.32。因此
NDCG DCG
IDCG 0.93,當 NDCG 越接近 1 時,代表系統檢索效果越好。
在此我們將微網誌使用者當作一個查詢,本論文方法所得到的類別當作檢索 出來的結果,與受試者所標示的類別進行比較,使用 NDCG 來衡量本論文方法的 結果。
44
【實驗一】移除受試者不常標示之類別比較
由於本論文方法挑選的類別與受試者用來標示的類別時常不一致。舉例來說,
系統回傳的前五個類別中常常有『文化』、『組織』此兩個類別,而對於受試者而 言『文化』與『組織』可能過於抽象,不容易聯想。因此我們將受試者不常標示 的類別由類別集合中移除(移除之類別見附錄 A),重新執行本論文方法重新挑 選出五個類別來計算 NDCG,並與原本未移除使用者不常挑選類別之系統挑選的 五個類別結果所計算的 NDCG 來進行比較。
圖 4.3 不移除類別與移除類別所計算的 NDCG 結果
計算 NDCG 的結果如圖 4.3 所示。我們計算所有微網誌使用者的平均 NDCG
值:∑ DCG,在本實驗中,共有 40 位微網誌使用者,因此 N 設成 40。不移除類
別結果所計算的平均 NDCG 為 0.52,移除受試者不常標示類別之結果計算出的平 均 NDCG 為 0.64,比未移除類別之結果所計算出之 NDCG 值高很多。
45
【實驗二】考慮聚落字詞與重定向字詞之結果比較
在非維基百科字詞的處理,我們分別比較使用字詞聚落得到字詞所涵蓋的類 別概念及透過線上查詢重定向字詞取得該字詞類別概念之兩種本論文方法所挑 選的類別結果來計算平均 NDCG。
使用字詞聚落 使用重定向 平均 NDCG
方法一 0.636
方法二 V 0.637
方法三 V 0.644
方法四 V V 0.641
表 4.2 使用字詞聚落與重定向組合的四種方法平均 NDCG 值
使用字詞聚落與使用重定向所組合的四種方法所計算出的平均 NDCG 值,如 表 4.2 所示。由實驗結果顯示使用字詞聚落與否影響不大,可能的原因是進行分 群的字詞數太少(2834 個字詞),而且同一聚落中也有相對相關度較低的字詞,
透過聚落類別概念分數的標準化也降低聚落字詞所涵蓋之類別概念的程度。而僅 使用重定向的方法比同時使用字詞聚落及重定向之結果更好,原因是重定向字詞 即為原先字詞的同義詞,所查詢的字詞涵蓋的類別概念會比由字詞使用字詞聚落 所取得之涵蓋的類別概念更為正確,且透過線上查詢所查詢到的重定向字詞累積 了 4459 字也比聚落字詞總數多。
46
【實驗三】改變分析文章總數
由於受試者只觀看微網誌使用者之 30 篇文章,因此在實驗一與實驗二中本 論文方法也同樣分析使用者之 30 篇文章。在實驗三我們改變分析文章總數,探 討文章總數改變之影響,每一個微網誌使用者所計算之 NDCG 結果如圖 4.4 所 示。
圖 4.4 40 位微網誌使用者之 NDCG 值
重新計算之平均 NDCG 值為 0.671,比只分析 30 篇文章所計算出之平均
NDCG 值還高。原因可能是因為這些微網誌使用者之文章內容集中度高,因此在 分析更多篇文章時,使得系統所挑選的類別概念與受試者所標示的類別概念越一 致。
在 40 位微網誌使用者中,有 16 位微網誌使用者所計算之 NDCG 值達到 0.7 以上。其中,有 3 位微網誌使用者只有被受試者標示了一個類別,與本論文方法 所挑選出來相關度最高的類別正好一致,因此 NDCG 都為 1。
另外,有 3 位微網誌使用者所計算出的 NDCG 不到 0.2,拉低平均 NDCG 很 多。其中,有一位 NDCG 為 0,代表本論文方法所找出的類別與受試者標示的類
47
別沒有交集,觀察這位微網誌使用者的文章發現受試者標示的類別為科技、娛樂、
電影、嗜好,而本論文方法所挑選出的結果為飲食、產業、經濟、醫學、音樂,
由於這位微網誌使用者討論的主題很多,因此不容易對應到受試者標示的類別。
除此之外,受試者會給定『電影』這個類別是因為文章內容提到最新的電影『阿 凡達』、『刺陵』、『空氣人形』、『瘋狂的賽車』等,而經過斷章取義後取回的字不 包含這些最新的電影名稱,而『瘋狂的賽車』關鍵字擷取的結果為賽車,也與電 影並不相關,如圖 4.5。因此本論文方法所挑選出的前五個類別沒有找到電影類 別。
圖 4.5 與電影有關的微網誌文章與取回的關鍵字
4-2 分析與討論
我們讓每一位受試者看同一位微網誌使用者的文章 30 篇,但並沒有讓受試 者看文章的回覆內容,因此可能會影響受試者出標示類別結果。另外,由於受試 者在標示微網誌使用者類別的時間不長,受試者所排序之使用者興趣類別順序也 會影響本論文方法進行計算 NDCG 的結果,不同受試者標示的類別個數也不一定
48
相同,若考慮其他綜合受試者排名微網誌使用者類別的方法可以得到不同的結果。
此外,若 Yahoo!『斷章取義』不能將文章中較新的關鍵字取回,例如:新的電影 名稱,也會影響本論文方法判斷的結果。
49