• 沒有找到結果。

通常判斷準則函數會採平方誤差準則(Squared Error Criterion)。K-means 演算法嘗試 找出平方誤差和數值最小的 K 個劃分,當結果叢集越密集,且叢集之間區隔明顯時,效 果會非常好。對處理大資料集,該演算法是相對可以延展和高效率的,因為 K-means 的 複雜度是O(nkt),其中 n 是所有物件的數目、k 是叢集數、t 是疊代次數。正常而言,

k≪n 且 t≪n。K-means 演算法經常得到的是一個局部最佳值(Local Optimum)[14]。

在本研究中,K-means 分群法採用 scikit-learn19的程式工具,K-means 得先設定要 分幾群,我們設定為 7 群。分 7 群的假設是,句子會根據語句向量被分到上述 6 種類別,

19 Scikite-learn website: http://scikit-learn.org/stable/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

分群後的句子分數 = 句子所屬群的類別分數

所有句子中的該類別最大分數 + 句子的𝑇𝐹 − 𝐼𝐷𝐹

所有句子中的最大𝑇𝐹 − 𝐼𝐷𝐹 (7) 從每一群挑選前 20 高分數的句子,若一群未達 20 個句子則輸出全部句子,由於有 7 類(包含其他類),最多取出 140 個句子作為輸出結果。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

5 章 進階分析結果與討論

以下我們均以凱特琳這隻角色作為分析的對象。一開始我們嘗試依文章來分群,作 法為建立文章-詞彙矩陣(文章為列,出現的詞彙為欄)進行 K-means 分群,在此設成分 10 群。

我們使用結巴分詞。網路論壇裡“。”通常被換行符號(<br>)取代,在去掉所有 HTML 語法之後,句子與句子之間便沒有分隔,因此我們保留了<br>。從結巴分詞的演算法及 我們自己實驗得知,如果一篇文章中沒有任何標點符號或是換行符號,分詞是可能出錯 的。實驗中,435 篇有標點符號的文章可分出 22882 個詞,435 篇去掉標點符號的文章 卻分出 23000 個詞。另外,為了增加分詞的準確率,我們僅為詞庫增加 LOL 板常用的字 詞,並沒有對結巴的演算法優化。分詞的結果請參考圖 16。

圖 16、分詞前後比對及其分群結果

與凱特琳相關的文章有 435 篇,在所有文章共出現 22882 個不重複的詞,因此我們 建立一個 435 x 22882 的矩陣作為輸入。分群結果如圖 17。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

38

圖 17、以文章為輸入之分群結果

圖 17 中,每個數字為每篇文章被分到哪一群。上方的矩陣向量輸入為字彙出現的次 數、下方的矩陣向量輸入為字彙若出現為 1 否則為 0。經過所屬群的轉換(例如將下方矩 陣的第 2 群轉成第 1 群,原本第 1 群轉換成其他群)並比對,發現有 382 處分群結果一 樣(87.8%)。雖然在此階段我們無法辨別哪個方法比較適合,但考慮到論壇文章可能會 重複敘述內容,我們採用後者方法,即字彙出現則該向量為 1、否則為 0。

到此為止沒辦法將文章依內容分群,結果顯示短的文章分成一群、長的文章另成一 群、其他散於另外 8 群但數目都不多。會造成這樣的結果我們猜測是欄數(詞彙)太多、

列數(文章)太少。因此我們接下來採取兩個方法來改善:1. 過濾斷出來的詞彙,即降

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

問題,我們將 TF-IDF 過高的符號、常用詞視為停用字。在分群之前,把句子長度低於 8 個詞的都濾掉,我們假設低於 8 個詞的句子資訊含量不高,避免分析過短且不帶有語意 的句子,如此輸出結果絕對不會有過短的句子。

實驗結果只有 244 個句子大於等於八個詞,平均每篇文章只取出 0.56 個句子,共有 2281 個不重複的詞。到這邊我們決定依 4.2 節、4.3 節的實驗方法,將句子分群並挑選 出句子進行結果觀察。在輸出方面分類如表 8:

表 8、摘要結果分類取出句子數

分類 取出句子數

裝備 20

英雄屬性和符文 4

打法 1

技能 1

天賦 1

其他英雄 1

其他 20

從結果來看,每個群的句子數仍然不平均,從表可以看到大部分的句子都集中在某 一群,其他群內的句子數並不多。會造成這樣的結果可能是關鍵字資料庫各類別關鍵字 數量本來就不平均(表 6)。也可能是論壇文章對於裝備的討論本來就比較多(表 4)。除 了群分布數目不均,摘要結果提供了相關且有幫助的資訊。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

42

短文而非詞彙)。

與[17]不同的是,我們或許不必借助專家的專業,透過論壇使用者的力量及熱情,

共同參與建立系統的基礎。同樣是隨機抽取論壇文章斷詞後的內容,挑出有意義的詞彙,

同時可以選擇是否將該詞彙加入某個關鍵字的分類。這樣的好處是,由論壇的使用者來 標註並分類關鍵字類別,關鍵字庫會更完整,所產出的特殊詞彙和用法可以更貼切論壇 文章,本摘要系統的輸出結果更可以符合論壇用戶所需。

句子挑選的方式我們參考了[14], [21]並做修改,並採用最直覺的方式進行計分及 挑選,在此部分還有許多參數可以進行微調,例如我們並沒有對各分數進行權重調整,

或許還有其他我們沒注意到的特徵值,我們認為本實驗還可以進步。

最後的問題是本系統可否移植到其他遊戲(或非遊戲)的論壇?答案應該是可以的。

需要的前置工作是更改與主題相關的關鍵字資料,並將其加入斷詞的文本中。另外要注 意的是本系統主要是基於中文非(半)結構化多文件摘要系統,因此論壇內容是否常有多 媒體內容(如圖片、影片、音樂)呈現?如果有,會需要其他方案輔助以達到更好的效果。

[4] R. J. Brachman, T. Khabaza, W. Kloesgen, G. Piatetsky-Shapiro, and E. Simoudis,

“Mining business databases,” Commun. ACM, vol. 39, pp. 42–48, 1996.

[5] 趙銘 and 林俊博, “遊戲論壇搜尋引擎之設計 A Design of Game Forum Search Engine,” 逢甲大學, 2003.

[6] F. F. Gey, H.-M. Chen, B. Norgard, M. Buckland, Y. Kim, A. Chen, B. Lam, J. Purat, and R.

Larson, “Advanced search technologies for unfamiliar metadata,” System, 2001.

[7] N. J. Belkin, “Helping people find what they don’t know,” Commun. ACM, vol. 43, pp.

58–61, 2000.

[8] C. H. Chang and C. C. Hsu, “Enabling concept-based relevance feedback for

information retrieval on the WWW,” IEEE Trans. Knowl. Data Eng., vol. 11, pp. 595–

609, 1999.

[9] M. Kobayashi and K. Takeda, “Information retrieval on the web,” ACM Comput. Surv., vol. 32, pp. 144–173, 2000.

[10] 楊瑞敏李嘉晃, “多文件摘要系統基於 Mutual Reinforcement 原理 Multi-Document Summarization System Based on Mutual Reinforcement Principle,” 國立交通大學, 2010.

[11] K. S. Jones and others, “Automatic summarizing: factors and directions,” Adv. Autom.

text Summ., pp. 1–12, 1999.

[12] S. Afantenos, V. Karkaletsis, and P. Stamatopoulos, “Summarization from medical documents: A survey,” Artificial Intelligence in Medicine, vol. 33. pp. 157–177, 2005.

[13] D. McDonald and H. Chen, “Using sentence-selection heuristics to rank text segments in TXTRACTOR,” in Management Information Systems, 2002, pp. 28–35.

[14] C. Liu, H.-R. Ke, and W.-P. Yan, “以概念分群為基礎之新聞文件自動摘要系統 Concept Cluster Based News Document Summarization,” 國立交通大學, 2005.

[15] A. H. Oh, “Generating Multiple Summaries Based on Computational Model of Perspective,” Massachusetts Institute of Technology, 2008.

[16] J. G. Stewart, “Genre Oriented Summarization,” Carnegie Mellon University, 2008.

[17] 施旭峰 and 李蔡彥, “災難事件下新媒體資訊傳播方式分析與自動化 分類設計─

以八八風災為例 Information Transmission Analysis and Automated Classification Design for New Media in a Disaster Event – Case Study of Typhoon Morakot,” 國立政 治大學, 2013.

[18] F. C. and K. H. and G. Chen, “An Approach to Sentence-Selection-Based Text Summarization,” IEEE Reg. 10 Conf. Comput. Commun. Control Power Eng.

(TENCON ’02), vol. 1, 2002.

[19] R. Angheluta, R. De Busser, and M. Moens, “The Use of Topic Segmentation for Automatic Summarization,” in DUC 2002, 2002.

[20] C. N. S. J. and C. A. A. K. and A. A.Freitas, “A Non-Linear Topic Detection Method for Text Summarization Using Wordnet,” Work. Technol. Inf. Lang. Hum., 2003.

[21] V.-W. Soo and S.-J. Huang, “使用潛在語意分析與自我組織映射於中文文件摘要 Using Latent Semantic Analysis and Self-Organizing Map in Chinese Text

Summarization,” 國立清華大學, 2008.

[22] C. N. Silla Jr., C. A. A. Kaestner, and A. A.Freitas, “A Non-Linear Topic Detection Method for Text Summarization Using Wordnet,” in Workshop of Technology Information Language Human (TIL’2003), 2003.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

45

[23] H. Jiawei and M. Kamber, “Data mining: concepts and techniques,” San Fr. CA, itd Morgan Kaufmann, vol. 5, pp. 377–385, 2001.

相關文件