句子挑選 - 設計與實作一個針對遊戲論壇的中文文章整合系統

通常判斷準則函數會採平方誤差準則(Squared Error Criterion)。K-means 演算法嘗試找出平方誤差和數值最小的 K 個劃分，當結果叢集越密集，且叢集之間區隔明顯時，效果會非常好。對處理大資料集，該演算法是相對可以延展和高效率的，因為 K-means 的複雜度是O(nkt)，其中 n 是所有物件的數目、k 是叢集數、t 是疊代次數。正常而言，

k≪n 且 t≪n。K-means 演算法經常得到的是一個局部最佳值(Local Optimum)[14]。

在本研究中，K-means 分群法採用 scikit-learn¹⁹的程式工具，K-means 得先設定要分幾群，我們設定為 7 群。分 7 群的假設是，句子會根據語句向量被分到上述 6 種類別，

19 Scikite-learn website: http://scikit-learn.org/stable/

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

分群後的句子分數 = 句子所屬群的類別分數

所有句子中的該類別最大分數 + 句子的𝑇𝐹 − 𝐼𝐷𝐹

所有句子中的最大𝑇𝐹 − 𝐼𝐷𝐹 (7) 從每一群挑選前 20 高分數的句子，若一群未達 20 個句子則輸出全部句子，由於有 7 類(包含其他類)，最多取出 140 個句子作為輸出結果。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第

5 章進階分析結果與討論

以下我們均以凱特琳這隻角色作為分析的對象。一開始我們嘗試依文章來分群，作法為建立文章-詞彙矩陣(文章為列，出現的詞彙為欄)進行 K-means 分群，在此設成分 10 群。

我們使用結巴分詞。網路論壇裡“。”通常被換行符號(<br>)取代，在去掉所有 HTML 語法之後，句子與句子之間便沒有分隔，因此我們保留了<br>。從結巴分詞的演算法及我們自己實驗得知，如果一篇文章中沒有任何標點符號或是換行符號，分詞是可能出錯的。實驗中，435 篇有標點符號的文章可分出 22882 個詞，435 篇去掉標點符號的文章卻分出 23000 個詞。另外，為了增加分詞的準確率，我們僅為詞庫增加 LOL 板常用的字詞，並沒有對結巴的演算法優化。分詞的結果請參考圖 16。

圖 16、分詞前後比對及其分群結果

與凱特琳相關的文章有 435 篇，在所有文章共出現 22882 個不重複的詞，因此我們建立一個 435 x 22882 的矩陣作為輸入。分群結果如圖 17。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 17、以文章為輸入之分群結果

圖 17 中，每個數字為每篇文章被分到哪一群。上方的矩陣向量輸入為字彙出現的次數、下方的矩陣向量輸入為字彙若出現為 1 否則為 0。經過所屬群的轉換(例如將下方矩陣的第 2 群轉成第 1 群，原本第 1 群轉換成其他群)並比對，發現有 382 處分群結果一樣(87.8%)。雖然在此階段我們無法辨別哪個方法比較適合，但考慮到論壇文章可能會重複敘述內容，我們採用後者方法，即字彙出現則該向量為 1、否則為 0。

到此為止沒辦法將文章依內容分群，結果顯示短的文章分成一群、長的文章另成一群、其他散於另外 8 群但數目都不多。會造成這樣的結果我們猜測是欄數(詞彙)太多、

列數(文章)太少。因此我們接下來採取兩個方法來改善：1. 過濾斷出來的詞彙，即降

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

問題，我們將 TF-IDF 過高的符號、常用詞視為停用字。在分群之前，把句子長度低於 8 個詞的都濾掉，我們假設低於 8 個詞的句子資訊含量不高，避免分析過短且不帶有語意的句子，如此輸出結果絕對不會有過短的句子。

實驗結果只有 244 個句子大於等於八個詞，平均每篇文章只取出 0.56 個句子，共有 2281 個不重複的詞。到這邊我們決定依 4.2 節、4.3 節的實驗方法，將句子分群並挑選出句子進行結果觀察。在輸出方面分類如表 8：

表 8、摘要結果分類取出句子數

分類取出句子數

裝備 20

英雄屬性和符文 4

打法 1

技能 1

天賦 1

其他英雄 1

其他 20

從結果來看，每個群的句子數仍然不平均，從表可以看到大部分的句子都集中在某一群，其他群內的句子數並不多。會造成這樣的結果可能是關鍵字資料庫各類別關鍵字數量本來就不平均(表 6)。也可能是論壇文章對於裝備的討論本來就比較多(表 4)。除了群分布數目不均，摘要結果提供了相關且有幫助的資訊。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

短文而非詞彙)。

與[17]不同的是，我們或許不必借助專家的專業，透過論壇使用者的力量及熱情，

共同參與建立系統的基礎。同樣是隨機抽取論壇文章斷詞後的內容，挑出有意義的詞彙，

同時可以選擇是否將該詞彙加入某個關鍵字的分類。這樣的好處是，由論壇的使用者來標註並分類關鍵字類別，關鍵字庫會更完整，所產出的特殊詞彙和用法可以更貼切論壇文章，本摘要系統的輸出結果更可以符合論壇用戶所需。

句子挑選的方式我們參考了[14], [21]並做修改，並採用最直覺的方式進行計分及挑選，在此部分還有許多參數可以進行微調，例如我們並沒有對各分數進行權重調整，

或許還有其他我們沒注意到的特徵值，我們認為本實驗還可以進步。

最後的問題是本系統可否移植到其他遊戲(或非遊戲)的論壇？答案應該是可以的。

需要的前置工作是更改與主題相關的關鍵字資料，並將其加入斷詞的文本中。另外要注意的是本系統主要是基於中文非(半)結構化多文件摘要系統，因此論壇內容是否常有多媒體內容(如圖片、影片、音樂)呈現？如果有，會需要其他方案輔助以達到更好的效果。

‧

[4] R. J. Brachman, T. Khabaza, W. Kloesgen, G. Piatetsky-Shapiro, and E. Simoudis,

“Mining business databases,” Commun. ACM, vol. 39, pp. 42–48, 1996.

[5] 趙銘 and 林俊博, “遊戲論壇搜尋引擎之設計 A Design of Game Forum Search Engine,” 逢甲大學, 2003.

[6] F. F. Gey, H.-M. Chen, B. Norgard, M. Buckland, Y. Kim, A. Chen, B. Lam, J. Purat, and R.

Larson, “Advanced search technologies for unfamiliar metadata,” System, 2001.

[7] N. J. Belkin, “Helping people find what they don’t know,” Commun. ACM, vol. 43, pp.

58–61, 2000.

[8] C. H. Chang and C. C. Hsu, “Enabling concept-based relevance feedback for

information retrieval on the WWW,” IEEE Trans. Knowl. Data Eng., vol. 11, pp. 595–

609, 1999.

[9] M. Kobayashi and K. Takeda, “Information retrieval on the web,” ACM Comput. Surv., vol. 32, pp. 144–173, 2000.

[10] 楊瑞敏李嘉晃, “多文件摘要系統基於 Mutual Reinforcement 原理 Multi-Document Summarization System Based on Mutual Reinforcement Principle,” 國立交通大學, 2010.

[11] K. S. Jones and others, “Automatic summarizing: factors and directions,” Adv. Autom.

text Summ., pp. 1–12, 1999.

‧

[12] S. Afantenos, V. Karkaletsis, and P. Stamatopoulos, “Summarization from medical documents: A survey,” Artificial Intelligence in Medicine, vol. 33. pp. 157–177, 2005.

[13] D. McDonald and H. Chen, “Using sentence-selection heuristics to rank text segments in TXTRACTOR,” in Management Information Systems, 2002, pp. 28–35.

[14] C. Liu, H.-R. Ke, and W.-P. Yan, “以概念分群為基礎之新聞文件自動摘要系統 Concept Cluster Based News Document Summarization,” 國立交通大學, 2005.

[15] A. H. Oh, “Generating Multiple Summaries Based on Computational Model of Perspective,” Massachusetts Institute of Technology, 2008.

[16] J. G. Stewart, “Genre Oriented Summarization,” Carnegie Mellon University, 2008.

[17] 施旭峰 and 李蔡彥, “災難事件下新媒體資訊傳播方式分析與自動化分類設計─

以八八風災為例 Information Transmission Analysis and Automated Classification Design for New Media in a Disaster Event – Case Study of Typhoon Morakot,” 國立政治大學, 2013.

[18] F. C. and K. H. and G. Chen, “An Approach to Sentence-Selection-Based Text Summarization,” IEEE Reg. 10 Conf. Comput. Commun. Control Power Eng.

(TENCON ’02), vol. 1, 2002.

[19] R. Angheluta, R. De Busser, and M. Moens, “The Use of Topic Segmentation for Automatic Summarization,” in DUC 2002, 2002.

[20] C. N. S. J. and C. A. A. K. and A. A.Freitas, “A Non-Linear Topic Detection Method for Text Summarization Using Wordnet,” Work. Technol. Inf. Lang. Hum., 2003.

[21] V.-W. Soo and S.-J. Huang, “使用潛在語意分析與自我組織映射於中文文件摘要 Using Latent Semantic Analysis and Self-Organizing Map in Chinese Text

Summarization,” 國立清華大學, 2008.

[22] C. N. Silla Jr., C. A. A. Kaestner, and A. A.Freitas, “A Non-Linear Topic Detection Method for Text Summarization Using Wordnet,” in Workshop of Technology Information Language Human (TIL’2003), 2003.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

[23] H. Jiawei and M. Kamber, “Data mining: concepts and techniques,” San Fr. CA, itd Morgan Kaufmann, vol. 5, pp. 377–385, 2001.

‧

在文檔中設計與實作一個針對遊戲論壇的中文文章整合系統 - 政大學術集成 (頁 45-56)

句子挑選

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

5 章 進階分析結果與討論

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

立政治大學

5 章進階分析結果與討論

立政治大學

立政治大學

立政治大學

立政治大學