• 沒有找到結果。

設計與實作一個針對遊戲論壇的中文文章整合系統 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "設計與實作一個針對遊戲論壇的中文文章整合系統 - 政大學術集成"

Copied!
65
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文. 立. Master’s 政 治Thesis. 大. ‧ 國. 學. 設計與實作一個針對遊戲論壇的中文文章整合. ‧. 系統. y. Nat. er. io. sit. Design and Implementation of a Chinese n. al Document Integration System for i v Game Forums Ch. n U engchi. 研 究 生: 黃重鈞 指導教授: 徐國偉. 中華民國一百零五年七月 July 2016.

(2) 設計與實作一個針對遊戲論壇的中文文章整合系統 Design and Implementation of a Chinese Document Integration System for Game Forums. 研 究 生:黃重鈞. Student:Chung-Chun Huang. Hsu 政 治Advisor:Kuo-Wei 大. 指導教授:徐國偉. 立. ‧ 國. er. io. sit. y. Nat. 碩士論文. ‧. 資訊科學系. 學. 國立政治大學. al. n. A Thesis v i n submitted toC Department Science U h e n g c hofi Computer National ChengChi University in partial fulfillment of the Requirements for the degree of Master in Computer Science 中華民國一百零五年七月 July 2016. 1.

(3) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(4) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i n U. v.

(5) 摘要 現今網路發達便利,人們資訊交換的方式更多元,取得資訊的方式,不再僅是透過 新聞,透過論壇任何人都可以快速地、較沒有門檻地分享資訊。也因為這個特性造成資 訊量暴增,就算透過搜尋引擎,使用者仍需要花費許多精力蒐集、過濾與處理特定的主 題。本研究以巴哈姆特電玩資訊站─英雄聯盟哈拉討論板為例,期望可以為使用者提供 一個全面且精要的遊戲角色描述,讓使用者至少對該角色有大概的認知。. 治 政 本研究參考網路論壇探勘及新聞文件摘要系統,設計適用於論壇多篇文章的摘要系 大 立 統。首先必須了解並分析論壇的特性,實驗如何從論壇挖掘出潛藏的資訊,並認識探勘 ‧ 國. 學. 論壇會遭遇的困難。根據前面的論壇分析再設計系統架構大致可分為三階段:1. 資料. ‧. 前處理:論壇文章與新聞文章不同,很難直接將名詞、動詞作為關鍵字,因此使用 TF-IDF 篩選出論壇文章中有代表性的詞彙,作為句子的向量空間維度。2. 分群:使用 K-Means. y. Nat. io. sit. 分群法分辨哪些句子是比較相似的,並將相似的句子分在同一群。 3. 句子挑選:根據. n. al. er. 句子的分群結果,依句子的關鍵字含量及 TF-IDF 選擇出最能代表文件集的句子。. Ch. engchi. i n U. v. 我們發現實驗分析過程中可以看到一些有用的相關資訊,在論文的最後提出可能的 改善方法,期望未來可以開發更好的論壇文章分類方式。. 關鍵字:中文遊戲論壇文件摘要、關鍵字擷取、K-Means 分群. i.

(6) Abstract With the establishment of network infrastructure, forum users can provide information fast and easily. However, users can have information retrieved through search engines, but they still have difficulty handling the articles. This is usually beyond the ability of human processing. In this study, we design a tool to automate retrieval of information from each topic in a Chinese game forum.. 治 政 We analyze the characteristics of the game大 forum, and refer to English news 立 summary system. Our method is divided into three phases. The first phase attempts ‧ 國. 學. to discover the keywords in documents by TF-IDF instead of part of speech, and. ‧. builds a vector space model. The second phase distinguishes the sentences by the vector space model built in the first phase. Also in the second phase, K-means. y. Nat. io. sit. clustering algorithm is exploited to gather sentences with the same sense into the. n. al. er. same cluster. In the third phase, we choose two features to weight sentences and. Ch. i n U. v. order sentences according to their weights. The two features are keywords of a sentence and TF-IDF.. engchi. We conduct an experiment with data collected from the game forum, and find useful information through the experiment. We believe the developed techniques and the results of the analysis can be used to design a better system in the future. Keywords: Chinese game forum summary, keyword selection, K-means clustering. ii.

(7) 致謝 感謝指導教授徐國偉老師,除了學業上悉心的指導,也討論生活中遇到的事件和 想法上激盪,增加我對資訊領域想法的深度與視野上的寬度。並在我一度想放棄的時候 鼓勵並引導我循序漸進完成論文。 感謝實驗室的夥伴們,謝謝你們在我程式上遇到困難時,大家不吝提供經驗和一 起討論。在我遇到挫折時,給我充滿正面積極的鼓勵。就算到現在,還會懷念實驗室半 夜大家一起埋頭苦幹、適時和樂的氣氛。. 治 政 感謝親愛的家人以及一路陪伴我的朋友們,你們永遠不變的支持與鼓勵讓我有勇 大 立 氣繼續前行。在研究所碩班的四年當中,生活中碰到了許多機遇、挫折,你們陪我高興、 ‧ 國. 學. 陪我沮喪,在我心裡生病的時候容忍我的怪脾氣、沒有棄我於不顧。. io. sit. y. Nat. n. al. er. 的我。. ‧. 最後再一次感謝所有在我碩士求學路上給予我幫助的人們,沒有你們就沒有今天. Ch. engchi. iii. i n U. v.

(8) 目錄 第 1 章 緒論 .............................................................. 1 1.1 研究動機與目的 ................................................... 1 1.2 背景:巴哈姆特電玩資訊站 ......................................... 5 1.3 背景:英雄聯盟 ................................................... 8 1.4 論文結構 ........................................................ 11 第 2 章 相關研究 ......................................................... 2.1 論壇相關研究 .................................................... 2.2 文件摘要相關研究 ................................................ 2.3 以分群為基礎的摘要方法 .......................................... 第 3 章 初步資料分析 ..................................................... 3.1 資料 ............................................................ 3.2 初步分析 ........................................................ 第 4 章 設計與實作系統 ................................................... 4.1 資料前處理 ....................................................... 12 12 14 16 19 19 24 28 29. 4.2 分群 ............................................................ 4.3 句子挑選 ........................................................ 第 5 章 進階分析結果與討論 ............................................... 第 6 章 結論與未來展望 ................................................... 第 7 章 參考文獻 ......................................................... 附件 1、實驗結果呈現 ...................................................... 33 35 37 41 43 46. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. iv. i n U. v.

(9) 圖目錄 圖 1、Yahoo 奇摩電玩白皮書內容截圖:台灣 Top20 每日平均造訪人數網站排名 ......... 1 圖 2、電競比賽獎金已經媲美世界級體育盛事(註腳 2 附圖) .............................................. 2 圖 3、巴哈姆特熱門看板 ........................................................................................................ 6 圖 4、巴哈姆特熱門看板之人氣及文章數 ............................................................................ 6 圖 5、英雄聯盟哈拉板之分類 ................................................................................................ 6 6、英雄聯盟哈拉板之討論多元且品質參差不齊 ............................................................ 7 7、英雄聯盟:召換峽谷地圖 ............................................................................................ 8 8、英雄聯盟:遊戲畫面 .................................................................................................... 9 9、SOM 摘要器的流程[21] ............................................................................................... 18 10、巴哈姆特英雄聯盟哈拉板截圖 ................................................................................ 19 11、哈拉板討論串說明 .................................................................................................... 20 12、文章與資料表攔位建立 ............................................................................................ 23 13、討論串文章數排名 .................................................................................................... 26 14、系統簡略流程示意圖 ................................................................................................ 28. 立. 政 治 大. ‧ 國. 學. 圖 圖 圖 圖 圖 圖 圖 圖 圖. ‧. 圖 15、各詞彙 TF-IDF 數值 .................................................................................................... 32 圖 16、分詞前後比對及其分群結果 .................................................................................... 37 圖 17、以文章為輸入之分群結果 ........................................................................................ 38. n. er. io. sit. y. Nat. al. Ch. engchi. v. i n U. v.

(10) 表目錄 表 表 表 表 表. 1、文章資料表之欄位及其說明 ...................................................................................... 22 2、關鍵字資料庫類別及其關鍵字數量 .......................................................................... 24 3、關鍵字比對結果概觀 .................................................................................................. 25 4、前二十高文章數之討論串 與 關鍵字 間的關聯 .................................................... 27 5、句子向量空間模型以矩陣表示舉例 .......................................................................... 33. 表 6、重新補全並排序後的關鍵字資料庫類別及其關鍵字數量 ...................................... 34 表 7、兩個英雄所對應的詞彙 TF-IDF 排序 .......................................................................... 39 表 8、摘要結果分類取出句子數 .......................................................................................... 40. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vi. i n U. v.

(11) 第 1 章 緒論 1.1 研究動機與目的 1 2014 年 Yahoo 奇摩電玩白皮書 指出,根據 Nielsen 2014 Q1 的市場調查顯示,台. 灣 13~65 歲的人口中,有 745 萬人是遊戲玩家,佔了該調查總人口的 41%。依據公開資 訊觀測站的資料,台灣所有上市、上櫃的線上遊戲公司營收總和,2013 年總計為 277 億新台幣。白皮書中依據 comScore 的統計,將 2014 年 3 月造訪過遊戲網站的網友視為. 政 治 大. 整個遊戲的潛在族群,以這族群的平均每日造訪人數製作成下表(僅收錄台灣地區),如. 立. 圖 1 所示。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1、Yahoo 奇摩電玩白皮書內容截圖:台灣 Top20 每日平均造訪人數網站排名 1. https://marketing.tw.campaign.yahoo.net/emarketing/materials/download/2014%20YahooYahoo 奇摩遊戲 白皮書.pdf 1.

(12) 白皮書表示台灣前 20 名僅有三個遊戲相關的網站,分別是第 13 名的巴哈姆特、第 15 名的英雄聯盟官網跟第 17 名的 Garena 官網,Garena 為英雄聯盟在台灣、香港和澳 門地區之代理商。事實上第 20 名的 RAIDCALL 雖為語音通訊軟體,由於有群組語音聊天 以及群組階層式管理功能,在台灣遊戲社群中亦占有重要地位。 電競在近幾年興起2,目前全球電競相關人口為 15 億人,總產值約 800 億美元,台 灣電競人口達 600 萬人,總產值約 120 億台幣。電競比賽獎金已經媲美世界級體育盛事 如圖 2 所示。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2、電競比賽獎金已經媲美世界級體育盛事(註腳 2 附圖). 總統當選人蔡英文的特助李俊毅表示,國外已經有許多國家將電競選手正式列為國 家級的運動選手,東南亞國家也將電競納入運動會項目,其中韓國政府已將電競列為國. 2. 挺電競!提倡國家級運動 新政府要辦總統盃 http://www.chinatimes.com/newspapers/20160409001108-260202 2.

(13) 家級賽事。未來電競如果正式成為國際賽事,台灣屆時再發展就太慢了,因此台灣新政 府已公布五大重要產業,電競是政府應該要支持的新興產業之一。對於台灣的電競產業 政府應扮演支持及排除障礙的角色,希望 520 總統就職後可以推動總統盃電競比賽,並 提倡電競成為國家級運動項目,如果可以讓電競選手成為國家級運動選手,對選手本身 更有保障。 台灣電子競技聯盟共有 6 支隊伍,目前各地的電競團隊多由在地企業贊助。台灣電 子競技聯盟於 4 月 8 號宣布與遠東科大簽約,聯盟旗下電競隊伍台南鳳凰隊由遠東科大. 政 治 大. 認養,負責培訓、支付隊員薪水,該隊伍是台灣首支隊伍由學校贊助。遠東科大同時宣. 立. 布今年首度開辦多媒體與遊戲發展管理系,納入商管學院。. ‧ 國. 學. 目前一般玩家可以簡單、方便取得遊戲相關資訊的網路來源大致可分為:攻略網站、 wikia、電競新聞類網站、論壇網站。事實上遊戲相關網站類型越來越多元,以 Steam. ‧. 平台為例,它提供的功能包括:購買遊戲、記錄遊戲內數據、遊戲專屬新聞、討論、遊. Nat. sit. y. 戲評價。以下內容僅挑選各類提供遊戲相關資訊較具代表性的網站類型。. n. al. er. io. 攻略網站是針對特定遊戲或是某種遊戲類型的遊戲資訊網站,特別是適合電競的遊. i n U. v. 戲類型的攻略網站更為成熟、完整。已經有專門對 MOBA(Multiplayer Online Battle. Ch. engchi. Arena)類型遊戲設計的攻略網站。以 MOBAFIRE3為例,提供英雄聯盟、DOTA 2、SMITE 以及 INFINITE CRISIS,都屬於 MOBA 類型遊戲的攻略。該攻略網站提供表格格式讓玩家 輸入,因此其他人可以快速地查詢到相關資料。由於有評分機制,玩家們可以互相評分, 這點也提高玩家撰寫攻略不論是邏輯或是文法上的細緻度和意願。攻略網站另外也會提 供統計資料,例如:角色勝率、擁有某樣裝備的勝率以及任何有關提高玩家勝率的資料。 Wikia 創立於 2004 年 10 月,主要提供維基服務,集結了許多不同族群的 wiki 站, 免費提供使用者參與閱讀和編輯,以廣告作為收入來源4。由於線上遊戲、手機遊戲的盛. 3 4. http://www.mobafire.com/ http://zh.wikipedia.org/wiki/Wikia 3.

(14) 行,遊戲內容必須時常更新,wikia 提供的維基服務特性正好可以讓玩家們即時分享, 因此在 wikia 可以找到不少熱門的遊戲族群。例如:神魔之塔 攻略 Wiki5提供神魔之塔 相關的資料、攻略。玩家的熱情越高則遊戲數據越能夠被即時增加、修改、刪除、更加 完整。 由於電競的興起,台灣也有經營電競相關的公司,例如:ESR、4GAMERS 專門蒐集提 供比賽資訊、遊戲消息、選手消息等各種新聞。另外香港的 HKES 公司除了提供電競相 關訊息,旗下擁有多款遊戲的電競隊伍,且成員多為台港地區的玩家。. 政 治 大. [1]認為眾多網路資料中,以論壇留言板的發表文章限制程度最低,其用戶可迅速. 立. 藉由論壇留言發表個人言論。以「巴哈姆特電玩資訊站」為例,標題以及內容不要違反. ‧ 國. 學. 版規,論壇網站任何人都可以在上面發言。玩家會在上面搜尋遊戲資料,令自己對於這 款遊戲更容易上手,或是詢問、討論各種問題,交流彼此的心得或經驗。因此[1]同時. ‧. 認為若挖掘論壇留言板資訊,必可得到較即時之趨勢與相關資訊。. Nat. sit. y. 長久以來,台灣遊戲論壇流量一直是以「巴哈姆特電玩資訊站」為最大(後文將以. n. al. er. io. 巴哈論壇稱之),第 2 名為遊戲基地。在 2014 年六月,巴哈論壇為台灣第 8 大流量之造. i n U. v. 訪網站,單日網頁瀏覽量約為 2800 萬、單日不重複使用者約為 130 萬6。 巴 哈 論 壇 的. Ch. engchi. 前幾名熱門看板單日人氣幾乎都會超過數十萬,其中英雄聯盟及神魔之塔自遊戲發行以 來,每日人氣平均在百萬附近。 每天來自不同使用者發表的言論非常多,且大多數的文章為非結構性文章。當論壇 新手或遊戲新手想要針對熱門遊戲了解更多,因為其高人氣造成的高文章數,遊戲討論 非常熱烈且非常多元,令新手想要得到欲查詢的資訊可能需要爬不少文章、過濾非常多 的資料。 本篇論文以巴哈遊戲論壇中的英雄聯盟看板文章為例,欲提出一個文章整合器的概. 5 6. http://zh.tos.wikia.com/wiki/神魔之塔_Tower_of_Saviors_維基?variant=zh-tw 網站流量資料來源:www.Alexa.com 4.

(15) 念。使用者透過搜尋關鍵字,系統整合所有與關鍵字有關的文章,並依照分類,以人類 看得懂的順序條列重點式列出,達到使用者只需要看完整合過後的文章就能快速地了解 該關鍵字之概觀,節省爬文時間。 考慮到現今論壇文章以文字為主軸,圖片、影音為輔,本篇論文參考中文文件自動 摘要系統設計,以抽取為基礎(extract-based)的摘要方式,產生一篇涵蓋關鍵字的相 關分類之純文字文章,目前此系統僅針對「英雄」類別實作。. 政 治 大. 1.2 背景:巴哈姆特電玩資訊站. 立. 巴哈姆特電玩資訊站成立於 1996 年 11 月,一開始為「巴哈姆特 BBS 站」,只有 17. ‧ 國. 學. 個討論板。2000 年《數位周刊》調查,巴哈姆特為遊戲情報類第一大網站、全台灣第 65 大網站。2006 年 8 月 Alexa 調查數據顯示,巴哈姆特名列全球 TOP 150 網站之一。78. ‧. 此論文選擇分析巴哈論壇裡的英雄聯盟看板,原因是該遊戲自 2010 年 7 月於台灣. Nat. sit. y. 發行遊戲,即擁有大量的玩家,且截至 2015 年 2 月在巴哈論壇的前三名熱門看板,英. n. al. er. io. 雄聯盟幾乎不曾缺席,如圖 3 所示。. 7 8. Ch. engchi. http://prj.gamer.com.tw/10y/history.php http://zh.wikipedia.org/wiki/巴哈姆特電玩資訊站 5. i n U. v.

(16) 圖 3、巴哈姆特熱門看板. 學. ‧ 國. 立. 政 治 大. ‧ sit. y. Nat. 其看板之文章數大量如圖 4 所示,2015/2/9 單日增加的文章就有 1622 篇。討論之. io. al. n. 為大量,內容品質參差不齊,如圖 6.所示。. Ch. engchi. er. 主題多元從遊戲討論至相關的玩家創作都有,如圖 5 所示。並且該看板文章、使用者均. i n U. v. 圖 4、巴哈姆特熱門看板之人氣及文章數. 圖 5、英雄聯盟哈拉板之分類 6.

(17) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 6、英雄聯盟哈拉板之討論多元且品質參差不齊. 7.

(18) 延續動機所述,面對龐大的資料雖然有搜尋功能輔助,但其效能不足,使用者仍需 花費許多時間了解整個遊戲的系統、過濾有用的資訊。[2]認為,於半結構與非結構化 的文件資料內,就算表達同樣內容,也將依撰寫者習慣不同而使資料的表達結果相異。 因為論壇這個難以預測的特性,更是將探勘論壇的難度提高。. 1.3 背景:英雄聯盟 《英雄聯盟》原英文名為 League of Legends,簡稱 LOL,是由美國 RiotGames 所. 政 治 大. 研發的步調緊湊、多人競技的網路遊戲9,結合 RTS(即時戰略)和 RPG(角色扮演)的元素。. 立. 在經典地圖可 10 人遊玩,一名玩家控制一個英雄,分成兩隊、一隊 5 人。兩隊從位於. ‧ 國. 學. 地圖兩側(左下及右上)之主堡開始遊戲,「破壞敵方之主堡」或「使敵方投降」以取得 勝利。玩家操控一隻英雄,配合隊伍以及戰術破壞一系列防禦塔,最後試圖破壞敵方主. ‧. 堡。地圖如圖 7 所示。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 7、英雄聯盟:召換峽谷地圖. 地圖分成三條主要路線,分別為上、中、下路。主堡會定時每 30 秒派出一波小兵 9. 英雄聯盟:英文官方網站 http://euw.leagueoflegends.com/ 8.

(19) 到三路上。每條主要路線均有三座防禦塔及一個兵營。各主要道路中間各有一個野區(又 稱 jungle) ,野區內固定的地點會有中立怪物。玩家可以透過殺死敵方小兵、敵方英雄 或野區的中立怪物來提升自己的英雄等級。擊殺英雄或小兵可以獲得金幣,以購買裝備 來提升英雄的能力。每個英雄都從等級 1 開始,最高到等級 18,提昇等級時獲得一點技 能點,可以學習或強化一個技能,每個英雄都有 4 個技能。遊戲畫面如圖 8 所示。畫面 中央為操控之英雄,左下角為英雄頭像、屬性、裝備欄,下方為英雄的技能欄及狀態, 右下角為地圖,畫面左方四個小頭像顯示隊友的狀態。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 8、英雄聯盟:遊戲畫面. 另外有兩個系統,分別為天賦跟符文系統。天賦系統分成 3 個系10,分別是 OFFENSE、 DEFENSE、UTILITY,玩家可依據英雄類型、在隊伍中的定位配置天賦。從天賦系統 3 個 系的英文理解,我們可以將攻擊、防禦或是通用方面的能力加強。符文和天賦類似11,. 10 11. 天賦系統介紹 https://lol.garena.tw/game/mastery 符文系統介紹 https://lol.garena.tw/game/rune 9.

(20) 可以強化英雄的屬性:如物理攻擊力、魔法攻擊力、魔法防禦力、物理防禦力等。 遊戲目前有 123 名英雄,共分為刺客、法師、坦克、輔助、鬥士、射手六類。以圖 8 為例說明遊戲玩法。我們使用的英雄是蓋倫,蓋倫的等級為 7,下方最左邊是被動技 堅韌,點出了三個技能(沒有點 Q 致命打擊),分別是勇氣(W)、審判(E)、蒂瑪西亞制裁 (R─大絕招,等級 6 才能點)。由於蓋倫的技能都是以物理攻擊力為基礎加成,是屬於 坦克、鬥士類。在隊伍定位中,隊友們希望每個人都可以有更高的傷害輸出,因此我可 能會將攻擊天賦點滿、符文都帶物理攻擊符文,裝備都買增加物理攻擊的。裝備欄第一. 政 治 大. 個裝備(左上角)為殘暴之力:+20 物理攻擊、+10 物理穿透,第二個裝備(中上方)為吸. 立. 血鬼權杖:+15 物理攻擊、+10%普攻吸血,第三個裝備是愛歐尼亞之靴:+45 跑速、減. ‧ 國. 學. 少技能 10%冷卻時間。從右下角地圖中得知隊友集中在中路和右邊敵方叢林,因此我決 定從中路前往支援以準備對付敵方英雄。. ‧. 英雄聯盟在電競比賽中獲得成功。2010 年舉行第一次世界電子競技大賽。Season 1. Nat. sit. y. Dreamhack 世界大賽 2011 年 6 月於瑞典舉行,獎金 10 萬美元,超過 160 萬人次在表演. n. al. er. io. 期間觀看實況轉播。Season 2 世界大賽 2012 年 10 月於洛杉磯舉行,來自台灣的台北暗. i n U. v. 殺星於冠亞軍賽擊敗韓國 AZF 隊奪得冠軍,贏得 100 萬美元。英雄聯盟每年均會舉辦一. Ch. engchi. 次世界大賽,歐美洲、亞洲等各地區每季也有地方性大比賽。1213 由於英雄聯盟在世界各地的熱門程度,因而引起的討論話題亦不在少數。除了電競 比賽中有著高人氣,更有 TWITCH 遊戲實況主因玩英雄聯盟有名。因為英雄聯盟在台灣 的高討論度、且在巴哈論壇有高文章數,我們希望以遊戲入門新手之觀點切入,上巴哈 姆特的主要目的應該為查詢某隻角色,該如何點技能、買裝備、配置天賦及符文、打法 或遊戲心得,讓自己玩遊戲更得心應手、高人一籌。因此欲針對遊戲心得或攻略的文章 進行內容篩選。. 12 13. http://dl.garenanow.com/lol/loltw/web/events/20120830_guide/ http://zh.wikipedia.org/wiki/英雄联盟 10.

(21) 1.4 論文結構 本論文分成六章。第二章介紹網路論壇探勘與文件自動化摘要相關的研究。第三章 分析遊戲論壇文章特色。第四章依據論壇文章特色設計論壇多文件摘要系統。第五章對 系統產生結果進行分析與討論。最後一章是結論與未來研究發展方向。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 11. i n U. v.

(22) 第 2 章 相關研究 本論文提出針對遊戲論壇的中文文章整合方法,依照使用者的輸入,對設定好的 類別輸出該類別最具代表性的句子。因此主要參考了論壇探勘技術及文件自動摘要技術, 期能達到研究目的。 第 1 節先了解並分析論壇的特性,研究如何從論壇挖掘出潛藏的資訊,並認識探 勘論壇會遭遇的困難。主要應用在對龐大論壇資料的前處理及權重計分的部分。第 2 節 介紹文件摘要系統的分類及較常見的方法。根據論壇的特性,設計較能擷取論壇多篇文. 政 治 大. 章摘要的方法。第 3 節參考了基於分群方法的新聞文件摘要系統的做法及流程。由於新. 立. 聞文件與論壇文章的特性不同,我們參考其流程,在細節處理中做修改或混用其他常見. ‧ 國. 學. 方法。. 程順序詳述。. ‧. 在本研究中使用的方法及其參考文獻,會在後面第 4 章實驗方法各節當中,依流. n. al. er. io. sit. y. Nat. 2.1 論壇相關研究. Ch. i n U. v. [3]旨在透過社群行為特性(traits of community behavior)的考量,改善目前「非. engchi. 同步網路論壇」(Bulletin Board System, BBS)的搜尋效益,以增進學習者對研究資源 的複用性(reusability)程度。社群行為特性包括三項,即:時間趨勢、相關的活躍會 員、與參考資源,再提供使用者從這三個特性進一步的資料過濾。 論壇裡被記錄下來的討論過程一旦數量龐大,若要具有效的被利用性 (reusability),則必須要借助特定情境而設計的搜尋機制才能辦到。該研究中重要的 演算法為「最長共同子序列」(Longest Common Subsequence, LCS)與最長共同連續子 序列(Longest Common Consecutive Subsequence , LCCS)。 由[3]中我們得知目前的網路論壇查詢結果的排序方式並無法更具智慧化的將文章. 12.

(23) 排序及呈現,當搜尋結果的資料樹很多時,使用者需要花費大量時間精力逐一過濾,無 法快速找到有價值的相關文章。 我們參考該研究的權重排序處理、主題特徵擷取、搜尋結果呈現,討論主題、關鍵 字的文章頻率均是著重的地方。該研究提出改善目前網路論壇搜尋效益的方法,並讓使 用者深入了解文章內情境屬性特性,改良搜尋結果的呈現方式,推薦使用者應該瀏覽哪 些文章以期降低使用者在搜尋資料時的困擾。我們的研究則是呈現與搜索詞有較大關聯 的相關文章摘要。另外不同的是,我們還沒有考慮文章附件描述、時間趨勢分析、推薦. 政 治 大. 活躍會員的部分。如果能處理圖像、影片的描述,某詞彙在時間趨勢分佈,活躍會員之. 立. 文章權重計算,摘要結果應該能夠更準確。. ‧ 國. 學. [1]旨在發掘論壇文章特徵值、分析特徵值間關聯性,並比較文章趨勢與台灣總票 房銷售金額間之關聯性。探勘方式依序採用頻率分析、相關係數分析與特徵值加權法。. ‧. [4]認為資料探勘僅能從已結構化(structured)之資料庫中萃取出個別屬性之潛藏資訊,. Nat. sit. y. 而對於半結構化(semi-structured)與非結構化(non-structured)的文件資料處理不易。. n. al. er. io. [1]認為除了會遭遇文字探勘及網頁探勘的問題外,也會衍生其他詞彙參雜問題:1. 語. i n U. v. 意中含有新穎字彙(囧、牛逼、哈味等用法)。2. 多種難辨識之字彙(火星文、注音文與. Ch. engchi. 表情符號等)。3. 大量的引用文章。. 本論文部分參考[1]中發掘論壇文章特徵值之方法。另外該研究有採用正反向評價 字彙量度特徵,例如:超好看>想看>不錯>不想看>超難看,本研究並無採用,但未來若 加入此功能則能對摘要計算推薦或是反對的程度。 [5]認為遊戲論壇資料豐富且資訊快是適合的資料來源,但是使用者在遊戲論壇找 資料需要花費大量時間。在分析遊戲論壇的性質之後,會造成該問題的主要原因為:1. 主題不足以代表文章內容。 2. 討論主題性質多樣及討論內容重覆。除此之外使用者還 有可能遇到以下幾種問題:使用者不一定能輸入合適的查詢字串[6],使用者的目標可 能不明確[7]以及使用者不易描述所需資料的特性以產生查詢字串[8]。 13.

(24) 因此[5]提出用主題分類方法來縮小搜尋範圍,並用主題摘要方式來減少閱讀模糊 主題及重複內容造成的額外時間浪費。其實際做法為:在每個討論串後標註主題分析結 果以及內文關鍵字擷取,讓使用者未點進查閱更詳盡的內容即可大概了解該討論串之討 論方向。這邊我們參考如何利用 TF-IDF 設計權重函式並建立關鍵字資料庫,同時設計 簡單使用的查詢方式:只要輸入英雄名稱,即可產生關於該英雄各面向的摘要。 由於我們的資料來源是巴哈姆特論壇,希望將資料抓回來自己的伺服器以加速處理 速度,於是我們會需要網路爬蟲將整個英雄聯盟看板的資料下載回來。網路爬蟲(Web. 政 治 大. Crawler)是一種自動化瀏覽網路的程式,被廣泛用於網際網路搜尋引擎或其他類似網站,. 立. 以取得或更新這些網站的內容和檢索方式。它們可以自動採集所有能夠存取到的頁面內. ‧ 國. 學. 容,以供使用者做進一步處理[9]。. ‧. 2.2 文件摘要相關研究. Nat. sit. n. al. er. io. [11][12]:. y. [10]整理出摘要系統根據其不同的輸入、目標與輸出,有各式各樣的分類如下. i n U. v. 1. 輸入文件的不同:可分為單文件與多文件摘要系統。單文件摘要系統的輸入即為單. Ch. engchi. 篇文件;多文件摘要系統的輸入則為一群有相同主題的多篇文件。 本摘要系統為多文件的摘要系統。另外可根據輸入文件的語言(單一語言、多語言、 跨語言摘要系統)、形式的不同(文本與多媒體摘要系統),以及是否需要額外的訓練資 料(非監督型、監督型摘要系統)來分類。本摘要系統為單一語言、文本(純文字的文件)、 非監督型(即不額外需要訓練資料)摘要系統。 2. 摘要的目標不同:根據摘要的功能(資訊性、指示性摘要系統)、內容(一般性、使用 者導向摘要系統)的不同來分類。 資訊性摘要系統傳達輸入文件的各種訊息並意圖以此摘要取代整個輸入文件;指示 性摘要系統判斷輸入文件關於何種主題,其目的是讓使用者決定要不要細讀此輸入文件。 14.

(25) 本摘要系統屬於資訊性的摘要系統。 一般性摘要系統為將輸入文件中提及的所有資訊作為摘要;使用者導向摘要系統則 是需要使用者額外輸入query,依據此query產生摘要。本摘要系統是先預設好一個額外 輸入query的摘要系統(以提供遊戲攻略為出發點),未來也可依需求設計成query可變的 摘要系統。 3. 摘要的輸出不同:大致分為摘錄(Extraction)與摘取(Abstraction)兩種[13]。 摘錄(Extraction)的結果為文件中重要文句的重組,其做法比較不依賴額外的知識. 政 治 大. 或資源,主要是根據使用者的需求,從文件中選取重要文句,編輯組合成使用者預期的. 立. 長度即可。摘取(Abstraction)的結果則不限於文件中的文句,其作法需要較多人工準. ‧ 國. 學. 備的資源,如辭典、同義詞庫、詞性標記、語法樹等,經自然語言處理後,自動生成涵 蓋原文重點的簡潔文句。由於摘取所需資源較多,目前以摘錄為主的研究占較多數. ‧. [14]。. Nat. sit. y. 摘取(Abstraction)的概念擷取經常會透過文法壓縮的方式取得。步驟通常有主題. n. al. er. io. 融合(Topic Fusion)、文字生成(Text Generation),不需要文字擷取(Text Extractuin). i n U. v. [13]。因此近年來大部分有關摘要的研究重心都在探討如何從原文摘錄,摘錄. Ch. engchi. (Extraction)的方式可以比較接近原文件,因為是抽取原文件的句子,基本上所產生的 摘要內容是被限制在原文件的[14]。 本論文採用摘錄(Abstraction)的方式產生摘要,考慮到中文文法較為複雜,加上 論壇用戶語句用法不一無法預測,所需的前置作業需要更多的資源及準備,而且摘錄原 論壇文章的內容較易表達出原意,避免意料外的失誤判讀。 [10]亦整理出常見的摘要產生方法,可粗略分成下列幾種方法[15][16]:統計學 (statistical)方法、分群(clustering-based)方法、語意式方法、圖形理論方法、機 器學習方法、潛藏語意方法。 本摘要系統混和了分群方法及統計學方法。利用K-means Clustering將文件中所有 15.

(26) 的句子依照其語意的相關程度分群,一個群即代表一個主題,將摘要句子之間的重複性 達到最小。再利用統計字詞頻率、專有名詞、TF-IDF等各種特徵從各主題間挑選出代表 句子。之所以在K-means之後混和統計學方法是因為我們擔心論壇文章屬於半結構化或 非結構化文章,句子間的語意相關程度太低,單使用分群方法或許無法有效提取摘要, 故後面追加統計學方法,希望在統計數據上能客觀地補足。. 2.3 以分群為基礎的摘要方法. 政 治 大. 在這知識爆炸的時代,文字充滿整個世界。人類無法有效解析巨大文字數量的內容。. 立. 這問題引起自然語言處理和機器學習領域的研究人員注意,過去有利用各種機器學習的. ‧ 國. 學. 演算法來解決識別垃圾簡訊,或是針對線上問題的Q&A進行分類比對。亦有依據內容, 改善部落格文章註解的方式[17]。因此本論文期望能透過分群演算法,將大量的論壇文. ‧. 章句子先分門別類,以利後續挑選摘要,提高其準確性。. Nat. sit. y. [13]最早在1958年提出以詞頻(Term Frequency)找出屬於摘要的句子,之後的相. n. al. er. io. 關研究加入了其他規則以選擇摘要。[18]利用字詞出現的多寡、或是位置來辨別出不同. i n U. v. 字詞的重要性。字彙主要有六種選取特徵:TF-IDF、標題字、提示片語(Cue-phrase)、. Ch. engchi. 偏見字(Biased Word)、跟主題相關的字、大寫字。句子主要有三種選取特徵:句子出 現的位置、句子所在段落的位置、句子長度。 在統計方法計算之後,有些研究會以分群法來辨別類似的主題,以避免在摘要中 重複著同一主題,也可以利用分群法來評估主題的重要性。[19]提出主題分段演算法, 若是在50字以上的多文件摘要,會進行字彙向量(由名詞、形容詞、動詞組成)的分群, 選取每一群最靠近中心點的句子為摘要。[20]提出以分群演算法把語意相關的句子分在 一起,句子之間的相似度是以出現在句子中名詞的距離來計算,分群之後再從每一群之 中找出主題。 [14]透過分析文件內容語意,藉以幫助挑選文件中具有較多語意資訊的句子。分 16.

(27) 析過程可分成兩大步驟:(1) 找出隱藏在文件中的重要概念 (2) 分析內容語意要先分 辨出哪些概念是相同或是不同的,亦即語意歧異解析,並將相同的概念分在同一群之中; 再使用K-Means分群法,將前一步驟找出的概念加以分群,以解決語意歧異的問題,並 去掉重複的概念。確定文件內容語意之後,根據概念的分群結果、句子的資訊含量、句 子在文章中的位置等不同的特徵選擇出最能代表文件集的句子。本論文參考[14]採用 K-Means分群法。 在[21]中提到,以分群為基礎的自動摘要技術是利用分群(Clustering)方式,將文. 政 治 大. 件中語意相似的句子分至同一群中,找出文件中的子主題(subtopic),再從各子主題之. 立. 間選出較佳的句子,當作摘要。[21]提出了兩種分群式文件摘要器(clustering text. ‧ 國. 學. summarizer)來抽取出文件中重要的語句產生摘要。第一個方法是使用自我組織映射 (Self-organizing Map)技術,透過此方法將文件句子做分群,再從各群之中挑選最佳. ‧. 的句子當作摘要。第二個方法,結合潛在語意分析(Latent Semantic Analysis)與自我. Nat. sit. y. 組織映射技術,透過潛在語意分析將文件中的句子隱含的語意挖掘出來,將分析後的句. n. al. er. io. 子透過自我組織映射進行分群,再從各群之中挑選最佳的句子當作摘要。. i n U. v. [21]的研究中,挑選句子之前必須決定各群挑選的優先權,優先權的決定方式則為. Ch. engchi. 將每一群的所有句子分數做加總,總分數越高則該群的優先權越高。句子分數的計算方 式則是根據「句子的關鍵字含量」 、 「句子在文件中的位置」 、 「句子的標題含量」 、 「句子 的 TF-IDF(term frequency – inverse document frequency)強度」來決定之。本論文 參考此處設計計算句子分數以及挑選句子的方法。不過在各群優先權的挑選部分,由於 分析論壇文章特性之後(於第 3 章詳述),我們已知道那一類為玩家最常討論,決定參考 遊戲攻略排版,預先排好群的優先權,將討論較熱門的類別排序在前面。 之所以考慮了分群,是因為他們假設摘要者在挑選了一句子當作摘要時,會儘量不 再挑選與該句極為相似的句子。句子分群後,使得挑選摘要句子得以從不同群的句子中 挑選,以避免重複挑選出相似的句子。與我們實驗分群的目的有點相同又有點不同,他 17.

(28) 們主要目標是避免重複挑選相似句子,我們主要是希望分群方法能將句子分門別類,再 依預設好的分類挑選出前 20 個具有代表性的句子,避免重複挑選出相似句子並非我們 主要目標。我們的想法是,如果類似的句子一再被玩家討論,則該句子應該具有代表性。 [21]其中第一個自我組織映射語句摘要器系統,透過自我組織映射技術將文件句子 分群,再從各群之中挑選最佳的句子當作摘要。整個 SOM(Self-organizing Map)摘要器 包 含 三 個 階 段 , 分 別 為 (1) 前 置 處 理 (Pre-processing) , (2) 概 念 分 群 (Concept Clustering),(3)語句挑選(Sentence Selection),圖 9 為系統架構圖。我們研究主要 參考此架構圖。. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. a l 圖 9、SOM 摘要器的流程[21] v i n Ch engchi U. 由於論壇文章與新聞文章的特性並不同,本論文所採用的摘要系統架構是分析論壇 文章之後,針對其特性參考並混和了幾種一般文章摘要器的做法,部分過程修改或是重 新定義以符合對論壇多篇文章擷取摘要的特性。. 18.

(29) 第 3 章 初步資料分析 3.1 資料 巴哈論壇討論板有許多不同遊戲的看板,每個看板有看板首頁、板規、文章列表、 精華區、作品介紹。我們實驗資料來源為 LOL 哈拉板文章列表裡的文章。文章列表底下 有許多分類,作者撰文時可以自由選擇分類,板務人員有權力將一篇文章重新分類。 圖 10 中以置頂文章:【討論】板務建議專區為例,第一欄為分類,第二欄為標題, 每個標題為一個討論串,後面… 4 5 6 代表的是該討論串有 6 頁,點數字可以跳轉至該. 政 治 大. 頁。第三欄 GP 類似 FB 的讚(LIKE),代表此討論串共有 50 個 GP;第四欄 111 代表此討. 立. 論串有 111 人回覆,包含本文此討論串共有 112 篇文章,人氣就是點閱數;第五欄最後. ‧ 國. 學. 發表的日期時間為最後一篇回覆,之後的文章編輯並不會更改此數值。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 10、巴哈姆特英雄聯盟哈拉板截圖. 19.

(30) 一個討論串點開後顯示的畫面如下圖,一個討論串裡討論的主題通常不會偏離太遠, 除非是刻意行為。若偏離主題太遠,管理員發現會將之刪除。以圖 11 為例,是標題為 「新手如何上手」的討論串,左圖為該討論串的 1 樓(第一篇文章,通常為開始此標題 的第一篇文章,除非該篇文章被刪除)、右圖為 2 樓。我們的實驗會將此討論串視為兩 篇文章,且屬於同一討論串。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 11、哈拉板討論串說明 由於巴哈遊戲論壇的文章量非常多,因此我們會需要網路爬蟲(crawler)將欲分析 處理的資料下載,讓系統得以快速地從本地端資料庫取出資料並進行分析。 網路爬蟲是一種自動化瀏覽網路的程式,被廣泛用於搜尋引擎,以取得或更新這些 網站的內容和檢索方式。其原理為爬蟲會始於一張稱作種子的統一資源位址(URLs)清單, 當爬蟲存取一個 URL,會在他執行的過程中複製、儲存網站上的資訊,同時間識別出頁 20.

(31) 面上所有的超連結,並將它們寫入一張待訪清單,即所謂爬行疆域(crawl frontier)。 此疆域上的統一資源位址將被按照一套迴圈存取14。 於 2013 年 5 月 29 號使用 HTTrack Website Copier 軟體針對巴哈論壇的英雄聯盟 看板進行複製,包含文章列表各分類下的文章以及精華區,共有 24,022 個 html 檔案。 每個檔案即為一個網頁頁面,一個頁面擁有不一定數量的文章。我們需要將文章內容以 及實驗過程中或許會參考到的數據擷取出來並儲存至資料庫,以便之後的分析。 接著使用 php 語言,讀取 html 檔並利用正規表示式對於 html 特定標籤進行擷取,. 政 治 大. 最後存入 MySQL 資料庫15。扣除掉重複的資料剩下 27,669 筆資料。每一筆資料均為一篇. 立. 文章,其資料表欄位及其說明如表 1 所示:. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 14 15. Ch. engchi. https://zh.wikipedia.org/wiki/網路蜘蛛 網頁擷取可使用 python 的 BeautifulSoup 套件更為方便 21. i n U. v.

(32) 表 1、文章資料表之欄位及其說明 欄位名稱. 欄位說明. ArticleID. 文章 ID (網頁上不會呈現,透過 html 內容解析). Title. 文章標題. AuthorID. 作者 ID. AuthorName. 作者名稱. AuthorLV. 作者的等級. 政 治 大 作者所有的文章被給予「好」的點數 立. AuthorGold. 作者擁有的金錢. AuthorGP. 留下 html 換行符號之文章內容. GP. 該篇文章得到的「好」的點數. Nat. n. al. ParentArticleFloor 該篇文章所屬討論串之樓層 Datetime. y. sit. 該篇文章所屬討論串之 ID (網頁上不會呈現,透過 html 內容解析). io. ParentArticleID. 該篇文章得到的「不好」的點數. Ch. engchi. er. BP. ‧ 國. Content_br. ‧. 不含任何 html 標籤之文章內容. 學. Content_no_tag. i n U. v. 該篇文章最後編輯日期、時間. 圖 12 為儲存的 html 以瀏覽器開啟的畫面,html 呈現畫面與 MySQL 資料表欄位的對 應圖。ArticleID、ParentArticleID 並不會在網頁上呈現,僅能透過 html 內容解析取 得。Content 內容取得後,會含有大量 html tag,因此另外儲存了不含任何 html 標籤 文章內容及僅留下<br>標籤之文章內容。之所以留下<br>標籤,是由於在遊戲論壇中通 常以換行代表一個句子,而非使用句號。. 22.

(33) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. al. v i n 圖C12、文章與資料表欄位建立 hengchi U. 由於實驗的目標是文章整合器,我們打算以新手為出發點,以對這個遊戲毫無所知 為前提,希望能夠提供使用者較為有價值的資訊。為了提供以上資料,我認為最便利的 方式即為攻略,因此我們參考國外大型攻略網站的呈現方式及內容,作為整合器最後輸 出的參考。 接著,我們分析論壇文章,希望從分析結果能得到一些假設,並以那些為基礎繼續 設計實驗方法。為了分析文章之特徵,建立數個類別的關鍵字資料庫如表 2.所示。其關 鍵字選取的準則為:若為討論玩法、心得走向的文章,會使用到的主題相關字詞,例如: 裝備、英雄名稱以及遊戲中其他會使用到的用詞。由於玩家於論壇中發表的文章可能會 23.

(34) 有選字錯誤或是使用別名,在此關鍵字資料庫也將有錯別字的詞及別名一併納入。. 表 2、關鍵字資料庫類別及其關鍵字數量 關鍵字資料庫. 資料筆數. 裝備名稱. 241 筆. 英雄名稱(含中英文). 282 筆. 技能. 立. 4筆. 戰術 治 12 筆 政 大8 筆 地圖. ‧ 國. 學. 在這個階段所使用的初步分析方法為:將文章資料庫中同討論串的文章內容與關鍵. ‧. 字比對,計數該討論串中出現幾個關鍵字以及出現了幾次,不同類別之關鍵字資料庫分. sit. n. al. er. io. 3.2 初步分析. y. Nat. 開計數,以顯示出討論串與討論主題之關聯度。. Ch. engchi. i n U. v. 我們知道,一個論壇不可能所有人都只對特定主題發表言論,譬如不可能所有人都 寫新手攻略。就算是攻略,寫法或是內容深度也因人而異。而且,遊戲的內容並不是一 個遊戲的全部,論壇一定會跟現實有所連結,所以會有更多的心得文、發問文甚至廢文。 每個人關注的地方也會有所不同,譬如我是電競觀眾,那麼我就會特別注意比賽、選手 資訊;我是休閒玩家,我可能會多看大家的打法、配裝;我是重度玩家,我在意的是勝 率,因此我會看更多統計資料,哪個英雄可以讓我贏更多遊戲,哪個裝備更能發揮該英 雄特質。 在這邊,我們並未嘗試對關於電競比賽的主題作分析,原因是論壇為比較偏向發表 主觀意見的平台,尤其是牽扯到比賽,玩家更難以客觀的角度討論。以下為簡單的對論 24.

(35) 壇文章分析: 27,669 筆資料中包含了 1,768 個討論串。分別記錄各討論串的文章數、各類別關鍵 字出現的種類數及總共出現的次數,表 3.為總體各項目的平均數、標準差、中位數。從 表中可以發現,玩家對於英雄、裝備和戰術的討論是比較多的,然後才是技能和地圖。. 表 3、關鍵字比對結果概觀 平均數 文章數. 立. 中位數. 30.61. 6. 8.75. 0. 14.58. 0. 22.23. 2. 英雄名稱關鍵字種類. 8.92. 英雄名稱關鍵字次數. 14.68. 67.79. 2. 戰術關鍵字種類. 2.50. 7.03. 0. 戰術關鍵字次數. 3.91. 10.68. 0. io. er. Nat. al. ‧. ‧ 國. 3.63. 學. 裝備關鍵字次數. y. 政 治15.13大 2.53. sit. 裝備關鍵字種類. 標準差. 0. e n g c h i1.62. 4.86. 0. 地圖關鍵字種類. 0.18. 0.98. 0. 地圖關鍵字次數. 0.25. 2.05. 0. 所有關鍵字種類. 15.07. 32.12. 4. 所有關鍵字次數. 24.09. 78.41. 5. n. v 2.46. 技能關鍵字種類. 0.93. 技能關鍵字次數. Ch. i n U. 每個討論串平均有 15.13 篇文章,但是討論串中超過 100 篇文章的只有 14 個,50 篇以上未滿 100 篇文章的討論串有 119 個,超過 50 篇文章以上的討論串,約占 1,768. 25.

(36) 個討論串中的 7.52%。從圖 13 可以看出討論串的文章數分布可以看出來玩家僅對於少數 的文章會有較高的發言參與度,其餘約 92.48%的討論串文章數不滿 50 篇。. 500 400. 文 300 章 數 200. 立. 100. 1 60 119 178 237 296 355 414 473 532 591 650 709 768 827 886 945 1004 1063 1122 1181 1240 1299 1358 1417 1476 1535 1594 1653 1712. ‧ 國. 學. 0. 政 治 大. 討論串文章數分布. ‧. 圖 13、討論串文章數排名. sit. y. Nat. n. al. er. io. 文章數前三高(文章數分別為 512, 374, 344)的討論串均是以電競比賽為主題,三. i n U. v. 場比賽在英雄聯盟的賽事規模都算大,且比賽也有配合實況播出。不過考慮到賽事、電. Ch. engchi. 競隊伍、選手資訊更為複雜,暫時未將此部分做為實驗對象。 接著我們觀察文章數前 20 名的討論串,玩家有興趣的主題依序是裝備、英雄、戰 術,最後是技能、地圖,結果如表 4 所示。. 26.

(37) 表 4、前二十高文章數之討論串 與 關鍵字 間的關聯 有裝備關鍵字出現的討論串數. 20 / 20. 有技能關鍵字出現的討論串數. 11 / 20*. 有英雄名稱關鍵字出現的討論串數. 5 / 20. 有戰術關鍵字出現的討論串數. 5 / 20. 有地圖關鍵字出現的討論串數. 1 / 20. *由於技能關鍵字分別為 q、w、e、r,出現機率太高,透過人工篩選後為 1 篇. 政 治 大 綜合“關鍵字出現次數”及“玩家有興趣的主題”的結果,我們將會由“英雄”的 立. ‧ 國. 學. 角度出發,然後按優先度依裝備、戰術、技能呈現整合器的輸出結果。會以“英雄”為 分析主軸,其中也是因為英雄聯盟遊戲的特性。該遊戲每次都需要和其他四位玩家組隊. ‧. 並與另外五位敵對玩家競賽,而每位玩家可以操縱的單位即是一名“英雄”。. n. er. io. sit. y. Nat. al. Ch. engchi. 27. i n U. v.

(38) 第 4 章 設計與實作系統 本系統之設計參考各文獻,架構主要參考[21]設計,大致可分為三階段:1. 資料前 處理 2. 分群 3. 句子挑選。詳細方法的說明及其參考文獻將於本章各節詳述。簡略示 意圖及流程如圖 14 所示:. 立. 政 治 大. Nat. y. ‧. ‧ 國. 學 圖 14、系統簡略流程示意圖. io. sit. 系統流程(對應圖中橢圓形步驟):. n. al. er. 1. Term Extraction:從 MySQL 資料表中取出標題或內文含有欲查詢英雄的文章,並將. Ch. i n U. v. 標題視為文章的第一個句子。將所有文章斷句,斷句的依據是“<br>”及“。”,. engchi. 將句子利用“結巴”分詞。計算每個詞的 TF-IDF,僅保留前 33%的詞以進行接下來 的分析。 2. Identify Sentence:僅保留 8 個詞以上的句子,並去掉停用字。 3. Sentence representation -> Sentence Vector:建立句子向量空間,以矩陣儲存, 矩陣為 K-means 分群法之輸入。並計算每個句子的分數。 4. K-means Clustering:用 K-means 分群法對句子分群。 5. Calculate Cluster Total Score:計算群的分數,以決定群是屬於哪類。 6. Cluster Priority:依預先設定好的群優先權排序結果呈現順序。. 28.

(39) 7. Sentence Selection:再重新計算每一群中的句子分數,以挑選跟該群特徵較為相 似的句子。最後各群選前 20 高分的句子作為其輸出。. 4.1 資料前處理 從 MySQL 資料表取出標題或內文含有欲查詢英雄的資料,會這樣大範圍的查詢是因 為並非所有作者會在標題內輸入英雄全名,有可能是輸入大家常用的別名或者不小心打 錯字,不過通常會在內文詳述主題。但這樣做卻引發另一個問題:提到該英雄的文章都. 政 治 大. 會被加進去分析,就算事實上該文章是在討論另外一個英雄,這會干擾到實驗結果。不. 立. 過我們亦可將其解釋為另一個英雄與欲查詢英雄有關聯性。. ‧ 國. 學. 將標題直接視為文章的第一個句子,且不對標題多做分析,是因為論壇文章的標題 可能會誇大、與內文無關,且作者不一定有受過專業訓練,無法對文章定出準確且客觀. ‧. 的標題。所以在此實驗中並沒有特別將標題裡的字詞作為分析的關鍵字。. Nat. sit. y. 接下來我們將所有文章斷句,斷句的依據是“<br>”及“。”。在這邊碰到的第一. n. al. er. io. 個問題是:中文遊戲論壇文章對於標點符號不講究,不一定是中文式的“,”、“。”,. i n U. v. 也有可能是英文式的“,”、“.”。除此之外,文章不一定會使用標點符號,而是使用. Ch. engchi. 換行符號連接下一個句子,換行的時機也不一定很正規,有的時候是為了排版或者凸顯 重點。若單獨使用“。”作為斷句依據,因為使用頻率過低,會讓大多數的句子變得過 長;若單獨使用“<br>”作為斷句依據,因為使用頻率過高,又會讓大多數的句子變過 短。因此在這邊我們混和了兩種做法,並在下一階段中僅保留八個字詞以上的句子,以 確保斷出來的句子長度足夠表達語意。 將所有文章斷句後,我們需要將所有句子分詞。僅保留字詞長度在 8 以上的句子(包 含標點符號),在心理學的研究中顯示人類的短暫記憶通常是 7±2 個字彙[22],而且我 們認為若句子單詞數不足則無法表達出其含義。 詞彙(word 或 token)是最小且有意義的語言單位,任何語言處理的系統都必須要先 29.

(40) 能夠分辨文本中的詞才能進行更進一步的處理。在英文文本中我們可以透過空白取得文 本中的每個詞彙,但是中文文本中句子裡並沒有分格符號,所以我們無法直接取出中文 詞彙,必須依靠中文斷詞系統將可能的詞彙先行處理[17]。 在這邊我們利用「結巴」工具16分詞。結巴為 Python 中文分詞,其算法基於前綴詞 典的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG),並採用 動態規劃查找最大概率路徑,找出基於詞頻的最大切分組合。對於未登錄詞,採用基於 漢字成詞能力的 HMM 模型,使用 Viterbi 算法。. 政 治 大. 網路一般文件中常包含語助詞、副詞和連接詞等經常出現的慣用字詞,但是這些詞. 立. 彙對於文件分析較不具有意義,在資料探勘的領域稱這些詞彙為停用字(stop words)。. ‧ 國. 學. 因此需要在分析前,將符合停用字集合的詞彙從分詞後的文件中移除[17]。這邊依據「中 央研究院漢語平衡語料庫詞集及詞頻統計(Word List with Accumulated Word Frequency. ‧. in Sinica Corpus 3.0)」17加入停用字集合。其為五百萬詞(token),帶有標記的中央. Nat. sit. y. 研究院平衡語料庫所計算出的詞頻統計資料。根據每一個詞項在五百萬的語料庫中出現. n. al. er. io. 次數的多寡排序。除此之外,我們在進行每個詞的 TF-IDF 計算之後,針對會影響結果. i n U. v. 且不具有語意的高 TF-IDF 標點符號、常見介係詞,也加進前述的停用字列表。. Ch. engchi. 句子分數是挑選摘要的依據,計算方式我們將在後面詳述,在本研究中的句子分數 裡又以「關鍵字含量」最為重要。在英文摘要系統中,一般研究皆認為名詞或動詞具有 較多語意,以此作為依據形成關鍵字詞庫。 [21]的研究採用中文新聞文件庫當作資料,其中也是抽取出名詞與動詞當作關鍵詞, 另外句子分數亦根據語句的「在文件中的位置」 、 「標題字含量」來決定。我們考慮到該 研究是針對單篇中文新聞文件的摘要系統,新聞文件是屬於較有結構化的資料,而我們 的研究是多篇半(非)結構化的中文論壇文章的摘要系統;中文的文法複雜,很多詞的詞. 16 17. https://github.com/fxsjy/jieba http://www.aclclp.org.tw/doc/wlawf_abstract.pdf 30.

(41) 性在不同的地方會有不同的詞性;再加上中文論壇使用者的習慣,使用的文法更為特殊、 新穎。為避免更多的干擾,本研究並沒有考慮詞性,取而代之的是使用該遊戲中出現的 名字、裝備和術語等詞來建立關鍵字詞庫。 至於語句「在文件中的位置」 、 「標題字含量」 ,在分析論壇特性過後,由於論壇撰文 者對於文章結構以及下標題的不確定性,我們在本研究中也不加入計算。關於關鍵字資 料庫的建立方法,將於第 6 章提出應該更為合理的解決方案。 為了之後的摘要產生需要挑選重要的句子,每個句子均有多個分數,其中一個分數. 政 治 大. 是該句子每個字詞的 TF-IDF 總和。TF-IDF 的主要思想是:如果某個詞在一篇文章中出. 立. 現的頻率高即 TF(Term Frequency)高,並且在其他文章中很少出現即 IDF(Inverse. ‧ 國. 學. Document Frequency)也高,則認為此詞具有很好的類別區分能力18。在資訊檢索領域中, 常用來評估一個詞彙對於一個文件集的重要程度[17]。這邊我們先計算欲分析文件集所. ‧. 有字詞的 TF-IDF。一般的 TF-IDF 方程式如下:. sit. y. Nat. n. al. er. io. 𝑓𝑟𝑒𝑞𝑖,𝑗 ∑𝑘 𝑓𝑟𝑒𝑞𝑘,𝑗 |𝐷| 𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔 |{𝑗: 𝑡𝑖 ∈ 𝑑𝑗 }| 𝑡𝑓𝑖,𝑗 =. Ch. engchi. 𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖. i n U. v. (1) (2) (3). (1)式中𝑓𝑟𝑒𝑞𝑖,𝑗 是該詞在文件𝑑𝑗 中的出現次數,分母是在文件𝑑𝑗 中所有字詞的出現次 數之和。(2)式中|𝐷|是文件總數,|{𝑗: 𝑡𝑖 ∈ 𝑑𝑗 }|是包含詞語𝑡𝑖 的文件數目。其中(1)式即一 個字詞在「某一文件」內的詞語頻率。由於論壇討論串的特性,我們將 TF 重新設計成 一個字詞在「一個文件集(與某一主題相關討論串) 」的詞語頻率,實際的作法是先將 欲分析的多個文件(多篇論壇文章)合併為一個文件,再計算個別字詞的 TF。IDF 算法則 18. https://zh.wikipedia.org/wiki/TF-IDF 31.

(42) 保持不變,𝐷為與某一主題相關的文章。TF 修改設計如(4)式: 𝑡𝑓𝑖 =. 𝑓𝑟𝑒𝑞𝑖 ∑𝑘 𝑓𝑟𝑒𝑞𝑘. (4). 會對 TF 進行修改是因為在本研究若採用 TF 原始的定義,則需要先從每篇文章擷取 部分字彙建立分析字庫,但是在論壇裡並非每篇文章素質都足夠,例如字數過少、與主 題明顯不符等原因,造成該分析的字彙沒分析、不該分析的字彙卻加入分析,會影響分 析字庫的品質及最後結果。修改 TF 的作法至少可以確定一個字詞在一個文件集裡的頻. 治 政 率,降低其他因素影響的不確定性。 大 立 為了對字詞進行篩選,我們摒棄 TF-IDF 太低的字詞,並逐個過濾在 TF-IDF 算高的 ‧ 國. 學. 字詞並加入停用字庫。圖 15 為將每個字詞的 TF-IDF 製圖。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 15、各詞彙 TF-IDF 數值 圖 15 中右圖為每個字詞的-1*log(TF-IDF)製圖,因此僅保留前 33%的字詞以建立接 下來的句子矩陣。事實上原本設定是保留前 50%的字詞,但由於建立過大的矩陣會導致 硬體的記憶體不足,只好將門檻提高。. 32.

(43) 4.2 分群 向量空間模型(Vector Space Model)的概念最早由 Salton 於 1975 年提出,是一個 應用於資訊擷取與過濾、索引文件和評估相關性的一個代數模型。向量空間模型中,將 每個文件的重要詞彙作為代表文件的屬性,聯集所有的屬性表示為高維向量空間中的獨 立維度,形成文件的屬性向量[17]。在本研究中我們參考[17],將每一篇文章視為一個 文件,依據 4.1 挑選出具有代表性的詞彙作為維度,再把每個文件內的所有句子表示成 一條向量內容。向量中的每一個維度是一個獨立的詞彙內容。. 政 治 大. 在實作中需要將向量空間模型轉換為矩陣以符合我們使用工具 K-means 的輸入。假. 立. 學. ‧ 國. 、 「你我他我」 、 「你我」 ,其中假設「你」 、 「我」、 設有三個句子,分別是「你我他你」 「他」皆為一個字詞,則共有三個字詞、三個句子,產生一個 3x3 的句子矩陣如表 5:. ‧. 表 5、句子向量空間模型以矩陣表示舉例. n. 2. 1. 1. 句子 2. 1. 2. 1. C h句子 3 1 1 engchi. y. sit. io. al. 句子 1. er. Nat. 你 我 他. i n U0. v. 上表中每一列代表一個句子,每一行(維度)代表一個字詞,若一個字詞在一個句子 出現幾次則在詞彙所屬維度代入該數字,沒出現為 0。[17]的研究中是代入該字彙的 TF-IDF,可是在本實驗中由於矩陣建立時會造成記憶體不足,儲存浮點數需要占用較多 記憶體,因此改採用整數儲存,再考慮論壇文章文法嚴謹性,字彙有出現一次以上為 1、 沒出現為 0,避免「因為很重要,所以說三次」的情況。在最後的實驗中,我們共有 244 個句子,7477 個字詞,即是對 244 個句子、7477 個維度(244x7477 的句子矩陣)進行 K-means 分群。 33.

(44) 在建立句子矩陣的同時,我們也計算句子分數。句子分數在之後會用來計算群分數, 同時也是從群中挑選句子的依據。我們依照第 3 章分析的結果,建立的分類關鍵字列表 並盡量補全遊戲中出現的字彙,再依我們想呈現的順序重新排序,總共有 6 類,分別是: 裝備、屬性符文、戰術(打法)、技能、天賦、英雄。新增天賦類關鍵字 9 筆,增加戰術 (打法)25 筆、技能 9 筆,移除地圖類關鍵字如表 6 所示。. 表 6、重新補全並排序後的關鍵字資料庫類別及其關鍵字數量. 政 治 資料筆數 大241 筆 裝備名稱. 關鍵字資料庫. 36 筆. 戰術(打法). 37 筆. 技能. 13 筆. 天賦. 9筆. n. al. y. sit. 282 筆. er. io. 英雄名稱(含中英文). ‧. Nat. 英雄屬性、符文. 學. ‧ 國. 立. Ch. engchi. i n U. v. 群分數如下:若一個句子出現了裝備類的關鍵字,則該句裝備類分數加 1,如(5)式 所示。另外再加上該句子 TF-IDF 分數和,如(6)式所示。一個句子總共帶 7 個分數。最 後,一個句子每類的分數和 TF-IDF 分數都會再除以句子的字彙(token)數,以避免句子 的長短影響分數。. 𝐹1…6 _𝑆𝑐𝑜𝑟𝑒𝑠 = 𝐹7 _𝑆𝑐𝑜𝑟𝑒 =. 𝐾𝑒𝑦𝑤𝑜𝑟𝑑𝑠 ∩ 𝑊𝑜𝑟𝑑1…𝑛 𝑆𝑒𝑛𝑡𝑒𝑛𝑐𝑒_𝐿𝑒𝑛𝑔𝑡ℎ. ∑𝑛𝑖=1 𝑇𝐹 × 𝐼𝐷𝐹𝑖 𝑆𝑒𝑛𝑡𝑒𝑛𝑐𝑒_𝐿𝑒𝑛𝑔𝑡ℎ. 34. (5) (6).

(45) 接著將每個句子透過 K-means 分群。K-means 以 K 為參數,把 n 個物件分為 K 個叢 集,使叢集內具有較高的相似度,而叢集間的相似度較低,相似度的計算是根據一個叢 集中物件的平均值來進行[23]。 K-means 演算法的處理流程如下:首先,隨機選擇 K 個物件,每個物件代表一個叢集 的平均值或中心。對剩餘的每個物件,根據其與各個叢集中心的距離,將它指定給最近 的叢集。再重新計算每個叢集的平均值。這個過程不斷重複,一直到判斷準則函數收斂。 通常判斷準則函數會採平方誤差準則(Squared Error Criterion)。K-means 演算法嘗試. 政 治 大. 找出平方誤差和數值最小的 K 個劃分,當結果叢集越密集,且叢集之間區隔明顯時,效. 立. 果會非常好。對處理大資料集,該演算法是相對可以延展和高效率的,因為 K-means 的. ‧ 國. 學. 複雜度是 O(nkt),其中 n 是所有物件的數目、k 是叢集數、t 是疊代次數。正常而言,. k≪n 且 t≪n。K-means 演算法經常得到的是一個局部最佳值(Local Optimum)[14]。. ‧. 在本研究中,K-means 分群法採用 scikit-learn19的程式工具,K-means 得先設定要. Nat. n. al. 4.3 句子挑選. Ch. engchi. er. io. 無法被分到那 6 群的句子則自成一群,共 7 群。. sit. y. 分幾群,我們設定為 7 群。分 7 群的假設是,句子會根據語句向量被分到上述 6 種類別,. i n U. v. K-means 分群過後,先將群內所屬句子各類分數相加,各分數再除以群內句子個數。 此時共有 7 群,每一群也有帶 7 個分數,接下來比較每一群各類的分數,依照裝備類、 符文類、其他術語類、技能類、天賦類、英雄類分數的順序,依各類分數決定各群屬於 哪一類,其中各群必為一類且不重複,剩下的最後一群視為其他類。 最後我們需要從各群中挑選 20 個句子作為摘要,此時再為每個句子計算新的分數, 計分方式如(7)式:. 19. Scikite-learn website: http://scikit-learn.org/stable/ 35.

(46) 分群後的句子分數 =. 句子所屬群的類別分數 所有句子中的該類別最大分數. +. 句子的𝑇𝐹 − 𝐼𝐷𝐹 所有句子中的最大𝑇𝐹 − 𝐼𝐷𝐹. (7). 從每一群挑選前 20 高分數的句子,若一群未達 20 個句子則輸出全部句子,由於有 7 類(包含其他類),最多取出 140 個句子作為輸出結果。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 36. i n U. v.

(47) 第 5 章 進階分析結果與討論 以下我們均以凱特琳這隻角色作為分析的對象。一開始我們嘗試依文章來分群,作 法為建立文章-詞彙矩陣(文章為列,出現的詞彙為欄)進行 K-means 分群,在此設成分 10 群。 我們使用結巴分詞。網路論壇裡“。”通常被換行符號(<br>)取代,在去掉所有 HTML 語法之後,句子與句子之間便沒有分隔,因此我們保留了<br>。從結巴分詞的演算法及 我們自己實驗得知,如果一篇文章中沒有任何標點符號或是換行符號,分詞是可能出錯. 政 治 大. 的。實驗中,435 篇有標點符號的文章可分出 22882 個詞,435 篇去掉標點符號的文章. 立. 卻分出 23000 個詞。另外,為了增加分詞的準確率,我們僅為詞庫增加 LOL 板常用的字. ‧ 國. 學. 詞,並沒有對結巴的演算法優化。分詞的結果請參考圖 16。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 16、分詞前後比對及其分群結果. 與凱特琳相關的文章有 435 篇,在所有文章共出現 22882 個不重複的詞,因此我們 建立一個 435 x 22882 的矩陣作為輸入。分群結果如圖 17。. 37.

(48) 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. a圖l 17、以文章為輸入之分群結果 v i n Ch engchi U. 圖 17 中,每個數字為每篇文章被分到哪一群。上方的矩陣向量輸入為字彙出現的次 數、下方的矩陣向量輸入為字彙若出現為 1 否則為 0。經過所屬群的轉換(例如將下方矩 陣的第 2 群轉成第 1 群,原本第 1 群轉換成其他群)並比對,發現有 382 處分群結果一 樣(87.8%)。雖然在此階段我們無法辨別哪個方法比較適合,但考慮到論壇文章可能會 重複敘述內容,我們採用後者方法,即字彙出現則該向量為 1、否則為 0。 到此為止沒辦法將文章依內容分群,結果顯示短的文章分成一群、長的文章另成一 群、其他散於另外 8 群但數目都不多。會造成這樣的結果我們猜測是欄數(詞彙)太多、 列數(文章)太少。因此我們接下來採取兩個方法來改善:1. 過濾斷出來的詞彙,即降 38.

(49) 低欄數。只採用 TF-IDF 前 50%的詞,欄數原為 22882,減少至 11441。 2.用句子而不是 文章當分群單位,即增加列數。以“。”為斷句依據。 使用我們為 LOL 論壇文章特別定義的 TF-IDF 算法,下表為兩種不同的英雄類型的相 關文章詞彙 TF-IDF 排序。可以發現 TF-IDF 可以稍微顯現出英雄的刻劃,英雄所屬類別、 對英雄較為重要的屬性、技能、裝備,進而了解兩個英雄的不同。因此我們認為 TF-IDF 在實驗中佔有重要的地位,如表 7 所示。. 政 治 大 凱特琳的 TF-IDF TF-IDF 排行 立. 表 7、兩個英雄所對應的詞彙 TF-IDF 排序. 47. AD. 95. ADC. 109. 輔助. 114. y. 閃現. 177. sit. 27 45. io. 187. Nat. 47. al. v ni. gank CD 打野 AP 將狗. 紅雙. 367. 無盡. 381. 耳語. 386. 吸血. 522. 點燃. 606. 閃現. n. 298. Ch. 243. ‧. ‧ 國. 英雄. 學. 14. 沃維克 TF-IDF. er. TF-IDF 排行. e n g c299h i U. Jungle 鞋. 然而採用句號作為斷句依據結果不盡理想,原因是遊戲論壇並不常使用句號,矩陣 列數並未如期增加,且輸出結果依然過長。因此我們改以“。”、“<br>”作為斷句依 據,列數由原本 435 增為 20232;欄數由於記憶體不足,由採用 TF-IDF 前 50%的詞減少 為前 33%的詞(7477 個詞)。以下為觀察結果:斷句結果都過短,無法顯示資訊。且嚴重 受到 TF-IDF 影響,擷取出的結果多為符號。且分群結果仍依句子長短分群。針對這些 39.

(50) 問題,我們將 TF-IDF 過高的符號、常用詞視為停用字。在分群之前,把句子長度低於 8 個詞的都濾掉,我們假設低於 8 個詞的句子資訊含量不高,避免分析過短且不帶有語意 的句子,如此輸出結果絕對不會有過短的句子。 實驗結果只有 244 個句子大於等於八個詞,平均每篇文章只取出 0.56 個句子,共有 2281 個不重複的詞。到這邊我們決定依 4.2 節、4.3 節的實驗方法,將句子分群並挑選 出句子進行結果觀察。在輸出方面分類如表 8:. 政 治 大. 表 8、摘要結果分類取出句子數 分類. 立. ‧ 國. 學. 裝備. 取出句子數. 打法. ‧. 技能. y. 4. 1. 天賦. sit. 英雄屬性和符文. 20. 1. 1. io. n. al. er. Nat 其他英雄 其他. Ch. engchi U. v ni. 1 20. 從結果來看,每個群的句子數仍然不平均,從表可以看到大部分的句子都集中在某 一群,其他群內的句子數並不多。會造成這樣的結果可能是關鍵字資料庫各類別關鍵字 數量本來就不平均(表 6)。也可能是論壇文章對於裝備的討論本來就比較多(表 4)。除 了群分布數目不均,摘要結果提供了相關且有幫助的資訊。. 40.

(51) 第 6 章 結論與未來展望 資料前處理階段中,一開始並沒有將“玩家習慣以圖片代替遊戲內的名稱”納入考 量,因此可能有些重要的句子並沒有被挑選出來,非常可惜。最直覺的改善方式應該是 利用 OCR 將圖片分析,轉成文字後存回,再繼續透過文字分析。若以目前的系統,對純 文字論壇(例如 PTT)的分析,準確率應該會更高。 資料前處理階段中,將資料取出資料表的方法過於粗糙,可能造成兩個問題。第一 個問題是:我們的方式是直接從 MySQL 資料表取出標題或內文含有欲查詢英雄的資料, 雖然出現漏網之魚的可能性降低,之後的處理過程卻很難判斷句子描述的對象是誰(英. 政 治 大. 雄),造成資訊錯誤。解決方法有二:1. 在最後的輸出結果附上句子的更多資訊,例如. 立. 文章標題或是句子前後文,協助使用者判斷是否正確。2. 若能在 MySQL 查詢動作的前. ‧ 國. 學. 後增加過濾和判斷,例如是內容出現該英雄名稱,而標題出現了其他關鍵字,我們可以 標註為「與該英雄有相關」。以上兩種方法應能使最後輸出的結果更能提供正確資訊。. ‧. 第二個問題是:也有可能使用者從標題到全篇內文都是使用別名撰寫而非正名。應該先. y. Nat. 將所有別名與正名做關聯,所有使用到別名的就直接轉換成該別名代表的正名分析。. sit. 論壇文章的撰寫方式造成建立分群的輸入資料困難,不像結構化的文章,至少有標. n. al. er. io. 點符號的用法,可以依句號、驚嘆號等標點符號來斷句。在本論文中使用斷句的方法捨. i n U. v. 棄了很多內容。另外,或許句子字彙數的門檻還可以再調整。. Ch. engchi. 在此論文中輸入的分析單位為句子。不以文章為分析單位是因為論壇文章可能談的 面向很多,且輸入內容為文章,可能造成分群結果只是區分長短文章,如我們一開始的 實驗結果。或許我們可以分段分析,實際的做法是:一開始分析一個句子,每次加入一 個句子或多個句子後看分數變化,若分數逐漸偏向另一分類則猜測已講到另一個主題, 到這邊為一個段落,藉以達到分段的效果。 關鍵字資料庫建立部分,應可參考混和[17]中建立災難詞庫及專家分類的方法建立 我們的關鍵字資料庫。災難詞庫建立是透過不斷的隨機抽取斷詞後內容,挑出有意義的 詞彙加入詞庫再斷詞,直至隨機抽取的內容詞彙穩定。以簡單的使用者介面設計,讓專 家更容易的瀏覽斷詞結果與挑選儲存。專家分類是經過專家學者抽取瀏覽部分歷史性資 料,對於收集來的資料內容歸納建議,將收集的頻道資訊分為 9 個類別(分類的對象是 41.

(52) 短文而非詞彙)。 與[17]不同的是,我們或許不必借助專家的專業,透過論壇使用者的力量及熱情, 共同參與建立系統的基礎。同樣是隨機抽取論壇文章斷詞後的內容,挑出有意義的詞彙, 同時可以選擇是否將該詞彙加入某個關鍵字的分類。這樣的好處是,由論壇的使用者來 標註並分類關鍵字類別,關鍵字庫會更完整,所產出的特殊詞彙和用法可以更貼切論壇 文章,本摘要系統的輸出結果更可以符合論壇用戶所需。 句子挑選的方式我們參考了[14], [21]並做修改,並採用最直覺的方式進行計分及 挑選,在此部分還有許多參數可以進行微調,例如我們並沒有對各分數進行權重調整,. 政 治 大 最後的問題是本系統可否移植到其他遊戲(或非遊戲)的論壇?答案應該是可以的。 立. 或許還有其他我們沒注意到的特徵值,我們認為本實驗還可以進步。. 需要的前置工作是更改與主題相關的關鍵字資料,並將其加入斷詞的文本中。另外要注. ‧ 國. 學. 意的是本系統主要是基於中文非(半)結構化多文件摘要系統,因此論壇內容是否常有多 媒體內容(如圖片、影片、音樂)呈現?如果有,會需要其他方案輔助以達到更好的效果。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 42. i n U. v.

參考文獻

相關文件

當接收到一密文(ciphertext)為「YBIR」 ,而且知道它是將明文(plaintext)的英文字母所對應 之次序數字(如 A 的字母次序數字為 1,B 次序數字為

目前數學家所採用的集合論稱為 ZFC 集合論, 這是基於 Zermelo 和 Fraenkel 在 20 世紀初發展出來的 ZF 集合論, 再加上 C 所代表「選擇公設」(axiom of

一、成績計算:以術科實作及面試之原始分數計算,術科實作成績佔 70%,面試成績佔 30% (術 科實作原始分數*70%+面試原始分數*30%,分數四捨五入至小數點第 2

2012 年 1 月 1 日, 都柏林大學的 Gary McGuire 利用計算機已證明出“不存在 16 個初始數的數獨題目”, 意即, 在數獨遊戲中, 最 少需給定

1 連章體(蟬聯體)

整數數量乘以分數, 理解為將整數(例如: 9個) 數量按分母(例如: 3)均分, 並按分子(例如: 1) 取多少份,

填表人 簽章欄 負責人 簽章欄 單位 印信欄..

明龍計算一題兩個數相加的數學題目,不小心算成了相減,所得到的答