第三章 研究方法
3.2 實驗語料
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第三章 研究方法 3.1 系統流程
在研究中,實驗流程分為四個步驟。第一個步驟為「語料前處理」,第二個步驟 為「擷取相關句」,第三個步驟為「建立以及評估分群模型」第四個步驟為「擷 取代表句以及計算正確率」。完整系統流程如圖1 ,以下依小節分別介紹。
圖1 實驗流程
3.2 實驗語料
在本研究中使用維基百科內容[1]、新聞語料以及參考句為實驗語料。透過將維基 百科內容或新聞語料中目標詞彙的相關句及參考句向量化,並藉由分群技術將關
‧
句集合成一群,並設置不同的embedding 架構、embedding 模型、相關句維度及 窗口大小下的情況下,最後透過purity 選取最優之分群模型,作為擷取代表句之 內容。維基百科(WIKIPEDIA)於 2001 年由 Jimmy Wales 以及 Larry Sanger 共同 合作成立,最初為英語版本。在2002 年底時,中文維基百科正式成立,截至 2018‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
含不同視角的意見。此外維基百科的所有資料皆為開放資料,提供使用者自由下 載進行學術相關研究及進行資料備份等,透過維基百科:資料庫下載(https:
//zh.wikipedia.org/wiki/Wikipedia: 數據庫下載),可以取得所有完整中文維基百 科內容。其中中文維基百科內容亦可分為八種版本,包括「中文版」、「文言文版」、
「粵語版」、「吳語版」、「贛語版」、「客家話版」、「閩南語版」及「閩東語版」。 在本研究中,使用中文版維基百科作為研究語料。除此之外,維基百科:資料庫 下載提供維基百科內容、維基百科各條目之歷史編輯紀錄、頁面基本統計資訊、
及各條目和使用者存取紀錄等資訊,平均一至二個禮拜更新一次資料庫內容。
在維基百科:資料庫下載中提供*-pages-articles.xml.bz2 的檔案,此檔案以 XML 格式紀錄目前維基百科內容條目的模板、正文、影音或檔案描述等資訊,
目前研究中於2018/11/01 取得中文維基百科內容作為研究語料,共計大小為 6.7G。
首先,以標籤 xml:lang="zh"表示此資料庫為記錄中文版本的維基百科; 條目 的開始是以標籤<page>起始至</page>結束;<title>記錄條目名稱,條目名稱放置 於<title>以及</title>之間;<timestamp>記錄條目編輯時間,編輯者編輯條目的時 間會被記錄於<timestamp>以及</timestamp>之間;<ip>或<username>記錄編輯者 名稱,當沒有登入或注冊帳號的使用者進行編輯,是以ip 位址作為編輯者名稱,
而註冊使用者則是以使用者名稱作為編輯者名稱,編輯者名稱會被記錄於<ip>以 及</ip>或<username>以及</username>之間;<text>記錄條目正文,完整正文內容 會被記錄於<text>以及</text>之間。
3.2.2 新聞語料
雖然中文維基百科為開放的資料,任何人皆可以編輯,但是中文維基百科其文體 仍為百科類型,受限其文體,會導致各個目標詞彙中的義項的使用可能會偏重於 其中一個特定的義項,導致此目標詞彙義項比例分布不均勻。因此在研究中加入 了新聞語料作為研究語料。