實驗語料

第三章研究方法

3.2 實驗語料

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法 3.1 系統流程

在研究中，實驗流程分為四個步驟。第一個步驟為「語料前處理」，第二個步驟為「擷取相關句」，第三個步驟為「建立以及評估分群模型」第四個步驟為「擷取代表句以及計算正確率」。完整系統流程如圖1 ，以下依小節分別介紹。

圖1 實驗流程

3.2 實驗語料

在本研究中使用維基百科內容[1]、新聞語料以及參考句為實驗語料。透過將維基百科內容或新聞語料中目標詞彙的相關句及參考句向量化，並藉由分群技術將關

‧

句集合成一群，並設置不同的embedding 架構、embedding 模型、相關句維度及窗口大小下的情況下，最後透過purity 選取最優之分群模型，作為擷取代表句之內容。維基百科(WIKIPEDIA)於 2001 年由 Jimmy Wales 以及 Larry Sanger 共同合作成立，最初為英語版本。在2002 年底時，中文維基百科正式成立，截至 2018

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

含不同視角的意見。此外維基百科的所有資料皆為開放資料，提供使用者自由下載進行學術相關研究及進行資料備份等，透過維基百科：資料庫下載(https：

//zh.wikipedia.org/wiki/Wikipedia：數據庫下載)，可以取得所有完整中文維基百科內容。其中中文維基百科內容亦可分為八種版本，包括「中文版」、「文言文版」、

「粵語版」、「吳語版」、「贛語版」、「客家話版」、「閩南語版」及「閩東語版」。在本研究中，使用中文版維基百科作為研究語料。除此之外，維基百科：資料庫下載提供維基百科內容、維基百科各條目之歷史編輯紀錄、頁面基本統計資訊、

及各條目和使用者存取紀錄等資訊，平均一至二個禮拜更新一次資料庫內容。

在維基百科：資料庫下載中提供*-pages-articles.xml.bz2 的檔案，此檔案以 XML 格式紀錄目前維基百科內容條目的模板、正文、影音或檔案描述等資訊，

目前研究中於2018/11/01 取得中文維基百科內容作為研究語料，共計大小為 6.7G。

首先，以標籤 xml：lang="zh"表示此資料庫為記錄中文版本的維基百科；條目的開始是以標籤<page>起始至</page>結束；<title>記錄條目名稱，條目名稱放置於<title>以及</title>之間；<timestamp>記錄條目編輯時間，編輯者編輯條目的時間會被記錄於<timestamp>以及</timestamp>之間；<ip>或<username>記錄編輯者名稱，當沒有登入或注冊帳號的使用者進行編輯，是以ip 位址作為編輯者名稱，

而註冊使用者則是以使用者名稱作為編輯者名稱，編輯者名稱會被記錄於<ip>以及</ip>或<username>以及</username>之間；<text>記錄條目正文，完整正文內容會被記錄於<text>以及</text>之間。

3.2.2 新聞語料

雖然中文維基百科為開放的資料，任何人皆可以編輯，但是中文維基百科其文體仍為百科類型，受限其文體，會導致各個目標詞彙中的義項的使用可能會偏重於其中一個特定的義項，導致此目標詞彙義項比例分布不均勻。因此在研究中加入了新聞語料作為研究語料。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中基於語境特徵及分群模型之中文多義詞消歧 - 政大學術集成 (頁 29-33)

第三章 研究方法

3.2 實驗語料

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法 3.1 系統流程

3.2 實驗語料

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

立政治大學

第三章研究方法 3.1 系統流程

立政治大學

立政治大學