實驗方法相關研究 - 相關文獻及相關方法 - 基於語境特徵及分群模型之中文多義詞消歧

第二章相關文獻及相關方法

2.2 實驗方法相關研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

相比於監督式消歧，根據Raganato 等人[26]表示知識為本(knowledge-based) 的消歧不需要人工標記的語料，知識為本的消歧以不同的知識庫(如辭典，索引典…等)作為外部資源，對目標詞彙進行消歧；此外 Lesk[18]為第一個提出以知識為本的消岐方式，透過計算目標詞彙所在上下文與目標詞彙在知識庫中各義項釋義的覆蓋程度，對目標詞彙進行消歧。

SemEval (Semantic Evaluation)為一連串用以評估語義分析的任務，在 2007 年前，Senseval (Sense Evaluation)為 SemEval 的前身。Senseval-1、 Senseval-2 以及 Senseval-3主要著重於評估消歧(WSD)系統。其中於 Senseval-3 基於 HowNet 架構，選擇20 個中文詞彙，共 81 個義項進行消歧評測。於訓練語料當中，每一個詞彙具有 20-100 訓練語料，此外每個詞彙具有 4 個義項左右，而每一個義項所提供之訓練語料約為10 個上下。同時因為同一詞彙可能同時具有多個義項，

因此於本研究中並無使用Senseval-3 所提供之詞彙進行實驗。

Shao-Hang Kao 等人於[15]使用 Senseval-2 English lexical sample 作為訓練語料，透過貝氏分類(Bayesian classification)搭配 Forward sequential selection 演算法 [16]進行消歧，使用於該研究中所提及之方法得到 61.2%之準確率，與 Senseval-2 參賽第一名所得之準確率 64.Senseval-2%相差 3 個百分點，與第四名史丹佛大學僅差 0.5 個百分點。

2.2 實驗方法相關研究

在本研究中使用中文維基百科作為實驗語料擷取目標詞彙相關句，並透過 embedding 及分群技術將相關句分群。並依據[22]所說明的 purity 評估不同實驗參數下的分群結果，並利用最優之分群結果，作為擷取目標詞彙代表句之依據。

同時，透過人工標記計算擷取代表句之precision、recall、F1 以及 accuracy。因此以下分為二個部分進行介紹。第一部分，說明研究中使用到的embedding 技術；

第二部分，說明研究中使用到的分群技術。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.1 Embedding 技術

在研究中，透過word2vec[23]以及 doc2vec[17] 將擷取出的相關句進行向量化。

在 word2vec 輸出為每一個詞彙的向量，透過將相關句中每一個詞彙的向量加總取平均作為該相關句的向量；在doc2vec 中，輸出為每一個相關句的向量。以下分別介紹word2vec 以及 doc2vec。

在 word2vec 中利用類神經網路及詞彙前後文的關係，將詞彙轉換成向量。

根據詞向量訓練的方式，embedding 架構可以分為 CBOW (Continuous Bag Of Words)以及 Skip-gram。在 CBOW 的架構下，是透過給定上下文詞彙向量預測詞彙之向量；Skip-gram 是透過給定詞彙之向量預測上下文詞彙之向量。

在doc2vec 中除了利用類神經網路以及前後文的關係亦加入文檔矩陣，藉此將相關句轉換成向量。根據embedding 架構可以分為 DBOW (Distributed Bag of Words)以及 DM (Distributed Memory)。在 DBOW 的架構下，是透過文檔矩陣預測文檔中每一個詞彙的向量；而在DM 架構下，是透過上下文及文檔矩陣預測詞彙的向量。

2.2.2 分群技術

在本研究中使用的分群技術K-means[21]、階層式分群(hierarchical clustering)[14]、

BIRCH clustering (Balanced Iterative Reducing and Clustering using Hierarchies)[32]

以及spectral clustering[12][13][25][28]以下分別說明。

1. K-means

K-means 為分割式分群法(partitional clustering)的其中一種，需要指定分群的數目。

在 K-menas 初始化時，會選擇 K 個資料點作為群集的中心點，並計算群集中心 與每一筆資料點的距離，根據距離將資料點分配至最近之群集，將全部資料點分配完成後計算新的群集中心，並重複執行直到新的群集中心與舊的群集中心改變量小於預設值則終止。Berkhin 於[10]指出，K-means 是在科學以及工業領域中皆

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2. Hierarchical clustering

Hierarchical clustering 一般為樹狀結構，藉由將資料點反覆分裂或者聚合直至設置的分群數目。其中產生樹狀結構又可分為二種方式，第一種為聚合式階層分群法(agglomerative hierarchical clustering)；第二種為分裂式階層分群法(divisive hierarchical clustering)。聚合式階層分群法依照樹狀結構的底部逐漸層層聚合而成；而分裂式階層法依照樹狀結構的頂部逐漸層層分裂而成。

以下說明聚合式階層分群法。具體流程為以下4 個步驟。

步驟1：假設有 n 筆資料點，並將每一個資料點視為一個群集

C i

_i,



1, 2, ,

n

。

步驟2：找出所有群集中，距離最接近的二個群集

C 和

C

_j , i

 j

。

步驟3：將群集

C 、

C

_j合併成一個新的群集。

步驟4：反覆重複步驟 2 至步驟 4 直至群集數目達到所設置之分群數目。

其中在步驟2 中，資料點 a 以及資料點 b 的距離計算方式𝑑(𝑎, 𝑏)，可以使用歐氏 距離(Euclidean distance)、曼哈頓距離(Manhattan distance)、cosine 相似度…；此外群集之間的距離有多種計算方式，以下介紹本研究中使用的四種計算方式。

1. Complete linkage ：

群集之間距離定義不同群集中最遠二點資料點的距離。計算方式如(1)。

  ^{ }

, ,

i j

a C b C

d C C Max d a b

 



(1)

‧

3. BIRCH clustering

BIRCH clustering 為一種基於距離的層次分群法，此分群方法適合很大的資料集進行分群。首先，BIRCH clustering 將原始資料集轉換成緊湊的資料，其中包含盡可能多的原始資料資訊。最後，將轉換過的資料進行分群而非原始資料集。Tian 等人於中設計一套產生器，合成大量數據當作實際資料進行實驗，研究 BIRCH clustering 分群模型對比 CLARANS 分群模型於硬體效能的表現。首先，就運行速度而言，於Tian 等人實驗中表示 BIRCH clustering 分群模型較 CLARANS 分群模型速度快上近 15 倍；BIRCH clustering 分群模型較 CLARANS 分群模型需要較少記憶體、更加準確、對於資料是否有排序較不敏感。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4. Spectral clustering

Spectral clustering 演變歷史悠久，首先 Donath 等人提出使用特徵向量 (eigenvectors)將圖(graph)進行分割；而 Fiedle 指出將圖進行雙分(bi-partitions)與拉普拉斯圖(graph Laplacian)第二個特徵向量概念相近，因此 Fiedler 建議透過此特徵向量將圖進行分割。而在機器學習(machine learning) 領域中， Spectral clustering 透過 Shi、Ng…等的研究後逐漸變得熱門。

在文檔中基於語境特徵及分群模型之中文多義詞消歧 - 政大學術集成 (頁 21-25)

實驗方法相關研究

第二章 相關文獻及相關方法

2.2 實驗方法相關研究

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2 實驗方法相關研究

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

C i



n

C 和

C

 j

C 、

C

   

, ,

d C C Max d a b



‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章相關文獻及相關方法

立政治大學

立政治大學

立政治大學

  ^{ }

立政治大學