• 沒有找到結果。

第二章 相關文獻及相關方法

2.2 實驗方法相關研究

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相比於監督式消歧,根據Raganato 等人[26]表示知識為本(knowledge-based) 的消歧不需要人工標記的語料,知識為本的消歧以不同的知識庫(如辭典,索引 典…等)作為外部資源,對目標詞彙進行消歧;此外 Lesk[18]為第一個提出以知識 為本的消岐方式,透過計算目標詞彙所在上下文與目標詞彙在知識庫中各義項釋 義的覆蓋程度,對目標詞彙進行消歧。

SemEval (Semantic Evaluation)為一連串用以評估語義分析的任務,在 2007 年前,Senseval (Sense Evaluation)為 SemEval 的前身。Senseval-1、 Senseval-2 以 及 Senseval-3主要著重於評估消歧(WSD)系統。其中於 Senseval-3 基於 HowNet 架構,選擇20 個中文詞彙,共 81 個義項進行消歧評測。於訓練語料當中,每一 個詞彙具有 20-100 訓練語料,此外每個詞彙具有 4 個義項左右,而每一個義項 所提供之訓練語料約為10 個上下。同時因為同一詞彙可能同時具有多個義項,

因此於本研究中並無使用Senseval-3 所提供之詞彙進行實驗。

Shao-Hang Kao 等人於[15]使用 Senseval-2 English lexical sample 作為訓練語 料,透過貝氏分類(Bayesian classification)搭配 Forward sequential selection 演算法 [16]進行消歧,使用於該研究中所提及之方法得到 61.2%之準確率,與 Senseval-2 參賽第一名所得之準確率 64.Senseval-2%相差 3 個百分點,與第四名史丹佛大學僅差 0.5 個百分點。

2.2 實驗方法相關研究

在本研究中使用中文維基百科作為實驗語料擷取 目標詞彙相關句,並透過 embedding 及分群技術將相關句分群。並依據[22]所說明的 purity 評估不同實驗 參數下的分群結果,並利用最優之分群結果,作為擷取目標詞彙代表句之依據。

同時,透過人工標記計算擷取代表句之precision、recall、F1 以及 accuracy。因此 以下分為二個部分進行介紹。第一部分,說明研究中使用到的embedding 技術;

第二部分,說明研究中使用到的分群技術。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2.1 Embedding 技術

在研究中,透過word2vec[23]以及 doc2vec[17] 將擷取出的相關句進行向量化。

在 word2vec 輸出為每一個詞彙的向量,透過將相關句中每一個詞彙的向量加總 取平均作為該相關句的向量;在doc2vec 中,輸出為每一個相關句的向量。以下 分別介紹word2vec 以及 doc2vec。

在 word2vec 中利用類神經網路及詞彙前後文的關係,將詞彙轉換成向量。

根據詞向量訓練的方式,embedding 架構可以分為 CBOW (Continuous Bag Of Words)以及 Skip-gram。在 CBOW 的架構下,是透過給定上下文詞彙向量預測詞 彙之向量;Skip-gram 是透過給定詞彙之向量預測上下文詞彙之向量。

在doc2vec 中除了利用類神經網路以及前後文的關係亦加入文檔矩陣,藉此 將相關句轉換成向量。根據embedding 架構可以分為 DBOW (Distributed Bag of Words)以及 DM (Distributed Memory)。在 DBOW 的架構下,是透過文檔矩陣預 測文檔中每一個詞彙的向量;而在DM 架構下,是透過上下文及文檔矩陣預測詞 彙的向量。

2.2.2 分群技術

在本研究中使用的分群技術K-means[21]、階層式分群(hierarchical clustering)[14]、

BIRCH clustering (Balanced Iterative Reducing and Clustering using Hierarchies)[32]

以及spectral clustering[12][13][25][28]以下分別說明。

1. K-means

K-means 為分割式分群法(partitional clustering)的其中一種,需要指定分群的數目。

K-menas 初始化時,會選擇 K 個資料點作為群集的中心點,並計算群集中心 與每一筆資料點的距離,根據距離將資料點分配至最近之群集,將全部資料點分 配完成後計算新的群集中心,並重複執行直到新的群集中心與舊的群集中心改變 量小於預設值則終止。Berkhin 於[10]指出,K-means 是在科學以及工業領域中皆

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2. Hierarchical clustering

Hierarchical clustering 一般為樹狀結構,藉由將資料點反覆分裂或者聚合直至設 置的分群數目。其中產生樹狀結構又可分為二種方式,第一種為聚合式階層分群 法(agglomerative hierarchical clustering);第二種為分裂式階層分群法(divisive hierarchical clustering)。聚合式階層分群法依照樹狀結構的底部逐漸層層聚合而 成;而分裂式階層法依照樹狀結構的頂部逐漸層層分裂而成。

以下說明聚合式階層分群法。具體流程為以下4 個步驟。

步驟1:假設有 n 筆資料點,並將每一個資料點視為一個群集

C i

i,

1, 2, ,

n

步驟2:找出所有群集中,距離最接近的二個群集

C 和

i

C

j , i

j

步驟3:將群集

C 、

i

C

j合併成一個新的群集。

步驟4:反覆重複步驟 2 至步驟 4 直至群集數目達到所設置之分群數 目。

其中在步驟2 中,資料點 a 以及資料點 b 的距離計算方式𝑑(𝑎, 𝑏),可以使用歐氏 距離(Euclidean distance)、曼哈頓距離(Manhattan distance)、cosine 相似度…;此 外群集之間的距離有多種計算方式,以下介紹本研究中使用的四種計算方式。

1. Complete linkage :

群集之間距離定義不同群集中最遠二點資料點的距離。計算方式如(1)。

   

,

, ,

i j

i j

a C b C

d C C Max d a b

(1)

3. BIRCH clustering

BIRCH clustering 為一種基於距離的層次分群法,此分群方法適合很大的資料集 進行分群。首先,BIRCH clustering 將原始資料集轉換成緊湊的資料,其中包含 盡可能多的原始資料資訊。最後,將轉換過的資料進行分群而非原始資料集。Tian 等人於中設計一套產生器,合成大量數據當作實際資料進行實驗,研究 BIRCH clustering 分群模型對比 CLARANS 分群模型於硬體效能的表現。首先,就運行 速度而言,於Tian 等人實驗中表示 BIRCH clustering 分群模型較 CLARANS 分 群模型速度快上近 15 倍;BIRCH clustering 分群模型較 CLARANS 分群模型需 要較少記憶體、更加準確、對於資料是否有排序較不敏感。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4. Spectral clustering

Spectral clustering 演 變 歷 史 悠 久 , 首 先 Donath 等 人 提 出 使 用 特 徵 向 量 (eigenvectors)將圖(graph)進行分割;而 Fiedle 指出將圖進行雙分(bi-partitions)與 拉普拉斯圖(graph Laplacian)第二個特徵向量概念相近,因此 Fiedler 建議透過此 特 徵 向 量 將 圖 進 行 分 割 。 而 在 機 器 學 習(machine learning) 領 域中 , Spectral clustering 透過 Shi、Ng…等的研究後逐漸變得熱門。