• 沒有找到結果。

第三章 研究方法

3.7 擷取代表句及評估擷取效果

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在研究中,因為參考句具有義項類別,因此透過分群模型中的參考句計算 purity,可以藉由計算參考句於分群模型中的 purity 辨別分群模型的優劣。以圖 14 作舉例,假設實驗語料分群分為三個群集,圓形資料點為目標詞彙的相關句;

正方形資料點以及叉叉資料點為參考句,其中參考句共分為二種義項類別,分別 為正方形資料點以及叉叉資料點,而根據此分群模型計算purity,於左側群集中 參考句最多的義項類別為二個叉叉;中間群集中無出現參考句;右側群集中參考 句最多的義項類別為三個正方形。因此以參考句計算此分群模型的 purity 則為

2 3 0.714 7

 

圖14 Purity 於本研究中的使用方式

3.7 擷取代表句及評估擷取效果

在本研究中,使用維基百科內容或新聞語料以及參考句作為研究語料。透過將維 基百科內容或新聞語料中目標詞彙的相關句及參考句向量化,並藉由分群技術將 相關句進行分群,依據參考句中的義項類別將分群之群集進行標記。

而在本研究中,定義代表句為能用以表示目標詞彙使用情形的相關句,透過 閱讀代表句,讓使用者了解目標詞彙於各群集中實際的使用情形。在研究中,共 有三種方式擷取代表句,並且依據人工標記之正確答案,檢視擷取代表句之效果。

以下依次介紹擷取代表句及評估擷取代表句效果的方法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.7.1 擷取代表句

在本研究中,透過閱讀代表句讓使用者了解目標詞彙於各群集中實際的使用情形。

而在研究中設計三種方法擷取代表句,以下分別列出此三種擷取代表句的方法,

並實際說明此三種方式如何擷取代表句。

方法1:將從有參考句之群集,擷取群集下所有的維基百科內容或新聞語料 中目標詞彙的相關句作為代表句。

方法2:將從有參考句之群集,根據群集內各維基百科內容或新聞語料中目 標詞彙的相關句與其所屬之群集中心距離擷取代表句。

方法3:將從有參考句之群集,根據群集內各維基百科內容或新聞語料中目 標詞彙的相關句與其所屬之群集中參考句之群集中心距離擷取代 表句。

方法1:以圖 15 作舉例,假設實驗語料分群分為三個群集,其中圓形資料點為 維基百科內容中目標詞彙的相關句;正方形資料點以及叉叉資料點為參考句;小 圓形為各群集中心。而根據此分群模型擷取代表句,於左側群集中擷取3 個圓形 資料點作為代表句;中間群集中無出現參考句,因此於此群集中不擷取代表句;

於右側群集中擷取5 個圓形資料點作為代表句。

圖15 擷取代表句方法 1 示意圖

方法2:以圖 16 作舉例,假設實驗語料分群分為三個群集,於有參考句之群集 中擷取二句相關句作為代表句,其中圓形資料點為維基百科內容或新聞語料中目 標詞彙的相關句;正方形資料點以及叉叉資料點為參考句;小圓形為各群集中心。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

而根據此分群模型擷取代表句,於左側群集中三個圓形資料點,依據cosine 相似 度擷取其中與群集中心最接近的二句相關句作為代表句,分別如圖16 中左側群 集所圈示圓形資料點;中間群集中無出現參考句,因此於此群集中不擷取代表句;

於右側群集中依據 cosine 相似度擷取其中與群集中心最接近的二句相關句作為 代表句,分別如圖16 中右側群集所圈示圓形資料點。

圖16 擷取代表句方法 2 示意圖

方法3:以圖 17 作舉例,假設實驗語料分群分為三個群集,於有參考句之群集 中擷取二句相關句作為代表句,其中圓形資料點為維基百科內容中目標詞彙的相 關句;正方形資料點以及叉叉資料點為參考句;小圓形為各群集中心;小三角形 為各群集中參考句中心。而根據此分群模型擷取代表句,於左側群集中三個圓形 資料點,依據 cosine 相似度擷取其中與參考句中心最接近的二句相關句作為代 表句,分別如圖 17 中左側群集所圈示圓形資料點;中間群集中無出現參考句,

因此於此群集中不擷取代表句;於右側群集中依據 cosine 相似度擷取其中與參 考句中心最接近的二句相關句作為代表句,分別如圖 17 中右側群集所圈示圓形 資料點。

圖17 擷取代表句方法 3 示意圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.7.2 整合代表句

因為embedding 具有隨機性,因此為了明確觀察相同參數下的結果,考量機器效 能,本研究中在相同參數下重複執行十次,並整合十次分群模型的代表句作為此 組參數下的代表句。以下對整合十次分群模型的代表句方法進行說明。

假設將相關句劃分成10 個群集,重複執行後會有 100(

10 10 

)個群集進行擷 取代表句。在此將每一個群集擷取的代表句的編號視為一個集合,並透過聚合式 分群法將此100 個集合進行分群,其中因為每一個集合中儲存的元為相關句的編 號,因此在聚合式分群法距離計算方式並非使用歐氏距離而是使用雅卡爾指數 (Jaccard index),其中雅卡爾指數是用以度量二群集之間的相似性,雅卡爾指數係 數越高代表二群集之間越相似,反之,二群集之間越不相似。現今假設給定二群 集A、B,群集 A、B 間的雅卡爾指數係數為群集 A、B 聯集的個數除以群集 A、

B 交集的個數,計算方式如公式(20).。

以下進行舉例說明,假設現今有資料集共有{1, 2, 3, 4, 5, 6}共 6 句相關句,

其中將資料集劃分成 2 個群集,並以同樣設置重複執行 2 次。第一次分群結果 為,群集1:{1, 2, 3}、群集 2:{4, 5, 6};第二次分群結果為群集 1:{1, 2, 3, 4}、

群集2:{5, 6}。最後,透過階層式分群將此 4(

2 2 

)的分群結果,整合成 2 群集,

其中距離的計算方式採取雅卡爾指數,最後形成二群集分別為群集1[(1, 2, 3),(1, 2, 3, 4)]、群集 2[(4, 5, 6),(5, 6)]。相關句 4 同時出現於 2 個群集當中。因此於本 研究中設計二種方式,處理同時出現重複出現於不同群集的相關句,以下為此二 種方法,於方法1 中認為會同時出現於不同群集的相關句,就分群模型的結果來 說可能為邊界點,就實際結果來說與同群內的其他相關句同質性沒那麼高,因此 將此類相關句進行剃除;於方法2 中認為會同時出現於不同群集的相關句,就分 群的結果來說可能為邊界點,但是直接剃除未免過於果斷,可能會損失不少有意

,

A B

Jaccard A B

A B

(20)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

義的資訊。因此透過計算此類相關句對於各重複出現群集中心的距離,將其歸屬 於距離較近重複出現的群集。

方法1:直接剔除重複出現於不同群集的相關句。

方法2:計算重複出現於不同群集的相關句對於重複出現的群集中心的 距離,並將其歸屬於距離較近的群集。

以下為實際步驟 :

步驟一:將相同參數下執行10 的每一個群集視為一個群聚,其中每一個群 聚儲存相關句的編號。

步驟二:從所有群聚中,找出Jaccard 距離最近的二群聚。

步驟三:將步驟二中兩群聚進行合併形成新的群聚。

步驟四:重複步驟二、三直到,群聚數下降至我們設置的分群數目。

步驟五:將重複出現於不同群聚的相關句進行歸類。

3.7.3 評估擷取代表句效果

在研究中,為了瞭解擷取代表句之效果。透過各群集中參考句標記代表句之義項 類別,並且依據人工標記之正確答案計算擷取代表句之macro average、weighted average 以及 accuracy。

以圖14 作舉例說明,透過各群集中參考句標記代表句之義項類別。假設實 驗語料分群分為三個群集,將從有參考句之群集,擷取群集下所有的維基百科內 容中目標詞彙的相關句作為代表句。其中綠色資料點為維基百科內容中目標詞彙 的相關句;紅色資料點為參考句,在本研究中,使用各群集中參考句義項類別多 數決標記代表句之義項類別,於左側群集中參考句義項類別多數決為叉叉,因此 擷取出的代表句義向類別皆標記為叉叉;中間群集中無出現參考句,因此於此群 集中不擷取代表句;於右側群集中參考句義項類別多數決為正方形,因此擷取出 的代表句義向類別皆標記為正方形。藉此將擷取出的代表句標記義項類別,並且

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

根據人工標記之正確答案計算擷取代表句之macro average、weighted average 以 及accuracy。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四章 實驗設計與結果分析