分群分析 - 研究方法 - 中文文本探勘工具：主題分析、詞組關聯強度、相關句擷取

第三章研究方法

3.8 分群分析

國

立政治大學

‧

Na tiona

l Ch engchi University

3.7.2 連續型模型(continuous bag-of-words model)

圖 3.8 連續型模型(continuous bag-of-words model)

連續型模型分成三層，分別為輸入層、投影層、輸出層，且與跳躍式模型剛好是相反，在連續型模型中是透過單一詞彙 (𝑤_𝑡) 視窗大小 (𝐶 ) 的上下文 𝑤𝑡−𝑐, ⋯ , 𝑤𝑡−1, 𝑤𝑡+1, ⋯ , 𝑤𝑡+𝑐來預測此單一詞彙(𝑤𝑡)出現的機率。

3.8 分群分析

此研究希望可以藉由 cluster analysis 的方法，對多個關鍵詞彙分群，藉由這一個分群的結果可以知道哪些詞彙是屬於同一性質和其關聯性，並將其用在時間序列或是空間序列上，觀察其變化來分析出語意上的變化。

Cluster 是把相似的對象通過靜態分類的方法分成不同的組別或是多個子集合，使在同一個子集合的辭彙都有相似的一些屬性。我運用了三種分群方法，3.8.1 介紹 Jaccard coefficient[22]；3.8.2 介紹 Hierarchical clustering[19]；3.8.3 介紹 K-means clustering[16]。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3.8.1 傑卡德相似係數 ( Jaccard coefficient )

將關聯式規則所產生的規則條件透過 Jaccard coefficient 對所有規則計算彼此間的相似程度，再選規則條件間 Jaccard coefficien 最大的值的兩條規則聚合再一起，

不斷的重複相同的動作，直到使用者所要求的群聚數量為止。

Jaccard coefficient = |𝑋 ∩ 𝑌|

|𝑋 ∪ 𝑌| 公式( 5 )

3.8.2 階層式分群法 ( Hierarchical clustering )

在資料探勘中 hierarchical clustering( 階層式分群法，又被稱為 hierarchical clustering analysis(HCA)，其主要是透過一種階層式的架構，將資料層層反覆的 做分裂或是聚合，最終會產生如圖 3.9 樹狀的結構圖。而常見的方法有兩種，第 一種為 agglomerative hierarchical clustering(聚合階層式分群法)，也就是採用 bottom up 的方式，從樹狀結構的底部開始，將個別資料或是群聚逐次合併；第二種為 Divisive hierarchical clustering(分裂階層式分群法)，也就是採用 top down 的方式，先將所有的資料視為同一群，由樹狀結構的最頂端開始，將群聚逐次的分開。

而此研究是採用 agglomerative hierarchical clustering(聚合階層式分群法)，由樹狀結構的底部開始層層聚合。此方法步驟如下，步驟一：會先將每一個使用者挑選出來的每一個詞彙視為個別的群聚，假設使用者挑出了 n 個詞彙，就將這 n 個詞彙視為 n 個群聚。步驟二：找出所有群聚間，距離最接近的兩個群聚。步驟三：將步驟二找到距離最近兩個的群聚合成為一個群聚。步驟四：反覆步驟二、

三的動作，直到使用者所預期的群聚數量為止。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在步驟二提到了群聚的距離，而在此研究中將詞彙彼此間的距離視為關聯度，

當關聯度越高的同時，表示此兩詞彙在同一句子中經常共同出現，則我們就將其視為這兩詞彙在空間維度上的距離是較近的；反之當兩詞彙的關聯度低的同時，

就表示這兩詞彙在空間維度上是較遠的。在此有四種方法可以計算距離最接近的兩個群聚，單一連結聚合演算法（single-linkage agglomerative algorithm），群聚 X 與群聚 Y 間距離的定義是不同群聚中最接近的兩點 x 與 y 距離，如公式( 10 )。

運用了第一種單一連結聚合演算法（single-linkage agglomerative algorithm）作為群聚的方式。而在這邊我分群停止點在於，只要我所有的詞彙都被分到群體中，

沒有任何詞彙單獨存在，我就會停止聚合且產生聚合的結果。如果使用者還是覺得目前群聚的數量過多，有需要繼續在往後聚合時，才會再繼續聚合到使用者可 接受的群聚組數。如圖 3.10 為使用者挑選出來的專業詞彙，運用單一連結聚合 演算法（single-linkage agglomerative algorithm）所做出來的分群結果，各種不同顏色的方框表示不同的群體。

D(𝑋, 𝑌) = min

_{𝑥∈𝑋,𝑦∈𝑌}

𝑑(𝑥, 𝑦)

公式( 6 )

圖 3.9 hierarchical clustering

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 3.10 新青年第九卷 hierarchical clustering 結果

3.8.3 K 均值分群 ( K-means clustering )

k-means[16]原先是用於訊號處理的一種向量量化方法，但現在被廣泛地運用在資料探勘領域中，作為一種聚類分析方法。我們希望可以藉由 k-means 聚類方法，

將詞彙視為 n 個點劃分成 k 個群體，使的每一個詞彙都有屬於離它近的均值對應 的聚類，作為聚類分群的標準。

運用先前將語料透過 word2vec 計算出 n 個詞彙的詞向量集 (𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑛−1, 𝑥𝑛)，且每一個詞向量都是存在一個 d 維向量空間，我們希望 將這些詞彙透過 k-means 聚類把這 n 個詞彙的詞向量劃分到 k 個集合中(𝑘 ≤ 𝑛)，

使得 within-cluster sum of squares(WCSS)為最小值，以達到最佳化的分群結果，

其中𝑀_𝑖是𝑆_𝑖中所有點的平均值。

接下來我們介紹如何計算找最佳化的分群結果，最常使用迭代最佳化的技術，

又被稱為 k-means 演算法，在已知初始的 k 個均值點𝑚₁⁽¹⁾, 𝑚₂⁽¹⁾, ⋯ , 𝑚_𝑘⁽¹⁾，根據接下來的兩個步驟重複進行，直到群聚的詞彙節點不會在變動為止。首先是採取分配即是將每個詞彙分配到聚類中，使得 WCSS 達到最小，再將每一個群聚的結

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

果重新計算出該群聚質量中心，利用新的質量中心取代一開始隨機選擇的中心點，

作為該群聚新的中心點。指定完新的質量中心之後，在一次比較每一詞彙與新的群聚中心之間的距離，然後根據距離再度從新分配每一個案例所屬的群聚。

使用 k-means 也有幾個缺陷與問題，第一為當使用者所指定的聚類數目 k 選 擇不恰當時，會導致聚類出來的結果不理想，第二為群聚收斂到不變時，也就是局部最佳解時，可能會導致聚類出「反直觀」的錯誤結果。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中中文文本探勘工具：主題分析、詞組關聯強度、相關句擷取 - 政大學術集成 (頁 40-45)

分群分析

第三章 研究方法

3.8 分群分析

國

立 政 治 大 學

‧

3.7.2 連續型模型(continuous bag-of-words model)

3.8 分群分析

‧ 國

立 政 治 大 學

‧

3.8.1 傑卡德相似係數 ( Jaccard coefficient )

3.8.2 階層式分群法 ( Hierarchical clustering )

‧ 國

立 政 治 大 學

‧

D(𝑋, 𝑌) = min

𝑑(𝑥, 𝑦)

‧ 國

立 政 治 大 學

‧

3.8.3 K 均值分群 ( K-means clustering )

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第三章研究方法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學