• 沒有找到結果。

第三章 研究方法

3.8 分群分析

立 政 治 大 學

Na tiona

l Ch engchi University

3.7.2 連續型模型(continuous bag-of-words model)

圖 3.8 連續型模型(continuous bag-of-words model)

連續型模型分成三層,分別為輸入層、投影層、輸出層,且與跳躍式模型剛好是 相 反 , 在 連 續 型 模 型 中 是 透 過 單 一 詞 彙 (𝑤𝑡) 視 窗 大 小 (𝐶 ) 的 上 下 文 𝑤𝑡−𝑐, ⋯ , 𝑤𝑡−1, 𝑤𝑡+1, ⋯ , 𝑤𝑡+𝑐來預測此單一詞彙(𝑤𝑡)出現的機率。

3.8 分群分析

此研究希望可以藉由 cluster analysis 的方法,對多個關鍵詞彙分群,藉由這一個 分群的結果可以知道哪些詞彙是屬於同一性質和其關聯性,並將其用在時間序列 或是空間序列上,觀察其變化來分析出語意上的變化。

Cluster 是把相似的對象通過靜態分類的方法分成不同的組別或是多個子集 合,使在同一個子集合的辭彙都有相似的一些屬性。我運用了三種分群方法,3.8.1 介紹 Jaccard coefficient[22];3.8.2 介紹 Hierarchical clustering[19];3.8.3 介紹 K-means clustering[16]。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.8.1 傑卡德相似係數 ( Jaccard coefficient )

將關聯式規則所產生的規則條件透過 Jaccard coefficient 對所有規則計算彼此間 的相似程度,再選規則條件間 Jaccard coefficien 最大的值的兩條規則聚合再一起,

不斷的重複相同的動作,直到使用者所要求的群聚數量為止。

Jaccard coefficient = |𝑋 ∩ 𝑌|

|𝑋 ∪ 𝑌| 公式( 5 )

3.8.2 階層式分群法 ( Hierarchical clustering )

在 資 料 探 勘 中 hierarchical clustering( 階 層 式 分 群 法 , 又 被 稱 為 hierarchical clustering analysis(HCA),其主要是透過一種階層式的架構,將資料層層反覆的 做分裂或是聚合,最終會產生如圖 3.9 樹狀的結構圖。而常見的方法有兩種,第 一種為 agglomerative hierarchical clustering(聚合階層式分群法),也就是採用 bottom up 的方式,從樹狀結構的底部開始,將個別資料或是群聚逐次合併;第 二種為 Divisive hierarchical clustering(分裂階層式分群法),也就是採用 top down 的方式,先將所有的資料視為同一群,由樹狀結構的最頂端開始,將群聚逐次的 分開。

而此研究是採用 agglomerative hierarchical clustering(聚合階層式分群法),由 樹狀結構的底部開始層層聚合。此方法步驟如下,步驟一:會先將每一個使用者 挑選出來的每一個詞彙視為個別的群聚,假設使用者挑出了 n 個詞彙,就將這 n 個詞彙視為 n 個群聚。步驟二:找出所有群聚間,距離最接近的兩個群聚。步驟 三:將步驟二找到距離最近兩個的群聚合成為一個群聚。步驟四:反覆步驟二、

三的動作,直到使用者所預期的群聚數量為止。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

在步驟二提到了群聚的距離,而在此研究中將詞彙彼此間的距離視為關聯度,

當關聯度越高的同時,表示此兩詞彙在同一句子中經常共同出現,則我們就將其 視為這兩詞彙在空間維度上的距離是較近的;反之當兩詞彙的關聯度低的同時,

就表示這兩詞彙在空間維度上是較遠的。在此有四種方法可以計算距離最接近的 兩個群聚,單一連結聚合演算法(single-linkage agglomerative algorithm),群聚 X 與群聚 Y 間距離的定義是不同群聚中最接近的兩點 x 與 y 距離,如公式( 10 )。

運用了第一種單一連結聚合演算法(single-linkage agglomerative algorithm)作為 群聚的方式。而在這邊我分群停止點在於,只要我所有的詞彙都被分到群體中,

沒有任何詞彙單獨存在,我就會停止聚合且產生聚合的結果。如果使用者還是覺 得目前群聚的數量過多,有需要繼續在往後聚合時,才會再繼續聚合到使用者可 接受的群聚組數。如圖 3.10 為使用者挑選出來的專業詞彙,運用單一連結聚合 演算法(single-linkage agglomerative algorithm)所做出來的分群結果,各種不同 顏色的方框表示不同的群體。

D(𝑋, 𝑌) = min

𝑥∈𝑋,𝑦∈𝑌

𝑑(𝑥, 𝑦)

公式( 6 )

圖 3.9 hierarchical clustering

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 3.10 新青年第九卷 hierarchical clustering 結果

3.8.3 K 均值分群 ( K-means clustering )

k-means[16]原先是用於訊號處理的一種向量量化方法,但現在被廣泛地運用在資 料探勘領域中,作為一種聚類分析方法。我們希望可以藉由 k-means 聚類方法,

將詞彙視為 n 個點劃分成 k 個群體,使的每一個詞彙都有屬於離它近的均值對應 的聚類,作為聚類分群的標準。

運 用 先 前 將 語 料 透 過 word2vec 計 算 出 n 個 詞 彙 的 詞 向 量 集 (𝑥1, 𝑥2, 𝑥3, ⋯ , 𝑥𝑛−1, 𝑥𝑛),且每一個詞向量都是存在一個 d 維向量空間,我們希望 將這些詞彙透過 k-means 聚類把這 n 個詞彙的詞向量劃分到 k 個集合中(𝑘 ≤ 𝑛),

使得 within-cluster sum of squares(WCSS)為最小值,以達到最佳化的分群結果,

其中𝑀𝑖是𝑆𝑖中所有點的平均值。

接下來我們介紹如何計算找最佳化的分群結果,最常使用迭代最佳化的技術,

又被稱為 k-means 演算法,在已知初始的 k 個均值點𝑚1(1), 𝑚2(1), ⋯ , 𝑚𝑘(1),根據接 下來的兩個步驟重複進行,直到群聚的詞彙節點不會在變動為止。首先是採取分 配即是將每個詞彙分配到聚類中,使得 WCSS 達到最小,再將每一個群聚的結

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

果重新計算出該群聚質量中心,利用新的質量中心取代一開始隨機選擇的中心點,

作為該群聚新的中心點。 指定完新的質量中心之後,在一次比較每一詞彙與新 的群聚中心之間的距離,然後根據距離再度從新分配每一個案例所屬的群聚。

使用 k-means 也有幾個缺陷與問題,第一為當使用者所指定的聚類數目 k 選 擇不恰當時,會導致聚類出來的結果不理想,第二為群聚收斂到不變時,也就是 局部最佳解時,可能會導致聚類出「反直觀」的錯誤結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

相關文件