H IERARCHICAL C LUSTERING - 研究過程與結果 - 非監督式學習下高風險行為青少年探究

第五章研究過程與結果

第二節 H IERARCHICAL C LUSTERING

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 Hierarchical Clustering

本節以RT 與 SS 兩個資料集進行階層式分群演算法，距離矩陣分別選用歐氏距離和漢明距離，並以華德法作為聚合的方式，最後，根據樹狀圖的結果選擇適當的群數。過程將分兩部份進行討論：

一、強韌度

主要目的是跟DCG-tree 的演算法結果比較，因此在同個資料集下，HC 的群聚數將挑選與DCG-tree 的群聚數相似，其中 RT 與 SS 分別分成五個與六個群聚如圖8 在 RT 下，變數分群的部分，依作答情形，可發現 1, 3, 4 題整體作答題項較相近，另外2, 5, 7, 8 題較相近。如圖 9 在 SS 下，變數分群的部分，依作答情形，可發現SSG1,SS1 題整體作答題項較相近，另外 2, 3, 4, 5, 6, 7, 8 題較相近。

如下表 11-12，RT 與 SS 各自的分群下，其各組人數與 DCG-tree 人數相比較均勻。

強韌度分別為 0.981(RT)及 0.977(SC)。接著，對於以下各組平均數進行檢定。

表 11 RT 在 HC 下的群聚個數。

表 12 SS 在 HC 下的群聚個數。

組別 1 2 3 4 5

個數 257 266 115 82 34

組別 1 2 3 4 5 6

個數 116 181 69 59 41 65

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 8 RT 在 HC 下的分群結果。

圖 9 SS 在 HC 下的分群結果。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二. 檢定以連續型資料分群後的各組間差異

接著，根據HC 的分群結果，做 ANOVA test 和 K-W test。如下表 13，從 DAD 的結果發現，兩個檢定的顯著項皆達到九個，以ANOVA 的顯著變數來看，MOM 有MConsVerExp、MInvaFeel、MPersAtt、MDisresp、MShame、MBehcontrolSum、

MBehMonitorSum、MPsycontrolSum，而 DAD 有 FConsVerExp、FInvaFeel、

FPersAtt、FLoveWith、FDisresp、FShame、FBehcontrolSum、FBehMonitorSum、

FPsycontrolSum，其中兩者皆有 ConsVerExp、InvaFeel、PersAtt、Disresp、Shame、

BehcontrolSum、BehMonitorSum、PsycontrolSum，可知這八個變數在此分群結果下群間差異較大。進一步做Tukey HSD，從 MOM 來看在 MConsVerExp 下，

第一群與第三群及第四群有顯著差異，而MInvaFeel 下，第一群與第三群、第四群及第五群有顯著差異。在八個顯著變數中，皆顯示第一群與第四群是有差異的; 從DAD 來看，在 FConsVerExp 下，第四群與第一群及第二群有顯著差異，在 FInvaFeel 下，第一群與第二群、第三群及第四群有顯著差異，而 FBehcontrolSum 下，第一群與第二群、第三群、第四群及第五群有顯著差異。九個顯著變數中，

皆顯示第一群與第四群是有差異的。

‧

(1,2,3,6,7,8,9,10) (3,5,7,8,9,10) (1,2,3,5,6,7,8,9,10) (1,2,3,5,6,7, 8,9,10)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖10 為顯示各群差異熱圖，發現各組間差異不易以視覺化表現出。

圖 10 (左)以 RT 在 HC 下的分群結果，看 MOM(左)和 DAD(右)群間差異。

三、檢定以類別型資料分群後的各組間差異

針對SS 的 HC 分群結果，將 ELSE 資料集中的二十個組合變數各別做 ANOVA test 和 K-W test，可以發現 MOM 的變數中，兩檢定皆有六個以上顯著變數，而DAD 的變數中，有七個顯著變數。以 ANOVA 來看，MOM 有 MPersAtt、

MLoveWith、MDisresp、MBehcontrolSum、MBehMonitorSum、MPsycontrolSum，

DAD 有 FConsVerExp、FPersAtt、FLoveWith、FDisresp、FBehcontrolSum、

FBehMonitorSum、FPsycontrolSum，兩者皆有 PersAtt、LoveWith、Disresp、

BehcontrolSum、BehMonitorSum、PsycontrolSum，因此，推測這六個變數在 HC 分群結果下群間差異較大。接著，對ANOVA 的結果做 Tukey HSD，找出顯著差異的群組，結果如表 14，例如在MPersAtt 下，第三群與第一群及第二群有顯著差異，以此類推。在MOM 或 DAD 變數下，第四群與第二群較有顯著差異。

‧

(3,5,6,8,9,10) (2,3,5,6,8,9,10) (1,3,5,6,8,9,10) (1,3,5,6,8,9,10)

Tukey

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

綜合上述觀察，比較HC 與 DCG-tree 的顯著變數來看，在 RT 連續行資料下，

ANOVA 檢定下，HC 顯著項個數是明顯多於 DCG-tree 的顯著項個數，從 K-W 檢定來看，DCG-tree 的顯著項個數則比 HC 多；在 SS 類別型的資料，DCG-tree 的個數與HC 的個數兩者差異不大。以皆有顯著差異的群來看，在 DCG-tree 中，

第一群出現最多，其次第四群，在HC 中，第四群出現最多，其次第二群。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中非監督式學習下高風險行為青少年探究 - 政大學術集成 (頁 34-41)

H IERARCHICAL C LUSTERING

第五章 研究過程與結果

第二節 H IERARCHICAL C LUSTERING

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 Hierarchical Clustering

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章研究過程與結果

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學