第五章 研究過程與結果
第二節 H IERARCHICAL C LUSTERING
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第二節 Hierarchical Clustering
本節以RT 與 SS 兩個資料集進行階層式分群演算法,距離矩陣分別選用歐氏 距離和漢明距離,並以華德法作為聚合的方式,最後,根據樹狀圖的結果選擇適 當的群數。過程將分兩部份進行討論:
一、 強韌度
主要目的是跟DCG-tree 的演算法結果比較,因此在同個資料集下,HC 的群 聚數將挑選與DCG-tree 的群聚數相似,其中 RT 與 SS 分別分成五個與六個群聚 如圖8 在 RT 下,變數分群的部分,依作答情形,可發現 1, 3, 4 題整體作答題項 較相近,另外2, 5, 7, 8 題較相近。如圖 9 在 SS 下,變數分群的部分,依作答情 形,可發現SSG1,SS1 題整體作答題項較相近,另外 2, 3, 4, 5, 6, 7, 8 題較相近。
如下表 11-12,RT 與 SS 各自的分群下,其各組人數與 DCG-tree 人數相比較均勻。
強韌度分別為 0.981(RT)及 0.977(SC)。接著,對於以下各組平均數進行檢定。
表 11 RT 在 HC 下的群聚個數。
表 12 SS 在 HC 下的群聚個數。
組別 1 2 3 4 5
個數 257 266 115 82 34
組別 1 2 3 4 5 6
個數 116 181 69 59 41 65
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 8 RT 在 HC 下的分群結果。
圖 9 SS 在 HC 下的分群結果。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
二. 檢定以連續型資料分群後的各組間差異
接著,根據HC 的分群結果,做 ANOVA test 和 K-W test。如下表 13,從 DAD 的結果發現,兩個檢定的顯著項皆達到九個,以ANOVA 的顯著變數來看,MOM 有MConsVerExp、MInvaFeel、MPersAtt、MDisresp、MShame、MBehcontrolSum、
MBehMonitorSum、MPsycontrolSum,而 DAD 有 FConsVerExp、FInvaFeel、
FPersAtt、FLoveWith、FDisresp、FShame、FBehcontrolSum、FBehMonitorSum、
FPsycontrolSum,其中兩者皆有 ConsVerExp、InvaFeel、PersAtt、Disresp、Shame、
BehcontrolSum、BehMonitorSum、PsycontrolSum,可知這八個變數在此分群結 果下群間差異較大。進一步做Tukey HSD,從 MOM 來看在 MConsVerExp 下,
第一群與第三群及第四群有顯著差異,而MInvaFeel 下,第一群與第三群、第四 群及第五群有顯著差異。在八個顯著變數中,皆顯示第一群與第四群是有差異的; 從DAD 來看,在 FConsVerExp 下,第四群與第一群及第二群有顯著差異,在 FInvaFeel 下,第一群與第二群、第三群及第四群有顯著差異,而 FBehcontrolSum 下,第一群與第二群、第三群、第四群及第五群有顯著差異。九個顯著變數中,
皆顯示第一群與第四群是有差異的。
‧
(1,2,3,6,7,8,9,10) (3,5,7,8,9,10) (1,2,3,5,6,7,8,9,10) (1,2,3,5,6,7, 8,9,10)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖10 為顯示各群差異熱圖,發現各組間差異不易以視覺化表現出。
圖 10 (左)以 RT 在 HC 下的分群結果,看 MOM(左)和 DAD(右)群間差異。
三、 檢定以類別型資料分群後的各組間差異
針對SS 的 HC 分群結果,將 ELSE 資料集中的二十個組合變數各別做 ANOVA test 和 K-W test,可以發現 MOM 的變數中,兩檢定皆有六個以上顯著 變數,而DAD 的變數中,有七個顯著變數。以 ANOVA 來看,MOM 有 MPersAtt、
MLoveWith、MDisresp、MBehcontrolSum、MBehMonitorSum、MPsycontrolSum,
DAD 有 FConsVerExp、FPersAtt、FLoveWith、FDisresp、FBehcontrolSum、
FBehMonitorSum、FPsycontrolSum,兩者皆有 PersAtt、LoveWith、Disresp、
BehcontrolSum、BehMonitorSum、PsycontrolSum,因此,推測這六個變數在 HC 分群結果下群間差異較大。接著,對ANOVA 的結果做 Tukey HSD,找出顯著差 異的群組,結果如表 14,例如在MPersAtt 下,第三群與第一群及第二群有顯著 差異,以此類推。在MOM 或 DAD 變數下,第四群與第二群較有顯著差異。
‧
(3,5,6,8,9,10) (2,3,5,6,8,9,10) (1,3,5,6,8,9,10) (1,3,5,6,8,9,10)
Tukey
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
綜合上述觀察,比較HC 與 DCG-tree 的顯著變數來看,在 RT 連續行資料下,
ANOVA 檢定下,HC 顯著項個數是明顯多於 DCG-tree 的顯著項個數,從 K-W 檢定來看,DCG-tree 的顯著項個數則比 HC 多;在 SS 類別型的資料,DCG-tree 的個數與HC 的個數兩者差異不大。以皆有顯著差異的群來看,在 DCG-tree 中,
第一群出現最多,其次第四群,在HC 中,第四群出現最多,其次第二群。