第四章 研究方法
第一節 演算法
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第四章 研究方法
本研究欲使用此章第一節介紹之兩種方法對兩筆青少年資料(RT 與 SS 兩組 資料集)分群,交叉比較後,利用檢定方法,找出較特殊的群體,並將群體的人 口結構資訊表現出此群體特徵。此外,針對特殊群體,本研究將分別對美國大學 生及台灣大學生做比較,及對台灣大學生及高中生做比較。使用之分群時的距離 矩陣計算方法及檢定分群後各群關係的方法將分別在此章的第二節、第三節做介 紹:
第一節 演算法
一、 資料雲幾何樹(Data Cloud Geometry Tree)
此機器學習之演算法為Fushing & McAssey, (2010
)
所提出,並於Fushing, Wang, VanderWaal, McCowan, & Koehl, (2013)改進。此非監督式學習的演算法主 要目的在找出事前資訊未知下之多維度結構,並取得資料的幾何特徵。運算方式 主要以距離矩陣在多個不同尺度下找出資料的幾何結構,結合不同尺度下所得到 的幾何結構資訊,描繪出最後的資料雲幾何樹。概略的流程如下:(1) 用相似性的量測方式對資料點作加權,生成可能有幾何結構的圖,
(2) 在不同的溫度尺度下,採用MCMC法,找出具有幾何結構的圖,
(3) 從多重的馬可夫漫步所收集而來的資訊,建立超度量空間,
(4) 將超度量空間以階層式樹圖呈現,稱為資料雲幾何樹。
詳細的計算步驟如下:
‧
MCMC,稱作受調節隨機漫步(regulated random walk),將分兩部份說明。A. 調整轉移矩陣的每個節點。每次隨機選出一個節點
i
,為避免節點‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
陣
M = [m
%&]
,當第i
個節點與第j
個節點在同一群,則mij
為1,反之為0。
3. 反覆計算1000次受調節隨機漫步,將這1000個矩陣加總後除以1000,則求 得同群機率矩陣
K = [k
%&]
,元素k
"#表示第
i
個節點與第j
個節點同群的 機率。透過矩陣K
選擇溫度尺度,以及判定資料所需的群聚數。4. 設
Din
為對角項矩陣,其對角項元素為同群機率矩陣K
每一行加總後開 根號。設矩陣Lsy = In-Din*K*Din
,!
為資料樣本數,以Lsy
矩陣的特 徵值= ( 1, 2, . . . , n)
產生EW
數列,其中EW = 1- / 1
,由 大到小排序並觀察其平穩狀態,平穩前的個數作為該組的群數,如圖1。再將矩陣內元素全為1的矩陣減去同群機率矩陣
K
得矩陣L
,將L
矩陣 做為距離矩陣用於階層式分群法畫出分群樹,如圖2。以圖1與圖2為例,觀察特徵值排序後前兩點後趨近平穩且分群樹也能依圖2所切高度能分2 群,依此類推則可判定不同尺度下的各個群數。
5. 由步驟4判斷所有不同尺度下的群數,根據所有不同尺度與其對應的群 數,得出最後畫出的資料雲幾何樹,為此演算法所求目的。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 1 EW 數列圖。
圖 2 樹狀圖結果與分群依據 。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
二、 階層式分群法(Hierarchical Clustering Algorithms)
階層式分群演算法是一種常用的分群方式,主要分成聚合法(agglomerative algorithm)跟分裂法(divisive algorithm),透過階層架構,將資料一層層進行聚 合或分裂,最後產生樹狀圖,並決定所需的群聚數。
1. 首先,算出距離矩陣,依照資料的類型,本研究將在連續型的資料使用歐氏 距離與類別型的資料使用漢明距離。
2. 本研究採聚合式,也就是將每一筆資料視為一個群聚,並將距離相近的兩個 群聚合而為一,直到群聚數目達到所需的為止。使用華德法(Ward’s method) 定義群聚間距離的計算方式,各點到合併後的群重心(以平均數表示)的距 離平方和。
3. 將分群的結果以樹狀圖呈現,選擇適當的群數。
4. 最後,測量在資料集下分群結構間的強韌度。
其優點為簡單易懂、運算快速且過程自動化,藉由兩資料點間的距離可以迅 速得到資料的幾何結構,不需要資料點實際的座標位置。但其缺點在於,僅適用 在資料量小,當資料量過大時,不易獲取資料的幾何結構。