演算法

第四章研究方法

第一節演算法

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章研究方法

本研究欲使用此章第一節介紹之兩種方法對兩筆青少年資料（RT 與 SS 兩組資料集）分群，交叉比較後，利用檢定方法，找出較特殊的群體，並將群體的人口結構資訊表現出此群體特徵。此外，針對特殊群體，本研究將分別對美國大學生及台灣大學生做比較，及對台灣大學生及高中生做比較。使用之分群時的距離矩陣計算方法及檢定分群後各群關係的方法將分別在此章的第二節、第三節做介紹：

第一節演算法

一、資料雲幾何樹(Data Cloud Geometry Tree)

此機器學習之演算法為Fushing & McAssey, (2010

)

^{所提出，並於}Fushing, Wang, VanderWaal, McCowan, & Koehl, (2013)改進。此非監督式學習的演算法主要目的在找出事前資訊未知下之多維度結構，並取得資料的幾何特徵。運算方式主要以距離矩陣在多個不同尺度下找出資料的幾何結構，結合不同尺度下所得到的幾何結構資訊，描繪出最後的資料雲幾何樹。概略的流程如下：

（1）用相似性的量測方式對資料點作加權，生成可能有幾何結構的圖，

（2）在不同的溫度尺度下，採用MCMC法，找出具有幾何結構的圖，

（3）從多重的馬可夫漫步所收集而來的資訊，建立超度量空間，

（4）將超度量空間以階層式樹圖呈現，稱為資料雲幾何樹。

詳細的計算步驟如下：

‧

MCMC，稱作受調節隨機漫步（regulated random walk），將分兩部份說明。

A. 調整轉移矩陣的每個節點。每次隨機選出一個節點

i

，為避免節點

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

陣

M = [m

_%&

]

，當第

i

個節點與第

j

個節點在同一群，則

mij

為1，

反之為0。

3. 反覆計算1000次受調節隨機漫步,將這1000個矩陣加總後除以1000，則求得同群機率矩陣

_{K = [k}

_%&

_]

，元素

_k

_"#

表示第

i

個節點與第

j

個節點同群的機率。透過矩陣

K

選擇溫度尺度，以及判定資料所需的群聚數。

4. 設

Din

為對角項矩陣，其對角項元素為同群機率矩陣

K

每一行加總後開根號。設矩陣

Lsy = In-DinKDin

，

!

為資料樣本數，以

Lsy

矩陣的特徵值

= ( 1, 2, . . . , n)

產生

EW

數列，其中

EW = 1- / 1

，由大到小排序並觀察其平穩狀態，平穩前的個數作為該組的群數，如圖1。

再將矩陣內元素全為1的矩陣減去同群機率矩陣

K

得矩陣

L

，將

L

矩陣做為距離矩陣用於階層式分群法畫出分群樹，如圖2。以圖1與圖2為例，

觀察特徵值排序後前兩點後趨近平穩且分群樹也能依圖2所切高度能分2 群，依此類推則可判定不同尺度下的各個群數。

5. 由步驟4判斷所有不同尺度下的群數,根據所有不同尺度與其對應的群數，得出最後畫出的資料雲幾何樹,為此演算法所求目的。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 1 EW 數列圖。

圖 2 樹狀圖結果與分群依據。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

二、階層式分群法(Hierarchical Clustering Algorithms)

階層式分群演算法是一種常用的分群方式，主要分成聚合法（agglomerative algorithm）跟分裂法（divisive algorithm），透過階層架構，將資料一層層進行聚合或分裂，最後產生樹狀圖，並決定所需的群聚數。

1. 首先，算出距離矩陣，依照資料的類型，本研究將在連續型的資料使用歐氏距離與類別型的資料使用漢明距離。

2. 本研究採聚合式，也就是將每一筆資料視為一個群聚，並將距離相近的兩個群聚合而為一，直到群聚數目達到所需的為止。使用華德法(Ward’s method) 定義群聚間距離的計算方式，各點到合併後的群重心（以平均數表示）的距離平方和。

3. 將分群的結果以樹狀圖呈現，選擇適當的群數。

4. 最後，測量在資料集下分群結構間的強韌度。

其優點為簡單易懂、運算快速且過程自動化，藉由兩資料點間的距離可以迅速得到資料的幾何結構，不需要資料點實際的座標位置。但其缺點在於，僅適用在資料量小，當資料量過大時，不易獲取資料的幾何結構。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中非監督式學習下高風險行為青少年探究 - 政大學術集成 (頁 17-22)

第四章 研究方法

第一節 演算法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章 研究方法

第一節 演算法

)

‧

i

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

M = [m

]

i

j

mij

K = [k

]

k

i

j

K

Din

K

Lsy = In-Din*K*Din

!

Lsy

= ( 1, 2, . . . , n)

EW

EW = 1- / 1

K

L

L

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章研究方法

第一節演算法

立政治大學

第四章研究方法

第一節演算法

立政治大學

_{K = [k}

_]

_k

Lsy = In-DinKDin

立政治大學

立政治大學

立政治大學