第二章 文獻回顧
第二節 非監督式學習(Unsupervised Learning)
非監督式學習與監督式學習最大的不同就在於是否有標籤(目標預測變數), 在沒有標籤的情況下,資料無法透過訓練得出分類模型來作為預測工具;相對地,
非監督式學習著重在分析資料內部的結構與資料的形貌(pattern),盡可能找出 變數之間的關係,再由機器本身判定,將認為相似的點聚集為一個群體,也就是 分群的過程。
分群主要有兩種方式,一種為階層式分群法(hierarchical clustering),另一 種為分割式分群法(partitional clustering)。階層式分群剛開始的群組數會不斷變 動,由大變小或由小變大,透過合併或分裂的過程,找出最佳的群組數。分割式 分群則是先指定群組數後,透過數學函式不斷進行迭代,找出最佳分群方式。
一、階層式分群法(HC)
Hierarchical Clustering(Johnson, 1967)(以下簡稱 HC)為非監督式學習,
主要是以任意兩筆資料之間的距離遠近,來判斷是否為同一類,透過反覆聚合 (Agglomerative)或分裂(Divisive)的方式,將原始資料劃分為適當的數個群體。其 中聚合由樹狀結構底部開始,將資料群逐次合併;分裂則由樹狀結構頂端開始,
將資料群逐次分裂。當我們欲將資料分為特定的群數時,必須找出洽當的切點以 停止分群。
選擇切點的方法有兩種:
1. 先決定群數再找切點。
2. 找間隔距離較遠的地方當切點。
HC 需要資料點之間的距離作為分群的依據,常見的距離判別方法有最近法 (單一聯結法)、最遠法(完全聯結法)、平均法、中心法及華德(ward)的最小變異法。
HC 的優點為概念清晰易懂,可以由樹狀結構描述整個聚合或分裂的過程,
此外,HC 只需要資料兩點之間的距離就可以執行演算,不需要資料實際的座標。
在缺點的部分,HC 僅僅適用於少量資料,如資料過於龐大則不易處理。
19
二、K 均值分群法 (K-means)
(Hartigan, & Wong, 1979)相較於階層式分層,K-means 屬非分層方式之分 群。前者利用反覆聚合或分裂方法,達到分群目的;後者係以指定群集數目藉自 動化反覆修正完成。K 組平均數之定義如下:
Argmin ∑ ∑ ‖𝑥𝑖 − 𝑢𝑖‖2
𝑥𝑗∈𝑠𝑖 𝑘
𝑖=1
其中 k 為我們設定的群組數,𝑢𝑖為 k 個在資料集中隨機設立的初始點,以這 些𝑢𝑖為中心,依上列公式將所有符合與中心的最近資料點𝑥𝑗視為同一群𝑠𝑖,接著 由𝑠𝑖所有的資料點𝑥𝑖𝑗再求出新的中心𝑢𝑖‘,重複此步驟直到各群中心不再移動或者 移動很小,即完成 K-means 演算法。
圖 6 K-means 演算流程
K-means 的優點在於沒有複雜的理論作為基礎,在演算上並不會花費太多時 間。缺點則在於初始點的選擇會影響演算結果的優劣,如中心落在極端的資料點 上容易導致錯誤的分類結果。
三、資料雲幾何樹 (DCG-tree)
為因應輸入資料規模大小的不同(scale),本研究援引 DCG-tree(Fushing, Wang, VanderWaal, McCowan, & Koehl, 2013)進行分群操作。實作 DCG-tree 必須 經過以下四個步驟:步驟一,建立一個與經驗資料相似的可能資料概況。步驟二,
使用動態蒙地卡羅(Dynamic Monte Carlo)偵測前述資料概況在不同條件下(尺 度)的幾何。步驟三,由多元馬可夫路徑(multiple Markovian walk)建構一個 超度量空間(Ultra metric space)。步驟四,利用階層式樹狀圖視覺化此超度量空 間。 法 MCMC(Markov Chain Monte Carlo)使分布情況具象化。要執行此方法,
首先選擇一個尺度 T,接著從資料隨機挑選出一個個體 i,將S中第 i 列加總,
再將第 i 列分別除以加總數,得到的結果就是個體 i 跳到其它個體的機率。然 後由該機率再挑選出一個個體 j 並重複上述步驟,直到跑到最後一個個體為 止。但為避免一直在相近的個體間反覆跳動,因此設定一個闕值 N。當同一 個體被選中 N 次後就被移除,在此我們將 N 指定為 5 次,當相近的個體皆被
21
拜訪過 5 次後,隨機漫步就會跳到其他群資料,我們將每一個個體被移除的 時間照順序記錄下來,畫出一張頻率圖來得知哪些個體為同一群,並做出一 個矩陣,M,當 i 跟 j 被分為同一群時,𝑚𝑖𝑗為 1,反之為 0。
3. 重覆 2.的動作 1000 次,將這 1000 次的 M 加總再除以 1000,算出同群機率 的矩陣K,𝑘𝑖𝑗表示 i 跟 j 同群的機率,即完成演算。
4. 由K的分類樹分群與特徵值圖判斷在選定 T 之下的分群數。
22
四、WDCG
(Chou, Hsieh, & Capitanio, 2013)有鑑於在多維資料中不同的變數組成在決 定相對距離或相似程度時具有不同程度的重要性和影響力。因此在 DCG-tree 演