非監督式學習(Unsupervised Learning)

第二章文獻回顧

第二節非監督式學習(Unsupervised Learning)

非監督式學習與監督式學習最大的不同就在於是否有標籤（目標預測變數），在沒有標籤的情況下，資料無法透過訓練得出分類模型來作為預測工具；相對地，

非監督式學習著重在分析資料內部的結構與資料的形貌（pattern），盡可能找出變數之間的關係，再由機器本身判定，將認為相似的點聚集為一個群體，也就是分群的過程。

分群主要有兩種方式，一種為階層式分群法（hierarchical clustering），另一種為分割式分群法（partitional clustering）。階層式分群剛開始的群組數會不斷變動，由大變小或由小變大，透過合併或分裂的過程，找出最佳的群組數。分割式分群則是先指定群組數後，透過數學函式不斷進行迭代，找出最佳分群方式。

一、階層式分群法（HC）

Hierarchical Clustering（Johnson, 1967）（以下簡稱 HC）為非監督式學習，

主要是以任意兩筆資料之間的距離遠近，來判斷是否為同一類，透過反覆聚合 (Agglomerative)或分裂(Divisive)的方式，將原始資料劃分為適當的數個群體。其中聚合由樹狀結構底部開始，將資料群逐次合併；分裂則由樹狀結構頂端開始，

將資料群逐次分裂。當我們欲將資料分為特定的群數時，必須找出洽當的切點以停止分群。

選擇切點的方法有兩種：

1. 先決定群數再找切點。

2. 找間隔距離較遠的地方當切點。

HC 需要資料點之間的距離作為分群的依據，常見的距離判別方法有最近法 (單一聯結法)、最遠法(完全聯結法)、平均法、中心法及華德(ward)的最小變異法。

HC 的優點為概念清晰易懂，可以由樹狀結構描述整個聚合或分裂的過程，

此外，HC 只需要資料兩點之間的距離就可以執行演算，不需要資料實際的座標。

在缺點的部分，HC 僅僅適用於少量資料，如資料過於龐大則不易處理。

二、K 均值分群法 (K-means)

（Hartigan, & Wong, 1979）相較於階層式分層，K-means 屬非分層方式之分群。前者利用反覆聚合或分裂方法，達到分群目的；後者係以指定群集數目藉自動化反覆修正完成。K 組平均數之定義如下：

Argmin ∑ ∑ ‖𝑥_𝑖 − 𝑢_𝑖‖²

𝑥_𝑗∈𝑠_𝑖 𝑘

𝑖=1

其中 k 為我們設定的群組數，𝑢_𝑖為 k 個在資料集中隨機設立的初始點，以這些𝑢_𝑖為中心，依上列公式將所有符合與中心的最近資料點𝑥_𝑗視為同一群𝑠_𝑖，接著由𝑠_𝑖所有的資料點𝑥_𝑖𝑗再求出新的中心𝑢_𝑖‘，重複此步驟直到各群中心不再移動或者移動很小，即完成 K-means 演算法。

圖 6 K-means 演算流程

K-means 的優點在於沒有複雜的理論作為基礎，在演算上並不會花費太多時間。缺點則在於初始點的選擇會影響演算結果的優劣，如中心落在極端的資料點上容易導致錯誤的分類結果。

三、資料雲幾何樹 (DCG-tree)

為因應輸入資料規模大小的不同（scale），本研究援引 DCG-tree(Fushing, Wang, VanderWaal, McCowan, & Koehl, 2013)進行分群操作。實作 DCG-tree 必須經過以下四個步驟：步驟一，建立一個與經驗資料相似的可能資料概況。步驟二，

使用動態蒙地卡羅（Dynamic Monte Carlo）偵測前述資料概況在不同條件下（尺度）的幾何。步驟三，由多元馬可夫路徑（multiple Markovian walk）建構一個超度量空間（Ultra metric space）。步驟四，利用階層式樹狀圖視覺化此超度量空間。法 MCMC（Markov Chain Monte Carlo）使分布情況具象化。要執行此方法，

首先選擇一個尺度 T，接著從資料隨機挑選出一個個體 i，將Ｓ中第 i 列加總，

再將第 i 列分別除以加總數，得到的結果就是個體 i 跳到其它個體的機率。然後由該機率再挑選出一個個體 j 並重複上述步驟，直到跑到最後一個個體為止。但為避免一直在相近的個體間反覆跳動，因此設定一個闕值 N。當同一個體被選中 N 次後就被移除，在此我們將 N 指定為 5 次，當相近的個體皆被

拜訪過 5 次後，隨機漫步就會跳到其他群資料，我們將每一個個體被移除的時間照順序記錄下來，畫出一張頻率圖來得知哪些個體為同一群，並做出一個矩陣，M，當 i 跟 j 被分為同一群時，𝑚_𝑖𝑗為 1，反之為 0。

3. 重覆 2.的動作 1000 次，將這 1000 次的 M 加總再除以 1000，算出同群機率的矩陣Ｋ，𝑘_𝑖𝑗表示 i 跟 j 同群的機率，即完成演算。

4. 由Ｋ的分類樹分群與特徵值圖判斷在選定 T 之下的分群數。

四、WDCG

（Chou, Hsieh, & Capitanio, 2013）有鑑於在多維資料中不同的變數組成在決定相對距離或相似程度時具有不同程度的重要性和影響力。因此在 DCG-tree 演

在文檔中機器學習分類方法 DCG 與其他方法比較(以紅酒為例) (頁 17-23)

第二章 文獻回顧

第二節 非監督式學習(Unsupervised Learning)

第二章文獻回顧

第二節非監督式學習(Unsupervised Learning)