機器學習分類方法 DCG 與其他方法比較(以紅酒為例)

(1)

國立政治大學統計學系研究所碩士班碩士學位論文

機器學習分類方法 DCG 與其他方法比較(以紅酒為例)

A Supervised Learning Study of Comparison between DCG tree and other Machine Learning Methods in

a Wine Quality dataset

指導教授：周珮婷博士

研究生：楊俊隆撰

中華民國 106 年 6 月

(2)

2

摘要

隨著大數據時代來臨，機器學習方法已然成為熱門學習的主題，主要分為監督式學習與非監督式學習，亦即分類與分群。本研究以羅吉斯迴歸配適結果加權距離矩陣，以資料雲幾何樹分群法為主，在含有類別變數的紅酒資料中，透過先分群再分類的方式，判斷是否可以得到更佳的預測結果。並比較監督式學習下各種機器學習方法預測表現，及非監督式學習下後再透過分類器方法的預測表現。在內容的排序上，首先介紹常見的分類與分群演算方法，並分析其優缺點與假設限制，

接著將介紹資料雲幾何樹演算法，並詳述執行步驟。最後再引入加權資料雲幾何樹演算法，將權重的觀點應用在資料雲幾何樹演算法中，透過紅酒資料，比較各種分類與分群方法的預測準確率。

關鍵字：監督式學習、非監督式學習、加權資料雲幾何樹

(3)

3

Abstract

Machine learning has become a popular topic since the coming of big data era.

Machine learning algorithms are often categorized as being supervised or unsupervised, namely classification or clustering methods. In this study, first, we introduced the advantages, disadvantages, and limits of traditional classification and clustering algorithms. Next, we introduced DCG-tree and WDCG algorithms. We extended the idea of WDCG to the cases with label size=3. The distance matrix was modified by the fitted results of logistic regression. Lastly, by using a real wine dataset, we then compared the performance of WDCG with the performance of traditional classification methodologies. The study showed that using unsupervised learning algorithm with logistic regression as a classifier performs better than using only the traditional classification methods.

Keywords: Supervised learning, Unsupervised learning, WDCG.

(4)

摘要 ... 2

Abstract ... 3

第一章緒論 ... 6

第一節研究動機 ... 6

第二節研究目的 ... 7

第二章文獻回顧 ... 8

第一節監督式學習(Supervised Learning) ... 10

一、支持向量機 (SVM) ... 13

二、線性判別分析 (LDA ) ... 14

三、二次曲線判別分析（QDA） ... 15

四、羅吉斯迴歸（Logistic Regression） ... 16

第二節非監督式學習(Unsupervised Learning) ... 17

一、階層式分群法（HC） ... 18

二、K 均值分群法 (K-means)... 19

三、資料雲幾何樹 (DCG-tree) ... 20

四、WDCG ... 22

第三章研究方法 ... 23

第一節研究流程 ... 23

第二節研究方法 ... 26

第四章研究結果 ... 29

第五章結論 ... 31

參考文獻 ... 33

(5)

5

表目錄

表 1 DCG 分群結果 ... 27

表 2 各分類方法預測正確率比較 ... 29

圖目錄 圖 1 監督式學習方法演算過程 ... 10

圖 2 H(X)為訓練集經由機器學習後產生的模型（LEARNING MODEL） ... 11

圖 3 過度配適的模型 ... 12

圖 4 找出一個超平面使得與兩類別之間的距離差距最大 ... 13

圖 5 找出一個投影軸滿足組間差異最大組內差異最小 ... 14

圖 6 K-MEANS演算流程 ... 19

圖 7 WDCG 演算法流程圖 ... 24

圖 8 其它演算法流程圖 ... 25

圖 9 DCG 在單一尺度下所畫出的陡坡圖與分類樹狀圖 ... 27

圖 10 不同尺度下的分群數量 ... 28

圖 11 總結各尺度分群結果後的 DCG TREE ... 28

圖 12 1414 支被分為一大群的酒所畫出的熱圖 ... 30

(6)

6

第一章緒論

第一節研究動機

現今科技日新月異，尤其在資訊方面更是蓬勃發展，在各項產業中，我們得以取得的資料，像是客戶的基本資料、醫院的就診記錄、意見回饋等，形式上將更為完整，加上電腦儲存與網路技術的進步，現今我們可以獲得的資料除了完整，

數量也相較以往更加龐大。然而，資料儲存除了提供追蹤查詢，也能透過分析方法揭露資訊中隱藏的訊息，若能有效萃取資料庫中提供的資料作為新的資訊，將有助於公司做進一步的研究，或者將客戶做適當的區隔，藉以將公司適合的方案提供給潛在需要的客戶以搶得先機，此為大數據（Big Data）分析在當今社會盛行的主要原因。

在各種分析方法中，以機器學習（Machine Learning）為當前最廣泛被應用的分析方法，屬於實現人工智慧的一條路徑，透過演算流程的設計，使得機器本身能夠自主學習，將給定資料轉為有用的資訊。在機器學習方法中，主要分為監督式學習與非監督式學習，目的不同，一個為「分類」，泛指將資料經由某種演算法分析後，產生一個具有預測功能的模型，使得新的資料代入該模型中可以得出一個預測結果；另一個為「分群」，它不具預測功能，而是將資料中相似的個體放在同一群組中。但無論是分類或分群方法，都是找出資料中個體之間的關聯性，若某方法可以做出最好的分類或分群，則該方法即為好的演算法。

在預測的準確度上，隨著資料量日益增大，變數的種類越來越多，且複雜程度越來越高，一些傳統常見的分類方法已不再適用，主要原因為各種方法都有其理論與假設，當資料不符合某方法的假設，則用該方法分析將無法得到好的結果。

因此，找出最少假設限制與最高預測準確度的方法，將成為資料分析人員共同追求的目標，此為本論文的研究動機。

(7)

7

第二節研究目的

本研究以 R 軟體為研究工具，並以機器學習方法中的監督式學習為主要的研究目的，亦即分類。在分類方法中，首先將介紹支持向量機（Support Vector Machine, SVM）、線性判別分析（Linear Discriminant Analysis, LDA）、二次曲線判別分析（Quadratic Discriminant Analysis, QDA）以及羅吉斯迴歸（Logistic Regression）等分類方法。此外，本研究提出一個新的概念，希望透過先分群後再分類的方式，以獲得更佳的準確率，因此本研究除了分類方法，還有非監督式學習方法，亦即分群。分群的方法中除了提出常見的階層式分群法（Hierarchical Clustering, HC）、K 均值分群法（K-means），也舉出本論文的主軸—資料雲幾何樹（DCG-tree）以及賦予權重的加權資料雲幾何樹（WDCG）。透過紅酒資料，

由預測準確率高低判斷各種方法的優劣。

(8)

8

第二章文獻回顧

機器學習為近年來非常受歡迎的課題，它主要的目的為從數據中分析找出規律，使機器透過學習這些規律的方式預測未知的數據，許多學習方法都被廣泛的應用在監督式學習(Dietterich, 1997; Kotsiantis, Zaharakis, & Pinte, 2007; Pereira, Mitchell, & Botvinick, 2009)。傳統機器學習方法主要是用在二元資料的分類預測，

近年來許多學者研究如何將這些傳統方法延伸至多元資料的預測 (Allwein, Schapire, & Singer, 2000)。有些學者提出的想法為合併多個二元分類器(Hastie &

Tibshirani, 1998)，另外的方法則為考慮整體的多元分類器。許多研究顯示在資料分類上，羅吉斯迴歸是一個標準且有效的方法(Peng, Lee, & Ingersoll, 2002)，羅吉斯迴歸多用於二元資料的分類，且可延伸應用於多元資料。在多元資料下，主要應用方式可分為 one-against-all (OAA), one-against-one (OAO), decision directed acyclic graph (DDAG), and adaptive directed acyclic graph (ADAG) (Sharan, 2014)。

統計學家在機器分類上的應用，通常使用貝氏方法(Chakraborty, 2005)。考慮樣本資料的先驗機率，去預測未來發生的機率。然而在大數據的資料下，我們對資料的先備知識較難得知，更不可能用其去推論後驗的機率，且大數據下已不太存在樣本的概念，可能會造成一些雜訊的問題。目前學者們大多用發生次數的方式來計算先驗機率，但仍需嘗試不同的先驗分配及模型參數，以得到好的預測結果。此外，這些得到的數據往往不能滿足傳統理論上的假設，無論資料量的多寡、

變數之間的特性，甚至部分資訊的遺失都使得我們在演算上面臨到極大的困境。

分群方法(cluster)在現今社會被廣泛使用，商業上常見的有客群分析、使用者偏好、信用違約風險等預測，醫學上則有疾病預測，在生物學與心理學上也常用來做行為預測分析，透過專業知識判斷屬於哪一型態等。然而目前常見的分群方法都有其侷限，如資料不符該演算法的理論假設則無法使用，故找出最少假設

(9)

9

限制且追求最高預測準確率已成為當前首要的課題。

資料雲幾何(DCG) (Fushing & McAssey, 2010)是一個不必考慮資料的先驗資訊新的機器學習分群方法，它考慮數據間的幾何關係，以不同尺度下數據間的相似性做為分群考慮的方法，此方法後來延伸為資料雲幾何樹(DCG tree) (Fushing, Wang, VanderWaal, McCowan, & Koehl, 2013)，將不同尺度下的分群結果作結合，

以一分類樹總結不同尺度下的分群關係。這是一個把資料分開又結合的概念，數據的幾何關係在不同的尺度下被分開，透過樹的概念，一層一層的把每個尺度下的資訊結合。

綜合以上的觀點，我們將 DCG tree 方法延伸至監督式學習，透過加權的距離公式來計算數據的相似性。Chou, Hsieh, & Capitanio, (2013)提出在二元資料下如何用羅吉斯迴歸得到加權距離，透過加權距離，執行 WDCG 監督式學習方法與半監督式學習方法。此研究將延伸 WDCG 方法至三元資料，使用 divide-and-conquer 的方式，以 OAA 方法對每個類別使用二元分類器的方式預測，

最後整合多個二元分類器的預測結果，並將分類結果與其他常見的傳統機器學習分類-支援向量機（SVM）、線性判別分析（LDA）、二次曲線判別分析（QDA）

及羅吉斯迴歸與分群方法-階層式分群（HC）、K 組平均數（K-means）做比較。

這些常見的演算法皆源自不同的理論，在其滿足相對應的假設前提下方可使用。

第一節我們將介紹「監督式學習」與常見的學習方法。第二節則為「非監督式學習」與其常見方法。清楚將「分類」與「分群」的概念區分，並指出每一種方法在實務上的優缺點與限制條件，最後介紹 DCG-tree 分群方法，以及加入權重的 WDCG，使得 DCG 在演算上更具效率。

(10)

第一節監督式學習(Supervised Learning)

監督式學習為機器學習領域中常見的一種方法，當一份資料同時含有特徵

（自變數）與目標（應變數）時便可採用。演算過程如圖 1 所示，首先將資料的一部分作為訓練集（training set），另一部分作為測試集（test set），訓練集必須同時包含自變數與應變數（輸入與輸出值），並由該集合中學習出一個模型

（learning model）如圖 2，接著將測試集（不包含應變數）丟入模型中，產生應變數的預測值（prediction），最後將預測值與真實結果（測試集的應變數）比較，

藉以得到該模型的預測準確率（accurate rate）。

圖 1 監督式學習方法演算過程

(11)

11

圖 2 h(x)為訓練集經由機器學習後產生的模型（learning model）

常見的監督式學習方法有支援向量機（SVM）、線性判別分析（LDA）、二次判別分析（QDA）與羅吉斯迴歸（logistic regression）等。

建立模型的過程中常常會有過度配適（overfitting）如圖 3 與不足擬合（under fitting）的情況，原因在於選擇模型本身的複雜度過高或過低。複雜度過高的時候，模型幾乎完全記住訓練集的所有資訊，造成低偏差但高變異的情況，這會使得新資料套入時產生嚴重的預測錯誤（prediction error），同樣的情況，複雜度過低的時候，模型幾乎沒有判斷的能力，全部結果皆指向同一個標籤，造成低變異但高偏差的結果，對新資料而言同樣會產生嚴重的預測錯誤。為了避免上述情況，

選擇適當的模型或者使用交叉驗證（cross validation）可降低過度配適或不足擬合發生的可能性。

(12)

12

圖 3 過度配適的模型

(13)

一、支持向量機 (SVM)

Support Vector Machines(Boser, Guyon, & Vapnik, 1992)（以下簡稱 SVM）為監督式學習的一種方法，其核心概念為，在資料特徵散佈的 n 維度空間中，找出一個 n-1 維度的超平面（hyperplane），使其將不同群體的資料完全隔開，同時滿足兩個不同群體資料點之間的距離為最大，該平面亦稱為最大間隔超平面。

圖 4 找出一個超平面使得與兩類別之間的距離差距最大

然而並非所有資料都為線性可分，因此 SVM 在演算過程中引入核心函數 (Kernel)，目的為將原始資料的特徵映射到較高維度的空間，使其新特徵為線性可分。

在一般的情況下，SVM 可以有效地分析高維度空間的數據，即使資料中變數的個數大於樣本的個數，SVM 同樣具有很好的分類效果。但如果資料本身有太多噪聲或者有遺失值（Missing Value）時，則容易因為敏感使得分類效果不佳。

常見的核心函數有線性(linear)、多項式(polynomial)、徑向(radial)和神經網路 (sigmoid)等四種。

(14)

14

二、線性判別分析 (LDA )

Linear Discriminant Analysis（以下簡稱 LDA）源自於 Fisher, (1936)判別分析演算法，其核心概念為透過投影的方式降低維度，將資料點坐標從高維度空間投影至低維度空間，使其問題簡化的過程。

投影的方法為找出一個適當的投影軸，使得投影後符合以下兩點：

1. 組內變異最小 2. 組間距離最大

藉以獲得較佳的判別效果。

圖 5 找出一個投影軸滿足組間差異最大組內差異最小

若將資料投影至一維空間，即為一直線。如分隔的效果不夠理想，可再增加一個維度，即為一平面，依此類推。但使用 LDA 演算法的前提為資料必須滿足常態分配且具同質性（每個母體變異數相同）。

LDA 的缺點為，當樣本分類信息取決於方差而非均值時，則降維的效果不好，且可能因為過度配適導致分類結果不佳。

(15)

三、二次曲線判別分析（QDA）

Quadratic Discriminant Analysis（以下簡稱 QDA）同樣來自 Fisher 判別分析演算法，QDA 與 LDA 最大不同在於 QDA 沒有必須滿足同質性的前提，採用二次曲線或曲面作為分隔的依據，而非採用直線或平面。實務上，資料特徵的分布往往比較複雜，不容易用線性的方法作為切割，因此非線性的 QDA 應用較為廣泛。

(16)

四、羅吉斯迴歸（Logistic Regression）

當依變數為離散型變數時（例如二元類別資料），羅吉斯迴歸為常見分析方法，其公式為：

𝑃 = 𝑒^𝑓(𝑥) 1 − 𝑒^𝑓(𝑥) 經對數轉換後得到

ln 𝑃

1 − 𝑃= 𝑓(𝑥)

𝑓(𝑥) = 𝛽₀+ 𝛽₁𝑋₁+ 𝛽₂𝑋₂+ ⋯ + 𝛽_𝑘𝑋_𝑘

其中 P 表為事件成功機率，𝑓(𝑥)為羅吉斯迴歸方程式，可透過對數轉換求得。

通常若無其他假設，當 P>0.5 時，代表該筆資料屬於 1 的類別，反之為 0 的類別；

若已知不同類別數量有明顯差異，則臨界點(0.5)必須作調整，例如兩個分類數量分別為 750 以及 250，則臨界點定在 0.75 較為適當。分析完成後可依照預測結果比對真實結果求出準確率。

羅吉斯迴歸的優點在於資料沒有分配的假設（但若為常態分配則分析結果則更為準確），缺點則為當資料變數大於個體數時，會造成迴歸無法收斂，此為一大限制。

對於多類別（K>2）問題，可以將其看成二類分類問題：保留其中的一類，

剩下的作為另一類。例如在 3 類別的情況下，我們可以將主要觀察的對象令為 1，

其餘令為 0，變成（1,0,0）、（0,1,0,）與（0,0,1）三個類別。

對於每一個類別 i 訓練一個羅吉斯迴歸模型的分類器，並且預測 y = i 時的機率；對於一個新的資料點分別對每一個類進行預測，取機率最大的那個類別作為分類結果。

(17)

第二節非監督式學習(Unsupervised Learning)

非監督式學習與監督式學習最大的不同就在於是否有標籤（目標預測變數），在沒有標籤的情況下，資料無法透過訓練得出分類模型來作為預測工具；相對地，

非監督式學習著重在分析資料內部的結構與資料的形貌（pattern），盡可能找出變數之間的關係，再由機器本身判定，將認為相似的點聚集為一個群體，也就是分群的過程。

分群主要有兩種方式，一種為階層式分群法（hierarchical clustering），另一種為分割式分群法（partitional clustering）。階層式分群剛開始的群組數會不斷變動，由大變小或由小變大，透過合併或分裂的過程，找出最佳的群組數。分割式分群則是先指定群組數後，透過數學函式不斷進行迭代，找出最佳分群方式。

(18)

一、階層式分群法（HC）

Hierarchical Clustering（Johnson, 1967）（以下簡稱 HC）為非監督式學習，

主要是以任意兩筆資料之間的距離遠近，來判斷是否為同一類，透過反覆聚合 (Agglomerative)或分裂(Divisive)的方式，將原始資料劃分為適當的數個群體。其中聚合由樹狀結構底部開始，將資料群逐次合併；分裂則由樹狀結構頂端開始，

將資料群逐次分裂。當我們欲將資料分為特定的群數時，必須找出洽當的切點以停止分群。

選擇切點的方法有兩種：

1. 先決定群數再找切點。

2. 找間隔距離較遠的地方當切點。

HC 需要資料點之間的距離作為分群的依據，常見的距離判別方法有最近法 (單一聯結法)、最遠法(完全聯結法)、平均法、中心法及華德(ward)的最小變異法。

HC 的優點為概念清晰易懂，可以由樹狀結構描述整個聚合或分裂的過程，

此外，HC 只需要資料兩點之間的距離就可以執行演算，不需要資料實際的座標。

在缺點的部分，HC 僅僅適用於少量資料，如資料過於龐大則不易處理。

(19)

19

二、K 均值分群法 (K-means)

（Hartigan, & Wong, 1979）相較於階層式分層，K-means 屬非分層方式之分群。前者利用反覆聚合或分裂方法，達到分群目的；後者係以指定群集數目藉自動化反覆修正完成。K 組平均數之定義如下：

Argmin ∑ ∑ ‖𝑥_𝑖 − 𝑢_𝑖‖²

𝑥_𝑗∈𝑠_𝑖 𝑘

𝑖=1

其中 k 為我們設定的群組數，𝑢_𝑖為 k 個在資料集中隨機設立的初始點，以這些𝑢_𝑖為中心，依上列公式將所有符合與中心的最近資料點𝑥_𝑗視為同一群𝑠_𝑖，接著由𝑠_𝑖所有的資料點𝑥_𝑖𝑗再求出新的中心𝑢_𝑖‘，重複此步驟直到各群中心不再移動或者移動很小，即完成 K-means 演算法。

圖 6 K-means 演算流程

K-means 的優點在於沒有複雜的理論作為基礎，在演算上並不會花費太多時間。缺點則在於初始點的選擇會影響演算結果的優劣，如中心落在極端的資料點上容易導致錯誤的分類結果。

(20)

三、資料雲幾何樹 (DCG-tree)

為因應輸入資料規模大小的不同（scale），本研究援引 DCG-tree(Fushing, Wang, VanderWaal, McCowan, & Koehl, 2013)進行分群操作。實作 DCG-tree 必須經過以下四個步驟：步驟一，建立一個與經驗資料相似的可能資料概況。步驟二，

使用動態蒙地卡羅（Dynamic Monte Carlo）偵測前述資料概況在不同條件下（尺度）的幾何。步驟三，由多元馬可夫路徑（multiple Markovian walk）建構一個超度量空間（Ultra metric space）。步驟四，利用階層式樹狀圖視覺化此超度量空間。

實際操作的流程如下：

1. 由資料產生一個距離矩陣D(其中距離的種類有很多，常見的有歐幾里得距離) 再令Ｈ為 D 的轉換矩陣，如 D 為歐幾里德矩陣，則令H＝𝑒^−𝐷，如 D 為相關係數矩陣，則令H = |𝐷|，且對角線均設定為 0，每一個元素h_𝑖𝑗代表第 i 與第 j 筆資料之間的相近程度，如h_𝑖𝑗數值越小，則越可能來自同一群體。接著產

生另一個轉換矩陣 S，S_𝑇 = 𝐻^𝑇¹，其中 T(尺度)為我們設定的尺度參數，當 T 夠大時，原本Ｈ距離的差異會縮小，容易判斷為同一群體，當 T 接近 0 的時候，原本Ｈ距離的差異會放大，此時容易判斷為不同群體。

2. 因從Ｓ直接判斷資料真正的分布情況實屬不易，故作者使用動態蒙地卡羅方法 MCMC（Markov Chain Monte Carlo）使分布情況具象化。要執行此方法，

首先選擇一個尺度 T，接著從資料隨機挑選出一個個體 i，將Ｓ中第 i 列加總，

再將第 i 列分別除以加總數，得到的結果就是個體 i 跳到其它個體的機率。然後由該機率再挑選出一個個體 j 並重複上述步驟，直到跑到最後一個個體為止。但為避免一直在相近的個體間反覆跳動，因此設定一個闕值 N。當同一個體被選中 N 次後就被移除，在此我們將 N 指定為 5 次，當相近的個體皆被

(21)

21

拜訪過 5 次後，隨機漫步就會跳到其他群資料，我們將每一個個體被移除的時間照順序記錄下來，畫出一張頻率圖來得知哪些個體為同一群，並做出一個矩陣，M，當 i 跟 j 被分為同一群時，𝑚_𝑖𝑗為 1，反之為 0。

3. 重覆 2.的動作 1000 次，將這 1000 次的 M 加總再除以 1000，算出同群機率的矩陣Ｋ，𝑘_𝑖𝑗表示 i 跟 j 同群的機率，即完成演算。

4. 由Ｋ的分類樹分群與特徵值圖判斷在選定 T 之下的分群數。

(22)

22

四、WDCG

（Chou, Hsieh, & Capitanio, 2013）有鑑於在多維資料中不同的變數組成在決定相對距離或相似程度時具有不同程度的重要性和影響力。因此在 DCG-tree 演算的過程中，採用一個加權後的數值 W 來取代歐幾里得距離，x1至 x2的加權距離公式為：

𝑑(𝑥1, 𝑥2) = √(𝑥¹− 𝑥2)^𝑇𝑊(𝑥1− 𝑥2)

其中 W 為一個對角矩陣，其各元素值皆源自羅吉斯迴歸的架構，在只有兩個類別(K=2)的情況，我們學習的規則為下列步驟。

1. 由原始資料配適羅吉斯迴歸，求出各個變數的迴歸係數與其對應之標準誤。

𝑙𝑜𝑔𝑖𝑡(𝑃) = 𝑙𝑛 ( 𝑃

1 − 𝑃) = 𝛽₀+ 𝛽₁𝑥₁+ 𝛽₂𝑥₂+ ⋯ + 𝛽_𝑝𝑥_𝑝 2. 將求出的迴歸係數標準化

𝛽̂_𝑗

𝜎(𝛽̂ )_𝑗 = ∆𝛽̂ , 𝑗 = 1, … , 𝑝 _𝑗 並算出該係數對應的權重

𝑊_𝑗 = |∆𝛽̂ |_𝑗

∑|∆𝛽̂ |_𝑗 , 𝑗 = 1, … , 𝑝 3. 在進行 DCG-tree 演算法時引入下面的距離公式

𝑑(𝑋_𝑖, 𝑋_𝑖′́) = √∑(𝑋^𝑖𝑗 − 𝑋_𝑖^′_𝑗)

𝑗

2𝑊_𝑗, 𝑖, 𝑖^′= 1, … , 𝑛

多類別的情況同樣適用於羅吉斯迴歸，操作流程可參照羅吉斯迴歸多類別的處理方式。

(23)

第三章研究方法

本章共分為兩節，第一節為「研究流程」，描述WDCG 與其他演算方法的流程，第二節為「研究方法」，除了介紹本論文引用的紅酒資料外，也詳細說明不同演算法的過程與步驟。

第一節研究流程

面對任何一筆新的資料，必須先完成資料篩選的動作，將不必要的資訊刪除或者謹慎處理遺失值的部分，才有利於後續的分析步驟。對於類別型資料，若使用羅吉斯迴歸時，要將主要觀察的對象設為1，其餘為 0。

首先介紹WDCG 演算的流程，在完成資料篩選後，先由羅吉斯迴歸求出各項特徵的係數，並得出權重，再將權重代入距離公式。接著開始進行DCG 演算，

設定不同的尺度並逐一驗證，透過陡坡圖與分類樹狀圖，若兩者的結果為一致則為良好尺度，反之則必須重新設定尺度，在整合所有良好的尺度後，將分割好的子群再做一次迴歸分析，比對真實結果後求出準確率，即完成WDCG 演算流程。

圖7 為 WDCG 流程圖。

(24)

WDCG 演算法流程如下：

圖 7 WDCG 演算法流程圖

其它的演算法則區分為監督式與非監督式學習方法兩種，如果方法為監督式學習，則在訓練樣本資料時採用交叉驗證法中 leave-one-out 的方式求出準確率；

非監督式學習的部分則先完成分群的動作後，再使用羅吉斯迴歸進行分類並求出準確率，圖 8 為演算法的流程圖。

分析將分割的子群再做一次羅吉斯迴歸

預測對照真實結果得出準確率

作圖畫出陡坡圖與分類樹

狀圖

兩圖對照挑選適合尺度

錯誤尺度必須修正

（回到）WDCG-tree ＷDCG-tree

將權重矩陣代入距離

公式設定尺度執行演算法並將結果

儲存羅吉斯迴歸

求出各項係數並得出權重資料篩選

將不必要的資訊刪去類別型資料重新編號

(25)

25

其它演算法流程如下：

圖 8 其它演算法流程圖

(26)

第二節研究方法

本論文研究資料來源為 UC Irvine Machine Learning Repository 中 Cortez 博士所研究的紅酒資料(Cortez, Cerdeira, Almeida, Matos, & Reis, 2009)，裡面包含十一種數值型變數（fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free sulfur dioxide, total sulfur dioxide, density, pH, sulphates, alcohol）與一類別型變數

（quality），quality 裡面分為 0-10 分，代表酒的品質(越高分越好)。由於做分類時發現 5-7 分幾乎占了整體樣本的 95%，為避免樣本數差異過大影響預測結果，

所以在原資料集中我們僅抽出 5-7 的部分作為新的預測資料集。

因為 quality 有 5-7 三個類別，故使用一對多羅吉斯迴歸時必須另設三組 Y 變數，分別為（1,0,0）、（0,1,0）、（0,0,1）(1 代表我們所要預測的對象)討論。我們令 quality 作為 Y 變數，之後將預測的迴歸係數𝛽̂ , 𝑗 = 1, … ,11取絕對值後加總，_𝑗 再求出每個𝛽̂ 佔全部的比例，作為𝑊_𝑗 _𝑗對角矩陣中的𝜔_𝑗𝑗, 𝑗 = 1, … ,11。然後在三種情況分別求出之 W1、W2、W3 後，我們選擇用平均（W1+W2+W3）／3＝W̅ 的方式代入我們的權重距離公式。

將W̅ 的結果代入𝑊_𝑗對角矩陣，所得的距離為：

𝑑(𝑋_𝑖, 𝑋_𝑖′́) = √∑(𝑋^𝑖𝑗− 𝑋_𝑖^′_𝑗)

𝑗

2𝑊_𝑗 , 𝑖, 𝑖^′ = 1, … ,1518

以此權重距離執行 DCG 演算法，尺度的預設值為 T=（0.5, 0.06, 0.04, 0.03, 0.02, 0.01, 0.009, 0.008）

接著對 DCG 結果畫兩個圖(如圖 9)，分別為陡坡圖(eigenvalue plot)與分類樹狀(HC-tree)圖，並觀察陡坡圖可分的群在分類樹狀圖上是否可以找到相對應的切線。依次得到八個尺度所對應的分群數量。

(27)

27

圖 9 DCG 在單一尺度下所畫出的陡坡圖與分類樹狀圖

此時若找不到相對應的結果，則將溫度重新設定並再重新執行 DCG 一次，

直到找出正確對應結果。最後總結各尺度下所找出的分群數目如圖 10，以畫出 DCG tree 如圖 11，由此圖可知我們的資料可被分成七個群體，每個群體中的紅酒數量如表 1 所示。

得到七個群體後，我們用羅吉斯迴歸對每個群體做預測，接著加總預測結果得到最後的預測準確率。我們發現大多數的酒都被分在同一群中，若對那些較小的群組做羅吉斯迴歸，可能會造成迴歸無法收斂的問題。因此我們合併這些較小的群組後，再用羅吉斯迴歸預測分類結果。

表 1 DCG 分群結果

群 1 2 3 4 5 6 7

數量 1414 20 36 15 6 11 16

(28)

28

圖 10 不同尺度下的分群數量

圖 11 總結各尺度分群結果後的 DCG tree

(29)

29

第四章研究結果

表 2 各分類方法預測正確率比較

演算方法準確率(%)

WDCG 74.44

HC 71.12

K-means 72.26

SVM 71.05

LDA 62.98

QDA 63.37

Logistic Regression 73.84 資料來源：本資料經研究者彙整。

由表 2 可知，WDCG 在這筆紅酒資料中的準確率達 74.44%為最高，其次為羅吉斯迴歸 73.84%，HC 為 71.12%，K-means 為 72.26%，SVM 為 71.05%，LDA、

QDA 則都在 65%以下，明顯低於 WDCG 的準確率。

研究結果顯示 WDCG 方法雖比其他方法好，但與羅吉斯迴歸預測結果差距不大。當我們用 DCG tree 把酒分群時，我們發現其中一個群組擁有了幾乎全部的紅酒，這表示我們的方法只把少數的酒分開。圖 12 為此大群組的紅酒所畫出的熱圖（heatmap），可發現有些變數在不同品質的酒沒有明確的差異，因此導致我們無法將此組的酒分成較小群。我們會在下一章節提出可能原因及改進的方法。

(30)

30

圖 12 1414 支被分為一大群的酒所畫出的熱圖

(31)

31

第五章結論

本論文提出了如何應用 WDCG 方法至三元資料分類的監督式學習。透過羅吉斯迴歸得到變數的權重關係，在計算個體之間的相似程度時，利用得到的權重強調有用的變數，再透過 DCG tree 把相似的個體分為一群，最後利用羅吉斯迴歸當分類器，做分類預測。這裡使用一對多的方式進行羅吉斯迴歸。最後將此方法的結果與其他傳統分類方法做比較，發現 WDCG 確實有較準確的預測結果。

由此可知經加權後的距離，確實會影響分類結果。但是，羅吉斯迴歸只適用於資料變數小於個體數型態，否則會造成迴歸無法收斂。在高維度的資料下，須將維度縮減至小於或等於資料個體數下來預測個體的分類。在維度縮減方面，可以用 DCG tree 找出相關的變數，並找出具代表性的變數。

由前一章的結果分析可以得知，雖然 WDCG 在分類上的預測準確率高於其他方法，但也僅僅是些微的差距而已，以下我們列出可能的原因與解決的辦法。

1. 本實驗 WDCG 並沒有將資料做出適當的分群，因為有極大部分被歸類在同一群組，顯示 WDCG 在前面的步驟還有改進的空間。我們發現在求出權重的過程中採用平均（W1+W2+W3）／3＝W̅ 的方式，但因為真實資料上不同類別之間的個數有明顯差異，故採用平均可能不是一個好的選擇，我們可以使用相對比例的方式得到新的權重。

2. 我們認為紅酒品質分數為一個相當主觀的變數，因此酒的品質不見得真的能對應它的屬性，導致分群時無法明確將不同特徵分隔。

3. 當在計算每個酒之間的相似性時，或許歐幾里德距離不是最好的方法，

未來可使用其他的距離公式來描述此類型資料的相似性。因為羅吉斯迴歸只適用於資料變數小於個體數型態，故我們在初步完成分群後，我們將極少數的群體重新合併為較大的一個群體，但這一步驟失去了原先分群的意義，也就是將資料特徵的差異分開後又合併。我們只能盡可能在

(32)

32

前面的處理流程加以改善，讓分群的結果更好。

4. WDCG 方法可以延伸於多元資料的半監督式學習。雖然此篇論文只以紅酒資料做為例子，但 WDCG 方法可被應用在許多層面，例如顧客行為預測、客戶區隔、信用風險、醫療疾病預測等。過程中我們發現，執行 WDCG 時，其運算時間均比其他演算法長，但確實可以獲得較高的準確率。加上 WDCG 演算法對樣本沒有任何限制，尤其在高維度的資料運算上更能展現其優勢，故我們相信 WDCG 可以被廣泛應用在各個領域上。

除此之外，也可嘗試其他多元資料應用方式，例如 one-against-one 來改良 WDCG 的表現。未來還需在一些模擬的資料上應用，以確定 WDCG 可改良多元資料下的學習效果。

(33)

33

參考文獻

Allwein, E. L., Schapire, R. E., & Singer, Y. (2000). Reducing multiclass to binary: A unifying approach for margin classifiers. Journal of machine learning

research, 1(Dec), 113-141.

Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. In Proceedings of the fifth annual workshop on

Computational learning theory (pp. 144-152). ACM.

Chakraborty, S. (2005). Bayesian machine learning. University of Florida.

Chou, E. P., Hsieh, F., & Capitanio, J. (2013). Computed Data-Geometry Based Supervised and Semi-supervised Learning in High Dimensional Data.

In Machine Learning and Applications (ICMLA), 2013 12th International Conference on (Vol. 1, pp. 277-282). IEEE.

Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297.

Cortez, P., Cerdeira, A., Almeida, F., Matos, T., & Reis, J. (2009). Modeling wine preferences by data mining from physicochemical properties. Decision Support Systems, 47(4), 547-553.

Dietterich, T. G. (1997). Machine-learning research. AI magazine, 18(4), 97.

Filzmoser, P., Baumgartner, R., & Moser, E. (1999). A hierarchical clustering method for analyzing functional MR images. Magnetic resonance imaging, 17(6), 817-826.

Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of human genetics, 7(2), 179-188.

Fushing, H., & McAssey, M. P. (2010). Time, temperature, and data cloud

(34)

34

geometry. Physical Review E, 82(6), 061110.

Fushing, H., Wang, H., VanderWaal, K., McCowan, B., & Koehl, P. (2013).

Multi-scale clustering by building a robust and self correcting ultrametric topology on data points. PloS one, 8(2), e56259.

Hartigan, J. A., & Wong, M. A. (1979). Algorithm AS 136: A k-means clustering algorithm. Journal of the Royal Statistical Society. Series C (Applied Statistics), 28(1), 100-108.

Hastie, T., & Tibshirani, R. (1998). Classification by pairwise coupling. In Advances in neural information processing systems (pp. 507-513).

Johnson, S. C. (1967). Hierarchical clustering schemes. Psychometrika, 32(3), 241-254.

Kotsiantis, S. B., Zaharakis, I. D., & Pintelas, P. E. (2006). Machine learning: a review of classification and combining techniques. Artificial Intelligence Review, 26(3), 159-190.

Peng, C. Y. J., Lee, K. L., & Ingersoll, G. M. (2002). An introduction to logistic regression analysis and reporting. The journal of educational research, 96(1), 3-14.

Pereira, F., Mitchell, T., & Botvinick, M. (2009). Machine learning classifiers and fMRI: a tutorial overview. Neuroimage, 45(1), S199-S209.

Sharan, R. V., & Moir, T. J. (2014). Comparison of multiclass SVM classification techniques in an audio surveillance application under mismatched conditions.

In Digital Signal Processing (DSP), 2014 19th International Conference on (pp.

83-88). IEEE.

機器學習分類方法 DCG 與其他方法比較(以紅酒為例)

國立政治大學統計學系研究所碩士班 碩士學位論文