分類模型方法

國

立政治大學

‧

Na tiona

l Ch engchi University

第三節分類模型方法

分類是針對欲分析的資料，根據其屬性的不同，而分成不同類的過程，在此過程中，找尋出分類依據的準則，並利用該準則將尚未瞭解的資料加以分類，判斷其歸屬或做出決策。以下介紹本研究所使用的分類模型：

一、決策樹（Decision Tree，DT）

決策樹又稱規則推理模型，藉由已知的資料建立樹狀結構，利用歸納方法找出其分類的規則，再依據此規則，對新資料進行分類，是很常用的分類工具之一，

且較為其他統計分類模型較易理解，其樹狀結構圖如圖 3-6，共分為根部節點

（Root Node）、中間節點（Non-leaf Node）、分支（Branches）以及葉節點（Leaf Node）四個部分。

決策樹主要的演算法包含 C&R Tree、C5.0、CHAID 以及 QUEST 四種，以下將介紹此四種演算法。

根部節點(Root Node)

中間節點(Non-leaf Node)

分支(Branches)

葉節點(Leaf Node)

圖3-6 決策樹

‧

(一) C&R Tree（Classification and Regression Tree）

C&R Tree 稱為分類迴歸樹，即 CART 演算法，由 Breiman 在 1984 年提出，

Ripley 在 1996 年進行了修改。若當使用者設定的目標變數是類別型變數，為分類樹；若目標變數是連續型變數，則為迴歸樹。C&R Tree 是以遞迴的方法，在每個節點建立二元（Binary）分支決策樹，常用的分支節點的準則為 Gini 係數（Gini 適（Over Fitting）的情況，於是需要對決策樹進行修剪的動作，而修剪的依據為決策樹整體誤差率，使修剪過後的決策樹的分支最少且具有更佳的預測能力。

(二) C5.0

C5.0 是由 ID3（Iterative Dichotomiser 3）和 C4.5 改進而來的，而 ID3 是以 Shannon 在 1949 年的資訊理論（Information Theory）為依據，由 Quinlan 於 1979 年提出。C5.0 與 C4.5 相異之處為 C5.0 利用 Boosting 的方法，按序建立多重模型，以提高其精確度，首先找出能帶來最大資訊增益（Information Gain）的輸入變數，建立第一個模型，再利用此變數將資料進行最佳分割，建立第二個模型，

重複此分割方式，直到無法再被分割為止，即成為葉節點，最後，重新檢驗葉節點，將無顯著貢獻的資料形成的子樹加以修剪或刪除。

(三) CHAID（Chi-squared Automatic Interaction Detection）

CHAID 稱為卡方自動互動偵測法，由 Hartigan 在 1975 年提出的演算法，主要是以卡方檢定來選擇具有統計顯著性的輸入變數做為最佳分割的變數，此演算

‧

(四) QUEST（Quick Unbiased Efficient Statistic Tree）

QUEST 稱為快速、不偏且有效的統計樹，由 Loh 和 Shih 在 1997 年提出，

其分類準則是利用顯著性檢定，選擇 p-value 最小且小於顯著水準的輸入變數做為當前的最佳分枝變數，若目標變數為連續型變數，則使用統計上的 ANOVA-F 的檢定；若目標變數為類別型變數，則使用統計上的卡方檢定。念為在資料空間裡，找出一個能將資料切割成兩類別的超帄面（Hyper-plan），使屬於類別一的資料均落在超帄面的同側，而屬於類別二的資料則落在超帄面的另一側，其分類步驟如圖 3-7 所示，先將原始資料映成至一個高維度空間，使非線性的資料也可以被分類成不同的集合，找出分類線（如圖 3-7 的曲線）後再將原始資料做轉換，轉換過後的資料，不同類別的資料即可由超帄面區隔開來，如圖 3-7 中的斜直線即為超帄面。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

1. Original Data

2. Data with Separator Added 3. Transformed Data

圖3-7 SVM 分類步驟

SVM 除了利用超帄面區分類別外，也利用邊際線（Margin）加以定義，如圖 3-8 所示，圖中的實線為超帄面，二條虛線為邊際線，邊際線差距越廣，表示其模型的預測能力越佳，而有時為了使邊際線較廣，在調校的過程中，有可能會產生少部分的錯誤分類，在此情況下，核函數（Kernel Function）中有一調校參數 C，可以在邊際線廣度以及錯誤分類間取得最適當的帄衡。

1. Data With a Preliminary Model

2. Data With an Improved Model

3.A Problem for Linear Separation

Margin ^Margin Margin

圖3-8 SVM 調校過程

‧

三、判別分析（Discriminant Analysis）

判別分析是一種相依的方法，其主要目的是將資料中已分類的數個群體，利用判別變數（Discriminant Variable）建立一個判別準則，而此判別準則即是判別函數（Discriminant Function），再由此函數對新個體進行分類歸屬。例如信用卡公司會依照客戶的收入、年齡、教育程度等基本資料，利用一指標將客戶區分為是違約戶與非違約戶兩種群體，當有新客戶欲申辦信用卡時，可利用此準則來判別此客戶在未來是否為違約戶。判別分析適用於當目標變數為類別型，而自變數為連續型時使用。

常用的線性判別分析有線性判別函數（或稱分類函數，Classification Function）和典型判別函數（費雪判別函數）兩種：

1、線性判別函數（Linear Discriminant Function，LDF）：建立判別準則最常使用的原理是依據各群體會發生此組資料的機率，再將此個體判別在發生機率合（Bootstrap Aggregation）以及隨機子空間（Random Subspace Method）等為基礎理論所發展出來的。隨機森林是由多個決策樹子集合所構成的大型決策樹，而與一般決策樹相異之處就是隨機森林要對每個決策樹子集合進行判斷，當目標變數分別為連續型與類別型時，則分別透過簡單多數表決（Simple Majority Vote）

與單棵樹輸出結果的帄均，來決定最後分類的結果，也會依大數法則（Law of Large Numbers）對決策樹進行收斂，因此隨機森林不會有過度配適的情形發生。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

隨機森林可以處理相當龐大且不同型態的資料，對於資料的遺漏值處理，亦有良好的方法可以估計，若有一部分的資料遺失，它仍然可以維持分類的正確率，隨機森林依照以下演算法來建構每顆決策樹：

1、抽取出訓練資料，以 N 表示訓練資料的個數，以 M 表示自變數的個數。

2、在 M 個自變數中，選出 m 個子集合（m<M），以決定當在一個節點上做分割時，會使用到多少個變數。

3、從 N 個訓練資料中以 Bootstrap 抽樣，重複抽樣 N 次，形成一組訓練集。

4、對於每一個子集合，隨機選擇 m 個子集合中的變數，再根據此 m 個變數，

計算其最佳子集合，形成最佳分割方式。

5、每棵決策樹都會完整成長而不會進行修剪。

‧

1、資料上傳的檔案類型只能是 Microsoft Office Excel 逗點分隔值檔案(.csv)、

Microsoft Office Excel 工作表 (.xls)及 Microsoft Office Excel 工作表(.xlsx)三種，若資料檔案類型是文字文件(.txt)，必頇轉換成上述之其中一種檔案才能

在文檔中導入雲端運算概念於資料採礦之分類系統 - 政大學術集成 (頁 39-45)

國

立 政 治 大 學

‧

‧

‧

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧

立政治大學

立政治大學

立政治大學