• 沒有找到結果。

資料探勘中的分類技術

第二章 文獻探討

2.3 資料探勘

2.3.3 資料探勘中的分類技術

資料探勘的功能及技術上的選擇是非常多的,根據上述的結果,得知探勘的 目的不同,所選擇的探勘方法也不同,其探勘的技術也會隨之改變。根據曾憲雄 等(2005)著,資料探勘的技術可分為兩類:1.傳統技術 2.改良技術。

傳統技術是以統計分析為代表性技術,凡是統計學內所敘述的迴歸分析、機率 論、類別資料分析等皆屬於傳統技術分析。而改良技術方面,則是利用資料探勘中 的人工智慧技術來作為代表性技術。其中常見的技術有決策樹(decision tree)、類神 經網路(artificial neural network) 、基因演算法(Genetic Algorithms)、模糊理論 (Fuzzy Logic)等。

根據選擇的技術及探勘的目的不同,其所產生的結論也會有相當大的差異 (高秀美,2002)。以下為敘述本研究資料探勘所使用到的技術分析:

一、決策樹分類法:

屬於資料探勘中一種很常用的技術,藉由樹狀圖的方式,來呈現出所探勘的 資料。其樹狀圖中所包含的結構有根節點、分支及葉節點。在決策樹模型中,最 上面的節點為根節點。分支則會隨著資料的不同,而從根節點中生長出數根不等 的分支,每個分支的生成皆包含著根節點及葉節點。經由分支所生成的結果稱之

21

為葉節點,其葉節點所代表的為資料探勘後的結果(L. Rokach, and O. Maimon,

2005)。

藉由此方式,可以了解決策樹所生長的方式。會隨著不同的資料問題,而得 到不同的分類結果。決策樹雖然不一定是最準確的探勘方法,但是可以讓人一目 瞭然的模型圖,卻是最容易理解的探勘方法。

學者 Quinlan 於 1993 年提出 C4.5 演算法,其基本理論是從 1979 年的 ID3 演算法所改良而來。ID3 在建構決策樹的過程中,以資訊獲利(Informatiion Gain) 為準據,並將資訊獲利率最高的數據做為分類屬性。

假設訓練資料的集合 S 中有 m 種類別,則Ci,i=1,2,3,...,m,而每樣類別的資 料個數以 freg(Ci, S)來表示,|S|代表集合 S 中的資料個數,因此每樣類別的資料 顯示機率可表示為:

freg (Ci,S)

|S|

(公式 1) 再根據資訊理論(Information Theory),即可求得每樣類別的資訊:

−log

2freg (C|S|i,S)

(公式 2)

而將全部類別的資料出現機率乘以全部類別的資訊量即為 S 的預期資訊量,如 下:

I( s

1

, s

2

, … , s

m

)=- ∑ p

m i

i=1

log

2

( p

i

)

(公式 3)

資訊獲利的定義為「分割前的資訊」減「分割後的資訊」。因此集合 S 經由屬性 A 分割後如下:

Gain(A)=I( s

1j

, s

2j

, … , s

mj

)-E(A)

(公式 4)

二、貝氏網路分類法:

貝氏網路分類可分為兩類,一類為單一條件機率分配的樸素貝式分類,另一 類為聯合條件機率分配的貝氏信念網路。貝式網路分類法是一種以統計學為代表

22

𝑃𝑃(Ci):事前機率(Prior probability) 𝑃𝑃(A|Ci):樣本機率(sample probability) 𝑃𝑃�Cj�A�:事後機率(posterior probability) 1.樸素貝式分類:

23 2.貝氏信念網路:

以一個向量且非循環的架構圖為基礎所構成,主要用於變數之間的因果關係 及互相影響的機率。貝氏信念網路主要是由節點(node)及連結(link)兩部份所構成。

節點代表的是研究的變數,連結代表的是兩變數之間的關係。而兩節點之間,有 無連結的產生,則代表是否有條件相依或條件獨立的情形發生,其影響程度則是 以條件機率來做依據。

2.3.4 小結

本研究最初無法斷定何種分析技術,對於本研究的研究結果是有幫助的。因 此,在分析技術上,決定先採用貝氏網路分析及決策樹分析。兩種分析技術一起 進行分析,並從研究結果中找出對本研究目的有幫助的分析技術。甚至,可以透 過兩種分析技術來進行互相驗證,確認兩種分析技術的研究結果是否相似。

24 下來。並將所有研究對象的資料彙整成資料庫,再利用 WEKA classification 來進 行因素分析,以找出造成影響勝負的重要變數,最終並確認影響勝負的主要因素

使用 classification 進行資料分析,並利用下列 分析方法,以求找出最佳化結果。