第二章 文獻探討
2.3 資料探勘
2.3.3 資料探勘中的分類技術
資料探勘的功能及技術上的選擇是非常多的,根據上述的結果,得知探勘的 目的不同,所選擇的探勘方法也不同,其探勘的技術也會隨之改變。根據曾憲雄 等(2005)著,資料探勘的技術可分為兩類:1.傳統技術 2.改良技術。
傳統技術是以統計分析為代表性技術,凡是統計學內所敘述的迴歸分析、機率 論、類別資料分析等皆屬於傳統技術分析。而改良技術方面,則是利用資料探勘中 的人工智慧技術來作為代表性技術。其中常見的技術有決策樹(decision tree)、類神 經網路(artificial neural network) 、基因演算法(Genetic Algorithms)、模糊理論 (Fuzzy Logic)等。
根據選擇的技術及探勘的目的不同,其所產生的結論也會有相當大的差異 (高秀美,2002)。以下為敘述本研究資料探勘所使用到的技術分析:
一、決策樹分類法:
屬於資料探勘中一種很常用的技術,藉由樹狀圖的方式,來呈現出所探勘的 資料。其樹狀圖中所包含的結構有根節點、分支及葉節點。在決策樹模型中,最 上面的節點為根節點。分支則會隨著資料的不同,而從根節點中生長出數根不等 的分支,每個分支的生成皆包含著根節點及葉節點。經由分支所生成的結果稱之
21
為葉節點,其葉節點所代表的為資料探勘後的結果(L. Rokach, and O. Maimon,
2005)。
藉由此方式,可以了解決策樹所生長的方式。會隨著不同的資料問題,而得 到不同的分類結果。決策樹雖然不一定是最準確的探勘方法,但是可以讓人一目 瞭然的模型圖,卻是最容易理解的探勘方法。
學者 Quinlan 於 1993 年提出 C4.5 演算法,其基本理論是從 1979 年的 ID3 演算法所改良而來。ID3 在建構決策樹的過程中,以資訊獲利(Informatiion Gain) 為準據,並將資訊獲利率最高的數據做為分類屬性。
假設訓練資料的集合 S 中有 m 種類別,則Ci,i=1,2,3,...,m,而每樣類別的資 料個數以 freg(Ci, S)來表示,|S|代表集合 S 中的資料個數,因此每樣類別的資料 顯示機率可表示為:
freg (Ci,S)
|S|
(公式 1) 再根據資訊理論(Information Theory),即可求得每樣類別的資訊:
−log
2freg (C|S|i,S)(公式 2)
而將全部類別的資料出現機率乘以全部類別的資訊量即為 S 的預期資訊量,如 下:
I( s
1, s
2, … , s
m)=- ∑ p
m ii=1
log
2( p
i)
(公式 3)資訊獲利的定義為「分割前的資訊」減「分割後的資訊」。因此集合 S 經由屬性 A 分割後如下:
Gain(A)=I( s
1j, s
2j, … , s
mj)-E(A)
(公式 4)二、貝氏網路分類法:
貝氏網路分類可分為兩類,一類為單一條件機率分配的樸素貝式分類,另一 類為聯合條件機率分配的貝氏信念網路。貝式網路分類法是一種以統計學為代表
22
𝑃𝑃(Ci):事前機率(Prior probability) 𝑃𝑃(A|Ci):樣本機率(sample probability) 𝑃𝑃�Cj�A�:事後機率(posterior probability) 1.樸素貝式分類:
23 2.貝氏信念網路:
以一個向量且非循環的架構圖為基礎所構成,主要用於變數之間的因果關係 及互相影響的機率。貝氏信念網路主要是由節點(node)及連結(link)兩部份所構成。
節點代表的是研究的變數,連結代表的是兩變數之間的關係。而兩節點之間,有 無連結的產生,則代表是否有條件相依或條件獨立的情形發生,其影響程度則是 以條件機率來做依據。
2.3.4 小結
本研究最初無法斷定何種分析技術,對於本研究的研究結果是有幫助的。因 此,在分析技術上,決定先採用貝氏網路分析及決策樹分析。兩種分析技術一起 進行分析,並從研究結果中找出對本研究目的有幫助的分析技術。甚至,可以透 過兩種分析技術來進行互相驗證,確認兩種分析技術的研究結果是否相似。
24 下來。並將所有研究對象的資料彙整成資料庫,再利用 WEKA classification 來進 行因素分析,以找出造成影響勝負的重要變數,最終並確認影響勝負的主要因素
使用 classification 進行資料分析,並利用下列 分析方法,以求找出最佳化結果。