資料探勘中的分類技術

第二章文獻探討

2.3 資料探勘

2.3.3 資料探勘中的分類技術

資料探勘的功能及技術上的選擇是非常多的，根據上述的結果，得知探勘的目的不同，所選擇的探勘方法也不同，其探勘的技術也會隨之改變。根據曾憲雄等(2005)著，資料探勘的技術可分為兩類：1.傳統技術 2.改良技術。

傳統技術是以統計分析為代表性技術，凡是統計學內所敘述的迴歸分析、機率論、類別資料分析等皆屬於傳統技術分析。而改良技術方面，則是利用資料探勘中的人工智慧技術來作為代表性技術。其中常見的技術有決策樹(decision tree)、類神經網路(artificial neural network) 、基因演算法(Genetic Algorithms)、模糊理論 (Fuzzy Logic)等。

根據選擇的技術及探勘的目的不同，其所產生的結論也會有相當大的差異 (高秀美，2002)。以下為敘述本研究資料探勘所使用到的技術分析：

一、決策樹分類法：

屬於資料探勘中一種很常用的技術，藉由樹狀圖的方式，來呈現出所探勘的資料。其樹狀圖中所包含的結構有根節點、分支及葉節點。在決策樹模型中，最上面的節點為根節點。分支則會隨著資料的不同，而從根節點中生長出數根不等的分支，每個分支的生成皆包含著根節點及葉節點。經由分支所生成的結果稱之

為葉節點，其葉節點所代表的為資料探勘後的結果(L. Rokach, and O. Maimon，

2005)。

藉由此方式，可以了解決策樹所生長的方式。會隨著不同的資料問題，而得到不同的分類結果。決策樹雖然不一定是最準確的探勘方法，但是可以讓人一目瞭然的模型圖，卻是最容易理解的探勘方法。

學者 Quinlan 於 1993 年提出 C4.5 演算法，其基本理論是從 1979 年的 ID3 演算法所改良而來。ID3 在建構決策樹的過程中，以資訊獲利(Informatiion Gain) 為準據，並將資訊獲利率最高的數據做為分類屬性。

假設訓練資料的集合 S 中有 m 種類別，則Ci，i=1,2,3,...,m，而每樣類別的資料個數以 freg(C_i, S)來表示，|S|代表集合 S 中的資料個數，因此每樣類別的資料顯示機率可表示為:

^{freg (C}ⁱ^,S)

|S|

(公式 1) 再根據資訊理論(Information Theory)，即可求得每樣類別的資訊:

−log

₂^{freg (C}_|S|ⁱ^,S)

^{(公式 2)}

而將全部類別的資料出現機率乘以全部類別的資訊量即為 S 的預期資訊量，如下:

I( s

₁

, s

₂

, … , s

)=- ∑ p

m i

i=1

log

₂

( p

)

^{(公式 3)}

資訊獲利的定義為「分割前的資訊」減「分割後的資訊」。因此集合 S 經由屬性 A 分割後如下:

Gain(A)=I( s

_1j

, s

_2j

, … , s

_mj

)-E(A)

(公式 4)

二、貝氏網路分類法：

貝氏網路分類可分為兩類，一類為單一條件機率分配的樸素貝式分類，另一類為聯合條件機率分配的貝氏信念網路。貝式網路分類法是一種以統計學為代表

𝑃𝑃(Ci):事前機率(Prior probability) 𝑃𝑃(A|C_i):樣本機率(sample probability) 𝑃𝑃�C_j�A�:事後機率(posterior probability) 1.樸素貝式分類：

23 2.貝氏信念網路：

以一個向量且非循環的架構圖為基礎所構成，主要用於變數之間的因果關係及互相影響的機率。貝氏信念網路主要是由節點(node)及連結(link)兩部份所構成。

節點代表的是研究的變數，連結代表的是兩變數之間的關係。而兩節點之間，有無連結的產生，則代表是否有條件相依或條件獨立的情形發生，其影響程度則是以條件機率來做依據。

2.3.4 小結

本研究最初無法斷定何種分析技術，對於本研究的研究結果是有幫助的。因此，在分析技術上，決定先採用貝氏網路分析及決策樹分析。兩種分析技術一起進行分析，並從研究結果中找出對本研究目的有幫助的分析技術。甚至，可以透過兩種分析技術來進行互相驗證，確認兩種分析技術的研究結果是否相似。

24 下來。並將所有研究對象的資料彙整成資料庫，再利用 WEKA classification 來進行因素分析，以找出造成影響勝負的重要變數，最終並確認影響勝負的主要因素

使用 classification 進行資料分析，並利用下列分析方法，以求找出最佳化結果。

在文檔中運用分類技術於線上遊戲勝負因素之分析 (頁 30-34)

第二章 文獻探討

2.3 資料探勘

2.3.3 資料探勘中的分類技術

−log

I( s

, s

, … , s

)=- ∑ p

log

( p

)

Gain(A)=I( s

, s

, … , s

)-E(A)

第二章文獻探討