第二章 文獻探討
2.4 其他分類法篇
2.4.1 貝式分類法
貝式分類法(Bayes classifier)[12]乃是根據貝氏定理(Bayes' theorem)為基礎,(貝氏定理是由一位英國牧師 Reverend Thomas ,Bayes 所提出的),用以計算未知類別的資料其屬於各分類類別的機率。整個貝式分類 法的目標是希望能透過機率統計的分析,達到最小誤差的一種分類方式;即利 用各類別已知的屬性〈attributes〉機率值及各類別之事前機率,計算新案 例於各類別的機率,最後比較各類別的機率,機率最大者則該案例分於此類別。
目前貝氏分類法大致可分為兩類:單純貝氏分類 (Naive Bayesian Classifier)和貝氏信念網路(bayesian belief networks)。Microsoft Naive Bayes(貝葉斯演算法)能夠快速構建可用於分類和預測的資料採礦模 型。如果知道可預測屬性的每種狀態,便可計算出輸入屬性每個可能狀態的概 率。這種演算法只支援離散(不連續)屬性,它認為所有輸入屬性都是彼此獨
立的(前提是知道可預測屬性)。因為貝葉斯演算法的計算速度非常快,因此在
初始資料研究階段通常會選擇這種演算法進行分類和預測問題。
在理論上,貝氏分類法與其他分類法比較起來有最小的錯誤率,然而在實 際上,屬性彼此的關係很少是獨立的,且資料分布也很難認定,所以在分類上 還是很難達到完全的正確。但是目前有進一步的演算法,可以處理屬性彼此的 關係,如:貝氏信任網路(Bayesian Belief Networks),而在處理連續 屬性的問題上,也有一些分割的演算法可以將連續數值轉換成離散數值,如:
ten-bins,entropy 等方式,可以使貝氏分類法的結果更具可靠性。
2.4.2 決策樹分類法
決策樹是一種歸納學習法,主要是透過訓練資料(training data)來研究資料 分類的規則以及共通的特徵,然後根據這些規則或特徵來建立分類模式,透過 此建立的分類模式對其他新資料或未經分類的資料作預測。而決策樹就是利用 樹狀結構圖的方式來表達決策的流程,因而稱之為決策樹。
由於決策樹具有規則導向及易於理解的特性,為一種應用相當廣泛的資料 探勘技術,早期多用於醫療方面的研究,但目前的研究範圍已經廣泛的運用到
各個不同的領域了。
每個決策樹皆是從根部開始發展的,稱之為根節點(root node),每一個分 支所延伸出來的節點稱之為樹枝節點 (internal node ),將會用來判斷決定每一 筆資料該進入下一層那一個子節點,如此重覆的執行直到所有資料均到達葉節 點(leaf)為止。簡略說起來,決策樹就像是一群布林函數 (Boolean function )的集 合,樹狀結構圖中的每個節點(node)都包含著一組屬性(Attrubute),在屬性中決 定該類別之後的分類。
以下的一個簡易例子即說明利用決策樹來決定何種天氣適合出去活動,如 果天氣看起來有陽光,而濕度低於 75 度的適合活動;如果天氣看起來陰陰的適 合活動;如果天氣有下雨但是沒有風也是適合活動的,所以新的測試資料便可 以依據此決策樹所設計出來的 rule 來分析是否適合出去活動。
圖 2-5 決策樹簡易說明流程圖 其主要演算法有以下幾種:
1. CART(Classification And Regression Trees):利用訓練資料建構一完整 的決策樹後,運用整體錯誤率(Entire Error Rate)進行事後修剪的工 作。
2. CHAID(CHi square Automatic Interaction Detector):運用卡方檢定選 擇能使資料產生統計上顯著差異的分類屬性來分割資料。主要適用於 建立類別屬性(Categorical Attribute)的決策樹。
3. ID3:其主要核心在於其以遞迴的方式將訓練資料作切割。在每一次
outlook
yes no
yes
no yes
windy humidity
sunny overcast rainy
<=75 >75 true false
資訊獲取來當作測試與最後被選取的節點。
4. C4.5:C4.5 是 ID3 的延伸方法,它更加具備有處理連續數值型屬性、
雜訊的屬性選擇特性,另外也兼具修剪樹的能力。