分類預測模組

第三章研究架構

3.2 分類預測模組

3.2.1 貝氏分類法(Naïve Bayesian Classification)

貝氏分類法的方法[8]是基於統計上的貝氏定理（Bayesian Theorem）[1]：

( )

（Gaussian Distribution）則所對應的

)

3.2.2 決策樹(Decision Tree)

C4.5 決策樹(Decision Tree)分類法為 Quinlan 於 1993 年所提出[16]，改良其先前於 1979 年所提出之 ID3 演算法[15]以資訊獲利率(Information Gain)做為節點變數分割依據的缺點，改以資訊獲利率比值(Information Gain Ratio)做為節點變數分割依據，避免 ID3 演算法在決策樹產生的過程中，造成過度配適的問題(Overfitting)。此外，C4.5 亦改良了 ID3 無法使用數值的屬性(Numeric Attribute)變數做為分類依據的缺點。

C4.5 決策樹就如同資料結構中的樹狀結構一般，由根節點向下分枝，除了葉節點外，每個節點代表一個做為分類用途的屬性(Attribute)變數。而葉節點則是經過分類後的資料。建構 C4.5 決策樹的過程是由上而下的，所有的訓練資料由根節點開始，利用資訊獲利率比值計算資料中，所有的屬性何者為最大者，選其做為當下節點的分類變數。若訂定之規則為使用過的屬性可再做為接下來的分類變數，則繼續計算所有屬性的資訊獲利率比值，選出最大者做為下個節點的分類變數。若屬性不可重複出現，則剔除已經使用過之屬性，在剩餘屬性中選出資訊獲利率比值做為分類變數。如此不斷的進行上述步驟，直到該節點下之資料分類皆相同或無法提高該節點的資訊獲利率比值為止。

在 C4.5 中，利用修剪(Pruning)技巧，我們可以將多餘或者是無效的分枝節點去除，

藉以避免決策樹產生過度配適(Overfitting)的問題。而修剪的方法可分為在樹的建構過程中同時進行修剪(事前修剪，Pre-pruning)或者在決策樹建構完成以後進行修剪(事後修剪，Post-pruning)。使用事前修剪時，當該節點的錯誤率達到我們所設定的標準時，則停止該節點的增長。而事後修剪則是找出已建立完成的決策樹中，捨棄錯誤率達到預設標準的節點子樹。在本研究中，我們所使用的資料探勘軟體 Weka 即是採用了改良自 C4.5 決策樹演算法的 J48 決策樹分類法[27]。

3.2.3 支援向量機(Support Vector Machine)

支援向量機(SVM, Support Vector Machine)分類演算法[2][5]是根據結構風險最小化原理(Structural Risk Minimization principle)[24]所發展出來的資料探勘分類技術。在 SVM 中，我們希望能夠在一群資料分布的向量空間中，找出一超平面(Hyperplane)。此超平面可將資料分為兩類(Positive 資料與 Negative 資料)，並且讓此一超平面之兩端邊界距離為最大，與最近的資料之間距離最小[3]。如圖 3-2 所示:

圖 3-2.支援向量機超平面示意圖

在圖 3-2 中，虛線兩側的兩條平行實心直線之間即為超平面。在圖右邊所找出之超平面其邊際距離較左邊之超平面為大，所以我們認為右邊所找出之超平面有較好的分類效果。

因此，此一超平面我們可以寫成下列等式:

→⋅ x→ − b =

w

特徵向量

→x

代表被分類的樣本，向量 w→

以及常數b是經由線性可分割的訓練資料學習而來。D = {(yi, xi→

)}表示為訓練樣本資料的集合，yi∈{±1}是xi→

(+1 為Positive資料，-1 為 Negative資料)的分類，SVM的演算法試圖去找出一個能滿足下列兩個限制式的 w→

與b:

→⋅x

w

→_i − b ≥ +1 for y_i = +1

→⋅x

w

→_i − b ≥ −1 for y_i = − 並且使

→w

為最小。然而並非所有的資料都可以理想的分為兩群，因此SVM演算法不僅可以解決線性可分割的資料集，亦可藉由將原始的資料向量對應到較高維度的向量空間，使得資料的分布在新的向量空間中可以讓超平面以線性分割的方式達到分類的目的。

在本研究中使用前述三種分類法的考量為訓練時間以及判斷時間的效率。在目前的網路環境下，由正常使用者所產生之流量或由攻擊者產生之流量都是一個龐大的數量，

為了能應付大量的網路流量資料，我們選用此三種分類法作為本研究之分類預測學習模組之學習演算法。而此三種分類法應用於判斷時，亦各有其優點。貝式分類法可建立一條件機率模型，該條件機率模型可使我們快速分類網路攻擊事件。決策樹分類法則可產生出 if-else 般的分類規則，易於我們在其訓練後將其建置於偵測系統中，且對於攻擊流量與正常流量之分類時間亦短。而支援向量機分類法則是可訓練出二次函數分類模型，

此種分類模型應用於本研究中的網路流量分類亦有良好的分類速度。

在文檔中以網路流量偵測ARP欺騙攻擊之研究 (頁 26-31)

第三章 研究架構

3.2 分類預測模組

3.2.1 貝氏分類法(Naïve Bayesian Classification)

)

3.2.2 決策樹(Decision Tree)

3.2.3 支援向量機(Support Vector Machine)

w

w

w

第三章研究架構