資料探勘分類法

隨著科技的快速發展與應用，資訊的儲存與使用變得十分的有效率，因而造就了資

訊快速的發展與成長，在資訊量不斷地以驚人速度成長的情況下，如何將大量的資訊做適當的整理並進行分析，從中找出有效的知識，便是一項很重要的課題，而資料探勘(Data Mining)技術即是一種有效率的工具。

資料探勘(Data Mining)又稱為資料庫之知識發掘(KDD, Knowledge Discovery in Database) [31]，其簡單定義可陳述為「針對大量的資料進行處理，以發掘、萃取、得到存在於資料中，我們有興趣知道但尚未得知的知識。」，而在資料探勘的技術中主要有統計分析 (Statistic Analysis) 、關聯規則分析 (Association Rule Analysis) 、分類法 (Classification)、分群法(Clustering)以及回歸分析(Regression Analysis)…等，本研究的目的是要區分正常網站及惡意網站的流量，故本研究採用了分類法建立惡意網站偵測模組，利用流量變數特徵屬性來進行惡意網站與正常網站之分類偵測。

所謂分類法(Classification)就是以一組已知正確分類的訓練資料集合，建立能夠描述資料集合的特徵的模式或函數，對未知的資料進行有效率的分類。在本研究中的研究目標為協助大型骨幹網路管理者偵測防禦惡意網站，而骨幹網路流量的資料量非常龐大，

在面對行為多變的惡意網站流量時，要能維持有效率的預測準確度，必須要經常蒐集不斷變化的惡意網站流量重新作模組的訓練，為了能有效率的處理大量的 NetFlow 流量資料，基於訓練及分類判斷時所需的時間成本考量，本研究選用了貝氏分類法(Naïve Bayesian)、決策樹分類法(Decision Tree)、支援向量機分類法(Support Vector Machine, SVM)等三種在訓練與預測階段皆有快速反應的分類方法進行惡意程式下載網站的偵測。此三種分類法皆監督式的學習方法，分類前必須事先知道分類型態，透過訓練樣本的訓練，學習與記憶分類根據所使用屬性的關係，產生這些訓練樣本的中心概念，然後再用學習後的結果對未歸類的資料進行類別預測，以期能有效地處理未來欲分類的資料。

貝氏分類法[1][9]是以貝氏定理(Bayes' Theorem)為基礎建立的分類方法，而貝氏定理主張將考慮之參數視為隨機變數 (Random Variable) 並具有機率分配 (Probability Distribution)的性質。因此，貝氏分類法特徵為假設各類別間的條件獨立，變數與變數間的屬性亦互相為條件獨立，單一變數的數值改變時並不會影響其他變數數值改變，且每個變數對於分類結果影響權重皆相等，由於假設各類別間並無屬性上之關聯性，使得在

建立貝氏分類法的條件機率分類模型時，計算上的處理量相當精簡，因此貝式分類具有極快速的分類效能，適合用來處理資料量大的分類任務。

決策樹演算法是使採貪婪演算法(Greedy Algorithm)作為基本的概念，以從上到下遞迴(Top-Down Recursive)的方式來建構決策樹[11]。Quinlan 於 1979 年提出的 ID3 演算法 [19]是最早的決策樹演演算法之一，其主要是以遞迴的方式將訓練資料做切割，再取部分資料做測試，依據資訊獲利(Information Gain)中值最大的變數當作分支的節點，然後依遞迴的方式以同樣的方法取得下一分枝節點，直到每一訓練資料都屬於一個分類之中或是滿足訓練時所設定的條件為止，但由於 ID3 以資訊熵函數(Information Entropy Function)作為類別不純度的度量方式，使得 ID3 會優先選擇最具純化能力的屬性，太注重純化能力的結果又不注重決策分支數量，使得 ID3 演算法會傾向產生大量的決策分支，造成過適(Overfitting)的問題。Quinlan 於 1993 年提出了 C4.5 決策樹演算法[20]，該演算法是基於 ID3 演算法再進行改良，改以資訊獲利率(Information Gain Ratio)做為節點變數分割依據，而且 C4.5 是在建立好完整的決策樹，再依據錯誤預估率(Predicted Error Rate)來進行決策樹的修剪(Pruning)動作，因此明顯的改善了 ID3 演算法過度配適的問題。此外，決策樹可以很容易的改成 IF-THEN 規則來建立規則式判斷模型，分類處理的速度也相當地有效率，在本研究中，我們的資料探勘工具 Weka[29]即是採用了改良自 C4.5 演算法的 J48 決策樹分類法。

支援向量機[1][6][25]是一種基於結構風險最小化原理(Structural Risk Minimization Principle)所發展的機器學習方法，適用於分類分析及預測的問題，尤其在處理小樣本、

非線性、高維度的資料時有許多特有的優勢，所以支援向量機已被廣泛地應用在各種不同的領域。它的作法是利用一個非線性轉換(Nonlinear Transformation)將線性或非線性的原始資料轉換成較高維度的資料，然後利用支持向量(Support Vectors)與邊界(Margins) 尋找高維度平面中最佳的線性超平面分隔(Linear Optimizal Separating Hyperplane)。由於能夠描述多維度、非線性的決策邊界，所以支援向量機具有很高的正確率，且具快速的分類判斷速度，故本研究亦評估支援向量機分類法建立分類預測模組的預測準確性。

第5章實證評估

在本研究第四章裡提出了以網路空間與時間的彙整方式，依照惡意網站流量特性彙整 NetFlow 流量相關變數建立惡意網站偵測模組。為了評估本研究所提出的惡意網站偵測模組之分類效能，在本章中將以實際網際網路上的全球資訊網網站連線流量資料進行驗證，以評估惡意網站偵測模組的分類效能。

在文檔中以網路資料探勘技術偵測隱藏惡意網站之研究 (頁 37-40)

第5章 實證評估

第5章實證評估