第四章 實證評估
4.3 實驗結果
為求實驗結果準確,本研究對於所收集到的資料皆使用十摺交叉驗證法(10-Fold Cross-Validation)[26]在不同的資料探勘技術中加以驗證。十摺交叉驗證法其為將我們所 收集的資料隨機分成資料筆數相同的十組資料集合。每次的實驗取其中的一組資料做為 測試資料,其餘九組做為訓練資料,如此形成一摺實驗資料組。且十組資料集合依序作
27
為測試資料,因此共有十次資料組。最後,將十次資料組之實驗結果取平均值作為本研 究之最終實驗結果,以免造成一次實驗或隨機取樣所產生的偏差。下表 4-1 所示為一分 鐘之實驗結果。
表 4-1.一分鐘之實驗結果
正確率 遺漏率 誤報率 決策樹 99.79% 0.3% 0.13%
貝式分類 61.28% 0.8% 43.59%
支援向量機 91.35% 15.38% 2.25%
以一分鐘為資料收集時間間隔之實驗結果顯示,決策樹分類法之表現最為良好,準 確率達 99.79%,且遺漏率與誤報率分別僅為 0.3%以及 0.13%。亦即在 100 筆資料中,
若使用決策樹分類法,則有 99.79 筆流量資料可正確判斷其為攻擊流量亦或正常使用之 流量,而僅有 0.3 筆攻擊流量會被誤判為正常使用的流量,0.13 筆正常使用的流量會被 誤認為攻擊流量。而其次為支援向量機,其準確率稍差,為 91.35%,但遺漏率則高達 15.38%亦即每 100 筆攻擊流量中,有 15.38 筆會被偵測系統忽略為正常流量而未發警 報。其誤報率則為 2.25%。在此時間間隔單位中,表現較差者為貝式分類法,其準確率 僅有 61.28%,遺漏率尚可為 0.8%,而誤報率則高達 43.59%,每 100 筆正常流量中有 43.59 筆會被我們的分類模組誤認為攻擊流量而發出警報。此結果顯示貝式分類法在一 分鐘為時間間隔時,其傾向於將正常流量資料判斷為攻擊流量,也因此使其準確率大為 降低。我們推測,這是由於貝氏分類其前提假設所有的變數間皆為獨立互不影響,且每 個變數對於分類結果之影響的權重值皆相等。然而在本研究所使用的 6 個流量變數,其 間並不為完全相互獨立。且對於判斷是否為攻擊流量時,其變數對於分類結果之權重應 不相等。因此貝氏分類在以一分鐘為資料收集時間單位時,其分類預測準確度較其他兩 種分類法為差。
28
表 4-2.三分鐘之實驗結果
正確率 遺漏率 誤報率 決策樹 99.96% 0% 0.07%
貝式分類 99.32% 0.53% 0.82%
支援向量機 99.77% 0% 0.45%
當以三分鐘為資料收集時間間隔時,三種分類技術之準確率皆提升至 99%以上,遺 漏率與誤報率也皆降至 1%以下,顯示在此時間間隔下,此三種分類預測模組已經能明 顯區分出攻擊流量與正常使用流量其間的差異性。此外,決策樹與支援向量機更是不會 忽略攻擊流量而導致區域網路中有 APR 欺騙攻擊發動但偵測系統未發出警報的情況。
由此實驗結果,我們可以推測在本研究的實驗數據中,貝式分類法與支援向量機分類法 其準確率隨取樣時間間隔之影響較決策樹分類法為明顯。
表 4-3.五分鐘之實驗結果
正確率 遺漏率 誤報率 決策樹 99.94% 0% 0.12%
貝式分類 99.60% 0.75% 0%
支援向量機 100% 0% 0%
當資料取樣時間間隔拉長至五分鐘時,其分類準確性已經與在以三分鐘為資料取樣 時間間隔時無明顯差異,在正確率、遺漏率以及誤報率三項評比指標之結果皆屬優異。
在我們的實驗數據中,此三種分類技術在資料收集時間為 5 分鐘的單位下已經可以接 近完全準確的判斷網路流量資料為正常使用流量亦或攻擊流量。
整體而言,在三種分類方法中以決策樹分類法之表現最佳,其次為支援向量機分類 法,而貝氏分類法較差。因此,對於偵測 ARP 欺騙攻擊,本研究建議以決策樹演算法 較為適用。此外,我們發現當取樣時間單位間隔越長,則預測分類之準確率越高,且誤 報率以及遺漏率也逐一下降。我們推測,這是由於在以一分鐘為取樣時間單位時,一般
29
正常使用者之網路流量與攻擊者之網路流量的差距較小,然而隨著取樣時間間隔拉長,
攻擊者之網路流量數據之增加較正常使用者之網路流量有明顯之差距,所以在以三分鐘 為取樣時間單位時,三種分類方法之準確率皆已達到 99%以上。因此,根據上述之實驗 結果顯示,我們以決策樹分類法所建構的模型針對 ARP 欺騙攻擊之偵測有很好的偵測 效果。此外,考量對於攻擊事件之反應時間以及在大型區域網路內所需的系統資源需求 下,我們建議以三分鐘為偵測系統之網路流量取樣時間間隔,可顧及偵測系統之準確率 又不至大量的消耗網路設備之系統資源。
此外,本研究希望能更進一步的了解在研究中所提出的六個實驗變數在分類預測模 組中的分類預測效力,本研究使用資訊獲利率比值(Information Gain Ratio)來計算在分類 預測中,這六個不同的變數的重要排名程度(Rank),其排序結果如表 4-4 所示。
表 4-4.變數重要程度排序
表 4-4 中,由左至右分別為以一分鐘、三分鐘以及五分鐘為資料收集時間間隔之變 數重要程度排序。排名數字越小,表示其重要程度越高。由表中可見,在以三分鐘以及 五分鐘為資料收集時間間隔時,其變數重要程度之名次排序是相同的。亦呼應了前述之 實驗結果,在三分鐘以及五分鐘時,其分類預測結果趨於穩定。而一分鐘之變數重要排 名次序雖與三分鐘以及五分鐘不同,然而仔細若觀察變數重要排名次序,可發現在排名
一分鐘 三分鐘 五分鐘
排名 變數名稱 排名 變數名稱 排名 變數名稱
1 ifOutNUcastPkts 1 ifInNUcastPkts 1 ifInNUcastPkts 2 ifOutOctets 2 ifOutNUcastPkts 2 ifOutNUcastPkts 3 ifOutUcastPkts 3 ifOutOctets 3 ifOutOctets 4 ifInUcastPkts 4 ifOutUcastPkts 4 ifOutUcastPkts 5 ifInNUcastPkts 5 ifInUcastPkts 5 ifInUcastPkts 6 ifInOctets 6 ifInOctets 6 ifInOctets
30
前三重要的變數中,一分鐘之結果與三分鐘以及五分鐘之結果在三個變數中有兩個是相 同的。而在三種取樣時間間隔內,六個變數中對於分類結果之影響最不明顯的皆為 ifInOctets,其代表區域網路內傳送至交換器該網路介面之單位時間內總流入封包 Bytes 量,亦即是該主機所發出的單位時間內總封包 Bytes 數量。這顯示當 ARP 欺騙攻擊發 動時,並不會如同其他種類的網路阻斷攻擊如 DoS 攻擊發動時,會產生大量的網路流 量。這與目前許多網路管理人員的評估攻擊事件的觀測並不相符。因此,若是單以網路 流量的總 Bytes 數來做為偵測的依據將可能會造成偏誤。此外,在三分鐘與五分鐘的變 數重要程度排序中第一名的 ifInNUcastPkts,其代表該網路介面於單位時間內流出之非 單一目的地封包的總量,藉此我們可以推測 ARP 欺騙攻擊發動時,其所發出之廣播封 包數量大於正常使用者所發出之廣播封包數量。且隨著資料收集時間間隔的增長,流量 變數 ifInNUcastPkts 在攻擊流量的各項變數中其分類效力較其餘五項變數更為明顯。所 以,我們認為該變數對於 ARP 欺騙攻擊之偵測而言是一項重要的分類變數。
31