• 沒有找到結果。

實驗結果評估

在文檔中 中 華 大 學 (頁 38-42)

經由上述之實驗設計所得之訓練及測試資料集,我們將使用台灣大學資訊工 程學系林智仁教授所開發的LIBSVM[15]軟體來進行支持向量機最佳參數之挑 選,與資料集預測分類比較,對訓練資料集做進一步的測試實驗。

在我們收集的 2 天訓練資料集裡,去除資料重覆項後,共有 49840 筆連線資 料,3 次的測試資料集裡,則分別有第一天 21164 筆、第二天 21673 筆、第三天 21138 筆連線資料,第四天 21578 筆、第五天 17603 筆、如表 4-1。

4-1 訓練與測試資料集連線筆數 連線筆數 2Days Train Data 49840 筆

Day1 Test Data 21164 筆 Day2 Test Data 21673 筆 Day3 Test Data 21138 筆 Day4 Test Data 21578 筆 Day5 Test Data 17603 筆

在偵測率的比較上面,對於我們製作的兩天訓練資料集先使用去除資料重覆 項與交叉驗證方式,測試 63 種的參數組合以取得支持向量機之最佳參數,在 13 個特徵資料集之最佳參數為[C=750,g=0.5],18 個特徵資料集為[C=750,

g=0.001],實驗並對五天的測試資料集進行支持向量機的測試實驗,以驗證加入 新特徵後之訓練模組的偵測率,如表 4-2。

在對 5 天的測試資料中,我們製作出加入新特徵後的訓練資料集,可以從表 中看出,皆能比僅有原始 13 個特徵的資料集有著較高之偵測率,而透過多元迴 歸分析方法特徵篩選後的資料集,可以僅以較少之特徵數,達到高於原始 13 特 徵資料集之偵測率,其中在第二、三、四天的測試資料裡,尚能對於 18 個新特 徵組合的資料集,有著小幅的提升。

表 4-2. 偵測率比較表 Train Data

原始 13 個特徵 原始+新特徵 18 特徵 18 特徵做 MLR Day1 Test Data 98.85% 99.22% 99.14%

Day2 Test Data 89.25% 96.72% 96.75%

Day3 Test Data 95.84% 98.44% 98.46%

Day4 Test Data 95.11% 98.40% 98.43%

Day5 Test Data 92.11% 98.18% 98.13%

而由於單以各特徵組合的偵測率比較外,較難以清楚的了解在加入新特徵後 的新特徵資料集,其各特徵於偵測時之鑑別度,因此我們使用多元迴歸分析的方 法驗證新特徵於資料集中之鑑別度,以說明加入新特徵後能提供訓練模組較佳之 偵測率。

表 4-3 所示為多元迴歸分析的 Model Summary 表,在表中我們可以藉由 R.Square 值來了解各特徵於訓練模組的鑑別度,14、15、16、17 為我們提出的 新特徵值,其中 14 特徵值在此特徵組合篩選中,有著最高之鑑別能力,其後依 序是 4、1、7、3、6、17、12、8、16、15、5,而隨著鑑別能力比對逐漸的降低,

到第 8 特徵值時,後續之鑑別能力就較為不顯著,但在經我們使用支持向量機實 際測試資料集時,雖然後列之特徵值鑑別能力已低落,但對偵測率仍能有些微的 提升,因此我們仍將後列之特徵值選入最佳特徵組合,僅去除未於多元迴歸分析 篩 選 入 測 試 的 特 徵 值 , 其 中 我 們 提 出 的 第 18 特 徵 值 Dst_Same_protohost_srv_same_rate 無選入多元迴歸分析篩選,為本研究提出的 5 個新特徵裡較不具鑑別度之特徵,表 4-4 為多元迴歸分析所選取出的最佳特徵組 合。

表 4-3. 多元迴歸分析模組 特徵 R.Square

14 .468 4 .744 1 .931 7 .937 3 .940 6 .945 17 .948 12 .952 8 .953 16 .953 15 .953 5 .953 表 4-4. 最佳特徵組合

最佳特徵組合

1、3、4、5、6、7、8、12、14、15、16、17

除了多元迴歸分析篩選外,我們也使用了區別分析的方法,來對 18 個特徵 組合做各特徵的鑑別度測試,如表 4-5 區別分析裡的 Structure Matrix 表,雖然不 同的統計方法,產生的特徵組合與功效皆有所不同,但我們提出的新特徵也都能 有較具鑑別度的表現,在區別分析的篩選表中,我們提出的新特徵值中,僅有第 15 特徵值低於 0.1 以下,其餘新特徵大都能有 0.2 以上之鑑別度,可提供訓練模 組於偵測時有着較佳的辨識能力。

表 4-5. 區別分析模組 特徵 function

10 .931 12 .931 14 .284

3 .270 4 .257 8 .254 13 .220 18 .220

17 .220 16 .127 15 .057

7 .036 6 .022 5 .007 11 .007

經由 5 天的測試資料集使用支持向量機做 predict 測試偵測率比較,與多元 迴歸分析及區別分析篩選特徵實驗,可以驗證出我們提出之新特徵實際用於正常 與異常之網路流量封包資料中,能搭配原始之特徵組合提供較佳之攻擊辨識能 力,而透過不同的統計方法用於特徵篩選後,也能在偵測率的比較之外得知我們 的新特徵於特徵組合之重要性,由各項實驗數據顯示,使本研究所提出的加入新 特徵值方法與 5 個新特徵,能有較具體之說明與分析,以達到理想中的效果。

在文檔中 中 華 大 學 (頁 38-42)

相關文件