偵測模組實證分類結果 - 以網路資料探勘技術偵測隱藏惡意網站之研究

Rate TP

關變數之時空混合模組，以及單純以 NetFlow 變數彙整的對照組模組，以貝氏分類法、

決策樹分類法與支援向量機分類法分別進行訓練與測試，其結果分述如下：

以貝氏分類法實證分類結果如表 5-3，本研究發現以貝氏分類法進行惡意網站之偵測，其分類效果不但不甚理想。綜觀空間模組、時間模組、時空混合模組或是對照組模組的分類結果，其正確率只有 54.96% 至 60.39%之間，準確率介於 68.72% 到 74.98%，

而召回率亦介於 54.96% 至 60.41%，各個分類模組的分類結果各項數值皆相差不大，可見在貝式分類法的應用上，本研究將時間區域性與空間區域性應用在 NetFlow 流量變數彙整方法的概念，對於分類效果的影響並無明顯的差異。

表 5-3. 貝式分類法實證結果

偵測模組正確率準確率召回率

空間模組 54.96% 68.72% 54.96%

時間模組 57.03% 73.93% 57.03%

時空混合模組 60.39% 74.98% 60.41%

對照組模組 57.10% 73.61% 57.11%

在決策樹分類法的實證結果中，空間與時間概念相關的偵測模組明確的展現了較佳的偵測效能。以決策樹分類法實證分類的結果如表 5-4，從表中我們可以發現時空混合模組的分類效能最好，正確率高達 90.16%、準確率高達 90.45%、召回率亦高達 90.17%；

而時間模組的分類效能次之，也擁有非常不錯的偵測效果，其正確率達 86.02%、準確率達 86.60%、召回率達 86.02%；而空間模組之正確率為 76.31%、準確率為 78.11%、召回率為 76.30%，則與對照組模組的正確率 73.72%、準確率 76.96%、召回率 73.72%等實證結果數值相近，但空間模組仍略高於對照組模組 2 到 3 個百分點。各分類模組的分類效能由高至低分別為時空混合模組、時間模組、空間模組、對照組模組，這顯示了空間與時間的區域性概念在決策樹分類法中的確提高了分類模組的分類效能。

表 5-4. 決策樹分類法分類實證結果

偵測模組正確率準確率召回率

空間模組 76.31% 78.11% 76.30%

時間模組 86.02% 86.60% 86.02%

時空混合模組 90.16% 90.45% 90.17%

對照組模組 73.72% 76.96% 73.72%

以支援向量機分類法實證分類結果如表 5-5，本研究發現在支援向量機分類法中，

相對於對照組模組分類效能，時間概念相關的偵測模組表現較為良好，而空間概念的偵測模組在分類效能上的加強則較為不明顯。從表中我們可以觀察到時空混合模組正確率、準確率或是召回率皆達 81%，其分類偵測效能最好；而時間模組效能次之，也擁有不錯的分類效能，其正確率、準確率、召回率皆約為 77%，與時空混合模組差距僅約 4 個百分點；空間模組分類效能較為不彰，正確率為 61.89%、準確率為 65.63%、召回率為 61.89%；而對照組模組的表現，其準確率達到 74.45%，但其正確率、召回皆僅有 56.66%，其分類偵測效能表現仍然是四個模組中較差的。

表 5-5. 支援向量機分類法分類實證結果

偵測模組正確率準確率召回率

空間模組 61.89% 65.63% 61.89%

時間模組 76.95% 77.04% 76.95%

時空混合模組 81.09% 81.15% 81.10%

對照組模組 56.66% 74.45% 56.66%

依據上述實際驗證數據的結果，在此區分分類技術分類效能及各偵測模組表現兩個部份來討論：

z 分類技術的分類效能部分：

本研究在貝式分類法、決策樹分類法、支援向量機分類法實證分類結果，就正確率而言，決策樹分類法對於惡意網站流量的分類效果較貝式分類法及支援向量機分類法來得優異許多，而支援向量機分類法的分類效能次之，貝式分類法表現最為不理想。

再進一步的討論貝氏分類法在本研究中分類效能不彰的原因，我們推測其原因是貝氏分類法會將各項各模組的分類變數數值假定為常態分布、各個變數間互相獨立互不影響，且每個變數的影響權重皆相同，然而在網路流量分類偵測上，各變數的影響權重可能是有差異性的，以致貝式分類法在本研究的三種分類方法中，分類效能表現相對較差，而決策樹分類法具有變數資訊獲利率的差異、支援向量機分類法各變數在不同維度中具有不同的影響力，所以分類效果相對較佳。

z 在各偵測模組部分：

綜觀表 5-3、表 5-4、表 5-5 的數據結果，可以發現到空間模組、時間模組、時空混合模組及對照組模組在分類的效能上，除了貝氏分類法較無明顯差異外，就正確率而言大致上呈現了時空混合模組分類效能最佳、時間模組分類效能次之、空間模組分類效能第三，對照組模組分類效能較差的結果。在對照組模組的分類效能表現上，就正確率而言是以決策樹分類法的分類結果最好，而支援狀態機分類法與貝式分類之表現相當。其中決策樹分類法之正確率及召回率約為 74%、準確率約為 77%；支援狀態機分類法的正確率及召回率約為 57%，準確率約為 74%；貝式分類法的正確率及召回率約為 57%，準確率約為 74%。

由上述實證資料所呈現，時空混合模組在三種分類法中表現都是最優異的分類模組。尤其在決策樹分類法的分類結果正確率、準確率及召回率皆達到 90%；在支援向量機分類法的結果中，正確率、準確率及召回率亦都有 81%的水準，相對其他模組仍有不錯的表現。而在貝式分類法部分，正確率、召回率僅有 60%的水準，準確率接近 75%，

其分類結果與其他模組相比，分類的效能並沒有明顯的區別。整體而言，時空混合模組在決策樹分類法以及支援向量機分類法中大幅領先了對照組模組的分類效能，在正確率上分別有 16 到 24 個百分比的分類效能差距。

時間模組在各分類法中表現僅次於時空混合模組。在決策樹分類法的分類結果正確率、準確率及召回率皆達到 86%；在支援向量機分類法的結果中，正確率、準確率及召回率亦約略維持 77%的水準；而在貝式分類法部分，正確率、召回率僅有 57%的水準，

準確率接近 74%，其分類結果與其他模組相比，分類的效能並沒有明顯的區別；整體而言時間模組與時空混合模組分類效能相去不遠，正確率的差距僅約 4 個百分點，相對於對照組模組也具有明顯的效能領先。

空間模組則在決策樹分類法及支援向量機分類法的分類結果中，效能略優於對照組模組。在決策樹分類法的分類結果正確率及召回率為 76%，準確率則有 78%的水準，領先對照組模組約 2 到 3 個百分點；在支援向量機分類法的結果中，正確率及召回率僅 61%，但仍比對照組模組領先約 5 個百分點，準確率部份為 65%則低於對照組模組的 74%；而在貝式分類法中空間模組的效能為四個模組中表現最差的模組，正確率及召回率僅約 55%，準確率則僅約 68%，低於對照組模組正確率及召回率的 57%，以及準確率的 73%。就正確率而言，空間模組在決策樹分類法與支援向量機分類法分別較對照組模組高出 2 到 5 個百分點，故空間模組相對於對照組模組的分類效能僅有些微的領先。

觀察上述結果可以發現，結合空間區域性及時間區域性變數彙整概念的時空混合模組無論在貝式分類法、決策樹分類法或是支援向量機分類法，其分類的效能都是所有偵測模組裡最好的，且與對照組的對照組模組相比有大幅度領先的效能差距，這表示結合空間區域性及時間區域性的變數彙整概念適合用來加強具有特定流量行為模式的流量偵測。

在文檔中以網路資料探勘技術偵測隱藏惡意網站之研究 (頁 43-47)