以網路流量偵測ARP欺騙攻擊之研究

全文

(1)國立高雄大學資訊管理學系(碩士班) 碩士論文. 以網路流量偵測 ARP 欺騙攻擊之研究 Detecting ARP Spoofing Attack by Mining Network Traffic Data. 研究生：張思揚撰指導教授：蕭漢威博士. 中華民國九十八年七月.

(2)

(3) 致謝在完成論文的那一刻，心中浮現了許多想感謝的臉孔。在這兩年碩士班學習的過程中，指導教授蕭漢威老師是我最想要也最需要感謝的人。讓學生在這兩年中了解到如何研究一門學問，並且教導了我們除了學術研究以外的生活態度及待人處世之道。此外，蕭老師對於學生的用心與關懷，不論在教學上或生活上皆是令人尊敬的師長。在此論文的研究與寫作上，更是要感謝蕭老師細心的審視與指導，讓學生能完成此篇文章。此外亦要感謝口試委員陳灯能老師與楊新章老師在口試時給予的指導，讓學生的論文能更趨完整。學生原本是個不善於在台上對聽眾談話的人，然而經過碩士班這兩年在課堂上的報告以及實驗室內研究討論會議的訓練，讓學生從起先上台時會顫抖與口吃到現在能順利的完成一次報告，這全得感謝系上的老師在學生報告時給予的指導，讓學生學會如何從容應對與表達。此外，要感謝旺伯學長、以及宗儒、恆慈、智翔、軍達、東建、佑寧、齊祥以及冀威在這兩年來給予的協助與鼓勵，讓我在遭遇研究上的瓶頸時能順利的解決，以及課業上的討論與協助使我學習到許多的學問。另外閔玲姐這兩年來在行政庶務上的幫助，讓我們能更專心致力於學問的研究上。而學弟學妹們在這兩年來的幫忙，亦是讓我能完成學業的一大助力。非常感謝你們的協助，在這裡除了要對你們致上最高的感謝外，也希望自己在未來的日子裡能幫助你們，報答你們對於我的協助。最後，要感謝我的父母在這兩年來給予全心全意的支持，讓我不必擔憂生活上的其他煩惱，可以專心於學問上的研究。也謝謝他們多年來的栽培，讓我能順利的完成小學到碩士的學涯。張思揚僅誌於國立高雄大學資訊管理學系中華民國九十八年七月.

(4) 以網路流量偵測 ARP 欺騙攻擊之研究. 國立高雄大學資訊管理學系指導教授：蕭漢威博士. 國立高雄大學資訊管理學系研究所學生：張思揚. 摘要. 隨著乙太網路(Ethernet)傳輸技術的進步與普及，現今之區域網路大多使用交換器 (Switch)做為連接設備。有效的改善以往使用集線器(Hub)在區域網路內資料封包遭到竊聽(Sniff)的網路安全問題。然而取而代之的是利用 ARP 通訊協定設計上的缺陷進行 ARP 欺騙攻擊(ARP Spoofing)以達到竊聽的目的。本研究提出以收集網路設備之 SNMP 流量資訊，利用資料探勘研究中的分類分析技術偵測 ARP 欺騙攻擊之系統架構。在我們的系統架構中，使用了三種現今普遍被使用的資料探勘技術，分別為貝式分類、決策樹以及支援向量機作為本研究分類預測模組中的分類演算法並評估何者較為合適。此外，本研究分別收集了一分鐘、三分鐘以及五分鐘之網路流量資料以作為三種訓練資料的取樣時間間隔，藉以探究不同的資料取樣時間間隔在本研究所提出之 ARP 欺騙攻擊分類預測模組中的效能影響程度。實驗結果顯示，隨著資料取樣時間間隔的增長，分類預測模組之準確度隨之提升。而在三種分類法中，決策樹分類法之準確度分別在三種不同的資料收集時間單位中達到 99%以上，且遺漏率與誤報率的表現亦屬優良。顯示決策樹演算法在我們的實驗資料中，分類準確性穩定較不易受資料取樣時間間隔的不同所影響。. 關鍵字：ARP 欺騙攻擊、網路安全、攻擊偵測、資料探勘、SNMP 協定. i.

(5) Detecting ARP Spoofing Attack by Mining Network Traffic Data Advisor: Dr. Han Wei Hsiao Department of Information Management National University of Kaohsiung. Student: Chang Ssu-Yang Department of Information Management National University of Kaohsiung. ABSTRACT. As Ethernet Switches have replaced Hubs on local network, it reduced the threats of network sniffing attack. Today, there is another sniffing technique have been used popularly, that is ARP (Address Resolution Protocol) Spoofing attack. This kind attack uses the vulnerability of ARP protocol to eavesdrop data on local area network. In this research, we propose a detection system which be established by mining the SNMP network traffic data, to detect ARP Spoofing attack on Internet environment. This research evaluates three popular classification techniques for the detection module, Naïve Bayesian Classification, Decision Tree and Support Vector Machine. The empirical experiments show that the detection module has good performance to detect ARP Spoofing attack. Furthermore, this research gathers network traffic date for constructing prediction module by different time interval, which are 1 ,3 and 5 minutes for evaluating the influence of prediction accuracy. The results show that, the performance of attack event prediction will increment with longer time interval of collection data. Moreover, the accuracy of Decision Tree in three time intervals is all above 99%, the missing rates and the false alarm rate are acceptable. It shows that, the Decision Tree is a suitable classification technique to construct ARP Spoofing attack detection module. Keywords: ARP Spoofing, Data mining, Network security, Attack Detection, SNMP. ii.

(6) 目錄第一章前言 .............................................................................................................................. 1 第二章文獻探討 ...................................................................................................................... 4 2.1 ARP通訊協定簡介 .......................................................................................................... 4 2.2 ARP欺騙攻擊技術 .......................................................................................................... 7 2.3 偵測ARP欺騙攻擊之相關研究 .................................................................................... 11 第三章研究架構 .................................................................................................................... 15 3.1 SNMP與實驗變數 ......................................................................................................... 16 3.2 分類預測模組 ................................................................................................................ 19 3.2.1 貝氏分類法(Naïve Bayesian Classification) .......................................................... 19 3.2.2 決策樹(Decision Tree) ........................................................................................... 21 3.2.3 支援向量機(Support Vector Machine) ................................................................... 22 第四章實證評估 .................................................................................................................... 24 4.1 實驗數據收集 ................................................................................................................ 24 4.2 效能評比指標 ............................................................................................................... 25 4.3 實驗結果 ....................................................................................................................... 26 第五章結論與未來研究 ........................................................................................................ 31 參考文獻 .................................................................................................................................. 33. iii.

(7) 圖目錄圖圖圖圖圖. 2-1.ARP封包運作流程 ........................................................................................................ 6 2-2 .ARP欺騙攻擊示意圖 ................................................................................................... 8 2-3.中間人攻擊示意圖 ...................................................................................................... 10 3-1. ARP欺騙攻擊偵測系統架構...................................................................................... 15 3-2.支援向量機超平面示意圖 .......................................................................................... 22. 表目錄表表表表表. 3-1.實驗變數 ...................................................................................................................... 18 4-1.一分鐘之實驗結果 ...................................................................................................... 27 4-2.三分鐘之實驗結果 ...................................................................................................... 28 4-3.五分鐘之實驗結果 ...................................................................................................... 28 4-4.變數重要程度排序 ...................................................................................................... 29. iv.

(8) 第一章前言隨著乙太網路設備的提昇，在台灣現今大多數網際網路的各使用單位在建立區域網路(LAN, Local Area Network)時都以交換器(Switch)取代原先老舊分享頻寬的集線器 (Hub)，這對使用者而言除了在傳輸速度有大幅度的改善外，在傳輸的環境上也較原先分享頻寬的路由環境更為安全。使得傳統以竊聽程式(Sniffer)在共享網路上所造成的危害有大幅度的改善，這也使得許多網路管理人員疏忽了這類型攻擊潛在的影響。但近年來隨著 ARP 欺騙的攻擊技術的普及，這類被動竊聽(Passive Sniffing)方式又以新的形態對於網路構成嚴重的威脅，觀察近年的網路異常事件，這類的網路攻擊有越來越多的趨勢[9]。. ARP 欺騙攻擊[22]的運作原理是由攻擊者在乙太網路技術所架構的區域網路內發送假造的 ARP 封包到網路上，給特定的網路受害者和預設通訊閘(Default Gateway)，其目的是要讓傳送至受害者位址的流量被錯誤導引到攻擊者的位址。藉以竊聽所處的區域網路內所傳送的重要資訊，如重要主機系統、電子佈告欄系統(BBS, Bulletin Broad System)以及電子商務交易網站等的帳號與密碼，或是受害者傳送與接收的電子郵件 (E-mail)與瀏覽網頁的內容，甚至將原始傳送的資料居中篡改後再傳送回受害者，造成被攻擊者更大的損害。攻擊者也可利用這樣的技術將受害者的封包導到不存在的位址以達到阻斷網路連線的效果。這類的攻擊往往在區域網路內發生，對於現階段的網路管理人員而言，這類的攻擊是不容易被偵測與防禦的一種攻擊形式。. 在網路設計時經常會依不同的網路需求，切分出不同大小的子網路以隔離各個子網路中封包傳遞的相互干擾，並且避免廣播封包過多造成廣播風暴的情況而影響其他使用者。在各子網路中以目前乙太網路的傳輸設備多以交換器為主，在這種網路環境下對於以 ARP 欺騙的攻擊方式，要以目前以封包特性(Signature Base)為偵測方法的入侵偵測 1.

(9) 系統而言是困難的。因為這類的偵測方法必需要將監測系統架設於所欲監控的區域網路流量流經的網路環境下，才可以有效的偵測出攻擊事件的發生。以目前學術網路普遍的網路環境下，必需要在各個子網路中都得放置這樣的偵測系統才可以有效的找出攻擊來源。而這樣全面的架設入侵偵測系統在成本上的考量對於網際網路內的各使用單位都是較為困難的負擔。. 因此，若我們能利用網路流量的特性，以資料探勘的技術區分出 ARP 欺騙攻擊發生時攻擊者與一般使用者的流量差異，則可以較少的成本有效的監控不同網段大規模的網路範圍，找出可能發動 ARP 欺騙攻擊的來源並進一步的加以防禦，將可以有效的提昇網路安全，並減少這一類網路攻擊的威脅，相信這是一個值得我們努力的研究方向。. 在本研究中，我們收集網路設備中的 SNMP 網路流量資訊，並使用 3 種資料探勘中的分類分析技術，其分別為貝氏分類法、決策樹分類法以及支援向量機分類法，希望能夠藉由分類預測的方式，偵測出區域網路中是否有 ARP 欺騙攻擊事件發生。此外，本研究亦嘗試以一分鐘、三分鐘以及五分鐘等，三種不同的時間間隔收集網路流量資料，觀察本研究之偵測系統是否易受不同之資料收集時間間隔的影響，以及哪種資料收集時間間隔可以兼顧預測準確性與對攻擊反應之即時性。. 本論文的第一章說明本研究之時空背景以及我們的研究動機與目的。在第二章會討論先前既有之專家學者在偵測 ARP 欺騙攻擊以及相關攻擊之領域的研究。第三章為本論文的研究架構，在此章節提出我們的系統架構說明我們如何結合 SNMP 工具與資料探勘的技術在所轄之區域網路的範圍內進行防禦偵測。第四章則是本論文在模擬現實狀況之實驗網路環境中，取得攻擊與正常使用之網路流量，彙整出六個變數，利用此六個變數在不同的資料探勘方法中，評估其分類效果之準確性。並分析此六個變數在本研究. 2.

(10) 之偵測系統中分類預測的重要性。最後在第五章的部分，為本研究之結論，與未來的研究方向。. 3.

(11) 第二章文獻探討本章節我們將會簡介在乙太網路架構的區域網路內，主機與主機間資料傳送時所使用的通訊協定及傳輸原理，並且說明網路上的 ARP 欺騙攻擊之攻擊者如何利用通訊協定設計上的漏洞發動 ARP 欺騙攻擊。此外，本研究將會介紹兩種類型不同的 ARP 欺騙攻擊之防禦偵測的相關研究，分析此兩類不同的偵測方法的基礎之優缺點。藉由了解目前相關研究的特性，提出本研究所發展之偵測方法。. 2.1 ARP 通訊協定簡介在現有的網際網路(Internet)上，我們在傳送資料時是以 TCP/IP[18]為最主要的通訊協定，而其中以 IP(Internet Protocol)通訊協定[14]做為資料傳送目的地位址依據。然而， IP 位址僅能作用於網路層(Network Layer)的傳輸協定，當我們在區域網路中使用乙太網路(Ethernet)做為資料鏈結層(Data-Link Layer)的傳輸協定時，便無法直接使用 IP 位址做為資料傳輸目的地的位址。這是由於，在目前通用的乙太網路架構中，主機與主機間的乙太封包傳遞，是以一組 48 個位元所組成的媒體存取控制位址(MAC Address, Media Access Control Address)來決定封包該送到哪個介面，而非使用 IP 位址。因此，當傳送主機以 IP 位址為目的地之資料封包在乙太網路架構下的區域網路中傳輸時，會將該資料封包之表頭(Header)再包覆上一層乙太網路的訊框(Frame)，該訊框內包含有 MAC 位址資訊。如此該封包便可在乙太網路架構下的區域網路中傳輸。然而傳送主機在一開始將要傳送第一個資料封包至目的地主機時，僅知目的地 IP 位址，而不知道該 IP 位址所對應之 MAC 位址。因此，當第一次傳送資料封包前，需要透過 ARP 通訊協定詢問目的地 IP 位址其所對應之 MAC 位址。當傳送主機得到目的地 MAC 位址後，其以 IP 為. 4.

(12) 目的地位址之資料封包即可在以太架構下之區域網路中，藉由包覆乙太網路的訊框傳輸至正確的目的地。. 在乙太網路的架構下，區域網路內的每部主機皆會建立一個 ARP Table 的快取 (Cache)，用來記錄在最近的時間內區域網路中其他主機的 IP 位址所對應之 MAC 位址資訊，以省去每次傳遞訊息前都必須使用 ARP 通訊協定[13]轉換 IP 位址與 MAC 位址的程序，僅需在 ARP Table 中沒有該組 IP 位址與 MAC 位址對應時，才發出 ARP-Request 之詢問封包，藉以提高網路傳輸效能。. 當區域網路中的傳送主機(以下稱為 A 主機)要將資料封包送至目的主機(以下稱為 B 主機)時，會先將 B 主機的 IP 位址與自己的子網路遮罩(Subnet Mask)做運算，判斷 B 主機是否與 A 主機處於相同的區域網路內，如果處於相同區域網路內，則 A 主機會先檢查自身擁有的 ARP Table，若能找到 B 主機的 IP 位址所對應的 MAC 位址，則將資料封包直接送至該 MAC 位址;如果在 A 主機的 ARP Table 中無法找到 B 主機的 IP 位址與 MAC 位址之對應資訊，則 A 主機對其所處之區域網路內發出一 ARP-Request 之廣播封包，詢問區域網路內哪個 MAC 位址擁有Ｂ主機之 IP 位址。當區域網路內的所有主機都收到該 ARP-Request 封包後，會判斷該封包所詢問之 IP 位址是否為自己所擁有，如果該主機擁有 ARP-Request 封包所詢問之 IP 位址，則回應一 ARP-Reply 封包給 A 主機，告知 A 主機其 MAC 位址並更新自身的 ARP Table 將 A 主機的 MAC 位址與 IP 位址對應資訊加入 ARP Table 中;若該 IP 位址非自己所擁有，則不對該封包做任何回應但亦將 A 主機的 MAC 位址與 IP 位址資訊之對應資訊加入 ARP Table 中。其運作流程如下圖 2-1 所示:. 5.

(13) 圖 2-1.ARP 封包運作流程. 當 A 主機(10.0.0.2)送出一封包至 B 主機(10.0.0.3)時，其步驟流程如下: 1. A 主機檢查自己的 ARP Table 中是否有 B 主機的 IP 位址與 MAC 位址對應資訊，若有擇直接傳送封包至該 MAC 位址，沒有則執行步驟 2。 2. A 主機對區域網路中的所有主機發送一 ARP-Request 廣播封包，詢問哪個 MAC 位址所對應之 IP 位址為 10.0.0.3。 3. 在區域網路中的所有主機皆收到 A 主機的 ARP-Request 封包後，將 A 主機的 IP 位址與 MAC 位址對應資訊加入自身的 ARP Table 中。 4. 區域網路內所的有主機中，B 主機判斷該 ARP-Request 封包所詢問之位址為自己所擁有，所以回應一 ARP-Reply 封包給 A 主機告知 B 主機的 IP 位址與 MAC 位址對應資訊，而其餘之主機則不作任何回應。 5. A 主機收到該 ARP-Reply 封包後，將 B 主機的 IP 位址與 MAC 位址對應資訊加入自己的 ARP Table 中。. 6.

(14) 另外，若 A 主機試圖傳送一資料封包至其他網路中之主機時(如 IP 位址:192.168.0.50) 時，會先將該 IP 位址與自己的子網路遮罩作運算，若發現目的地主機(192.168.0.50)與自己處於不同的區域網路時，則 A 主機會將其資料封包送往區域網路中的通訊閘道 (Gateway)，通訊閘道收到此資料封包後會依照 IP 的通訊協定，檢查正確的路由資訊，判斷該主機所處之區域網路位於哪個路由器的轄下，將該封包送至通往該路由器的正確網路介面。. 在區域網路中，通訊閘道就像一道檢查關卡一般，當處於區域網路內的主機發現其試圖發送之封包的目的地不在同一個區域網路時，會先將資料封包送至通訊閘道，再由通訊閘道將該封包轉送至正確的網路介面。而通訊閘道在乙太網路的架構中，其傳遞封包時的行為如同其他區域網路中的主機一般，在傳輸資料前也必需利用 ARP 通訊協定完成 IP 位址與 MAC 位址的轉換。. 由於 ARP 通訊協定的設計，產生了一些安全上的漏洞。而使用乙太網路的區域網路中的主機以及通訊閘道皆必須使用 ARP 通訊協定做為其 IP 與 MAC 位址轉換的協定，因此在區域網路中造成了遭受利用 ARP 漏洞達成竊聽的安全顧慮。在接下來的章節中，我們將針對現有常見之 ARP 欺騙攻擊手法做一簡介。. 2.2 ARP 欺騙攻擊技術由於 ARP 協定的設計其實作上具有開放性與彈性，但也因此造成其安全性上的漏洞。目前常見利用 ARP 通訊協定設計上的缺陷進行的攻擊如 ARP 欺騙攻擊。假設攻擊者(Attack 以下簡稱 A 主機)、受害者(Victim 以下簡稱 V 主機)、通訊閘道(Gateway 以下簡稱 G 主機)三台主機處於同一區域網路。其中 V 主機與 G 主機為正常使用者以及被攻擊的對象，而 A 主機為攻擊者。在 A 主機開始發動 ARP 欺騙攻擊時，無論 V 主機是 7.

(15) 否有發出要求詢問 G 主機的 MAC 位址之 ARP-Request 廣播封包，攻擊者 A 主機在此期間會不斷的發送 ARP-Reply 封包至 V 主機，告知 V 主機，G 主機的 IP 位址所對應之 MAC 位址為 A 主機所擁有的 MAC 位址。此時 V 主機內的 ARP Table 便會記錄該 IP 位址與 MAC 位址對應資訊，之後當 V 主機需要傳送資訊給 G 主機的 IP 位址時，其封包便不會正確的傳至 G 主機，而是傳至 A 主機，因為此時在 V 主機的 ARP Table 中，G 主機的 IP 位址所對應到的 MAC 位址為 A 主機所擁有。ARP 欺騙攻擊簡介圖示如下圖 2-2:. 圖 2-2 .ARP 欺騙攻擊示意圖. 1. 攻擊端 A 主機發動 ARP 欺騙攻擊，對受害端 V 主機不斷的發送 ARP-Reply 封包，使 V 主機的 ARP Table 中， IP 位址 10.0.0.1 所對應之 MAC 位址成為 AA:AA:AA:AA:AA:AA。. 8.

(16) 2. 遭受 ARP 欺騙攻擊後，V 主機原本要將資料封包送往 G 主機，然而因為 G 主機的 IP 位址所對應的 MAC 位址已改為 AA:AA:AA:AA:AA:AA，所以資料封包並不會送至 G 主機而是送往攻擊者 A 主機。. 當攻擊者利用 ARP 欺騙攻擊這種技術並將攻擊端主機偽裝為區域網路中的通訊閘道(Gateway)發動攻擊時，由於受害主機要對區域網路外連線並須將封包送往通訊閘道，然而其所送往之通訊閘道的 MAC 位址由於已經遭受 ARP 欺騙攻擊而改為攻擊主機之 MAC 位址，因此其封包無法正確的送出區域網路，如此便會對受害主機造成另一種形式的阻斷服務攻擊(DoS, Deny of Service)[11]。在網際網路上，Netcut 即是以此種攻擊手法作為切斷區域網路連線的著名軟體。其運作的原理即是利用這種 ARP 欺騙攻擊的方式使被害者主機無法正常使用網路連線功能。. 更進一步的延伸此種技巧，當攻擊者 A 主機分別同時欺騙了通訊閘道 G 以及區域網路內的 V 主機，致使通訊閘道誤認攻擊者 A 為 V 主機，而 V 主機亦將攻擊者 A 主機誤認為通訊閘道 G，且分別將收到的封包再傳送至原本該送抵的目的位址時，便可使攻擊主機 A 介入其中取得受害主機間(通訊閘道 G 與區域網路中的 V 主機)的通訊資料而不被發覺，此種攻擊稱為中間人攻擊(Man-in-Middle-Attack)[19][25]，如下圖 2-3 所示:. 9.

(17) 圖 2-3.中間人攻擊示意圖. 當中間人攻擊發起時，被攻擊端的 V 主機與 G 主機間所有封包皆會先送至 A 主機，之後再由 A 主機轉送至其目的地。. 當攻擊者利用此種技巧將受害主機的 ARP Table 中所有的 IP 位址所對應的 MAC 改為攻擊主機之 MAC 時，受害主機間傳遞的所有封包訊息將被攻擊者所截獲。有心人士可藉由同時欺騙通訊閘道與目標主機以取得該主機之使用者在網際網路上所輸入的帳號以及密碼，或是其傳遞的私密訊息如 E-mail 內容或即時通訊的文字訊息等。亦可在截獲的封包加上訊息或更改內容再轉送給受害主機，藉由該封包將病毒植入受害主機使其中毒[30]。也可藉由此種更改封包內容的手法將受害者導引至特定網頁使其落入攻擊者所設置的惡意網站中的陷阱。. 由於 ARP 欺騙攻擊只發生於區域網路內，目前多數的入侵偵測系統以及入侵防禦系統較難以發覺此類型的攻擊行為。此外，若在傳輸時，機密資訊遭竊取，則其造成之損失更是難以估計。且此種攻擊技巧是利用的 ARP 通訊協定設計上的缺陷使得受害主. 10.

(18) 機即使並未中毐或是被植入後門程式的情況下，仍會造成上述的危害，受害系統又無法輕易修補更新。由此可見 ARP 欺騙攻擊所造成的影響甚巨。因此發展一套有效率的攻擊偵測系統是極為重要的。. 2.3 偵測 ARP 欺騙攻擊之相關研究本節將針對現有之 ARP 欺騙攻擊偵測技巧進行探討。目前之偵測方法主要可分為 (1)以分析封包內容以及(2)收集網路設備資訊兩種。以分析封包內容為主的方法其在偵測 ARP 欺騙攻擊時，必須將偵測主機架設於欲監控之區域網路內，收集區域網路中的每一個封包檢查其內容判斷是否為攻擊行為。且偵測主機只能監控其所處之區域網路。而以網路設備資訊為主之偵測方法，則是可架設偵測主機於遠端的網路，不受地域限制。此外，一部偵測主機可監控多個區域網路。但在目前的相關研究中，所使用之方法對於網路環境發生變化時，自動調整以符合網路環境狀況之能力較為不足。以下為目前對於偵測 ARP 欺騙攻擊的相關研究說明。. (1)以封包內容分析為依據之研究: Ramachandran 與 Nandi[17]提出，將一偵測主機架設於區域網路內，收集在區域網路中之主機所發送的 ARP 封包。將主機依其是否發送 ARP-Reply 或 ARP-Request 封包分為三類，分別為 Full ARP Cycle、Request ARP Cycle 以及 Response Half Cycle。緊接著偵測主機對其依不同類型發送偵測用之 Tcp Syn 封包或 ARP-Request 封包。若該主機所回應之封包符合預期，則為正常使用者，並加入安全名單中；若回應不符預期，則判斷其為攻擊者。. 11.

(19) 而 Trabelsi 與 Shuaib[23]利用 Trap ICMP(Internet Control Message Protocol)封包，找出區域網路中的可疑主機。當發現區域網路中存在可疑主機時，利用 ARP Cache Poisoning[7]攻擊的技巧對可疑主機之 ARP Cache Table 作修改，緊接著發送偵測封包至可疑主機。若該主機為 ARP 欺騙攻擊者，則偵測主機可由回應封包判斷其為攻擊者;若該主機為正常使用者，則其正常的網路操作功能並不會被該研究所使用之偵測技巧所影響。. 在蕭漢威等人的研究中[31]，在欲監控之區域網路中，架設一偵測主機。該主機收集區域網路中完整的每一個封包，分析封包內容並依其 MAC 位址彙整出流入與流出兩部分的 ARP 封包數量、總封包數量以及總 Bytes 數量共計 6 項變數。以資料探勘領域中的貝式分類法將前述所收集之 6 項網路流量變數建立一分類預測模型。由於此種方法需要針對區域網路中的每個封包進行分析，因此當區域網路中的封包數量增大時，其所消耗之偵測主機的系統計算資源亦將大增。且由於需要將偵測主機架設於欲監控之區域網路中，因此對於監控大規模的網路其所需的建置成本亦為龐大。. 上述三種以分析封包內容為依據之偵測方法，由於對於區域網路中之主機逐一檢查其發出之封包，因此有較高的精準度。然而也由於必須逐一檢查封包內容，因此當區域網路內之傳輸封包數量龐大時，對於偵測系統的運算資源是一大負擔。此外此種偵測方法之偵測主機僅能監控一個區域網路，若要監控大規模之網路，則須佈署大量偵測主機，且對於偵測主機之系統效能之需求亦高，導致建置成本高昂。. (2)以網路設備之資訊為依據之研究: 楊文龍[29]認為，在同一時間內，除了有特殊目的與功能的伺服器或主機外，區域網路內的主機只會擁有一個 IP 位址。因此，該研究利用 SNMP 協定取得交換器內其轄下主機之 IP 位址與 MAC 位址對應表，並配合動態主機組態協定(DHCP, Dynamic Host 12.

(20) Configuration Protocol)[6]的日誌檔，偵測區域網路中，是否有同一個 MAC 位址同時擁有一個以上的 IP 位址對應。若發現此種對應關係，且該組 MAC 位址不在其所設定之安全排外名單內，則判斷其為 ARP 欺騙攻擊發動者。此種偵測方法，雖然精準度較高，然而必須事先了解其所監控之區網路內之主機狀況，如此才能建立一份安全排外名單，因此當網路管理人員加入一個新的監控區域網路時，必須先以人工方式調查該區域網路之狀態。且當區域網路內之主機因臨時之需求增加 IP 位址於同一網卡時，會被誤判為攻擊者。因此，此種偵測方法對於區域網路環境發生變化時，其自動調整以符合變動過後的網路環境狀況之能力較為不足。. 另外 Carunt 與 Gondim[4]則認為在區域網路中，每台正常使用之主機所發送與接收的封包數量以及網路流量之間，存在一種相對應的數量比值，在該研究視其為平衡。然而發動 ARP 欺騙攻擊之主機與被 ARP 欺騙攻擊之受害主機，其所發送與接收之封包數量與網路流量比起正常使用以及未遭受攻擊之主機，其封包數量與網路流量之比值相對於正常使用流量來說，則較無規律，該研究視其為不平衡。因此，該研究利用 6 項 SNMP 網路流量變數，收集區域網路中的主機所發送以及接收之流量資料，依照該研究所提出之演算法計算各主機之 6 項 SNMP 網路流量變數之間是否有不平衡的情況，找出區域網路中的 ARP 欺騙攻擊發動者與被攻擊者之配對。藉以偵測區域網路中是否有發生 ARP 欺騙攻擊事件。但因這類的網路流量變數比值常隨著不同網路環境和應用程式的不同而有所差異。因此，對於網路環境發生改變或攻擊程式加入混淆偵測系統的封包流量時，其自動調整以符合網路環境現況的能力較為不足。此外，該研究必須針對交換器中所有的連接埠進行計算以找出網路流量變數為最不平衡的攻擊主機與受害主機。在此方法下，對於所需消耗之偵測系統計算資源較為沈重，且由於須找出變數間最不平衡的主機，方可定義為攻擊者。若同一交換器底下同時有多個攻擊者，在此研究架構下是較難被偵測的。. 13.

(21) 基於上述目前之 ARP 欺騙攻擊偵測機制之不足，在監控大規模網路時，建置成本較高昂，且偵測封包內容所需的系統運算資源較多。此外，對於區域網路內環境改變時，無法自動調整以符合需求。因此，本研究提出以網際網路流量為基礎，以資料探勘的分類分析技術，進行 ARP 欺騙攻擊偵測之研究。在本研究中，採用以收集網路設備資訊為基礎之方法，可解決以分析封包為基礎之方法必須使用運算性能較強之偵測主機以及花費高昂的建置成本才可管理大規模網路的困境。而使用資料探勘的分類分析技術，則可自動的產生分類預測模組，對於網路環境的變化有較好的適應力。且不需對於封包內容進行分析，亦可降低偵測主機之運算效能的需求。. 14.

(22) 第三章研究架構本研究中，當 ARP 欺騙攻擊被發動時，我們觀察攻擊主機的網路流量與一般正常使用的電腦所產生的流量有所差異。因此根據此一特性，我們使用資料探勘研究中的分類分析技術，冀望能夠藉著攻擊主機與正常主機所產生之流量其特性間的差異，做為偵測區域網路中是否有 ARP 欺騙攻擊事件發生的分類條件。因此，本研究提出一 ARP 欺騙攻擊偵測的系統架構，如圖 3-1 所示:. 圖 3-1. ARP 欺騙攻擊偵測系統架構. 在此系統架構中，本研究分為兩部份來探討。第一部份為我們預先收集攻擊主機與正常主機所產生之流量做為本研究之訓練資料。在本研究中，我們將偵測 ARP 欺騙攻擊視為一個二分類問題，本系統之分類預測藉由分類分析技術將先前所收集之訓練資料經過分析後，學習得到訓練資料中屬性與類別的關係；當之後偵測系統接收到新的流量資料時，我們便可依據之前所學得之模組對其做分類預測，判斷該筆流量資料是否為. 15.

(23) ARP 欺騙攻擊或使正常的區域網路使用流量。在我們的分類預測模組中，我們分別使用資料探勘研究中分類分析技術的貝氏分類(Naïve Bayesian Classification)、決策樹 (Decision Tree)分類法，以及支援向量機(SVM, Support Vector Machine)分類法做為本研究分類模組之學習演算法。此三種分類分析技術為資料探勘領域中較為普遍使用且學習速度快者。以本研究為例，在 8000 筆訓練樣本資料下，使用 Intel Core 2 T7200 2GHz CPU、2GB RAM、執行 Windows Vista 的主機學習時，所需的訓練時間分別僅需 0.13 秒(貝氏分類法)、0.34 秒(決策樹)以及 0.84 秒(支援向量機)。對於網際網路上在不同網段的各種使用環境下的差異所產生的大量訓練資料，較快的學習速度為必要的需求。. 本研究架構的第二部分為在實際區域網路環境內的自動偵測系統。利用第一部分所建立之預測模組，我們可建立一偵測主機，在遠端即時收集欲監控之區域網路的 SNMP 流量資訊，判斷所收集的流量資料是否為攻擊流量。當偵測到有 ARP 欺騙攻擊發生時，可對網路管理人員發出即時的警告通知，使其能做必要的處理，降低 ARP 欺騙影響之範圍。以下為本研究對偵測系統中所運用之關鍵技術做一說明。. 3.1 SNMP 與實驗變數簡易網路管理協定(Simple Network Management Protocol，簡稱 SNMP)是管理網路上各種裝置的一種 Internet 標準協定[12]。在複雜且龐大的網路環境下，網路管理人員要有效的掌握各路由器(Router)、交換器(Switch)以及伺服器(Server)的狀況並使其維持正常運作並不是一件容易的事情。為了能有效的管理上述之設備，SNMP 協定在 1988 年問世，使網路管理人員可藉其控管任一支援 SNMP 協定之網路設備。. 16.

(24) 在 SNMP 運作的世界中，可分為兩個實體。第一個為管理者(Manager)，通常又稱為網路管理工作站(Network Management Station, NSM)。網路管理人員透過管理工作站對於其管轄之網路設備以輪詢(Poll)的方式，取得各個網路設備的資訊。第二個實體為代理者(Agent)，即是支援 SNMP 協定之網路設備。通常網路管理人員會對其轄下主機在遠端定時的輪詢以取得網路設備的情況，如網路設備之運作是否正常，管轄的區域網路內之網路流量是否有異常狀態等。SNMP 以 User Datagram Protocol(簡稱 UDP)作為管理者與代理者之間遞送資料的傳輸協定，雖然 UDP 為不可靠協定[21]，然而其好處為低虛耗(Overhead)，當我們監控一個有問題的網路時，其可降低對網路效能的影響，且當網路發生問題而使其無法取得資料時，以 UDP 為通訊協定之傳輸便會放棄重複傳送對於網路設備的輪詢封包，不至於不斷的重送造成網路上的封包更加氾濫。. 每一個代理者皆擁有一份其追蹤之待管物件(Managed objects)清單，其內容包含如路由器的資訊、網路設備的狀態…等。該清單所定義之資訊可提供管理者作為查詢代理者狀態之用。管理資訊庫(Management Information Base，簡稱 MIB)為一個存放代理者其所追蹤之待管物件的資料庫，階層性地描述所有待管物件之屬性。所有的代理者皆可實作多種 MIB，不同廠牌的網路通訊設備廠商可針對其產品設計自有特殊的 MIB，其中最為重要也普遍為所有網路設備所接受的為 MIB-II [20]的標準，此標準 MIB 中主要的項目為提供一般網路傳輸管理資訊，例如介面的封包傳輸量或介面是否使用中…等，在本研究中所採用的網路流量變數即為取自 MIB-II 標準的資訊。. 在本研究所使用之六項 SNMP 網路流量變數參考了 M. Carnut and J. Gondim 在其研究[4]中所使用之六項 SNMP 網路流量變數。對於偵測 ARP 欺騙攻擊所使用的方法則採用了資料探勘的分類分析技術，區分出正常使用流量與攻擊流量之間的差異。我們認為當 ARP 欺騙攻擊發動時，該六項 SNMP 網路流量變數將會反應出正常使用者與攻擊者間網路流量上的差異性。而該六項 SNMP 網路流量變數係來自 MIB-II 底下之 Interface 17.

(25) 子樹。Interface 子樹所包含的資訊為網路實體介面在實體層(Physical Layer)之網路設備資訊，如該實體介面網路流量 Byte 數、單一目的地封包數量、非單一目的地封包(包含廣播封包與多重目的地封包)傳輸的數量等其他關於該網路設備之相關資訊。本研究所使用之 6 項實驗變數及其意義如下表 3-1 所示。表 3-1.實驗變數變數名稱 ifInOctets. 變數說明該實體介面發送之所有封包的 Byte 量總合 ifInUcastPkts 該實體介面發送之單一目的封包數量總合 ifInNUcastPkts 該實體介面發送之非單一目的地封包數量總合 ifOutOctets 該實體介面接收之所有封包的 Byte 量總合 ifOutUcastPkts 該實體介面接收之單一目的封包數量總合 ifOutNUcastPkts 該實體介面接收之非單一目的地封包數量總合. 本研究將 SNMP 流量分為流入與流出部分，並分為三種類型，分別為總流量(Byte)、單一目的封包數量以及非單一目的地封包的數量，共 6 個變數。根據相關研究，在 ARP 欺騙攻擊發生時，由於必須先了解區域網路中主機存在的狀況，因此須要發送大量廣播封包以確立攻擊目標，所以在本研究中，我們取用了流出 (ifOutNUcastPkts)與流進 (IfInUcastPkts)該網路介面的 SNMP 網路流量變數來探究此兩變數在本研究之偵測分類模組中，對於區分 ARP 欺騙攻擊流量與正常使用流量的分類效力。. 此外，ARP 欺騙攻擊是利用 ARP 協定設計上的漏洞來騙取受害主機使其封包傳送至中介人(攻擊者)的主機，因此攻擊主機須對區域網路內的受害主機發送 ARP-Reply 封包，藉由將錯誤的 IP 位址與 MAC 位址之對應資訊寫入受害主機的 ARP Table 中，以達. 18.

(26) 到 ARP 欺騙攻擊的效果。由於此種攻擊行為須發送大量的 ARP-Reply 封包，而 ARP-Reply 封包屬於單一目的封包，因此我們也使用 ifInUcastPkts 與 ifOutUcastPkts 作為本研究分類預測模組之分類變數。. 由於目前盛行於網際網路上的攻擊技巧，在其發動攻擊時多半會使網路流量暴增，因此本研究分別使用了流入總流量(ifInOctets)與流出總流量(ifOutOctets)此兩項流量變數來探討當 ARP 欺騙攻擊發動時，是否會如網路蠕蟲病毒(Internet Worm)發作或阻斷服務攻擊(Denial of Service)發動時產生大量的網路流量以影響到正常的網路使用。. 3.2 分類預測模組本研究所提出之 ARP 欺騙攻擊偵測系統中，我們使用目前資料探勘[10][28]研究裡較為常見的三種分類分析技術做為我們的自動學習分類分析預測模組。此三種分類分析技術分別為貝氏分類法、決策樹分類法以及支援向量機分類法，藉由此三種分類分析技術，我們可利用已知類別的訓練資料，分析其資料屬性之值與該類別之關係，建立一分類預測模式，並以該分類預測模式，做為對於新進資料之類別判定。在接下來的小節中，我們將對此三種分類分析技術做更進一步的說明。. 3.2.1 貝氏分類法(Naïve Bayesian Classification) 貝氏分類法的方法[8]是基於統計上的貝氏定理（Bayesian Theorem）[1]： P( H | X ) =. P( X | H ) P( H ) P( X ). P(X) 表示發生 X 事件的機率，P(X|H) 表示在發生 H 事件的情況下發生 X 事件的機率，對於每一個變數計算各類別在訓練資料出現的條件機率下，計算可能發生預測資 19.

(27) 料各類別的機率。最後再評估哪一個類別是對於所有變數的發生的條件機率相對最大者，即為本研究所預測的類別，方法說明如下：假設有 n 個變數則預測資料 X 可表示為 X = (x 1 , x 2 , …, x n ) 假設有 m 個類別為 C 1 , C 2 , …, C m 若對於 P(C i |X) > P(C j |X). for 1≤ i,j ≤ m, j ≠ i. 則貝氏分類法判斷X屬於 C i 類別 P(Ci | X ) =. P( X | Ci ) P(Ci ) P( X ). n. P ( X | Ci ) = ∏ P ( x k | Ci ) k =1. 運用貝氏定理來建構這樣的分類模式在計算上是非常具有效能的。對於網路流量資料，所有的變數都是屬於連續值的屬性的處理，傳統上是將這些預測變數視於高斯分佈（Gaussian Distribution）則所對應的. P( xk | Ci ) = g ( xk , µ Ci ,σ Ci ) =. 1 2π σ Ci. −. e. ( xk − µ C i ) 2 2σ C2 i. 其中μ Ci 代表在連續值屬性C i 類別的平均值σ Ci 代表在連續值屬性 C i 類別的標準差。. 貝氏分類法的方法在建立預測模式與預測判斷的都有很好的效率，特別適用於大量的資料集合上來處理分類的問題，非常合適運用在大量資料和即時性的分類預測判斷，在面臨攻擊事件的發生，偵測系統必須能迅速反應出預測結果。並且在不同的網路環境中，所產生的網路流量也大不相同，必須要能在不同的網路環境下有效的建立出預測模式，總合以上的需求，本研究認為在 ARP 欺騙的偵測模式中，貝氏分類法應是非常合適的選擇之一。. 20.

(28) 3.2.2 決策樹(Decision Tree) C4.5 決策樹(Decision Tree)分類法為 Quinlan 於 1993 年所提出[16]，改良其先前於 1979 年所提出之 ID3 演算法[15]以資訊獲利率(Information Gain)做為節點變數分割依據的缺點，改以資訊獲利率比值(Information Gain Ratio)做為節點變數分割依據，避免 ID3 演算法在決策樹產生的過程中，造成過度配適的問題(Overfitting)。此外，C4.5 亦改良了 ID3 無法使用數值的屬性(Numeric Attribute)變數做為分類依據的缺點。. C4.5 決策樹就如同資料結構中的樹狀結構一般，由根節點向下分枝，除了葉節點外，每個節點代表一個做為分類用途的屬性(Attribute)變數。而葉節點則是經過分類後的資料。建構 C4.5 決策樹的過程是由上而下的，所有的訓練資料由根節點開始，利用資訊獲利率比值計算資料中，所有的屬性何者為最大者，選其做為當下節點的分類變數。若訂定之規則為使用過的屬性可再做為接下來的分類變數，則繼續計算所有屬性的資訊獲利率比值，選出最大者做為下個節點的分類變數。若屬性不可重複出現，則剔除已經使用過之屬性，在剩餘屬性中選出資訊獲利率比值做為分類變數。如此不斷的進行上述步驟，直到該節點下之資料分類皆相同或無法提高該節點的資訊獲利率比值為止。. 在 C4.5 中，利用修剪(Pruning)技巧，我們可以將多餘或者是無效的分枝節點去除，藉以避免決策樹產生過度配適(Overfitting)的問題。而修剪的方法可分為在樹的建構過程中同時進行修剪(事前修剪，Pre-pruning)或者在決策樹建構完成以後進行修剪(事後修剪，Post-pruning)。使用事前修剪時，當該節點的錯誤率達到我們所設定的標準時，則停止該節點的增長。而事後修剪則是找出已建立完成的決策樹中，捨棄錯誤率達到預設標準的節點子樹。在本研究中，我們所使用的資料探勘軟體 Weka 即是採用了改良自 C4.5 決策樹演算法的 J48 決策樹分類法[27]。. 21.

(29) 3.2.3 支援向量機(Support Vector Machine) 支援向量機(SVM, Support Vector Machine)分類演算法[2][5]是根據結構風險最小化原理(Structural Risk Minimization principle)[24]所發展出來的資料探勘分類技術。在 SVM 中，我們希望能夠在一群資料分布的向量空間中，找出一超平面(Hyperplane)。此超平面可將資料分為兩類(Positive 資料與 Negative 資料)，並且讓此一超平面之兩端邊界距離為最大，與最近的資料之間距離最小[3]。如圖 3-2 所示:. 圖 3-2.支援向量機超平面示意圖. 在圖 3-2 中，虛線兩側的兩條平行實心直線之間即為超平面。在圖右邊所找出之超平面其邊際距離較左邊之超平面為大，所以我們認為右邊所找出之超平面有較好的分類效果。因此，此一超平面我們可以寫成下列等式: →→ w⋅ x − b = 0 → → 特徵向量 x 代表被分類的樣本，向量 w 以及常數b是經由線性可分割的訓練資料學習而 → → 來。D = {(yi , xi )}表示為訓練樣本資料的集合，yi ∈{±1}是 xi (+1 為Positive資料，-1 為 → Negative資料)的分類，SVM的演算法試圖去找出一個能滿足下列兩個限制式的 w 與b: 22.

(30) →→ w ⋅ xi − b ≥ +1 for yi = +1 →→ w ⋅ xi − b ≥ −1 for yi = −1 → 並且使 w 為最小。然而並非所有的資料都可以理想的分為兩群，因此SVM演算法不僅可以解決線性可分割的資料集，亦可藉由將原始的資料向量對應到較高維度的向量空間，使得資料的分布在新的向量空間中可以讓超平面以線性分割的方式達到分類的目的。. 在本研究中使用前述三種分類法的考量為訓練時間以及判斷時間的效率。在目前的網路環境下，由正常使用者所產生之流量或由攻擊者產生之流量都是一個龐大的數量，為了能應付大量的網路流量資料，我們選用此三種分類法作為本研究之分類預測學習模組之學習演算法。而此三種分類法應用於判斷時，亦各有其優點。貝式分類法可建立一條件機率模型，該條件機率模型可使我們快速分類網路攻擊事件。決策樹分類法則可產生出 if-else 般的分類規則，易於我們在其訓練後將其建置於偵測系統中，且對於攻擊流量與正常流量之分類時間亦短。而支援向量機分類法則是可訓練出二次函數分類模型，此種分類模型應用於本研究中的網路流量分類亦有良好的分類速度。. 23.

(31) 第四章實證評估本章將針對我們所提出之 ARP 欺騙攻擊偵測模組進行實證評估，以驗證本研究所提出之 ARP 欺騙偵測系統在不同取樣時間間隔之效能差異。本評估分別使用了網路流量資料取樣時間間隔為一分鐘、三分鐘以及五分鐘之資料，對本研究的偵測系統之分類分析模組中的決策樹分類法、支援向量機分類法以及貝式分類法分別進行驗證。藉以了解本研究所提出之偵測系統能否有效的判別區域網路中，是否有 ARP 欺騙攻擊行為發生。此外，亦會針對本研究所採用之 6 項 SNMP 網路流量變數進行評估，檢視在 6 項網路流量變數中，在本研究所提出之偵測系統的分類預測重要性。. 4.1 實驗數據收集由於考量到在真實的網路環境下，對於網路設備進行 SNMP 流量資料的輪詢收集，不僅占用頻寬，且會增加我們所欲監控之網路設備以及監控主機的系統負擔。因此，若過於頻繁的輪詢收集 SNMP 流量資料，將導致網路設備將其系統資源浪費在資料收集的輪詢上，如此反而導致網路設備的系統效能下降。為了評估在不同時間間隔對於本研究所提出之系統的偵測效能的影響，並探究在不同時間間隔下，偵測模組的預測準確性變化。在本研究中，我們在蒐集流量的間段內分別以一分鐘、三分鐘以及五分鐘為單位，同時收集三組 ARP 欺騙攻擊以及正常使用之 SNMP 流量資料做為我們訓練與測試的資料集。以一分鐘為單位之資料分別包含了 4000 筆攻擊流量資料。以三分鐘為單位之資料集包含了 1333 筆攻擊流量資料。而以五分鐘為單位之攻擊流量資料則有 800 筆。為了避免因為評估資料的集合中，正常使用與攻擊流量資料量上不對稱而在分類分析時所造成的偏差，在本研究中，我們採用與攻擊流量資料相同數量的正常流量資料。. 24.

(32) 本研究的攻擊流量資料收集係由一架設於一個有 256 個 IP 位置的子網路內的攻擊主機所產生。該攻擊主機所使用的 ARP 欺騙攻擊程式為真實發生於高雄大學校內 ARP 欺騙攻擊事件時，由網際網路上之入侵者所植入的惡意軟體。我們備份了該惡意軟體，將該惡意軟體安裝於本研究所架設之攻擊主機上使其執行。在攻擊資料收集的期間內，該實驗區域網路環境中，同時存在一般正常使用之主機與裝有惡意軟體之攻擊主機，本研究使用該攻擊主機對其所處之區域網路內的所有主機發動 ARP 欺騙攻擊。在攻擊發生時，我們收集該主機所有的流進與流出相關的 6 項 SNMP 網路流量變數。. 為使本研究所使用的訓練樣本資料貼近真實網路環境之流量，本研究中所使用的正常流量，為收集自高雄大學校園內學生宿舍區域網路之網路流量。我們對於學生宿舍網路之交換器，收集其轄下每部主機所有的流進與流出相關的 6 項 SNMP 網路流量變數。此外，為了模擬真實網路管理的環境，我們收集攻擊流量與正常流量的監控主機則是以遠端擷取的方式對該區域網路的交換器作 SNMP 查詢以及資料收集。避免因為監控主機與攻擊主機處於相同區域網路內，遭受攻擊而導致所收集之的流量資料有所偏差。. 4.2 效能評比指標本研究中，我們使用資料探勘領域中分類分析常用的三項指標:遺漏率(Missing Rate)、誤報率(False Alarm Rate)以及準確率(Accuracy)做為我們提出之 ARP 欺騙攻擊預測模組的效能評比依據。此三項指標的定義如下:. 25.

(33) 預測 ARP 攻擊. 非 ARP 攻擊. ARP 攻擊. A. B. 非 ARP 攻擊. C. D. 真實. B 遺漏率 = A + B. ，. C 誤報率 = A + C. ，. A+ D 準確率 = A + B + C + D. 遺漏率之意義為真實攻擊流量中，有多少筆資料被我們的攻擊預測分類模組判斷為正常流量。誤報率則為在真實狀況下，有多少筆流量資料為正常之網路流量，卻被我們的攻擊預測分類模組判斷為攻擊流量而對網路管理人員發出警報。而準確率的目的在於評估本研究之攻擊預測分類模組對於網路流量偵測分類為正常流量或者攻擊流量的判斷結果為正確之比率。在這三個指標中，遺漏率與誤報率是互補的評估指標，當我們降低遺漏率盡可能的找出所攻擊流量時，往往也因判別條件寬鬆而誤把正常流量當作為攻擊流量因而提高了誤報率；反之降低誤報率時也會造成較多的攻擊流量無法被正確找到而提高了遺漏率。為了客觀的反應三種不同的分類技術之效能，本研究同時使用此三種效能評比指標作為其效能評比依據。. 4.3 實驗結果為求實驗結果準確，本研究對於所收集到的資料皆使用十摺交叉驗證法(10-Fold Cross-Validation)[26]在不同的資料探勘技術中加以驗證。十摺交叉驗證法其為將我們所收集的資料隨機分成資料筆數相同的十組資料集合。每次的實驗取其中的一組資料做為測試資料，其餘九組做為訓練資料，如此形成一摺實驗資料組。且十組資料集合依序作. 26.

(34) 為測試資料，因此共有十次資料組。最後，將十次資料組之實驗結果取平均值作為本研究之最終實驗結果，以免造成一次實驗或隨機取樣所產生的偏差。下表 4-1 所示為一分鐘之實驗結果。表 4-1.一分鐘之實驗結果正確率遺漏率. 誤報率. 決策樹. 99.79%. 0.3%. 0.13%. 貝式分類. 61.28%. 0.8%. 43.59%. 支援向量機. 91.35%. 15.38%. 2.25%. 以一分鐘為資料收集時間間隔之實驗結果顯示，決策樹分類法之表現最為良好，準確率達 99.79%，且遺漏率與誤報率分別僅為 0.3%以及 0.13%。亦即在 100 筆資料中，若使用決策樹分類法，則有 99.79 筆流量資料可正確判斷其為攻擊流量亦或正常使用之流量，而僅有 0.3 筆攻擊流量會被誤判為正常使用的流量，0.13 筆正常使用的流量會被誤認為攻擊流量。而其次為支援向量機，其準確率稍差，為 91.35%，但遺漏率則高達 15.38%亦即每 100 筆攻擊流量中，有 15.38 筆會被偵測系統忽略為正常流量而未發警報。其誤報率則為 2.25%。在此時間間隔單位中，表現較差者為貝式分類法，其準確率僅有 61.28%，遺漏率尚可為 0.8%，而誤報率則高達 43.59%，每 100 筆正常流量中有 43.59 筆會被我們的分類模組誤認為攻擊流量而發出警報。此結果顯示貝式分類法在一分鐘為時間間隔時，其傾向於將正常流量資料判斷為攻擊流量，也因此使其準確率大為降低。我們推測，這是由於貝氏分類其前提假設所有的變數間皆為獨立互不影響，且每個變數對於分類結果之影響的權重值皆相等。然而在本研究所使用的 6 個流量變數，其間並不為完全相互獨立。且對於判斷是否為攻擊流量時，其變數對於分類結果之權重應不相等。因此貝氏分類在以一分鐘為資料收集時間單位時，其分類預測準確度較其他兩種分類法為差。. 27.

(35) 表 4-2.三分鐘之實驗結果正確率遺漏率. 誤報率. 決策樹. 99.96%. 0%. 0.07%. 貝式分類. 99.32%. 0.53%. 0.82%. 支援向量機. 99.77%. 0%. 0.45%. 當以三分鐘為資料收集時間間隔時，三種分類技術之準確率皆提升至 99%以上，遺漏率與誤報率也皆降至 1%以下，顯示在此時間間隔下，此三種分類預測模組已經能明顯區分出攻擊流量與正常使用流量其間的差異性。此外，決策樹與支援向量機更是不會忽略攻擊流量而導致區域網路中有 APR 欺騙攻擊發動但偵測系統未發出警報的情況。由此實驗結果，我們可以推測在本研究的實驗數據中，貝式分類法與支援向量機分類法其準確率隨取樣時間間隔之影響較決策樹分類法為明顯。表 4-3.五分鐘之實驗結果正確率遺漏率. 誤報率. 決策樹. 99.94%. 0%. 0.12%. 貝式分類. 99.60%. 0.75%. 0%. 支援向量機. 100%. 0%. 0%. 當資料取樣時間間隔拉長至五分鐘時，其分類準確性已經與在以三分鐘為資料取樣時間間隔時無明顯差異，在正確率、遺漏率以及誤報率三項評比指標之結果皆屬優異。在我們的實驗數據中，此三種分類技術在資料收集時間為 5 分鐘的單位下已經可以接近完全準確的判斷網路流量資料為正常使用流量亦或攻擊流量。. 整體而言，在三種分類方法中以決策樹分類法之表現最佳，其次為支援向量機分類法，而貝氏分類法較差。因此，對於偵測 ARP 欺騙攻擊，本研究建議以決策樹演算法較為適用。此外，我們發現當取樣時間單位間隔越長，則預測分類之準確率越高，且誤報率以及遺漏率也逐一下降。我們推測，這是由於在以一分鐘為取樣時間單位時，一般. 28.

(36) 正常使用者之網路流量與攻擊者之網路流量的差距較小，然而隨著取樣時間間隔拉長，攻擊者之網路流量數據之增加較正常使用者之網路流量有明顯之差距，所以在以三分鐘為取樣時間單位時，三種分類方法之準確率皆已達到 99%以上。因此，根據上述之實驗結果顯示，我們以決策樹分類法所建構的模型針對 ARP 欺騙攻擊之偵測有很好的偵測效果。此外，考量對於攻擊事件之反應時間以及在大型區域網路內所需的系統資源需求下，我們建議以三分鐘為偵測系統之網路流量取樣時間間隔，可顧及偵測系統之準確率又不至大量的消耗網路設備之系統資源。. 此外，本研究希望能更進一步的了解在研究中所提出的六個實驗變數在分類預測模組中的分類預測效力，本研究使用資訊獲利率比值(Information Gain Ratio)來計算在分類預測中，這六個不同的變數的重要排名程度(Rank)，其排序結果如表 4-4 所示。. 表 4-4.變數重要程度排序一分鐘排名. 變數名稱. 1 ifOutNUcastPkts 2 ifOutOctets 3 ifOutUcastPkts. 三分鐘排名. 變數名稱. 1 ifInNUcastPkts 2 ifOutNUcastPkts. 五分鐘排名. 變數名稱. 1 ifInNUcastPkts. 3 ifOutOctets. 2 ifOutNUcastPkts 3 ifOutOctets. 4 ifInUcastPkts 5 ifInNUcastPkts. 4 ifOutUcastPkts 5 ifInUcastPkts. 4 ifOutUcastPkts 5 ifInUcastPkts. 6 ifInOctets. 6 ifInOctets. 6 ifInOctets. 表 4-4 中，由左至右分別為以一分鐘、三分鐘以及五分鐘為資料收集時間間隔之變數重要程度排序。排名數字越小，表示其重要程度越高。由表中可見，在以三分鐘以及五分鐘為資料收集時間間隔時，其變數重要程度之名次排序是相同的。亦呼應了前述之實驗結果，在三分鐘以及五分鐘時，其分類預測結果趨於穩定。而一分鐘之變數重要排名次序雖與三分鐘以及五分鐘不同，然而仔細若觀察變數重要排名次序，可發現在排名. 29.

(37) 前三重要的變數中，一分鐘之結果與三分鐘以及五分鐘之結果在三個變數中有兩個是相同的。而在三種取樣時間間隔內，六個變數中對於分類結果之影響最不明顯的皆為 ifInOctets，其代表區域網路內傳送至交換器該網路介面之單位時間內總流入封包 Bytes 量，亦即是該主機所發出的單位時間內總封包 Bytes 數量。這顯示當 ARP 欺騙攻擊發動時，並不會如同其他種類的網路阻斷攻擊如 DoS 攻擊發動時，會產生大量的網路流量。這與目前許多網路管理人員的評估攻擊事件的觀測並不相符。因此，若是單以網路流量的總 Bytes 數來做為偵測的依據將可能會造成偏誤。此外，在三分鐘與五分鐘的變數重要程度排序中第一名的 ifInNUcastPkts，其代表該網路介面於單位時間內流出之非單一目的地封包的總量，藉此我們可以推測 ARP 欺騙攻擊發動時，其所發出之廣播封包數量大於正常使用者所發出之廣播封包數量。且隨著資料收集時間間隔的增長，流量變數 ifInNUcastPkts 在攻擊流量的各項變數中其分類效力較其餘五項變數更為明顯。所以，我們認為該變數對於 ARP 欺騙攻擊之偵測而言是一項重要的分類變數。. 30.

(38) 第五章結論與未來研究雖然網路設備已經由過去之集線器改為現今常使用之交換器，然而區域網路中之竊聽以及欺騙等攻擊行為亦隨之改良與興盛。因此，本研究以網際網路流量為基礎，以資料探勘的分類分析技術，提出了 ARP 欺騙攻擊偵測之研究。改善了過去網路管理人員由於需將偵測主機架設於區域網路內，且單一區域網路即需一台網管偵測主機，致使對於監控大規模網路之不便與成本高昂。且本研究之網際網路流量資料之收集，僅需一般支援 SNMP 協定之網管設備，亦可減輕偵測系統之成本上的負擔。而利用資料探勘之分類分析技術，我們不需對於封包內容進行分析比對，亦可降低對偵測系統之運算資源的需求。再者，資料探勘之分類分析技術可讓本研究自動建立分類預測模組。. 此外，本研究以決策樹、貝式分類以及支援向量機三種演算法作為我們的分類預測學習模組，並且收集實際網路傳輸資料作為我們實證評估之實驗數據。在我們的研究結果顯示，決策樹演算法之分類效果為最佳，其在一分鐘、三分鐘以及五分鐘之資料收集時間單位下，準確率皆高於 99%，而誤報率以及遺漏率亦皆低於 0.5%，有相當良好之表現。而支援向量機演算法之效能次之，貝式分類演算法在三者中為效果較差者。本研究亦發現，在三種資料收集時間單位中，以一分鐘為單位時，本研究之分類預測模組之分類效力稍差，然而當資料收集時間單位拉長至三分鐘以及五分鐘後，實驗結果趨於穩定，顯示本研究所提出之偵測系統較不容易受資料取樣之時間間隔所影響。而為了平衡對攻擊事件之反應時間以及較高的攻擊事件預測準確性，本研究建議可採用三分鐘做為偵測系統的資料取樣時間單位。. 為了使本研究的 ARP 欺騙攻擊偵測系統能因應迅速變化的網路環境以及未來可能發生的變種 ARP 欺騙攻擊行為，因此我們提出兩種重新訓練 ARP 欺騙攻擊預測分類模組的時機。此兩種重新訓練時機分別為(1)常態性重新訓練與(2)事件性重新訓練。常態 31.

(39) 性重新訓練之重新訓練時機為定期性，可依照該偵測主機所管轄之網路規模大小做為重新訓練之時間間隔依據。若該偵測主機管理的網路規模較大時，則重新訓練之時間間隔較長，以減低偵測主機之系統資源負擔。反之，若所管轄之網路規模較小時，則重新訓練之時間間隔則可縮短，藉由頻繁的訓練獲得新的網路流量資料型態以降低偵測系統之誤判率。就另一方面事件性重新訓練之時機則是動態的。當區域網路中新增主機、伺服器新增服務或者網路管理員得到新型態的攻擊行為出現的相關資訊時，則重新訓練我們的分類預測模組，使其可獲得較新的正常與攻擊流量資料型態，保持其判斷 ARP 欺騙攻擊之分類準確性。. 本研究使用之攻擊實驗數據雖為實際資料，但其為在一實驗區域網路內產生，未來之研究將嘗試在一般使用之區域網路內，收集真實攻擊事件發生時之流量做為研究之實驗數據，以便獲得更真實之驗證結果。並且由於本研究此次所使用之 ARP 欺騙攻擊程式僅有一種，為避免本實驗之偵測系統所學習得到之分類模組過於配適(Overfitting)由此攻擊程式所產生之流量資料，在將來的研究中，我們可以收集由更多種不同的攻擊工具所產生之 ARP 欺騙攻擊流量，藉以驗證本研究所提出之偵測系統對於 ARP 欺騙攻擊偵測的效能。此外，在本研究僅針對 ARP 欺騙攻擊進行探究，未來可嘗試以本研究所提出之架構對於不同型態之攻擊行為，如字典攻擊、DoS 攻擊與 DDoS 攻擊等進行偵測，藉以驗證本研究中所提出的偵測系統架構對於具有特殊性網路流量特徵的其他網路攻擊技術是否仍具有預測效能。. 32.

(40) 參考文獻 1. Bernardo, J.M. and Smith, A.F.M., “Bayesian theory”, Measurement Science and Technology, 2001. 2. Boser, B.E., Guyon, I.M. and Vapnik, V.N., “A training algorithm for optimal margin classifiers”, Proceedings of the fifth annual workshop on Computational learning theory, ACM New York, NY, USA, p. 144-152, 1992. 3. Burges, C.J.C., “A tutorial on support vector machines for pattern recognition”, Data mining and knowledge discovery, p. 121-167,1998. 4. Carnut, M.A. and Gondim, J.J.C., “ARP spoofing detection on switched ethernet networks: A feasibility study”, Proc. 5th Simposio Seguranca em Informatica, San Jose, 2003. 5. Cortes C. and Vapnik V. N., “Support vector networks,” Machine Learning, p. 273-297, 1995. 6. Droms, R., “Dynamic host configuration protocol”, RFC 2131, 1997. 7. Fewer, S., “ARP Poisoning: An investigation into spoofing the Address Resolution Protocol”, Harmony Security, 2007. 8. Gelman, A., “Bayesian data analysis” , CRC press, 2004. 9. Gordon, L.A., et al., “CSI/FBI Computer crime and security survey”, COMPUTER SECURITY JOURNAL, p. 1, 2006. 10. Han, J., Kamber, M., “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. 11. Kumar, S., “Impact of Distributed Denial of Service (DDoS) Attack Due to ARP Storm” , ICN, p. 997–1002, 2005 12. Mauro, D.R. and Schmidt, K.J., “Essential SNMP”, O'Reilly, 2001. 13. Plummer, D., “An Ethernet address resolution protocol”, RFC 826, 1982 14. Postel, J., “Internet protocol”, RFC 791, 1981. 15. Quinlan, J.R., “Induction of decision trees”, Machine learning, p. 81-106, 1986. 16. Quinlan, J.R., “C4. 5: programs for machine learning”, Morgan Kaufmann. 1993. 17. Ramachandran, V. and Nandi, S., “Detecting ARP spoofing: An active technique”, Lecture Notes in Computer Science, p. 239, 2005. 18. Socolofsky, T. and Kale, C., “TCP/IP Tutorial”, RFC 1180, 1991. 19. Spangler, R., “Packet Sniffing on Layer 2 Switched Local Area Networks”, Packetwatch Research, 2003. 20. Stallings, W., “SNMP, SNMPv2, SNMPv3, and RMON 1 and 2”, Addison-Wesley Longman, 1998. 21. Stevens, W.R., “TCP/IP illustrated: the protocols”, Addison-Wesley Longman, 1993.. 33.

(41) 22. Sumit D., “Switch Sniff”, Linux Journal, 2002. 23. Trabelsi, Z. and Shuaib, K., “Spoofed ARP packets detection in switched LAN networks”, ICETE 2006, CCIS 9, p. 81–91, 2006. 24. Vapnik, V.N., “The nature of statistical learning theory”, Springer, 2000. 25. Wagner, R., “Address resolution protocol spoofing and man-in-the-middle attacks”, The SANS Institute, 2001. 26. Weiss, S.M. and Kulikowski, C.A. “Computer systems that learn: classification and prediction methods from statistics, neural nets, machine learning, and expert systems“, Morgan Kaufmann, 1991. 27. Witten, I.H. and Frank, E., “Data Mining: Practical Machine Learning Tools and Techniques”, Morgan Kaufmann, ISBN 0-12-088407-0, 2005. 28. 丁一賢、陳牧言， “資料探勘”，滄海書局，ISBN 986-7777-98-0，2005。 29. 楊文龍，“基於 SNMP 之 ARP 攻擊偵測研究”， TANet2008，2008。 30. 蕭漢威、吳宗儒、劉則明、曾金山、梁明章，”惡意程式自動更新行為分析之研究”， TANet2008，2008。 31. 蕭漢威、張思揚、吳宗儒，“以網路流量分析 ARP 欺騙攻擊之研究”，TANet2008， 2008。. 34.

(42)