內含攻擊類型

第二章文獻探討

2.5 資料集簡介

2.5.2 內含攻擊類型

此資料集中包含了四十一種特徵如表 2-5，四大類型的攻擊，分別是 Dos、

Probe、U2R、R2L。表 2-6 中列出本研究中選定使用的資料集的基本資訊。訓練資料集中共計 22 種攻擊類型，總資料筆數為 494,021 筆資料；在測試資料集中計有22 種攻擊類型，總資料筆數為 4,898,431 筆資料。

表2-5：KDD Cup’99 資料集特徵值列表 No Feature name No Feature name 1 Duration 22 Is_guest_login 2 Protocol_type 23 Count

3 Service 24 Srv_count 4 Flag 25 Serror_rate 5 Src_bytes 26 Srv_serror_rate 6 Dst_bytes 27 Rerror_rate 7 Land 28 Srv_rerrot_rate 8 Wrong_flagment 29 Same_srv_rate 9 Urgent 30 Diff_srv_rate 10 Hot 31 Srv_diff_host_rate 11 Num_failed_logins 32 Dst_host_count 12 Logged_in 33 Dst_host_srv_count 13 Num_compromised 34 Dst_host_same_srv_rate 14 Root_shell 35 Dst_host_diff_srv_rate 15 Su_attempted 36 Dst_host_same_src_port_rate 16 Num_root 37 Dst_host_srv_diff_host_Rate 17 Num_file_creations 38 Dst_host_serror_rate

18 Num_shells 39 Dst_host_srv_serror_rate 19 Num_access_files 40 Dst_host_rerror_rate 20 Num_outbound_cmds 41 Dst_host_srv_rerror_rate 21 Is_host_login

表2-6：資料集資訊統計表正常連線

資料筆數

攻擊連線資料筆數

資料集檔案大小

攻擊型態種類數分類模組訓練

使用資料集 97,278 筆 396,743 筆 75MB 22 種分類模組測試

使用資料集 972,781 筆 3,925,650 筆 743MB 22 種

在此資料集當中包含了許多由多種不同攻擊方式所產生的入侵資料，但依其各自的攻擊手法，和入侵方式本質上的差異，可歸納為DoS、Probe、U2R、R2L 四種主要攻擊類別，並簡單介紹如下[2][28]：

（1） DoS（Denial of Services）：攻擊目的是迫使提供服務的伺服器停止、

無法繼續提供相關的服務。攻擊手法有二：一是頻寬耗竭方式

（Bandwidth Consumption），利用發送大量封包至特定伺服主機端，或利用異常中斷三方交握（Three Way Handshake）過程等其他多種方式，

企圖消耗受害端的可用網路頻寬，致使提供服務的伺服主機無法接收正常要求服務的連線請求，導致終止提供服務。例如：ping of death、syn flooding、smurf。二是資源耗盡方式（Resource Starvation），攻擊行為企圖耗竭受害端計算機系統硬體的可用資源（如 CPU 時間、記憶體空間等等），造成伺服主機發生當機情況，使其無法繼續提供相關的命令及服務，藉而中斷所提供的服務。

（2） Probe：嚴格來說，此型態的網路行為模式不會對系統造成直接的威

脅與傷害並不能算是真正的入侵攻擊行為，但其主要的目的是在於蒐集主機的相關訊息，例如：探測主機端提供了哪些服務、開放了哪些通訊埠（port）、所使用的作業系統類型和版本，以及在系統上具有哪些尚未補強的弱點…等系統資訊，隨後便根據此些資料決定攻擊方法和攻擊切入點。然而，同樣的，此步驟卻也是弱點資料庫建立的第一個步驟。

雖然試探動作本身並不會對被試探端系統造成傷害，但此舉是在為後續可能發動的攻擊行為探路，是各種攻擊發動前不可或缺的前奏，雖然 probe 本身不會對系統造成直接的威脅與傷害，但為了維持系統安全，

仍然有偵測此探測動作的需要。

（3） U2R （User to Root）：此類攻擊即指受權限控管的一般使用者試圖非法取得電腦系統管理員（super user、root）的最高系統使用權限。此種攻擊又可分成兩類：一是受限制使用者透過遠端電腦連線來取得伺服主機或另一部計算機系統的管理員權限；二是受限制使用者於本機端直接企圖要取得該電腦系統管理員的權限。此攻擊是經由合法或非法獲得的一般使用者權限，配合利用緩衝區溢位（buffer overflow）等技巧，設法得到比自己原有存取權限更高的系統操作權限。要完成此類攻擊，攻擊者除了必須具備相當的攻擊技巧之外，仍需對作業系統本身的設定和可能的防護弱點擁有足夠的背景知識方可達成。

（4） R2L （Remote to Local）：這類型的攻擊就是指遠端的使用者企圖取得本地端電腦系統的存取權限甚至是控制權。通常入侵攻擊者都是利用一些網路服務的漏洞（網路服務系統本身的弱點、程式撰寫者的疏忽所造成的可乘之機等等）來進行不合法的行為。在發現可利用的使用者帳號或是不適當的使用者、系統設定後，試圖非法登入主機進行破壞或是資料修改、盜竊。此類攻擊同U2R 一樣，除了網路封包技巧的應用外，

另需配合對系統的錯誤設定與軟體弱點的深度了解。

表2-7 列出訓練資料集和測試資料集中，正常連線及 4 大攻擊類別其中所含

有的各類網路攻擊型態詳細的攻擊次數統計表。其中Probe 類別共有 4 種網路攻擊型態、DoS 類別含有 6 種攻擊型態、U2R 類別含有 4 種攻擊型態、R2L 類別含有8 種攻擊型態，資料集中共包含 22 種攻擊型態。表 2-8 根據表 2-7 的數據，

計算並列示出訓練資料集和測試資料集中，4 大攻擊類別內含資料量在整個資料集中所各自佔有的資料比例。

表2-7：資料類別及各類網路攻擊次數統計表

攻擊類別攻擊類型訓練資料集測試資料集

NORMAL normal 97,278 972,781

ipsweep 1,247 12,481 nmap 231 2,316

portsweep 1,040 10,413

PROBE

satan 1,589 15,892

back 2,203 2,203

land 21 21

neptune 107,201 1,072,017

pod 264 264

smurf 280,790 2,807,886

DoS

teardrop 979 979 buffer_overflow 30 30

loadmodule 9 9

perl 3 3 U2R

rootkit 10 10

ftp_write 8 8

guess_passwd 53 53

imap 12 12

multihop 7 7

phf 4 4 spy 2 2 warezclient 1,020 1,020 R2L

warezmaster 20 20

表2-8：訓練、測試各類資料統計表

訓練資料集資料比例測試資料集資料比例 Normal 97,278 19.6911% 972,781 19.8590%

Probe 4,107 0.8313% 41,102 0.8391%

DoS 391,458 79.2391% 3,883,370 79.2778%

U2R 52 0.0105% 52 0.0011%

R2L 1,126 0.2279% 1,126 0.0230%

Total 494,021 100% 4,898,431 100%

圖2-4：訓練資料集攻擊型態各佔比例圖

圖2-5 測試資料集攻擊型態各佔比例圖

圖2-4 以及圖 2-5 是根據表 2-8 所列示的數據繪製成各攻擊型態在訓練資料集和測試資料集中所佔比例的子母圓餅圖。可由這兩張圖表可以觀察統計的數據後發現KDD Cup’99 資料集其實是一個差異很大，資料不平衡的樣本集。造成樣本不平衡的原因是由於 Dos 攻擊往往藉由傳送大量網路封包至受害端的方式，

耗竭受害端的電腦資源、網路頻寬。所以 Dos 攻擊過程中需要大量的網路封包來達成其中斷主機服務的目的；而 U2R 和 R2L 兩種攻擊是利用系統本身的漏洞，或是利用使用者權限設定或軟體設定上的錯誤，進而非法取得攻擊所需的系統使用權限。所以這兩種攻擊僅消耗少量網路頻寬及可達成其入侵攻擊之目的；

至於Probe 攻擊通常僅是駭客用來做為攻擊發起前的準備動作，也不需大量的網路封包。在真實的網路連線裡，正常網路連線不可能像此資料集只有20%的資料量，這是由於KDD Cup’99 資料集建置的目的是用來評估入侵偵測系統的效能，

因此在實驗模擬環境過程中加入了大量的網路攻擊連線。

在上述KDD Cup’99 資料集所提出的原始 41 個總特徵值集合中，又可依據網路連線特性和萃取方式的不同，再加以詳細整理、區分成三個不同的特徵值群組[41]，而其中各個特徵的內含值又分為連續性（continuous）的數字資料和非連續性（discrete）的文字資料，各特徵群組內容分述如下：

（1） Intrinsic features：此類型網路連線特徵值群組主要是網路封包之基本特性。即為與網路連接有關的一般性訊息，也就是基本TCP 網路連線的固有特徵，例如連線時所使用的通訊協定（protocol）、連線請求的網路服務（service）類型、傳送封包中的旗標（flag）、來源端傳送至目的端之資料位元數等等。表 2-9 列出此類網路連線基本特徵群組所包含的特徵值名稱、簡單敘述與資料型態。

表2-9：基本 TCP 網路連線特徵群組列表

feature name Description type duration length （number of seconds） of the connection continuous protocol_type type of the protocol, e.g. tcp, udp, etc discrete service network service on the destination, e.g., http,

telnet, etc discrete

src_bytes number of data bytes from source to destination continuous

dst_bytes number of data bytes from destination to source continuous flag normal or error status of the connection discrete land 1 if connection is from/to the same host/port; 0

otherwise discrete

wrong_fragment number of “wrong” fragments continuous urgent number of urgent packets continuous

（2） Time-base features：指以時間區隔為萃取基礎之網路連線特徵。由於 Dos 攻擊行為即是在短時間內發送系統無法負荷的服務請求連線，致使該服務中斷，而某些網路掃描行為為了避免遭到入侵偵測系統的檢測感知，會利用某個時間間隔來進行系統資訊探測動作。而這個特徵群組是根據事先給定的時間視窗（time window），或是在事先定義好的過去連線數目之內，往回推算過去連線情況，核對與所接收到的連線請求來自同樣的來源端，或是反覆要求存取相同服務內容的連線數量（在 KDD Cup’99 資料集中使用 2 秒時間視窗和 100 連線回溯數 [41]）。因而此一類型之網路連線特徵群組能有效偵測網路掃描行為以及可能即將發生的 DoS 攻擊。表 2-10 列出此類以時間為基礎之網路連線特徵群組所包含的特徵值名稱、簡單敘述與資料型態。

表2-10：以時間為基礎之網路連線特徵群組列表 feature name Description Type

number of connections to the same host as the current connection in the past two seconds count

Note: The following features refer to these same-host connections.

Continuous

serror_rate % of connections that have “SYN” errors Continuous rerror_rate % of connections that have “REJ” errors Continuous same_srv_rate % of connections to the same service Continuous diff_srv_rate % of connections to different services Continuous

number of connections to the same service as the current connection in the past two seconds srv_count

Note: The following features refer to these same-service connections.

Continuous

srv_serror_rate % of connections that have “SYN” errors Continuous srv_rerror_rate % of connections that have “REJ” errors Continuous srv_diff_host_rate % of connections to different hosts continuous

（3） Content features：指以封包搭載內容（payload）為萃取基礎之網路連線、特徵；又以統計學分析整理可分出 Host-base features。此類特徵由Stolfo 等學者[28]，利用本身相關的背景知識所定義出來，其中包含了分析封包本身可能搭載的部份內容資訊，藉以找出在服務請求過程中的可疑行為，例如作業系統本身所提供的錯誤回報、或是超級使用者（super user、root）在登入時的錯誤登入次數等等。因而此一網路連線特徵群組能有效偵測 U2R 及 R2L 類型的入侵攻擊行為，亦可增加主機型入侵偵測系統（HIDS）在本機端的入侵偵測能力。表 2-11 列出Content、表 2-12 列出 Host-base 網路連線內容基礎特徵群組所包含的特徵值名稱、簡單敘述與資料型態。

表2-11：以 Content 為基礎網路連線特徵群組列表 feature name Description Type hot number of “hot” indicators Continuous num_failed_logins number of failed login attempts Continuous logged_in 1 if successfully logged in; 0 otherwise Discrete num_compromised number of “compromised” conditions Continuous root_shell 1 if root shell is obtained; 0 otherwise Discrete su_attempted 1 if “su root” command attempted; 0

otherwise Discrete

num_root number of ”root” accesses Continuous num_file_creations number of file creation operations Continuous num_shells number of shell prompts Continuous num_access_files number of operations on access control files Continuous num_outbound_cmds number of outbound commands in an ftp

session Continuous

is_hot_login 1 if the login belongs to the “hot” list; 0

otherwise Discrete

is_guest_login 1 if the login is a “guest” login; 0 otherwise Discrete

表2-12：以 Host-base 為基礎網路連線特徵群組列表 feature name Description Type

number of connections to the same host as the current connection in the past two seconds

dst_host_count

Note: The following features refer to these

Continuous

在文檔中中華大學 (頁 34-44)

第二章 文獻探討

2.5 資料集簡介

2.5.2 內含攻擊類型

第二章文獻探討