建立偵測模組的方法 - 以網路資料探勘技術偵測隱藏惡意網站之研究

本研究的目標就是想要找出網路上正在活動的惡意程式下載網站，而具體的方法就

是將網際網路上的網站正確的區分成正常的網站以及惡意程式下載網站。故本研究利用 NetFlow 網路流量資料進行彙整，將正常的網站與惡意網站在時間上與空間上行為特徵的相關變數資料彙整成資料探勘的分類變數，再透過分類分析方法建立惡意程式下載網站偵測模組。在分類分析法部分，本研究基於訓練及分類判斷時所需的時間成本考量，

採用了下列三種分類方法：貝氏分類法(Naïve Bayesian)、決策樹分類法(Decision Tree) 與支援向量機分類法(Support Vector Machine)。

NetFlow 變數彙整部份，依據本研究第三章惡意網站行為分析結果，惡意網站每次連線所傳輸的資料大小並不固定，且變化頻繁，而網路上亦有入口網站、拍賣網站、軟體下載網站等各式網站，使得正常網站的流量資料亦無一定的規則特徵，因此單純以 NetFlow 變數進行資料探勘的分類分析，並無法將網站的流量之中的惡意網站流量資料與正常網站流量資料輕易地區分出來，故本研究提出以參照的區域性(Locality of Reference)概念進行 NetFlow 資料的彙整，以突顯該惡意網站在行為上的特徵。其中參照的區域性可分為兩大類，時間性與區域性[13]：

z 空間區域性意義：

依據參照的區域性在空間上的特性，若一個點發生過參照，則在其空間相近的其他點較為容易發生相同的參照現象。而該惡意程式以 ARP 攻擊為感染手段，

當一區域網路(LAN, Local Area Network)內會有電腦主機受到感染後，會試圖以 ARP 欺騙攻擊的手法在區域網路內部試圖感染其他電腦主機，感染行為之範圍僅限於該區域網路內，故當區域網路內有受感染主機出現時，同一區域網路內便較為容易出現其他受感染之主機，使得感染現象出現網路區域上的群聚性，而所有受感染的主機皆會連上惡意網站進行更新，意即惡意網站流量將具有網路上的空間區域性。

然而在網際網路上 IP 位址的分佈與實體的地理空間區域分佈並無直接關聯，所以很難定義出 IP 位址的空間區域性[28]，但在網路 IP 位址分配時，通常會以相鄰網路位元址的方式分配給同一單位元，是故本研究以 IP 位址相近之 IP 視為空間相鄰之關係。而本研究採用由高雄大學校園網路核心路由器上所蒐集之 NetFlow 流量資料，其下連線接取單位為各行政單位、教學單位、研究單位及學

生宿舍等數十單位之網路，受限於無法得知所有下轄各級單位之所有 IP 網段詳細分切方式，故本研究以學術網路最常見之網段劃分方式做為彙整資料的依據，

所有網段的分割皆以子網路遮罩(Netmask)為 255.255.255.0 做為單一區域網段之劃分。

z 時間區域性意義：

依據參照的區域性在時間上的特性，最近發生過的一件事，在未來的相近時間範圍內較為容易再次重複發生。該惡意程式感染一台電腦主機後該主機會開始試圖感染區域網路內所有主機，其動作都在相近的時間點發生，而被同網段被感染之主機受感染時間點將極為相近，在此同時網段內所有受感染的主機包括本身皆會於相近的時間點多次的嘗試連往惡意網站進行惡意程式更新，故該惡意程式更新行為亦具有時間的區域性，意即惡意網站流量將具有時間的區域性。

依據上述的流量空間區域性及時間區域性之定義，本研究根據第三章所研究之惡意網站行為特徵進行空間區域性、時間區域性、時間區域性結合空間區域性之變數彙整資料，並且以單以 NetFlow 變數的彙整方法作為對照組。

z 依據 NetFlow 變數彙整之預測變數：

本研究從骨幹路由器的 NetFlow 資料中過濾出 HTTP 連線的部分作為研究資料，而目的為偵測尋找惡意網站的連線。因此在 NetFlow Version 5 資料格式中，

本研究採用了 Flow 起始時間、Flow 結束時間、Flow 來源 IP 位址、Flow 目標 IP 位址、Flow 的 Byte 數量、Flow 的封包數量等資料屬性作為分類變數彙整依據，

基於第三章中所陳述的這類惡意程式的行為特性反應，這些流量的資料屬性對於鑑別正常網站與惡意網站時是重要的，依據選用的 NetFlow 資料屬性我們可以加以彙整成為各個分類模組的變數。

為建立作為對照組的 NetFlow 變數彙整偵測模組(在此簡稱為對照組模組)，

本研究以電腦主機 IP 對應全球資訊網網站 IP 作為連線彙整基礎，將相同之來源與目的的 Flow 資料以每十分鐘為時間單位加以彙整，彙整了八個流量變數作為預測變數，如表 4-2，第一個欄位名稱為變數名稱，為本研究提出的對照組模組

預測變數，第二個欄位為變數說明，解釋該模組之變數所代表的意義。

表 4-2. 單以 NetFlow 變數彙整之流量變數

變數名稱說明

累計之封包 byte 數 Octets

累計之封包數 Pkts

累計之 Flow 數 Flows

平均每筆 Flow 之封包 byte 數 OctetsPerFlows

平均每筆 Flow 之封包數 PktsPerFlows

平均每個封包之 byte 數 OctetsPerPkts

平均每筆 Flow 之封包 byte 數的標準差 OctetsPerFlows_std

平均每筆 Flow 之封包數的標準差 PktsPerFlows_std

由於惡意程式的更新行為啟動時會依照惡意程式列表內容做為更新行為依據，使得更新行為所產生的流量具有某些固定的流量行為特徵模式，與網際網路上其他正常網站的流量特徵應有所不同，因此本研究彙整了前述的八個變數，其中為了呈現出惡意網站連線在單位時間內在傳輸量上的特徵，本研究挑選了累計單位時間的 Octets、Pkts、Flows 數量的三個預測變數。為了呈現出惡意網站連線在每筆 Flow 的特徵所以設計了 OctetsPerFlows 及 PktsPerFlows 兩個預測變數，

而挑選 OctetsPerPkts 預測變數則是為了呈現單位時間內每個封包的平均大小的流量特徵；最後為了呈現出每筆 Flow 在 Octets 數及 Pkts 數量上的變化差異，所以本研究設計了 OctetsPerFlows_std 以及 PktsPerFlows_std 兩個標準差的預測變數。

z 依據空間區域性彙整之預測變數：

根據第三章觀察惡意程式更新行為的發現，惡意程式具有以下之行為：受惡意程式感染之電腦主機會在其所在之區域網路內發動 ARP 欺騙攻擊，以中間人攻擊 (Man-in-the-Middle Attack)的手法在其他電腦主機的 HTTP 連線回傳資料中加入含有惡意網站連結的 iframe 資料，引導在同區域網路內的其他電腦主機連到惡意網站，並透過瀏覽即下載(Drive-by Download)的方式將惡意程式值入到訪客

的電腦裡。

因此在本研究中，為建立空間區域性變數彙整偵測模組(在此簡稱為空間模組 ) ，本研究依據前述的網路空間區域性定義，以子網路遮罩 (Netmask) 為 255.255.255.0 的網路大小範圍進行空間變數之彙整，故變數彙整時是以網路位址 (Network ID)對應全球資訊網網站 IP 作為連線彙整的來源與目的基礎，例如:客戶端高雄大學資管系網段 140.127.220.0 內所有流向伺服端 Google 搜尋網站 IP 72.14.235.99 連線，將相同之來源與目的的 Flow 資料以每十分鐘為時間單位加以彙整，彙整了七個流量變數作為預測變數，如表 4-3，第一個欄位名稱為變數名 S_Octets

同網段內累計之封包數 S_Pkts

同網段內累計之 Flow 數 S_Flows

同網段內平均每筆 Flow 之封包 byte 數 S_OctetsPerFlows

同網段內平均每筆 Flow 之封包數 S_PktsPerFlows

同網段內平均每個封包之 byte 數 S_OctetsPerPkts

同網段內有 HTTP 連線活動的 IP 中，有連到網站 IP 比例 S_ActiveIP_ratio

在上述變數中， S_Octets 、 S_Pkts 、 S_Flows 、 S_OctetsPerFlows 、 S_PktsPerFlows、S_OctetsPerPkts 等六個預測變數與對照組模組用意一樣，皆為了呈現流量，其差異僅為彙整連線單位不同，目的為呈現網站連線的 NetFlow 流量在前述定義的網路空間上的行為特徵；而 S_ActiveIP_ratio 預測變數則是為了加強呈現該網站在該客端網段內同時被連結的空間行為特徵。

z 依據時間區域性彙整之預測變數：

根據第三章觀察惡意程式更新行為的發現，惡意程式具有以下之行為：在受

感染主機至收集 NetFlow 資料之路由器間具有充足頻寬的條件下(意即受感染主 T_Session_length

Session 中累計之封包 byte 數 T_Octets

Session 中累計之封包數 T_Pkts

Session 中累計之 Flow 數 T_Flows

Session 中平均每筆 Flow 之封包 byte 數 T_OctetsPerFlows

Session 中平均每筆 Flow 之封包數 T_PktsPerFlows

Session 中平均每個封包之 byte 數 T_OctetsPerPkts

Session 中平均每筆 Flow 之封包 byte 數的標準差 T_OctetsPerFlows_std

Session 中平均每筆 Flow 之封包數的標準差 T_PktsPerFlows_std

除了彙整的時間長度與起始時間定義不同外，其變數彙整與對照組模組一樣，為呈現惡意網站連線在 Session 時間內在傳輸量上的特徵，所以採用了累計 Session 時間內累計的 T_Octets、T_Pkts、T_Flows 數量的三個預測變數；為了呈

現出在該 Session 裡意網站連線在每筆 Flow 的特徵所以採用 T_OctetsPerFlows 及 T_PktsPerFlows 兩個預測變數，而使用 T_OctetsPerPkts 預測變數則是為了呈現 Session 時間內每個封包的平均大小的流量特徵；最後為了呈現每個 Session 每筆 Flow 在 Octets 數及 Pkts 數量上的變化差異，所以本研究比照對照組模組設計了 T_OctetsPerFlows_std 以及 T_PktsPerFlows_std 兩個標準差的預測變數。

z 結合時間區域性及空間區域性彙整之預測變數：

根據參照的區域性的定義，可分為兩大類，即空間區域性及時間區域性，而這兩種參照的區域性在定義上並不互相衝突影響，故本研究提出結合時間區域性及空間區域性的流量變數彙整概念，並且建立偵測模組進行效能之評估。

為建立結合時間區域性變數與空間區域性變數彙整偵測模組(在此簡稱為時空混合模組)，本研究直接將時間模組與空間模組變數相結合，彙整了十六個流

在文檔中以網路資料探勘技術偵測隱藏惡意網站之研究 (頁 30-37)