資料整理及過濾

第三章潛藏殭屍電腦偵測方法與系統架構

第二節資料整理及過濾

(1) 2-hop 網路連線記錄蒐集

在本研究的實驗設計中，會蒐集受監控網域內的所有網路流量記錄，但由於受監控網域內的連線記錄過於龐大，同時在研究假設前提為已知有一殭屍電腦的 IP 位址，而本研究目的是找出受監控網域內，與已將殭屍電腦共同連線至相同 命令與伺服主機之潛藏殭屍電腦，因此使用 2-hop 的網路連線記錄，蒐集由已知 殭屍電腦與外部網域的連線，再由這些連線清單找出和受監控網域內其他電腦主

機之連線，如此可以大幅縮減網路連線記錄的數量，同時也會聚焦於和已知殭屍電腦相關之連線記錄上，縮減後的連線記錄對於進行後續之關聯法則演算法，也能避免產生不符合本研究期待之關聯規則。

本研究在網路流量記錄蒐集的過程中，由於已知一個殭屍電腦的IP網路位址 (IPA)，所以先由此殭屍電腦做為起點，從網路連線紀錄找出網際網路中與該殭 屍電腦相互連線的IP位址清單列表(IP_B、IP_C)，若藉由網路連線所形成的網路拓墣圖中，將每個IP位址視為相異之結點，而所取得的IP位址清單則是距離已知殭 屍電腦(IP_A)一個結點(1-hop)距離，亦可視為由已知殭屍電腦的IP位址(IP_A)向外拓展一個結點，如圖 7 所表示。

圖7 1-hop 網路連線記錄蒐集示意圖

透過圖 8 中第一階段的 1-hop網路連線記錄蒐集後，可以得到已知殭屍電腦 (IPA)的完整連線對象清單(IPB、IPC)，再利用該清單找出受監控網域內所有與其 連線的主機電腦。若以網路拓墣圖形來看，等若由已知殭屍電腦(IP_A)為起點，

找出所有距離為 2 個結點(2-hop)之路徑，因此由已知殭屍電腦(IPA)為起點且距 離為 2-hop的節點必為受監控網域內的電腦主機(IP_D、IP_E、IP_F)，如圖 8 所示。

圖8 2-hop 網路連線記錄蒐集示意圖

在集中式殭屍網路架構中，所有殭屍電腦皆會連線至命令與控制伺服主機，

等候殭屍網路控制者的命令下達，因此透過蒐集 2-hop 距離的網路連線記錄，可 以找出監控網域內的電腦主機與已知殭屍電腦共同連線到相同伺服主機上的明確資料，所以若網域內有潛藏殭屍也會因為網路連線記錄而被偵測發現。

(2) 白名單(Whitelists)過濾

原始的網路連線資料在進行前述 1-hop 以及 2-hop 距離的過濾時，皆會利用 白名單進行更進一步的過濾合法 IP 位址的動作，因為若受監控網域內的網路連線資料量相當龐大，因此所蒐集的網路連線資料將會過於繁雜，勢必會影響後續關聯法則運算的處理時間，因此本研究採用 Alexa.com 網站的統計資料[1]，該網站擁有全球與各國的網頁瀏覽人數排名，本研究從中分別選取全世界和台灣地區排名前十的網域名稱做為白名單過濾的依據，如表 3 所示。

表 3 連線記錄過濾名單[1]

全球台灣

排名網站名稱網域排名網站名稱網域

1 Google google.com 1 Yahoo! yahoo.com

2 Facebook facebook.com 2 Facebook facebook.com

3 YouTube youtube.com 3 Google google.com 物籃分析(Market Basket Analysis)即是一常見之關聯法則應用。超市對顧客消費紀錄資料庫進行關聯法則探勘，把每位顧客當次結帳的商品內容視為一筆交易資

在文檔中以關聯法則偵測集中式潛藏殭屍之研究 (頁 26-29)

第三章 潛藏殭屍電腦偵測方法與系統架構

第二節 資料整理及過濾

第三章潛藏殭屍電腦偵測方法與系統架構

第二節資料整理及過濾