以關聯法則偵測集中式潛藏殭屍之研究

全文

(1)國立高雄大學資訊管理學系碩士班碩士論文. 以關聯法則偵測集中式潛藏殭屍之研究 A Study of Detecting Hidden Centralized BotNet Using Association Mining Approach. 研究生：侯翔齡撰指導教授：蕭漢威博士. 中華民國一○一年七月.

(2) 致謝光陰似箭，看著自己親手完成的碩士論文，內心充滿許多感觸，對於即將畢業的我而言，這是在高雄大學度過的第三個年頭，數不清在校園內看過多少次的日出與日落，高大校園的美好將永遠存在我的內心。經過碩士這段過程的訓練，首先最該感謝指導教授─蕭漢威老師，碩士論文研究不但充實我的學識，老師的諄諄教誨與循循善誘更深深影響了我；更感謝技術組的王學亮老師、楊新章老師和丁一賢老師，各位老師對於論文閱讀上的指點，對我受用甚多；同時感謝高大資管其他老師，如：郭英峰老師、陶幼慧老師…… 等老師，不論在課堂上亦或私底下，老師們的身教言教都在我心中萌芽，讓我在碩士其間收穫甚豐；最後，感謝口試委員─陳灯能老師與林杏子老師，感謝老師抽空閱讀學生的碩士論文，更提供寶貴的意見讓我的碩士論文盡善盡美。碩士就讀期間，接觸了許多人事物，感謝 Amo、Sasaki、政哲、綠茶、豆豆、阿翻、暉哥、小高、宛真和小古諸位學長姐，感謝諸位平時的關心與教導，更感謝各位對當初我任性決定的包容；感謝阿珊、筱萱、維尼、仲膺、小賈、聖獸和正妹各位同學，因為各位讓我的碩士生活更多采多姿；感謝小芋、家葳、杰嚕米、銀伶、轉轉、東鉅、建任、蕭維、靖雅、卡咪和煜彥各位學弟妹，感謝各位再碩士論文其間的體諒與協助；感謝蕭家的所有學長和學弟，各位不斷鼓勵和打氣成為我完成碩士論文的內心支柱；感謝實驗室的大夥，我將永遠懷念那段愉快的飯後休閒時光；最後感謝各位親朋好友，因為你們的祝福才讓我更具面對困難的勇氣。最後，感謝我的父母和家人，因為你們在我背後的全力支持，才譨讓我心無旁騖的追逐自己的理想，謝謝你們！侯翔齡謹誌於國立高雄大學 Lab211 資料工程與網路管理實驗室 2012 寧夏. II.

(3) 以關聯法則偵測集中式潛藏殭屍之研究指導教授：蕭漢威博士國立高雄大學資訊管理學系. 學生：侯翔齡國立高雄大學資訊管理學系碩士班. 摘要網際網路已成為生活中不可或缺的一部分，各式各樣的網際網路應用服務不斷地被推出，但是隨著網路技術的進步，許多網路攻擊手法也隨之進化，進而衍生出許多新型態的網路攻擊模式，其中殭屍網路就是其中一種值得研究重視之議題。在殭屍網路中，攻擊者會遠端操控受害主機，可以短時間內下達命令給所有殭屍電腦，發動大規模的聯合攻擊行動，近年來有許多研究報告指出殭屍網路攻擊已經造成許多企業的損失，然於先前相關的殭屍網路偵測技術研究大多著重於已開始活動的殭屍網路電腦做為偵測對象，對於處於潛伏期的潛藏殭屍電腦則探討較少。有鑑於此，本研究提出一個以關聯法則資料探勘技術分析流量資料方式為基礎的偵測方法，希望利用一個已被偵測出的殭屍網路電腦，延伸探勘出網域中其他尚處於潛伏期之潛藏殭屍電腦，透過兩者皆會連線至命令與控制伺服主機的集中式殭屍網路特性，因彼此之間網路連線的關聯性，以偵測網域中其他尚處於潛藏狀態的殭屍電腦。本研究於國立高雄大學網路環境內架設一個潛藏殭屍網路偵測系統，以目前真實存在的殭屍網路入侵程式，實證評估本研究所提出的偵測模式對於潛藏殭屍電腦之偵測效能，其結果證實能夠有效地偵測出潛藏殭屍網路中的受害電腦，相信本研究的成果在未來進行相關類似的研究時，能夠做為重要的參考依據。關鍵詞：殭屍網路偵測, 潛藏殭屍, 網路安全, 資料探勘, 關聯法則. III.

(4) A Study of Detecting Hidden Centralized BotNet Using Association Mining Approach Advisor: Dr. Han-Wei Hsiao Department of Information Management National University of Kaohsiung. Student: Hsiang-Ling Hou Department of Information Management National University of Kaohsiung. ABSTRACT Internet has become an indispensable platform in our life, many Internet applications services have been constantly release. However, with the advances in network technology, many of the network attack techniques are also evolved. Among new types of network attack patterns, the impact of malicious network attack is one of the issues which people care about the most. Attackers could remote control the victim host in BotNet, and command all BotNet computers to launch a large-scale cooperative attacks in short time. In recent years, many research results have mentioned BotNet attack caused a serious damage to many enterprises. However, in previous researches about BotNet detection techniques tend to focus on started as a detection object, but they could not have good performance to detect the hidden BotNet computers in the incubation period. Therefore, this research proposes a detection mechanism to analyze the traffic data based on the association mining approach. To mining the hidden BotNet computer in the network environment which is still in the incubation period. The centralized BotNet characteristic is that BotNet computers would connect to the same command and control server, so we could find out the BotNet computers in the hidden state with the association of their connections. This research builds up a detection system on the campus of National University of Kaohsiung, and uses the real existing BotNet program to evaluate the hidden BotNet detection performance of our detection module. The results show that our proposed mechanism has well performance to uncover hidden BotNet, and we believe this research could be an important reference for future studies that investigate the issue of hidden BotNet detection. Keyword: BotNet Detection, Hidden BotNet, Network Security, Data Mining, Association Rule Mining IV.

(5) 目錄第一章. 緒論............................................................................................................ 1. 第一節. 研究背景............................................................................................ 1. 第二節. 研究動機............................................................................................ 3. 第三節. 研究目的............................................................................................ 4. 第二章. 文獻探討.................................................................................................... 6. 第一節. 殭屍網路............................................................................................ 6. 第二節. 殭屍網路偵測技術............................................................................ 9. 第三章. 潛藏殭屍電腦偵測方法與系統架構...................................................... 17. 第一節. 潛藏殭屍電腦偵測系統架構.......................................................... 17. 第二節. 資料整理及過濾.............................................................................. 19. 第三節. 關連法則演算法.............................................................................. 22. 第四節. Apriori演算法 .................................................................................. 26. 第五節. 關聯規則結果之歸納...................................................................... 29. 第四章. 實證與評估.............................................................................................. 31. 第一節. 實證方法.......................................................................................... 31. 第二節. 時間間隔與n值調整對於偵測效能之影響.................................... 34. 第三節. 支持度與信賴度對於偵測效能之影響.......................................... 36. 第四節. 實驗結果討論.................................................................................. 38. 第五章. 結論與未來方向...................................................................................... 40. 參考文獻...................................................................................................................... 43. V.

(6) 圖目錄圖 1 殭屍網路自動化入侵感染模式............................................................................ 7 圖 2 集中式殭屍網路結構............................................................................................ 8 圖 3 誘捕網路架構圖.................................................................................................. 10 圖 4 殭屍網路控制者偵測誘捕系統之方法.............................................................. 11 圖 5 系統網路架構...................................................................................................... 18 圖 6 潛藏殭屍電腦偵測系統流程圖.......................................................................... 19 圖 7 1-hop網路連線記錄蒐集示意圖 ........................................................................ 20 圖 8 2-hop網路連線記錄蒐集示意圖 ........................................................................ 21 圖 9 n值在支持度、信賴度皆為 20%時對前n項準確率之影響 ............................. 35 圖 10 n值在支持度、信賴度皆為 10%時對前n項準確率之影響 ........................... 35. VI.

(7) 表目錄表 1 結至 2011 年 12 月全球網路使用人口 ............................................................... 2 表 2 殭屍網路偵測技術分類..................................................................................... 16 表 2 連線記錄過濾名單............................................................................................. 22 表 3 網路通訊原始封包資料..................................................................................... 23 表 4 連線記錄簡化..................................................................................................... 24 表 5 流量交易資料..................................................................................................... 24 表 6 Apriori演算法C 1 與L 1 之範例.............................................................................. 27 表 7 Apriori演算法C 2 與L 2 之範例.............................................................................. 28 表 8 Apriori核心演算法[29] ....................................................................................... 29 表 9 混淆矩陣(Confusion Matrix) ............................................................................. 33 表 10-1 支持度對於偵測準確率之影響(信賴度=20%) ........................................... 36 表 10-2 支持度對於偵測準確率之影響(信賴度=80%) ........................................... 36 表 11-1 信賴度對於偵測準確率之影響(支持度=10%) ........................................... 37 表 11-2 信賴度對於偵測準確率之影響(支持度=30%) ........................................... 37. VII.

(8) 第一章. 緒論. 近年來，由於資訊科技的快速發展，使得個人電腦與網際網路越趨普及，但是科技的進步同時也帶來不少隱憂，其中殭屍網路就是一種常見之網路攻擊。而殭屍網路是一群控制權遭到他人挾持之電腦，且彼此透過網際網路進行聯繫，同時藉由四通八達的網路進行感染傳播，攻擊者可利用龐大的殭屍網路在遠端遙控進行惡意的攻擊行為，針對商務網站發動聯合攻擊，使得這些網站無法提供服務，由於感染殭屍網路的電腦多數沒有徵兆，一般使用者通常不知道電腦主機已經遭到感染，成為攻擊者遠端控制下的傀儡，因此殭屍網路的偵測成為小至企業組織，大至國家政府都相當重視的議題之一。基於上述理由，本研究以關聯法則為基礎，建置一個能夠偵測潛藏殭屍電腦和命令與控制伺服主機(Command and Control Server, C&C Server)之系統。本章首先介紹研究背景與研究動機，探討目前網際網路上的殭屍網路的行為，以及可能會造成的影響或損失，接著說明本研究之目的。. 第一節研究背景由於資訊科技的快速進步，越來越多人利用網際網路進行電子商務、檔案傳輸、資料搜尋、網頁瀏覽、社群交友等日常活動，所以網際網路已經成為人們生活中不可或缺的一部份。根據 Internet World Stats 統計資料顯示[19]，截至 2011 年 12 月，全球的網際網路使用人口已經超過 22 億大關，從 2000 年至今更成長了 528.1%，這表示網際網路對於人類日益重要。但是網際網路的高度流通性不只帶來便利的生活，同時也產生許多早期網路社會從沒出現過的問題，例如網路攻擊就是其中一個受到廣泛討論的議題，網路攻擊的目的大多著重於攻擊受害電腦主機導致無法順利運作、竊取個人隱私資料。除此之外，攻擊者在入侵受害電 1.

(9) 腦主機後植入惡意程式進行遠端操縱，遭到入侵挾持的電腦會依照攻擊者的指令進行下一步攻擊程序，這樣的感染攻擊流程可視為簡易的殭屍網路。. World Internet Usage and Population Statistics December 31, 2011 Population. Internet Users. Internet Users. Growth. (2011 Est.). Dec. 31, 2000. Latest Data. 2000-2011. World Regions Africa. 1,037,524,058. 4,514,400. 139,875,242. 2,988.4%. Asia. 3,879,740,877. 114,304,000. 1,016,799,076. 789.6%. Europe. 816,426,346. 105,096,093. 500,723,686. 376.4%. Middle East. 216,258,843. 3,284,800. 77,020,995. 2,244.8%. North America. 347,394,870. 108,096,800. 273,067,546. 152.6%. Latin America / Carib.. 597,283,165. 18,068,919. 235,819,740. 1,205.1%. 35,426,995. 7,620,480. 23,927,457. 214.0%. 6,930,055,154. 360,985,492. 2,267,266,742. 528.1%. Oceania / Australia World Total. 表 1 結至 2011 年 12 月全球網路使用人口[19]. 然而，攻擊者常利用殭屍網路進行分散式阻斷服務(Distributed. Denial of. Service, DDoS)、發送垃圾信(Spam)以及竊取他人隱私資訊(Private Information) 等攻[4]。攻擊者透過已被攻陷的殭屍電腦，向某一網路位址送出大量的連線請求，造成目標端網路頻寬、運算資源耗盡，無法回應其他合法連線請求，達到分散式阻斷服務攻擊之目的；而垃圾信是指未經收信人許可而強行塞入收件人信箱的電子郵件(Email)，信件內容除了廣告文章，攻擊者還會添加惡意聯結在內，若利用殭屍網路，將可以達到大規模的自動化發送垃圾信攻擊；最後，攻擊者成功入侵感染受害主機後，除了植入控制程式外，更會竊取系統內的隱私資訊，或是側錄使用者於主機上的輸入資訊，作為未來金融性犯罪之用。. 根據賽門鐵克(Symantec Corporation)的安全報告中指出[28]，全世界每日會有將近 596 億封垃圾電子郵件於網際網路之間發送，其中因為殭屍網路而產生的數量佔了 76.6%，平均每部遭受感染之殭屍電腦會在每分鐘寄出 162 封垃圾信件， 2.

(10) 而這些殭屍網路估計由 1000 到 99 萬不等的殭屍電腦所組成，而台灣地區因殭屍網路所發送出的垃圾郵件數量佔全球 2.4%。同時台灣也是一個感染殭屍網路控制程式和遭受殭屍網路攻擊盛行的國家之一[11]，台北遭到植入惡意控制程式的殭屍電腦數量是全世界最多的城市，其數量約占全世界總額的 5%，由此可看出殭屍網路具有相當大的破壞力，且台灣各級單位的電腦主機可能都曾被植入殭屍網路惡意程式，若網管人員能夠在目標網域內偵測殭屍電腦是否存在，必定可以降低災情的擴大。. 第二節研究動機殭屍網路除了具備龐大的攻擊能量之外，亦有越來越多不為人知的殭屍網路特性不斷產生，例如殭屍網路的潛伏期(Incubation Period)[17]，這些因素增加網路管理人員對於偵測殭屍電腦的困難度，故如何從網路環境中利用網路連線紀錄有效地偵測尚處於潛伏期殭屍電腦，在殭屍電腦開始進行大規模網路攻擊前能盡早偵測發覺，降低可能造成的損失並增加網際網路的穩定性，已經成為一大困難的挑戰。. 當受害主機遭到入侵並植入惡意控制程式後，殭屍網路控制者(Botmaster) 並不會立即要求該受害主機進行大量的網路攻擊行為，但是在這個期間該受害主機仍然會持續找尋具有相同弱點的其他主機並試圖感染之，由於沒有產生大量的惡意攻擊行為，因此該受害主機的行為與一般正常主機幾無差別。而生物流行疾病的傳染可以做為殭屍網路的入侵傳播很好的類比項目[18]，因此以疾病傳播為例，當某人已遭受感染流行疾病，且與他人之間產生過於頻繁的接觸會導致疾病的傳染，大多數疾病都具有潛伏期，在這段期間病患不會產生任何症狀，身體狀況與正常人幾無差異，但是仍然會默默地將疾病傳染給他人，而有研究[16]發現殭屍網路入侵傳播如同疾病傳染一般具有潛伏期特性。 3.

(11) 然而殭屍網路的惡意攻擊行為層出不窮，當潛藏在受害主機中時，除了持續入侵感染其他受害主機，亦會竊取受害主機端的隱私資料，以 Coreflood 殭屍網路為例，Coreflood 殭屍網路已經存在將近十年，全球超過 40 萬台電腦主機被 Coreflood 殭屍網路惡意程式所感染，該程式會記錄電腦上的按鍵輸入與私人通訊內容，至少有 8000 組銀行帳戶密碼以及 3000 組信用卡個人隱私資訊遭到竊取 [8], [26]。雖然該殭屍網路已被美國執法單位偵破，但仍無法保證該殭屍網路完全消失於網路中，因此如何能夠在殭屍網路發動大規模攻擊前，盡早偵測出這些會危害網路環境以及個人隱私資訊的潛藏殭屍電腦，必定能減輕受災範圍的災情以降低損失。. 本研究試圖利用關聯法則資料探勘技術，從已知受害端的網路傳輸資訊，找出潛在的殭屍電腦以及命令與控制伺服主機，然而本研究的偵測對象為集中式架構之殭屍網路，而此類型之殭屍網路內必定存在一命令與控制伺服主機，所有殭屍電腦皆連線至該網路節點上，命令與控制伺服主機之用途是作為殭屍網路控制者發送控制指令的媒介，同時因為所有殭屍電腦共同連線到相同的命令與控制伺服主機，因此本研究企圖建立一個潛藏殭屍電腦偵測系統，透過關聯規則演算法自動化地從龐大的網路流量記錄中，分析過濾出可能的殭屍電腦，期望能具備偵測發現尚處於潛伏期殭屍電腦之能力，降低因殭屍網路展開惡意攻擊可能造成的損失。. 第三節研究目的目前用來偵測殭屍網路的技術中，根據 Zhu 等人(2008)[30]的研究，可分為誘捕網路(Honeynet)與流量監控(Traffic Monitoring)兩大類別。運用誘捕網路偵測技術的系統，需要利用各種誘捕工具建置出誘捕網路環境，被動地等待殭屍網路 4.

(12) 的入侵攻擊並記錄相關入侵資訊，目前有許多工具可用來建置蒐集惡意攻擊之環境，但是鮮少有自動化追蹤殭屍網路的功能。除此之外，殭屍網路控制者具有反偵測技術[29]，確保所入侵的電腦主機並非誘捕系統(Honeypot)，因此利用誘捕網路技術來偵測殭屍網路，除了需要耗費大量時間和人力成本進行資料的整理分析，還會因為殭屍網路控制者的反偵測技術而處處受限。然而以流量監控為主的偵測技術，蒐集受監控網域內的網路流量資訊，當殭屍電腦所產生惡意攻擊，如掃描(Scanning)、發送垃圾信和分散式阻斷服務等等，利用統計分析(Statistic Analysis)或資料探勘(Data Mining)方法，從網路流量資料中分析過濾出可疑的殭屍網路成員。. 然而以流量資料為主的殭屍網路偵測技術[5], [6], [27], [13]，透過流量資料各項特徵值的變化，利用合適的探勘分析方法就能夠具備偵測能力，故本研究之研究目的是利用關聯法則資料探勘技術為基礎，自動化地建立潛藏殭屍偵測系統模組，試圖從一個已知的受害者之中，找到可能的命令與控制伺服主機，進而發現其他潛藏的受害殭屍電腦，以期能夠協助網管人員在得知一個殭屍電腦後進行相關網路威脅偵查，降低因殭屍網路攻擊可能造成的損失。. 本論文架構為五個章節，第一章主要描述研究背景以及研究的動機目的；第二章敘述殭屍網路與殭屍網路相關偵測技術之研究；第三章內容為實驗之系統架構以及實驗所採用的研究方法；第四章為實驗後採用的驗證方式與評估結果；第五章為結論與未來研究方向。. 5.

(13) 第二章. 文獻探討. 在本研究中主要探討殭屍網路相關研究，主要有殭屍網路的完整定義以及重要的特性，其中包含殭屍網路的分類，並且說明本研究採用集中式架構之殭屍網路的原因。最後，本章將介紹過去偵測殭屍網路的方法，說明這些偵測技術運作情形以及可能遭遇到得困難處。第一節探討何謂殭屍網路與常見殭屍網路架構與入侵感染流程。第二節探討目前與殭屍網路偵測相關的種類與技術，分別紹介紹利用誘捕網路與網路監控進行殭屍網路偵測的技術，並說明這些偵測技術主要的限制與遭遇到的難題。. 第一節殭屍網路殭屍網路是由一群遭受入侵且受到他人控制的電腦所組成，每一台遭受入侵攻擊而淪陷的電腦皆被攻擊者植入相同的惡意控制程式[21]，這些遭到植入惡意控制程式的電腦稱為「殭屍電腦」，且殭屍電腦會透過相同的通訊協定進行溝通與訊息傳遞，由這些電腦所形成自有的網路結構稱為「殭屍網路」。Rajab 等人 (2006)[22]發現殭屍網路的入侵感染模式具有一定的順序流程，以圖 1 說明。. 6.

(14) 5. Command. IRC Server. Botmaster. DNS Server BotNet. 5. Command 4. Join Internet. 1. Exploit. 3. DNS Lookup. 2. Bot Download Vulnerable Host. 圖1 殭屍網路自動化入侵感染模式[22]. 殭屍網路控制者會先利用殭屍網路中的殭屍電腦找尋網路上有缺陷的主機 (Vulnerable Host)，透過特定的攻擊方式嘗試對受害主機進行入侵攻擊，入侵成功後再受害主機植入惡意控制程式。當惡意控制程式順利執行後，受害主機會向 DNS(Domain Name Server)伺服主機詢問命令與控制伺服主機的 IP 位址(IP Address)，然後和命令與控制伺服主機進行連線，至此受害主機已成為殭屍網路的一員。. 殭屍網路控制者透過命令與控制伺服主機操縱所有殭屍電腦，而在殭屍網路中存在一或多個命令與控制伺服主機，殭屍網路控制者透過命令與控制伺服主機將指令發佈給殭屍電腦，而所有和命令與控制伺服主機維持連線的殭屍電腦收到指令後則會產生相對應的動作。所以在殭屍網路架構中可大致分成三種身分，分別為操控整個殭屍網路運作且可以下達命令的殭屍網路控制者、做為控制指令傳遞的媒介角色之控制與命令伺服主機，以及負責執行指令的龐大殭屍電腦群。. 目前常見的殭屍網路為集中式(Centralized)殭屍網路，根據 Cooke 等人(2005) 7.

(15) 的歸納[7]，集中式殭屍網路中會有一到數個網路節點專職訊息的交換傳遞工作，也就是殭屍網路中的命令與控制伺服主機，而功能在於提供一個指令下達給殭屍電腦的監控平台，其架構如圖 2。. Botmaster Command. C&C Server BotNet Command. Command. Command Bot. Bot Bot. Attack. Attack Attack Victim. 圖2 集中式殭屍網路結構. 在此種架構中，命令與控制伺服主機大多使用 IRC 通訊協定(Internet Relay Chat Protocol)[20]，原先 IRC 的設計目的是提供一個可以在網際網路中一對一或一對多傳遞訊息的服務，因此使用者必須先登入 IRC 伺服主機，選擇想要進入的頻道(Channel)後才能與相同頻道的其他使用者進行通訊，這樣的架構與現今的聊天室網站如出一轍，使用者一樣必須先連線到聊天室網站，然後再選擇要進入的聊天室頻道。. 在集中式殭屍網路中，殭屍網路控制者需要先選定命令與控制伺服主機與頻道，讓所有殭屍電腦和命令與控制伺服主機進行連線，而當指令透過命令與控制 8.

(16) 伺服主機傳達給所有殭屍電腦時，收到指令的殭屍電腦則會回復訊息給命令與控制伺服主機，殭屍網路控制者可以藉此確認命令是否有被執行。對殭屍網路管理者而言，透過這樣架構的殭屍網路，殭屍網路控制者可以輕易地掌控整個殭屍網路的狀況，例如殭屍電腦的數量以及個別的系統資訊等，但是同時也因為命令與控制伺服主機上具備整個殭屍網路的資訊，萬一當命令與控制伺服主機遭到破獲時，整個殭屍網路的所有資訊將會完全洩漏。. 為了改善集中式殭屍網路的缺點，殭屍網路逐漸發展出其他不同架構形式，像是分散式(Peer-to-Peer, P2P)以及隨機式(Random)，因此殭屍網路也從主從式 (Client-Server)架構轉變成點對點式(P2P)架構[7]。儘管殭屍網路的結構不斷轉變，但是因為集中式殭屍網路相較其他架構較具有優秀的操控管理能力，所以截至目前集中式殭屍網路仍占多數，因此本研究所偵測的殭屍網路架構亦選擇集中式架構之殭屍網路。. 第二節殭屍網路偵測技術截至目前為止，許多研究提出各式各樣的方法來偵測殭屍網路，Zhu 等人 (2008)[30]整理近年來的偵測技術並歸納出誘捕網路(Honeynet)與流量監控 (Traffic Monitoring)兩大類別，其中誘捕網路是一個引誘攻擊者進行惡意攻擊，並記錄攻擊活動與行為的網路架構，透過攻擊資訊的蒐集將有助於日後研擬防禦措施；流量監控類別主要是透過網路傳輸設備所提供的網路流量資訊進行分析，從中找到殭屍網路的網路傳輸特徵模式，進行殭屍網路偵測防禦，而兩大類別之詳細說明如下。. (1) 誘捕網路根據 Spitzner (2002)[24]的定義，誘捕系統(Honeypot)是一種針對未經授權以 9.

(17) 及非法的存取進行偵測之資訊系統，其作法是將誘捕系統刻意設計成一個有弱點缺陷的主機並放置在網路上，讓攻擊者可以藉由此弱點輕易地突破系統防護，當系統被入侵後紀錄攻擊者的攻擊來源、系統所執行過的指令或程式，以及指令或程式執行後所產生的結果。. 而誘捕網路不像誘捕系統是一部單一主機[25]，而是一個利用誘捕系統和 Honeywall 所組成的網路架構，其架構如圖 3。在誘捕網路中，透過 Honeywall 將多個誘捕系統與網域內一般用途的主機區隔開來，並且會在 Honeywall 的位置建置入侵偵測系統(Intrusion Detection System, IDS)，避免誘捕系統遭到入侵後對網域內的一般主機進行攻擊行為，並且針對所有流經過 Honeywall 的流量資料進行監控，尋找攻擊者的入侵相關線索，藉此研究分析攻擊者使用的攻擊工具、攻擊手法以及動機。. 圖3 誘捕網路架構圖[25]. 10.

(18) 在過去有許多研究利用誘捕系統或是誘捕網路進行殭屍網路的偵測追蹤，因為誘捕系統會將攻擊者的完整入侵流程詳細記錄下來，藉此分析攻擊者如何獲得系統的存取權限，找出更好的方法來保護其他系統主機。但是誘捕系統的原理是在網路中建置一個有缺陷的系統，被動地等待攻擊者或病毒的入侵感染，若誘捕系統無法順利地引誘攻擊者，則此系統架構的偵測效能將會大幅降低，同時因為誘捕系統必須遵從「誘捕系統遭到入侵後，不得任意攻擊他人系統主機」的道德規範，所以 Wang 等人(2010)[29]指出殭屍網路控制者可以透過某些確認機制來偵測所入侵的主機是否為誘捕系統。. 圖4 殭屍網路控制者偵測誘捕系統之方法[29]. 在殭屍網路環境中，殭屍網路控制者成功入侵一台主機時，會命令該受害主機先向網路中的一群主機發動攻擊行為，例如圖 4 的步驟一。而在這些主機中有一台主機為殭屍網路控制者刻意安排的目標主機 (Target)，當目標主機收到攻擊流量時會先驗證該流量是否遭到誘捕系統的修改，若驗證未遭到竄改後，誘捕目標主機會將遭到受害主機的 IP 位址傳回給命令與控制伺服主機，如圖 4 的步驟二。直到此刻殭屍網路控制者才會將該主機納入殭屍網路下成為受控制之殭屍電 11.

(19) 腦，這時才和命令與控制伺服主機進行連線，如圖 4 的步驟三。因此利用誘捕系統相關技術進行殭屍網路偵測將有可能遇到，殭屍網路控制者透過目標主機來檢驗所入侵的電腦主機是否為誘捕系統。. (2) 流量監控當利用網際網路存取網路上任何設備將有網路流量產生，流量監控技術會記錄受監控網域內的所有網路流量資訊，當發生殭屍網路攻擊時，透過流量紀錄過濾，從中找出可能的殭屍電腦。Feily & Shahrestani (2009)在流量監控技術分類中 [9]，再細分出特徵值偵測法(Signature-based Detection)、異常偵測(Anomaly-based Detection) 、 DNS 偵測法 (DNS-based Detection) 與流量探勘式技術 (Flow Mining-based Detection)。. . 特徵偵測法已被明確定義的殭屍網路特徵值與行為可以用來偵測殭屍網路，舉例來說，. Snort 就是一種公開來源的入侵偵測系統[23]，利用監控網路流量資料來尋找是否遭到入侵攻擊。像大多數的入侵偵測系統一樣，Snort 由一群的規則或特徵組成特徵分析資料庫，從流量資料中找出可疑的部分。然而特徵偵測技術對於已知的殭屍網路具有良好的偵測能力，但是對於未知型態的殭屍網路則無法偵測出來。. . 異常偵測異常偵測用在殭屍網路上是藉由長期蒐集網路流量，當網路異常件發生時可. 以推測目前遭受殭屍網路的惡意攻擊，而網路異常事件大致包含爆增的大量網路封包(Packet)、不尋常的通訊埠(Port)連線和系統行為，這些都可以證明網路中有惡意殭屍的存在。然而透過異常測技術可以解決無法找出未知殭屍網路的問題，但是若殭屍網路上未發動攻擊行為時依然難以偵測察覺， Binkley & 12.

(20) Singh(2006)[5]為了解決這樣的問題，針對以 IRC 為架構的殭屍網路提出一個演算法，利用殭屍電腦在 IRC 伺服主機上的頻道名稱和訊息(Message)的統計資料，結合以 TCP 為主的異常偵測模式對所收集的封包(Packet)進行偵查，利用此演算法所建置的系統不僅可以明確地找到殭屍電腦，甚至連命令與控制伺服主機都能揭露，但是這樣的方法在 IRC 伺服主機訊息以加密方式進行傳遞時就會宣告失敗。. Karasaridis 等人(2007)[15]提出另一種演算法，改採用網路傳輸層的流量資訊作為偵測的資料來源，因此對於加密後殭屍網路之間的通訊一樣具有優秀的偵測能力。因為在相同將網路內的殭屍電腦，收到來自殭屍網路控制者的命令時所產生的回應與行為具有高度的相似性，利用這樣的原理 G u 等人(2008)[14]提出一個名為 BotSniffer 的殭屍網路異常偵測系統，採用多個相似度分析演算法對相同時空所產的網路流量進行偵測，藉此勘查出殭屍網路是否存在於自身的網路環境當中。. . DNS 偵測法在殭屍網路入侵過程中，惡意程式會使受害主機連線到命令與控制伺服主機. 的網路名稱，對殭屍網路控制者而言，若未來需要變更命令與控制伺服主機的 IP 位址，只需要更換網域名稱的註冊 IP 即可，殭屍電腦利用 DNS 伺服主機反查 IP 位址後就能正確連線至新的命令與控制伺服主機 IP 位址。DNS 偵測和異常偵測相當類似，DNS 偵測法是從所有 DNS 網路流量中偵測出異常的 DNS 查詢流量。. Choi 等人(2007)[6]提出基於異常偵測技術的殭屍電腦檢測機制，透過觀察異常主機群體對於 DNS 進行查詢的網路流量，因為利用異常偵測技術，所以必須事先定義出異常 DNS 查詢流量，以區別合法的 DNS 流量。他們同時發產出可以 13.

(21) 監控命令與控制伺服主機轉移的機制，這種基於檢查異常的殭屍網路查詢流量方法比過往的研究更為可靠，無論何種殭屍網路的架構都能在應用於此偵測系統，此外他還可以偵測於加密的殭屍網路環境中，然而這種方法的主要缺點在監控較大的網域時需要龐大的資料處理時間。. . 流量探勘式偵測技術事實上，殭屍網路中控制指令的傳遞不會產生大量的網路流量以及網路延遲. (Network Latency)，況且殭屍網路會改用尋常通訊埠，和命令與控制伺服主機進行訊息溝通傳遞，增加偵測上的困難度，因此使用異常偵測技術難以將控制指令傳遞之流量分辨出來，所以有相當多研究改採用機器學習(Machine Learning)、分類方法(Classification)和叢集偵測(Cluster)方式來勘查殭屍網路中的命令與控制流量。. Geobl & Holz (2007)[12]提出 Rishi 系統來偵測殭屍網路，監控不尋常或是可疑的 IRC 伺服主機的頻道、位址以及連線通訊埠，使用相似度 N-Gram 分析和評分系統(Scoring System)可以將那些無法被傳統入侵偵測系統發現的殭屍電腦順利找出，但是這個系統僅能探勘出集中式架構的 IRC 殭屍網路，同時因為必須針對殭屍網路內的訊息進行分析，所以若該殭屍網路採用加密傳輸則此方法亦無法運作。. 在機器學習的偵測技術中，Strayer 等人(2008)[27]採用兩階段的分析處理過程，首先把 IRC 伺服主機的相關流量從眾多流量資料中擷取出來，再來是從過濾後的流量資料找出可疑的殭屍網路資料，因為機器學習的對象是每一筆網路流量資料中的封包負載內容(Payload Content)，所以無法在加密後的殭屍網路環境中順利探勘，雖然此方法並不限定特定架構的殭屍網路才能運作，但是相較之下 14.

(22) 該方法對於集中式的 IRC 殭屍網路還是具有較好的偵測效能。. BotMiner 是近期利用資料探勘技術進行殭屍網路命令與控制流量偵測的研究[13]，是由 BotSniffer 改良而成，從完整的網路流量紀錄中過濾出殭屍網路流量，將相似的殭屍網路連線情形以及網路活動以叢聚分析做分群，並用兩者結果算出跨叢聚分析相關性(Cross Cluster Correlation)。此外 BotMiner 是一種進階的殭屍網路偵測工具，面對現實中各式各樣的殭屍網路架構都能產生優異的偵測能力，即使殭屍網路的溝通通訊埠偽裝成日常使用的以躲避追查，BotMiner 一樣可以藉由網路流量探測發現殭屍電腦。. 總括而言，本研究將以上的研究方法整理成表 2。由表 2 得之，使用誘捕系統作為偵測殭屍網路的方法，必須被動地等待殭屍網路的入侵感染，藉由完整地記錄攻擊流程，從中挖掘出殭屍網路的資訊。而網際網路中越來越多層出不窮的網路攻擊發生，因此僅使用誘捕系統為基礎的偵測技術進行殭屍網路的偵測防禦時，必須付出龐大的人力及時間成本進行攻擊記錄的整理分析過濾，且誘捕系統是否能夠順利誘騙殭屍網路攻擊者亦是重要的問題。而以流量監控技術為基礎的殭屍網路偵測方法，僅需專注於蒐集網路傳輸資料，不論是從中利用大量的異常殭屍網路流量進行偵測過濾出殭屍電腦，或是透過資料探勘方法找出流量中的關連性，相較於使用誘捕系統方式作為偵測技術而言，具備了自動化之流量資料蒐集，大幅降低分析成本，提高對於偵測殭屍網路的反應能力。. 15.

(23) 表 2 殭屍網路偵測技術分類類別. 相關使用方法. 特色. 誘捕網路. 誘捕系統. 刻意設計成有弱點之系統，被動地記錄殭屍網路的入侵攻擊流程. 特徵偵測法. 蒐集已明確定之殭屍網路特徵值進行比對. 異常偵測. 蒐集正常的網路流量，當發生殭屍網路攻擊等異常連線即可進行偵測. DNS 偵測法. 與異常偵測相似，當受害主機加入殭屍網路時會產生大量的異常 DNS 查詢，利用此異常查詢數進行偵測. 流量探勘式偵測技術. 藉由各種資料探勘技術，從網路流量中找出彼此相似的殭屍網路行為. 流量監控. 然而，以上流量監控相關偵測技術大多著重於殭屍網路流量與正常使用所產生之流量的差異，或是針對相同殭屍網路對於執行來自殭屍網路控制者的命令時會產生相似的網路流量，因此可以發現這些研究所偵測的殭屍網路都是已開始活動的狀態，對於延伸探勘其他潛藏殭屍電腦是較為缺乏的。然而本研究期望對已知的殭屍電腦之傳輸通訊進行更進一步的延伸探勘，因此本研究主要提出以流量監控為基礎之方式，利用關連法則資料探勘技術，在已知一個受害電腦時能夠延伸找到更多潛在的受害者，進行網域內潛藏殭屍主機偵測之研究。. 16.

(24) 第三章. 潛藏殭屍電腦偵測方法與系統架構. 在第二章中提到關於使用誘捕網路的殭屍網路偵測技術的困難處，除了殭屍網路控制者具有反偵測的機制之外，大部份的網路管理者亦需要耗費大量的時間與人力成本自行從捕獲的資料中過濾出殭屍網路資訊，難以改善殭屍網路偵測系統的偵測效能。由於網路流量資料的取得較為容易，故本研究便以資料探勘為基礎的殭屍網路偵測技術，建立一使用關聯法則之偵測系統，藉此偵測潛藏殭屍電腦是否存在。本章中將探討本研究偵測潛藏殭屍網路之研究方法，第一節描述本研究中潛藏殭屍電腦偵測系統之網路環境與系統架構。第二節說明取得與過濾網路連線記錄之方法步驟。第三節探討關聯法則運作方式，如何評斷兩個項目之間具有強關聯。第四節說明 Apriori 演算法如何在本研究實際進行運算。最後，第五節解釋經過關聯法則運算後的關聯規則何者是符合本研究之研究目的。. 第一節潛藏殭屍電腦偵測系統架構本研究的系統網路環境架構如圖 5 所示，本研究的假設情境為在受監測之網域內存在已知殭屍電腦與其他未知的潛藏殭屍電腦，此已知殭屍電腦會不斷收到來自外部網域命令與控制伺服主機的控制命令，另一潛藏殭屍電腦僅連線至命令與控制伺服主機並未收到控制命令，而所有從受監控網域連線至網際網路，或是由網際網路連線至受監控網域的連線，都會經過一核心路由器，因此本研究架設潛藏殭屍電腦偵測系統，蒐集所有經由核心路由器的網路流量記錄，從龐大的網路連線記錄中利用關聯法則，過濾出與已知殭屍電腦相關的殭屍網路連線資料，以偵測受監控網域內是否存在潛藏殭屍電腦，並嘗試揭露存在於網際網路的命令與控制伺服主機。. 17.

(25) 圖5 系統網路架構. 研究的偵測系統流程如圖 6 所示，本研究利用資料探勘技術之關聯法則演算法建立殭屍網路偵測系統，蒐集包含殭屍電腦以及一般使用者的網路連線資料進行分析運算，從中找出潛藏的殭屍電腦以及命令與控制伺服主機，由於已掌握一個已知的殭屍電腦，透過此已知之殭屍電腦的網路 IP 位址作為起點，從原始的龐大網路連線記錄中找出 2-hop 距離的網路連線記錄，其中 2-hop 距離代表受監控網域內，與已知殭屍電腦一同連線至網際網路中某網路設備之其他電腦主機。將此網路連線記錄作為後續 Apriori 關聯法則之分析運算的資料集，經由調整關聯法則演算法中的各項變數與門檻值設定，產生最具可能性的命令與控制伺服主機以及潛藏殭屍電腦列表。. 18.

(26) 圖6 潛藏殭屍電腦偵測系統流程圖. 第二節資料整理及過濾 (1) 2-hop 網路連線記錄蒐集在本研究的實驗設計中，會蒐集受監控網域內的所有網路流量記錄，但由於受監控網域內的連線記錄過於龐大，同時在研究假設前提為已知有一殭屍電腦的 IP 位址，而本研究目的是找出受監控網域內，與已將殭屍電腦共同連線至相同命令與伺服主機之潛藏殭屍電腦，因此使用 2-hop 的網路連線記錄，蒐集由已知殭屍電腦與外部網域的連線，再由這些連線清單找出和受監控網域內其他電腦主 19.

(27) 機之連線，如此可以大幅縮減網路連線記錄的數量，同時也會聚焦於和已知殭屍電腦相關之連線記錄上，縮減後的連線記錄對於進行後續之關聯法則演算法，也能避免產生不符合本研究期待之關聯規則。. 本研究在網路流量記錄蒐集的過程中，由於已知一個殭屍電腦的IP網路位址 (IP A )，所以先由此殭屍電腦做為起點，從網路連線紀錄找出網際網路中與該殭屍電腦相互連線的IP位址清單列表(IP B 、IP C )，若藉由網路連線所形成的網路拓墣圖中，將每個IP位址視為相異之結點，而所取得的IP位址清單則是距離已知殭屍電腦(IP A )一個結點(1-hop)距離，亦可視為由已知殭屍電腦的IP位址(IP A )向外拓展一個結點，如圖 7 所表示。. 圖7 1-hop 網路連線記錄蒐集示意圖. 透過圖 8 中第一階段的 1-hop網路連線記錄蒐集後，可以得到已知殭屍電腦 (IP A )的完整連線對象清單(IP B、IP C )，再利用該清單找出受監控網域內所有與其連線的主機電腦。若以網路拓墣圖形來看，等若由已知殭屍電腦(IP A )為起點，找出所有距離為 2 個結點(2-hop)之路徑，因此由已知殭屍電腦(IP A )為起點且距離為 2-hop的節點必為受監控網域內的電腦主機(IP D 、IP E 、IP F )，如圖 8 所示。 20.

(28) 圖8 2-hop 網路連線記錄蒐集示意圖. 在集中式殭屍網路架構中，所有殭屍電腦皆會連線至命令與控制伺服主機，等候殭屍網路控制者的命令下達，因此透過蒐集 2-hop 距離的網路連線記錄，可以找出監控網域內的電腦主機與已知殭屍電腦共同連線到相同伺服主機上的明確資料，所以若網域內有潛藏殭屍也會因為網路連線記錄而被偵測發現。. (2) 白名單(Whitelists)過濾原始的網路連線資料在進行前述 1-hop 以及 2-hop 距離的過濾時，皆會利用白名單進行更進一步的過濾合法 IP 位址的動作，因為若受監控網域內的網路連線資料量相當龐大，因此所蒐集的網路連線資料將會過於繁雜，勢必會影響後續關聯法則運算的處理時間，因此本研究採用 Alexa.com 網站的統計資料[1]，該網站擁有全球與各國的網頁瀏覽人數排名，本研究從中分別選取全世界和台灣地區排名前十的網域名稱做為白名單過濾的依據，如表 3 所示。. 21.

(29) 表 3 連線記錄過濾名單[1] 全球. 台灣. 排名. 網站名稱. 網域. 排名. 網站名稱. 網域. 1. Google. google.com. 1. Yahoo!. yahoo.com. 2. Facebook. facebook.com. 2. Facebook. facebook.com. 3. YouTube. youtube.com. 3. Google. google.com. 4. Yahoo!. yahoo.com. 4. Google 繁體中文搜尋. google.com.tw. 5. Baidu.com. baidu.com. 5. YouTube. youtube.com. 6. Wikipedia. wikipedia.org. 6. 無名小站. wretch.cc. 7. Windows Live. live.com. 7. PIXNET 痞客邦. pixnet.net. 8. Twitter. twitter.com. 8. 依莉心情車站. eyny.com. 9. QQ.COM. qq.com. 9. 巴哈姆特電玩資訊站. gamer.com.tw. 10. Amazon.com. amazon.com. 10. yam 天空. yam.com. 使用白名單進行過濾網路連線記錄的原因在於，所過濾之IP位址皆為瀏覽數相當龐大、流量相對繁忙的網站，如Google或Facebook等知名網站，若這些網站成為命令與控制伺服主機，將會直接影響該網站正常的服務而被管理者察覺，因此無法長期成為殭屍網路中的一員，所以本研究將這些網站的IP位址從連線記錄進行過濾清除。白名單過濾之目的是過濾監控網域外IP位址的網路連線資料，如圖 8 的IP B、IP C，希望能減少網路連線資料中合法IP位址的記錄，避免增加後續關聯法則演算法的運行時間，以增強系統偵測效能。. 第三節關連法則演算法關聯法則(Association Rule)演算法是資料探勘上常應用的手法之一，主要是用於分析大量交易資料(Transaction Data)，目的是減少潛在且雜亂無章的數據，從中找出各項目之間的關聯性，使之成為易於觀察理解的關鍵靜態數據，例如購物籃分析(Market Basket Analysis)即是一常見之關聯法則應用。超市對顧客消費紀錄資料庫進行關聯法則探勘，把每位顧客當次結帳的商品內容視為一筆交易資 22.

(30) 料，而該交易資料等若於購物籃內的商品項目之集合，關聯法則透過各購物籃的內容物，找出消費者的購物習慣，像是購買牛奶的同時也會購買麵包，如此便能調整商品於貨架上的位置來增加銷售量。. 本研究使用開源軟體Tcpdump(http://www.tcpdump.org/)進行網路封包蒐集，經由潛藏殭屍電腦偵測系統所蒐集到的網路通訊資料之原始封包中，包含各種完整的通訊協定傳輸資訊，範例如表 4 所示，其中第一筆網路封包代表在 17:45:10 時有IP協定(Protocol)的流量產生，透過IP A 網路位址的 54829 來源通訊埠將封包傳送給IP B 的 443 目的通訊埠進行接收，其中還包含許多TCP連線的資訊，如回應序號(Acknowledge Number)、滑動視窗(Window)等等。. 表 4 網路通訊原始封包資料 17:45:01.860961 IP IP A .54829 > IP B .443: Flags [.], ack 1423, win 4003, options [nop,nop,TS val 805450259 ecr 1790960708], length 0 17:45:01.861016 IP IP B .19.443 > IP A .54829: Flags [P.], seq 1423:1602, ack 1, win 1002, options [nop,nop,TS val 1790960708 ecr 805450137], length 179 17:45:01.861048 IP IP A .54829 > IP C .443: Flags [.], ack 1602, win 3992, options [nop,nop,TS val 805450259 ecr 1790960708], length 0 ……. 本研究在進行關聯法則運算時，主要是透過傳輸連線中所出現的相互關聯性，推估可能的潛藏殭屍電腦和命令與控制伺服主機。當原始的網路通訊資料經過 2-hop 距離以及白名單過濾後，所產生的疑似殭屍網路連線記錄，因此從中擷取時間戳記(Timestamp)、來源 IP 位址(Source IP Address)、目的 IP 位址(Destination IP Address)，如表 5 所示。. 23.

(31) 表 5 連線記錄簡化時間戳記. 來源 IP 位址. 目的 IP 位址. 17:45:01.860961. IP A. IP B. 17:45:01.861016. IP B. IP A. 17:45:01.861048. IP A. IP C. ……. ……. ……. 在本研究中使用關聯法則運算時，在一固定時間內的網路傳輸連線代表一購物籃和其中商品。此外，本研究僅注重兩IP位址之間是否存在連線，並不探討網路傳輸的方向性，故不論是IP A 到IP B 或是IP B 到IP A 皆視為相同的連線記錄，而在時間區段內若有重複出現的連線記錄，將重複之連線記錄簡化為一筆，代表在同一時間區段內IP A 與IP B 之間連線確實存在，依照連線記錄之時間戳記順序，以相同的時間間隔(Timeslot)分割成數個流量交易資料，如表 6 所示。其中，<IP A , IP B > 代表IP A 與IP B 之間的網路連線記錄存在。. 表 6 流量交易資料流量交易資料. 流量交易項目. TS 1. {<IP A , IP B >, <IP A , IP C >, <IP B , IP D >, …}. TS 2. {<IP A , IP B >, <IP A , IP C >, <IP B , IP E >, …}. TS 3. {<IP A , IP B >, <IP B , IP D >, <IP C , IP F >, …}. ……. ……. 在本研究中，關聯法則運算的流量交易資料內容物為 IP 位址之間的連線，而在網路流量記錄中僅具有連線時間先後順序，並無法明確地利用單筆網路記錄作為一筆流量交易資料，否則各流量交易資料內僅會只有一個流量交易項目，因此本研究使用固定時間切割連線記錄，因此在時間間隔內的連線記錄便會放置在同個流量交易資料中。. 根據Agrawal等人(1993)[2]所提出的關聯法則中，D為所有交易資料項目集合， 24.

(32) 亦可稱為所要分析資料的資料庫；T代表資料庫中的一筆交易紀錄，可視為一個購物籃內商品項目(Items)的集合；I為所有商品項目所集合而成的項目集合 (Itemset)。在本研究中，各商品項目為IP位址之間的連線，以表 6 為例，D = {TS 1 , TS 2 , TS 3 , …}，I = {<IP A , IP B >, <IP A , IP C >, <IP B , IP D >, <IP B , IP E >, <IP C , IP F >, ...}，其中T⊆I。. 關聯法則的存在與否，必須根據事先給定的支持度 (Support) 和信賴度 (Confidence)兩項參數，而有效的關聯法則必須通過支持度與信賴度的門檻 (Threshold)。若兩個項目 X 與 Y 通過門檻值，在關聯法則中表示為：. X⇒Y，當 X⊂T、Y⊂T 且 X∩Y＝∅. 在本研究中，X 與 Y 分別代表兩相異 IP 位址連線紀錄，而支持度則用來判斷 X 和 Y 共同出現的次數是否超越原先設定的最小支持度(Minimum Support)門檻，計算方式如公式(1)：. Support(X , Y) =. X 與 Y 共同出現的流量交易資料筆數所有流量交易資料筆數. … … (1). 信賴度代表 X 對於 X⇒Y 這個關聯法則(意即 X 對 Y 產生影響)的信賴程度，也就是當 X 出現在任一筆網路流量交易資料中時，X 與 Y 同時出現在該筆流量交易資料的機率，且計算所得值必須通過最小信賴度(Minimum Confidence)門檻，計算方式如公式(2)：. Con�idence(X ⇒ Y) =. X 與 Y 共同出現的流量交易資料筆數 X 出現的流量交易資料筆數 25. … … (2).

(33) 利用表 6 進行支持度與信賴度的計算說明，考慮關聯規則<IP A , IP B > ⇒<IP B ,. IP D >時，<IP A , IP B >出現於TS 1 、TS 2 和TS 3 之中，因此支持度為 3/3＝1；僅有TS 1. 和TS 2 同時包含有<IP A , IP B >與<IP B , IP D >，所以信賴度為 2/3≒0.67。若事先給定最小支持度與最小信賴度皆為 0.6，代表關聯規則<IP A , IP B > ⇒<IP B , IP D >成立，可認為<IP A , IP B >與<IP B , IP D >之間存在強關聯。. 根據關聯法則的公式 1 定義，支持度代表兩項目共同出現在一筆交易資料中的機率，因此當支持度越高代表兩項目會頻繁地共同出現，假若在流量交易資料庫內有 1000 筆流量交易記錄，且最小支持度設定為 0.6，則連線記錄 X 與 Y 這兩個項目必須共同出現大於等於 600 次，才能具備成為關聯規則的資格；而信賴度代表關聯法則的強度與可靠度，根據公式 2 的定義，等同在出現 X 的流量交易記錄中 Y 也同時存在的比例，若信賴度越高表示該關聯法則具有緊密的聯繫關係。. 第四節 Apriori 演算法 Apriori 演算法是由 Agrawal 等人 (1994)[3]所提出，且 Apriori 演算法為資料探勘領域中，用來找尋關聯法則的經典演算法之一，因此對於關聯法則的運算部分，本研究採用 Apriori 演算法進行網路連線資料的關聯性探勘。Apriori 演算法主要是從龐大的交易資料庫中，建立可能成為關聯規則的候選項目集合 (Candidate Itemset)，並計算各候選項目在交易資料庫中出現次數，然後依據自定義的支持度來衡量該候選項目是否足夠成為關聯規則。Apriori 演算法中常用的名詞之定義如下所示： k-itemset：一個項目集合內有 k 個項目。 L k ：k-itemset中通過支持度門檻值的項目集合。 26.

(34) C k：k-itemset中的候選項目集合，該集合內的每個項目都包含項目名稱與出現次數兩個欄位。. 以下以表 7 為例來介紹Apriori演算法的運作過程，首先將所有在流量交易資料庫的資料轉換為 1-itemset的候選項目集合，並且計算每一個候選項目的出現次數，將此候選項目集合稱為C 1，如表 7 所示。當計算完後，Apriori演算法會根據事前定義的最少出現次數，從候選項目集合中挑出符合的項目，假若最小出現次數為 2，代表當候選項目的出現次數大於等於 2 時，會被挑選出來，而這些被挑選出來的項目所形成之集合稱為L 1 。. 表 7 Apriori演算法C 1 與L 1 之範例 C1. L1. 項目. 出現次數. 項目. 出現次數. <IP A , IP B > <IP A , IP C > <IP B , IP D > <IP B , IP E > <IP C , IP F >. 3 2 2 1 1. <IP A , IP B > <IP A , IP C > <IP B , IP D >. 3 2 2. 挑選完L 1 後，Apriori演算法接下來會對流量交易資料庫進行第二次運算，第二次運算處理會根據項目集合並由 1-itemset擴張為 2-itemset，擴張方式為內各項目的排列組合，所以在 2-itemset內的項目代表在一筆流量交易記錄中同時出現這兩個項目，且在所剃除的項目將不會在 2-itemset中出現，如表 8 所示。由於<IP B , IP E >與<IP C , IP F >項目在第一次運算處理後已遭到剃除，所以將不會有任何包含 <IP B , IP E >與<IP C , IP F >的項目出現在候選項目集合中，此時從挑選項目至L 2 的方法與第一次運算處理相仿，皆是判斷候選項目集合內的每個項目是否大於等於最小出現次數。. 27.

(35) 表 8 Apriori演算法C 2 與L 2 之範例 L2. C2 項目 <IP A , IP B >, <IP A , IP C > <IP A , IP B >, <IP B , IP D > <IP A , IP C >, <IP B , IP D >. 出現次數. 項目. 出現次數. 2. <IP A , IP B >, <IP A , IP C >. 2. 2. <IP A , IP B >, <IP B , IP D >. 2. 1. Apriori演算法會不斷重複上述方法，持續地建立候選項目集合和挑選最大項目集合，直到最大項目集合L k 為空集合，此範例的最後結果為例，候選集合內的項目{<IP A , IP B >, <IP A , IP C >, <IP B , IP D >}在流量交易資料庫中僅共同出現一次，因此無法通過最小出現次數的門檻值，故最大項目集合L 3 為空集合，所以最終 Apriori 演算法產出的可能關聯規則為<IP A , IP B > ⇒ <IP A , IP C >和<IP A , IP B > ⇒<IP B , IP D >。. 以下為 Agrawal & Srikant(1994)[3]所提出 Apriori 核心演算法，其步驟如前所述，找出頻繁出現的項目建立成候選項目集合，藉由自定義的支持度門檻值進行篩選，從候選項目集合中挑選出大於等於門檻值的最大項目集合，直到進行至第 k 次時，該次的最大項目集合為空，便停止運算。. 28.

(36) 表 9 Apriori 核心演算法[29] 1). 2). 3). 4). 5). 6). 7). 8). 9).. L 1 = {large 1-itemsets}; for ( k = 2; L k-1 ; k++ ) do begin C k = apriori-gen( L k-1 ); //New candidates forall transactions t D do begin C t = subset(C k , t ); //Candidates contained in t forall candidates c D do c.count++; end L k = {c C k | c.count ≧ minsup}. 10). 11).. end Answer = ∪ k L k ;. 第五節關聯規則結果之歸納以關聯法則來看，運算方法為根據兩連線交易項目彼此之間同時出現的頻繁程度，進而推論關聯性可靠度的強弱關係，同時關聯法則所計算得到之規則形態為<IP 1 , IP 2 > ⇒ <IP 3 , IP 4 >，代表連線記錄<IP 1 , IP 2 >和連線記錄<IP 3 , IP 4 >會頻 R. 繁地出現在所有連線中，而本研究之目的為從眾多連線記錄找出兩連線記錄具有密切關聯性，且這兩連線記錄須為已知殭屍電腦和命令與控制伺服主機，以及潛藏殭屍電腦和命令與控制伺服主機的IP位址連線記錄，因此可以明確知道關聯規則中，兩個連線交易項目必須有共同的命令與控制伺服主機之IP位址，但是此IP 位址不可為已知殭屍電腦，否則將會成為評估已知殭屍電腦與兩部受監控網域外之電腦主機的關聯程度。. 合乎本研究之關聯規則必須遵循兩個條件，一為兩交易連線項目之中一個IP 位址必須相同，二為該相同IP位址必定不可為已知殭屍電腦，若以圖 8 和表 6 為 29.

(37) 例說明，範例所運算的關聯規則為<IP A , IP B > ⇒ <IP A , IP C >和<IP A , IP B > ⇒ R. R. <IP B , IP D >，而這兩個關聯規則恰好都有相同的IP位址在流量交易項目內，關聯. 規則<IP A , IP B > ⇒ <IP A , IP C >中相同的IP位址是IP A，而<IP A , IP B > ⇒ <IP B , IP D > R. R. 相同的IP位址是IP B，但因為規則<IP A , IP B > ⇒ <IP A , IP C >中相同的IP位址為已知 R. 殭屍電腦(IP A )，這樣的關聯規則呈現出已知殭屍電腦(IP A )和受監控網域外哪兩部電腦主機(IP B 、IP C )具有密切連繫的意涵，但是與本研究之目的不相符，所以將關聯規則<IP A , IP B > ⇒ <IP A , IP C >予以剃除。而關連規則<IP A , IP B > ⇒ <IP B , R. R. IP D >符合兩項條件：一個相同的IP位址、相同IP位址不可為已知的殭屍電腦，且. <IP A , IP B > ⇒ <IP B , IP D >代表已知殭屍電腦(IP A )和命令與控制伺服主機(IP B )、命 R. 令與控制伺服主機(IP B )與潛藏殭屍電腦(IP D )通過支持度和信賴度門檻值，可將. 兩連線記錄視為具有高度相關聯性。. 30.

(38) 第四章. 實證與評估. 第一節實證方法為了驗證本研究所提出的殭屍網路偵測方法在網際網路上實際的效能，本研究蒐集了真實台灣學術網路上的網路流量來建立殭屍電腦偵測模組。本研究於國立高雄大學管理學院的網路環境中架設實驗環境，同時將管理學院的網路環境視為受監控網域，在受監控網域中挑選數部電腦主機植入殭屍網路控制程式，並在監控網域外建置一命令與控制伺服主機，作為殭屍網路控制者發布命令的平台，利用網路連線記錄作為本研究之偵測資料來源，所實驗的殭屍網路程式選用集中式殭屍網路架構，而殭屍網路程式的來源為 2011 年入侵本研究事前架設之誘捕系統，是一真實運作於實際網路環境中的殭屍網路控制程式，並非自行撰寫而成。. 本研究將會使用 Tcpdump 蒐集整個受監控網域內的網路連線紀錄，共蒐集一天的連線記錄，且連線資訊蒐集以每 5 分鐘為單位，將每日的連線記錄切割為 288 個時段，做為流量交易資料庫使用且為偵測模組分析資料之來源。而在實驗設計中控制指令的傳輸方式，本研究選擇採用透過私人訊息將控制指令傳遞給已知殭屍電腦，而潛藏殭屍電腦僅只是連線在命令與控制伺服主機之上。舉例來說，殭屍網路控制者在一室內空間，私下傳遞紙條給已知殭屍電腦，而在相同空間的潛藏殭屍電腦並不會收到控制訊息。. 因為網路安全實驗上的限制，在受監控網域內原已經存在許多電腦主機，因此本研究無法在受監控網域內安排多個潛藏殭屍電腦，所以本研究的實驗中僅有一個潛藏殭屍電腦和命令與控制伺服主機，故潛藏殭屍電腦和命令與控制伺服主機之間的連線會成對出現，所以本研究後續的評估只判斷是否找到潛藏殭屍電 31.

(39) 腦。. 在偵測效能的評估上，由於受限於網路安全實驗，故本研究將使用前 n 項準確率(Top-n Accuracy Rate)、誤報率(False Alarm Rate)與遺漏率(Missing Rate)做為評估效能的指標。採用前 n 項準確率目的在於，在本研究中所計算得到之關聯法則，代表各時段內連線交易項目兩兩之間關聯性的強度，若將信賴度由大至小依序排列將可獲得一懷疑名單，內容為監控網域內電腦主機與已知殭屍電腦共同連線至外部主機佔所有已知殭屍電腦連線數比例之排名，因此可以藉由截取懷疑名單的前 n 項，亦即與已知殭屍電腦具有密切關聯之電腦主機，透過準確度判斷潛藏殭屍電腦是否被偵測發現。. 實驗資料集由 288 個時段所蒐集到的網路連線記錄而成，從中隨機挑選m個時段進行Apriori關聯法則運算，藉由支持度的高低進行排列可得到m個懷疑名單，以H 1 , H 2 , …, H m 表示之，而前n項準確率計算公式如下[10]：. 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦top−𝑛. 𝑚. 1 = � 𝜆𝑖 … … (3) 𝑚 𝑖=1. λ i 的定義為，若潛藏殭屍電腦和命令與控制伺服主機確實出現在前n項懷疑名單內則λ i 等於 1，否則λ i 為 0。該評量標準代表隨機挑選m個流量記錄進行 Apriori關聯法則運算，判斷目標出現在懷疑名單的平均機率。當前n項準確率越高，代表能夠順利地在各時段的懷疑名單內找出潛藏殭屍電腦和命令與控制伺服主機。而遺漏率和誤報率可由表 9 的矩陣中的條件構成：. 32.

(40) 表 10 混淆矩陣(Confusion Matrix) 預測殭屍電腦. 正常主機. 殭屍電腦. α. β. 正常主機. γ. δ. 真實. 在表 10 中，α代表實際資料中殭屍電腦的 IP 位址，經由本研究的運算也被判斷為殭屍電腦的 IP 位址。β表示實際資料中殭屍電腦的 IP 位址，卻被本研究的關聯法則運算被判斷為正常主機的 IP 位址。γ代表實際資料中正常主機的 IP 位址，但經由本研究的關聯法則運算卻被判斷為殭屍電腦的 IP 位址。δ表示實際資料中正常主機的 IP 位址，經由本研究的運算同樣也被判斷為正常主機的 IP 位址。從上述實際資料與運算結果的相互比較可以得到四種條件的數量，經過公式(4)與公式(5)的計算即可得到誤報率與遺漏率，可做為評估偵測系統效能的重要依據。. 誤報率 =. 遺漏率 =. α α+γ β α+β. … … (4). … … (5). 誤報率為真實狀況下，有多少數量的電腦主機為正常情況，卻被本研究之偵測模組偵測為殭屍電腦的比率。遺漏率則是所有確實為殭屍電腦中，有多少電腦主機被本研究之偵測模組判定為正常主機的比率。由於誤報率與遺漏率為互補之指標，意即降低遺漏率的同時，將導致誤報率的上升，或是降低誤報率的同時， 33.

(41) 亦會連帶地影響遺漏率的上升。因此為了客觀的評比本研究之偵測模組的效能，本研究將同時使用此三種評估值做為偵測效能評比之依據，再依據這三項結果評估關聯法則中支持度、信賴度與時間間隔對於偵測找出潛藏殭屍電腦的影響。. 根據表 10，可以得到另一個評估標準，稱為正確率(Accuracy Rate)，其計算公式如公式 6 所示。其計算目的為在所有偵測結果當中，本研究之偵測模組所能夠正確區分出殭屍電腦與正常主機的比例。. 正確率 =. α+δ. α+β+γ+δ. … … (6). 然而，本研究採用前 n 項準確率而非正確率的原因在於，在網路安全實驗規範下，本研究無法把殭屍網路控制程式植入所監控網域內其他電腦主機中，因此在實驗中做為需要被偵測出的潛藏殭屍電腦數量並不多，假若使用正確率來評估本研究之偵測模組將會有相當強烈的極端值產生，並無法有效地判斷系統偵測能力。但若使用前 n 項準確率，將成為平均時段內系統所偵測結果的準確率，當系統所偵測出的可疑殭屍電腦排名越高，則前 n 項準確率也會越高，可避免使用正確率時評估數值發生極端差易的情況。. 第二節時間間隔與 n 值調整對於偵測效能之影響本研究已蒐集過濾後的連線記錄進行關聯法則運算，關聯法則中的各項變數分別以時間間隔 30 秒、60 秒、90 秒、120 秒，n 值為 1、3、5、7、9。本研究由 288 個時段的連線記錄進行關聯法則運算，並依運算結果分別計算前 n 項準確率、誤報率以及遺漏率再加以平均，以下將分別探討影響殭屍電腦偵測模組其偵測正確性的各種相關變因。 34.

(42) 前n項準確率 86% 84% 82% 30秒. 80%. 60秒 78%. 90秒. 76%. 120秒. 74% 72% 70% 1. 3. 5. 7. 9. n值. 圖9 n 值在支持度、信賴度皆為 20%時對前 n 項準確率之影響前n項準確率 86% 84% 82% 30秒. 80%. 60秒 78%. 90秒. 76%. 120秒. 74% 72% 70% 1. 圖10. 3. 5. 7. 9. n值. n 值在支持度、信賴度皆為 10%時對前 n 項準確率之影響. 由運算結果可以發現，當支持度和信賴度固定時，前 n 項正確率會隨著時間間隔的變動而有所差異，圖 9 為支持度固定在 20%與信賴度固定在 20%時的運算結果，最高的前 n 項準確率在時間間隔為 60 秒時出現，而圖 10 為支持度與信賴度皆固定在 10%時的運算結果，時間間隔在 60 秒依然具備最好的前 n 項準確率。因此在本研究的實驗當中可以發現時間間隔為 60 秒時，偵測模組具有較好 35.

(43) 的偵測準確能力，因此在後續分別探討支持度和信賴度的差異對於偵測準確率時，都將時間間隔設定為 60 秒。. 然而對單一時間間隔而言，當 n 值遞增時前 n 項準確度也會升高，原因在於前 n 項準確率必須判斷目標連線項目是否在懷疑名單的前 n 名之內，因此當 n 值的增長所能判斷的範圍也越大，所以前 n 項準確率也會增高。即便如此，但當 n 值大於等於 3 時，系統偵測準確率已呈現穩定狀況，代表本研究在只能提出有限的可能潛藏殭屍電腦懷疑名單時，所提出之偵測方法依然具有相當的偵測準確性，因此後續分別探討支持度和信賴度的差異對於偵測準確率時，都將 n 值設定為 3。. 第三節支持度與信賴度對於偵測效能之影響由 4.2 節之實驗結果發現，時間間隔在 60 秒時具有最佳的偵測準確率，而在 n 值大於等於 3 時前 n 項準確率呈現穩定狀況，因此在支持度與信賴度分別對偵測效能影響的實驗中，將時間間隔設定為 60 秒、n 值設定為 3。. 表 11-1 支持度對於偵測準確率之影響(信賴度=20%) 支持度. 信賴度. 前 3 項準確率. 誤報率. 遺漏率. 20%. 20%. 82.99%. 9.04%. 10.76%. 40%. 20%. 69.44%. 8.40%. 25.69%. 60%. 20%. 4.86%. 6.13%. 94.10%. 80%. 20%. 0%. 4.17%. 100%. 表 11-2 支持度對於偵測準確率之影響(信賴度=80%) 支持度. 信賴度. 前 3 項準確率. 誤報率. 遺漏率. 20%. 80%. 44.10%. 7.91%. 51.39%. 40%. 80%. 43.75%. 7.93%. 52.08%. 60%. 80%. 4.86%. 6.18%. 94.10%. 80%. 80%. 0%. 4.17%. 100%. 36.

(44) 而在信賴度固定時，前 3 項準確率會隨著支持度上升而下降。表 11-1 和表 11-2 分別為信賴度 20%和 80%時的運算結果，可從表中得知，在支持度為 20% 所計算出的前 3 項準確率分別在表 11-1、表 11-2 中皆為最高，而最低的前 3 項準確率則是出現在支持度等於 80%的結果。前 3 項準確率會依支持度的升高而降低，代表偵測模組採用較高的支持度門檻值，使得多數的殭屍網路相關連線無法被正確地判斷出來，原因是在同一時段內，潛藏殭屍電腦和命令與控制伺服主機的連線並不頻繁，因此該連線記錄無法通過最小支持度門檻值檢定，進而大幅降低前 3 項準確率。. 表 12-1 信賴度對於偵測準確率之影響(支持度=10%) 支持度. 信賴度. 前 3 項準確率. 誤報率. 遺漏率. 10%. 20%. 82.99%. 9.04%. 10.76%. 10%. 40%. 82.99%. 9.12%. 10.76%. 10%. 60%. 69.79%. 8.42%. 25%. 10%. 80%. 44.10%. 7.91%. 51.39%. 表 12-2 信賴度對於偵測準確率之影響(支持度=30%) 支持度. 信賴度. 前 3 項準確率. 誤報率. 遺漏率. 30%. 20%. 70.83%. 8.98%. 23.96%. 30%. 40%. 70.83%. 8.99%. 23.96%. 30%. 60%. 69.79%. 8.42%. 25%. 30%. 80%. 44.10%. 7.91%. 51.39%. 此外，可以發現信賴度對前 3 項準確率有所影響，從表 12-1 和表 12-2 可以發現，當在支持度固定時，信賴度越高所運算出來的前 3 項準確率越低，原因在於前 3 項準確率是判斷各時段所計算得到之關連規則列表是否命中，而關聯規則的產生必須通過最小支持度和最小信賴度兩項門檻值，根據 3.3 小節定義的公式，信賴度代表所有包含已知殭屍電腦之連線記錄其中含有已知殭屍電腦和潛藏殭 37.

(45) 屍電腦共同連線在控制與命令伺服主機的比例，但由於潛藏殭屍電腦和命令與控制伺服主之間的互動並不熱絡，因此目標關聯規則的信賴度相對偏低，所以在最小信賴度設定較低時此關聯項目才能通過關聯法則運算，使之成為關聯規則，進而提高在前 3 項懷疑名單內的機率。. 誤報率和遺漏率的變動與支持度、信賴度有密切關係，因為利用各時段關聯法則運算後的懷疑名單，判斷是否偵測出潛藏殭屍電腦，若最小支持度或最小信賴度設定過高時，將無法順利產生懷疑名單，因此本研究將這樣的時段視為沒有殭屍電腦之連線存在其中。相反地，若最小支持度或最小信賴度設定較低時，代表時間間隔內的連線有較高的機率通過門檻值，成為關聯規則做為評估的依據，因此關聯規則的數目也會較為增加，導致系統誤報率的提升。. 第四節實驗結果討論整體而言，隨著 n 值的提高，前 n 項準確率也會隨之上升，然而當 n 值固定時，前 n 項準確率會在時間間隔等於 60 秒的時候出現最高值，因此在本研究的實驗結果可以發現，在支持度、信賴度固定為 20%且 n 值等於 3 時，前 3 項準確率呈現穩定狀況，代表本研究若最多只能從受監控網域中挑選 3 部電腦主機，懷疑這 3 部電腦主機為潛藏殭屍電腦的情況下，本研究採用關聯法則演算法具有 72%以上的正確率。同時，由實驗結果中可以得知時間間隔取在 60 秒時，系統偵測效能較其他數值優異，因此若未來進行相關類似之研究時，本研究建議選用 60 秒時間間隔作為參數設定。. 在信賴值固定為 20%之情況下，隨著支持度由 20%調整至 80%，系統偵測準確率也從 82.99%一路下滑到 0%，原因在於門檻值設定越高將導致目標聯項目成為關聯規則的機會降低，同時因為流量交易項目內的連線難以成為關聯規則， 38.

(46) 所以可作為評判的連線項目減少，使得誤報率隨著支持度升高而下降，但遺漏率卻完全相反，因目標連線無法通過門檻值，無法出現在懷疑名單中導致遺漏率激增。. 然而信賴度對系統的偵測效能影響與支持度相似，當信賴度上升將使得偵測準確率下降、誤報率降低、遺漏率上升。而支持度與信賴度的影響結果與本研究之實驗設計取向有關，因本研究採用隱私訊息傳遞控制命令給已知殭屍電腦，故其他潛藏殭屍電腦將不會收到來自命令與控制伺服主機的傳輸命令，僅存的連線傳輸為命令與控制伺服主機為了判斷殭屍電腦是否保持連線狀態，而在一固定時間後傳送檢查連線之網路封包給所有殭屍電腦，所以潛藏殭屍電腦和命令與控制伺服主機之間的聯繫並不頻繁。最後綜合上述評估指標之結果，時間間隔應該設定在 60 秒，而支持度與信賴度設定在 20%以下時，將可以使得系統偵測效能表現在一較為合理且可接受的範圍內。. 總括而言，根據表 11-1、11-2 與 12-1、12-2，最小支持度和最小信賴度的提升，將導致前 3 項準確率下滑、誤報率下降、遺漏率攀升的現象，原因在於支持度和信賴度的提升，代表門檻值更趨嚴謹，大部分的連線記錄無法通過關聯法則運算檢驗，因此偵測模組所提出之懷疑名單中，目標殭屍網路連線記錄將難以成為懷疑名單內的一員。同理，在最小支持度和最小信賴度設定越低時，代表門檻值越寬鬆，因此大多連線記錄能夠通過關聯法則運算檢驗，使得懷疑名單中夾雜其他非殭屍網路之連線記錄，導致最小支持度、最小信賴度門檻值越小，則誤報率越高的情況。然而，如前所述，門檻值設定越高，將會使得大部分連線記錄通過關聯法則運算檢驗，目標殭屍網路連線記錄也難以出現於懷疑名單之中，所以最小支持度、最小信賴度越高時，將會導致遺漏率的升高。. 39.