第四章 實證與評估
第一節 實證方法
為了驗證本研究所提出的殭屍網路偵測方法在網際網路上實際的效能,本研 究蒐集了真實台灣學術網路上的網路流量來建立殭屍電腦偵測模組。本研究於國 立高雄大學管理學院的網路環境中架設實驗環境,同時將管理學院的網路環境視 為受監控網域,在受監控網域中挑選數部電腦主機植入殭屍網路控制程式,並在 監控網域外建置一命令與控制伺服主機,作為殭屍網路控制者發布命令的平台,
利用網路連線記錄作為本研究之偵測資料來源,所實驗的殭屍網路程式選用集中 式殭屍網路架構,而殭屍網路程式的來源為 2011 年入侵本研究事前架設之誘捕 系統,是一真實運作於實際網路環境中的殭屍網路控制程式,並非自行撰寫而 成。
本研究將會使用 Tcpdump 蒐集整個受監控網域內的網路連線紀錄,共蒐集 一天的連線記錄,且連線資訊蒐集以每 5 分鐘為單位,將每日的連線記錄切割為 288 個時段,做為流量交易資料庫使用且為偵測模組分析資料之來源。而在實驗 設計中控制指令的傳輸方式,本研究選擇採用透過私人訊息將控制指令傳遞給已 知殭屍電腦,而潛藏殭屍電腦僅只是連線在命令與控制伺服主機之上。舉例來說,
殭屍網路控制者在一室內空間,私下傳遞紙條給已知殭屍電腦,而在相同空間的 潛藏殭屍電腦並不會收到控制訊息。
因為網路安全實驗上的限制,在受監控網域內原已經存在許多電腦主機,因 此本研究無法在受監控網域內安排多個潛藏殭屍電腦,所以本研究的實驗中僅有 一個潛藏殭屍電腦和命令與控制伺服主機,故潛藏殭屍電腦和命令與控制伺服主 機之間的連線會成對出現,所以本研究後續的評估只判斷是否找到潛藏殭屍電
32
腦。
在偵測效能的評估上,由於受限於網路安全實驗,故本研究將使用前 n 項準 確率(Top-n Accuracy Rate)、誤報率(False Alarm Rate)與遺漏率(Missing Rate)做為 評估效能的指標。採用前 n 項準確率目的在於,在本研究中所計算得到之關聯法 則,代表各時段內連線交易項目兩兩之間關聯性的強度,若將信賴度由大至小依 序排列將可獲得一懷疑名單,內容為監控網域內電腦主機與已知殭屍電腦共同連 線至外部主機佔所有已知殭屍電腦連線數比例之排名,因此可以藉由截取懷疑名 單的前 n 項,亦即與已知殭屍電腦具有密切關聯之電腦主機,透過準確度判斷潛 藏殭屍電腦是否被偵測發現。
實驗資料集由 288 個時段所蒐集到的網路連線記錄而成,從中隨機挑選m個 時段進行Apriori關聯法則運算,藉由支持度的高低進行排列可得到m個懷疑名單,
以H1, H2, …, Hm表示之,而前n項準確率計算公式如下[10]:
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦top−𝑛 = 1 𝑚 � 𝜆𝑖
𝑚 𝑖=1
… … (3)
λi的定義為,若潛藏殭屍電腦和命令與控制伺服主機確實出現在前n項懷疑 名單內則λi等於 1,否則λi為 0。該評量標準代表隨機挑選m個流量記錄進行 Apriori關聯法則運算,判斷目標出現在懷疑名單的平均機率。當前n項準確率越 高,代表能夠順利地在各時段的懷疑名單內找出潛藏殭屍電腦和命令與控制伺服 主機。而遺漏率和誤報率可由表 9 的矩陣中的條件構成:
33
表 10 混淆矩陣(Confusion Matrix) 預測
真實
殭屍電腦 正常主機
殭屍電腦 α β
正常主機 γ δ
在表 10 中,α代表實際資料中殭屍電腦的 IP 位址,經由本研究的運算也被 判斷為殭屍電腦的 IP 位址。β表示實際資料中殭屍電腦的 IP 位址,卻被本研究 的關聯法則運算被判斷為正常主機的 IP 位址。γ代表實際資料中正常主機的 IP 位址,但經由本研究的關聯法則運算卻被判斷為殭屍電腦的 IP 位址。δ表示實 際資料中正常主機的 IP 位址,經由本研究的運算同樣也被判斷為正常主機的 IP 位址。從上述實際資料與運算結果的相互比較可以得到四種條件的數量,經過公 式(4)與公式(5)的計算即可得到誤報率與遺漏率,可做為評估偵測系統效能的重 要依據。
誤報率 = α
α+ γ… … (4)
遺漏率 = β
α+ β… … (5)
誤報率為真實狀況下,有多少數量的電腦主機為正常情況,卻被本研究之偵 測模組偵測為殭屍電腦的比率。遺漏率則是所有確實為殭屍電腦中,有多少電腦 主機被本研究之偵測模組判定為正常主機的比率。由於誤報率與遺漏率為互補之 指標,意即降低遺漏率的同時,將導致誤報率的上升,或是降低誤報率的同時,
34
亦會連帶地影響遺漏率的上升。因此為了客觀的評比本研究之偵測模組的效能,
本研究將同時使用此三種評估值做為偵測效能評比之依據,再依據這三項結果評 估關聯法則中支持度、信賴度與時間間隔對於偵測找出潛藏殭屍電腦的影響。
根據表 10,可以得到另一個評估標準,稱為正確率(Accuracy Rate),其計算 公式如公式 6 所示。其計算目的為在所有偵測結果當中,本研究之偵測模組所能 夠正確區分出殭屍電腦與正常主機的比例。
正確率= α+ δ
α+ β + γ + δ… … (6)
然而,本研究採用前 n 項準確率而非正確率的原因在於,在網路安全實驗規 範下,本研究無法把殭屍網路控制程式植入所監控網域內其他電腦主機中,因此 在實驗中做為需要被偵測出的潛藏殭屍電腦數量並不多,假若使用正確率來評估 本研究之偵測模組將會有相當強烈的極端值產生,並無法有效地判斷系統偵測能 力。但若使用前 n 項準確率,將成為平均時段內系統所偵測結果的準確率,當系 統所偵測出的可疑殭屍電腦排名越高,則前 n 項準確率也會越高,可避免使用正 確率時評估數值發生極端差易的情況。