殭屍網路在進行攻擊時大多以網域或網段為目標進行攻擊,然而不同的網域 間會不會產生不同的攻擊情形,這個現象甚少被探討,因此本研究在兩段不同的 觀測網域中,各架設了被動式誘捕系統,蒐集兩邊網域的 SSH 字典檔攻擊資料。
這兩段網域分別代稱為網域 A 以及網域 B ,網域 A 屬於學術網路環境,網域 B 屬於學術研究用網路環境,蒐集資料時間皆是從 2009 年 10 月到 2010 年 10 月。這些攻擊資料分別來自不同攻擊殭屍,經過整理後分別得到 841 個字典 檔以及 1251 個字典檔。在這些字典檔中,有些字典檔內的帳號密碼組合數量只 有 1 個,或者有些字典檔內容數量達到一萬以上,為了避免這些內容數量過少 或過多的字典檔影響到分群情形,本研究將這些字典檔視為離群值( Outliers ),
不屬於叢聚分析的資料集。離群值的設定部分,由於難以確定少於 4 筆帳號密 碼組合的字典檔是否為正常使用所造成的誤打錯誤,亦或是字典攻擊的事件,因 此資料集中的字典檔其內容數量皆不小於 4 ,在網域 A 字典檔中最多的內容 數量超過一萬筆,與其他字典檔的內容數量相差太多,且只有一個字典檔,因此 將此字典檔亦視為離群值。經過過濾掉離群值後,在網域 A 的字典檔中帳號密 碼組合數量最少為 4 ,最多為 8680 ,全部攻擊殭屍的字典檔資料集有 609 ; 在網域 B 中,由於 SSH 字典檔攻擊數量比網域 A 高出許多,因此有較多字 典檔內容數量超過一萬,因此在網域 B 的字典檔中,帳號密碼數量最少為 4 , 最多為 11782 ,全部攻擊殭屍的字典檔資料集有 1055 筆。
本研究以階層式叢聚分析法對各網域接收到的 SSH 攻擊字典檔內容相似 度做叢聚分析,以呈現各網域受到各殭屍網路群組攻擊的情形。在本節中呈現的 叢聚分析結果以網域 A 為主,在網域 A 所蒐集到的字典檔資料集以帳號密碼 組合數量為基準,分布情形如圖 4-5 , X 軸為字典檔內帳號密碼組合的數量,
Y 軸為個數,以圖中 Y 軸最高的一點為例,代表有超過 70 個字典檔內帳號密 碼組合數量相同,且該數量小於1000,其分布如圖 4-7 。
27
圖 4-7. 觀測網域中蒐集到之字典檔帳號密碼組合數量分布
根據圖 4-7 的整體分布圖可以看出,大部分的字典檔內容數量都集中在 100 以 下,因此在觀測網域中,出現內容數量較多的字典檔次數較少,大部分的字典檔 是屬於內容數量較少。在表 4-1 中以字典檔的內容數量為單位,分段統計內容 數量在300 以下的字典檔數量占全部字典檔數量的比例。
表 4-1. 字典檔內容數量小於 300 所占比例 字典檔內容數量( Counts ) 字典檔數量所占比例
(單位:%) Counts≦5 5.4%
5<Counts≦10 8.7%
10<Counts≦50 35.8%
50<Counts≦100 13.1%
100<Counts≦200 10.7%
200<Counts≦300 7.7%
在表 4-1 中,可以明顯看出在內容數量 10 到 50 之間的字典檔數量就占 35%
的比例,因此在這內容數量屬於區間的字典檔占較多比例。經過各比例累加後更 可以發現內容數量在 50 以下的字典檔數量就占全部字典檔數量約 50% ,在 300 以下就超過了百分之 80,因此在網域 A 中大部分的字典檔內容數量是小 於 300 。
在本研究的叢聚分析方法中,採用階層式叢聚分析法中常見的聚合式叢聚分 析 法( Bottom-Up ) , 而 聚 合 式 叢 聚 分 析 法 又 可 分 為 單 一 鏈 結 叢 聚 方 式 ( Single-Linkage )以及完全鏈結叢聚方式( Complete-Linkage ),就叢聚結果而言完 全鏈結叢聚法相較於單一鏈結法理想,因此本研究採用完全鏈結法做為叢聚分析 的方法。叢聚分析產生的樹狀圖須要給定一個相似度門檻值,以決定各分組群組,
28
也由於本研究各字典檔間的距離是採用 Jaccard 距離,其範圍值域為 0 到 1 之 間,因此相似度門檻值的範圍也在 0 到 1 之間。本研究分別設定不同的相似度 門檻值,分別計算在各相似度門檻值中各群組的平均群外距離以及平均群內距離,
以叢聚品質指標衡量判定網域 A 之相似度門檻值。
z 平均群內距離( Mean Intra-Similarity, MIS):叢聚分析結果中各群組內各字典 檔彼此距離的總和平均值,其值越小代表群內各個字典檔的相似程度越高。
∑ ∑ ; ,
C:叢聚分析結果
Mi:第 i 群群組內的攻擊來源個數 Sjk:j、k 攻擊來源間字典檔相似度 n:叢聚分析結果中群組數量
z 平均群外距離( Mean Outer-Similarity, MOS):叢聚分析結果中各群組內各個 字典檔與所有不同群的字典檔間距離的總和平均值,其值越大代表各個群組 內的字典檔與群組外的字典檔差異程度越高。
∑ ∑ ;
C:叢聚分析結果
Ri:第 i 群群組內各攻擊來源與群組外攻擊來源配對組合數量 Sjk: j、k 攻擊來源間相似度
n:叢聚分析結果中群組數量
z 叢聚品質衡量指標( The Quality Measure of Clustring, CQ ):此項指標是由賴 學者等人提出對叢聚分析結果內容衡量的指標(Lai & Liu, 2009),當值越小 代表該叢聚分析結果的品質越好,本研究將此叢聚品質衡量指標分別將分子 與分母改用平均群內距離以及平均群外距離,值越小代表字典檔相似度越高,
不在同一群中之字典檔相似度越低。
29
1 ClusterA-2 18 201.0 ClusterA-3 17 66.6 ClusterA-4 13 165.7 ClusterA-5 11 36.6
ClusterA-6 6 28.5
ClusterA-7 5 5.2
ClusterA-8 5 7.4
ClusterA-9 5 9.0
ClusterA-10 5 206.4
在網域 A 的叢聚分析結果中,在 ClusterA-1 群組內有 66 個不同攻擊殭屍所
30
31
使用的字典檔,這些字典檔內平均的帳號密碼組合的資料數量都為 15,而帳號 密碼組合內容皆為一樣。而 ClusterA-2 中帳號密碼組合的資料數量平均為 201 , 在 帳 號 密 碼 組 合 內 容 上 也 是 呈 現 高 度 相 似 的 情 形 。 但 就 ClusterA-1 以 及 ClusterA-2 群組中的字典檔彼此比較,在數量上就有極大的差異,在字典檔內容 部分如表 4-4 所示, 4-4(a) 是 ClusterA-1 群組中所使用的 SSH 攻擊字典檔內 容,共有 15 筆帳號密碼組合, 4-4(b) 為 ClusterA-2 所使用的部分 SSH 攻擊 字典檔內容,擷取至前 15 筆,此兩組字典檔彼此間相同的部分有 7 筆,而 ClusterA-2 的字典檔內容數量有 201 筆,內容數量明顯多過於 ClusterA-1 的字 典檔,因此以兩字典檔比較就可得知兩個群組在內容上而言極為不同。
表 4-4 ClusterA-1 與 ClusterA-2 群組之字典檔內容 (a) ClusterA-1
帳號 密碼
root 111111 root 123456 root 1q2w3e root password root p@ssw0rd root qwerty root redhat root 1234 root abc123 root abcd1234 root pa55w0rd root passw0rd root root test test oracle oracle
(b) ClusterA-2
帳號 密碼
root 111111 root 123456 root 1q2w3e root password root p@ssw0rd root qwerty root redhat roor america roor america123 roor america1234 roor america12345 roor america123456 root 0000 root 00000 root 000000
… …
除了 ClusterA-1 以及 ClusterA-2 兩個群組的攻擊字典檔存在差異性外,所有群 組的字典檔內容彼此間存在一定程度的差異,因此以此叢聚分析流程對 SSH 字 典檔攻擊之字典檔做叢聚分析可以區別群組,對於使用這些字典檔的攻擊殭屍更 清楚地呈現群組情形,本研究也以此叢聚分析的流程對兩個網域的攻擊資料進行 叢聚分析,並以此叢聚分析結果進一步探討觀測網域中不同攻擊群組的特性。
32