應用資料探勘技術於防火牆最適化策略訂定之先期研究
林俊男
林克偉
林俊成
謝昆霖
中正大學資管所
中正大學資管所
亞洲大學資工系
台東大學資管系
[email protected] [email protected] [email protected] [email protected]
摘要
在有限的資源下,如何將效益發揮到最大是企 業日前一個非常重要的課題,特別是關於資訊安全 的相關議題,如何在現存的防禦設備下,發揮最大 的防禦偵測能力,便是企業面臨的難題。本研究嘗 試利用智慧型的資料探勘技術,從防禦設備—防火 牆的日常紀錄檔中做群聚分析,以挖掘觀察出各種 連線活動的特徵,經由特徵的判斷,找出適合一般 性及各種特殊性的連線活動其適切的防禦偵測規 則,以及其規則最適切的判斷順序組合。 關鍵詞:資訊安全、資料探勘、防火牆、群聚分析。Abstract
It had become an important issue for making the efficiently performance under the limited resources to most enterprises, especial for the topic of information security. In this study, we intend to apply the data mining technique to mine the optimum strategy setting by using the clustering analysis for the log file. The characteristics kept behind the log file can be mined via the data mining technique, and the combination and the sequence of the strategy for the firewall can be obtained.
Keywords: information security, data mining, firewall,
clustering analyrsis.
1. 緒論
隨著資訊科技與網路的快速成長,使人類正式 步入數位化時代,造成電腦與網路已和我們日常生 活有著密不可分的關係。透過電腦與網路雖然帶給 人們極大的便利性,但也相對的造成了許多過去所 沒有的問題,而「資訊安全」(Information Security) 便是在此環境下所衍生出來的問題。 關於資訊安全問題的重要性,我們可以透過各 行業逐年增加資訊安全需求的預算,來得知資訊安 全問題有逐漸受到重視的趨勢(圖 1)[1],許多的企 業為了有效的防治資訊安全的問題,便使用了許多 的防範措施,其中,最常見的一種方式,便是建置 防火牆設備(Firewall)。PC 安全幽靈 Steve Gibson 表示防火牆無法主動的偵測到資訊攻擊,只能被動 式的採取一些事先定義好的過濾規則來阻擋一些 非法的使用者以及未經過允許的應用程式。因此, 防火牆過濾規則設計的好壞,便成為了一個關鍵的 課題。 有關防火牆的研究,已經有很多的專家學者探 討過,但經由文獻的探討後,我們可以發現這些相 關的研究,幾乎都在討論如何制定或加強防火牆的 安全策略[2,5]、提出一個新穎的架構[3,6]、混合其 他技術加強防禦能力[4]等議題,但在現實環境中, 企業不可能一直隨著這些新的研究成果,不斷的改 善自身的防火牆,因為這將造成企業組織一個龐大 的成本花費。因此,在現實環境限制底下,我們應 該去思考如何將現有防火牆設備,其功能發揮到極 致,以平衡成本與效益間的關係。所以,本研究嘗 試應用資料探勘(Data mining)的技術,從防火牆的 log 檔案中,利用模糊群聚解析(Fuzzy clustering analysis)的方式,試圖找出各種連線類型的特徵, 以及適用的安全策略規則,並且找出一組最適切的 安全策略規則順序,使在現有受限的資源下,防火 牆設備能達到最佳的效益。 圖 1. 我國 2001 年至 2003 年各行業資訊安全預算2. 文獻整理
2.1 防火牆(Firewall) 「防火牆」一詞,依照經濟部網路商業應用資 源中心的定義為:位於 Gateway 上的一種安全措 施,以保護企業內部或私人網路資源免於外來侵 入。防火牆系統可為一路由器、個人電腦或是主 機,同時包括安全政策,以規定可被允許的服務與 連線許可。防火牆通常建置於獨立的電腦中,如此 外來的請求無法直接取得私人網路內的資源,其過 濾所有的網路封包,並決定是否將其傳送至目的 地。一種簡單的篩選外來請求方式,為確認其係來 自於先前定義可接受的網域名稱及 IP 位址。對機動 使用者,防火牆則使用安全登錄程度及授權認證, 來允許遠端存取[7]。 防火牆的基本功能應包含[8]: 1.執行保全策略所禁止之資料存取管制。 2.紀錄所有可疑的資料存取。3.當有入侵行為發生時,必須能夠對網管人員提出 警告。 4.有些防火牆甚至還可以提供相關的統計資料,供 網管人員參考。 2.2 資料探勘(Data mining) 資料探勘可說是資料庫技術的一個邏輯上的 演進。最早的資料庫不過是被作為紙張紀錄的一種 替代品,是個僅能夠作概述和報告的資料儲藏室。 但是,隨著 SQL 這樣的查詢工具的不斷發展,資料 庫管理員可以較靈活地查詢資料。而資料探勘技術 的出現使得資料庫管理員能更加有效率的找出隱 藏的樣本和知識。最純粹的資料探勘其實並不包括 尋找特定的資訊,資料探勘僅只是找出資料裡已有 的樣本,而不是先給定一個問題或是假設再來進行 探勘的動作。Fayyad(1996)[9,10]定義的將資料探勘 與資料庫中之知識發掘(Knowledge Discovery and Data Mining)嚴格的區分開來。資料庫中的知識發 掘是從資料中選取合適資料後,再進行資料處理、 轉換、資料探勘以及結果評估,資料探勘不過是知 識發掘的步驟之一。Michael 和 Gordon(2000)[16] 認為資料探勘是經由自動或半自動的方法探勘及 分 析 大 量 的 資 料 , 以 建 立 有 效 模 型 及 規 則 。 Kleissner(1998)[11]則認為資料探勘是一種新的且 不斷循環的決策支援分析過程,它能夠從資料中發 現隱藏價值的知識,以提供專業企業人員參考。綜 合以上所述,本研究認為可將資料探勘定義為:結 合 資 料 視 覺 化 ( Data Visualization )、 機 器 學 習 (Machine Learning,ML)、統計方法(Statistics) 和資料庫(Database)等多種技術以期在大型資料 庫中搜尋、擷取以及歸納出隱藏的知識規則或是模 型,然後將這些規則或是模型提供給專業人員作為 其決策時的重要依據。Fayyad[9,10]認為資料探勘之 步驟應包含: 1.開發一個已知的應用領域,和有意義的/有關的先 備知識(prior knowledge),並且從顧客觀點確認 知識發掘(KDD)的最終目標。 2.建立一目標資料集合: 選擇一個資料集合,或是 變數子集,或是資料樣本來進行資料探勘。 3.資料淨化(Cleansing)以及其他前置作業:至少 須包括消除雜訊,收集建構模型的必要資訊,以 決定如何處理遺失的資料檔案,並列出時間序列 的資訊和變動。 4.資料轉換(transfer)和減量(Reduction): 根據 任務目標中所描述的資料,找出其中有用的特 點。利用維度換算或轉換的方法,使得有效變數 的數量減少,或發現資料中的不變數。 5.選擇適合進行知識發掘(KDD)流程(步驟一) 的 一 種 資 料 探 勘 類 型 。 例 如 : 彙 總 (summarization)、分類(classification)、分群 (clustering)等。 6 選擇演算法:依知識發掘(KDD)的資料屬性、 型態,選擇適合的資料探勘演算法尋找資料關係 模型(pattern)。 7.進行資料探勘:找出有意義的資料關係模型。 8.解釋步驟七所建立的資料模式,或是再次執行步 驟一到七之間任一步驟。 9. 解 釋 探 勘 結 果 及 評 估 所 得 關 係 類 型 ( Interpretation/Evaluation ): 包 含 知 識 的 呈 現 (Knowledge Presentation)。 2.3 模糊群聚(Fuzzy Clustering) 群聚演算法(Clustering Algorithm)的理論基礎 是在資料集之中,劃分別出許多各有共同特色的群 組,並進行特色分析,它影響所呈現的現象為如 何,則可找出對策略有益的參考資訊,以增強、改 善或了解策略的規劃與實施。群聚技術又可以分為 模 糊 群 聚 (Fuzzy Clustering) 與 硬 式 群 聚 (Hard Clustering)兩大類,其差別在資料點與群組之間的 關聯度不同。例如其各別關聯度呈現之值域[11]: 1.Hard Clustering: 0, 1 (0 or 1) 2.Fuzzy Clustering: [0, 1] (0~1 之間所有可能之值) Hard Clustering [14] 是在資料點被分配到某一 群 組 後 , 就 與 其 它 群 組 沒 有 關 聯 了 ; 而 Fuzzy clustering 之資料點則會有與各群組的隸屬值,才將 其歸類到隸屬程度高的群組,所以當資料點介於兩 群組間之較模糊地帶時,尚可明確地知其資料點對 於 兩 群 各 別 之 隸 屬 程 度 如 何 。 所 以 能 較 Hard Clustering 方法,得知資料在其它群組的方面,它所 擁有的隸屬度。所以 Fuzzy Clustering 應用在市場區 隔[13]、影像切割或需要較詳細的分群功能時,則 可以有更進一步之隸屬資訊,如圖 2 所示。 Cluster A Cluster B V1 V2 Xk 0.6 0.4 圖 2. 模糊群聚圖[11]
本研究採用 Fuzzy C-means algorithm (FCM)之 模糊聚群演算法,由 Bezdek(1981)[15]所提出之目 標函數:
( )
(
)
∑∑
= = − = c i n k i k m ik m U V d x v J 1 1 2 ) , ( Min μ (1) 而 c: 群組數 n: 資料數 m: (m≧1) 模糊度之參數 ( )∑
(
)
= − = − p j ij kj i k v x v x d 1 2 2 (p 為資料之維度) (2) ikμ
: 為資料點對中心點之隸屬度(
)
(
)
[
]
∑
= − − − = c h m h k i k ik v x d v x d 1 1 1 2 2 / 1 μ (3)1≦ ≦ 1 k ni c, ≦ ≦ c 個群與各資料點之隸屬度: ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = × cn c n n c U μ μ μ μ μ μ ... . . ... 1 21 1 12 11 (4) 為 c 個群之中心點距陣: ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = c c v v v V . 2 1 (5)
( )
( )
∑
∑
= = = n j m ij j n j m ij i x v 1 1μ
μ
1≦ ≦ (6) i c 群組的分割好壞,可由群組內的相似程度高 低,與群組與群組之間的差異多寡來判別。群組內 的相似程度愈高,則其群組分得愈好,而群組與群 組之間的差異,則是愈大愈好。3. 研究方法與實驗
接 下 來 我 們 即 將 描 述 本 研 究 的 資 料 處 理 程 序,如圖 3 所示, 圖 3.本研究資料處理程序 3.1 資料收集與前處理 我們從某地方政府機關的資訊部門之防火牆設 備中,將一日內的 log 紀錄檔隨機抽出 1000 筆,且 將各種類別型資料加以編碼,並彙整成 15 項屬性 (如圖 4、圖 5)。 圖4. 原始log紀錄檔 圖5. 經前處理過後的資料 3.2 模糊分群 為了簡化分析操作,我們利用 Matlab 工具軟體 來實現 FCM 的模糊分群方法,首先便是要進行 FCM 相關的參數設定與操作,其過程請參見圖 6(以 分兩群為例)。 圖 6. FCM 相關參數設定與操作過程 接著我們利用試誤法(try-and-error)來獲得決定 分群數的資訊。由於決定群數時常是決策者在進行群聚分析中,最感到困惑的地方,因此我們設計了 一個指標來輔助決策者選擇分群群數,這指標是取 自 於 FCM 的 特 色 — 模 糊 歸 屬 函 數 (fuzzy membership degree);歸屬函數值越大,代表該資料 所屬於該群的程度越大,歸屬函數值越小,則反 之;我們也可以利用此特性推導出:如果在某一分 群的結構下,其歸屬函數值之最大值與最小值相減 後的差值越大,表示該分群結構越明顯,否則反 之。利用這個原理將可以輔助決策者在進行群聚分 析時的參考依據。我們所設計的此指標步驟如下: 步驟一、將每一個分群過程的歸屬函數值統整紀 錄,繪製成一個比較表。 首先將每一個分群過程的歸屬函數值統整紀 錄,目前我們僅針對群數為 2 到 10 的情形進行群 聚分析。以劃分成 2 群的情形為例,其第 1 筆至第 10 筆資料的歸屬度值如表 1 所示。 表 1. 歸屬度值 步驟二、接著利用公式(7)計算不同分群結構時,各 筆資料對應所屬群的歸屬函數差值,公式如下:
(
)
(
ijk)
i all k j i i all k j MAX MD MINMD DV, = ,, − ,, (7) 其中,MD
i,j,k意指在第 k 個分群過程中,第 j 個資料對於第 i 個分群所構成的歸屬函數值; k jDV
, 意指在第 k 個分群過程中,第 j 個資料點所 構成的歸屬度差值(最大歸屬度值 - 最小歸屬度 值);i 表示在 k 個分群過程中之群數;j 表示在進行 群聚的資料點;k 表示被用來執行的可能分群過 程。同樣以劃分成 2 群的情形為例,其第 1 筆至第 10 筆資料的歸屬度差值如表 1 裡的黃色部分所示。 步驟三、針對每個分群的處理過程,找出最小的歸 屬函數差值,其公式說明如下:(
jk)
j all k MINDV MDV = , (8) 其中,MDV
k表示在第 k 的分群處理過程中 的最小歸屬函數差值。所以其各別分群之最小歸屬 度值的差值如表 2 所示。 表 2.最小歸屬度差值 步驟四、找出所以分群過程中最小歸屬函數值差值 之最大值以決定最適分群數,所採用的判斷式如 下:(
k)
k all MDV MAX ODV = (9) 其中,ODV
表示在所有分群過程中之最小歸 屬函數差值之最大值,其所對應的分群數即為最適 分數。由表 4 我們可以發現,在分成兩群的結構時, 依據我們所設計的指標所得到之 ODV 值最大,因 此在本研究中,我們可以選擇兩群的結構是最適切 的群數結果。 3.3 群聚解析 根據 ODV 值,我們選擇 2 群的結構進行群聚 分析,並且有幾點有趣的發現: (1)如表 3 所示,落在第 1 群的 10 筆資料,皆受到 規則第 39 條的判斷而被阻擋在防火牆外,此 10 筆資料有一個共同的特徵,便是皆從同一個來源 端所發送出來的封包(10.97.68.106),因此我們可 以建議管理者針對該 IP 位置做更進一步的瞭解 與處理。或是針對該 IP 將規則第 39 條調整至較 為前面的檢查順序,以優化防火牆設備的效能。 表 3. 劃分 2 群時,歸屬於第 1 群的資料 (2)針對剩餘的 990 筆資料,我們以防禦規則為基礎 進行簡單的統計後可知,在這些資料中,最常被 使用來判斷的規則依序是規則 18(555 次)、規則 17(148 次)和規則 39(126 次),因此我們可以建議 管理者可以將此三條規則其判斷的優先順序調 整至較前面的優先順序,並且將未使用的規則如 規則 1、規則 2…等調整至較後面的優先順序, 以使防火牆設備的效率更佳。 表 4.劃分 2 群時,第 2 群資料使用之判斷規則統計4.討論與結論
網路的安全性已成為一個廣泛討論的話題,該 如何在如此複雜的環境裡找到安全的通道,想必永 遠是一個重要的議題。有鑑於目前防火牆的昂貴, 專業人員的不足以及經費的缺乏,希望透過本研究 提出的方法,可以幫助企業、學校等組織在有限的經費、設備下,將其防禦設備之功能發揮到極致。 但是在時間、人力、經費與設備等種種的限制下, 尚有一些議題可以藉由後續的討論加以改進: (1)資料的取樣:由於本研究目前著重於此方法的可 行性與合理性,因此在實驗的階段只利用一小段 的時間內資料來進行實驗,後續應該完整的針對 單一組織來蒐集一個長時間的資料,並進行分析 的程序,且應採取其他資料進行驗證,以發揮本 方法真正的功效。 (2)多維度的分群解析:目前本研究只針對防火牆設 備已制定好的防禦規則來進行討論其設定的規 則之判斷優先順序是否適切,後續研究可以針對 其他的特徵、或是搭配多種不同的特徵去做混合 式的群聚解析,相信會有意想不到的收穫。 (3)防禦規則的特徵:本研究初步只討論其防禦規則 順序排列的適不適切,後續研究可以針對防禦規 則裡的特徵,進行相關的討論,以期望制定出更 為適切的規則。 (4)其他的資訊設備:本研究目前只針對防火牆設備 來進行討論,但其相關資訊安全設備事實上種類 非常繁多,所以未來可以針對其他的資訊安全設 備來做進一步的解析。 (5)Fuzzy C-means:本研究主要利用 FCM 演算法來 進行群聚解析的動作,主要理由是想藉助 FCM 裡的模糊歸屬函數特性,制定出一個劃分群數的 依據,但是事實上,還可以針對模糊歸屬函數, 進而探討其單一資料在群與群間的隸屬程度,依 照隸屬程度的強弱,應可搭配出更加適切的制定 規則。 (6)其他的分析技術:未來研究可以嘗試使用不同的 群聚技術(例如:統計方法、類神經網路等),或 是採用其他的思維方式(非群聚的觀念)來進行探 討,或許會出現出有趣的結果。
參考文獻
[1]資訊安全發展現況與趨勢 http://www.nbl.org.tw/nbl_old/service/report/s003. pdf [2]黃志琦(民86)。經濟型企業網路防火牆。中原大 學資訊工程研究所碩士論文,桃園縣。 [3]王振茂(民90)。電子商務交易課稅應用防火牆之 架構探討。中華大學科技管理研究所碩士論文, 新竹市。 [4]黃新琪(民84)。建構結合IP路由器及代理伺服器 之多層防火牆。元智大學電機與資訊工程研究所 碩士論文,桃園縣。 [5]陳世洋(民92)。以IPTABLES設計高可用性叢集式 防火牆。南台科技大學資訊管理研究所碩士論 文,台南縣。 [6]游啟勝(民91)。合作式防火牆之設計與應用。國 立中央大學資訊管理研究所碩士論文,桃園縣。 [7]經濟部網路商業應用資源中心 http://www.ec.org.tw/knowledge/glossary_detail.as p?keyword=19 [8]網際家數位科技 http://www.e-ipro.com/products/security/firewall/in dex.php[9] Fayyad, U. M., Data mining and knowledge discovery: making sense out of data, IEEE Expert, Vol. 11, No. 5, 1996, pp.20-25.
[10] Fayyad, U. M., G.. Piatetsky-shapiro, and P. Smyth, From Data Mining to Knowledge Discovery in Databases, 1996, AI Magazine, pp.37-54.
[11] Kleissner, C., Data mining for the enterprise, Proceedings of the Thirty-First Hawaii International Conference, Vol. 7, 1998, pp. 295-304.
[12]簡祥全(民91)。知識經濟國家時間群聚分析。朝 陽科技大學資訊管理研究所碩士論文,台中縣。 [13] Hsu, Tsuen-Ho(1999). An Application of Fuzzy
Clustering in Group-Positioning Analysis. Department of Business Administration, I-Shou University,.
[14] Zimmermann, J. J., Fuzzy Set Theory and Its Applications, 1991, Kluwer Academi, Boston. [15] Bezdek, J. C., Pattern Recognition with Fuzzy
Objective Function Algorithms, 1981, Plenum Press, New York, NY,
[16] Michael J. A. Berry, Gordon S. Linoff., Mastering Data Mining, 2001, John Wiley & Sons, Inc.