第五章 實驗與結果
5.3 實驗結果
False Positives(FP):FP 指的是系統把某隻程式判斷為惡意程式,但其實它是正常程式,也 就是所謂的誤判,誤判率可用下面表示 *100%
TN FP
FP
+ 。
False Negatives(FN):FN 指的是系統把某程式判斷為正常程式,但其實它是惡意程式,FN 偵測率可用下面式子表示 *100%
CV Rate:我們使用這個符號代表系統的預測率,表示偵測一個未知或新的惡意程式的能力,
它的計算公式同於 OA。
5.3 實驗結果
首先讓我們看四類惡意程式使用不同 Information Gain 值取出特徵再使用 SVM 訓練與預 測的結果,圖 5-1 為病毒的結果,圖 5-2 為 Worm 的結果,圖 5-3 為 Trojan 的結果,圖 5-4 為 Backdoor 的結果。橫軸為不同 Gain 值,縱軸為偵測率,Gain 值取法為從這個值至 1 為止(例 Gain 0.05 為 Gain 從 0.05 至 1 的範圍)我們可以很明顯的發現,每一類的偵測率(OA)與預測 率(CV)都隨著 Gain 值變小(特徵變多)而增加,到最後則有收斂的現象,不再增加,但很明顯 的可以發現,在 Trojan 與 Backdoor 這兩類整體的偵測率與預測率都小於 Virus 與 Backdoor,
原因是 Trojan 與 Backdoor 這兩類的程式與一般的程式非常類似,而且程式數目遠比前兩類高 出許多,所以效果較前兩類差。而 Trojan 這一類的 Gain 在 0.05 的預測率比其它 Gain 都要來 的高,這也許是因為 Trojan 這類惡意程式混雜了太多不同類型的程式在裡面所導致的原因。
95.91
Info Gain
Detecting Rate(%)
CV OA
Info Gain
Detecting Rate(%)
CV OA
圖 5 - 2 不同 Info Gain 值 Worm 的偵測與預測率
92.73
Info Gain
Detecting Rate(%)
CV OA
Info Gain
Detecting Rate(%)
CV OA
圖 5 - 4 不同 Info Gain 值 Backdoor 的偵測與預測率
在這裡我們做一個小實驗,要把從 Information Gain 之後的特徵使用 PCA 減少維度,但
使用那一種 Gain 值經 PCA 轉換後的效果較好?使用原本 OA 較高的 Gain 為佳還是使用最多特 徵數的 Gain 值?我們以 Virus 為實驗對向,因為它在不同 Gain 下 OA 的差距最大,選擇 Virus OA 最高 99.31 Gain 值為 0.01,與特徵最多的 Gain 值 0.00001 其 OA 為 Virus 98.87,其結果 如下圖 5-5、5-6 所示,明顯的不管是 CV 或 OA 兩個不同 Gain 值做出結果有相當大的差距,在 特徵數較少但 OA 較高的 Gain 0.05 完全比特徵數較多但 OA 較小的 Gain 0.00001 效果還差,
所以這裡證明了 Information Gain 都沒有用了?其實不盡然,因為在做出四類的 Information Gain 裡,如果平均 Gain 較高者,做出來的結果會特別好,所以如果事先知道 Information Gain 較好,即不用再浪費時間做訓練,以省下大量時間。
94.25
94.0894.0494.12
94.2994.33
95.5495.50 95.34
EigenValue Cumulation(%)
Detecting Rate(%) Gain 0.01 Gain 0.00001
圖 5 - 5 Virus Gain 值經 PCA 轉換 CV 比較
96.2796.4796.47
97.8198.01
96.68
97.6197.73
97.9798.17 98.54
98.0198.14 98.74
99.27
98.10
98.9198.95
98.6898.85
98.5898.7098.74
98.9598.99
EigenValue Cumulation(%)
Detecting Rate(%) Gain 0.01 Gain 0.00001
圖 5 - 6 Virus Gain 值經 PCA 轉換 OA 比較
94.25
Detecting Rate(%) After PCA CV Before PCA CV
圖 5 - 7 各類別 PCA 轉換前後 CV 比較
97.7 97.9 98.1 98.3 98.5 98.7 98.9 99.1 99.3 99.5 99.7
Average
Detecting Rate(%) Before PCA OA After PCA OA
圖 5 - 8 各類別 PCA 轉換前後 OA 比較
93.62
Detecting Rate(%)
CV OA
Detecting Rate(%)
TP FP
表 六 誤判率(FP)與程式數目
Virus Worm Trojan Backdoor Average FP 0.6% 0.78% 4.3% 3.8% 2.37%
Number 10 12 67 59 37
第六章 結論與未來展望
在過去做病毒研究遇上的難題之一為病毒集的來源,沒有特定的病毒資料集,只能在網路 上零散的收集,直到近幾年才有 VX Heaven 這個網站提供一個完整的資料集,但仍只有少數 論文一次針對所有惡意程式進行研究,即使有使用程式數目仍不多,至目前為止只有本篇論文 使用高達約 10000 隻程式做實驗,並仍有很好的結果,而且有一般防毒軟體所沒有的偵測新型 惡意程式的能力。在資料探勘技術方面使用 Information Gain 與 Principal Component Analysis 兩個方法,從第五章的實驗結果可以明顯看出 PCA 的結果比 Information Gain 好,
並且可以使用更少的特徵,因為系統使用機器學習理論來實現所以會有誤判的行為,對於機器 學習誤判問題至今仍無一套適用於每一種系統的解決方法,所以將來可以針對這個系統提出解 決方案,如此才能離商業化越來越近。
參考文獻
以文章使用到的順序排序
[1] Yahoo news, http://tw.news.yahoo.com/060505/215/33rl9.html.
[2] The Kaspersky Lab, http://www.kaspersky.com.
[3] McAfee, Inc, http://www.mcafee.com/us/.
[4] Trend Micro, Inc, http://www.trendmicro.com/en/home/us/enterprise.htm.
[5] Symantec Corporation, http://www.symantec.com/index.htm.
[6] Panda antivirus, http://www.pandasoftware.com/.
[7] Microsoft, http://www.microsoft.com/.
[8] Yahoo!, http://www.yahoo.com.tw.
[9] Matt Pietrek, “An In-Depth Look into the Win32 Portable Executable File Format,”
MSDN Magazine, March 2002.
[10] Microsoft Corporation, “Portable Executable Formats,” Formats specification for Windows.
[11] Trend
technology, http://www.trendmicro.com/tw/security/general/guide/overview/guide01.h tm.
[12] Fred Cohen, "Computer Viruses", PhD Thesis, University of Southern California, ASP Press, 1988.
[13] Worm. http://en.wikipedia.org/wiki/Computer_worm [14] Symantec Report2005.
[15] Trojanhttp://en.wikipedia.org/wiki/Trojan_horse_%28computing%29 [16] Trojan in
wikipedia, http://zh.wikipedia.org/wiki/%E7%89%B9%E6%B4%9B%E4%BC%8A
%E6%9C%A8%E9%A9%AC_%28%E7%94%B5%E8%84%91%29.
[17] 許明陽,逢甲大學資工系 Computer Viruses Detection Through Hooking API, 2001.
[18] Tzu-Yen Wang, Shi-Jinn Horng, Ming-Yang Su, Chin-Hsiung Wu,Peng-Chu Wang and Wei-Zen Su, “A Surveillance Spyware Detection System Based on Data Mining Methods”, 2006 IEEE Congress on Evolutionary Computation, July 16-21, 2006, pp11005-11010.
[19] J. R. Quinlan, “Induction of decision trees”, Machine Learning, 1, 1986 [20] A tutorial on principal components
analysis, http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf.
[21] PCA, http://www.eng.man.ac.uk/mech/merg/Research/datafusion.org.uk/pca.html.
[22] V. Vapnik, “Statistical Learning Theory,” Wiley, New York, 1998.
[23] E. Ardizzone, A. Chella, R.Pirrone, “An Architecture for Automatic Gesture
Analysis”, Proceedings of the Working Conference on Advanced Visual Interfaces May 2000.
[24] A.H. Sung and Srinivas Mukkamala, “Identify Important Features for Intrusion Detection Using Support Vector Machines and Neural Networks,” 2003 Symposium on, Applications and the Internet, 2003. Proceedings. 27-31 Jan. 2003, pp.209 -216.
[25] J.Z. kolter & Marcus A. Maloof; “Learning to detect malicious executables in the wild; Conference on Knowledge Discovery in Data”, Proceedings of the 2004 ACM SIGKDD international conference on Knowledge discovery and data mining, pages:
470 – 478
[26] Dependency Walker Website, http://www.dependencywalker.com/
[27] Chih-Chung Chang and Chih-Jen Lin, {{LIBSVM}: a library for support vector machines}, 2001, http://www.csie.ntu.edu.tw/~cjlin/libsvm
[28] VX Heavens, http://vx.netlux.org [29] VMware, http://www.vmware.com [30] 史萊姆, http://www.slime.com.tw [31] 軟體王, http://www.softking.com.tw [32] PChome, http://toget.pchome.com.tw
Appendix
程式版本資訊特徵使用列表
檔案關聯的註解 Comments
公司名稱 CompanyName
組建編號 FileBuildPart
檔案的描述 FileDescription
版本號碼的主號部份 FileMajorPart 檔案版本號碼的次號部份 FileMinorPart 檔案私用部分號碼 FilePrivatePart
檔案版本號碼 FileVersion
檔案的內部名稱 InternalName
預設語言字串 Language
所有套用至指定檔案的著作權注意事項 LegalCopyright 商標與套用至檔案的註冊商標 LegalTrademarks 建立檔案所使用的名稱 OriginalFilename 檔案私用版本的資訊 ProductBuildPart 與這個檔案關聯的產品版本號碼的主號部份 ProductMajorPart 與這個檔案關聯的產品版本號碼的次號部份 ProductMinorPart 檔案所散發的產品名稱 ProductName
檔案關聯的產品私用部分號碼 ProductPrivatePart 檔案所散發的產品版本 ProductVersion 檔案的特殊組建資訊 SpecialBuild
會議名稱:2009 IEEE International Conference on Networking, Architecture, and Storage (NAS'09)
會議時間: July 9-11, 2009
報告單位: 台灣科技大學
報告人: 洪西進 教授
2009 年國際網路、結構和儲存會議 (2009 IEEE International Conference on Networking, Architecture, and Storage (NAS'09)) ,今年在中國湖南省的張家界舉 行。會議從七月九日至七月十一日,在這三天的議程裡總計發表了近 50 篇論文,
議程分類如下:
* Ad hoc mobile networks * Mobility models and systems * Network applications and services * Network architectures and management * Optical networks
* Peer-to-peer systems
* Resource allocation and management * Routing protocols,
* Security, trust, and privacy * Self-organizing networks * Sensor networks
* Virtual & overlay networks * Web services
* Network protocols * Processor architectures * Cache and memory systems * Parallel computer architectures * Evaluation of storage architectures * Parallel I/O architectures
* Storage management software
* Power-efficient architectures and techniques * High-availability architectures
* High-performance I/O systems * Reconfigurable architectures
* Interconnect and network interface architectures * Innovative hardware/software trade-offs
* Impact of compilers on architecture * Performance evaluation
* Storage manageability, reliability, availability, and security * Storage performance and scalability
* File systems, object-based storage, block-level storage * Storage networking
* Energy aware storage
今年大會邀請 Kai Hwang 教授為 Keynote Speaker,黃教授講的題目為 Virtual Clusters for Grid, Cloud, and High-performance Computing,這是時下最夯的研究方 向。黃教授深入淺出點出為甚麼要用雲端計算而背離現有的個人電腦系統,其 最大的理由為系統有專人管理不容易遭受入侵、病毒等總總攻擊。這樣的論點 固然沒錯但問題是私有性的問題、計算系統的運算能力的問題和網路頻寬的問 題。這仿佛回到 30 年前 IBM370 Time Sharing 的時代,所有的計算資源皆集中化。
走回頭路是否能讓全世界的電腦使用者認同,那就見仁見智了。
二 會議心得
張家界是湖南省的觀光勝地之一,到處是美景天成彷彿置身於國畫世界。以 往看國畫中的山水畫總以為那是畫家用其想像力所虛構出來的畫面,這次有幸造 訪張家界始知原來國畫中的這些山水畫還真是言之有物和現實差不了多少!由 於張家界多山,景點與景點之間是靠著大巴和空中纜車來聯繫,我對空中纜車相 當深刻。其中有條通往仙山的空中纜車非常驚險,乘座在上面有如騰雲駕霧般,
因為下面盡是陡峭和望不見深度的筆直的山。當纜車緩緩駛入月台時,心中一直 盤算著這樣的工程其難度何止台北貓空纜車的十倍?為何張家界能台北卻不 能?不是不能也而是不為也!
張家界也有規畫一日遊或二日遊的行程,街道上人來人往好不熱鬧,商店中的 貨品相當齊全,羊毛、狐狸毛、皮革製品、流行時尚精品、要甚麼有甚麼。我總 覺得現代化的都市之所以現代化,便利的交通為首要,其次是足夠的人文藝術氣
息,張家界依其自然資源和現代城市結合,如此觀光客可以在無任何壓力下完成
自助旅行,使其在旅遊業獨占鼇頭。張家界做得到,台北市可以嗎?
三 建議與攜回資料
這一次在張家界辦的國際會議相當成功,其中之一的主要因素為經費充足,
國科會在補助國人辦理國際會議應多多掖助經費,有道是有錢好辦事。
攜回資料:Proceedings of IEEE International Conference on Networking, Architecture, and Storage (NAS'09), Zhang Jia Jie, China, July 9-11, 2009.