• 沒有找到結果。

運算效能評估 運算效能評估 運算效能評估 運算效能評估

在文檔中 中 華 大 學 (頁 46-58)

針對以上所設計的實驗,執行之後的效能做分析與評估,分別描述如下:

4.2.1 靜態資料探勘

靜態資料探勘靜態資料探勘靜態資料探勘

實驗 1 的資料集是 T10.I6,如圖 4.1 所示,橫軸是交易資料筆數,交易資料筆 數分別是 D1K,D5K,D10K,D15K 與 D20K,縱軸是時間,時間的單位是秒。從 圖 4.1 可以看出,當交易資料筆數變多時,IMPHP 所耗費的時間較少,且資料量越 大,差異越大。IMPHP 相較於 MPIP 效率提升平均約 20 %。

0 2000 4000 6000 8000 10000 12000 14000

D1K D5K D10K D15K D20K

Dataset Tim

e (s econ ds)

MPIP IMPHP

圖 4.1 實驗 1:MPIP 與 IMPHP 執行時間比較 T10.I6。 ( D1K ~ D20K ) 另外在不同的最小支持度的設定下,我們也做了實驗。實驗 2 的資料集是 T10.I6.D1K,如圖 4.2 所示;其中橫軸是最小支持度,分別是 0.8 %,0.7 %,0.6 %,

0.5 % 與 0.4 %,縱軸是時間,時間的單位是秒。從本實驗數據中可以看出,最小支 持度設定越小,執行所耗費的時間越多。由實驗結果顯示,不論最小支持度設定為何,

IMPHP 所耗費的時間較少。在不同最小支持度下,IMPHP 相較於 MPIP 效率提升最 多約 6.3 %,平均約提升 4 %。

0 500 1000 1500 2000 2500 3000 3500 4000

0.8% 0.7% 0.6% 0.5% 0.4%

Minimum Support (%) Tim

e (s econ ds)

MPIP IMPHP

圖 4.2 實驗 2:MPIP 與 IMPHP 執行時間比較 T10.I6.D10K。 ( Min. Sup.

0.4%~0.8% )

4.2.2 動態資料探勘

動態資料探勘動態資料探勘動態資料探勘 – 新增加交易資料新增加交易資料新增加交易資料新增加交易資料

此實驗的資料集是 T5.I2,原始交易資料量為 D5K,如圖 4.3 所示,橫軸是交 易資料筆數,交易資料筆數每次增加 D1K,分別是 D5K,D5K+D1K,D5K+D2K,

D5K+D3K,D5K+D4K 與 D5K+D5K,縱軸是時間,時間的單位是秒。從圖 4.3 可 以明顯地看出,當交易資料增加筆數變多時,IMPHP 所耗費的時間,與先前比較差 異不大,一直到了 D5K+D5K 也變化不多。但是相對於 FUP 所耗費的時間,則是 當交易增加筆數變多時,耗費的時間越來越多。甚至到了 D5K+D5K 時,耗費的時 間將近是原始的 D5K 耗費時間的約 2.5 倍。IMPHP 相較於 MPIP 效率提升平均約 11 %,IMPHP 相較於 FUP 效率提升在 D5K+D5K 時約 36 %,平均約 29 %。

0 10 20 30 40 50 60

D5K D5K+D1K D5K+D2K D5K+D3K D5K+D4K D5K+D5K

Dataset Tim

e (s econ ds)

FUP MPIP IMPHP

圖 4.3 FUP、MPIP 與 IMPHP 執行時間比較 T5.I2.D5K。 ( +D1K ~ +D5K ) 我們將前一個實驗的資料增加 10 倍。實驗的資料集是 T5.I2,原始交易資料量 為 D50K,如圖 4.4 所示。橫軸是交易資料筆數,交易資料筆數每次增加 D10K,

分 別 是 D50K , D50K+D10K , D50K+D20K , D50K+D30K , D50K+D40K , D50K+D50K,D50K+D60K,D50K+D70K,D50K+D80K 與 D50K+D90K,縱軸是 時間,時間的單位是秒。從圖 4.4 可以明顯地看出,當交易資料增加筆數變多時,

IMPHP 所耗費的時間,與先前比較差異不大,一直到最後的 +D90K 也變化不多,

耗費時間約是原本 D50K 的 15 倍。但是相對於 FUP 所耗費的時間,則是當交易 增加筆數變多時,耗費的時間越來越多,甚至到了 +D90K 時,耗費的時間將近是原 始的 D50K 耗費時間的約 60 倍。IMPHP 相較於 MPIP 效率提升平均約 58 %。

IMPHP 相較於 FUP 效率提升在 +D90K 時約 75 %,平均提升約 68 %。

0 20000 40000 60000 80000 100000 120000 140000 160000

D50K +D10K +D20K +D30K +D40K +D50K +D60K +D70K +D80K +D90K Dataset

Tim e (s econ ds)

FUP MPIP IMPHP

圖 4.4 FUP、MPIP 與 IMPHP 執行時間比較 T5.I2.D50K。 ( +D10K ~ +D90K )

4.2.3 動態資料探勘

動態資料探勘動態資料探勘動態資料探勘 – 新增加項目新增加項目新增加項目新增加項目

實驗的資料集是 T5.I2,原始項目總數為 N50,原始交易資料量為 D1K,如圖 4.5 所示。橫軸是交易資料筆數,交易資料筆數每次增加 D1K,交易項目每次增加 N50,

分 別 是 N50.D1K , +N100.D1K , +N150.D1K , +N200.D1K , +N250.D1K 與 +N300.D1K,縱軸是時間,時間的單位是秒。從圖 4.5 可以明顯地看出,當交易資 料增加筆數變多時,IMPHP 所耗費的時間,與先前比較差異不大,一直到最後的 +N500.D10K 也變化不多,約是原本的 5 倍。但是相對於 FUP 所耗費的時間,則 是當交易增加筆數變多時,耗費的時間越來越多。甚至到了 +N500.D10K 時,耗費 的時間將近是原始的 N50.D10K 耗費時間的約 60 倍。IMPHP 相較於 MPIP 效率 提升平均約 46 %。IMPHP 相較於 FUP 效率提升在 +N300.D1K 時約 92 %,平均 提升約 76 %。

0 200 400 600 800 1000 1200 1400 1600

D1K +N100.D1K +N150.D1K +N200.D1K +N250.D1K +N300.D1K Dataset

Tim e (s econ ds)

FUP MPIP IMPHP

圖 4.5 FUP、MPIP 與 IMPHP 執行時間比較 T5.I2.N50.D1K。 ( +N100.D1K ~ +N300.D1K )

我們將上一個實驗的資料增加 10 倍,此實驗的資料集是 T5.I2,原始項目總數 為 N50,原始交易資料量為 D10K。如圖 4.6 所示。橫軸是交易資料筆數,交易資 料筆數每次增加 D10K,交易項目每次增加 N50,分別是 N50.D10K,+N100.D10K,

+N150.D10K,+N200.D10K,+N250.D10K,+N300.D10K,+N350.D10K,+N400.D10K,

+N450.D10K 與 +N500.D10K,縱軸是時間,時間的單位是秒。從圖 4.6 可以明顯 地看出,當交易資料增加筆數變多時,IMPHP 所耗費的時間,與先前比較差異不大,

一直到最後的 +N500.D10K 也變化不多,約是原本的 12 倍。但是相對於 FUP 所 耗 費 的 時 間 , 則 是 當 交 易 增 加 筆 數 變 多 時 , 耗 費 的 時 間 越 來 越 多 , 甚 至 到 了 +N500.D10K 時,耗費的時間將近是原始的 N50.D10K 耗費時間的約 142 倍。

IMPHP 相較於 MPIP 效率提升平均約 1.4 倍。IMPHP 相較於 FUP 效率提升在 +N500.D10K 時約 10.8 倍,平均約提升 10 倍。

0 1000 2000 3000 4000 5000 6000 7000

N50.D10K +N100.D10K +N150.D10K +N200.D10K +N250.D10K +N300.D10K +N350.D10K +N400.D10K +N450.D10K +N500.D10K Dataset

Tim e (se cond s)

FUP MPIP IMPHP

圖 4.6 FUP、MPIP 與 IMPHP 執行時間比較 T5.I2.N50.D10K。 ( +N100.D10K ~ +N500.D10K )

第 第

第 5 章 章 章 章 結論 結論 結論 結論與未來研究方向 與未來研究方向 與未來研究方向 與未來研究方向

本論文提出一個使用最小完美雜湊函數之漸進式關連法則探勘演算法 IMPHP,

不僅使用最小完美雜湊函數,來取得雜湊位址,還同時支持新增加交易資料,與新增 加項目兩種漸進式資料探勘的型態,並且可以將其應用在關連法則探勘。

IMPHP 主要分成以下步驟:1. 掃描交易資料庫,並根據最小完美雜湊函數的計 算,配置到雜湊表當中,並計算次數。2. 根據最小支持度的限制,得到頻繁項目集。

3. 根據頻繁項目集進ㄧ步修剪交易資料庫,排除不會成為頻繁項目集的項目,並將 修剪後的資料庫保留,待下一個循環使用。4. 重複以上步驟,直到得到最大頻繁項 目集為止。

IMPHP 主要可改善兩個部份:1. 本文提出的最小完美雜湊函數,可直接透過公 式計算,使每個項目集在雜湊表中擁有唯一且不碰撞的位址。2. 本文提出的最小完 美雜湊函數,可支援新增加的項目,所有新增項目所組合出的項目集,皆會排列在雜 湊 表 的 最 後 , 不 會 影 響 原 本 項 目 集 排 列 的 順 序 , 因 此 , 當 應 用 在 漸 進 式 探 勘 ( Incremental Mining ) 時,不但可以快速產生新的頻繁項目集,並且可以同時支援新 增項目,而不需重新掃描交易資料庫,因此可以增進效能。

爲了解本論文提出方法 IMPHP 的效能,設計三種實驗:1. 靜態資料探勘實驗,

以靜態的交易資料集做比較,交易資料庫的資料不會增減或變動。2. 動態資料探勘 – 新增加交易資料,以動態的交易資料集做比較,交易資料庫的資料會有新增,屬於漸 進式探勘。3. 動態資料探勘 – 新增加項目,以動態的交易資料集做比較,交易資料 庫的資料會有新增,且新增的交易資料中包含有新增的項目,屬於漸進式探勘。透過 以上三種實驗,得到的結果證實,本論文提出的方法 IMPHP 的確在效能上有比較好

的結果。在我們設計的實驗中,“靜態資料探勘”實驗最佳可提升約20%,“動態資 料探勘-新增加交易”實驗最佳提升 92 %,平均可提升約 68%,“動態資料探勘-新 增加項目”實驗平均可提升約 10 倍以上效率。

本研究除了上述的結論之外,仍有未來有待繼續探討與研究的議題:如何取得適 當的最小支持度:因為最小支持度的門檻值的設定,是決定所產出的頻繁項目集很重 要的因素。但這也是支持度設限的資料探勘方法存在的共同問題。另有支持度不設限 的探勘方法 ( 彭信啟,2007 ) 。若能針對以上作改進,或許能使 IMPHP 的方法更 加完善。

參考文獻 參考文獻 參考文獻 參考文獻

[1] 曾憲雄,蔡秀滿,蘇東興,曾秋蓉,王慶堯,“資料探勘 Data Mining”,旗標出 版股份有限公司,2007

[2] 彭信啟,“支持度不設限高頻樣式探勘之改良方法”,中華大學資訊工程研究所 碩士論文,2007。

[3] C. C. Aggarwal and P. S. Yu, “A New Approach to Online Generation of Association Rules,” IEEE Transactions on Knowledge and Data Engineering, Vol. 13, No. 4 , pp.

527 -540, 2001.

[4] R. Agrawal, T. Imielinski, and A. Swami, “Mining Association Rules between the Sets of Items in Large Database,” Proc. ACM SIGMOD, pp. 207-216, May 1993.

[5] R. Agrawal and J. C. Shafer, “Parallel Mining of Association Rules,” IEEE

Transactions on Knowledge and Data Engineering, Vol. 8, No. 6, pp. 962-969, 1996.

[6] R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules,”

Proceedings of the 20th VLDB Conference, pp. 487-499, Santiago, September 1994.

[7] C. F. Ahmed, S. K. Tanbeer, B. S. Jeong, and Y. K. Lee, “Efficient Tree Structures for High Utility Pattern Mining in Incremental Database,” IEEE Transactions on

Knowledge and Data Engineering, Vol. 21, Issue 12 p.p. 1708-1721, 2009.

[8] H. H. Aly, A. A. Amr, and Y. Taha, “Fast Mining of Association Rules in Large-Scale Problems,” Proceedings of the Sixth IEEE Symposium on Computers

and Communications, pp. 107-113, Hammamet, Tunisia, 2001.

[9] F. Angiulli, G. Ianni, and L. Palopoli, “On the Complexity of Mining Association Rules,” The Italian Symposium on Database Systems (SEBD), pp. 177-184, Venice, Italy, 2001.

[10] C. C. Chang, “The Study of an Ordered Minimal Perfect Hashing Scheme,”

Communications of the ACM, Vol. 27, No. 4, pp. 384-387.

[11] David W. Cheung, J. Han, Vincent T. Ng, and C. Y. Wong, “Maintenance of Discovered Association Rules in Large Database: An Incremental Updating Technique,” Proceedings of International Conference on Data Engineering, pp.

106-114, 1996.

[12] C. K. Chiou and Judy C. R. Tseng, “A Scalable Association Rules Mining Algorithm Based on Sorting, Indexing and Triming,” Machine Learning and Cybernetics, 2007

International Conference, Vol. 4, pp. 2257-2262, 2007.

[13] B. R. Dai and P. Y. Lin, “iTM: An Efficient Algorithm for Frequent Pattern Mining in the Incremental Database without Rescanning,” Lecture Notes in Computer

Science, Vol. 5579, p.p. 757-766, 2009.

[14] C. I. Ezeife and Y. Su, “Mining Incremental Association Rules with Generalized FP-Tree,” Proceeding of the 15th

Conference of the Canadian Society for Computational Studies of Intelligence on Advances in Artificial Intelligence, pp.

147-160, 2002.

[15] Gösta Grahne and Jianfei Zhu, “Fast Algorithms for Frequent Itemset Mining Using FP-Trees,” IEEE Trans. on Knowledge and Data Engineering, Vol 17, No. 10, pp.

1347-1362, Oct. 2005.

[16] E. H. Han, G. Karypis, and V. Kumar, “Scalable Parallel Data Mining for Association Rules,” IEEE Transactions on Knowledge and Data Engineering, Vol.

12, No. 3, pp. 337 -352, 2000.

[17] J. Han, Y. Cai, and N. Cercone, “Data-driven Discovery of Quantitative Rules in Relational Databases,” IEEE Transactions Knowledge and Data Engineering, Vol. 5,

[18] J. Han and Y. Fu, “Discovery of Multiple-level Association Rules from Large Databases,” In Proceeding of International Conference Very Large Data Bases, Zurich, Switzerland, Sep. 1995.

[19] J. Han and Y. Fu, “Mining Multiple-Level Association Rules in Large Databases,”

IEEE Transactions on Knowledge and Data Engineering, Vol. 11, No. 5, pp.

798-805, 2000.

[20] J. Han, J. Pei, and Y. Yin, “Mining frequent patterns without candidate generation,”

ACM SIGMOD, pp. 1-12, Dallas, TX, May 2000.

[21] J. Hipp, U. Guntzer, and G. Nakhaeizadeh, “Algorithms for Association Rule Mining- A general Survey and Comparison,” ACM SIGKDD Explorations, Vol. 2, No. 1, pp. 58-64, 2000.

[22] M. Houtsma and A. Swami, “Set-Oriented Mining for Association Rules in Relational Databases,” Proceedings of the 11th International Conference on Data

Engineering, pp. 25-33, Taipei, Taiwan, 1995.

[23] C. W. Lin, T. P. Hong, and W. H. Lu, “The Pre-FUFP algorithm for incremental mining,” Expert Systems with Applications, Vol 36, Issue 5, p.p. 9498-9505, 2009.

[24] B. Liu, W. Hsu, S. Chen, and Y. Ma, “Analyzing the Subjective Interestingness of Association Rules,” IEEE Intelligent Systems, Vol. 15, No. 5, pp. 47-55.

[25] S. A. Özel and H. A. Güvenir, “An Algorithm for Mining Association Rules Using Perfect Hashing and Database Pruning,” The Tenth Turkish Symposium on Artificial

Intelligence and Neural Networks, pp. 257-264, 2001.

[26] J. S. Park, M. S. Chen, and P. S. Yu, “Using a Hash-Based Method with Transaction Trimming and Database Scan Reduction for Mining Association Rules,” IEEE

Transactions on Knowledge and Data Engineering, Vol. 9, No. 5, pp. 813-825, Sep.

1997.

在文檔中 中 華 大 學 (頁 46-58)

相關文件