不同演算法效能之比較

第五章實驗及結果

第四節不同演算法效能之比較

由[5]論文中的各種演算法比較，ICTC 演算法比 TBCP、FUP 與 I-STD 等演算法的執行效能還快，因此接下來將針對 ICTC 與本論文所提出的 IDFPBT 演算法做一個比較，另外，當支持度 0.1%的時候，ICTC 演算法由於產生過多候選項目集合使探勘的效能變得非常沒有效率，因此本節只針對支持度 0.5%、

0.3%做一個比較。圖 5-4 為 IDFPBT 與 ICTC 演算法在 0.5%、0.3%支持度執行所需的時間。

0 10 20 30 40 50 60 70 80 90 100

一月二月三月四月五月六月七月八月

九月十月十一月

十二月

月份

時間(分)

IDFPBT(0.5%) IDFPBT(0.3%)

ICTC(0.5%) ICTC(0.3%)

圖 5-4：IDFPBT 與 ICTC 演算法效能比較

圖中縱軸部分為演算法執行所花的分鐘數，橫軸為探勘的資料月份，從圖中可以明顯看出本論文所提出的演算法遠遠比 ICTC 演算法執行的效能還要好，最好的狀況有 18 倍之多。而參考[5]的實驗結果，本論文所提出的 IDFPBT 演算法比 ICTC、TBCP、FUP 與 I-STD 演算法還要快，由此可證明本論文所提出的演算法是一個有效率的演算法。

第六章結論及未來研究方向

本論文提出一關聯式法則資料探勘的演算法 DFPBT，並發展出一漸進式的資料探勘演算法 IDFPBT，本論文的探勘方式非產生大量的候選項目集重覆資料庫，判斷候還項目集是否達到高頻的方式。而是僅僅掃描資料庫兩次的情況下，把資料庫的高頻資料建立在一緊湊的資料結構 DFPBT 中，而在建構 DFPBT 時是以項目出現的次數依序從高到低排列，所以在探勘 DFPBT 樹狀結構時，

如果某一節點上的次數沒有達到高頻的話，就不用就繼續往其左邊的節點搜尋下去，這樣可以節省很多探勘的時間。而探勘 DFPBT 樹狀結構時，不像 FP Growth 演算法需要額外產生其他的 Conditional FP Tree，我們利用合併左子樹的方式維持正確的項目內容，使探勘能正確探勘出所有的高頻項目集合，而且也節省了額外產出其他樹狀結構所需的空間要求。

在實際狀況下，每次資料探勘完畢，會等經過一段時間或等資料量達到一定程度後，才會在進行下一次的探勘動作，所以進行下一次探勘之前不可能一直把探勘所用到的樹狀結構保留在記憶體中，所以在研究漸進式演算法時，就考慮到把樹狀結構儲存到硬體上，以方便下一次探勘時，快速把上一次探勘的結構還原回來。而儲存的順序是依照項目次數由低到高排序的方式儲存到資料庫中，因此在重新建回樹狀結構時會比較快速的完成建構。而在探勘的過程，

我們也額外使用一個資料庫表格來儲存含有非高頻項目的交易記錄，在有新增或刪除高頻項目的時候，就可以直接比對非高頻交易記錄表格，把該新增、刪除的項目做一個更新的動作，因此我們就可以省去掃描整個資料庫的動作。

在實驗方面，我們利用醫療院所的門診資料進行資料探勘的實驗，經過前置處理把不完整的資料予以刪除並轉換成我們希望的資料格式後，再以月份分類把總共一年份的門診資料分成十二個月份，而每個月份的資料量大約 6、7 萬筆，每筆資料列最多有七個欄位的資料。我們以不同支持度 0.5%、0.3、0.1%

實驗我們所提出的 DFPBT、IDFPBT 演算法，從實驗我們可以得到 IDFPBT 演

算法比 DFPBT 演算法還快，甚至有 3 倍之多，雖然在某幾個月探勘中，IDFPBT 演算法可能會因為要處理較多的更新高頻項目的動作而增加了一點時間，但都能快速的完成資料探勘。而實驗也顯示漸進式的部分，較高支持度探勘所需的時間會比低支持度探勘所需的時間還少。而且從實驗的結果可以證明本論文所提出的演算法比其他演算法更有效率。

另外，我們所提出的演算法為了能夠完全避免重新掃描舊有資料的狀況，

使用額外的資料庫來儲存非高頻的交易記錄，而如果探勘的月份越來越多，所累積下來的非高頻交易記錄也會越來越多，所以希望在未來的研究能夠針對這一點進行改良，以減少在新增、刪除高頻項目比對時所花的時間，讓探勘的時間能夠較縮短、更有效率。

參考文獻

[1] 謝水鳳，“以調整FP樹狀結構為基礎之關聯規則漸進式探勘方法”，台灣師範大學資訊教育研究所碩士畢業論文，2002

[2] 高淑珍，“應用資料探勘於顧客回應模式之研究—以國內 A 壽險公司為例”，國立成功大學企業管理學系博士論文，2004

[3] 游坤明、林年茂、蕭偉呈、莊文宗，“結合關聯式資料庫的資料探勘方法運 用於醫病資料之研究”，2005資通技術應用與管理研討會，pp.42，2005 [4] 游坤明、莊文宗、蕭偉呈，“分群技術與資料探勘應用於肝功能檢驗與疾

病關係之研究”，第十屆資訊管理暨實務研討會，pp.146，2004

[5] 梅志航，“應用分群分式提升漸進式資料探勘效能之研究”，中華大學資訊管理學系碩士畢業論文，2004

[6] 江俊彥，“應用分群法提昇關聯法則效率之研究”，國立屏東科技大學資訊管理學系碩士畢業論文，2001

[7] R. Agrawal and R. Srikant, “Fast algorithms for Mining Association Rules in Large Database.” Proceedings of the 20^th

International conference on Very Large Data Base,pp.487-499, 1994

[8] R. Agrawal, T. Imielinski and A. Swami, “Mining Association Rules between Sets of Items in Large Database”, The 1993 ACMSIGMOD Conference, pp.207-216, 1993

[9] D. W. Cheung, J. Han, V. T. Ng, and C. Y. Wong. “Maintenance of Discovered Association Rules in Large Databases: An Incremental Updating Technique”,

Proc. Of the International Conference on Data Engineering, pp.106-114, 1996

[10] Jiawei Han, Jian Pei, Yiwen Yin, “Mining frequent patterns without candidate

generation”, Proceedings of the 2000 ACM SIGMOD international conference

on Management of data, pp.1-12, 2000

在文檔中中華大學 (頁 64-69)

第五章 實驗及結果

第四節 不同演算法效能之比較