• 沒有找到結果。

不同準最小支持度的效能表現

在文檔中 中 華 大 學 (頁 62-67)

第五章 實驗及結果

第二節 不同準最小支持度的效能表現

圖 5-5:項目變動位置示意圖

由圖 5-5 中我們可以看出因為支持度的設定而影響門檻值的大小,需要維護 及保留的一次項數量也不相同。舉例來說,當交易紀錄有 10000 筆時,在 0.1%

支持度設定下的門檻次數為 10 次,而 0.3%支持度設定下則為 30 次,因此符合 較高支持度的一次項數量會較少。九月的耗費時間突然增加,原因來自於當項目 變動的情況發生在圖 5-5 的箭頭所指位置時,在 0.1%支持下所作的動作只是需 要去調整項目的排列順序,因為項目皆已保留在樹狀結構中,而在 0.3%支持度 的設定下,產生的情況卻是項目由高頻變非高頻、非高頻變為高頻,這時候就須 要去掃描 Infrequent Table,而因為資料探勘已經進行到第九個月,前面累積了八 個月含非高頻項目交易紀錄的龐大資料量,所以在掃描 Infrequent Table 時耗費了 相當多的時間,也因此致使九月份的耗費時間比七月份更加明顯。

0.1%支持度在不同準支持度的表現

0 200 400 600 800

1 2 3 4 5 6 7 8 9 10 11 12

累積月份

所需時間(秒)

0.08%

0.06%

0.04%

圖 5-6:不同準支持度下的表現(支持度:0.1%)

0.3%支持度在不同準支持度的表現

0 200 400 600 800

一 二 三 四 五 六 七 八 九 十 十一 十二

月份

所需時間(秒) 0.24%

0.18%

0.12%

圖 5-7:不同準支持度下的表現(支持度:0.3%)

由這兩個實驗結果可以觀察出,當準支持度設定過低時,到了最後幾個月的 時候所需時間都增加,因為準支持度較低的時候,樹狀結構所容納的一次項數量 較多,有些到了後來因為並不太有機會變為高頻項目,但因為設定上的問題使得 演算法必須要花費時間去維護這些不太需要用到的項目,導致耗費時間增加。

而準支持度設定過高接近於支持度的時候,所保留的準高頻項目又太少,在 前半段發生重新掃描舊資料庫的機會增加。整體來說,在這次我們所用來的實驗 的醫院門診資料的特性下,準支持度設定為支持度的 60%時,演算法可以有較好 的效能表現。

總結來說,不論在 0.1%或 0.3%的支持度設定下,本論文所提出的 PDBA 演 算法皆較 DFPBT 演算法、AFPIM 演算法表現為佳,其中 DFPBT 演算法與本論 文所提出的 PDBA 演算法效能差距較大。而 AFPIM 演算法則始終與 PDBA 演算 法有一段時間差距,來自於其調整節點的方式與探勘時間。在 0.1%支持度的設

定下,PDBA 演算法最高可以比 AFPIM 演算法節省 46%的探勘處理時間,平均 可以節省 30%的探勘時間。而在 0.3%支持度設定下,最高可以節省 38%的探勘 所需時間,平均則可以節省 23%的探勘時間。

第六章 結論及未來研究方向

本論文提出一個快速的關聯式法則漸進式探勘演算法,利用可以快速瀏覽的 二元樹結構,有效的利用樹狀結構壓縮資料的方式來呈現資料庫中交易資料的分 布情況,探勘過程中瀏覽過所有樹狀結構的必要性節點後高頻項目集亦隨之產 生,相當的有效率且快速。在漸進式資料探勘處理上,我們利用將樹狀結構儲存 在關聯式資料表中,直接在資料表中處理項目順序變動的問題,有效地節省了在 處理項目上的時間。此外,為了在關聯式法則漸進式探勘演算法中維持高頻項目 集在更新後資料庫中的正確性,而可能必須要重新掃描舊資料庫的情況,我們採 用了準高頻的觀念,在我們的演算法中,增加了一個門檻值,可有效避免項目在 高頻與非高頻的不同群組間變動,降低了重新掃描資料庫的機會,並且使得我們 所保留的樹狀結構資訊可以更接近、更完整表達原始資料庫的相關訊息。

經由實驗的結果分析,可以知道我們所提出的演算法在針對這次實驗所採用 的門診資料上,當準支持度設定為支持度的 60%時有較好的表現,既不會浪費太 多時間在維護多餘的項目數量,也不會有太高的機會重新掃描舊資料庫,但是這 個結果是由我們實驗比較後而得出。未來或許可以經由某些準則或條件去針對不 同的資料特性設定準支持度的大小,例如可以參考平均交易紀錄長度、資料庫大 小、項目種類數及平均每次漸進式探勘時新增的資料比率,去計算出一個在一開 始就可以決定的最適合準高頻支持度。

參考文獻

[1] 謝水鳳,“以調整FP樹狀結構為基礎之關聯規則漸進式探勘方法”,

台灣師範 大學資訊教育研究所碩士畢業論文

,2002.

[2] 高淑珍,“應用資料探勘於顧客回應模式之研究—以國內 A 壽險公司為例”,

國立成功大學企業管理學系博士論文

,2004.

[3] 游坤明、林年茂、蕭偉呈、莊文宗,“結合關聯式資料庫的資料探勘方法運 用於醫病資料之研究”,2005

資通技術應用與管理研討會

, pp. 42,2005.

[4] 游坤明、莊文宗、蕭偉呈,“分群技術與資料探勘應用於肝功能檢驗與疾病 關係之研究”,

第十屆資訊管理暨實務研討會

, pp. 146,2004.

[5] 梅志航,“應用分群分式提升漸進式資料探勘效能之研究”,

中華大學資訊管 理學系碩士畢業論文

,2004.

[6] 莊文宗,“運用二元樹於漸進式關聯法則探勘之研究”,

中華大學資訊管理學 系碩士畢業論文

,2005.

[7] 江俊彥,“應用分群法提昇關聯法則效率之研究”,

國立屏東科技大學資訊管 理學系碩士畢業論文

,2001.

[8] 王慶堯“利用準大項目集之漸進式資料挖掘,"義守大學-資訊工程系, 碩 士論文, 2000.

[9] R. Agrawal and R. Srikant, “Fast algorithms for Mining Association Rules in Large Database.” Proceedings of the 20th International conference on Very Large Data Base, pp. 487-499, 1994.

[10] R. Agrawal, T. Imielinski and A. Swami, “Mining Association Rules between Sets of Items in Large Database”, The 1993 ACMSIGMOD Conference, pp.

207-216, 1993.

[11] N.F. Ayan, A.U. Tansel, and E. Arkun, “An Efficient Algorithm to Update Large Itemsets with Early Pruning,” Proc. Of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 287-291, 1999.

在文檔中 中 華 大 學 (頁 62-67)

相關文件