• 沒有找到結果。

實驗數據與效能評估

在文檔中 中 華 大 學 (頁 61-65)

第 4 章 實驗結果與分析

4.3 實驗數據與效能評估

此實驗數據將依上一節所介紹的方法作實驗,於4.3.1 會考慮不同演算法在不同 支持度的效能比較,於4.3.2 會考慮不同演算法在不同的交易量的效能比較,4.3.3 會考慮不同演算法在不同的交易長度的效能比較

4.3.1 SIT 演算法與 Apriori、MPHP 演算法的效能比較

在100K 交易量,共有 1000 個物項,平均每筆交易的物項個數為 10,平均可能 高頻物項集合之物項個數為6,支持度在 2%~0.25%的實驗結果如下

T10.I6.D100K

1 10 100 1000 10000 100000

2 1 0.75 0.5 0.25

Minimum support(%)

Ti m e(sec)

Apriori SI+Apriori MPHP SIT

圖 4.1 不同支持度的效能比較

Apriori 的執行效率遠不如其他的演算法原因在C2 的數目太多,若使用索引排 序改良的SI+Apriori 演算法,能大量的提升執行效率;若於階層 2 使用 MPHP 的雜湊函數,其演算法因不需候選物項集合的特性,執行效率在支持度2%~0.5%

下較SI+Apriori 演算法好,但於支持度 0.25%時發現 MPHP 的執行時間大量增 加,且執行時間已經超過SI+Apriori 演算法,原因在於因支持度 0.25%太低,導 致C3 的數目仍保留太多,MPHP 演算法於階層 3 以後使用傳統的 Apriori 的方 式修剪候選物項集合的效果有限,所以我們可以知道於階層2 使用 MPHP 的雜

MPHP 與 SI+Apriori 演算法的優點,並將 MPHP 的雜湊函數加入排序索引修剪 的方法,即使於支持度0.25%仍能表現的非常穩定

4.3.2 SIT 與 MPHP 演算法在不同的交易量的效能比較

在100K~1000K 筆交易資料,共有 1000 個物項,平均每筆交易的物項個數為 10,

平均可能高頻物項集合之物項個數為4,可能高頻物項集合之物項個數為 2000。

在不同的交易量掃描與排序資料庫的實驗數據如下

0 50 100 150 200

100K 200K 500K 1000K

Transactions

Ti me(sec)

Scan Sort

圖 4.2 不同的交易量掃描與排序資料庫的所需時間

我們發現掃描資料庫的時間相當穩定約每100K 需要 15 秒,而資料庫的排序也 是很穩定,約每100K 需要 15 秒,但是隨者資料量增加會微量的成長。

在不同的支持度與交易量實驗數據如下

S=0.75 T10.I4

0 200 400 600

100K 200K 500K 1000K

Number of transactions

Ti me (sec)

MPHP

SIT

SIT2

圖 4.3 支持度在 0.75%下不同交易量的效能比較

S=0.5 T10.I4

0 200 400 600

100K 200K 500K 1000K

Number of transactions

Ti me (sec)

MPHP SIT SIT2

圖 4.4 支持度在 0.5%下不同交易量的效能比較

S=0.25 T10.I4

0 500 1000 1500

100K 200K 500K 1000K Number of transactions

Ti me (sec) MPHP

SIT SIT2

圖 4.5 支持度在 0.25%下不同交易量的效能比較

在不考慮事先將資料庫排序的時間則SIT 演算法都較 MPHP 演算法快,尤其是 當交易量在越大、支持度越低的時候效果越好,但是若同時考慮事先排序的時 間時(SIT2,於正常情況下當更改任何的支持度時,其實不需重新排序),在交易 量為1000K 時,或者是支持度在 0.25%時,其執行效果才能較 MPHP 演算法好,

若是依C3 的數量來分析其執行效率,支持度在 0.5%以上其 C3 的數量皆小於 100 ,但是 0.25%的數量則大於 2000 時,MPHP 的執行效率會比較差,而 SIT 則會表現的比較穩定。

4.3.3 SIT 與 MPHP 演算法在不同的交易長度的效能比較

在100K~1000K 筆交易資料,共有 1000 個物項,平均每筆交易的物項個數為 5~20,平均可能高頻物項集合之物項個數為 6,可能高頻物項集合之物項個數為 2000,支持度 0.5%,其實驗結果如下

S=0.5 I6.D100K

1 10 100 1000 10000

T5 T10 T20

Average size of transactions

Ti me (sec) MPHP

SIT

圖 4.6 支持度在 0. 5%下不同交易長度的效能比較

根據實驗結果可知,當T=5,10 兩種演算法的效益差異不大,但是當 T=20 時,

其SIT 的演算法遠勝於 MPHP,與前一實驗相同,依C3 的數量分析可知 T=5,10 的數量小於100,但是 T=20 的 C3 數量突然大量增加到 2000 以上, MPHP 的 執行效率會比較差,而SIT 則會表現的比較穩定。

根據以上的實驗可知Apriori 演算法不適合大量的候選物項集合,MPHP 演算法 則可以解決階層2 大量候選物項集合的問題,於不同的支持度、交易量、交易 長度只要是階層3 以後的候選物項集合數量比較少的情況下 MPHP 皆有不錯的 表現,但是若數量太多的情況下,仍然必須靠索引的方法來減少交易資料與候 選物項集合的比較次數,所以SIT 演算法對於階層 3 以後的大量的候選物項集 合執行效益會比MPHP 較好。

在文檔中 中 華 大 學 (頁 61-65)

相關文件