實驗數據與效能評估

第 4 章實驗結果與分析

4.3 實驗數據與效能評估

此實驗數據將依上一節所介紹的方法作實驗，於4.3.1 會考慮不同演算法在不同支持度的效能比較，於4.3.2 會考慮不同演算法在不同的交易量的效能比較，4.3.3 會考慮不同演算法在不同的交易長度的效能比較

4.3.1 SIT 演算法與 Apriori、MPHP 演算法的效能比較

在100K 交易量，共有 1000 個物項，平均每筆交易的物項個數為 10，平均可能高頻物項集合之物項個數為6，支持度在 2%~0.25%的實驗結果如下

T10.I6.D100K

1 10 100 1000 10000 100000

2 1 0.75 0.5 0.25

Minimum support(%)

Ti m e(sec)

Apriori SI+Apriori MPHP SIT

圖 4.1 不同支持度的效能比較

Apriori 的執行效率遠不如其他的演算法原因在Ｃ2 的數目太多，若使用索引排序改良的SI+Apriori 演算法，能大量的提升執行效率；若於階層 2 使用 MPHP 的雜湊函數，其演算法因不需候選物項集合的特性，執行效率在支持度2%~0.5%

下較SI+Apriori 演算法好，但於支持度 0.25%時發現 MPHP 的執行時間大量增加，且執行時間已經超過SI+Apriori 演算法，原因在於因支持度 0.25%太低，導致C3 的數目仍保留太多，MPHP 演算法於階層 3 以後使用傳統的 Apriori 的方式修剪候選物項集合的效果有限，所以我們可以知道於階層2 使用 MPHP 的雜

MPHP 與 SI+Apriori 演算法的優點，並將 MPHP 的雜湊函數加入排序索引修剪的方法，即使於支持度0.25%仍能表現的非常穩定

4.3.2 SIT 與 MPHP 演算法在不同的交易量的效能比較

在100K~1000K 筆交易資料，共有 1000 個物項，平均每筆交易的物項個數為 10，

平均可能高頻物項集合之物項個數為4，可能高頻物項集合之物項個數為 2000。

在不同的交易量掃描與排序資料庫的實驗數據如下

0 50 100 150 200

100K 200K 500K 1000K

Transactions

Ti me(sec)

Scan Sort

圖 4.2 不同的交易量掃描與排序資料庫的所需時間

我們發現掃描資料庫的時間相當穩定約每100K 需要 15 秒，而資料庫的排序也是很穩定，約每100K 需要 15 秒，但是隨者資料量增加會微量的成長。

在不同的支持度與交易量實驗數據如下

S=0.75 T10.I4

0 200 400 600

100K 200K 500K 1000K

Number of transactions

Ti me (sec)

MPHP

SIT

SIT2

圖 4.3 支持度在 0.75%下不同交易量的效能比較

S=0.5 T10.I4

0 200 400 600

100K 200K 500K 1000K

Number of transactions

Ti me (sec)

MPHP SIT SIT2

圖 4.4 支持度在 0.5%下不同交易量的效能比較

S=0.25 T10.I4

0 500 1000 1500

100K 200K 500K 1000K Number of transactions

Ti me (sec) MPHP

SIT SIT2

圖 4.5 支持度在 0.25%下不同交易量的效能比較

在不考慮事先將資料庫排序的時間則SIT 演算法都較 MPHP 演算法快，尤其是當交易量在越大、支持度越低的時候效果越好，但是若同時考慮事先排序的時間時(SIT2，於正常情況下當更改任何的支持度時，其實不需重新排序)，在交易量為1000K 時，或者是支持度在 0.25%時，其執行效果才能較 MPHP 演算法好，

若是依C3 的數量來分析其執行效率，支持度在 0.5%以上其 C3 的數量皆小於 100 ，但是 0.25%的數量則大於 2000 時，MPHP 的執行效率會比較差，而 SIT 則會表現的比較穩定。

4.3.3 SIT 與 MPHP 演算法在不同的交易長度的效能比較

在100K~1000K 筆交易資料，共有 1000 個物項，平均每筆交易的物項個數為 5~20，平均可能高頻物項集合之物項個數為 6，可能高頻物項集合之物項個數為 2000，支持度 0.5%，其實驗結果如下

S=0.5 I6.D100K

1 10 100 1000 10000

T5 T10 T20

Average size of transactions

Ti me (sec) MPHP

SIT

圖 4.6 支持度在 0. 5%下不同交易長度的效能比較

根據實驗結果可知，當T=5,10 兩種演算法的效益差異不大，但是當 T=20 時，

其SIT 的演算法遠勝於 MPHP，與前一實驗相同，依Ｃ3 的數量分析可知 T=5,10 的數量小於100，但是 T=20 的 C3 數量突然大量增加到 2000 以上， MPHP 的執行效率會比較差，而SIT 則會表現的比較穩定。

根據以上的實驗可知Apriori 演算法不適合大量的候選物項集合，MPHP 演算法則可以解決階層2 大量候選物項集合的問題，於不同的支持度、交易量、交易長度只要是階層3 以後的候選物項集合數量比較少的情況下 MPHP 皆有不錯的表現，但是若數量太多的情況下，仍然必須靠索引的方法來減少交易資料與候選物項集合的比較次數，所以SIT 演算法對於階層 3 以後的大量的候選物項集合執行效益會比MPHP 較好。

在文檔中中華大學 (頁 61-65)

第 4 章 實驗結果與分析

4.3 實驗數據與效能評估

4.3.1 SIT 演算法與 Apriori、MPHP 演算法的效能比較

T10.I6.D100K

1 10 100 1000 10000 100000

2 1 0.75 0.5 0.25

Minimum support(%)

Ti m e(sec)

Apriori SI+Apriori MPHP SIT

4.3.2 SIT 與 MPHP 演算法在不同的交易量的效能比較

0 50 100 150 200

100K 200K 500K 1000K

Transactions

Ti me(sec)

Scan Sort

S=0.75 T10.I4

0 200 400 600

100K 200K 500K 1000K

Number of transactions

Ti me (sec)

MPHP

SIT

SIT2

S=0.5 T10.I4

0 200 400 600

100K 200K 500K 1000K

Number of transactions

Ti me (sec)

MPHP SIT SIT2

S=0.25 T10.I4

0 500 1000 1500

100K 200K 500K 1000K Number of transactions

Ti me (sec) MPHP

SIT SIT2

4.3.3 SIT 與 MPHP 演算法在不同的交易長度的效能比較

S=0.5 I6.D100K

1 10 100 1000 10000

T5 T10 T20

Average size of transactions

Ti me (sec) MPHP

SIT

第 4 章實驗結果與分析