實驗結果 - 以FP-tree結構為基礎之近似常見項目集探勘法

在此以實做程式的方式來評估本論文提出的FP-AFI演算法之執行效率，並與

其他探勘近似常見項目集的FT-Apriori[6]與 AFI [4]演算法之執行效率進行比

較。用以實做的程式語言為Microsoft VisualC++ 6.0，實驗環境的作業系統為

Microsoft Windows XP Professional，系統配備採用 Pentium 4 3.4GHz 的中央處理

器，並搭載2.0GB 的記憶體。

4-1 模擬資料集

4-1.1 模擬交易資料集產生方式

在實驗中使用的模擬資料是用IBM Data Generator[14]模擬產生的交易資

料，其中在描述交易資料集內資料特性的參數意義如表4.1 所示。

表4.1 實驗資料集參數說明

參數參數說明

|T | 每筆交易資料的平均項目個數

| I | 項目的種類數量

| D | 交易資料的筆數

在以下實驗說明中將以TmInDs來表示執行程式時所採用的資料集之參數，

其所代表的意義為| T |=m、| I |=n 及| D |=sK。

4-1.2 實驗評估方式

在進行近似常見項目集探勘時，有許多因素會影響到探勘的結果與執行時

間，以下實驗將針對最小支持度門檻值、核心樣式參數值α、誤差容忍參數值ε_r、

ε 及交易資料筆數與項目種類的數量等各個不同的因素，透過控制參數的方式，c

觀察參數值的變化對不同演算法執行時間的影響。

原本AFI 及 FT-Apriori 演算法中在探勘近似常見項目集時並沒有考慮核心樣

式的限制條件，為使兩個演算法與本論文所提出之FP-AFI演算法能進行公平的效

能比較，本實驗在實做AFI 及 FT-Apriori 演算法的過程中，亦加入核心樣式的限

制條件，使這三種探勘近似常見項目集演算法得到的結果能夠相符。

【實驗一】改變最小支持度門檻值

使用資料集 T10I50D20K，探討改變最小支持度門檻值時各演算法在執行時

間上的變化。固定各執行參數值α=0.8、ε_r =0.2及ε_c=0.5，改變min_sup值由1%

開始逐次增加1%，執行結果如圖4.1 所示。

圖4.1 改變最小支持度門檻值的執行時間比較

將min_sup訂的越小，則探勘過程需檢查之候選項目集數量越多，因此實驗

結果顯示三種演算法在min_sup設定較小時，需耗費較多的執行時間。但FP-AFI

執行時間的成長趨勢較另兩個演算法來得緩和。在最小支持度門檻值為1%時，

相較於AFI 與 FT-Apriori 演算法所需的執行時間，本論文提出的FP-AFI演算法，

在執行時間約只需另兩者執行時間的十三分之一，執行效率明顯優於其他兩種方

法。此實驗結果顯示在min_sup訂為較小時，以Apriori 演算法為基礎的另兩種演

算法需大量列舉候選項目集，因此特別能凸顯運用FP-tree結構進行近似常見項目

集探勘的執行效率。

【實驗二】改變核心樣式門檻值α

使用資料集 T10I50D20K，探討當核心樣式門檻值α改變時對執行時間造成

的影響。核心樣式門檻值α由0.3開始逐次增加0.1，其餘參數皆設為固定值：

% 2 sup

min_ = 、ε_r =0.2及ε_c =0.5，執行結果如圖4.2 所示。

圖4.2 改變核心樣式門檻值 α 的執行時間比較

改變核心樣式門檻值α最主要的影響在於挑選項目組成候選項目集的過程，

若將α值訂的越低，則探勘過程滿足核心樣式門檻值的候選項目集數量越多，增

加執行所需時間，但相對於另兩種方法，α值降低對FP-AFI執行時間顯得沒有顯

著影響。具有Apriori 特性的 AFI 及 FT-Apriori 演算法，隨候選項目集的長度逐漸

增加，在每回合列舉出候選項目集後，會檢查核心樣式門檻值條件，找出符合核

心樣式限制條件的候選項目集。當α值愈大，會符合此限制條件的項目集數量也

愈少。當α值到達0.5以上時，已經過濾掉大部分支持度小於核心樣式門檻值的候

選項目集，結合Apriori property 的砍除策略，大量減少組合產生的候選項目集，

【實驗三】改變誤差容忍參數ε_r

以資料集T10I50D20K 進行實驗，探討改變誤差容忍參數ε_r時各演算法在執

行時間上的差異。其中固定各參數為：min_sup=2%、α=0.8及ε_c =0.5。ε_r的

數值則由0 開始逐次增加 0.1，執行結果如圖 4.3 所示。

圖4.3 改變誤差容忍參數ε_r的執行時間比較

改變誤差容忍參數ε_r的意義在於當ε_r值愈大，代表比對項目集出現的容錯條

件放寬，比對項目集時，容錯項目的個數也會受到ε_r值的影響。當ε_r值超過0.3

後，AFI 與FP-AFI演算法的執行時間都有上升的趨勢，FP-AFI演算法採取的策

略是當容錯項目的個數發生改變時，會回到先前的項目集之儲存結構中建立比對

錯誤值增加後對應的conditional FP-tree，隨著ε_r值變大容錯項目個數發生改變的

頻率也變高，造成FP-AFI執行時間會微幅增加，但與AFI 演算法的執行時間相較

之下，成長趨勢是較緩和的。FT-Apriori 的執行時間變化呈現近於水平(當ε_r增加

到 0.4 時，執行時間有微幅的上升只是不容易從圖4.3中觀察出來)，主要的原因

在於不管ε_r值變為多少，每次產生候選項目集後，針對每個候選項目集都必須掃

瞄交易資料集一次以計算容錯支持度，ε_r值的改變僅影響到比對時的容錯放寬程

度，因此在執行時間上沒有太大的變化，呈現近似於水平的曲線。

【實驗四】改變誤差容忍參數ε _c

使用T10I50D20K 的資料集，探究當誤差容忍參數ε 發生改變時對執行時間_c

造成的影響。調整誤差容忍參數ε ，由_c 0開始逐次增加0.1，固定其他參數值：

% 2 sup

min_ = 、α=0.8及ε_r =0.2，執行結果如圖4.4。

圖4.4 改變誤差容忍參數ε 的執行時間比較 _c

改變誤差容忍參數ε 對三種演算法最主要的影響在於檢驗容錯包含某候選_c

項目集的交易資料集中，該候選項目集內每一個項目的支持度是否都達到一定比

例之上。從圖4.4的結果看來ε 值的改變並不會影響各演算法所需的執行時間，_c

隨著ε 值的改變，三種探勘近似常見項目集演算法的執行時間都趨於固定。 _c

【實驗五】改變資料集的交易資料筆數

在實驗五中探討當交易資料的筆數發生變化時對執行時間造成的影響。使用

的交易資料筆數分別為1000 筆、5000 筆、10000 筆、15000 筆、20000 筆及 25000

筆，在這些交易資料中固定項目種類的數量為50種、每筆交易的平均項目個數為 10個。其他參數固定為：min_sup=2%、ε_r =0.2、ε_c=0.5及α=0.8，執行結果

如圖4.5 所示。

圖4.5 改變交易資料筆數的執行時間比較

當交易資料筆數較少時，三種演算法在執行時間上沒有太大的差距，但隨交

易資料筆數的逐漸增加，三種演算法的執行時間都有成長的趨勢，其中具有 Apriori 特性的 AFI 與FT-Apriori演算法之執行時間增加的幅度較FP-AFI明顯。每

當FT-Apriori演算法在產生候選項目集後，針對每一個候選項目集必須掃瞄所有

交易資料集一次，找出資料集中容錯包含該項目集的容錯支持度，因此交易資料

的筆數越多時，就必須花費較多的時間來進行比對。當交易資料筆數高於一萬筆

後，AFI 演算法的執行時間逐漸高於 FT-Apriori 演算法， AFI 雖然不用在每次產

生候選項目集後就掃瞄交易資料集一次以計算該項目集的容錯支持度，而是在執

行之初就已經對每個項目記錄一個包含該項目的交易編號所成的集合，隨交易筆

數增加，集合中必須記錄的交易編號也會隨之增加，當以此集合進行運算找出容

錯支持度時，就必須耗費較多的計算成本，造成執行時間多於FT-Apriori演算法

的情況。

而FP-AFI演算法利用FP-tree的結構，將交易資料壓縮成樹狀結構，在執行

的過程中只須掃瞄所有的交易資料兩次，不需反覆掃瞄比對資料內容，因此在交

易資料的數量越多時，越可凸顯本論文提出的FP-AFI演算法之執行效率。

【實驗六】改變資料集中項目種類的數量

在實驗六中探討當改變交易資料內項目種類的數量時對執行時間產生的影

響。在實驗中改變項目種類的數量依序為10 種、50 種、100 種、150 種及 200 種，

資料集內平均的項目個數為10個、交易資料的筆數為20K。其餘會使用到的參數

也都予以固定，包括min_sup=2%、ε_r =0.2、ε_c =0.5及α=0.8，執行結果如圖

4.6 所示。

圖4.6 改變資料集中項目種類的數量之執行時間比較

根據圖4.6 的結果，FP-AFI 演算法隨資料集內項目種類的增加，其執行時間

有微幅上升的趨勢。分析主要的原因是利用FP-tree結構進行探勘時，當項目種類

較多，造成建構出來的FP-tree 尺寸變得比較龐大。以致於透過 FP-tree 進行近似

常見項目集的探勘時，受到樹架構大小的影響，而些微增加執行時間。但資料集

內項目種類之數量增加也會造成各項目在交易資料集內的分佈較稀疏，因此在

度，可先過濾某些支持度不滿足核心樣式門檻值的項目，當第二次掃描建立

FP-tree 時便不會將這些支持度過低的項目加入FP-tree中，減低FP-AFI 演算法受

項目種類數量變多而增加執行時間的影響。

經實驗結果發現，當項目種類的數量為200 時，利用核心樣式限制條件過濾

後，滿足核心樣式門檻值的項目仍有107個，因此利用 FT-Apriori 演算法在組合

候選項目集的過程需要耗費較多的計算成本，並一一掃瞄交易資料集得到容錯支

持度，增加許多執行的時間。而同為具有Apriori 特性的 AFI 演算法，因為項目種

類的數量變多，每一個項目記錄包含該項目的交易資料編號之集合較小，因此在

計算候選項目集的容錯支持度時，可以展現較好的執行效率，使得執行時間在項

目種類的數量超過50 種後便逐漸低於 FT-Apriori 演算法。整體而言，雖然FP-AFI

演算法會受到項目種類增加的關係而造成執行時間些微增加，但增加的幅度相較

於FT-Apriori 演算法是呈現較平緩的趨勢。

4-2 實際資料集

4-2.1 資料內容

實驗中所使用的實際資料是一份描述不同類型動物之間的特徵資訊，下載自

在文檔中以FP-tree結構為基礎之近似常見項目集探勘法 (頁 60-75)