第五章 演算法效率評估
本章我們以實做程式的方式來評估本論文所提出兩種方法的執行效率、記憶 體大小需求及探勘正確性。所比較的基準是以出現位元序列運算的方式,對每個 新時間點之最近視窗序列重新進行探勘來找出最近重覆樣式。實做程式採用 Vis
ual C++ 6.0 程式語言,實驗環境的作業系統為 Microsoft Windows XP,系統配備 採用 Pentium IV3.4GHz 之中央處理器,搭配 1GB 的主記憶體。
5-1 資料產生方式
實驗評估所採用的交易資料是以程式模擬產生,資料產生方式使用 IBM 資 料產生器產生循序交易資料,並設定每一筆同時間交易中平均包含一筆資料項,
如果所產生交易同時間中包含大於一筆的資料項則只保留第一筆資料項,移除其 餘的資料項,最後將各筆循序交易資料前後連貫視為一個資料流序列。資料特性 的描述參數意義如表 5.1 所示。
表 5.1 實驗資料參數說明
資料樣式的種類個數
| P |
資料項的種類個數
| I |
參數說明 參數
我們以 Ix.Py 來表示實驗所採用的資料序列的特性,而其所代表的意義為
| I |= x、| P |=y。
5-2 實驗評估
實驗評估分為兩個部份,第一部份為探勘正確性比較。第二部分為執行效率 與記憶體使用大小需求的比較。實驗資料集為 I100P100,產生 5K(即 50,000)筆 交易記錄資料,模擬資料流每個時間點最多只輸入一筆資料來掃描處理。
在以下討論中,我們將以出現位元序列在每個最近視窗序列進行重新探勘的 方法簡稱為重新探勘法,圖表中以 Remining 表示,第三章所提出的以記錄最大 重覆樣式之出現位元序列進行漸進式探勘法,簡稱為漸進式探勘法,圖表中以
Incre-mining 表示,第四章所提出記錄保留樣式出現次數進行估算的方法,則簡 稱為保留樣式估算法,圖表中以 Est-mining 表示。
5-2.1 探勘正確性之比較
本實驗主要目的為觀察本論文所提出的兩個方法是否能夠正確探勘出最近 視窗序列中的所有最近重覆樣式,比較對象為重新探勘法找出的最近重覆樣式,
可以保證為完全正確之結果。
[實驗 5.1]本實驗固定最小出現次數門檻值 min_freq 與視窗大小的比值設定,比
較不同的視窗大小 win_s 對重新探勘法、漸進探勘法及保留樣式估算法之探勘錯
誤率、探勘遺失率、及平均探勘錯誤率的影響。實驗參數之設定,令最小出現次
數門檻值為 0.01*視窗大小。
令R 表示以探勘演算法X找出的最近重覆樣式,R
X Remining表示由Remining探 勘 出 來 的 結 果 , 則 R 的 探 勘 漏 失 率 FDR(False dismissal rate) 值 計 算 方 式
x| R
|
| R R
|
emining X min
Re R
ing
−
= 。 探 勘 錯 誤 率FAR(False alarm rate)的計算方式
| R
|
| R
Rx
|
X Remining
= − 。
0 10 20 30 40 50 60 70 80 90 100
500 1000 2000 3000 4000
視窗大小
探 勘 錯 誤 率 (
% )
Remining Incre-mining Est-mining(average) Est-mining(worst)
圖 5.1 改變視窗大小探勘錯誤率
0 10 20 30 40 50 60 70 80 90 100
500 1000 2000 3000 4000
視窗大小
探 勘 漏 失 率 (
% )
Remining Incre-mining Est-mining
圖 5.2 改變視窗大小探勘漏失率
表 5.2 改變視窗大小探勘出最近重覆樣式數量
35 35
35 38
40 Remining
41 41
43 48
60 Est-mining
35 35
35 38
40 Incre-mining
4000 3000
2000 1000
視窗大小 500
當視窗大小增加時,實驗中設定的最小出現次數門檻值亦等比例增加,由於 樣式分佈不為平均分佈,因此隨著視窗大小增加,探勘出的最近重覆樣式數量有 減少的趨勢,如表 5.2 所示。而對保留樣式估算法,隨著門檻值的提高,會因多 估算而多找出的最近重覆樣式數量隨之降低,因此由圖 5.1 所示,保留樣式估算 法的探勘錯誤率隨著視窗大小增加而減少。
[實驗 5.2]本實驗固定最小出現次數門檻值與視窗大小的比値設定為 0.01,比較
漸進探勘法及保留樣式估算法之平均出現次數誤差值,實驗資料集為I100P10。
ASE(R |R
x Remining)表示探勘演算法X探勘結果相較於Remining演算法所得正確結
果之平均出現次數誤差值,由下式計算得之:ASE(R |R
x Remining) =
| R
| / ) | ) ( sup )
( sup
|
(
xmin Re
min
∑
Re∩
∈
−
ing x
ing
R R e
Rx R
e R
e
R
。
0 20 40 60 80 100 120 140 160 180
500 1000 2000 3000 4000
視窗 大小
平 均 出 現 次 數 誤 差 值 ( 次
)
Incre-mining Est-mining
圖 5.3 平均出現次數誤差值
表 5.3 重新探勘法探勘出最近重覆樣式平均出現次數
89.12 3000 27.50
1000 13.11
500
58.82 2000
121.33 平均出現次數
視窗大小 4000
當視窗大小增加時,最小出現次數門檻值隨著視窗大小加大而成比例增加。
漸進探勘法儲存最大重覆樣式與其出現次數,並視一個最大重覆樣式的子樣式的 出現次數與該最大重覆樣式的出現次數相等,因此圖 5.3 顯示漸進探勘法的平均 出現次數誤差值隨視窗大小變大而增多,但比較表 5.3 所示之重覆樣式平均出現 次數,可發現視窗大小的增加也使得重覆樣式出現次數增加,雖然出現次數誤差 值隨著視窗變大而增加,但相對於各視窗大小之樣式平均出現次數所得的比例值 仍維持一定(約為 1.5 倍)。而保留樣式估算法則記錄封閉樣式次數,所以估算樣 式所得之誤差值較漸進探勘法小。
[實驗 5.3]本實驗固定視窗大小為 2000,最小出現次數門檻值與視窗大小的比値
設定為 0.01,比較改變保留樣式估算法中分段累積計數値參數 k 對保留樣式估算
法之探勘錯誤率的影響。
0 10 20 30 40 50 60 70 80 90 100
2 5 10 15 20
K
探 勘 錯 誤 率 (
% )
Est-mining(average) Est-mining(worst)
圖 5.4 改變視窗分段參數 k 探勘錯誤率
圖 5.4 顯示隨著出現次數分段計數值的區段增多時,保留樣式所多估計的樣 式出現次數誤差減少,因此探勘錯誤率隨之減少,當 k 設為 5 時,平均錯誤率已 降至 10%。
5-2.2 執行效率與記憶體大小需求之比較
[實驗 5.4]本實驗固定最小出現次數門檻值 min_freq 與視窗大小的比值設定,比
較不同的視窗大小 win_s 設定對重新探勘法、漸進探勘法、及保留樣式估算法之 執行效率及記憶體需求的影響。實驗參數之設定,令最小出現次數門檻值為 0.01*
視窗大小。
0 1 2 3 4 5 6 7 8
500 1000 2000 3000 4000 5000
視窗大小 執
行 時 間 ( 秒
)
Remining Incre-mining Est-mining
圖 5.5 改變視窗大小之執行時間比較
0 5 10 15 20 25 30
500 1000 2000 3000 4000 5000
視窗大小 記
憶 體 需 求 ( M B )
Remining Incre-mining Est-mining
圖 5.6 改變視窗大小之記憶體需求比較
圖 5.5 顯示重新探勘法需要最多的執行時間,而本論文所提出的兩個方法則 明顯有較佳的執行效率,其中保留樣式估算法的執行時間又較漸進探勘法少。實 驗中最小出現次數門檻值和視窗大小的比例值維持不變,但當視窗大小愈大時,
探勘過程需檢查的候選樣式數量愈多,因此三個演算法的執行時間皆隨著視窗大
小增加而增多,其中重新探勘法受此因素影響最大,增加的時間最多,漸進探勘
法次之,保留樣式估算法增加的時間最少;且本論文所提出的兩個方法之執行時
間增長倍率較重新探勘法緩和,因此隨著視窗大小的增加,漸進探勘法與保留樣
式估算法相較於重新探勘法有更好的執行效率表現。
同樣根據上述原因,圖 5.6 顯示隨著視窗大小的增加,三個演算法皆需要更 多的記憶體需求。其中保留樣式估算法因為必須保留的資料樣式較多,並且儲存 結構較複雜,因此最大記憶體的需求比其他兩個演算法來得多。而漸進探勘法的 記憶體需求則與重新探勘法相近。
漸進探勘法在執行時間上約為重新探勘法執行時間的二十分之一,而記憶體 的需求則幾乎相近。雖然保留樣式估算法的記憶體需求大小相當於重新探勘法記 憶體需求的五倍之多,但是保留樣式估算法所需執行時間只約為重新探勘法執行 時間的 1/1000。顯示本論文的兩種方法雖然花費較多記憶體需求,但是在執行時 間上達到明顯的效率提昇。
[實驗 5.5]本實驗設計在同樣的視窗大小設定下,比較改變最小出現次數門檻值
與視窗大小比値,對重新探勘法、漸進探勘法及保留樣式估算法之執行效率及記 憶體需求產生的影響。實驗參數的設定,訂定視窗大小為 3000。
圖 5.7 顯示三個演算法執行時間的結果,最小出現次數門檻值與視窗大小比 值愈小,則滿足條件的最近重覆樣式愈多,因此三個演算法在最小出現次數門檻 值愈小時,所花費的執行時間較多,而其中重新探勘法的執行時間受影響最大。
相對於重新探勘法,最小出現次數門檻值與視窗大小比值的改變對保留樣式估算
法的執行時間影響極小,執行的時間呈現平緩的趨勢,漸進探勘法則略高於保留
樣式估算法,但明顯小於重新探勘法。而在最小出現次數門檻值大於 0.04*視窗
大小時,大部分資料樣式出現次數皆小於最小出現次數門檻值,三個演算法探勘
出來的最近重覆樣式數量分別為 4,4 及 9,造成三個演算法執行時間相近。
圖 5.8 顯示改變最小出現次數門檻值及視窗大小比値對於執行最大記憶體需 求的結果。重新探勘法與漸進探勘法在比值愈小時,因為探勘出的最近重覆樣式 數目較多,所以記憶體需求較多。不過對於保留樣式估算法的記憶體需求影響則 不明顯,記憶體需求大小大約保持為另兩個演算法記憶體需求的 10 倍以內,呈 現平緩的狀態。
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0.01 0.02 0.04 0.06 0.08 0.1
最小出現次數門檻值/視窗大小比値 執
行 時 間 ( 秒
)
Remining Incre-mining Est-mining
圖 5.7 改變最小出現次數門檻值之執行時間比較
0 5 10 15 20 25
0.01 0.02 0.04 0.06 0.08 0.1
最小出現次數門檻值 記
憶 體 需 求 ( M B )
Remining Incre-mining Est-mining
圖 5.8 改變最小出現次數門檻值之記憶體需求比較
[實驗 5.6]本實驗設計在同樣的視窗大小以及固定的最小出現次數門檻值設定
下,比較改變資料項種類數對重新探勘法、漸進探勘法及保留樣式估算法之執行 效率及記憶體需求產生的影響。實驗的參數設定視窗大小為 3000,最小出現次 數門檻值為 30(視窗大小*0.01),樣式種類數|P|=100。
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
I100 I500 I1000 I2000
資料項種類數 執
行 時 間 ( 秒
)
Remining Incre-mining Est-mining
圖 5.9 改變資料項種類數之執行時間比較
0 5 10 15 20 25 30 35
I100 I500 I1000 I2000
資料項種類數 記
憶 體 需 求 ( M B )
Remining Incre-mining Est-mining
圖 5.10 改變資料項種類數之記憶體需求比較
當資料項種類數增多時,可能出現的資料樣式增加,但滿足最近重覆樣式的
數量減少,因此由圖 5.9 顯示重新探勘法執行時間有顯著的下降,而漸進探勘法
與保留樣式估算法則不受影響,呈現平緩的狀況。圖 5.10 顯示隨著資料項種類
增多,所組成之保留樣式亦隨之增多,必須花費較多的記憶體空間來保留出現於
最近視窗序列中的資料樣式。而保留樣式估算法所花費記憶體約為重新探勘法與 漸進探勘法的五倍,但執行時間仍維持為重新探勘法執行時間的 1/1000 左右。
[實驗 5.7]本實驗設計在同樣的視窗大小以及固定的最小出現次數門檻值設定
下,比較改變資料樣式種類數對重新探勘法、漸進探勘法及保留樣式估算法之執 行效率及記憶體需求的影響。實驗的參數設定視窗大小為 3000,最小出現次數 門檻值為 30(視窗大小*0.01),資料項種類數|I|=100。
0 1 2 3 4 5 6 7 8 9
P10 P100 P1000 P5000
樣式種類數 執
行 時 間 ( 秒
)
Remining Incre-mining Est-mining
圖 5.11 改變樣式種類數之執行時間的比較
0 5 10 15 20 25
P10 P100 P1000 P5000
樣式種類數 記
憶 體 需 求 ( M B )
Remining Incre-mining Est-mining