• 沒有找到結果。

第五章 演算法效率評估

N/A
N/A
Protected

Academic year: 2021

Share "第五章 演算法效率評估 "

Copied!
12
0
0

加載中.... (立即查看全文)

全文

(1)

第五章 演算法效率評估

本章我們以實做程式的方式來評估本論文所提出兩種方法的執行效率、記憶 體大小需求及探勘正確性。所比較的基準是以出現位元序列運算的方式,對每個 新時間點之最近視窗序列重新進行探勘來找出最近重覆樣式。實做程式採用 Vis

ual C++ 6.0 程式語言,實驗環境的作業系統為 Microsoft Windows XP,系統配備 採用 Pentium IV3.4GHz 之中央處理器,搭配 1GB 的主記憶體。

5-1 資料產生方式

實驗評估所採用的交易資料是以程式模擬產生,資料產生方式使用 IBM 資 料產生器產生循序交易資料,並設定每一筆同時間交易中平均包含一筆資料項,

如果所產生交易同時間中包含大於一筆的資料項則只保留第一筆資料項,移除其 餘的資料項,最後將各筆循序交易資料前後連貫視為一個資料流序列。資料特性 的描述參數意義如表 5.1 所示。

表 5.1 實驗資料參數說明

資料樣式的種類個數

| P |

資料項的種類個數

| I |

參數說明 參數

我們以 Ix.Py 來表示實驗所採用的資料序列的特性,而其所代表的意義為

| I |= x、| P |=y。

(2)

5-2 實驗評估

實驗評估分為兩個部份,第一部份為探勘正確性比較。第二部分為執行效率 與記憶體使用大小需求的比較。實驗資料集為 I100P100,產生 5K(即 50,000)筆 交易記錄資料,模擬資料流每個時間點最多只輸入一筆資料來掃描處理。

在以下討論中,我們將以出現位元序列在每個最近視窗序列進行重新探勘的 方法簡稱為重新探勘法,圖表中以 Remining 表示,第三章所提出的以記錄最大 重覆樣式之出現位元序列進行漸進式探勘法,簡稱為漸進式探勘法,圖表中以

Incre-mining 表示,第四章所提出記錄保留樣式出現次數進行估算的方法,則簡 稱為保留樣式估算法,圖表中以 Est-mining 表示。

5-2.1 探勘正確性之比較

本實驗主要目的為觀察本論文所提出的兩個方法是否能夠正確探勘出最近 視窗序列中的所有最近重覆樣式,比較對象為重新探勘法找出的最近重覆樣式,

可以保證為完全正確之結果。

[實驗 5.1]本實驗固定最小出現次數門檻值 min_freq 與視窗大小的比值設定,比

較不同的視窗大小 win_s 對重新探勘法、漸進探勘法及保留樣式估算法之探勘錯

誤率、探勘遺失率、及平均探勘錯誤率的影響。實驗參數之設定,令最小出現次

數門檻值為 0.01*視窗大小。

(3)

令R 表示以探勘演算法X找出的最近重覆樣式,R

X Remining

表示由Remining探 勘 出 來 的 結 果 , 則 R 的 探 勘 漏 失 率 FDR(False dismissal rate) 值 計 算 方 式

x

| R

|

| R R

|

emining X min

Re R

ing

= 。 探 勘 錯 誤 率FAR(False alarm rate)的計算方式

| R

|

| R

Rx

|

X Remining

= − 。

0 10 20 30 40 50 60 70 80 90 100

500 1000 2000 3000 4000

視窗大小

(

% )

Remining Incre-mining Est-mining(average) Est-mining(worst)

圖 5.1 改變視窗大小探勘錯誤率

0 10 20 30 40 50 60 70 80 90 100

500 1000 2000 3000 4000

視窗大小

探 勘 漏 失 率 (

% )

Remining Incre-mining Est-mining

圖 5.2 改變視窗大小探勘漏失率

表 5.2 改變視窗大小探勘出最近重覆樣式數量

35 35

35 38

40 Remining

41 41

43 48

60 Est-mining

35 35

35 38

40 Incre-mining

4000 3000

2000 1000

視窗大小 500

(4)

當視窗大小增加時,實驗中設定的最小出現次數門檻值亦等比例增加,由於 樣式分佈不為平均分佈,因此隨著視窗大小增加,探勘出的最近重覆樣式數量有 減少的趨勢,如表 5.2 所示。而對保留樣式估算法,隨著門檻值的提高,會因多 估算而多找出的最近重覆樣式數量隨之降低,因此由圖 5.1 所示,保留樣式估算 法的探勘錯誤率隨著視窗大小增加而減少。

[實驗 5.2]本實驗固定最小出現次數門檻值與視窗大小的比値設定為 0.01,比較

漸進探勘法及保留樣式估算法之平均出現次數誤差值,實驗資料集為I100P10。

ASE(R |R

x Remining

)表示探勘演算法X探勘結果相較於Remining演算法所得正確結

果之平均出現次數誤差值,由下式計算得之:ASE(R |R

x Remining

) =

| R

| / ) | ) ( sup )

( sup

|

(

x

min Re

min

Re

ing x

ing

R R e

Rx R

e R

e

R

0 20 40 60 80 100 120 140 160 180

500 1000 2000 3000 4000

視窗 大小

(

)

Incre-mining Est-mining

圖 5.3 平均出現次數誤差值

(5)

表 5.3 重新探勘法探勘出最近重覆樣式平均出現次數

89.12 3000 27.50

1000 13.11

500

58.82 2000

121.33 平均出現次數

視窗大小 4000

當視窗大小增加時,最小出現次數門檻值隨著視窗大小加大而成比例增加。

漸進探勘法儲存最大重覆樣式與其出現次數,並視一個最大重覆樣式的子樣式的 出現次數與該最大重覆樣式的出現次數相等,因此圖 5.3 顯示漸進探勘法的平均 出現次數誤差值隨視窗大小變大而增多,但比較表 5.3 所示之重覆樣式平均出現 次數,可發現視窗大小的增加也使得重覆樣式出現次數增加,雖然出現次數誤差 值隨著視窗變大而增加,但相對於各視窗大小之樣式平均出現次數所得的比例值 仍維持一定(約為 1.5 倍)。而保留樣式估算法則記錄封閉樣式次數,所以估算樣 式所得之誤差值較漸進探勘法小。

[實驗 5.3]本實驗固定視窗大小為 2000,最小出現次數門檻值與視窗大小的比値

設定為 0.01,比較改變保留樣式估算法中分段累積計數値參數 k 對保留樣式估算

法之探勘錯誤率的影響。

(6)

0 10 20 30 40 50 60 70 80 90 100

2 5 10 15 20

K

(

% )

Est-mining(average) Est-mining(worst)

圖 5.4 改變視窗分段參數 k 探勘錯誤率

圖 5.4 顯示隨著出現次數分段計數值的區段增多時,保留樣式所多估計的樣 式出現次數誤差減少,因此探勘錯誤率隨之減少,當 k 設為 5 時,平均錯誤率已 降至 10%。

5-2.2 執行效率與記憶體大小需求之比較

[實驗 5.4]本實驗固定最小出現次數門檻值 min_freq 與視窗大小的比值設定,比

較不同的視窗大小 win_s 設定對重新探勘法、漸進探勘法、及保留樣式估算法之 執行效率及記憶體需求的影響。實驗參數之設定,令最小出現次數門檻值為 0.01*

視窗大小。

(7)

0 1 2 3 4 5 6 7 8

500 1000 2000 3000 4000 5000

視窗大小 執

行 時 間 (

)

Remining Incre-mining Est-mining

圖 5.5 改變視窗大小之執行時間比較

0 5 10 15 20 25 30

500 1000 2000 3000 4000 5000

視窗大小 記

憶 體 需 求 ( M B )

Remining Incre-mining Est-mining

圖 5.6 改變視窗大小之記憶體需求比較

圖 5.5 顯示重新探勘法需要最多的執行時間,而本論文所提出的兩個方法則 明顯有較佳的執行效率,其中保留樣式估算法的執行時間又較漸進探勘法少。實 驗中最小出現次數門檻值和視窗大小的比例值維持不變,但當視窗大小愈大時,

探勘過程需檢查的候選樣式數量愈多,因此三個演算法的執行時間皆隨著視窗大

小增加而增多,其中重新探勘法受此因素影響最大,增加的時間最多,漸進探勘

法次之,保留樣式估算法增加的時間最少;且本論文所提出的兩個方法之執行時

間增長倍率較重新探勘法緩和,因此隨著視窗大小的增加,漸進探勘法與保留樣

式估算法相較於重新探勘法有更好的執行效率表現。

(8)

同樣根據上述原因,圖 5.6 顯示隨著視窗大小的增加,三個演算法皆需要更 多的記憶體需求。其中保留樣式估算法因為必須保留的資料樣式較多,並且儲存 結構較複雜,因此最大記憶體的需求比其他兩個演算法來得多。而漸進探勘法的 記憶體需求則與重新探勘法相近。

漸進探勘法在執行時間上約為重新探勘法執行時間的二十分之一,而記憶體 的需求則幾乎相近。雖然保留樣式估算法的記憶體需求大小相當於重新探勘法記 憶體需求的五倍之多,但是保留樣式估算法所需執行時間只約為重新探勘法執行 時間的 1/1000。顯示本論文的兩種方法雖然花費較多記憶體需求,但是在執行時 間上達到明顯的效率提昇。

[實驗 5.5]本實驗設計在同樣的視窗大小設定下,比較改變最小出現次數門檻值

與視窗大小比値,對重新探勘法、漸進探勘法及保留樣式估算法之執行效率及記 憶體需求產生的影響。實驗參數的設定,訂定視窗大小為 3000。

圖 5.7 顯示三個演算法執行時間的結果,最小出現次數門檻值與視窗大小比 值愈小,則滿足條件的最近重覆樣式愈多,因此三個演算法在最小出現次數門檻 值愈小時,所花費的執行時間較多,而其中重新探勘法的執行時間受影響最大。

相對於重新探勘法,最小出現次數門檻值與視窗大小比值的改變對保留樣式估算

法的執行時間影響極小,執行的時間呈現平緩的趨勢,漸進探勘法則略高於保留

樣式估算法,但明顯小於重新探勘法。而在最小出現次數門檻值大於 0.04*視窗

大小時,大部分資料樣式出現次數皆小於最小出現次數門檻值,三個演算法探勘

(9)

出來的最近重覆樣式數量分別為 4,4 及 9,造成三個演算法執行時間相近。

圖 5.8 顯示改變最小出現次數門檻值及視窗大小比値對於執行最大記憶體需 求的結果。重新探勘法與漸進探勘法在比值愈小時,因為探勘出的最近重覆樣式 數目較多,所以記憶體需求較多。不過對於保留樣式估算法的記憶體需求影響則 不明顯,記憶體需求大小大約保持為另兩個演算法記憶體需求的 10 倍以內,呈 現平緩的狀態。

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

0.01 0.02 0.04 0.06 0.08 0.1

最小出現次數門檻值/視窗大小比値 執

行 時 間 (

)

Remining Incre-mining Est-mining

圖 5.7 改變最小出現次數門檻值之執行時間比較

0 5 10 15 20 25

0.01 0.02 0.04 0.06 0.08 0.1

最小出現次數門檻值

( M B )

Remining Incre-mining Est-mining

圖 5.8 改變最小出現次數門檻值之記憶體需求比較

(10)

[實驗 5.6]本實驗設計在同樣的視窗大小以及固定的最小出現次數門檻值設定

下,比較改變資料項種類數對重新探勘法、漸進探勘法及保留樣式估算法之執行 效率及記憶體需求產生的影響。實驗的參數設定視窗大小為 3000,最小出現次 數門檻值為 30(視窗大小*0.01),樣式種類數|P|=100。

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

I100 I500 I1000 I2000

資料項種類數 執

行 時 間 (

)

Remining Incre-mining Est-mining

圖 5.9 改變資料項種類數之執行時間比較

0 5 10 15 20 25 30 35

I100 I500 I1000 I2000

資料項種類數 記

憶 體 需 求 ( M B )

Remining Incre-mining Est-mining

圖 5.10 改變資料項種類數之記憶體需求比較

當資料項種類數增多時,可能出現的資料樣式增加,但滿足最近重覆樣式的

數量減少,因此由圖 5.9 顯示重新探勘法執行時間有顯著的下降,而漸進探勘法

與保留樣式估算法則不受影響,呈現平緩的狀況。圖 5.10 顯示隨著資料項種類

增多,所組成之保留樣式亦隨之增多,必須花費較多的記憶體空間來保留出現於

(11)

最近視窗序列中的資料樣式。而保留樣式估算法所花費記憶體約為重新探勘法與 漸進探勘法的五倍,但執行時間仍維持為重新探勘法執行時間的 1/1000 左右。

[實驗 5.7]本實驗設計在同樣的視窗大小以及固定的最小出現次數門檻值設定

下,比較改變資料樣式種類數對重新探勘法、漸進探勘法及保留樣式估算法之執 行效率及記憶體需求的影響。實驗的參數設定視窗大小為 3000,最小出現次數 門檻值為 30(視窗大小*0.01),資料項種類數|I|=100。

0 1 2 3 4 5 6 7 8 9

P10 P100 P1000 P5000

樣式種類數 執

行 時 間 (

)

Remining Incre-mining Est-mining

圖 5.11 改變樣式種類數之執行時間的比較

0 5 10 15 20 25

P10 P100 P1000 P5000

樣式種類數 記

憶 體 需 求 ( M B )

Remining Incre-mining Est-mining

圖 5.12 改變樣式種類數之記憶體需求比較

(12)

當樣式種類數增加時,重新探勘法必須花費更多的執行時間組合並檢查候選 樣式,所以執行時間隨之上升,而漸進探勘法與保留樣式估算法只需對先前保留 資訊分別進行漸進探勘及次數估算,因此所需執行時間較不受樣式種類數影響。

圖 5.12 顯示當樣式種類數增加時,保留樣式估算法中所需記錄的樣式個數也隨 之增長,所以記憶體需求增加量也最高。

5-3 實驗結果總結

由以上實驗結果顯示:比較三個演算法的執行效率,保留樣式估算法的執行 時間最少,速度最快,漸進探勘法執行時間次之,兩者皆比重新探勘法更有效率。

而記憶體的需求則以重新探勘法的記憶體需求最少,漸進探勘法次之,保留樣式 估算法記憶體需求最多。雖然保留樣式估算法需要花費 5-10 倍的記憶體需求,

但是卻只需要重新探勘法執行時間的 1/1000 的時間。而探勘的正確性比較,漸

進探勘法與保留樣式估算法皆能找出完全正確的最近重覆樣式,而保留樣式估算

法保證不會漏失最近重覆樣式,當視窗大小增加時,平均探勘錯誤率在 30%以

內。綜合來說,在記憶體較小且正確性很重要的考量下,漸進探勘法是一個很有

效率的方法。若沒有記憶體的考量,且可接受找出結果中有部份不為最近重覆樣

式的結果,則保留樣式估算法可提供更快速的探勘。

數據

表 5.3  重新探勘法探勘出最近重覆樣式平均出現次數  89.12300027.50100013.1150058.822000 121.33平均出現次數視窗大小4000 當視窗大小增加時,最小出現次數門檻值隨著視窗大小加大而成比例增加。 漸進探勘法儲存最大重覆樣式與其出現次數,並視一個最大重覆樣式的子樣式的 出現次數與該最大重覆樣式的出現次數相等,因此圖 5.3 顯示漸進探勘法的平均 出現次數誤差值隨視窗大小變大而增多,但比較表 5.3 所示之重覆樣式平均出現 次數,可發現視窗大小的增加也使得重覆樣式出現

參考文獻

相關文件

圍村內的居民用了那麼多 防衞設施,他們的房子一 定很大很美觀了!他們的 房子是怎樣?...

把作法用乘法算式記下來,並把算式中

z 方波是一週期波,其正及負峰值 存在的時間長度一樣,而兩者是 交互出現,如圖5-14所示。對一

惠能是主張自性清淨、眾生皆能成佛的思想,強調不需要像過去那樣經過反覆形式的修

Allan (Eds.), Proceedings of the 38th Conference of the International Group for the Psychology of Mathematics Education and the 36th Conference of the North American Chapter

每一個泰國年輕男子一生中必須出家做一次僧人,這可是人生中最重要的

主觀機率 指一個事件發生的機率由某 人決定,包括設計上的安排 設定,或者根據相信的程度 而猜測。.. 古典機率 假設樣本空間S中的每一個

才有這樣的結果 ( idaṁ hoti ) 。累次有同樣的事實可現觀或驗證,由例 證推理,就可以記說:處於有這一些因緣具足時( imasmiṁ sati ),肯定 有這樣的結果(