• 沒有找到結果。

實例推導

在文檔中 中 華 大 學 (頁 32-39)

第 3 章 權重式平行化關聯式法則探勘演算法

3.4 實例推導

本節將實際舉例 WDPA 演算法中以 CWT 為計算分配機制的項目集合平行分 散,將演算法進行完整的推導。設定資料探勘的高頻支持度為交易筆數的 40% ( 8 筆資料 × 40% ≒ 3,當求出的值有小數點時,則無條件捨去),亦指當項目集合共 同出現 3 次(含)以上的則為高頻項目集合、處理器設定為二台為 P0及 P1 ,P0 為伺 服處理器 (Master Processor)。以下開始探勘的流程。表 3-8 為交易紀錄內容。

表3-8. 交易資料庫

TID Items

1 e, d, r, m, a, f 2 r, o, d, i, h, p 3 b, h, r, g, f 4 j, h, l, g, r 5 p, f, d, g, h, a 6 r, f, a, m, p, d 7 m, r, d, o, f, h

8 c, r, e, n, g, f

步驟一:建立交易紀錄Tid 表格及探勘一階高頻項目集合

掃描原始資料庫一次,計算一階候選項目集合的名稱及 Tid 表格,如表 3-9。

並將符合支持度的高頻項目集合儲存為一階高頻項目集合,如表 3-10。藉由一階 高頻項目集合,依項目集合出現的高頻次數做遞減,建立項目集合的二維矩陣,如 圖3-8。

表3-9. 一階候選項目集合 Tid 表格

Items TID Items TID

a 1, 5, 6 i 2

b 3 j 4 c 8 l 4 d 1, 2, 5, 6, 7 m 1, 6, 7

e 1, 8 n 8

f 1, 3, 5, 6, 7, 8 o 2, 7 g 3, 4, 5, 8 p 2, 5, 6 h 2, 3, 4, 5, 7 r 1, 2, 3, 4, 6, 7, 8

表3-10. 一階高頻項目集合

Items Count TID

r 7 1, 2, 3, 4, 6, 7, 8 f 6 1, 3, 5, 6, 7, 8 d 5 1, 2, 5, 6, 7 h 5 2, 3, 4, 5, 7 g 4 3, 4, 5, 8

a 3 1, 5, 6

m 3 1, 6, 7

p 3 2, 5, 6

圖3-8. 二階候選項目集合矩陣

步驟二:(k-1)階高頻項目集合的平行分配

• 項目 r 的 Tid 加權值計算方式為

= 7 × 6 + 7 × 5 + 7 × 5 + 7 × 4 + 7 × 3 + 7 × 3 + 7 × 3 = 203

• 以此類推可以計算出所有項目集合的 Tid 加權值

∑ ∑

= r (203) + f (138) + d (90) + h (65) + g (36) +a (18) + m (9) + p (0) = 559

• 平均一台處理器需處理的 Tid 加權值

= Tid 加權總值 ÷ 處理器數量 ≒ 279

• 以 Cyclic_WeightTid (CWT) 做項目集合的平行分散,輪流的方式將項目集 合分配給 P0及 P1,當處理器分配到的 Tid 加權值已等於或大於平均值時,

即不再被分配項目集合。以下為P0及P1 分配到的項目集合。

o P0: r (203)+ d (90) = 293

(已大於平均值,因此不再被分配項目集合)

o P1: f (138)+ h (65)+ g (36)+ a (18) + m (9) =266

雖然 P1分配到的項目集合 Tid 加權總值小於平均值,但由於項目集合已分 配完,因此P1即是處理所分配到的5 個項目集合。

步驟三:k 階高頻項目集合的產生

藉由步驟二所分配到的項目集合做 k 階候選項目集合的產生,並比對驗證 Tid 表格,計算出項目集合出現次數及Tid 編號。由於 P0 及 P1 分配到的項目集合沒有 重覆,因此當 P0 要收集所有處理器的 k 階高頻項目集合時,並不需要花費時間再 確認項目集合有無重覆,只需要做收集的動作即可。以下為P0 及 P1 的候選項目集 合,及比對Tid 表格計算項目集合次數,如表 3-11。

表3-11. 二階候選項目集合 處理器名稱

k 階候選項目集合

P0 md, rd, rg, pd, rf, rm, hr, dg, pr, ad, ar, hd

P1 gf, ph, pf, mf, mg, af, am, ap, ag, pm, ah, pg, hg, hm, hf, df

在驗證候選項目集合的過程中,是藉由項目集合的Tid 表格做比對計算。以 P0

的候選項目集合”md”為例,抓取”m”跟”d”的 Tid 值做交集比對,就可以快速的得 到項目集合出現的交易紀錄編號及次數,如表3-12。

Items TID

d 1, 2, 5, 6, 7

m 1, 6, 7

Itemsets Count TID

md 3 1, 6, 7 圖3-9. 候選項目集合次數計算

以此類推,各處理器便可找出所有二階候選項目集合的交易紀錄編號及次數,如 表 3-13。探勘出的候選項目集合交由 P0收集,並將符合支持度的項目集合儲存為 高頻項目集合,如表3-14。

表3-12. 二階候選項目集合

P

0

P

1

Itemsets Count TID Itemsets Count TID

md 3 1, 6, 7 gf 3 3, 5, 8

rd 4 1, 2, 6, 7 ph 2 2, 5

rg 3 3, 4, 8 pf 2 5, 6

pd 3 2, 5, 6 mf 3 1, 6, 7

rf 5 1, 3, 6, 7, 8 mg 0 (null) df 4 1, 5, 6, 7 af 3 1, 5, 6

rm 3 1, 6, 7 am 2 1, 6

hr 4 2, 3, 4, 7 ap 2 5, 6

dg 1 5 ag 1 5

pr 2 2, 6 pm 1 6

ad 3 1, 5, 6 ah 1 5

ar 2 1, 6 pg 1 5

hd 3 2, 5, 7 hg 3 3, 4, 5

hm 1 7

hf 3 3, 5, 7

表3-13. 符合支持度之二階高頻項目集合

Itemsets Count TID

rf 5 1, 3, 6, 7, 8 rd 4 1, 2, 6, 7 df 4 1, 5, 6, 7 hr 4 2, 3, 4, 7

md 3 1, 6, 7

rg 3 3, 4, 8

pd 3 2, 5, 6

rm 3 1, 6, 7

ad 3 1, 5, 6

hd 3 2, 5, 7

gf 3 3, 5, 8

mf 3 1, 6, 7

af 3 1, 5, 6

hg 3 3, 4, 5

hf 3 3, 5, 7

步驟四:k = k + 1,反覆執行步驟二至步驟四,直到沒有高頻項目集合產生,即 完成高頻項目集合的探勘。

以此例子,當完成探勘時可以得到 29 個高頻項目集合,最長的項目集合為四 階,如表3-15 為高頻項目集合的項目名稱及共同出現的次數。

表3-14. 所有階層之項目集合及次數

一階高頻項目集合 二階高頻項目集合 三階高頻項目集合 四階高頻項目集合

Itemsets Count Itemsets Count Itemsets Count Itemsets Count

r 7 rf 5 dfr 3 dfrm 3

f 6 rd 4 dfm 3

d 5 df 4 drm 3 h 5 hr 4 frm 3 g 4 md 3 adf 3

a 3 rg 3 m 3 pd 3

p 3 rm 3

ad 3 hd 3 gf 3 mf 3 af 3 hg 3 hf 3

步驟五:藉由探勘所得到的高頻項目集合,推導關聯法則並分析其有效性。

在文檔中 中 華 大 學 (頁 32-39)

相關文件