有效率地線上探勘關聯規則
全文
(2) 規則,並考量新增交易資料時的線上探勘關聯 規則;第二小節中,我們以一實例做說明。. 被表示成 X→Y,其中 X 稱之為前項目組 (antecedent),Y 稱之為後項目組(consequent), X、Y⊆I 且 X∩Y=∅。有兩個參數 s 與 c 分別為 支持度(support)與信賴度(confidence),用來決 定 關 聯 規 則 X→Y 是 否 為 有 效 規 則 (strong rules);支持度 s 表示為:在所有的交易資料集 合中,同時包含有(X∪Y)的比率值,即 s=(同時 包含有(X∪Y)的交易資料數量)/(總交易資料數 量);而信賴度 c 表示為:在包含有 X 的交易 資料集合中,也同時包括有 Y 的比率值,即 c=(同時包含有(X∪Y)的交易資料數量)/(包含 有 X 的交易資料數量)。擷取出來的關聯規則, 其支持度與信賴度必須大於或等於所指定的 最小支持度與最小信賴度,這樣的關聯規則才 有意義。 關聯規則的擷取過程主要分成兩個階 段:在第一階段中,先找出滿足最小支持度的 項目組,這些滿足最小支持度的項目組,稱之 為高頻項目組(frequent itemsets),若一個項目 組 包 含 有 k 個 項 目 , 稱 之 為 k- 項 目 組 (k-itemsets),以 itemsetk 表示之,若某 k-項目 組滿足最小支持度,稱之為高頻 k-項目組 (frequent k-itemsets),以 frequentk 表示之。在 第二階段中,以最小信賴度為條件,計算高頻 項目組所形成的關聯規則,若滿足最小信賴 度,則關聯規則成立,例如 ABC 為高頻 3-項 目組,A、B、C∈I,若關聯規則 AB→C 滿足 最小信賴度,則此關聯規則成立。 在探勘關聯規則的過程中,若有新增交易 資料,依據上述演算法往往必須重新探勘,如 此 將造 成前次 探勘 計算的 重複 及資源 的 浪 費,因此,如何有效地處理線上新增交易資料 以更新關聯規則,即成為探勘關聯規則重要的 研究問題之一。線上探勘關聯規則已有許多的 相關研究被發出來[1, 2, 9, 10],其中[9]提出一 FUF(Fast Update)演算法,來對動態資料庫做 即時的關聯規則維護,在[10]中,則對於[9]的 方法提出修改,以減少在執行過程中產生過多 的候選項目組。 在本篇論文中,我們將根據 Apriori 演算 法[5]的執行步驟及以布林運算為基礎,考量線 上新增交易資料時,如何有效率地探勘關聯規 則。. (一) 探勘關聯規則 在傳統探勘關聯規則的方法中,若資料庫 有新增交易資料時,就必須重新計算探勘關聯 規則的過程,如此大量耗費計算的方式,並不 太能符合線上探勘的時效性。我們利用表 1 的 表格來儲存探勘關聯規則過程中產生的項目 組、出現次數、及是否為高頻項目組。而後, 當資料庫有新增交易資料進來時,將以即時的 處理方式將其拆解成 1-項目組,並且將次數累 加進入其相對的欄位中,高頻項目組也會隨著 出現次數的變動而改變,當計算儲存於表格中 之項目組的出現次數時,只須掃瞄此新增交易 資料即可。. 項目組. 表 1:項目組儲存表格 出現次數 是否為高頻項目組. 以下我們說明 Apriori 演算法[5]探勘關聯 規則的執行步驟: (1) 找出 frequentk-1,k>1,並儲存於記憶體的 表格中,若為∅,則停止執行。 (2) 由 (1) 中 找 出 任 兩 個 有 k-2 項 目 相 同 的 frequentk-1,組合成 itemsetk。 (3) 判斷由(2)所找出的 itemsetk,其所有包括 的 itemsetk-1 之 子 集 合 是 否 都 出 現 在 (1) 中,假如成立就保留此 itemsetk,否則就刪 除。 (4) 儲存由(3)所擷取的 itemsetk,於記憶體的 表格中,並檢查否滿足最小支持度,假如 符合就成為 frequentk,否則就刪除。 (5) 計算 frequentk 所有可能形成的關聯規則, 若滿足最小信賴度,則關聯規則成立。 (6) 跳至(1)找 frequentk+1,直到無法產生高頻 項目組為止。 經由上述演算法,可以找出所有的關聯規 則,並且儲存探勘過程中之項目組與其出現次 數。現在考量當有新增一筆交易資料Tnew進來 時,其各項目組的支持度必須更新為:項目組 更新之後的出現次數/(原先資料庫中交易資料 的數目+1),探勘關聯規則的過程說明如下:. 三、線上探勘關聯規則 在此章節中,我們先以 Apriori 演算法來 找出關聯規則,但是儲存探勘過程中的項目組 與其出現次數、及高頻項目組與其出現次數於 記憶體中。然後考量若有新增交易資料時,在 避免重複前次探勘計算的情況下來線上探勘 關聯規則。此章節共分為兩小節如下:第一小 節中,我們說明以 Apriori 演算法來探勘關聯. (1) 讀入Tnew。 (2) 計算之前儲存的itemset1,若itemset1有出 現在Tnew中,則其對應的項目組次數加1, 若滿足最小支持度,則成為 frequent1。. 2.
(3) (3) 組合任兩個frequent1,形成itemset2,若已 儲存於表格中,則掃瞄Tnew,若itemset2為 新形成的項目組,則儲存於記憶體的表格 中,並掃瞄原先資料庫與Tnew,計算itemset2 的出現次數,若滿足最小支持度,則成為 frequent2。 (4) 找出frequentk-1,k>2。 (5) 由(4)中,組合任兩個有k-2項目相同的 frequentk-1,形成itemsetk。 (6) 判斷由(5)所找出的itemsetk ,其所包含的 子集合itemsetk-1是否都有出現在(4)中,假 如成立就保留此itemsetk,否則就刪除。 (7) 檢查由(6)所找出的itesmetk ,若已儲存於 表格中,則掃瞄Tnew,若為新形成的項目 組,則儲存於記憶體的表格中,並掃瞄原 先資料庫與Tnew ,計算itemsetk 的出現次 數,若滿足最小支持度,則成為frequentk。 (8) 計算frequentk可能形成的關聯規則,若滿 足最小信賴度,則關聯規則成立。 (9) 跳至(4)繼續找出frequentk+1,直到無法產 生高頻項目組為止。. 變動太多已儲存於表格中的項目組。雖然對新 產生的項目組必須掃瞄原先資料庫與新增交 易資料,但相較於必須重新探勘關聯規則而 言,仍然減少很多重複性的計算過程。 若有 s 筆新增交易資料,s≥1,更新關聯 規則之過程如上述演算法的執行步驟,其計算 各項目組的支持度必須更新為:項目組更新之 後的出現次數/(原先資料庫中交易資料的數目 +s)。 (二) 實例說明 表 2 為資料庫 D 中有 4 筆的交易資料, {A、B、C、D、E}為所有項目所形成的集合, {T1, T2, T3, T4}為 4 筆交易資料所形成的集 合。設定最小支持度為 40﹪(即最小支持數量 為 1.6),最小信賴度為 60%。 表 2:資料庫 D 交易資料編號 項目 ACD T1 BCE T2 ABCE T3 BE T4. 在以上演算法的探勘過程中,對新增交易 資料而言,由於此新增交易資料而變動的項目 組,若之前已儲存於表格中,則只須掃瞄此新 增交易資料,即可更新各項目組的出現次數。 若為新產生的項目組,則必須掃瞄原先資料庫 與此新增交易資料,才能計算出新項目組是否 為高頻項目組。對線上新增交易資料而言,其 數量往往遠小於原先資料庫中交易資料的數 量,因此在更新關聯規則的過程中,應不至於. 首先以 Apriori 演算法擷取高頻項目組的 過程如表 3。得到的高頻項目組有 BCE、AC、 BC、BE 及 CE,分別計算其可能形成的關聯 規則,若滿足最小信賴度,則關聯規則成立。. 表3 itemset1 出現次數 是否高頻. itemset1 A. A. 2. B. B. C. itemset1 出現次數 是否高頻 ≥1.6. A. 2. *. 3. B. 3. *. C. 3. C. 3. *. D. D. 1. D. 1. E. E. 3. E. 3. 掃瞄 D. itemset2 出現次數 是否高頻. itemset2 AB AC. AB 掃瞄 D. *. itemset2 出現次數 是否高頻. 1 ≥1.6. AB. 1. AC. 2. AC. 2. AE. AE. 1. AE. 1. BC. BC. 2. BC. 2. *. BE. BE. 3. BE. 3. *. CE. CE. 2. CE. 2. *. 3. *.
(4) 表 3 (續) itemset3 ABC. ≥1.6. (3)步驟 itemset3 出現次數 是否高頻 及掃瞄 D BCE 2. itemset3 出現次數 是否高頻 BCE. 2. *. ACE BCE 如果目前有一筆新增交易資料T5進來,其 交 易 資 料 為 ACE , 最 小 支 持 數 量 變 更 為 40%×5=2,則探勘高頻項目組的過程如表4。 在計算因新增交易資料T5 而更新關聯規則的 過程中,只有ACE是新產生的項目組,故必須 掃瞄原先資料庫D與T5,以判斷ACE是否為高 頻項目組。經更新計算後,得到的高頻項目組 有ACE、BCE、AC、AE、BC、BE及CE,分 別計算其可能形成的關聯規則,若滿足最小信 賴度,則關聯規則成立。. 四、以布林運算為基礎線上探勘 關聯規則 [8]已經描述使用布林運算的方式,可使提 升原先 Apriori 演算法的執行效率,而[3]根據 Apriori 演算法的執行步驟,提出一個以布林運 算為基礎的方法,將可提升[8]所描述之演算法 的執行效能。在此章節中,我們首先根據[3]. 表4 itemset1 出現次數 是否高頻. Itemset1 A. A. 3. B. B. C. itemset1 出現次數 是否高頻 ≥2. A. 3. *. 3. B. 3. *. C. 4. C. 4. *. D. D. 1. D. 1. E. E. 4. E. 4. 掃瞄 T5. itemset2 出現次數 是否高頻. Itemset2 AB AC. AB 掃瞄 T5. *. itemset2 出現次數 是否高頻. 1 ≥2. AB. 1. AC. 3. *. AC. 3. AE. AE. 2. AE. 2. *. BC. BC. 2. BC. 2. *. BE. BE. 3. BE. 3. *. CE. CE. 3. CE. 3. *. itemset3. (3)步驟. itemset3. ABC. ACE. ABE. BCE. 掃瞄 D 與 T5. 出現次數 是否高頻. itemset3. 掃瞄 T5. ACE. 2. BCE. 2. ACE BCE ≥2. itemset3. 出現次數. 是否高頻. ACE. 2. *. BCE. 2. *. 4.
(5) 所提出之方法,來探勘關聯規則,但是儲存探 勘過程中的項目組與其出現次數、及高頻項目 組與其出現次數於記憶體中。然後考量若有新 增交易資料時,在避免重複前次探勘計算的情 況下來線上探勘關聯規則。此章節共分為兩小 節如下:第一小節中,我們說明以[3]所提出之 演算法來探勘關聯規則,並考量新增交易資料 時的線上探勘關聯規則;第二小節中,我們以 一實例做說明。. 除[8]。 (3) 判斷由(2)所找出的 itemsetk ,其包含的 itemsetk-1 之子集合,是否都出現在(1)中, 可將 itemsetk 與(1)中所有各 frequentk-1 做 xor 布林運算,計數結果為 itemset1 的數目 是否等於 k,假如成立就保留此 itemsetk, 否則就刪除。 (4) 儲存由(3)所擷取出的 itemsetk,並檢查是 否滿足最小支持度,可將 itemsetk 與交易 資料 Tj 執行以下的運算: itemsetk or Tj xor Tj,(1≤j≤m) 若結果為 itemset0,則表示 itemsetk⊆Tj,掃 瞄所有交易資料之後,判斷出現的次數是 否滿足最小支持度,假如符合就成為 frequentk,否則就刪除。 (5) 對 frequentk 計算可能形成的關聯規則,若 前項目組設定為 X,則後項目組 Y 可由以 下布林運算找出[8]: Y=frequentk xor X 若關聯規則 X→Y 滿足最小信賴度,則關 聯規則成立。 (6) 跳至(1)找 frequentk+1,直到無法產生高頻 項目組為止。. (一) 探勘關聯規則 首先,我們說明一些名詞定義如下: I={i1, i2, …, in},是全部項目(items)的集合, 共有 n 項。 T={T1, T2, …, Tj, …, Tm},是全部交易資料的 集合,共有 m 筆,其中 Tj 為第 j 筆交易資料, 1≤j≤m;。 Tj 由 n 位元(bits)所組成,其格式表示成 Tj=[b1, b2, b3, …, bf, …, bn],bf∈{0, 1},1≤f≤n,若交 易資料 Tj 中有出現第 f 項的項目,則 bf=1, 否則 bf=0。 itemsetk 表示包含有 k 個項目的項目組,其資 料格式如同 Tj。 frequentk 表示包含有 k 個項目的高頻項目 組,其資料格式如同 Tj。. 現在考量當有一筆新增交易資料為Tnew進 來時,依據前一章節的演算法及支持度的更新 計算,其探勘關聯規則的過程說明如下:. 在探勘關聯規則的過程中,我們儲存探勘 過程中產生的項目組、出現次數、及是否為高 頻項目組。而後,當資料庫有新增交易資料進 來時,將以即時的處理方式,當計算儲存於記 憶體中之項目組的出現次數時,只須掃瞄此新 增交易資料即可。我們分別使用 or(如圖 1)及 xor 布林運算(如圖 2),可以很有效率地分別計 算出兩項目組之間聯集及相異的位元。 or 0 1. 0 0 1 圖1. 1 1 1. xor 0 1. 0 0 1 圖2. (1) 讀入Tnew ,並將之轉換成位元的資料格 式。 (2) 計算之前儲存的itemset1,判斷itemset1是否 有出現在Tnew中,可執行以下的運算: itemset1 or Tnew xor Tnew ……….(a) 若為itemset0,則表示itemset1⊆Tnew,其對 應項目組的次數加1,若滿足最小支持 度,則成為frequent1。 (3) 將 任 兩 個 frequent1 做 or 布 林 運 算 , 形 成 itemset2,若已儲存於記憶體中,則執行公 式 (a) 的 運 算 , 若 為 itemset0 , 則 表 示 itemset2⊆Tnew,其對應項目組的次數加1, 若itemset2為新產生的項目組,則掃瞄原先 資料庫與Tnew,並儲存之,計算itemset2的 出現次數,若滿足最小支持度,則成為 frequent2。 (4) 找出frequentk-1,k>2。 (5) 由(4)中,將任兩個frequentk-1 做or布林運 算,若形成itemsetk,且非重複,就加以保 留。 (6) 判斷由(5)所找出的itemsetk,其所包含的子 集合itemsetk-1是否都有出現在(4)中,其判 斷方式可執行以下的運算:將itemsetk與(4) 中所有各frequentk-1做xor布林運算,計數 結果為itemset1的數目是否等於k,假如成. 1 1 0. 我們將每一交易資料轉換成位元的資料 型態,若項目有出現在交易資料中,則相對位 元設定為“1”,否則設定為“0”,每筆交易資料 都是以 n 位元的格式表示之。以下為[3]所提出 以布林運算為基礎來探勘關聯規則之執行步 驟: (1) 找出 frequentk-1,並儲存於記憶體中,k>1, 若為∅,則停止執行。 (2) 任意兩個 frequentk-1 做 or 布林運算,假如 結果為 itemsetk,即有 k 個項目其值為“1”, 且非重複者,就保留此 itemsetk,否則就刪. 5.
(6) 立就保留此itemsetk,否則就刪除。 (7) 檢查由(6)所找出的itesmetk,若已儲存於記 憶體中,則只須掃瞄Tnew,執行公式(a)的 運算,若為itemset0,則表示itemsetk⊆Tnew, 其對應項目組的次數加1,若itemsetk為新 產生的項目組,則掃瞄原先資料庫與 Tnew,並儲存之,計算itemsetk的出現次數, 若滿足最小支持度,則成為frequentk。 (8) 對frequentk計算可能形成的關聯規則,若 前項目組設定為X,則後項目組Y可由以下 布林運算找出[8]: Y=frequentk xor X 若關聯規則 X→Y 滿足最小信賴度,則關 聯規則成立。 (9) 跳至(4)繼續找出frequentk+1,直到無法產. 生高頻項目組為止。 (二) 實例說明 我們仍以表 2 之資料庫 D 為例,各交易 資 料 轉 換 成 位 元 格 式 為 : T1=[10110] 、 T2=[01101]、T3=[11101]、T4=[01001]。最小支 持度為 40%(即最小支持數量=1.6),最小信賴 度=60%。 首先以[3]所描述之演算法擷取高頻項目 組的過程如表 5。得到的高頻項目組有 BCE、 AC、BC、BE 及 CE,分別計算其可能形成的 關聯規則,若滿足最小信賴度,則關聯規則成 立。. 表5. A B C D E. T1 1 0 1 1 0. T2 0 1 1 0 1. T3 1 1 1 0 1. T4 0 1 0 0 1. (4)步驟. 出現次數. ≥1.6. 出現次數 是否高頻. A 1 0 0 0 0 2 *. B 0 1 0 0 0 3 *. AB 1 ≥1.6 1 0 0 0 出現次數 1 是否高頻. (3)步驟. 出現次數. ABC 1 1 1 0 0 2. frequent1 C 0 0 1 0 0 3 *. AC 1 0 1 0 0 2 *. itemset3 ACE 1 0 1 0 1 2. D 0 0 0 1 0 1. E 0 0 0 0 1 3 *. frequent2 AE BC 1 0 0 1 0 1 0 0 1 0 1 2 *. BCE 0 1 1 0 1 3. =3. A 1 0 0 0 0 2. B 0 1 0 0 0 3. AB 1 (2)、(4)步驟 1 0 0 0 出現次數 1. BE 0 1 0 0 1 3 *. CE 0 0 1 0 1 2 *. itemset3 BCE 0 1 1 0 1 3. 6. AC 1 0 1 0 0 2. (2)步驟. 4)步驟. itemset1 C D 0 0 0 0 1 0 0 1 0 0 3 1 itemset2 AE BC 1 0 0 1 0 1 0 0 1 0 1 2. ABC 1 1 1 0 0. itemset3 BCE 0 1 1 0 1 2. E 0 0 0 0 1 3. BE 0 1 0 0 1 3. CE 0 0 1 0 1 2. itemset3 ACE BCE 1 0 0 1 1 1 0 0 1 1. frequent3 BCE 0 ≥1.6 1 1 0 1 2 是否高頻 *.
(7) 如果目前有一筆新增交易資料 T5 進來, 其 交 易 資 料 為 ACE , 轉 成 位 元 格 式 為 [10101],最小支持數量變更為 40%×5=2,則 擷取高頻項目組的過程如表 6。在計算因新增 交易資料 T5 而更新關聯規則的過程中,只有 ACE 是新產生的項目組,故必須掃瞄原先資. 料庫 D 與 T5,以判斷 ACE 是否為高頻項目 組 。經 更新計 算後 ,得到 的高 頻項目 組 有 ACE、BCE、AC、AE、BC、BE 及 CE,分別 計算其可能形成的關聯規則,若滿足最小信賴 度,則關聯規則成立。. 表6 T1 1 0 1 1 0. A B C D E. T2 0 1 1 0 1. T3 1 1 1 0 1. T4 0 1 0 0 1. T5 1 0 1 0 1. A 1 0 0 0 0 3. B 0 1 0 0 0 3. AB 1 (3)步驟 1 0 0 0 出現次數 1. AC 1 0 1 0 0 3. 掃瞄 T5. 出現次數. ≥2. 出現次數 是否高頻. A 1 0 0 0 0 3 *. B 0 1 0 0 0 3 *. frequent1 C 0 0 1 0 0 4 *. AB 1 ≥2 1 0 0 0 出現次數 1 是否高頻. (6)步驟. 出現次數. ABC 1 1 1 0 0 2. ACE 1 0 1 0 1 3. AC 1 0 1 0 0 3 *. D 0 0 0 1 0 1. E 0 0 0 0 1 4 *. frequent2 AE BC 1 0 0 1 0 1 0 0 1 0 2 2 * * BCE 0 1 1 0 1 3. BE 0 1 0 0 1 3 *. =3. CE 0 0 1 0 1 3 *. ACE 0 1 1 0 1 3. 在計算因新增交易資料 T5 而更新關聯規 則的過程中,只有 ACE 是新產生的項目組, 故必須掃瞄原先資料庫 D 與 T5,以判斷 ACE 是否為高頻項目組。經更新計算後,得到的高 頻項目組有 ACE、BCE、AC、AE、BC、BE 及 CE,分別計算其可能形成的關聯規則,若 滿足最小信賴度,則關聯規則成立。. (5)步驟. BCE 0 1 1 0 1 3. itemset1 C D 0 0 0 0 1 0 0 1 0 0 4 1 itemset2 AE BC 1 0 0 1 0 1 0 0 1 0 2 2. ABC 1 1 1 0 0. E 0 0 0 0 1 4. BE 0 1 0 0 1 3. CE 0 0 1 0 1 3. itemset3 ACE BCE 1 0 0 1 1 1 0 0 1 1. 對 BCE 掃瞄 T5,對 ACE 掃瞄原先資 料庫與 T5 ≥2 出現次數 是否高頻. ACE 0 1 1 0 1 2 *. BCE 0 1 1 0 1 2 *. 五、效能評估 在不失一般情況下,我們使用隨機亂數來 產生每筆交易資料的項目,做為評估前面章節 演算法之執行效能的資料來源。實驗平台為 P4-1.7 G、RAM 為 512M、作業系統為 Windows 2000 Sever,使用 C#來撰寫程式。我們分別說 明前面所描述之演算法的執行效能如下:. 7.
(8) 新增交易資料對記憶體中項目組之出現次數 的影響,若有產生新項目組時,則必須掃瞄全 部的交易資料,以判斷這些新產生的項目組是 否為高頻項目組;二是我們以布林運算為基 礎,提出一個演算法,將可有效地提升前一方 法的執行效能。雖然對新產生的項目組必須掃 瞄原先資料庫與新增交易資料,但相較於必須 重新探勘關聯規則而言,仍然減少很多重複性 的計算過程。從效能評估顯示,我們所提出的 探勘方法,將可有效地提升線上探勘關聯規則 的執行效率。. 假設項目共有 26 項,每筆交易資料所包 含的項目以亂數產生,我們分別使用 Apriori 演算法(每次新增交易資料就須重新計算)、第 三節及第四節所描述之演算法,來找出關聯規 則,並評估三者的執行效能。在圖 3 中,我們 初始以 10 萬筆交易資料為探勘的資料來源, 在設定最小支持度為 0.4 及最小信賴度為 0.7 的條件下,然後以每次新增 1000 筆交易資 料,來評估三個演算法的執行時間。 在每次新增交易資料時,第一種以 Aprioi 演算法來探勘關聯規則,且每次都須重新計 算,其執行時間大致上呈現一條緩慢上升的直 線。而第三節所描述的演算法,一開始探勘的 執行時間,與原先 Apriori 演算法之執行時間 相同,由於第一次探勘時就將其過程中的項目 組與其出現次數儲存於記憶體中,每次新增交 易資料時,其執行時間會遠少於第一次探勘所 花的執行時間。由第四節所描述之以布林運算 為基礎的演算法,其執行效能更優於第三節所 描述的演算法。. 七、參考文獻 [1] 陳可欣,在動態交易資料庫中探勘線上關 聯法則之設計與分析,臺南師範學院資訊 教育研究所,碩士論文,2001。 [2] 蘇家輝,線上多維度關聯規則採掘系統之 架構,義守大學資訊工程所,碩士論文, 2002。 [3] 陳垂呈,“以有效率的布林演算法來擷取關 聯規則”,2002 數位生活與網際網路科技 研討會,台南,成功大學,六月,2002。 [4] R. Agrawal, T. Imielinski, and A. Swami, “Mining Association Rules between Sets of Items in Very Large Database,” Proceedings of the ACM SIGMOD Conference on Management of Data, pp. 207-216, 1993. [5] R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules in Large Database,” Proceedings of the 20th International Conference on Very Large Data Bases, pp. 487-499, 1994. [6] J. S. Park, M. S. Chen, and P. S. Yu, “Using a Hash-Based Method with Transaction Trimming for Mining Association Rules,” IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 5, pp. 813-825, 1997. [7] R. Srikant and R. Agrawal, “Mining Generalized Association Rules,” Proceedings of the 21th International Conference on Very Large Data Bases, pp. 407-419, 1995. [8] S. Y. Wur and Y. Leu, “An Effective Boolean Algorithm for Mining Association Rules in Large Databases,” DASFAA, 1999. [9] D.W. Cheung, J. Han, V. Ng, and C.Y. Wang, “Maintenance of Discovered Association Rules in Large Databases: An Incremental Updating Technique,” Proc. Int'l Conf. Data Eng., 1996. [10] N. F. Ayan, A. U. Tansel and E. Arkun, “An Efficient Algorithm to Update Large Itemsets with Early Pruning,” Proc. of 1999 Int. Conf. on Knowledge Discovery and Data Mining, 1999.. 最小支持度為0.4、最小信賴度為0.7 700 600 500 400. ︵. 執 行 時 間. 300. ︶. 秒. 200 100 0 10 10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9. 交易資料數量(萬筆) 每次都重新探勘之Apriori演算法 第三節之演算法 第四節之演算法. 圖3. 六、結論 探勘關聯規則是資料探勘技術中最重要 的研究主題之一,但在面臨有新增交易資料 時,就必須重新計算的探勘方式,將造成前次 探勘計算的重複及資源的浪費,因此,如何避 免探勘計算的重複,以較少的計算時間來線上 探勘關聯規則,即成為探勘關聯規則最重要的 問題之一。在本篇論文中,我們提出兩個演算 法來線上探勘關聯規則:一是先以 Apriori 演 算法來找出所有的關聯規則,在探勘的過程 中,我們保留計算過程中的項目組與其出現次 數於記憶體中,當有新增交易資料時,則考量. 8.
(9)
相關文件
Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised
Core vector machines: Fast SVM training on very large data sets. Using the Nystr¨ om method to speed up
Core vector machines: Fast SVM training on very large data sets. Multi-class support
A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning
Core vector machines: Fast SVM training on very large data sets. Multi-class support
• Information retrieval : Implementing and Evaluating Search Engines, by Stefan Büttcher, Charles L.A.
Ramesh: An algorithm for generating all spann ing trees of directed graphs, Proceedings of the Workshop on Algorithms an d Data Structures, LNCS, Vol.. Ramesh: Algorithms for
Since the FP-tree reduces the number of database scans and uses less memory to represent the necessary information, many frequent pattern mining algorithms are based on its