利用循序抽樣法於資料探勘中發掘高頻項目組

(1)

行政院國家科學委員會專題研究計畫成果報告

計畫類別：個別型計畫

計畫編號： NSC92-2213-E-011-037-

執行期間： 92 年 08 月 01 日至 93 年 07 月 31 日執行單位：國立臺灣科技大學資訊管理系

計畫主持人：楊維寧

報告類型：精簡報告

處理方式：本計畫可公開查詢

中華民國 93 年 10 月 14 日

(2)

(二)中、英文摘要及關鍵詞(keywords)。

中文摘要:

資料探勘藉由檢視資料庫中每一筆交易資料發掘有助於管理決策的資訊，由於資訊科技的進步，資料庫中資料量日益龐大，檢視資料庫中每一筆交易資料在實務上並不可行。如將資料庫視為母體進行抽樣，並利用樣本進行資料探勘便成為另一可行的途徑。利用抽樣方法發掘高頻項目組時,雖可降低普查所有資料所耗費的時間，但卻必須承受抽樣所導致的抽樣誤差。

傳統隨機抽樣方法在抽樣前決定樣本大小,因為項目組真實支持度為未知的母體參數,傳統隨機抽樣方法的樣本數目往往太大而不可行。循序抽樣方法是根據目前的樣本資訊判定項目組之支持度是否與最小支持度有顯著的差異以決定是否繼續抽樣,因為循序抽樣法循序檢視目前所有的樣本資訊,而非在抽樣前決定樣本大小,所以循序抽樣法應較傳統隨機抽樣法需要較少的樣本數目即可達到相同的抽樣誤差要求。

當項目組支持度與最小支持度在設定的差距假設下,我們提出一個滿足抽樣誤差要求的循序抽樣法,並探討循序抽樣法隨機樣本數目的統計性質,作為與隨機抽樣法的比較標準。

關鍵字:資料探勘,隨機抽樣,循序抽樣,抽樣誤差

Abstract :

Data mining discovers useful knowledge by screening the whole database. Current technology makes it fairly easy to collect a large amount of data and screening whole database becomes computationally prohibitive. A natural and simple alternative way is to mine on a sample instead of the whole database，which mitigates computational effort at the cost of incurring sampling error.

When mining the large itemset whose support is greater than the minimum support，

traditionally random sampling tends to be conservative in the sense of requiring prohibitively large sample due to the ignorance about the true support of the itemset.

Sequential sampling stops sampling the next observation once the currently observed sample can significantly tell the difference between the itemset support and minimum support. Based on the same sampling error requriement，sequential sampling method is expected to outperform the traditional random sampling method in terms of sample size since traditional random sampling method determines the sample size prior to sampling and ignores the sequentially available information.

Under the assumption that the itemset support is different from the minimum support by some prespecified amount，sequential sampling method is developed to achieve the sampling error requirement. The developed sequential sampling method is evaluated by studying the statistical properties of the random sample size，which are compared with the sample size by traditional random sampling method.

Keyword: data mining,random sampling,sequential sampling，sampling error

(3)

(三)報告內容：

前言

資料探勘(data mining)是資料庫系統研究中相當熱門的一門研究領域。其中關聯法則可以用來萃取出資料庫中項目間的關聯性,以幫助使用者發掘出有用的隱含知識,進一步增加收益,實務應用層面極廣,如商品的陳設佈置,產品的折價組合設計等等,故探討關聯法則(association rule)技術方面相關的討論及研究十分豐富。

關聯法則探勘即資料相關性探勘之研究，是最受重視的資料探勘應用課題之一。

例如：在一個銷售交易資料庫中，我們對商品(項目 item)間的關聯性有興趣，如果在大多數的交易記錄中，我們發現一個商品的出現常常會伴隨著另一個商品的出現，這就是所謂的關聯法則。例如：一關聯法則為若顧客購買牛奶，則他同時也會購買麵包，

即牛奶→麵包。

一關聯法則的描述如下：令 I={i1

， i

2

， … ， i

m

} ，是所有相異物品項目(items)所

成的集合，例如賣場中總共有 m 個商品項目，D 是所有交易記錄(transactions) T 的集合，例如 T 表示某一筆交易記錄中所購買物品所形成之集合，所以 T 為 I 的子集合。一個集合 X 若 I 的子集合，則稱為項目組(itemset)，此項目組所包含的商品項目之個數稱為此項目組的長度，若其長度為 k ，則稱此項目組為 k -項目組( k -itemset)。

一筆交易記錄若可支持一個項目組 X ，則此交易記錄必包含此項目組的所有物品項目，亦即一個交易記錄 T 包含 X 此項目組中的所有商品項目，稱為該筆交易記錄支持該項目組 X，而項目組 X 之支持度，記為 support(X) = θX，表示在 D 中，有購買項目組 X 之交易記錄在資料庫所佔比例。

關聯法則的形式一般表示為 X→ Y ，其中 X , Y 為 I 的子集合，關聯法則靠支持度(support)與可靠度(confidence)兩個參數來判斷此關聯法則是否有意義；可靠度是定義此關聯法則可信的程度，也就是在 X 出現的條件下，Y 也跟著出現的比例，亦即

support(X∩ Y) / support(X) 。

一個有效的關聯法則， X 之支持度及 X→ Y 之可靠度必須大於或等於使用者所定義的最小限制，稱為最小支持度(minimum support) 及最小可靠度 (minimum confidence)，若且唯若關聯法則滿足此條件限制，該關聯法則滿足使用者對於代表性 (支持度)與正確性(可靠度)的要求,意即該關聯法則具有代表意義。

舉一例說明之，若使用者所訂定的最小支持度和最小可靠度分別為 30% 與

70%，則購買麵包接著便會買牛奶會是一有效的關聯法則，如果：

麵包 → 牛奶，

support(麵包)=75% ( >30%) ， confidence(麵包→ 牛奶 )=90%。

表示 75% 的交易記錄中含有麵包，而所有購買麵包的交易記錄中 90% 的交易記錄含有牛奶。

儘管已經有許多有效率的演算法可以顯著改善探勘關聯法則時的執行效率與正確性,但大多採取逐一比對(計算)資料庫中所有交易記錄方式,針對資料庫所有交易記錄進行普查,以萃取資料庫中項目間隱含關係。但是隨著網際網路的風行,資訊暴炸日益嚴重,資料庫日益龐大,在效率及成本的可行性考量上,以往研究針對資料庫中所有交易記錄進行普查的方式並不可行,意即應用抽樣方法於關聯法則探勘為勢在必行。

(4)

而關聯法則探勘中最重要也最耗費時間的工作在於找出高頻項目組。要提升其效率,最實際的方法就是將抽樣方法概念應用於高頻項目組之探勘工作，但卻同時也必須面對抽樣所導致的抽樣誤差，而形成正確性與資料探勘效率間的取捨問題。

但在許多實務應用上，使用者需要的並不是絕對正確，抽樣形成的抽樣誤差在所難免,但只要能夠達到控制誤差的要求,即已滿足正確性的要求。由此可知,提升資料探勘效率並不一定就會對正確性有所損傷，善加利用樣本資訊即是一可行方向。

循序抽樣方法乃是依據累計樣本資訊是否已足以判定項目組之支持度是否與最小支持度有顯著的差異決定是否繼續抽樣,因為循序抽樣法循序檢視目前所有的樣本資訊，而非在抽樣前決定樣本大小,可有效利用樣本資訊。所以循序抽樣法應較傳統隨機抽樣法需要較少的樣本數目即可達到相同的抽樣誤差要求。

以往並沒有研究方法可以計算)應用循序抽樣方法的抽樣誤差大小，自然也無法滿足使用者對正確性的要求。以往應用抽樣方法概念進行關聯法則探勘之研究均著重於如何準確估計項目組支持度,設法應用統計推論中的參數估計原理以滿足使用者對正確性的要求,但探勘高頻項目組的問題本質是屬於統計推論中的假設檢定,而非以往研究所著重之參數估計。

因為得知(估計)項目組支持度的確切值固然可以幫助我們判斷項目組是否為高頻項目組,但是在探勘高頻項目組時,我們只需要判定項目組支持度是否大於或等於最小支持度(為高頻項目組)即可,並不需要得到項目組支持度的確切值。而循序抽樣方法則是專為解決假設檢定問題而設計,較過往研究所提出之抽樣方法更適於探勘高頻項目組時使用。

研究目的

本研究目的在於提出一個滿足抽樣誤差要求的循序抽樣法,當項目組支持度與最小支持度差值大於在使用者設定誤差容忍值假設下,本研究方法求出一組保證能夠滿足抽樣誤差要求的門檻值，並探討此循序抽樣法隨機樣本數目的統計性質,作為與傳統隨機抽樣法的比較標準。

本論文之研究範圍，乃是由使用者在進行探勘關聯法則前，先行依據使用者自身需求定義一項目組最小支持度容忍誤差值 ε 最小支持度 θ^* 與最小檢定力 1 - βL*, 1- βS * 要求後；再利用本文提出之金字塔結構表示抽樣誤差最難控制情況(支持度等於最小支持度容忍距離加減抽樣誤差要求)下的所有可能抽樣路徑，計算特定支持度與特定門檻值時錯判項目組為高(低)頻項目組的機率（抽樣誤差），並提出一有效率的調整門檻值方法，以求出一組保證能夠滿足抽樣誤差要求的門檻值，進而作為應用循序抽樣方法探勘關聯法則時參照使用。

如此可以利用循序抽樣方法有效利用樣本資訊的特性，提升抽樣（探勘）效率，

又可以保證滿足使用者對抽樣誤差（正確性）的要求。亦即，當項目組真實支持度在最小支持度加減最小支持度容忍距離外時，本研究方法可以保證將低頻項目組錯判為高頻項目組的機率小於使用者對錯判為高頻項目組的抽樣誤求要求,並保證將高頻項目組錯判為低頻項目組的機率小於使用者對錯判為低頻項目組的抽樣誤求要求,也就是滿足最小檢定力要求。

(5)

文獻探討

Toivonen 在 1996 年所提出的 sampling Algorithm[9]，即是將抽樣方法應用於探勘關聯法則上。該方法將資料庫中的資料以隨機抽樣方式選擇樣本，產生樣本資料庫, 使樣本資料庫能容納於主記憶中;如此一來探勘關聯法則時只需要直接在主記憶體中搜尋比對樣本資料庫中所有樣本交易記錄，主要概念為不對資料庫中所有交易記錄進行普查,而是藉由隨機抽樣方法產生樣本資料庫,由樣本資料庫代替原本的資料庫進行資料探勘的工作 (找出高頻項目組(frequent itemsets))。

因為樣本資料庫較交易資料庫小,大大的提升了探勘關聯法則的效率。也就是說該方法是使用一組隨機樣本得到一個近似的結果。利用該方法，雖然只需要一次搜尋資料庫的時間，大幅度改善探勘效率，但該方法探勘出之關聯法則，其結果之可信度與正確性必然會有所誤差，因為抽樣是運用部份的資料來推論原始資料的結果，因此，

必然會遺漏部份訊息。為保證結果的可靠度能滿足使用者需求，Toivonen 藉由給定使用者可容忍的抽樣誤差值及抽樣誤差將大於使用者自定誤差要求的最大機率後，再利用謝必雪夫不等式推導出，可滿足使用者誤差及錯誤率要求之樣本大小。

此法主要乃是應用傳統隨機抽樣方法與參數估計原理,在假設母體參數項目組真實支持度已知條件下,利用統計不等式計算最佳樣本大小之方法，在此稱為傳統隨機抽樣方法。但是統計不等式中包含未知項目組支持度θ，所以在計算最佳樣本大小時，

必項參考項目組支持度 θ 確切值，但項目組支持度 θ 是我們想要估計的對象，為未知母體參數,無從得知，所以此法在實際應用上有其困難處。

學者 Lipton 則是利用「循序抽樣」的概念估計關聯式資料庫中 query size 的大小，並稱之為「調適抽樣法」(adaptive sampling)。但其抽樣目標是對 query size 大小進行參數估計而非假設檢定,與循序抽樣方法有所不同。Domingo 等人則將 Lipton 所提出之調適抽樣法應用於估計項目組支持度,進而判定項目組是否為高頻項目組。

傳統隨機抽樣法樣本大小的決定, 需要未知參數 θ,在實務上是不可行的。而調適抽樣的好處是不需要知道 θ 的值,因為調適抽樣是循序檢視目前所有的樣本資訊, 以判定項目組之支持度是否與最小支持度有顯著的差異決定是否繼續抽樣,並非在抽樣前決定樣本大小,所以在相同的抽樣誤差要求下,調適抽樣法較傳統隨機抽樣法需要較少的樣本數目。

調適抽樣法的主要目的是準確地估計項目組支持度 θ,但在發掘高頻項目組時, 我們並不需要精確的估計θ,而是要精確地判定項目組支持度是否大於(或小於)最小支持度 θ*, 所以判定高低頻項目組應該是屬於「假設檢定」的問題,而非「參數估計」。

高頻項目組探勘乃是屬於假設檢定性質問題,並不等同於參數估計問題。

「循序抽樣法」類似於調適抽樣法,利用累計樣本資訊決定是否停止抽樣,循序抽樣法主要是利用循序搜集樣本虛無假設及對立假設的概似比值(likelihood ratio)決定是否繼續抽樣,一旦累計樣本資訊能夠作出接受虛無假設或對立假設的結論即停止抽樣, 所以循序抽樣法同樣具有不需要知道未知參數 θ即可決定樣本大小的優點, 同時「循序抽樣法」是適用於假設檢定之統計推論方法。因為不需要事先決定樣本數目(有效利用樣本資訊),亦不需要對項目組支持度進行準確估計,循序抽樣法較傳統隨機抽樣法需要較小的樣本數目即可達到相同的誤差要求。

(6)

研究方法

(7)

(8)

(9)

結果與討論（含結論與建議）

雖然當項目組真實支持度在最小支持度加減最小支持度容忍距離外時，本研究方法可以保證將低頻項目組錯判為高頻項目組的機率小於使用者對錯判為高頻項目組的抽樣誤求要求,並保證將高頻項目組錯判為低頻項目組的機率小於使用者對錯判為低頻項目組的抽樣誤求要求,也就是滿足最小檢定力要求。

但是經由系統模擬實驗卻發現增進之效率不如預期中顯著, 因為循序抽樣方法雖然是專為解決假設檢定問題而設計,較過往研究所提出之抽樣方法更適於探勘高頻項目組時使用，但循序抽樣方法乃是以循序檢視兩假設間對立機率之概似比值是否己足夠極端(項目組之支持度與最小支持度是否具有顯著的差異)以決定是否繼續抽樣。循序檢視概似比值雖可利用樣本資訊來提升抽樣效率，因概似比值指在反應高頻項目組假設與低頻項目組假設的悖離程度，所以每抽樣一筆記錄所增減之概似比值非常微小，換言之，欲達到判定是是否高頻項目組為低頻項目組之概似比值門檻所需之樣本數目，遠較預期中的樣本數目大。

而概似比值為循序抽樣方法之中心精神，是故，以循序抽樣法探勘高頻項目組雖可因循序檢視樣本資訊（概似比值）而提升效率，但提升之效率仍然有限。未來研究方向可改以系統模擬研究中的降低變異數相關技術為方向，或許效率將可顯著提升。

(10)

參考文獻

1. R.J. Lipton，J.F. Naughton，D.A. Schneider，and S. Seshadri,

“Efficient sampling strategies for relational database operations”,

Theoretical Computer Science ，116，pp.195-226,1993

2. Agrawal，R.，T. Imilienski，and A. Swami,

“Mining Association Rules between Sets of Items in Large Databases,”

Proc. of the ACM SIGMOD Int'l Conf. on Management of Data,

pp.207-216，May 1993.

3. R.J. Lipton，

“Query size estimation by adaptive sampling,”

Journal of Computer and System Sciense 51，pp.18-25,1995

4. C,Domingo，R. Gavalda，and O.Watanabe,

“Adaptive sampling methods for scaling up knowledge discovery algorithms,”

Proc. of the Second International conference on Discovery Science,1999

5. O.Watanabe,

“Simple sampling techniques for discovery science,”

Technical Report on Mathematical and Computer Sciense,1999

6. Agrawal，R.，and R. Srikant,

“Fast Algorithm for Mining Association Rules in Large Databases,”

In Proc. 1994 Int'l Conf. VLDB，pp.487-499,Santiago，Chile，Sep. 1994

7. Fayyad，U.，and P. Smyth,

“From massive data sets to science catalogs：Application and challenges,”

In Proceedings of the Workshop on Massive Data Sets，1995.

8. Zaki，M.J.，S. Parthasarathy，W. Li and M. Ogihara,

“Evaluation of sampling for data mining of association rules,”

In proceeding of the 7th Workshop on Research Issues in Data Engieering 1997.

9. Toivonen，H.，

Sampling large databases for association rules,

In proceeding of the 22nd International Conference on Very Large Data Base (VLDB'96),Morgan Kaufmann，1996.

10. Hagerup，T.，and C. Rub,

“A guided tour of chernoff bounds,”

利用循序抽樣法於資料探勘中發掘高頻項目組

行政院國家科學委員會專題研究計畫 成果報告

， i

， … ， i

} ，是所有相異物品項目(items)所

support(X∩ Y) / support(X) 。

70%，則購買麵包接著便會買牛奶會是一有效的關聯法則，如果：

support(麵包)=75% ( >30%) ， confidence(麵包→ 牛奶 )=90%。

Theoretical Computer Science ，116，pp.195-226,1993

Proc. of the ACM SIGMOD Int'l Conf. on Management of Data,

Journal of Computer and System Sciense 51，pp.18-25,1995

Proc. of the Second International conference on Discovery Science,1999

Technical Report on Mathematical and Computer Sciense,1999

In Proc. 1994 Int'l Conf. VLDB，pp.487-499,Santiago，Chile，Sep. 1994

In Proceedings of the Workshop on Massive Data Sets，1995.

In proceeding of the 7th Workshop on Research Issues in Data Engieering 1997.

In proceeding of the 22nd International Conference on Very Large Data Base (VLDB'96),Morgan Kaufmann，1996.

In Information Processing Letters ，pp.305-308，North-Holland 1989/90.

行政院國家科學委員會專題研究計畫成果報告