• 沒有找到結果。

資料探勘及關聯法則演算法

第二章 文獻探討

第四節 資料探勘及關聯法則演算法

當我們所蒐集的資料愈來愈多,在眾多眼花撩亂的資料中,可能隱藏哪些有 用的資訊或是規則可運用於決策,一直都是研究者所關心的焦點。像美國超級市 場 Wal-Mart 的案例中顯示週四買啤酒的顧客也會同時購買尿布,而一般人很難 想像這兩樣東西擺在一起能夠刺激商品的銷售業績。另外美國銀行從其客戶資料 中,找出既有客戶申請貸款的時機,並且利用找出的規則來規劃全新的行銷方 案,當該方案推出後,美國銀行的房屋質押貸款接受率立即成長兩倍以上。以上 這兩個成功的案例皆是靠資料探勘技術所賜(曾憲雄、蔡秀滿、蘇東興、曾秋蓉、

王慶堯,2007)。

一、 資料探勘概念

資料探勘的目的是從大量的資料當中把這些對於決策過程有幫助的規則找 尋出來,同時清除沒有用的資料(Han, 2001)。另外,也有其他研究說明了資料探 勘的三個目的(Olaru, 1999),第一先從龐大儲存的資料中處理資訊,之後便發展 更好的方法以處理不明確的資料及支援未來的決策分析,尤其是需要複雜計算和 重要特定領域知識等情況下的資料蒐集。最後再建立資料搜尋模式用以過於龐大 或複雜的資料。例如美國匯豐銀行在 140 萬筆客戶資料中,以生活方式來區隔客 戶並進行行銷活動,對投注於行銷策略的資源做最佳化規劃。因此,如何從這種 資料來形成高階具有意義的結構便非常重要(曾憲雄等人,2007)。

資 料 探 勘 的 模 型 主 要 分 為 資 料 分 類 (data classification) 、 資 料 分 群 (data clustering)(Jain, 1988)、資料關聯(data association)(Srikant, 1995)與循序樣式探勘 (sequential pattern mining) (Jain, 1988)四種。資料分類可按照分析對象的屬性分門

別類加以定義,建立類組。例如將信用卡申請者的風險屬性,區分為高度、中度 以及低度風險申請者。資料分類模型可用於一些已經被分類的資料來研究它們的 特徵,再經由這些被研究出的特徵對其他尚未分類或是新的資料作預測。此模型 常用的技巧有決策樹、記憶基礎推理等。資料分群模型主要的功能是將資料自動 區隔成幾個特性相近的群集,並將群集與群集之間的差異找出來,同時也可找出 同一群集中成員們的相似性。資料分群與資料分類不同的地方在於前者可用於在 不知道資料能分成多少種群集或是該依據什麼特徵的情況下來做分析。資料關聯 模型是用以探討資料項目間的關係,找出某一件事或是資料中會同時出現的項 目,例如,假設一顧客買了筆記型電腦,而此顧客會於同時再購買隨身碟的機率 是 80%。此模型可試圖找出多條規則,而每一條規則都可得到一個相對應的結 論,但也可能因此花費過多的時間。循序樣式探勘模型與資料關聯模型很相似,

它們不同之處在於循序樣式探勘模型中相關的資料項目是以時間區分開來,例 如,假設當顧客買了筆記型電腦之後,三個月內會再買隨身碟的機率是 75%。此 模型所得到的結果往往可以用來作為趨勢預測的依據之一(曾憲雄等人,2007)。

二、 關聯法則(Association Rule)

關聯法則為資料探勘中相當重要的一個議題(Lockwood, 1995),一般交易資 料庫中都儲存著數量龐大的交易資料,而每一筆交易記錄也都會連帶記載著與之 相關的項目(item),這些項目包含使用者相關資料及交易的項目或時間等;而資 料探勘的技術便可從這些大量的資料中,找出交易中可能相關聯的項目。例如 80%的顧客如果購買碳粉夾,同時也會購買報表紙(曾憲雄,2007)。而關聯法則 的邏輯分析主要分兩個階段(Lockwood, 1995),首先是群組項目的搜尋,從所有 的資料中找出支持度高的群組分類項目集合。換句話說,先刪除項目集合中出現 頻率低於最小支持度的項目,產生代表性的項目集合,再根據所產生的結果逐步 合併成為更大的項目集合。當群組項目的搜尋完成後,便是在群組項目中建立所 有關聯法則,再從群組項目的搜尋找出最常出現的產品項目集合以建立關聯法 則。以實例應用之規劃流程說明,先分析交易資料庫中的資料,若每一筆資料中

都包含一個且唯一的交易編號與一組已銷售的商品編號項目時,則可視此組編號 項目為項目集。若每一個項目集中的商品項目皆包含在整個交易中時,則稱此種 情況為交易支持(Support)項目集。而項目集出現在所有交易資料中的總數量,稱 為項目集的支持個數(Support Count)。另外,項目集的支持個數佔所有交易資料 數量的總比例則稱之為項目集的支持度。以表 2-2 銷售清單為例,當我們要找出 銷售最好的單一商品時,可以用支持個數與支持度做分析。表中總交易數量為 5 筆,A 商品項目共出現 3 次,其支持度個數為 3,支持度則為 0.6(支持個數/總交 易數)。以此類推後,便能找出商品 C 是銷售最好的(支持個數為 4,支持度為 0.8)。

若以組合商品來分析,則可分析出{A, B}與{B, C}的銷售組合最好(支持個數為 3,支持度為 0.6)。

表 2-2 銷售清單

銷售交易編號 商品編號項目集

T-001 A, B, C, F

T-002 A, B, F,

T-003 A, B, C, D, T-004 B, C, D, F

T-005 C, E, F

關聯法則的基本形式為 X → Y [支持度, 信心水準],其中 X 與 Y 代表項目集,

X 被稱為條件描述,Y 則為結論描述。X ∪ Y 的支持度指的便是關聯法則 X → Y 中的支持度。而符合條件描述與結論描述的交易個數佔全體符合條件描述的交 易個數之比例稱之為關聯法則 X → Y 中的信心水準(confidence),以邏輯運算 式來表示此信心水準則為:信心水準 = (X ∪ Y 的支持度) / (X 的支持度)。

使用關聯法則必須滿足事先設定最小支持度(Minimum Support)及最小信心水準 (Minimum Confidence) 兩個運算值。最小支持個數(Minimum Support Count)在所

有交易數的比例即是最小支持度。以表 2-2 為例說明,在所有的銷售資料中,假 設最小支持度與最小信心水準分別為 0.2 與 0.6。關聯法則{B, C} → {F}的支持 個數為 2,因此其支持度為 2 / 5 = 0.4,且項目集{B, C}的支持度為 3 / 5 = 0.6,

故採用關聯法則{B, C} → {F}的信心水準為 0.2 / 0.6 = 0.33。

在資料探勘關聯法則中,最常用與最著名的方法便是 Apriori 演算法(Srikant

& Agrawal, 1994),此法是一種不斷掃瞄交易資料庫,利用層次過濾及消除的方 法找出資料與資料間的所有關聯法則的演算法。其規劃處理方式說明如下 (Srikant & Agrawal, 1994):

一、 假設一個項目集中包含 N 個項目則稱之為 N-項目集(N-Item-Set)。

二、 所有大型 N-項目集(Large N-Item-Set)所成的集合,它的支持個數必定大於 或等於最小支持個數。

三、 Apriori 演算法的核心概念為使用上述之大型項目集做為下一階段大型項目 集的依據。換句話說,假設被找出的一大型項目集為 L1,利用 L1 找出 L2,

再利用 L2 找出 L3,以此類推直到下一階段無任何大型項目集產生為止。

四、 在實作方面為減少不斷建立大型項目集花費過多的時間,因此 Apriori 使用

「一個大型項目集的任何子集合也必定是大型項目集」的設計概念以減少 搜尋的時間。

五、 另外於實作設計中,會運用結合與刪除兩特性,從主交易資料庫來建立候 選項目集(Candidate ItemSets)。所謂結合是指將可相互結合的大型項目集相 結合,以產生候選項目集,而設計的流程為:

(一)結合大型(K-1)-項目集來產生候選 K-項目集(candidate K-Item Sets)。

(二)假設 X1 及 X2 為兩大型(K-1)-項目集,且項目集中的所有項目皆已完成 遞增排序。

(三)X1[j]表示項目集中第 j 個項目,若 X1 與 X2 的前 K-2 個項目皆相同,

且為避免重複的候選 K-項目集產生,必須符合 X1[K-1] < X2[K-1]的條 件,則 X1 與 X2 將被結合成一候選 K-項目集。其中必須特別注意的是,

項目集與項目集比較時,其中各個元素的排序並不在考慮範圍內,例如 項目集 X1 = {1, 2, 3, 4, 5}與項目集 X2 = {5, 4, 3, 2, 1}將視為完全相同之 項目集,因此為避免在產生候選 K-項目集時有元素重複,在結合時必須 考量 X1[K-1] < X2[K-1]的條件。

我們以實例說明如下:

若 X1 及 X2 分別為一 3-Item 的項目集,其值為:

X1 = {1, 2, 3 } X2 = {1, 2, 4 } 經比對後列出,

X1[1] = X2[1] = 1 X1[2] = X2[2] = 2 X1[3] < X2[3]

,可發現兩項目集是符合結合條件,因此可將 X1 與 X2 結合為另一 Xn 候 選大型項目集,Xn = {1, 2, 3, 4 }。

六、 Apriori 演算法另一特性刪除指的便是將無法滿足於 Apriori 演算法特性的候 選項目集刪除。

相關文件