資料探勘

第二章文獻探討

第二節資料探勘

什麼是資料探勘？簡單來說，資料探勘是從大量資料中存取或發掘知識 [12]。資料探勘可結合智慧化及各種統計方法分析此龐大的資料，來發掘出不同而有利的資訊與知識，並提供未來決策或預測之用[38]。資料探勘最終的目的就是希望將資料經由採礦之後可以發掘出新知識，而這些知識的價值在於可以提供前所未知的資訊，供其他人在決策支援或其他方面運用。

資料探勘由以下步驟所組成的[12]：

A. 資料清理(Data Cleaning)：將不需要、多餘的的資料清除，對錯誤的、

遺漏的資料做修正處理，最主要的目的是將雜亂無章的資料整理成一致的資料，並消除干擾(noise)。

B. 資料整合(Data Integration)：將多種資料來源組合在一起。例如有些資料是在資料庫中，有些資料放在 Excel 中，將這些資料經過轉換程式存在統一的資料庫中。

C. 資料選擇(Data Selection)：從資料庫中搜尋分析與任務相關的資料。

在資料中所有的資料欄位選擇我們所需的欄位來做分析。

D. 資料轉換(Data Transformation)：將資料轉換或統一成適合探勘的格式，例如通過匯總或聚集操作來達成。

E. 資料探勘(Data Mining)：運用資料探勘的演算法來挖掘並取得分析後的資料樣式。

興趣，也就是根據某種有趣度度量(Interestingness Measures)來辨識並表達知識的真正有趣模式。

G. 知識表達(Knowledge Presentation)：使用視覺化的表達技術，來讓使用者瞭解探勘出的知識。

資料探勘主要的功能有，關聯法則分析(Association Analysis)、分類和預測(Classification and Prediction)、群組分析(Cluster Analysis)、

序列分析(Sequence Analysis)、廣義化(Generalization) [26]。除此之外應還有孤立點分析(Outlier Analysis)。

A. 關聯法則分析(Association Analysis)

關聯法則分析是去發現關聯規則，而這些關聯規則展示了某些特殊的值頻繁地在給定資料集一起出現的規則。關聯法則運用在大量的資料中找出某一項目是否與另一個項目有關。例如：從超商顧客的購買記錄中，我們去找牛奶與麵包的關連，牛奶 => 麵包 [support=2%， confidence=60%]，表示在所有的交易筆數中同時包含牛奶與麵包的交易筆數有 2%，即支持度為 2%。在含有牛奶的交易筆數中包括麵包的交易筆數有 60%，即信賴度為 60%。

B. 分類和預測(Classification and Prediction)

分類的過程會找出描述並區分資料或概念的模型，以便能夠使用模型來預測標記未知的物件類別。

分類法是先定義一些類別，再將資料庫中的資料分到這些類別中。分類屬於監督式學習，最普遍的方法是決策樹(decision tree)，首先將資料分為兩部份，第一部分為訓練的資料，第二部分為測試資料，資料量大約是 2:1 的比例。先從訓練資料中找出歸類法則，再將測試資料放入這些法則中來評估歸類的正確性，若正確性還算不錯的話，則找出的規則可做為未來歸類使用。

C. 群組分析(Cluster Analysis)

將資料庫的資料分析其中的特性，將所有的資料區分為幾個群組，使每個群組內的資料都有很高的相似性，而不同的群組則顯示

不同的特性。與分類和預測不同的，群組分析在分析資料物件時，

並不考慮已知的類別標記。此法可做為分類編製(Taxonomy Formation)，它會將觀察到的內容組織成類別階層結構，並把類似的事件組織在一起。

D. 序列分析(Sequence Analysis)

有些資料會隨著時間變化而有一定的規律或趨勢，利用此技術的分析可找到資料隨著時間變化的特定模式。序列分析可能包括時間相關資料的特徵化、區分、關聯、分類或叢集。其實只是用其它分析方式再加上時間因素而已。處理具有時間序列的資料，其使用的方式可能使用統計法或類神經網路技術。

E. 廣義化(Generalization)

資料廣義化是一個過程，它將任務相關的資料集從較低的概念層抽象到較高的概念層。當使用者只想從龐大的資料庫得到概略性結果時，就可以利用屬性關係做概略性的歸納，再用其他的技術，

來發掘知識讓使用者得到滿足的需求。

F. 孤立點分析(Outlier Analysis)

資料庫中可能包含一些資料物件，它們與其他資料的一般行為或模型不一致，這些資料就是孤立點。大部分的探勘技術都會將孤立點視為雜亂或是異常而將它排除，然而在一些應用中，孤立點探勘比正常事件更加有趣，例如我們可應用在欺騙偵測等。

二、關聯法則分析

關聯法則分析的定義，關聯法則分析由 Agrawal 在 1993 年提出，主要是從大量資料項目集合之間發現有趣的關聯或相關的關係。最典型的例子是購物籃分析，透過顧客放在購物籃的不同商品之間的關聯，分析每筆交易紀錄，來了解顧客的購買行為，找出令人感興趣的關聯法則。而這些關聯法則的目的可用來制定行銷策略，例如相關產品的擺放位置、廣告策略、目錄設計之決策等。

牛奶 => 麵包 [support=2%，confidence=60%]

表示在所有的交易筆數中同時包含牛奶與麵包的交易筆數有 2%，

即支持度(support)為 2%。在含有牛奶的交易筆數中包括麵包的交易筆數有 60%，即信賴度(confidence)為 60%。

假設 I = {i1,i2,…，im}是項目的集合。設任務相關的資料D是資料庫交易的集合，每個交易T是項目的集合，為I的子集合。每個交易有一個標識符號，稱作TID。設A 是一個項目集合，交易T包合A，A亦是I 的子集合。

關聯法則的形式如 A=> B，A 為前因項目組(antecedent

itemsets)，B 為後果項目組(consequent itemsets)。支持度是指在 A 和 B 兩個項目同時在交易紀錄 D 出現的次數與交易紀錄 D 的交易總筆數的比。支持度代表事件發生的機率，support(A=>B)代表 A 與 B 兩個交易同時發生的機率，其值介於 0%和 100%之間。信賴度為 A 和 B 兩個同時在交易紀錄 D 出現的次數與 A 項目在交易紀錄 D 出現次數的比。信賴度代表已發生某事件的情況下，另一事件發生的機率，confidence(A=>B) 代表發生 A 交易項目下，又發生 B 交易項目的機率，其值介於 0%和 100%

之間。

關聯法則是否可使用，需視同時滿足最小支持度門檻值(minimum support)和最小可信度的門檻值(minimum confidence)。同時滿足最小支持度門檻和最小可信度門檻的規則稱做強規則(strong)。支持度門檻和可信度門檻的設定是很重要的，當門檻設太低時，會將重要性較低之項目也包含進來，而設太高又怕因此而失去某些重要規則。

第三節軟體工程

在文檔中應用主題地圖建立物件導向程式庫樣式 (頁 18-21)

第二章 文獻探討

第二節 資料探勘

第二章文獻探討

第二節資料探勘