第二章 文獻探討
2.1 資料探勘
2.1.1 資料探勘的定義
資料探勘(Data Mining)就是從資料中發掘出資訊或知識,有人稱為「知識 發掘」(Knowledge Discovery in Database,KDD),也有人稱為「資料考古學」
(Data Archaeology)、「資料型態分析」(Data Pattern Analysis)、「功能相依 分析」(Functional Dependency Analysis)、「資料庫知識探勘」(Knowledge Mining from Database)、「知識萃取」(Knowledge Extraction)、「資料分析」
(Data Analysis)等等,均意指對資料庫中所隱含資訊(如知識法則或資料的
Frawley(1991) 資料探勘在資料庫中發掘出飛顯然的、前所未有 的及潛在的可能有用資訊的過程。
Group and Owrang(1995) 資料探勘是由已存在的資料中,發掘新事實即發 現專家尚未知曉的新關係。
Hall(1995) 資料探勘是一種結合資訊視覺化、機器學習、統 計方法及資料庫等多種技術,以便從龐大資料量 中,萃取法則形式或其他模式所表達的知識。
Fayyad(1996) 資料庫知識發現是種辨別有效的、新奇的、前在 有用的以及最終能被瞭解的模式(Pattern)的 重要過程。
Cabena(1997) 資料探勘是將先前所未知的隱藏資料,從大型資 料庫中有效地抽出以提供給高階主管作為決策 參考。
2.1.2 資料探勘的功能
一般而言,資料探勘功能能包含下列五項功能,將這些功能的意義及可能使 用的技巧簡述如下:
1. 分類(Classification)
按分析對象的屬性分門別類加以定義,建立類組(Class)。例如:信用卡區分 為白金卡、金卡、普卡。
最常使用的技巧:決策樹(Decision Tree)、記憶基礎推理(Memory-based Reasoning)等。
2. 推估(Estimation):
根據既有連續性數值之相關屬性資料,以獲致某一屬性為知之值。例如:依 性用卡的申請者之職業、教育程度、消費行為來推估其信用卡消費額。
最常使用的技巧:統計方法上之相關分析、迴歸分析及類神經網路方法。
3. 預測(Prediction)
根據對象屬性之過去觀察值來推估該屬性未來之值。例如:根據客戶過去的 刷卡消費金額預測其未來之刷卡消費金額。
最常使用的技巧:迴歸分析、時間數列分析及類神經網路方法。
4. 關聯分組(Affinity Grouping):
從所有物件決定那些相關物件應該放在一起。例如:超市中相關之美妝用品 (化妝品、保養品),放在同一間貨架上。在客戶行銷系統上,此種功能用來 確認交叉銷售(Cross Selling)的機會以設計出吸引人的產品群組。
5. 同質分組 (Clustering):
將異質母體中區隔為較具同質性之群組(Clusters)。事先未對於區隔加以定 義,而資料中自然產生區隔。同質分組相當於行銷術語中的區隔化
(Segmentation)。
最常使用的技巧:K-means 法及 Agglomeration 法。
2.1.3 資料探勘的步驟
2. 資料整合(Data Integration):將不同來源的資料加以整合。
3. 資料篩選(Data Selection):由原資料庫中將要操作的資料抽出另存,可以 加速 KDD 的處理程序。
4. 資料轉換(Data Transformation):透過資料轉換的過程,可以增加要描述主 題的資訊或去除多餘的資料。
5. 資料探勘(Data Mining):實際的資料探勘工作。
6. 樣本型態的評估(Pattern Evaluation):針對某些有興趣的問題去定義實際 的樣本型態,以便描述知識。
資料篩選與轉換 Selection and Transformation
評估與展現 evaluation and
presentation
資料探勘 Data Mining
Database
Data Warehouse
Patterns
資料精簡與整合 Cleaning and
Integration
Knowledge
Flat file
7. 知識展現(Knowledge Presentation):將探勘出的資訊或知識,透過視覺化 的工具表現在使用者前。