• 沒有找到結果。

第二章 文獻探討

第二節 資料採礦概述

二、 資料採礦流程

立 政 治 大 學

Na tiona

l Ch engchi University

13

資料採礦包含了六種領域:

(一) 資料庫系統(Database systems),

資料倉儲(Data warehouses),

線上即時分析(OLAP)

(二) 機器學習(Machine learning)

(三) 統計分析方法(Statistical and data analysis methods)

(四) 資料視覺化(Visualization)

(五) 數學規劃(Mathematical programming)

(六) 高效能運算(High performance computing)

二、資料採礦流程

資料採礦需要大量的準備,且在準備資料階段,需要耗時的處理與了解,

由此即可知道前置作業是相當重要的,所以一套完整的流程也是必備的。由於 在執行資料採礦時,有很多種不同的資料採礦流程,為了減少執行資料採礦過 程中產生的差異性,SPSS 公司提出一套資料採礦標準流程:CRISP-DM (Cross-industry standard process for data mining),而且 CRISP-DM 是最常被使用 的資料採礦流程。CRISP-DM 將資料採礦流程區分為六大階段,不只是專注於 資料部分的整理和分析,仍然關注企業的需求,以做出最好的決策。其中 CRISP-DM 的流程包括:定義商業問題、定義資料、資料準備、建立模型、模 型評估以及實施。由 SPSS 提供的資料採礦流程圖如圖 2-2:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

14

圖2-2 CRISP-DM 流程圖

資料來源:CRISP-DM 1.0 ,The CRISP-DM consortium,2009

接著將簡單扼要的介紹這六個階段:

(一) 定義商業問題(Business understanding)

在第一階段裡,由商業的角度去清楚的了解研究真正的專業目標以及需求,

將這些目標及需求轉換為符合資料採礦的目標,接著才能對於研究制訂後續的 流程,進而提出資料採礦的計畫。

(二) 定義資料(Data understanding)

清楚的了解研究專業目標之後,進而蒐集可用的分析資料,運用基礎的統 計方法去了解資料的特性,並用驗證資料的邏輯和驗證資料品質,用上述步驟 對資料做初步的了解。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

15

(三) 資料準備(Data preparation)

將原始資料整理為最後的分析資料表,也就是將資料整理成適合後續步驟 的格式,這個步驟也是最耗時的部分,包括:資料選擇(Data selection)、資料 清理(Data cleaning)、擴充資料(Enrichment)、資料編碼(Data coding)。

(四) 建立模型(Modeling)

本階段的目的是要找出最適合的資料採礦模型,因此來回設定參數,以找 出最佳參數做出最適合的資料採礦模型,以達到最佳預測效果。對於同一資料 採礦問題,不單只有單一模型技術可使用,為了多種模型技術的比較,必頇配 合不同技術對資料格式的特殊要求,而可能要重新返回到第三階段。

(五) 模型評估(Evaluation)

本階段是在建立模型後,透過測詴和評估所建立的模型,是否真的能夠帶 來效益以及達到真正的商業目標,並檢測是否有潛在的盲點,思考重要的商業 需求是否都已列入考慮,並且做最後的確認與評估。

(六) 實施(Deployment)

等到模型評估一併確定後,進一步將所建立的資料採礦模型整合到企業的 決策流程,且要定期的對模型進行維護和再修正,以確保所建立的模型在實務 的使用上是穩健的。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

16