資料採礦流程 - 資料採礦概述 - 文獻探討 - 資料採礦預測系統之建構-以雲端運算為系統之主軸概念

第二章文獻探討

第二節資料採礦概述

二、資料採礦流程

國

立政治大學

‧

Na tiona

l Ch engchi University

資料採礦包含了六種領域：

（一）資料庫系統（Database systems），

資料倉儲（Data warehouses），

線上即時分析（OLAP）

（二）機器學習（Machine learning）

（三）統計分析方法（Statistical and data analysis methods）

（四）資料視覺化（Visualization）

（五）數學規劃（Mathematical programming）

（六）高效能運算（High performance computing）

二、資料採礦流程

資料採礦需要大量的準備，且在準備資料階段，需要耗時的處理與了解，

由此即可知道前置作業是相當重要的，所以一套完整的流程也是必備的。由於在執行資料採礦時，有很多種不同的資料採礦流程，為了減少執行資料採礦過程中產生的差異性，SPSS 公司提出一套資料採礦標準流程：CRISP-DM (Cross-industry standard process for data mining)，而且 CRISP-DM 是最常被使用的資料採礦流程。CRISP-DM 將資料採礦流程區分為六大階段，不只是專注於資料部分的整理和分析，仍然關注企業的需求，以做出最好的決策。其中 CRISP-DM 的流程包括：定義商業問題、定義資料、資料準備、建立模型、模型評估以及實施。由 SPSS 提供的資料採礦流程圖如圖 2-2：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖2-2 CRISP-DM 流程圖

資料來源：CRISP-DM 1.0 ，The CRISP-DM consortium，2009

接著將簡單扼要的介紹這六個階段：

（一）定義商業問題（Business understanding）

在第一階段裡，由商業的角度去清楚的了解研究真正的專業目標以及需求，

將這些目標及需求轉換為符合資料採礦的目標，接著才能對於研究制訂後續的流程，進而提出資料採礦的計畫。

（二）定義資料（Data understanding）

清楚的了解研究專業目標之後，進而蒐集可用的分析資料，運用基礎的統計方法去了解資料的特性，並用驗證資料的邏輯和驗證資料品質，用上述步驟對資料做初步的了解。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

（三）資料準備（Data preparation）

將原始資料整理為最後的分析資料表，也就是將資料整理成適合後續步驟的格式，這個步驟也是最耗時的部分，包括：資料選擇（Data selection）、資料清理（Data cleaning）、擴充資料（Enrichment）、資料編碼（Data coding）。

（四）建立模型（Modeling）

本階段的目的是要找出最適合的資料採礦模型，因此來回設定參數，以找出最佳參數做出最適合的資料採礦模型，以達到最佳預測效果。對於同一資料採礦問題，不單只有單一模型技術可使用，為了多種模型技術的比較，必頇配合不同技術對資料格式的特殊要求，而可能要重新返回到第三階段。

（五）模型評估（Evaluation）

本階段是在建立模型後，透過測詴和評估所建立的模型，是否真的能夠帶來效益以及達到真正的商業目標，並檢測是否有潛在的盲點，思考重要的商業需求是否都已列入考慮，並且做最後的確認與評估。

（六）實施（Deployment）

等到模型評估一併確定後，進一步將所建立的資料採礦模型整合到企業的決策流程，且要定期的對模型進行維護和再修正，以確保所建立的模型在實務的使用上是穩健的。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

在文檔中資料採礦預測系統之建構-以雲端運算為系統之主軸概念 - 政大學術集成 (頁 23-26)

資料採礦流程

第二章 文獻探討

第二節 資料採礦概述

二、 資料採礦流程

國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章文獻探討

第二節資料採礦概述

二、資料採礦流程

立政治大學

立政治大學

立政治大學

立政治大學