• 沒有找到結果。

資料採礦還有其它同義的字彙如資料庫探勘(Database Mining)、數據挖掘、資料探 勘等;資料採礦是電腦應用領域的新名詞。然而當人類還在茹毛飲血的上古時代,為了 快速並準確捕獲獵物,必須細心觀察獵物的習性,並預測獵物的行為,早已進行著資料 採礦的行為。麻省理工學院 2000 年元月號,科技評論(Technology Review)預測:未 來會改變世界的十大新興科技中 Data Mining 名列第四;美國時代雜誌將資料採礦列為

21 世紀五大新興行業之一,可看出資料採礦未來在商業界的重要性,展望未來的行銷重 心將由產品轉為客戶,誰掌握了最多有關客戶的知識,誰就擁有最多的資本,對客戶了 解越多,就越能深化品牌的獨特性,競爭也越強,只有透過將資料轉為知識,將知識轉 為行動,才能徹底將行動轉為極大的利潤,因此資料採礦在企業中的定位,將會取代中 層管理者。

2.5.1 資料採礦定義

資料採礦同時也可以被稱做在資料庫知識發掘、知識萃取(knowledge extraction)、

資料規則分析(data/pattern analysis)、資料考古學(data archaeology)、資料採集(data dredging)等,將最常被引用的資料採礦定義整理如表 4:

表 4 資料採礦定義彙整表

時間 學者 定義

1991 Frawley, Piatetsky,

&Matheus

在資料庫中發掘出非顯然的、前所未知的及潛在的 可能有用資訊之過程。

1996 Fayyad, Piatetsky,Smyth,

& Uthurusamy

將資料中有效的、以前從未看見過的、可能有用的 及易於理解的模式,萃取出來的過程。

1996 Brachman & Anand 資料採礦是從觀察的資料中來粹取樣式或模式。

1997 Berry & Linoff 資料採礦是為要發現出有意義的樣型或規則,而必 須從大量資料之中以自動或是半自動的方式來探索 和分析資料

1997 Carven & Shavlik 將先前不知道,有效的資訊從大型資料庫抽出的過 程,並且將抽出的資訊提供給主管做決定性的決策。

1997 Cabena, Hadjinian,Stadler, Verhees, & Zanasi

從大型資料庫中萃取先前未知的、有效的與可用的 資訊,且使用此資訊來訂定重要的企業決策。

1999 Pyle 透過一些技巧與工具,來顯示資料的含意。

1999 Reinschmidt,Gottschalk, Kim, & Zwietering

指從資料中萃取有效的、有用的、先前未知,以及 可理解的資訊,以用來制定商業決策。

1999 Berson, Smith, &

Thearling

乃是從儲存於資料倉儲中的大量資料挖掘出 有意義的新關聯、樣式與趨勢。

1999 Han, J. 資料挖掘(Data Mining)便是從資料庫、資料倉儲

(Data Warehouse)或其它大量資料儲存體中,挖掘 出有用資訊的一個過程。

2002 Rygielski, Wang, & Yen 為使用統計演算法以及精密的資料搜尋能力來發現 資料中的樣式和關聯

2002 Chye & Grey 用來分析大量的資料或偵測在資料中的潛在樣式,

使得原始資料轉換成有價值的價值資訊

2.5.2 資料採礦流程

為了從大量的交易資料中擷取潛在有用的資訊與知識,Frawley、Piatetsky 與 Matheus

(1991)將 DM 的進行分為五個流程分述如下:

1、資料選擇:要進行資料選取時,首先必須清楚知道知識發掘的最終目標究竟是 什麼,或者想要找出何種知識,並了解相關領域的專業知識,才能自資料庫或資料倉儲 中選出資料,建立目標資料集。

2、前置處理:為避免資料中的干擾或雜訊影響到結果分析的正確性,因此針對目 標資料集作前置處理,必須移除資料庫中錯誤、遺失、不完整的資料,或處理資料不一 致的問題。

3、資料轉換:將處理過的資料進行轉換,成為適合探勘的資料形式,必要時還需 要縮減資料量(如使用多次元縮減、轉換或編碼等方法),以取得有效的變數或資料。

4、資料採礦:利用分類規則、決策樹、統計回歸、群聚方法、線性分析等演算法,

從轉換後的資料中發掘存在的特徵、資訊或資料樣式。

5、解釋與評估:利用一些報告方法或圖形工具,將探勘出來的特徵、資訊或資料 樣式,轉換成可讓人輕易了解的圖示或報表,以提供決策支援之用。

Brachman & Anand (1996) 資料採礦流程細分為九個流程分述如下:

1、加強對目的領域的應用與知識的了解,從使用者的角度清楚的定義進行知識探 索的目標。

2、針對希望探索的資料建立目標資料庫。

3、對資料作前置處理,包括雜訊的去除與解釋、收集模組化所必須的資訊、掌握 漏失資料的欄位以及定義與時間、順序有關的資訊。

4、資料的歸納與規劃,包括尋找對完成目標有用的資料屬性欄位、應用維度精簡 或轉換的方法簡化資料。

5、依據第一步驟所定義的目標,選擇適合的 DM 方法,如摘要法(Summarization)、

分類(Classification)、分群(Clustering)、迴歸分析法(Regression Analysis)等。

6、進行探索的分析、模組化以及假設的選擇,包括 DM 演算法以及尋找資料樣式 (Data Patterns)方法的選擇,決定使用的模組化及使用的參數值。

7、執行探勘尋找所希望的資料樣式,例如分類的規則或決策樹(Decision Trees)、分 群後的群組。

8、根據探勘的結果,解譯資料的樣式與所包含的意義。

9、完成報告與現行的知識做比較,進一步應用所得的知識,改善現行的作業,並 擴及其它的系統。

2.5.3 資料採礦產業標準

在處理程序的標準上,國際組織定義出能夠跨產業、跨商業問題同時跨工具的資料 採礦標準化流程 CRISP-DM(Cross Industry Process For Data Mining),其流程如圖 4,

以簡化後續資料採礦專案流程,並將商業目標與資料採礦目標結合。

1、Business Understanding:確定商業目標 →對現有資源的評估 →確定問題是否能 夠通過資料採礦來解決 →確定資料採礦的目標 →制定資料採礦計畫。

2、Data Understanding:確定資料採礦所需要的資料 →對資料進行描述 →資料的 初步探索 →檢查資料的質量。

3、Data Preparation:選擇資料 →清理資料 →對資料進行重建 →調整資料格式使 之適合建模型(Modeling) →對各個模型進行評價 →選擇資料採礦模型 →建立模型。

4、Evaluation:評估資料採礦的結果 →對整個資料採礦過程的前面步驟進行評估 確定下一步怎麼辦?是發佈模型?還是對資料採礦過程進行進一步的調整 →產生新的 模型。

5、Deployment:把資料採礦模型的結果送到相應的管理人員手中 →對模型進行日 常的監測和維護定期更新資料採礦模型。

圖 4 CRISP-DM 資料採礦流程圖

資料來源:http://www.crisp-dm.org/index.htm(2003)

相關文件