資料採礦相關研究 - 運用資料採礦技術及企業評價模式建立投資策略之研究-以台灣上市櫃非金融類公司為例

資料採礦還有其它同義的字彙如資料庫探勘(Database Mining)、數據挖掘、資料探勘等；資料採礦是電腦應用領域的新名詞。然而當人類還在茹毛飲血的上古時代，為了快速並準確捕獲獵物，必須細心觀察獵物的習性，並預測獵物的行為，早已進行著資料採礦的行為。麻省理工學院 2000 年元月號，科技評論（Technology Review）預測：未來會改變世界的十大新興科技中 Data Mining 名列第四；美國時代雜誌將資料採礦列為

21 世紀五大新興行業之一，可看出資料採礦未來在商業界的重要性，展望未來的行銷重心將由產品轉為客戶，誰掌握了最多有關客戶的知識，誰就擁有最多的資本，對客戶了解越多，就越能深化品牌的獨特性，競爭也越強，只有透過將資料轉為知識，將知識轉為行動，才能徹底將行動轉為極大的利潤，因此資料採礦在企業中的定位，將會取代中層管理者。

2.5.1 資料採礦定義

資料採礦同時也可以被稱做在資料庫知識發掘、知識萃取(knowledge extraction)、

資料規則分析(data/pattern analysis)、資料考古學(data archaeology)、資料採集(data dredging)等，將最常被引用的資料採礦定義整理如表 4：

表 4 資料採礦定義彙整表

時間學者定義

1991 Frawley, Piatetsky,

&Matheus

在資料庫中發掘出非顯然的、前所未知的及潛在的可能有用資訊之過程。

1996 Fayyad, Piatetsky,Smyth,

& Uthurusamy

將資料中有效的、以前從未看見過的、可能有用的及易於理解的模式，萃取出來的過程。

1996 Brachman & Anand 資料採礦是從觀察的資料中來粹取樣式或模式。

1997 Berry & Linoff 資料採礦是為要發現出有意義的樣型或規則，而必須從大量資料之中以自動或是半自動的方式來探索和分析資料

1997 Carven & Shavlik 將先前不知道，有效的資訊從大型資料庫抽出的過程，並且將抽出的資訊提供給主管做決定性的決策。

1997 Cabena, Hadjinian,Stadler, Verhees, & Zanasi

從大型資料庫中萃取先前未知的、有效的與可用的資訊，且使用此資訊來訂定重要的企業決策。

1999 Pyle 透過一些技巧與工具，來顯示資料的含意。

1999 Reinschmidt,Gottschalk, Kim, & Zwietering

指從資料中萃取有效的、有用的、先前未知，以及可理解的資訊，以用來制定商業決策。

1999 Berson, Smith, &

Thearling

乃是從儲存於資料倉儲中的大量資料挖掘出有意義的新關聯、樣式與趨勢。

1999 Han, J. 資料挖掘（Data Mining）便是從資料庫、資料倉儲

（Data Warehouse）或其它大量資料儲存體中，挖掘出有用資訊的一個過程。

2002 Rygielski, Wang, & Yen 為使用統計演算法以及精密的資料搜尋能力來發現資料中的樣式和關聯

2002 Chye & Grey 用來分析大量的資料或偵測在資料中的潛在樣式，

使得原始資料轉換成有價值的價值資訊

2.5.2 資料採礦流程

為了從大量的交易資料中擷取潛在有用的資訊與知識，Frawley、Piatetsky 與 Matheus

(1991)將 DM 的進行分為五個流程分述如下：

1、資料選擇：要進行資料選取時，首先必須清楚知道知識發掘的最終目標究竟是什麼，或者想要找出何種知識，並了解相關領域的專業知識，才能自資料庫或資料倉儲中選出資料，建立目標資料集。

2、前置處理：為避免資料中的干擾或雜訊影響到結果分析的正確性，因此針對目標資料集作前置處理，必須移除資料庫中錯誤、遺失、不完整的資料，或處理資料不一致的問題。

3、資料轉換：將處理過的資料進行轉換，成為適合探勘的資料形式，必要時還需要縮減資料量(如使用多次元縮減、轉換或編碼等方法)，以取得有效的變數或資料。

4、資料採礦：利用分類規則、決策樹、統計回歸、群聚方法、線性分析等演算法，

從轉換後的資料中發掘存在的特徵、資訊或資料樣式。

5、解釋與評估：利用一些報告方法或圖形工具，將探勘出來的特徵、資訊或資料樣式，轉換成可讓人輕易了解的圖示或報表，以提供決策支援之用。

Brachman & Anand (1996) 資料採礦流程細分為九個流程分述如下：

1、加強對目的領域的應用與知識的了解，從使用者的角度清楚的定義進行知識探索的目標。

2、針對希望探索的資料建立目標資料庫。

3、對資料作前置處理，包括雜訊的去除與解釋、收集模組化所必須的資訊、掌握漏失資料的欄位以及定義與時間、順序有關的資訊。

4、資料的歸納與規劃，包括尋找對完成目標有用的資料屬性欄位、應用維度精簡或轉換的方法簡化資料。

5、依據第一步驟所定義的目標，選擇適合的 DM 方法，如摘要法(Summarization)、

分類(Classification)、分群(Clustering)、迴歸分析法(Regression Analysis)等。

6、進行探索的分析、模組化以及假設的選擇，包括 DM 演算法以及尋找資料樣式 (Data Patterns)方法的選擇，決定使用的模組化及使用的參數值。

7、執行探勘尋找所希望的資料樣式，例如分類的規則或決策樹(Decision Trees)、分群後的群組。

8、根據探勘的結果，解譯資料的樣式與所包含的意義。

9、完成報告與現行的知識做比較，進一步應用所得的知識，改善現行的作業，並擴及其它的系統。

2.5.3 資料採礦產業標準

在處理程序的標準上，國際組織定義出能夠跨產業、跨商業問題同時跨工具的資料採礦標準化流程 CRISP-DM（Cross Industry Process For Data Mining），其流程如圖 4，

以簡化後續資料採礦專案流程，並將商業目標與資料採礦目標結合。

1、Business Understanding：確定商業目標 →對現有資源的評估 →確定問題是否能夠通過資料採礦來解決 →確定資料採礦的目標 →制定資料採礦計畫。

2、Data Understanding：確定資料採礦所需要的資料 →對資料進行描述 →資料的初步探索 →檢查資料的質量。

3、Data Preparation：選擇資料 →清理資料 →對資料進行重建 →調整資料格式使之適合建模型（Modeling） →對各個模型進行評價 →選擇資料採礦模型 →建立模型。

4、Evaluation：評估資料採礦的結果 →對整個資料採礦過程的前面步驟進行評估確定下一步怎麼辦？是發佈模型？還是對資料採礦過程進行進一步的調整 →產生新的模型。

5、Deployment：把資料採礦模型的結果送到相應的管理人員手中 →對模型進行日常的監測和維護定期更新資料採礦模型。

圖 4 CRISP-DM 資料採礦流程圖

資料來源：http://www.crisp-dm.org/index.htm（2003）

在文檔中運用資料採礦技術及企業評價模式建立投資策略之研究-以台灣上市櫃非金融類公司為例 (頁 38-43)