資料探勘

第二章資料探勘相關研究工作

第一節資料探勘

所謂的資料探勘，簡單來說即是從儲存於資料庫(Database)、資料倉儲(Data Warehousing)及資訊儲存器(Information Repositio ry)的大量資料中發掘出感興趣的知識(非瑣碎的、有隱含意義的、之前未知的、有潛力有用的)之處理過程，又稱資料庫探勘(Database Mining)、知識萃取(Knowledge Extraction)、資料考古 (Data Dredging)及資訊收穫(Information Harvesting)等等[11]。資料探勘是資料庫知識探索(Knowledge Discovery in Database)的步驟之一，也是其中的主要核心步驟，因此有些學者將資料探勘與資料庫之知識探索二者視為同義詞。如圖 2 - 1 - 1 所示，整個知識挖掘的過程看似一個線性的過程，然而在過程中的每個步驟皆可返回，或是加入其他步驟[1]。資料庫之知識探索的過程主要包含以下四個步驟[11]：

資料清理 資料整合

資料庫

資料轉換 資料選取

資料探勘

結果呈現與評估

資料倉儲

圖 2 - 1 - 1：資料庫之知識探索流程圖 [11]

一､確定目標

明確地定義出問題所在及想要得到的結果。

二､預備資料

包含資料選取與資料前置處理二部分。這是最花費時間的部分，約佔整個知識探索過程的百分之六十，而預備資料的優劣亦會反應在知識探索的成效上。

n 資料選取：根據探勘的目標，從所有的資料中選擇適用的資料。

n 資料前置處理：又分為資料清理、資料整合、資料轉換、及資料簡化與量化。

u 資料清理：資料庫中的資料可能會包含一些錯誤、遺失或是不完整的資料，為避免影響到知識探索的正確性，必須對這些資料特別處理，例如只保留資料中適用的部分、直接刪除有錯誤或是異常的資料、或是利用

數學統計或模糊理論方法來推論，針對不完整或前後不一致的資料作處理。

u 資料整合：資料整合包含以下幾種情形：

l 資料可能來自不同的資料庫、資料倉儲或其他資訊儲存器，必須將不同來源的資料整合在統一格式的儲存器裡。

l 整合不同來源的詮釋資料(Metadata)。

l 將不同型態資料內容整合成一致且合理的值，如：描述日期的單位由民國年轉換成西元年。

l 將不同格式(Format)的資料轉換成相同格式的資料，如：轉換欄位排列格式。

u 資料轉換：根據採用的資料探勘演算法之需求，對原始資料進行必要的轉換。轉換方式包含有：

l 彙整(Aggregation)：將資料彙集加總。如每日營業額彙整成為每月的營業資料。

l 正規化(Formalization)：依據特定範圍將屬性資料作刪減。

l 歸納(Generalization) ：將低階(Low Level)或是原始資料以較高階 (High Level)的觀點重新定位。

l 建立屬性(Attribute Construction) ：以屬性的方式取代原本的表示法。如：以青少年，中年，老年屬性取代原本以年紀數字表示的資料。

u 資料簡化與量化：資料簡化是將資料中表示法過於複雜的部份簡化，以較簡單明瞭，但又不會影響分析結果的方式表示。如：變換過於精確的

單位為一般的單位，將錢的數量直接以千元為基本單位等。而資料量化則是使用多次元(Dimensionality)縮減、轉換或編碼等方法減少有效的變數或資料。

三､資料探勘

根據所定義的問題選擇適合的資料探勘演算法，在資料中找尋有用的特徵，

並決定採用探勘模式及參數是否適當。資料探勘演算法包含觀念描述(Concept Description) 、關連性 (Association) 、分類 (Classification) 、分群分析 (Cluster Analysis)、及趨勢分析(Trend and Evolution Analysis)等等。

四､結果評估與呈現

依據一些量測的興趣度(Interestingness Measure)，評估真正令人感興趣的資料樣式，並且根據資料探勘演算法的結果，決定其適合的呈現方式，例如分類分群的結果較適合以圖表的方式表示，而關聯性則適合以規則的方式呈現。除此之外，尚須分析結果的適用性，期能應用到相關領域上。

在文檔中圖書館借閱記錄探勘系統 (頁 14-17)

第二章 資料探勘相關研究工作

第一節 資料探勘

第二章資料探勘相關研究工作

第一節資料探勘