第二章 資料探勘相關研究工作
第一節 資料探勘
所謂的資料探勘,簡單來說即是從儲存於資料庫(Database)、資料倉儲(Data Warehousing)及資訊儲存器(Information Repositio ry)的大量資料中發掘出感興趣 的知識(非瑣碎的、有隱含意義的、之前未知的、有潛力有用的)之處理過程,又 稱資料庫探勘(Database Mining)、知識萃取(Knowledge Extraction)、資料考古 (Data Dredging)及資訊收穫(Information Harvesting)等等[11]。資料探勘是資料庫 知識探索(Knowledge Discovery in Database)的步驟之一,也是其中的主要核心步 驟,因此有些學者將資料探勘與資料庫之知識探索二者視為同義詞。如圖 2 - 1 - 1 所示,整個知識挖掘的過程看似一個線性的過程,然而在過程中的每個步驟皆 可返回,或是加入其他步驟[1]。資料庫之知識探索的過程主要包含以下四個步 驟[11]:
資料清理 資料整合
資料庫
資料轉換 資料選取
資料探勘
結果呈現與評估
資料倉儲
圖 2 - 1 - 1:資料庫之知識探索流程圖 [11]
一、確定目標
明確地定義出問題所在及想要得到的結果。
二、預備資料
包含資料選取與資料前置處理二部分。這是最花費時間的部分,約佔整個知 識探索過程的百分之六十,而預備資料的優劣亦會反應在知識探索的成效上。
n 資料選取:根據探勘的目標,從所有的資料中選擇適用的資料。
n 資料前置處理:又分為資料清理、資料整合、資料轉換、及資料簡化與量化。
u 資料清理:資料庫中的資料可能會包含一些錯誤、遺失或是不完整的資 料,為避免影響到知識探索的正確性,必須對這些資料特別處理,例如 只保留資料中適用的部分、直接刪除有錯誤或是異常的資料、或是利用
數學統計或模糊理論方法來推論,針對不完整或前後不一致的資料作處 理。
u 資料整合:資料整合包含以下幾種情形:
l 資料可能來自不同的資料庫、資料倉儲或其他資訊儲存器,必須將 不同來源的資料整合在統一格式的儲存器裡。
l 整合不同來源的詮釋資料(Metadata)。
l 將不同型態資料內容整合成一致且合理的值,如:描述日期的單位 由民國年轉換成西元年。
l 將不同格式(Format)的資料轉換成相同格式的資料,如:轉換欄位 排列格式。
u 資料轉換:根據採用的資料探勘演算法之需求,對原始資料進行必要的 轉換。轉換方式包含有:
l 彙整(Aggregation):將資料彙集加總。如每日營業額彙整成為每月 的營業資料。
l 正規化(Formalization):依據特定範圍將屬性資料作刪減。
l 歸納(Generalization) :將低階(Low Level)或是原始資料以較高階 (High Level)的觀點重新定位。
l 建立屬性(Attribute Construction) :以屬性的方式取代原本的表示 法。如:以青少年,中年,老年屬性取代原本以年紀數字表示的資 料。
u 資料簡化與量化:資料簡化是將資料中表示法過於複雜的部份簡化,以 較簡單明瞭,但又不會影響分析結果的方式表示。如:變換過於精確的
單位為一般的單位,將錢的數量直接以千元為基本單位等。而資料量化 則是使用多次元(Dimensionality)縮減、轉換或編碼等方法減少有效的變 數或資料。
三、資料探勘
根據所定義的問題選擇適合的資料探勘演算法,在資料中找尋有用的特徵,
並決定採用探勘模式及參數是否適當。資料探勘演算法包含觀念描述(Concept Description) 、 關 連 性 (Association) 、 分 類 (Classification) 、 分 群 分 析 (Cluster Analysis)、及趨勢分析(Trend and Evolution Analysis)等等。
四、結果評估與呈現
依據一些量測的興趣度(Interestingness Measure),評估真正令人感興趣的資 料樣式,並且根據資料探勘演算法的結果,決定其適合的呈現方式,例如分類分 群的結果較適合以圖表的方式表示,而關聯性則適合以規則的方式呈現。除此之 外,尚須分析結果的適用性,期能應用到相關領域上。