資料探勘

第二章文獻探討

第一節資料探勘

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

第一節資料探勘

2.1.1

資料探勘定義

隨著日常生活中各種資料量不斷擴張，資料探勘(Data Mining)技術已經在許多領域受到重視並廣為應用。其目的在於從大量的資料中找出隱藏於其中的資訊，

以便進一步加以解釋或運用。

在定義方面，謝邦昌(1996)認為資料探勘是尋找隱藏在資料中的訊息，如趨勢(Trend)、特徵(Pattern)及相關性(Relationship)的過程，也就是從資料中發掘資訊或知識(KDD)。Fayyad(1990) 認為資料探勘就是一個萃取出資料中有效的、嶄新的，可具有效益且最終能被理解的重要過程，最終目的是了解資料的形樣。

Roiger, R., Geatz, M.(2003) 則表示資料探勘是一種從整個資料庫裡的資料，利用一種或多種電腦技術自動分析或去擷取知識的過程。

Fayyad(1996) 與 Han(2005) 皆認為資料探勘是知識發現(Knowledge

Discovery from Data, KDD)的重要步驟，但資料探勘並非同義於知識發現(KDD)。

綜合前述定義可以發現，資料探勘僅是從大量資料中發現知識的程序之一，但在知識發現的過程中與資料探勘卻是很重要的一個步驟。而Fayyad et al. (1996) 提出了一連串反覆式的KDD 步驟，各步驟彼此交互影響，如圖 2-1，分別為：

1. 資料選擇(Selection)

確認知識發現的操作對象，即目標資料(Target Data)作為整個程序中

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的探勘目標。

2. 前置處理(Preprocessing)

適當的處理不完整、遺失或錯誤的資料來消除雜訊，決定目標資料的型態、欄位、資料綱要等。

3. 資料轉換(Transformation)

對目標資料進行簡化、轉換，以減少資料的處理量。通常透過選取特徵值來降低維度(Dimension Reduction)、轉換或編碼等方式。

4. 資料探勘(Data Mining)

為KDD中最重要的步驟。透過分群、分類、關聯規則、決策樹、迴歸分析和時間序列分析等演算法找出資料的特徵或規則。

5. 解釋或評估(Interpretation/Evaluation)

將資料探勘產出的特徵或模式轉換為圖形、圖表等成較為容易理解的表達方式，以供決策參考。同時也必須評估探勘結果是否合理或適用，

並進一步決定是否對各步驟進行必要之調整。

圖2-1 KDD 步驟資料來源：Fayyad(1996)

2.1.2

常用資料探勘方法

在整個知識發現的過程中，資料探勘可以視為最重要的步驟之一，因此必須依照資料的特性與目的來決定採用何種資料探勘方法。在常見的資料探勘方法中，

依據需求、分析方式或產生的知識型態可分類為下列幾項(羅閩隆，2004)：關聯

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

法則(Association Rules)、推估(Estimation)、預測(Prediction)、分類(Classification) 與群集偵測(Cluster Detection)，說明如下：

1. 關聯法則

主要用於尋找資料集中資料項目或屬性間的關聯，以分析及了解資料中隱藏的含意或是找出未知的關聯性。如透過交易資料瞭解顧客購買產品的順序及喜好，作為商品排列或是擺放位置的參考。

2. 推估

適合用於處理連續或有順序性數值，可用來推估一些未知的連續性變數。如利用信用卡申請者之教育程度、收入、職業等因素，推估其信用卡消費額度與適合哪一種促銷專案。

3. 預測

預測分析與推估分析相當接近，差異點在於預測是用於推估未來的數值與趨勢。預測通常採用歷史資料作為已知的變數值訓練資料，

並建立起模型描述過去至現在觀察值之變化，再利用最近的資料輸入至模型中，藉以獲得對於未來觀察值變化的預測。

4. 分類

最基本的分類是從已知特定類別的資料集合中，依據資料的屬性或特徵建立出一個分類模式，用來描述資料與類別間的關係，再依據此分類模式對其他未經分類或是新的資料做預測，決定其所屬的類別。

5. 分群

叢聚資料及探勘分析方法，主要是計算每筆資料間的相似程度、影響關係，並將擁有相似屬性或特徵的資料群聚為同一個叢集(Jain, 1999)，叢集內資料的描述將會以叢集的特性來取代個別資料的屬

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

性。叢集內資料的屬性越相似越好，而叢集間彼此的差異性則是越大越好。目前常用的分群方法有k-means、LSH，或是利用模糊理論(Fuzzy Theory)來進行叢聚探勘的分析(Krishnapuram et al.,2001 ; Rousseeuwet al, 1996)等。

在文檔中文件距離為基礎kNN分群技術與新聞事件偵測追蹤之研究 - 政大學術集成 (頁 12-15)

第二章 文獻探討

第一節 資料探勘

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.1.1

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.1.2

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

第一節資料探勘

立政治大學

立政治大學

立政治大學

立政治大學