• 沒有找到結果。

第二章  文獻探討

第一節  資料探勘

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻探討

第一節 資料探勘

2.1.1

資料探勘定義

隨著日常生活中各種資料量不斷擴張,資料探勘(Data Mining)技術已經在許 多領域受到重視並廣為應用。其目的在於從大量的資料中找出隱藏於其中的資訊,

以便進一步加以解釋或運用。

在定義方面,謝邦昌(1996)認為資料探勘是尋找隱藏在資料中的訊息,如趨 勢(Trend)、特徵(Pattern)及相關性(Relationship)的過程,也就是從資料中發掘資 訊或知識(KDD)。Fayyad(1990) 認為資料探勘就是一個萃取出資料中有效的、嶄 新的,可具有效益且最終能被理解的重要過程,最終目的是了解資料的形樣。

Roiger, R., Geatz, M.(2003) 則表示資料探勘是一種從整個資料庫裡的資料,利用 一種或多種電腦技術自動分析或去擷取知識的過程。

Fayyad(1996) 與 Han(2005) 皆認為資料探勘是知識發現(Knowledge

Discovery from Data, KDD)的重要步驟,但資料探勘並非同義於知識發現(KDD)。

綜合前述定義可以發現,資料探勘僅是從大量資料中發現知識的程序之一,但在 知識發現的過程中與資料探勘卻是很重要的一個步驟。而Fayyad et al. (1996) 提 出了一連串反覆式的KDD 步驟,各步驟彼此交互影響,如圖 2-1,分別為:

1. 資料選擇(Selection)

確認知識發現的操作對象,即目標資料(Target Data)作為整個程序中

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的探勘目標。

2. 前置處理(Preprocessing)

適當的處理不完整、遺失或錯誤的資料來消除雜訊,決定目標資料的 型態、欄位、資料綱要等。

3. 資料轉換(Transformation)

對目標資料進行簡化、轉換,以減少資料的處理量。通常透過選取特 徵值來降低維度(Dimension Reduction)、轉換或編碼等方式。

4. 資料探勘(Data Mining)

為KDD中最重要的步驟。透過分群、分類、關聯規則、決策樹、迴 歸分析和時間序列分析等演算法找出資料的特徵或規則。

5. 解釋或評估(Interpretation/Evaluation)

將資料探勘產出的特徵或模式轉換為圖形、圖表等成較為容易理解的 表達方式,以供決策參考。同時也必須評估探勘結果是否合理或適用,

並進一步決定是否對各步驟進行必要之調整。

圖2-1 KDD 步驟資料來源:Fayyad(1996)

2.1.2

常用資料探勘方法

在整個知識發現的過程中,資料探勘可以視為最重要的步驟之一,因此必須 依照資料的特性與目的來決定採用何種資料探勘方法。在常見的資料探勘方法中,

依據需求、分析方式或產生的知識型態可分類為下列幾項(羅閩隆,2004):關聯

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

法則(Association Rules)、推估(Estimation)、預測(Prediction)、分類(Classification) 與群集偵測(Cluster Detection),說明如下:

1. 關聯法則

主要用於尋找資料集中資料項目或屬性間的關聯,以分析及了解資 料中隱藏的含意或是找出未知的關聯性。如透過交易資料瞭解顧客 購買產品的順序及喜好,作為商品排列或是擺放位置的參考。

2. 推估

適合用於處理連續或有順序性數值,可用來推估一些未知的連續性 變數。如利用信用卡申請者之教育程度、收入、職業等因素,推估 其信用卡消費額度與適合哪一種促銷專案。

3. 預測

預測分析與推估分析相當接近,差異點在於預測是用於推估未來的 數值與趨勢。預測通常採用歷史資料作為已知的變數值訓練資料,

並建立起模型描述過去至現在觀察值之變化,再利用最近的資料輸 入至模型中,藉以獲得對於未來觀察值變化的預測。

4. 分類

最基本的分類是從已知特定類別的資料集合中,依據資料的屬性或 特徵建立出一個分類模式,用來描述資料與類別間的關係,再依據 此分類模式對其他未經分類或是新的資料做預測,決定其所屬的類 別。

5. 分群

叢聚資料及探勘分析方法,主要是計算每筆資料間的相似程度、影 響關係,並將擁有相似屬性或特徵的資料群聚為同一個叢集(Jain, 1999),叢集內資料的描述將會以叢集的特性來取代個別資料的屬

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

性。叢集內資料的屬性越相似越好,而叢集間彼此的差異性則是越 大越好。目前常用的分群方法有k-means、LSH,或是利用模糊理 論(Fuzzy Theory)來進行叢聚探勘的分析(Krishnapuram et al.,2001 ; Rousseeuwet al, 1996)等。

相關文件