• 沒有找到結果。

第二章 文獻回顧

第二節 資料探勘(Data Mining)

二、 資料探勘的技術與方法

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

一、資料探勘的操作步驟

為了從龐大的資料當中取得有價值的分析,必須要對原始資料進行處理並選 擇適合的演算法來做運算,最後以著合適的方式呈現。在 Pang-Ning Tan et al.所 作的 Introduction to Data Mining 書中把這過程分為三個階段[13]: 資料前處理,

資料探勘,後處理。而 Han & Kamber(2001)[14]則把資料探勘的過程細分成七個 步驟:

Step1:資料清理(Data Cleaning):將雜亂和與資料及不相同的資料刪除 Step2:資料整合(Data integration):將多個來源的資料整合

Step3:資料選擇(Data selection):在資料庫中選擇適當的資料。

Step4:資料轉換(Data transformation):轉換資料使其得以更方便地被使用 Step5:資料探勘(Data mining):運用資料探勘的演算法來進行分析

Step6:模式評估(Pattern evaluation):評估適合的模式加以使用

Step7:知識表達(Knowledge presentation):使用適合的呈現方式表達資料探勘 所得到的結果

二、資料探勘的技術與方法

對於原始資料進行初步的處理之後,需要依照資料的性質選擇最適合的演算 法進行運算。本研究根據 Ian H.Witten et al.所著的”Data Mining”一書中的分類列 出較常使用的演算法 :

I. 1-R 規則法(1-rule)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

是一種極為簡單直觀的演算法,其做法是在資料的每個屬性所延伸出 來的結果,找出錯誤率最低的一組屬性而得到分析的結果。此演算法雖然 簡單,但是實際操作上卻出乎意料的好,比起其他的演算法的準確率只有 少零點多個百分點。這種演算法很適合用在讓人了解整個資料及的整體狀 況,因為他的效率,也可以使用在很大的資料集當中。

II. 統計建模法(Statiscal Modeling)

此演算法是在建立在 Bayes’規則上,透過機率的運算產生出分析的 結果,同樣的,這也是一個非常簡單的演算法,但是卻會產生出令人驚艷 的結果,甚至表現的比一些複雜的演算法還要出色。但是統計建模法必須 要在一個屬性影響的權重是平均散佈狀況下運算,結果才會較為精準。

III. 線性模組(Linear Models)

相較於上述的決策和規則方式的演算法,線性模組對於處理數字行的 資料是更適合的。雖然說統計及資料探勘為兩門各自獨立的科目,但統計 學與資料探勘的預測仍是有很大的相關性,資料探勘常會使用統計的方法 對資料進行分析,其中包括一般迴歸(regression)、logistic regression、區別 分析(discriminal analysis)等。

IV. 支援向量機

主要的操作方法是運用特徵值以及數學之計算來訓練資料,透過計算 特徵值得到一個理想的分界,即可利用此超分界將資料進行分類。其中分 類邊界若距離最近的訓練資料點越遠,則其分類之誤差會越小。分類邊界

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

和最近資料點之距離稱為間隔(margin),支持向量機演算法期望找到一個 最大間格分類邊界,此邊界和最近之訓練資料點擁有最大的距離。

V. 分群演算法(Clustering)

分群演算法是利用物件之間的關係資訊來做分群,其中物件彼此相關 的話會被分到同一個群當中。當資訊當中各個群內相似程度大而群和群之 間相差性大的話,這樣的狀況之下會有最好的結果。分群演算法當中最常 見的的有 K-nearest neighbor 演算法。

VI. 類神經網路(Neural Network)

類神經網路一開始的發想是想要模擬生物的神經系統。大腦是由很多 神經元細胞組成,神經元彼此透過神經軸和突觸互相連結。神經學家發現 人的大腦可以透過突觸受到的重複刺激進行學習。而學者運用這概念在資 料探勘的領域,透過訓練和學習的方式發現資料彼此的關係。此技術適用 於線性和非線性的狀況。

VII. 基因演算法(Genetic Algorithm)

基因演算法(或稱遺傳演算法)是由 John Holland 於 1975 年提出。

此演算法是借鏡自然生態中的演化規律『適者生存』的概念加以應用在資 料探勘的操作當中。透過模擬大自然的基因操作(例如:交配 cross-over, 反轉 inversion,突變 mutation)對資料進行處理和分析。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

VIII. 決策樹(decision tree)

決策樹演算法將資料透過分類判斷而建立成一個樹狀的模型。透過這 種樹狀結構可以清楚地表達資訊的結構和相互關係。因為其清楚的結構和 呈現常常可以提供很明確的分析,決策樹也成為了最受歡迎的資料探勘技 術之一。而常見的決策樹演算法有 ID3,C4.5,CART 等。