資料探勘的技術與方法

第二章文獻回顧

第二節資料探勘(Data Mining)

二、資料探勘的技術與方法

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

一、資料探勘的操作步驟

為了從龐大的資料當中取得有價值的分析，必須要對原始資料進行處理並選擇適合的演算法來做運算，最後以著合適的方式呈現。在 Pang-Ning Tan et al.所作的 Introduction to Data Mining 書中把這過程分為三個階段[13]: 資料前處理，

資料探勘，後處理。而 Han & Kamber(2001)[14]則把資料探勘的過程細分成七個步驟：

Step1：資料清理(Data Cleaning)：將雜亂和與資料及不相同的資料刪除 Step2：資料整合(Data integration)：將多個來源的資料整合

Step3：資料選擇(Data selection)：在資料庫中選擇適當的資料。

Step4：資料轉換(Data transformation)：轉換資料使其得以更方便地被使用 Step5：資料探勘(Data mining)：運用資料探勘的演算法來進行分析

Step6：模式評估(Pattern evaluation)：評估適合的模式加以使用

Step7：知識表達(Knowledge presentation)：使用適合的呈現方式表達資料探勘 所得到的結果

二、資料探勘的技術與方法

對於原始資料進行初步的處理之後，需要依照資料的性質選擇最適合的演算法進行運算。本研究根據 Ian H.Witten et al.所著的”Data Mining”一書中的分類列出較常使用的演算法 :

I. 1-R 規則法(1-rule)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

是一種極為簡單直觀的演算法，其做法是在資料的每個屬性所延伸出來的結果，找出錯誤率最低的一組屬性而得到分析的結果。此演算法雖然簡單，但是實際操作上卻出乎意料的好，比起其他的演算法的準確率只有少零點多個百分點。這種演算法很適合用在讓人了解整個資料及的整體狀況，因為他的效率，也可以使用在很大的資料集當中。

II. 統計建模法(Statiscal Modeling)

此演算法是在建立在 Bayes’規則上，透過機率的運算產生出分析的結果，同樣的，這也是一個非常簡單的演算法，但是卻會產生出令人驚艷的結果，甚至表現的比一些複雜的演算法還要出色。但是統計建模法必須要在一個屬性影響的權重是平均散佈狀況下運算，結果才會較為精準。

III. 線性模組(Linear Models)

相較於上述的決策和規則方式的演算法，線性模組對於處理數字行的資料是更適合的。雖然說統計及資料探勘為兩門各自獨立的科目，但統計學與資料探勘的預測仍是有很大的相關性，資料探勘常會使用統計的方法對資料進行分析，其中包括一般迴歸(regression)、logistic regression、區別分析(discriminal analysis)等。

IV. 支援向量機

主要的操作方法是運用特徵值以及數學之計算來訓練資料，透過計算特徵值得到一個理想的分界，即可利用此超分界將資料進行分類。其中分類邊界若距離最近的訓練資料點越遠，則其分類之誤差會越小。分類邊界

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

和最近資料點之距離稱為間隔(margin)，支持向量機演算法期望找到一個最大間格分類邊界，此邊界和最近之訓練資料點擁有最大的距離。

V. 分群演算法(Clustering)

分群演算法是利用物件之間的關係資訊來做分群，其中物件彼此相關的話會被分到同一個群當中。當資訊當中各個群內相似程度大而群和群之間相差性大的話，這樣的狀況之下會有最好的結果。分群演算法當中最常見的的有 K-nearest neighbor 演算法。

VI. 類神經網路(Neural Network)

類神經網路一開始的發想是想要模擬生物的神經系統。大腦是由很多神經元細胞組成，神經元彼此透過神經軸和突觸互相連結。神經學家發現人的大腦可以透過突觸受到的重複刺激進行學習。而學者運用這概念在資料探勘的領域，透過訓練和學習的方式發現資料彼此的關係。此技術適用於線性和非線性的狀況。

VII. 基因演算法(Genetic Algorithm)

基因演算法（或稱遺傳演算法）是由 John Holland 於 1975 年提出。

此演算法是借鏡自然生態中的演化規律『適者生存』的概念加以應用在資料探勘的操作當中。透過模擬大自然的基因操作（例如：交配 cross-over, 反轉 inversion,突變 mutation）對資料進行處理和分析。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

VIII. 決策樹(decision tree)

決策樹演算法將資料透過分類判斷而建立成一個樹狀的模型。透過這種樹狀結構可以清楚地表達資訊的結構和相互關係。因為其清楚的結構和呈現常常可以提供很明確的分析，決策樹也成為了最受歡迎的資料探勘技術之一。而常見的決策樹演算法有 ID3,C4.5,CART 等。

在文檔中一個考慮閱聽人體驗喜好的電子新聞推薦模型 - 政大學術集成 (頁 20-23)

第二章 文獻回顧

第二節 資料探勘(Data Mining)

二、 資料探勘的技術與方法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

一、資料探勘的操作步驟

二、資料探勘的技術與方法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻回顧

第二節資料探勘(Data Mining)

二、資料探勘的技術與方法

立政治大學

立政治大學

立政治大學

立政治大學