探勘技術

第二章相關研究

2.2 資料探勘

2.2.2 探勘技術

1.

統計方法（statistical approaches）

許多的統計方法被應用於資料探勘，包含貝氏網路（Bayesian network）、

迴歸分析（regression analysis）、相關分析（correlation analysis）、叢集分析（cluster analysis）等。通常，統計方法利用訓練資料集來建構統計模型，並在假設空間裡搜尋統計衡量指標上的最佳者。

貝氏網路可用來預測某條件下事件發生的機率，其由兩部分定義，第一部分是有向圖（directed graph），其中的每個節點代表一個變數或狀態，每條弧代表一個機率性的依賴，第二部分是每個屬性事件發生的條件機率或聯合條件機率表，圖 2.2 顯示一個肺癌的貝式網路，及導致肺癌的條件機率表，網路中的節點表示變數或狀態，有向弧則代表因果關係。迴歸分析利用過去所觀察的資料來導出一個方程式，而此方程式可將物件的屬性集適配到一個輸出變數，

例如：線性迴歸（linear regression）、判別分析（discriminant analysis）。相關分析是用來研究屬性或變數間的相互關係，例如：χ²相關性檢定。叢集分析則是基於物件間的距離量測，來發現物件集裡的群體關係，例如：k-means、

k-medoids。

圖 2.2 貝式網路 [7]

2.

機器學習法（machine learning approaches）

在資料探勘中，最常見的機器學習法包括決策樹歸納法（decision tree induction）、類神經網路（artificial neural networks）、歸納式學習（inductive concept learning）及概念式叢集（conceptual clustering）。

決策樹是一個分類樹，決策樹歸納法建構一個類似於流程圖的結構，其中每個內部節點表達一個屬性上的測試，演算法會在每個節點選擇最佳分類的屬性，並依其將資料劃分類別，每個分枝對應於測試的一個輸出值，每個外部節點（樹葉）則表達一個類別，而整棵樹即表示分類上的規則。類神經網路是仿生物神經網路的資訊處理系統，它由大量簡單的神經元（neuron），及介於神經元間的訊號傳遞連結（connection）所構成，人工神經元是生物神經元的簡單模擬，它從外界環境或其它人工神經元取得資訊，透過非常簡單的運算，再輸出其結果到外界環境或者其它人工神經元，藉由類神經網路可建構輸入屬性與輸出屬性間的關係。

歸納式學習是從一些資料進行分析，並歸納出具有一般性的概念，此法無須先前的知識，端看所給的訓練資料是否足夠用來學習和歸納分析；簡言之，

是一種由學習主體對學習客體做歸納的學習方式，對某一個概念，由施教者提供適當份量的訓練資料，並且告知受教者該資料的正確值，使受教者得到一系列的「輸入－輸出」序對，此時受教者便得以建立或逐步修正自己對此觀念的認知模型，藉由反覆進行這些步驟，使受教者的認知模型逐步趨近於正確。概念叢集與傳統的叢集不同，它是一個兩步驟的過程，首先確定相似物件的分群，接著為每群對象發現了特徵描述，也就是每群物件代表了一個概念或類別。

3.

資料庫導向法（database-oriented approaches）

不同於上述的兩項領域，資料庫導向法並不搜尋最佳模型，而是利用資料塑模或特定的啟發式方法（heuristics）來發現手中資料的特性，如：屬性導向歸納法（attribute-oriented induction）、重複掃描資料庫中頻繁項目集合（iterative

database scanning for frequent item sets）等。

屬性導向歸納法是資料庫查詢導向的（database query oriented）、基於廣義化的（generalization-based）線上資料分析處理技術，首先使用資料庫查詢收集任務相關資料，然後通過考察資料中每個屬性之不同值的個數來進行廣義化，使屬性值個數落在一定的範圍內，其中廣義化可透過屬性刪除或屬性廣義化來達成。重複掃描資料庫法被用來搜尋交易資料庫中的頻繁項目集合，而項目間的關聯規則就從這些頻繁項目集合裡推導出，如：常用於搜尋頻繁項目集合的 Apriori 演算法。

4.

其他技術

其它技術如：基因演算法（genetic algorithms）、粗略集合（rough sets）、

模糊集合（fuzzy sets）、形象化（visualization）等，亦被應用於資料探勘。基因演算法試圖結合自然演算的想法，是利用電腦模擬染色體的基因結合、突變及自然選擇過程的最佳化技術。粗略集合理論可以用來近似地定義那些根據屬性無法區分的類別。模糊集合利用隸屬函數（membership function）的表達來取代以往對互斥事件的處理觀點。而形象化技術將資料轉化為點、線、面的形象物件，例如資料散佈圖（scatter plot）、3D圖等，使得資料分析者可以快速的發現資料的顯著特性。

目前，這些資料探勘技術時常被整合、結合來解決複雜的問題，或提供另一套解答方法，舉簡單例子：我們時常以圖、表等形象化技術來表現其他探勘技術的匯總；而屬性導向歸納法則時常作為關聯規則探勘前的資料屬性處理。這樣的做法不僅幫助探勘能力的提升，並更有助於未來的開發研究，因此愈來愈多的資料探勘系統試著融合多樣化的探勘技術，來處理不同的資料、不同的探勘任務，

及不同的應用領域。

2.3 資料探勘中的分類任務

分類是針對類別標籤作預測。仰賴已知類別的訓練樣本來探索輸入屬性及輸出類別間的關係，以建構出類別預測模型，並用來預測未來樣本的類別。目前已有數學、統計學、機器學習、專家系統和神經生物學方面的研究學者提出許多分類方法，並在信用核證、醫療診斷、效能預測和選擇性行銷等方面有廣泛的應用。

2.3.1 分類過程

分類是一個兩步驟的過程，如圖 2.4。第一步驟，透過分析由屬性所描述的樣本或物件建立一個模型，用來描述預定的資料類別或概念集。為了建立模型而被分析的資料稱為訓練樣本（training samples），它是隨機地由任務相關資料中選出。由於提供了每個訓練樣本類別標籤，因此此步驟也稱為監督式學習

（supervised learning），通常，經由訓練樣本學習出來的模型，是以分類規則、

決策樹或數學公式的形式表達。例如，給定一個顧客信用資訊的資料庫，分類規則可被學習，並用來確認顧客的信譽是優良或普通，而這些規則可被用來為以後的資料作分類，同時也能增進對資料庫內容更好的理解。

第二步驟，我們使用步驟一所建構的模型來進行分類。由於學習模型往往會對資料有過度適配（overfitting）的現象，因此若使用訓練樣本來導出分類法，

並評估正確性，可能會錯誤地導致太過樂觀的估計。此步驟中，測試樣本（test samples）將會被使用，這些樣本是隨機選取，並且與訓練樣本無關的。首先，

將評估模型的預測準確率（accuracy），即對於每個測試樣本，我們將已知的類別標籤與該樣本透過學習模型所預測的類別作比較，而模型準確率是定義為被模型正確分類的測試樣本百分比。如果準確率是可以被接受的，則此模型就可以被用來對類別標籤未知的資料或物件進行分類。例如，透過分析現有顧客資料所學習

在文檔中應用MTS於非平衡資料分析之穩健性研究 - 以行動電話檢測流程為例 (頁 21-24)

第二章 相關研究

2.2 資料探勘

2.2.2 探勘技術

1.

2.

3.

4.

2.3 資料探勘中的分類任務

2.3.1 分類過程

第二章相關研究