• 沒有找到結果。

第二章 相關研究

2.2 資料探勘

2.2.2 探勘技術

1.

統計方法(statistical approaches)

許多的統計方法被應用於資料探勘,包含貝氏網路(Bayesian network)、

迴歸分析(regression analysis)、相關分析(correlation analysis)、叢集分析(cluster analysis)等。通常,統計方法利用訓練資料集來建構統計模型,並在假設空 間裡搜尋統計衡量指標上的最佳者。

貝氏網路可用來預測某條件下事件發生的機率,其由兩部分定義,第一部 分是有向圖(directed graph),其中的每個節點代表一個變數或狀態,每條弧 代表一個機率性的依賴,第二部分是每個屬性事件發生的條件機率或聯合條件 機率表,圖 2.2 顯示一個肺癌的貝式網路,及導致肺癌的條件機率表,網路中 的節點表示變數或狀態,有向弧則代表因果關係。迴歸分析利用過去所觀察的 資料來導出一個方程式,而此方程式可將物件的屬性集適配到一個輸出變數,

例如:線性迴歸(linear regression)、判別分析(discriminant analysis)。相關分 析是用來研究屬性或變數間的相互關係,例如:χ2相關性檢定。叢集分析則 是基於物件間的距離量測,來發現物件集裡的群體關係,例如:k-means、

k-medoids。

圖 2.2 貝式網路 [7]

2.

機器學習法(machine learning approaches)

在資料探勘中,最常見的機器學習法包括決策樹歸納法(decision tree induction)、類神經網路(artificial neural networks)、歸納式學習(inductive concept learning)及概念式叢集(conceptual clustering)。

決策樹是一個分類樹,決策樹歸納法建構一個類似於流程圖的結構,其中 每個內部節點表達一個屬性上的測試,演算法會在每個節點選擇最佳分類的屬 性,並依其將資料劃分類別,每個分枝對應於測試的一個輸出值,每個外部節 點(樹葉)則表達一個類別,而整棵樹即表示分類上的規則。類神經網路是仿 生物神經網路的資訊處理系統,它由大量簡單的神經元(neuron),及介於神 經元間的訊號傳遞連結(connection)所構成,人工神經元是生物神經元的簡 單模擬,它從外界環境或其它人工神經元取得資訊,透過非常簡單的運算,再 輸出其結果到外界環境或者其它人工神經元,藉由類神經網路可建構輸入屬性 與輸出屬性間的關係。

歸納式學習是從一些資料進行分析,並歸納出具有一般性的概念,此法無 須先前的知識,端看所給的訓練資料是否足夠用來學習和歸納分析;簡言之,

是一種由學習主體對學習客體做歸納的學習方式,對某一個概念,由施教者提 供適當份量的訓練資料,並且告知受教者該資料的正確值,使受教者得到一系 列的「輸入-輸出」序對,此時受教者便得以建立或逐步修正自己對此觀念的 認知模型,藉由反覆進行這些步驟,使受教者的認知模型逐步趨近於正確。概 念叢集與傳統的叢集不同,它是一個兩步驟的過程,首先確定相似物件的分 群,接著為每群對象發現了特徵描述,也就是每群物件代表了一個概念或類別。

3.

資料庫導向法(database-oriented approaches)

不同於上述的兩項領域,資料庫導向法並不搜尋最佳模型,而是利用資料 塑模或特定的啟發式方法(heuristics)來發現手中資料的特性,如:屬性導向 歸納法(attribute-oriented induction)、重複掃描資料庫中頻繁項目集合(iterative

database scanning for frequent item sets)等。

屬性導向歸納法是資料庫查詢導向的(database query oriented)、基於廣義 化的(generalization-based)線上資料分析處理技術,首先使用資料庫查詢收 集任務相關資料,然後通過考察資料中每個屬性之不同值的個數來進行廣義 化,使屬性值個數落在一定的範圍內,其中廣義化可透過屬性刪除或屬性廣義 化來達成。重複掃描資料庫法被用來搜尋交易資料庫中的頻繁項目集合,而項 目間的關聯規則就從這些頻繁項目集合裡推導出,如:常用於搜尋頻繁項目集 合的 Apriori 演算法。

4.

其他技術

其它技術如:基因演算法(genetic algorithms)、粗略集合(rough sets)、

模糊集合(fuzzy sets)、形象化(visualization)等,亦被應用於資料探勘。基 因演算法試圖結合自然演算的想法,是利用電腦模擬染色體的基因結合、突變 及自然選擇過程的最佳化技術。粗略集合理論可以用來近似地定義那些根據屬 性無法區分的類別。模糊集合利用隸屬函數(membership function)的表達來 取代以往對互斥事件的處理觀點。而形象化技術將資料轉化為點、線、面的形 象物件,例如資料散佈圖(scatter plot)、3D圖等,使得資料分析者可以快速 的發現資料的顯著特性。

目前,這些資料探勘技術時常被整合、結合來解決複雜的問題,或提供另一 套解答方法,舉簡單例子:我們時常以圖、表等形象化技術來表現其他探勘技術 的匯總;而屬性導向歸納法則時常作為關聯規則探勘前的資料屬性處理。這樣的 做法不僅幫助探勘能力的提升,並更有助於未來的開發研究,因此愈來愈多的資 料探勘系統試著融合多樣化的探勘技術,來處理不同的資料、不同的探勘任務,

及不同的應用領域。

2.3 資料探勘中的分類任務

分類是針對類別標籤作預測。仰賴已知類別的訓練樣本來探索輸入屬性及輸 出類別間的關係,以建構出類別預測模型,並用來預測未來樣本的類別。目前已 有數學、統計學、機器學習、專家系統和神經生物學方面的研究學者提出許多分 類方法,並在信用核證、醫療診斷、效能預測和選擇性行銷等方面有廣泛的應用。

2.3.1 分類過程

分類是一個兩步驟的過程,如圖 2.4。第一步驟,透過分析由屬性所描述的 樣本或物件建立一個模型,用來描述預定的資料類別或概念集。為了建立模型而 被分析的資料稱為訓練樣本(training samples),它是隨機地由任務相關資料中選 出 。 由 於 提 供 了 每 個 訓 練 樣 本 類 別 標 籤 , 因 此 此 步 驟 也 稱 為 監 督 式 學 習

(supervised learning),通常,經由訓練樣本學習出來的模型,是以分類規則、

決策樹或數學公式的形式表達。例如,給定一個顧客信用資訊的資料庫,分類規 則可被學習,並用來確認顧客的信譽是優良或普通,而這些規則可被用來為以後 的資料作分類,同時也能增進對資料庫內容更好的理解。

第二步驟,我們使用步驟一所建構的模型來進行分類。由於學習模型往往會 對資料有過度適配(overfitting)的現象,因此若使用訓練樣本來導出分類法,

並評估正確性,可能會錯誤地導致太過樂觀的估計。此步驟中,測試樣本(test samples)將會被使用,這些樣本是隨機選取,並且與訓練樣本無關的。首先,

將評估模型的預測準確率(accuracy),即對於每個測試樣本,我們將已知的類別 標籤與該樣本透過學習模型所預測的類別作比較,而模型準確率是定義為被模型 正確分類的測試樣本百分比。如果準確率是可以被接受的,則此模型就可以被用 來對類別標籤未知的資料或物件進行分類。例如,透過分析現有顧客資料所學習

相關文件