• 沒有找到結果。

群集演算法

在文檔中 中華大學 碩士論文 (頁 50-54)

第三章 資料探勘技術介紹

3.3 群集演算法

3.3.2 群集演算法原理

應用的目的通常決定分群法的使用。但分割式分群法只能找出類 圓形(spherical shape)和群集大小相似的群集,對於影像辨識(image recognition)應用領域而言,因需要找自然形狀(natural luster)的群集,即 肉眼可判斷出來的群集,分割式分群法就不適合;應挑選能產生任意形 狀(arbitrary shape)和任意大小(arbitrary size)的分群法,例如:運用新型改 良 過 的 階 層 式 分 群 法(hierarchical method) 或 以 密 集 度 導 向 分 群 法 (density-based method)較佳[34]。

一、ġ分割式分群法 (Partitional method)

分割式分群法在運作上試圖要將資料點歸屬到數個互不交集 的群集中,讓每一群集中的資料點與該群集之群集中心(clustering center)相似程度高於與其它群集中心,以符合所訂定之目標準則。

一般來講,假設資料集合中有n個資料點,目標準則在制訂上即是 企圖將n個資料點分配k個互不交集的群中,企圖使得每個資料距 離它所屬的群集中心的距離偏移值為最小;以最常使用的平方差公 式(square-error)為例,目標準則之距離總偏移值(total deviation)E可 以為:

(3.7)

其中,x 表示一資料點,ui 表示 Si 群集的群集中心。

二、ġ階層式分群(Hierarchical Method)

階層式分群法是一種將所要處理之資料集合的資料點,利用 聚合或分裂的方式,將彼此相以度高的較小群集合併成較大的群 集,或者將較大的群集進行分離 ,最後可以利用樹狀結構圖

E ∑ ∑ S x u 2 

(dendrogram)來表示群集間彼此關係之分群法。階層式分群法的結 果將會是一棵樹結構圖(dendrogram),它顯示出每個群集間彼此的 關係,而在相同層次(level)的群集間彼此是互相沒有交集的。

三、ġ密集度導向分群法(Density-based method)

這種類型的關鍵想法是將鄰近的資料根據資料點密集的程度 將之分成數個群集。主要的原因在於這些群集中的資料點彼此都 很緊密、密度很高,而與其他群集資料點間都很疏離、密度很低。

因此,密集度導向的分群法即利用這樣的特性,將資料集合中較 密集的資料視為一個群集,而那些密度低的資料則被視為雜訊。

運用密集度的方法不但可用來濾除偏移值或雜訊,且可對任意形 狀之群集進行分群。

3.3.3 群集演算法流程與方法

本小節將說明資料探勘中之群集分析技術探勘的流程及方法,此 小節內容將針對探勘的步驟、參數的設定以及結果呈現的解釋等。

一、ġ探勘步驟

經資料準備及資料清理後,將所處理後之資料表匯入MS-SQL Server 2005®後,並依據群集分析探勘之步驟如圖3.4所示,進行群 集分析之探勘。

圖 3.4 群集分析採礦流程

二、ġ參數設定

群集分析是一種「非監督式」之分類方法,分析者不必事先 指定鑑別之屬性值,而是提供資料中可供鑑別之所有可能屬性。

SQL Sever將自助選擇最具鑑別度之屬性,並區分出不同群集。本 研究調整演算法「支援」參數,也就是最小案例數,生成的群集 內含之案例數低於此門檻,則該群集會被刪除。

三、ġ探勘結果呈現的解釋

經過MS-SQL Server 2005®處理資料探勘之模型,結果如圖3.5 所示,依據探勘模型所顯示群集特性去作討論其資料特徵,本研 究將依據此種解釋方法,針對所呈現之探勘成果作解釋。

圖 3.5 群集特性介面

在文檔中 中華大學 碩士論文 (頁 50-54)