簡介 - 結合模糊與可能性叢集法之基於樣板的

1.1 研究動機

叢集分析(cluster analysis)，主要用意為探討資料與資料之間是否擁有關聯性，並且藉由這些關聯性將他們分群[1]、[2]。分群過後，同一群的資料彼此之間會較為相似，

反之不同群的資料差異性就會很大。這樣的應用範圍很廣，包括醫學、圖學和生物學等。

由於資料愈來愈複雜，在偵測辨識上不能只單靠距離相近而判斷為同一群，可能在資料的形態上，有著幾何形狀的分佈情形，他們可能會以圓形或是方形等的分佈來表達彼此的關連性，因此針對幾何形狀的叢集分析也相當重要。此類分群，我們稱之為shell cluster，分群不再只是搜尋叢集的中心點位置，而是一個形狀，如圖1。圖1(a)為資料的分佈，此處為三個圓形。在圖1(b)中，即為叢集偵測完成的結果，各自找到了三個不同的圓圈。從圖中我們可以發現，分群不再只是搜尋叢集的中心點位置，而是一個形狀。

(a) (b)

圖1：shell-shaped cluster的分群概念 (a)資料分群前 (b)分群後的資料

在1989年Dave[3]首先提出fuzzy c-shell(FCS)的叢集演算法，使我們可以針對圓形或橢圓形的資料叢集類型做偵測，之後，又可利用FCS演算法來偵測影像上的曲線[4][5]，

而adaptive fuzzy c-shells cluster algorithms[6]又可以改善FCS演算法的效能。但這些演算法的充其量也只是針對圓形或弧形的叢集做偵測，對於其他的形狀卻沒有解決的辦法。

雖然也有科學家設計出針對矩形的偵測方法[7]，但是仍然無法套用至所有的形狀。為了一組新的資料集而設計一個新的解決方法實在太過於麻煩，因此樣板(Template)的理論[8][9]便開始受到重視，在進入叢集演算法時，先設計出希望偵測的目標圖形，將圖形放入叢集演算法，由此便可以找出跟所給圖形相似的資料集合，大大的解決了千變萬化的資料集合分群問題。但是對於shell cluster的偵測，與point prototypes相比，錯誤的機率都會大幅上升，可能會偵測到錯誤的資料，或者是形狀很相似但是不正確的資料，

因此在演算法的搭配上，就變成了一項重要的議題。

在演算法的選擇上，起初是採用 fuzzy c-means(FCM)[10] 和 possibilistic c-means(PCM)[11]兩種”prototype-based clustering”的演算法做分析。FCM不會使得叢集造成重複，但是FCM的問題在於，很容易受到雜訊資料點影響，使得叢集的中心點位置不精準，這樣的問題，在shell cluster中，更是容易受到影響。而PCM的目的，在於改善分群上容易受到雜訊影響所產生的問題，但也容易受到起始位置影響，偵測到重複的叢集。Possibilistic fuzzy c-means (PFCM)[12]和improved possibilistic c-means (IPCM)[13]

兩者為混合FCM和PCM的叢集演算法，基本上將兩者混合的用意在於，FCM和PCM的能力和缺失剛好相反，希望藉由混合達到互補的結果。在PFCM用一個加權值來區分 FCM和PCM所含的比率，然後再將FCM的membership和PCM的typicality相加混合，藉由給予的加權值不同，能套用的叢集分群也會更廣，使得偵測上更富有彈性。IPCM最初的目的在於改PCM容易產生叢集重複的問題，希望加入fuzzy的因子，將重複的可能

性降低，方法基本上在於將計算好的PCM typicality，乘上額外計算的FCM membership，

達成混合的效果。

在本篇論文中，即是在研發將FCM和PCM混合後的叢集演算法PFCM和IPCM，套用在樣板基礎上，產生兩組新的shell cluster分群演算法，並且分析這樣嶄新的架構與以往以FCM和PCM為基礎的shell cluster演算法的不同。

1.2 論文結構

本篇論文共分為五章。在第一章中，將簡單說明何謂叢集分析及其目前所遭遇的問題。第二章為文獻探討，先簡述FCM和PCM兩種叢集演算法的特性，並針對shell cluster 的叢集演算法和樣板做說明，章節最後探討混何性叢集演算法的目的還有未來的發展。

第三章則是將混合性叢集演算法套用在樣板理論的步驟。第四章則對於混合性叢集演算法做分析。最後第五章是本論文的研究心得以及未來之研究方向。

在文檔中結合模糊與可能性叢集法之基於樣板的 (頁 10-13)