• 沒有找到結果。

1.1 研究動機

叢集分析(cluster analysis),主要用意為探討資料與資料之間是否擁有關聯性,並且 藉由這些關聯性將他們分群[1]、[2]。分群過後,同一群的資料彼此之間會較為相似,

反之不同群的資料差異性就會很大。這樣的應用範圍很廣,包括醫學、圖學和生物學等。

由於資料愈來愈複雜,在偵測辨識上不能只單靠距離相近而判斷為同一群,可能在 資料的形態上,有著幾何形狀的分佈情形,他們可能會以圓形或是方形等的分佈來表達 彼此的關連性,因此針對幾何形狀的叢集分析也相當重要。此類分群,我們稱之為shell cluster,分群不再只是搜尋叢集的中心點位置,而是一個形狀,如圖1。圖1(a)為資料的 分佈,此處為三個圓形。在圖1(b)中,即為叢集偵測完成的結果,各自找到了三個不同 的圓圈。從圖中我們可以發現,分群不再只是搜尋叢集的中心點位置,而是一個形狀。

(a) (b)

圖1:shell-shaped cluster的分群概念 (a)資料分群前 (b)分群後的資料

在1989年Dave[3]首先提出fuzzy c-shell(FCS)的叢集演算法,使我們可以針對圓形或 橢圓形的資料叢集類型做偵測,之後,又可利用FCS演算法來偵測影像上的曲線[4][5],

而adaptive fuzzy c-shells cluster algorithms[6]又可以改善FCS演算法的效能。但這些演算 法的充其量也只是針對圓形或弧形的叢集做偵測,對於其他的形狀卻沒有解決的辦法。

雖然也有科學家設計出針對矩形的偵測方法[7],但是仍然無法套用至所有的形狀。為 了一組新的資料集而設計一個新的解決方法實在太過於麻煩,因此樣板(Template)的理 論[8][9]便開始受到重視,在進入叢集演算法時,先設計出希望偵測的目標圖形,將圖 形放入叢集演算法,由此便可以找出跟所給圖形相似的資料集合,大大的解決了千變萬 化的資料集合分群問題。但是對於shell cluster的偵測,與point prototypes相比,錯誤的 機率都會大幅上升,可能會偵測到錯誤的資料,或者是形狀很相似但是不正確的資料,

因此在演算法的搭配上,就變成了一項重要的議題。

在 演 算 法 的 選 擇 上 , 起 初 是 採 用 fuzzy c-means(FCM)[10] 和 possibilistic c-means(PCM)[11]兩種”prototype-based clustering”的演算法做分析。FCM不會使得叢集 造成重複,但是FCM的問題在於,很容易受到雜訊資料點影響,使得叢集的中心點位 置不精準,這樣的問題,在shell cluster中,更是容易受到影響。而PCM的目的,在於改 善分群上容易受到雜訊影響所產生的問題,但也容易受到起始位置影響,偵測到重複的 叢集。Possibilistic fuzzy c-means (PFCM)[12]和improved possibilistic c-means (IPCM)[13]

兩者為混合FCM和PCM的叢集演算法,基本上將兩者混合的用意在於,FCM和PCM的 能力和缺失剛好相反,希望藉由混合達到互補的結果。在PFCM用一個加權值來區分 FCM和PCM所含的比率,然後再將FCM的membership和PCM的typicality相加混合,藉 由給予的加權值不同,能套用的叢集分群也會更廣,使得偵測上更富有彈性。IPCM最 初的目的在於改PCM容易產生叢集重複的問題,希望加入fuzzy的因子,將重複的可能

性降低,方法基本上在於將計算好的PCM typicality,乘上額外計算的FCM membership,

達成混合的效果。

在本篇論文中,即是在研發將FCM和PCM混合後的叢集演算法PFCM和IPCM,套 用在樣板基礎上,產生兩組新的shell cluster分群演算法,並且分析這樣嶄新的架構與以 往以FCM和PCM為基礎的shell cluster演算法的不同。

1.2 論文結構

本篇論文共分為五章。在第一章中,將簡單說明何謂叢集分析及其目前所遭遇的問 題。第二章為文獻探討,先簡述FCM和PCM兩種叢集演算法的特性,並針對shell cluster 的叢集演算法和樣板做說明,章節最後探討混何性叢集演算法的目的還有未來的發展。

第三章則是將混合性叢集演算法套用在樣板理論的步驟。第四章則對於混合性叢集演算 法做分析。最後第五章是本論文的研究心得以及未來之研究方向。

相關文件