集群分析理論及模糊集群分析理論

第二章文獻探討

第四節集群分析理論及模糊集群分析理論

教師往往以學童成績總分來評定其學習成效，並依據總分進行分組教學，

事實上在同一份概念試卷得到相同總分之學童，其所了解的概念卻不盡相同。

採晤談法對學童進行個別訪談，雖然可以掌握學童的知識結構，並能對學童進行精確的分組，但是晤談法費時費力，若能以集群分析理論，依據樣本的觀察變數，模式與資料的適配性，分析適合的分群組數，並將學童分群，使得隸屬於同集群之受試者同質性高，而隸屬於不同集群之受試者異質性高，如此，不僅能了解各群學童之認知特性，更能客觀的將學童分組，以利補救教學之進行。

一、集群分析

利用多變量分析中之集群分析方法可將資料簡化及分類。其原理是依據相似性，客觀的將相似者歸於同一集群，使得隸屬於同一個集群之事物都具有相同的特性 (homogeneity) ，而隸屬於不同集群之事物間則會有顯著的差異性，亦就是

「集群內元素同質性高，而集群間的元素異質性高」 (林邦傑，1981；林原宏，

2002；林清山，1985) ，且以集群分析方法將受試者分群，所得各群的知識結構分別有其特殊性 (林原宏、黃美盼、易正明，2007) 。

在實際應用上，集群分析的應用範圍非常廣，如：學童分組輔導及人格特質分類等，都是以客觀的集群分析，排除了人為以及情緒的干擾因素，將類似之人事物歸類在一起。此外，集群分析方法更廣泛的應用在各學科領域中，如：醫學、

社會學、心理學、經濟學、生物學等。

集群分析的計算，通常是以所有觀察體間的「距離」資料或「相似性」資料為依據，兩者的「距離」量數愈小，則兩個觀察體在某方面就愈類似，兩者的「相似性」的量數也就愈大，所以利用所有觀察體間的「距離」資料或「相似性」資料，所計算出來的「距離矩陣」或「相似係數矩陣」，便可將觀察體依次加以歸併，最後可以將所有觀察體最佳分割成數個集群。

集群分析主要區分為階層集群分析法 (hierarchical cluster analysis) 和非階層集群分析法 (non- hierarchical cluster analysis) 兩種，以下就階層集群分析法和非階層集群分析法之K-means，分述如下 (林原宏，1996a，1996b；張健邦，1993；

Everitt, 1993; Johnson & Wichenn, 1992) ：

（一）階層集群分析法

階層集群分析法，基本上又可分為分裂法 (division method) 與凝聚法 (agglomerative method) 兩種，一般較常用的是凝聚階層集群法。

常見的階層分裂法為平均距離分裂法，其分析步驟是先找出一個與其他觀察體平均距離最遠者，將此觀察體稱為「分裂群」，其餘的觀察體稱為「主要群」，然後計算「分裂群」與「主要群」間、以及「主要群」中各觀察體間的距離。若「主要群」中某一觀察體與「主要群」其它觀察體的距離，大於此觀察體與「分裂群」的距離，則將之歸入「分裂群」，反之則留在「主要群」中。

故階層分裂集群法其每一個新的集群，都是由前一階層所形成的集群集結或分裂而成的，因此集群分析後可形成一個樹狀圖 (tree diagram or dendrogram) 。而階層凝聚集群法，主要是將距離最近的二點先合為一個集群，再將此集群視為一個個體，其與其他個體間會有一個新的距離值產生，如此不斷重複，

最後可以得到一個包括全體的集群。在集群融合的過程中，可以用樹狀圖表示這些集群，且可藉之看出集群之間的階層關係。

要決定集群 (或樣本) 間的距離，其方法並不唯一，其數值當然也不唯一。

較常見的方法有：最短距離法 (nearest neighbor method) 又稱最近鄰法或單一聯結法 (single linkage method) 、最長距離法 (furthest neighbor method) 又稱完全聯結法 (complete linkage method) 、中間距離法 (median method) 、重心法

(centroid method) 、群平均法 (group average method) 又稱平均連結法 (average linkage method) ，以及由 Ward (1963) 提出經 Orloci (1967) 等人發展而成的 Ward 法 (羅積玉，1990) ，此法又稱為最小變異法 (minimum variance method) 。

（二）非階層集群分析法

非階層集群分析法，不能像階層集群一樣畫出樹狀圖，故無法針對其階層關係進行分析。此法直接由距離或相似性矩陣開始運算，主要用以探討可分割成的集群數目以及分布在集群中之個體。其方法眾多，較常見的方法有：連續閥限法 (sequential threshold) 、平行閥限法 (parallel threshold) 、最佳分割法 (optimizing partitioning) 以及 k 平均法 (k-means method) 等。在非階層集群分析法中以k-meas 法最常被研究者所採用，以下將就 k 平均法計算步驟進行說明 (黃俊英，1984) ：

1、將各個觀察體分割成 k 個原始集群。

2、計算每一集群之重心，以及某一觀察體到各集群重心的距離 (通常採用歐氏距離) ，然後將觀察體分派到距離較近的集群，若觀察體分派的集群有所更動則重新計算，以求得獲得以及失去該觀察體之兩集群之新重心。

3、重複第二步驟，直到各觀察體所分派的集群不再更動為止。

在知識結構分析之文獻中，因為階層集群分析法之結果可以看出概念群組之層級性，故有許多研究是採用此方法。在階層集群分析通常以群平均法及 Ward 法較為精確，因此廣受一般研究者使用，而非階層集群分析法則以k-meas 法最常被研究者所採用。

Punj and Stewart (1983) 發現階層集群分析法中以群平均法與 Ward 法效果較佳，為同時能考慮異常樣本點對集群結果之影響，因此建議第一階段採用群平均法或 Ward 法獲得集群數目與起始點，並找出異常樣本點將之剔除，以減低其對第二階段集群結果的影響，再以非階層集群分析法進行第二階段的集群分析。

二、模糊集群分析

利用以上的分群法來分群，其單一樣本只能歸屬於某一集群，是屬於硬分群

(hard clustering) ，但在真實的環境中，其結果往往不是如此分明，而是相互重疊的，其單一樣本可能同時隸屬於不同集群，只是在其隸屬程度 (membership degree) 上有所差異而已，此乃是模糊理論所探討的問題 (Buckley & Eslami, 2002) 。

本研究擬以縱貫研究探討國小低年級學童在整數加減法各類型文字題的解題表現、所隸屬的集群，以及所有受試學童與各集群學童，在四個類別知識結構跨時間的變化情形，並將其研究結果，提供教研究者和教材編輯者之參考。以下將先就模糊理論做介紹，並對模糊集群分析理論進行探討。

（一）模糊理論

用數學觀點可將人類活動所遇到之現象，大致分為確定現象、隨機現象以及模糊現象三類。古典數學是解決確定現象的數學工具；機率論和數理統計是分析隨機現象的數學工具；而模糊數學則是研究模糊現象的數學工具。且在知識測驗評量中，有愈來愈多之研究証實了模糊理論在實務應用上的價值 (林原宏，2001)。

模糊數學是由Zadeh (1965) 所提出，而「模糊」一詞是指不分明、不明確或界限不清的意思 (藎壚，1991) 。由於模糊數學在處理客觀實際問題時，一方面能與古典數學作結合，另一方面則打破了古典數學中二元的現象描述法，

而改以隸屬度的觀點來進行描述。也就是說，模糊數學拓寬了古典數學的基礎，找到了一條解決概念劃分上不確定現象之描述方法。自 1988 年日本運用模糊理論於仙台市的地鐵進站位置控制後，世界各國學術界及產業界，均投入大筆的經費進行相關研究，自此模糊理論已成為工程、人工智慧、統計方法論等領域的新秀，近年來，更影響了社會科學和教育與心理上資料的分析。 (九章出版社編輯部，1989；何偉雲，1995；吳柏林，1996；林炎旦，1995；林原宏，1999，2007a；馮國臣，2007；簡茂發、劉湘川，1992；藎壚，1991；Nguyen

&Wu, 2006; Ragin, 2000; Yen, Ghoshray, & Roig, 1999) 。

模糊理論 (fuzzy theory) 相對於古典數學的二元邏輯 (即 0 或 1) 集合論，

模糊理論將元素和集合之間用隸屬度來描述，其值介於[0, 1]之間。

1、隸屬函數 (membership function)

Kaufman & Rousseeuw, 1990; Yang & Wu, 2006) ，而其隸屬度是決定元素之間距離的重要因素 (劉湘川、許天維、林原宏，1998；Kaufmn & Rousseeuw, 1990;

Yang & Shih, 2001) 。

模糊集群分析方法眾多且各有特性，其中應用最廣的為目標函數法 (objective function) ，其適用於大樣本，雖不具階層性質，但可以用來描述各個觀察體的隸屬度；α 截矩陣 (α -cut) 適用於小樣本，雖無法表示出觀察體的隸

屬度，但它具有階層性之優點；而最大樹法 (maximum tree method) 亦適用於

( )

^cm ^C ^M

定義目標函數（objective function）為：

)

由＜公式2-7＞可知：

則 ucn=1 且 uc'n=0 , ∀ c'≠c

6、步驟六

以上步驟是在類別數為的情形下，計算各種參數收歛時的數值。至於類別數的決定，必須有一個指標供參考。本研究採使用較廣的兩個指標如下 (Bezdek, 1981) ：

（1）分割係數 (partition coefficient)

分割係數F( CU; )定義為：

∑∑

（2）分割亂度 (partition entropy)

分割亂度H( CU; )定義為： 1 ( ) 教育方面，均逐漸受到重視 (Hesketh, Pryor, Gleitzman, & Hesketh, 1988) 。 Bezdek (1981) 所提出的模糊c平均數集群分析法 (fuzzy c-mean clustering method, FCM) 是根據Bezdek (1973) 所提出之c-mean演算法而衍生出來的，其目的在於透過模糊邏輯之概念，以提升集群分析之效果。

隨後，有研究者針對模糊集群分析提出了改進方式，如：Bezdek, Hathaway and Huggins (1985) 以及Davenport, Pierce and Hathaway (1988) 等均提出結合FCM與 EM法之「FCM-EM法」，用來解決因EM法受起始值影嚮甚鉅之問題；Gath and Geva (1989) 結合了模糊集群理論和最大概似估計法，提出了模糊最大概似估計 (fuzzy maximum likelihood estimation) 之二階段演算法；Yang (1993a，1993b) 針對FCM法不夠精確的問題，而提出了懲罰性模糊集群分析法 (PFCM法) 來加以改進；劉湘川、許天維、黃孝雲 (1998) 針對PFCM法的內容加以探討，並提出 IPFCM (improved PFCM) 法加以改進；而楊敏生 (1994) 針對模糊集群最大概似

估算之EM演算、模糊集群演算和懲罰性模糊集群演算，進行優劣分析。

更有研究者應用模糊集群分析理論來解決生活問題，如：鄧振源、李名昌、

曾國

朝向模

在文檔中國小低年級學童在整數加減法概念之縱貫研究－模糊集群分析與次序理論的整合應用 (頁 49-59)

第二章 文獻探討

第四節 集群分析理論及模糊集群分析理論

( )

∑∑

第二章文獻探討

第四節集群分析理論及模糊集群分析理論