• 沒有找到結果。

第一章 緒論

第一節 研究動機

常用之目標函數導向模糊分割分群法稱為「模糊c平均(fuzzy c-means: 簡稱 FCM)」,由於簡明易懂已成為套裝軟體MATLAB的庫存函數,亦可由網路下載 FCM相關之應用程式,例如:http://s.pudn.com/search_hot.asp?k=fuzzy# 或其他網 路http://www.pudn.com/downloads76/sourcecode/math/detail290582.html,故而已廣 為各學科領域推廣應用,然而目標函數中距離函數之擴張改善及最適解之求解等 問題仍是值得進一步深究之重要課題。眾所周知FCM之距離函數為歐氏距離,理 論上只適合被應用於球形分布資料,此種基於分割的模糊分群演算法,早在 1969 年Ruspini首先提出第 1 個解析的模糊分群演算法,文獻中一種比較成功的思路來 實現這種模糊化的是,在FCM演算法的目標函數中,引入隸屬度的權重指數,在 眾多的模糊分群演算法中,應用最廣泛而且較成功的是 1974 年由Dunn提出,並

由Bezdek加以推廣的FCM演算法(張敏、于劍,2004)。

典型的模糊分群演算法,以內積空間(inner product space)的範數值(norm)

作為量化樣本點與各群的隸屬程度的依據(Krishnapuram and Kim, 1999),參見 相關的文獻,模糊理論應用於量化方法已有相關的文獻基礎,較有代表性的演算 法則和理論有 FCM 分群演算法(Bezdek, 1981)、可能性 C 平均(possibility C-means ,簡稱 PCM)分群演算法(N. R. Pal, K. Pal and Bezdek, 1993)及模糊可 能性 C 平均(fuzzy possibility C-means, 簡稱 FPCM)分群演算法(Pal, N. R., Pal, K. and Bezdek, 1997),上述之模糊分群演算法的距離計算均以歐基里德距離

(Euclidean distance)進行數量的計算,用來辨識資料結構均為球形(spherical)

的分類。文獻資料顯示,為了克服資料結構為非球形的分類,解決歐基里德距離 受限於計算球形資料結構的缺陷問題,嘗試延展歐基里德距離的測量為馬氏距離

(mahalanobis distance, 簡稱 MK)是目標函數導向之模糊分群演算法的擴張發 展,較具代表性的有 GK 分群(Gustafson-Kessel clustering, 簡稱 GK)演算法

(Gustafson and Kessel, 1979)及 GG 分群(Gath and Geva, clustering, 簡稱 GG)

演算法(Gath and Geva, 1989),此兩種演算法均以搭配模糊共變數矩陣,經由此 模糊共變數矩陣計算而得的馬氏距離,分別用來處理非球形結構資料的分類

(Soleymani Baghshah, M. and Bagheri Shouraki, S., 2008)。

就 GK 分群演算法而言,仍受限於必需保持相當於體積量值的不變性,再加 上產生的模糊共變數矩陣並非直接由目標函數導出,因此無法靈敏的反應樣本點 的特質;GG 分群演算法是來自 GK 分群演算法的擴充,GG 分群演算法適用於資 料分佈為多變量常態的高斯(Gaussian)分佈 GG 分群演算法的目標函數是最大 概似函數的倒數,就最大概似函數而言,應滿足越大越好,現在 GG 分群演算法 的目標函數取最大概似函數的倒數,因此當最大概似函數越大越好時,剛好是 GG 分群演算法的目標函數符合越小越好的距離函數,但其關係式並非直接由本 身的運算式導出,而是外加的無法動態性的靈敏的反應樣本點的特質,況且大多 數的資料分佈,未必滿足多變量常態的高斯分佈,因此本研究將發展此概念,以 獲得正確率較佳之分群演算法。因此參照 GK 與 GG 分群演算法所採用馬氏距離 的概念,應用於模糊平均數分群演算法,將其中的歐基里德距離以馬氏距離取 代,拓展 GK 與 GG 分群演算法的限制,重要的是動態的變異數矩陣估計式,直 接由目標函數導出,是有效改進 GK 分群演算法的重要因素,如此的目標函數是 動態性,必能靈敏的反應樣本點的特質,預期在進行分群時應可獲得較佳的分群 結果,因此本研究主要目的,係嘗試參照文獻的 GK 與 GG 分群演算法為基礎,

將模糊平均數分群演算法其中的歐基里德距離以馬氏距離取代,讓目標函數本身 是動態性並足於靈敏的反應各樣本點的特質,再以實證資料檢驗其分群的正確

率。

Krishnapuram and Kim(1999)透過以馬氏距離為基礎的目標函數,以拉格朗日 乘子(largange multiplier)對參數進行微分,此時目標函數為最小值時,各樣本 點的隸屬度出現均等的情形,因此無法直接使用馬氏距離作為量化分群演算法的 目標函數的依據,再者將馬氏距離透過線性轉換(linearly transform)可保持其值 的不變性,以參數共變數矩陣為基礎的馬氏距離,本身就是常數矩陣的定值,經 由此常數矩陣的共變數矩陣為線性轉換,可滿足馬氏距離在線性轉換的不變性,

但經由此常數矩陣的共變數矩陣微分,無法求得其估計值,詳細的推導過程請參 見 Krishnapuram and Kim(1999)的文獻資料,此時樣本點與各群間隸屬關係,相當 於 其 隸 屬 度 值 域 由 對 應 之 實 數 集 為

{ }

0,1 擴 增 為 實 數 區 間 集

[ ]

0,1 , 顯 然

[ ]

0,1

{ }

0,1 。本質上,軟分割分群法可以看成硬分割分群法之推廣分割分群法,

應可獲得較佳之可適解;信中亦證實校正後的 GK 分群演算法適用於橢圓型

(ellipsoidal clusters)的資料結構,再者動態的變異數矩陣估計式,直接由目標 函數導出,是有效改進 GK 分群演算法的重要因素(Anderson, Bezdek, and R. Dav´e, 1982; Dav´e, 1989),由結果亦證實初值(initialization)會影響研究結果,尤其 是不好的初值也不會獲得好的分群正確率。儘管 GG 分群演算法是來自 GK 分群 演算法的擴充,但其是調整的外加之估計值不同時,並非由資料本身之目標函數 導出,即非動態的估計式,當資料結構與於此外加估計值時,將直接導致分群的 正確率不佳,因此本研究延續動態的估計各群資料的共變異數的概念為基礎,提 出新的分群演算法。

整體而言,主要影響分群正確率的有四個議題,第一個議題是模糊指數 m 的 決定,模糊指數 m 的幾何意義,代表各群的重疊程度,大多數人以預設值等於 2 代入,本研究的研究團隊仍以預設值等於 2 代入;第二個議題是選定隸屬度的初 值,文獻資料選顯示,透過粒子群最優化(Particle S warm Optimization, 簡稱 PSO)

可以找出最佳之隸屬度以提高分群正確率(Liu, Yih, Lin, and Liu; 2008),本研究係 以隨機方式,產生 100 組固定之隸屬度的初值,代入所提出之新的演算法,比較

其分群之正確率;第三個議題是確定樣本資料的分群數的決定,分群的數目可透 過分群的驗證指標來確定其群數,目前以網路上公認的蝴蝶花、葡萄酒等資料,

其組數為已知的情況,組數未知的情況,可以透過分群的驗證指標來確定,是未 來接續研究的議題;本研的議題聚焦於距離函數的改善,透過不同的距離函數以 決定其對應之目標函數,本研究特別有興趣於模糊分割分群法中距離函數之擴 張,擴張的距離函數可以獲得較佳解的可能,改善之議題,因此主要以馬氏距離 為基礎的目標函數之議題進行探討。

實證資料除網路上公認的蝴蝶花、葡萄酒等資料外,亦包括學童經由學習產 生的錯誤類型,將這些受試者所有可能的錯誤類型,經由專家逐一鑑定各錯誤類 型後,依各樣本點的解題表現,搭配錯誤類型以進行分群,並作為日後分群補救 教學之依據,就教育與心理計量應用方面,用於認知診斷錯誤類型的補救教學有 其重要的意義及實質上的貢獻,基於潛在類別分析(latent class analysis, 簡稱 LCA)的模式在教育上的應用,係企圖利用測驗題型的組合,找出異質群體中,

各個同質組群的特質,顯然透過專家逐一鑑定各錯誤類型後,依各樣本點的解題 表現,搭配錯誤類型以進行分群,較為耗時又沒有效率,如果本研究所提出之新 的分群演算法其正確率能優於傳統用於教育資料分群的潛在類別分析法,將有助 提昇教育資料分群的技術並有效率的進行認知診斷錯誤類型的補救教學。

相關文件