• 沒有找到結果。

Bubble Function,如式 2-4 所示。

, ( )

Bavarian, 1991]。如圖 2.3-6 所示。

附圖 2.3-6 兩種型態的鄰近函數

SOM 是目前相當受到歡迎的非監督式類神經網路模型,原本的應用領域用 來處理工程問題,但漸漸普遍應用於資料分析的領域上,尤其近年來資料探 勘的議題研究日漸普遍,此方法也月見其廣泛應用。SOM 擁有下列優點 [Vesanto, 2000],使其成為資料探勘的工具之一:

z 穩健性(robustness):假設鄰近區域函數延伸至足夠遠如高斯函數,

則 SOM 會擁有相當穩健特性,這是因為競爭式學習所產生的原型會 受到所有資料樣本之影響。

z 局部調整(local tuning):拓樸的次序性將在每個優勝單元的鄰近區 域發揮作用,因而形成朝向資料密度特性作局部調整。

z 易現性(ease of visualization):SOM 有規則的網路格點可使建立 一個有效率且視覺化的使用者介面容易許多。

以上優點大多歸因於 SOM 鄰近區域間的關係,這也是構成 SOM 架構的基 礎。

SOM 演算法的四個特性:

A. 輸入空間的趨近性(approximation of the input space)

特徵圖形經由權重向量集合展現在輸出空間,並且針對輸入空間提供一 個極佳的趨近特性。換句話說,SOM 的目的為經由找尋較小的樣式集合來儲 存大量的輸入向量,以便針對原始的輸入空間提供一個較佳的趨近性。這理 論基礎為「向量量化」,也是資料降維或壓縮的主要原理。

B. 網路拓樸的次序性(topological ordering)

經由 SOM 演算法計算所得到的特徵圖具有一拓樸次序性,就是在輸出網 絡中神經元的空間位置與特定輸入樣式的特徵相對應。網路拓樸的次序性來 自於將優勝單元的迫使權重向量朝向輸入向量調整;此時權重修正亦將使得 最靠近優勝單元的鄰近神經元產生向中央權重修正的效果。如此便使得整個 拓樸特徵圖形所形成的輸出空間產生適切的次序性,並以虛擬的拓樸網格來 呈現。網格上的每個輸出單元均可以其相對應的權重向量作為輸入空間的座 標值。因此,若是輸出空間中的相鄰單元,其在輸入空間相對應資料點亦為 相連時,便可直接觀察到網路拓樸的次序性。

C. 機率密度的對應性(density matching)

SOM 特徵圖同時也反映出輸入分配的統計量變化情形,也就是說,樣本 訓練向量中發生的機率密度較高者在輸入空間所佔的區域將映射至輸出空間 的較大部分區域,因此,相較於輸入空間中機率密度較低者, 擁有較佳的解 釋能力(resolution)。

D. 特徵的選擇性(feature selection)

從輸入空間中給定一非線性分配,SOM 擁有掘取一組最佳特徵集合來詮 釋(或趨近)資料分配之能力。這項特徵同時也是前三項特性之集合。儘管主 成份分析法可藉由關聯矩陣中具有最大特徵值之向量計算,求得訓練資料中 擁有最大變異的輸入維度(向度),但仍僅限於線性或平面的輸入空間;至於 曲線或曲面(surface)時,主成份分析的表現便不如 SOM 的拓樸次序特性。

然而 SOM 演算法卻也有以下缺點:【Vesanto, 2000】

z 邊際效應(border effect):鄰近區域的定義在 SOM 拓樸圖形的邊緣 為非對稱性。因此中央區域的單元,其鄰近區域函數(密度估計)必不 等同於邊界單元。

z 收縮效應(contraction):在向量量化過程中的平均分配使得變數數 值的範圍縮小,並且受到鄰近函數的增強,極端值將因此去除,這在 某些情況如分析者關切離散值時是不樂見的。

z 內插單元(interpolating units):當資料群的分佈為不連續時,在 資料群之間插入單元可便於資料分配的推估;然而,對於某些分析工 具如單一連結分群法的例子顯示如此作法可能會提供錯誤的資料形 狀線索。

2.4. 分群方法回顧

集群(或稱聚類、群聚、叢集)分析(cluster analysis)是一種將眾多個 體或目標對象歸類為若干未知的分群,有就是在資料中找尋群組的學問,也 是將類似的目標對象歸聚成一群之行為。與分類不同的是,分群的數量及其 特性必須從資料中獲取而無法事先得知。集群分析是一門所以群集分析可說 是各種用來找出資料集合中相似資料的數學方法之通稱。換句話說,群集分 析嘗試將資料點歸類成同質性的群集,並假設無法事先得知群集資訊。

而分析的第一步就是檢查資料點彼此之間的鄰近性(proximity),因此亦 可視為一種探索資料的分析技術。若是以分析結果而言,群集分析是一種將 觀察資料結合成群類(groups)或群集(clusters)的技術,使其可達到以下兩 個目標。其一是每個群類或群集之內,就某種特性而言,具有高度同質性或 表現出緊密結實的分布狀態;其次是每個群組或群集之間,就某種特性而言,

具有高度異質性,而不同群組或群集中的觀察值彼此相異。因此整體而言,

群集分析是一種能根據資料變數之相似性與相異性,客觀地進行分類分群的 邏輯程序,其目的在根據某種特性而劃分成的多個群集中,同一群集具有高 度同質性(homogeneity),而不同群集間則具有明顯的異質性

(heterogeneity)。而現今群集分析一詞較常指尋找資料中隱含群集的程序之 通稱。

分群觀念與方法已經成功應用於許多領域中,諸如生命科學、醫藥科學 與工程科學等,並且在不同背景有其不同專有名稱。例如人工智慧中樣式辨 認的非監督式學習(unsupervised learning),生物學與生態學的數值分類學 (taxonomy),社會科學的拓樸(topology),圖論中的分割(partition)、心理 學的 Q 分析與行銷研究中常提到的市場區隔(segmentation)等【Halkidi,

2001;Everitt, 2001】。

傳統分群法基本上可分為階層式(hierarchical)與分割式(partitional) 兩大類,且各自分別有其多元化的演算法,如附圖 2.4-1 所示。

其中最具代表性的是階層式的凝聚分群法與分割式的 K-means 分群法

【Vesanto, 2000】。隨著人工智慧的興起,遂產生模糊分群(fuzzy

clustering)、類神經網路分群與演化式分群法(evolutionary clustering),

其中類神經 網路中最具代表性者即為自組織映射圖網路(SOM),而演化式分群 法則為遺傳演算法【Jain et al., 1999】。

在對分群的回顧研究中,共列舉介紹 11 項分群相關技術,如附表 2.5-1

【楊東昌, 2004】所示。除上述所列之外,尚包括以搜尋法為基礎

(search-based)的分群法,如模擬退火法(simulated annealing);接近直觀 式的最鄰近者分群法(nearest neighbor clustering);為處理現今大型資料 型態,如 CLARANS 與 BIRCH 分群法;以及因應分群使用者之實際需求而加入 局部性限制條件之分群法。

相關文件