第二章 文獻探討
2.5 集群分析與分群法的概念
2.5.4 灰關聯聚類法
在談到灰關聯聚類法之前,首先對一些灰色理論的概念及有關灰關聯聚類的 專有名詞作解釋。
■ 灰色理論 (gray theory)
灰關聯聚類法主要是以灰色理論 (gray theory) 與灰關聯分析為基礎,具 有整體性測度的一門應用方法,主要是期望應用於複雜度較高的資料分群的處理 上。
灰色理論系統是由中國鄧聚龍教授於 1982 年提出,近年來相關的文獻如與 後春筍般的產生;該理論主要是針對系統模型之不明確性、資訊之不完整性之 下,進行關於系統的關聯分析、模型建構、藉預測及決策之方法來探討及瞭解系 統;灰色理論本身應用的範圍極廣,主要能對事物的不確定性、多變量輸入、離 散的數據及數據的不完整性,做有效的處理。
■ 灰關聯分析
灰關聯分析則為灰色理論的重要支柱,是一種分析離散序列資料間關係程度
的測度法,它所要做的就是從少量資訊 (數據少且不確定) 出發,透過多個角度 來分析、量化與序化這種關係。[27]
因此,為達到灰關聯分析的目的,必須做數據的處理,此一處理稱為灰關聯 生成,意即在一些雜亂無章的數據中,設法將其掩蓋的規律及特徵浮現出來,利 用灰生成的方法降低數據中的隨機性,並提升其規律性。
一般用於灰色理論中的生成有兩種,一是整體生成,又可分為累加生成 (Accumulated Generating Operation;AGO) 及累減生成 (Inverse Accumulated Generating Operation;IAGO),另一種是局部生成,又可以分為插值生成 (Interpolating Generating Operation)及均值生成 (Mean Value Generating Operation);透過生成,完成對數據的處理。
灰關聯分析中的另外一個重點是取得所謂的灰關聯空間,當灰關聯空間形成 之後,必須再做量化的處理,而此一量化的方法就是定義出一個測度公式,稱之 為灰關聯度 (Gray Relation Grade),又可表示成兩個序列間的關聯程度。
■ 灰關聯聚類分析
運用灰關聯分析理論為基礎的徽關聯聚類演算法,所使用的概念,就是「希 望具有相同特性的資料,能經由測量與疊代之後,收斂到相同的一點,對於這些 能夠收歛到相同位置的資料,我們歸納為同一群聚,而其特性是以資料間的灰關 聯度量測來代表資料間相關程度的特性。
而在過往的灰關聯聚類演算法中,針對如果給定不同的閥值ω,可能產生不 同的群聚類和聚類結果之缺失,陳惠良 [23]以加入效能指標(PI: Performance Index)的方式,來幫助灰關聯聚類演算法中閥值的決定,這個聚類指標,簡單的 說,就是各個群聚資料與群聚中心平均距離的和;再來,針對灰關聯測度時,Δ
i j 值與灰關聯度的關係為非均勻分布於 0 與 1 之間的情形作調整,希望使Δi j值 大小與灰關聯度的關係能均勻分布於 0 與 1 之間,這將有助於演算法中閥值增量
Δω的決定。
依據這個修正過後的灰關聯係數測度公式,並加上聚類效能指標(PI)的設 定,來協助找到可以將資料正確聚類的閥值ω,步驟如下:
表 2-8 修正灰關聯聚類方法之流程
步驟一 已一可移動的向量集合
V
={v1,v2,….vn}代表原始的資料向 量,即令v
i =x
i,i =1,2, ….n;設計初始的閥值及閥值增 量Δω,其中 0<ω<1。
步驟二 採取等權方式,並以一修正的灰關聯係數的測度方法取代傳 統 的 灰 關 聯 係 數 測 度 方 法 , 分 別 計 算 參 考 序 列
v
i (i=1,2, ….n)和其它比較序列
v
j (j =1,2, ….n)間的灰關聯 度,作為兩序列間的相似程度的代表值。該修正的灰關聯係數如下:
其中
步驟三 更新參考向量
v
i = (v
i *(1),v
i *(2), …,v
i *(m)),其中步驟四 若
v
i,i =1,2, ….n的值不再變動,則繼續下一步驟;否則 跳至步驟二繼續執行。步驟五 計算效能指標(PI)
其中 c 為聚類完成後的群集數目,Gi,i =1,2, ….c 為歸 屬於第i個群聚的資料所構成的集合,#(Gi)為集合的元素個 數,cci為第u個群集中心位置,即:
步驟六 若閥值ω<1,令ω=ω+△ω,以及 V=X 並回到步驟二。
步驟七 選擇能使得 PI 值為最小的最大閥值所得之分群結果為最終 結果,並令最終收斂點個數為集群數目,且視收斂於相同收 斂位置的資料歸屬於相同群集。