• 沒有找到結果。

以圖 4.1 總結我們的方法流程。首先由原始資料估計出兩兩變數間的互信息,

以互信息當作變數的相似度並根據相似度將變數分群。分群的方式有二:一是直

接用 k-中心分群;二是先推論出變數的互信息網路,接著用譜分群,以譜分群中

圖分割的觀點來分割互信息網路以達到變數分群的目的。兩種方式的差別在於互

信息網路提供一個可視覺化的變數關係網路圖,我們可以從圖上判讀出哪些變數

之間具有真正的直接關係。

變數選取接在變數分群後進行,若目的是簡化系統,則我們從每一群中選出

中心度最大的變數作為代表變數;若目的是解釋目標變數,則從每一群中選與目

標變數互信息最大的變數作為解釋變數。

27

圖 4.1 研究方法詳細流程圖

28

第五章 第五章 第五章

第五章 實驗 實驗 實驗 實驗

5.1 實驗 實驗 實驗 實驗簡介 簡介 簡介 簡介

實驗使用的資料取自 Statistica 的內建資料集。這包資料是真實晶圓自動化製

程中所得的原始數據,共有 31 個變數,其中一個為目標變數 Yield (良率),其餘

30 個皆為預測良率的變數。為方便起見,將 30 個變數重新命名為 var1、var2、…、

var30。總共有 154 個樣本數,剔除離群值後留下 151 個樣本。原資料中有少數幾 個缺值,以平均值填入。從 30 個變數中取 9 個變數加上良率畫成散布圖如圖 5.1 (最

右一行為良率),可發現這包資料的變數大都是非線性關係。

圖 5.1 晶圓資料散佈圖

29

5.2 變數分群結果 變數分群結果 變數分群結果 變數分群結果

變數分群目的在於探討一個系統中變數間的關聯性以及變數群聚的情形,要

評價此問題結果的優劣,最好的辦法就是跟專家知識做比較。但難處就在於我們

找不到這樣的專家。因此我們以因素負荷當作對照參考,試著去解釋之間的異同。

表 5.1 是經過最大變異旋轉後的因素負荷,標示出絕對值大於 0.7 的值 (粗體)。與

同一因素高相關的變數被視為同一群,第九個因素之後的因素負荷皆小於 0.7。即

使列出了八個因素仍有變數與這八個因素的相關係數均小於 0.7,如 var12、var13,

故 var12、var13 不屬於任何一群。

30

var 因素1 因素2 因素3 因素4 因素5 因素6 因素6 因素7

1 -0.751-0.751-0.751-0.751 0.294 -0.029 -0.025 0.089 -0.225 -0.185 -0.450 2 -0.781-0.781-0.781-0.781 0.270 -0.060 0.009 0.023 -0.241 -0.167 -0.421 3 -0.795-0.795-0.795-0.795 0.248 -0.033 0.040 0.027 -0.249 -0.118 -0.443 4 -0.811-0.811-0.811-0.811 0.292 0.026 0.058 0.078 -0.234 -0.033 -0.360 5 -0.831-0.831-0.831-0.831 0.275 0.013 -0.005 0.077 -0.190 -0.061 -0.325 6 -0.839-0.839-0.839-0.839 0.222 0.065 0.076 0.029 -0.239 -0.052 -0.348 7 -0.837-0.837-0.837-0.837 0.384 -0.041 0.020 0.068 -0.239 0.009 -0.236 8 -0.844-0.844-0.844-0.844 0.315 -0.012 0.084 0.039 -0.248 -0.083 -0.285 9 -0.850-0.850-0.850-0.850 0.251 -0.015 0.154 0.013 -0.256 -0.037 -0.274 10 -0.537 0.005 -0.113 0.115 0.066 -0.748-0.748-0.748-0.748 -0.144 -0.304 11 -0.493 0.064 -0.169 0.109 0.053 -0.770-0.770-0.770-0.770 -0.124 -0.312 12 -0.381 -0.063 0.226 0.154 0.057 -0.523 -0.104 -0.611 13 -0.386 -0.045 0.142 0.198 0.094 -0.489 -0.174 -0.602 14 -0.838-0.838-0.838-0.838 0.363 -0.008 0.061 0.050 -0.262 -0.058 -0.268 15 -0.858-0.858-0.858-0.858 0.299 -0.008 0.130 0.025 -0.250 -0.035 -0.253 16 -0.820-0.820-0.820-0.820 0.405 -0.019 0.013 0.046 -0.227 -0.058 -0.276 17 -0.824-0.824-0.824-0.824 0.391 -0.022 0.009 0.059 -0.228 -0.064 -0.286 18 -0.043 0.091 -0.932-0.932-0.932-0.932 0.110 0.041 -0.180 -0.038 0.271 19 0.424 0.041 -0.085 -0.114 -0.033 0.195 0.020 0.8640.8640.8640.864 20 0.402 0.036 -0.093 -0.128 -0.056 0.175 0.013 0.8700.8700.8700.870 21 0.501 0.010 -0.102 -0.124 -0.014 0.214 0.067 0.7950.7950.7950.795 22 0.442 0.104 -0.120 -0.013 -0.040 0.100 0.218 0.8260.8260.8260.826 23 0.096 -0.071 0.035 -0.084 -0.982-0.982-0.982-0.982 0.083 0.041 0.072 24 0.384 -0.899-0.899-0.899-0.899 0.012 -0.113 -0.033 0.134 0.040 0.050 25 0.316 -0.930-0.930-0.930-0.930 0.074 -0.020 -0.034 -0.022 -0.074 -0.106 26 0.329 -0.937-0.937-0.937-0.937 0.043 -0.051 -0.020 -0.007 -0.024 -0.052 27 0.332 -0.937-0.937-0.937-0.937 0.008 -0.019 -0.032 -0.016 -0.037 -0.054 28 -0.077 0.155 -0.113 0.9210.9210.9210.921 0.100 -0.130 -0.182 -0.221 29 0.206 0.142 0.059 -0.308 -0.071 0.373 0.7970.7970.7970.797 0.243 30 -0.498 0.083 -0.170 0.026 0.071 -0.803-0.803-0.803-0.803 -0.162 -0.178

表 5.1 因素分析的結果

31

32

圖 5.3 k-中心、ARACNE 和 MRNET 在不同分群數下的影值和

由圖 5.2 我們可看出三者一致地當分群數大於六之後,負的影值便快速增加,

由此判斷分六群會是一個不錯的選擇。圖 5.3 為全部的影值和,注意 k-中心縱軸

的刻度與其他兩張圖不同,原因是未經處理的互信息中存在許多虛假相關,這會

使得影值計算中的 ( )b i 項 ((4.1)式) 變大,結果就是整體的影值變小。ARACNE 和

MRNET 為消除虛假相關後的互信息網路,影值和比 k-中心大了不少。k-中心和 MRNET 在圖 5.2、圖 5.3 中的表現是一致的,最佳分群數在五、六左右。ARACNE 則沒有這個現象,在圖 5.2 中的最佳分群數是六,但在圖 5.3 中分兩群就達到峰

值了。MRNET 在圖 5.3 中的曲線也不像 k-中心那麼明顯,分群數二到六之間影值

和的差異不大。或許這就是互信息網路的特性,刪除掉一些虛假相關的邊使得利

用影值來找尋最佳分群數目時沒有明顯的結果。但在另一方面,簡潔的互信息網

路可用於變數關係的視覺化,使我們清楚知道哪些變數有真正的直接關係,如圖

5.4。圖 5.4 為 ARACNE 互信息網路分五群的結果,同顏色代表同一群,邊上的權 重為互信息。

33

圖 5.4 ARACNE 互信息網路分五群

34

var 因素分析 k-中心 ARACNE MRNET 1

k-中心、ARACNE 和 MRNET 這三者的分群非常類似但與因素負荷的結果略有不

* 因素分析中 var12、var13 空白表示沒被分群。

35

同,我們簡單討論不同處如下:

var12、var13 :

從散佈圖 (圖 5.6) 上來看,var12 與 var13 大致上呈線性關係,不論互信息或相關

系數, var12 和 var13 都表現地非常一致,且和對方的互信息與相關系數都相對高

(圖 5.7),因此姑且不管其他變數, var12、var13 應該要被分在一群。

圖 5.6 var12 和 var13 的散佈圖

36

圖 5.7 變數間的相關系數 (絕對值) (左) 和互信息 (右)*

var28 var10、var11、var30:

var10、var11 是兩個與其他變數都不太相關的變數,除了和彼此的互信息相對大 外,和 var30 的互信息也相對大,圖 5.8 中 var10、var11 和 var30 的關係大致為線

性,故它們三者應為同一群。var28 和其他變數的相關係數都很低,幾乎都在 0.2

到 0.4 之間 (絕對值),互信息最高的三個就是和 var10、var11、var30,分別為 0.85、

0.88、0.81,其餘幾乎都在 0.7 以下。var28 和 var10、var11、var30 也的確不是線 性關係,但若將 var28 和 var10、var11、var30 的散佈圖分別用二次曲線去近似 (圖

5.9),可發現他們都呈一種類似的二次關係,故將 var10、var11、var28、var30 分 在同一群。

* x 軸與 y 軸同樣為 30 個變數,顏色從白到黑代表值從小到大。

37

圖 5.8 var10、var11、var28 與 var30 的散佈圖

38

圖 5.9 var28 與 var10、var11、var30 的二次回歸

39

40

S 為代表變數的集合,S 是 S 以外的其他變數集合,| |⋅ 表示集合的元素個數, ( )H ⋅ 和H( | )⋅ ⋅ 分別為熵和條件熵。表 5.2 的任何一組代表變數都可以代進(4.15)式計算 出一個分數,此分數望大,表示其他變數可被此組代表變數解釋且代表變數之間

的相關性不大。(4.15)式的第一項的意義為群內相關 (intra-dependence),是一個熵

的比例,分母為 S 內某一個變數v 的熵,分子為已知j v 後i v 的熵,j v 為某一個代i

表變數。此比例越小表示在v 為已知的情況下,i v 的混亂度下降很多,意即j v 可以i

解釋v 。取最小值的意義在於只要 S 中的某一個j v 可以解釋i v 即可,實際實驗時j

我們發現使v 的混亂度下降最多的j v 通常就是i v 所屬那群的代表,故稱“群內”j

相關。第二項亦是一個熵的比例,表示群間相關 (inter-dependence),不同的是v 和i

v 均屬於 S ,此比例越大表示k v 和i v 越無法互相解釋,k v 和i v 越獨立。我們希望k 其他變數都能夠被代表變數解釋且代表變數之間盡量獨立,因此第一項望小,第

二項望大,第一項加上負號故相加後的分數是望大。

三個代表變數 五個代表變數 七個代表變數

因素分析 -2.04 -1.30 1.21

k-中心 -2.68 1.83 3.12

ARACNE -1.76 0.71 2.00

MRNET -2.80 1.26 2.15

表 5.3 簡化系統變數選取的驗證結果

表 5.3 是利用(4.15)式所得到的分數,選取三個代表變數時 ARACNE 的得分

最高,五個、七個代表變數時則是 k-中心的得分最高,顯示我們選出的代表變數

41

較因素分析選出的具系統代表性。

針對解釋目標變數的變數選取,我們以良率作為目標變數,根據選出的解釋

變數對良率進行預測 (分類和迴歸),並與 MRMR、逐步選取法所選出的變數作比

較。分類和迴歸都分別各以五種方法測試,分類用線性鑑別分析 (linear discriminant

analysis, LDA)、k-最近鄰居分類 (k-nearest neighbor classification)、學習向量量化 (learning vector quantization, LVQ )、類神經網路 (neural network, NN)及分類迴歸樹 (classification and regression tree, CART);迴歸用線性迴歸 (linear regression)、k-最 近鄰居迴歸 (k-nearest neighbor regression)、輻射基底函數 (radial basis function,

RBF)、類神經網路和分類迴歸樹。以上方法的簡介請見附錄。

訓練資料用來選取解釋變數以及建立迴歸、分類的模型。測試資料用來測試

選取的變數對良率(目標變數)的解釋能力。對於分類,良率以 0.9 作為分界點,高

於 0.9 的為一類 (高良率),低於 0.9 的為一類 (低良率)。分類結果以正確率

(accuracy)表示。對於迴歸,我們比較 SSE (sum of squared error)

(

i i

)

2

42

MRMR 6 18 30

逐步選取法 20 25 28

k-中心 6 11 20

ARACNE 6 20 20

MRNET 6 20 20

MRMR 6 18 30 20 4

逐步選取法 6 13 25 28 30

k-中心 6 11 12 20 27

ARACNE 6 11 12 18 20

MRNET 6 12 18 20 27

MRMR 6 18 30 20 4 12 5

逐步選取法 6 13 20 21 25 28 30

k-中心 5 6 11 12 18 20 27

ARACNE 4 6 11 15 18 20 23

MRNET 6 11 18 20 23 27 28

表 5.4 解釋良率的變數選取結果

43

三個解釋變數 LDA kNN LVQ NN CART 平均

MRMR 0.76 0.92 0.88 0.82 0.94 0.864

逐步選取法 0.8 0.96 0.88 0.86 0.94 0.888

k-中心 0.8 0.96 0.86 0.82 0.92 0.872

ARACNE 0.8 0.96 0.88 0.86 0.98 0.896

MRNET 0.74 0.88 0.86 0.86 0.88 0.844

五個解釋變數 LDA kNN LVQ NN CART 平均

MRMR 0.78 0.96 0.92 0.92 0.96 0.908

逐步選取法 0.9 0.96 0.88 0.88 0.92 0.908

k-中心 0.92 0.96 0.86 0.86 0.98 0.916

ARACNE 0.82 0.96 0.88 0.84 0.98 0.896

MRNET 0.8 0.96 0.86 0.86 0.98 0.892

七個解釋變數 LDA kNN LVQ NN CART 平均

MRMR 0.82 0.96 0.9 0.9 0.96 0.908

逐步選取法 0.96 0.96 0.84 0.84 0.96 0.912

k-中心 0.92 0.96 0.92 0.88 0.94 0.924

ARACNE 0.78 0.96 0.8 0.8 0.94 0.856

MRNET 0.96 0.94 0.82 0.82 0.98 0.904

表 5.5 分類結果 (正確率)

表 5.5 是分類結果,我們可看出選擇三個變數時,ARACNE 有最高的平均正

確率;五個和七個變數時,k-中心選出的變數有最高的平均正確率。其中 kNN 和

CART 這兩種分類方法的分類效果較好。

44

三個解釋變數 linear Reg kNN RBF NN CART 平均

MRMR 0.752 0.312 1.012 0.772 0.374 0.644

逐步選取法 0.483 0.305 0.396 0.474 0.287 0.389

k-中心 0.567 0.229 0.470 0.579 0.254 0.420

ARACNE 0.560 0.247 0.683 0.554 0.209 0.451

MRNET 0.598 0.434 0.504 0.645 0.433 0.523

五個解釋變數 linear Reg kNN RBF NN CART 平均

MRMR 0.542 0.233 0.541 0.535 0.275 0.425

逐步選取法 0.391 0.258 0.553 0.387 0.475 0.413

k-中心 0.328 0.268 0.503 0.327 0.281 0.341

ARACNE 0.497 0.242 0.747 0.484 0.229 0.440

MRNET 0.607 0.264 0.752 0.629 0.415 0.534

七個解釋變數 linear Reg kNN RBF NN CART 平均

MRMR 0.603 0.229 0.697 0.599 0.442 0.514

逐步選取法 0.315 0.274 0.577 0.394 0.272 0.366

k-中心 0.373 0.222 0.542 0.466 0.355 0.392

ARACNE 0.570 0.248 0.672 0.767 0.369 0.525

MRNET 0.336 0.278 0.697 0.337 0.213 0.372

表 5.6 廻歸結果(SSE)*

45

或迴歸。

綜合表 5.5 分類結果和表 5.6 迴歸結果,k-中心選出的變數對良率的解釋能力

大致上比其他方法好。互信息網路搭配譜分群 (ARACNE、MRNET) 所選出的變

數雖然結果不如 k-中心和逐步選取法,但依然有它存在的價值。互信息網路旨在

闡明變數間真正的關係,但變數間的關係網路並不是只有互信息網路,也可能來

自專家知識或貝氏網路的結構學習等。假使我們已經由某種方法得到變數的關係

網路,那麼就可以省略前面計算互信息和互信息網路的步驟,同樣可以做變數分

群和變數選取。

5.4 離散資料的變數分群與選取結果 離散資料的變數分群與選取結果 離散資料的變數分群與選取結果 離散資料的變數分群與選取結果

如第一章中所述,使用互信息的優點就是可以處理離散資料,在此情況下我

們依然可以完成互信息的計算、變數分群和變數選取。為簡單起見,我們使用同

一包資料,先對每個變數作離散化處理:將每個變數的數值用 k-平均分成高、中、

低三類,之後變數在取樣中的值就只以高、中、低這三個類別表示。當然,經過

此一轉換後互信息、變數分群和變數選取的結果必定會和原本的不同。

46

圖 5.10 連續資料(a)和離散資料(b)的互信息

圖 5.10 是互信息的比較,(a)是用原本連續資料計算出的互信息,(b)是用經過

上述轉換後的離散資料計算出的互信息。可發現(b)中的互信息整體下降,更重要

的是有些變數間的關係結構也被破壞掉了,圖上來看最明顯的就是 var14、var15、

var16、var17 這四個變數,原本四個變數之間非常相關 (互信息很大),離散化後 他們之間的關係不復存在。var14、var15、var16、var17 與 var8、var9 的情形也是

如此。以 var17 和 var8 為例,圖 5.11 是 var17 與 var8 的散佈圖,可看出這兩個變

數呈線性正相關,相關系數高達 0.979,互信息 1.437 也算大。圖上的分隔線是用

k-平均離散化後類別之間的分界線,共分成九個小區域,圖 5.12 為對應每個小區 域內的取樣個數統計,可以將圖 5.12 當成是資料離散化後 var17 與 var8 的散布圖,

已經看不出他們之間的線性關係了,大約五分之四的取樣都擠在左下的區域。離

散化後的互信息降為 0.401。

47

圖 5.11 var17 與 var8 的散佈圖

圖 5.12 對應圖 5.11 的取樣個數統計圖

上面的例子在探討資料離散化後變數之間關係的失真情形,有可能我們一開

始得到的資料就是離散的,也就沒有所謂失不失真的問題。我們所要強調的是,

始得到的資料就是離散的,也就沒有所謂失不失真的問題。我們所要強調的是,

相關文件