• 沒有找到結果。

變數分群結果

變數分群目的在於探討一個系統中變數間的關聯性以及變數群聚的情形,要

評價此問題結果的優劣,最好的辦法就是跟專家知識做比較。但難處就在於我們

找不到這樣的專家。因此我們以因素負荷當作對照參考,試著去解釋之間的異同。

表 5.1 是經過最大變異旋轉後的因素負荷,標示出絕對值大於 0.7 的值 (粗體)。與

同一因素高相關的變數被視為同一群,第九個因素之後的因素負荷皆小於 0.7。即

使列出了八個因素仍有變數與這八個因素的相關係數均小於 0.7,如 var12、var13,

故 var12、var13 不屬於任何一群。

30

var 因素1 因素2 因素3 因素4 因素5 因素6 因素6 因素7

1 -0.751-0.751-0.751-0.751 0.294 -0.029 -0.025 0.089 -0.225 -0.185 -0.450 2 -0.781-0.781-0.781-0.781 0.270 -0.060 0.009 0.023 -0.241 -0.167 -0.421 3 -0.795-0.795-0.795-0.795 0.248 -0.033 0.040 0.027 -0.249 -0.118 -0.443 4 -0.811-0.811-0.811-0.811 0.292 0.026 0.058 0.078 -0.234 -0.033 -0.360 5 -0.831-0.831-0.831-0.831 0.275 0.013 -0.005 0.077 -0.190 -0.061 -0.325 6 -0.839-0.839-0.839-0.839 0.222 0.065 0.076 0.029 -0.239 -0.052 -0.348 7 -0.837-0.837-0.837-0.837 0.384 -0.041 0.020 0.068 -0.239 0.009 -0.236 8 -0.844-0.844-0.844-0.844 0.315 -0.012 0.084 0.039 -0.248 -0.083 -0.285 9 -0.850-0.850-0.850-0.850 0.251 -0.015 0.154 0.013 -0.256 -0.037 -0.274 10 -0.537 0.005 -0.113 0.115 0.066 -0.748-0.748-0.748-0.748 -0.144 -0.304 11 -0.493 0.064 -0.169 0.109 0.053 -0.770-0.770-0.770-0.770 -0.124 -0.312 12 -0.381 -0.063 0.226 0.154 0.057 -0.523 -0.104 -0.611 13 -0.386 -0.045 0.142 0.198 0.094 -0.489 -0.174 -0.602 14 -0.838-0.838-0.838-0.838 0.363 -0.008 0.061 0.050 -0.262 -0.058 -0.268 15 -0.858-0.858-0.858-0.858 0.299 -0.008 0.130 0.025 -0.250 -0.035 -0.253 16 -0.820-0.820-0.820-0.820 0.405 -0.019 0.013 0.046 -0.227 -0.058 -0.276 17 -0.824-0.824-0.824-0.824 0.391 -0.022 0.009 0.059 -0.228 -0.064 -0.286 18 -0.043 0.091 -0.932-0.932-0.932-0.932 0.110 0.041 -0.180 -0.038 0.271 19 0.424 0.041 -0.085 -0.114 -0.033 0.195 0.020 0.8640.8640.8640.864 20 0.402 0.036 -0.093 -0.128 -0.056 0.175 0.013 0.8700.8700.8700.870 21 0.501 0.010 -0.102 -0.124 -0.014 0.214 0.067 0.7950.7950.7950.795 22 0.442 0.104 -0.120 -0.013 -0.040 0.100 0.218 0.8260.8260.8260.826 23 0.096 -0.071 0.035 -0.084 -0.982-0.982-0.982-0.982 0.083 0.041 0.072 24 0.384 -0.899-0.899-0.899-0.899 0.012 -0.113 -0.033 0.134 0.040 0.050 25 0.316 -0.930-0.930-0.930-0.930 0.074 -0.020 -0.034 -0.022 -0.074 -0.106 26 0.329 -0.937-0.937-0.937-0.937 0.043 -0.051 -0.020 -0.007 -0.024 -0.052 27 0.332 -0.937-0.937-0.937-0.937 0.008 -0.019 -0.032 -0.016 -0.037 -0.054 28 -0.077 0.155 -0.113 0.9210.9210.9210.921 0.100 -0.130 -0.182 -0.221 29 0.206 0.142 0.059 -0.308 -0.071 0.373 0.7970.7970.7970.797 0.243 30 -0.498 0.083 -0.170 0.026 0.071 -0.803-0.803-0.803-0.803 -0.162 -0.178

表 5.1 因素分析的結果

31

32

圖 5.3 k-中心、ARACNE 和 MRNET 在不同分群數下的影值和

由圖 5.2 我們可看出三者一致地當分群數大於六之後,負的影值便快速增加,

由此判斷分六群會是一個不錯的選擇。圖 5.3 為全部的影值和,注意 k-中心縱軸

的刻度與其他兩張圖不同,原因是未經處理的互信息中存在許多虛假相關,這會

使得影值計算中的 ( )b i 項 ((4.1)式) 變大,結果就是整體的影值變小。ARACNE 和

MRNET 為消除虛假相關後的互信息網路,影值和比 k-中心大了不少。k-中心和 MRNET 在圖 5.2、圖 5.3 中的表現是一致的,最佳分群數在五、六左右。ARACNE 則沒有這個現象,在圖 5.2 中的最佳分群數是六,但在圖 5.3 中分兩群就達到峰

值了。MRNET 在圖 5.3 中的曲線也不像 k-中心那麼明顯,分群數二到六之間影值

和的差異不大。或許這就是互信息網路的特性,刪除掉一些虛假相關的邊使得利

用影值來找尋最佳分群數目時沒有明顯的結果。但在另一方面,簡潔的互信息網

路可用於變數關係的視覺化,使我們清楚知道哪些變數有真正的直接關係,如圖

5.4。圖 5.4 為 ARACNE 互信息網路分五群的結果,同顏色代表同一群,邊上的權 重為互信息。

33

圖 5.4 ARACNE 互信息網路分五群

34

var 因素分析 k-中心 ARACNE MRNET 1

k-中心、ARACNE 和 MRNET 這三者的分群非常類似但與因素負荷的結果略有不

* 因素分析中 var12、var13 空白表示沒被分群。

35

同,我們簡單討論不同處如下:

var12、var13 :

從散佈圖 (圖 5.6) 上來看,var12 與 var13 大致上呈線性關係,不論互信息或相關

系數, var12 和 var13 都表現地非常一致,且和對方的互信息與相關系數都相對高

(圖 5.7),因此姑且不管其他變數, var12、var13 應該要被分在一群。

圖 5.6 var12 和 var13 的散佈圖

36

圖 5.7 變數間的相關系數 (絕對值) (左) 和互信息 (右)*

var28 var10、var11、var30:

var10、var11 是兩個與其他變數都不太相關的變數,除了和彼此的互信息相對大 外,和 var30 的互信息也相對大,圖 5.8 中 var10、var11 和 var30 的關係大致為線

性,故它們三者應為同一群。var28 和其他變數的相關係數都很低,幾乎都在 0.2

到 0.4 之間 (絕對值),互信息最高的三個就是和 var10、var11、var30,分別為 0.85、

0.88、0.81,其餘幾乎都在 0.7 以下。var28 和 var10、var11、var30 也的確不是線 性關係,但若將 var28 和 var10、var11、var30 的散佈圖分別用二次曲線去近似 (圖

5.9),可發現他們都呈一種類似的二次關係,故將 var10、var11、var28、var30 分 在同一群。

* x 軸與 y 軸同樣為 30 個變數,顏色從白到黑代表值從小到大。

37

圖 5.8 var10、var11、var28 與 var30 的散佈圖

38

圖 5.9 var28 與 var10、var11、var30 的二次回歸

39

相關文件