• 沒有找到結果。

distance)、城市區塊距離 (city block distance) 等,但對於變數間的距離,較常使用的是相關係數的 平方。

11

12

圖 2.1 使用華德法做 30 個變數分群的例子

13

量一個隨機變數 (random variable) 的不確定性 (uncertainty),或稱混亂度。對於一

個離散隨機變數 X ,其熵H X 的定義如下 ( )

14

( ; ) ( ; )

I X Y =I Y X (3.6)

互信息 ( ; )I X Y 可解讀成在 Y 已知的情況下, X 不確定性的減少量 ( (3.5)式第二個 等式);換句話說,在 Y 為已知的情況下,若 X 的不確定性較原本的 ( Y 未知) 降

低很多,則 X 和Y 高度相關, ( ; )I X Y 的值大。(3.6)式表示互信息具有交換律。以 上聯合熵、條件熵和互信息只列出隨機變數為離散時的式子,連續情況可依此類

推,將總和 (

) 替換成積分 (

) 即可。

圖 3.1 熵與互信息之關係圖

3.2 互信息的估計 互信息的估計 互信息的估計 互信息的估計

由 ( ; )I X Y 的定義(3.5)可知,估計 ( ; )I X Y 等同於估計 p x 、( ) p y 和( ) p x y 。( , ) 機率密度函數的估計主要可分為兩種方法:離散化 (discretization) 法[3]和核密度

估計法 (kernel density estimation)[4]。考慮( ,x x1 2,...,xn) n個從某個機率密度函數產 生的取樣 (sample),假設彼此之間獨立。離散化法顧名思義就是將取樣做離散化

處理 (binning),把取樣分布的範圍切成若干個相等大小的區間 (bin),接著計算落

15

16

製作[5]。推論出的網路以有權重的無向圖 (weighted, undirected graph) 呈現,圖上

的節點 (vertex) 代表基因,邊 (edge) 的權重 (weight) 代表邊連接的兩個基因之

17

圖 3.3 虛假相關

現在把問題轉向變數,變數間也存在著類似以上敘述的情形,稱為變數間的

虛假相關 (spurious correlation),例如:有一包資料內含性別、身高和頭髮長度三

個變數,分析這包資料我們可能會得到這樣的推論:身高和頭髮長度呈負相關,

如圖 3.4 (a)。

圖 3.4 虛假相關的例子

18

ARACNE[6]與 MRNET[7]。ARACNE 的概念是根據信息理論中的一個不等式──

資料處理不等式 (data processing inequality):若變數X 經由1 X 而影響2 X (如上述3

MRNET 的概念是根據一個變數選取的方法名為 MRMR (maximum relevance minimum redundancy),以下先介紹 MRMR。令Y 為目標變數,V 為所有輸入變數Xi 的集合。MRMR 的目標是選擇V 中的變數做為Y 的解釋變數,選的先後順序根據

以下準則

* 任意兩節點均有連接的圖。

19

20

第四章 第四章 第四章

第四章 分群 分群和 分群 分群 和 和變數 和 變數 變數選取 變數 選取 選取 選取

分群 (類) 的方法非常多,著名的如 k-平均 (k-means)、k-NN (k-nearest

neighbor)、貝 氏分類 器 (Bayes classifier)等 。考慮非監督式學 習 (unsupervised learning) 及分群後挑選代表變數這兩個條件,我們選擇 k-中心和譜分群。

4.1 k-中心 中心 中心 中心和 和 和 和影值 影值 影值 影值

k-中心是和 k-平均極為類似的分群演算法,差別在於 k-平均用群內成員的平 均做為群中心而 k-中心的群中心是群內的某一成員。事實上,我們選擇 k-中心做

分群的最大原因在於我們使用變數間的互信息當作分群的依據,變數沒有計算平

均所需的“座標”。k-中心演算法如下:

k-輸入:兩兩變數的互信息、群數 k

1. 隨機選擇 k 個變數做為群中心

2. 群中心以外的變數被分到和群中心互信息最大的那群 3. 產生新的群中心,與群內變數互信息總合最大者當之 4. 重複 2.和 3.直到群中心不再變動

輸出:分群結果

k-中心和 k-平均有相同的問題,由於初始群中心是隨機產生的,有可能會收斂

21

22 RatioCut A A

= A

23 軛轉置(conjugate transpose)

24

標,在這一維的空間中用 k-平均分群。我們省略 k=n (分成n群) 的推導,直接給 出演算法如下:

輸入:權重接鄰矩陣 W 、群數 k

1. 計算L= −D W

2. 計算對應 L 前k+1小特徵值的特徵向量u1,...,uk+1

3. 令U=

[

u2 L uk+1

]

,將 U 的第 i 列當成第 i 個節點的座標送入 k-平均分群 輸出:分群結果

譜分群其實是一種將資料轉換到另一個空間後再進行分群的方法,這麼做也

有降低維度的效果,因為我們分的群數 k 通常不會太大,在這不大的 k 維空間中

k-平均的計算量一定會比原本的空間中的小。譜分群輸入的接鄰矩陣為兩兩節點的

相似度,為了能讓分群更順利,通常要考慮區域的聯通性,也就是原本在圖上就

有一區一區的傾向。互信息網路即具有這樣的特性,因為消除了虛假相關 。

4.3 中心度和 中心度和 中心度和 中心度和變數 變數 變數 變數選取 選取 選取 選取

截至目前為止我們介紹了互信息、互信息網路以及 k-中心、譜分群兩種分群

方法,變數分群後剩下的工作就是選出群的代表。首先介紹中心度[10]這個概念,

中心度用來描述一個節點在網路 (圖) 中的重要程度,或是衡量一個節點在網路中

是否佔有一個核心的位置。舉例來說,捷運網路中轉運站的中心度應該就會比其

25

他站的中心度高。常見的中心度包括度中心度 (degree centrality)、近中心度

(closeness centrality) 、 介 中 心 度 (betweenness centrality) 和 特 徵 向 量 中 心 度 (eigenvector centrality)。

在一個邊無權重的網路中,度中心度就是一個節點的鄰居數,一個具有高度

26

4.4 研究方法總結 研究方法總結 研究方法總結 研究方法總結

以圖 4.1 總結我們的方法流程。首先由原始資料估計出兩兩變數間的互信息,

以互信息當作變數的相似度並根據相似度將變數分群。分群的方式有二:一是直

接用 k-中心分群;二是先推論出變數的互信息網路,接著用譜分群,以譜分群中

圖分割的觀點來分割互信息網路以達到變數分群的目的。兩種方式的差別在於互

信息網路提供一個可視覺化的變數關係網路圖,我們可以從圖上判讀出哪些變數

之間具有真正的直接關係。

變數選取接在變數分群後進行,若目的是簡化系統,則我們從每一群中選出

中心度最大的變數作為代表變數;若目的是解釋目標變數,則從每一群中選與目

標變數互信息最大的變數作為解釋變數。

27

圖 4.1 研究方法詳細流程圖

28

第五章 第五章 第五章

第五章 實驗 實驗 實驗 實驗

5.1 實驗 實驗 實驗 實驗簡介 簡介 簡介 簡介

實驗使用的資料取自 Statistica 的內建資料集。這包資料是真實晶圓自動化製

程中所得的原始數據,共有 31 個變數,其中一個為目標變數 Yield (良率),其餘

30 個皆為預測良率的變數。為方便起見,將 30 個變數重新命名為 var1、var2、…、

var30。總共有 154 個樣本數,剔除離群值後留下 151 個樣本。原資料中有少數幾 個缺值,以平均值填入。從 30 個變數中取 9 個變數加上良率畫成散布圖如圖 5.1 (最

右一行為良率),可發現這包資料的變數大都是非線性關係。

圖 5.1 晶圓資料散佈圖

29

5.2 變數分群結果 變數分群結果 變數分群結果 變數分群結果

變數分群目的在於探討一個系統中變數間的關聯性以及變數群聚的情形,要

評價此問題結果的優劣,最好的辦法就是跟專家知識做比較。但難處就在於我們

找不到這樣的專家。因此我們以因素負荷當作對照參考,試著去解釋之間的異同。

表 5.1 是經過最大變異旋轉後的因素負荷,標示出絕對值大於 0.7 的值 (粗體)。與

同一因素高相關的變數被視為同一群,第九個因素之後的因素負荷皆小於 0.7。即

使列出了八個因素仍有變數與這八個因素的相關係數均小於 0.7,如 var12、var13,

故 var12、var13 不屬於任何一群。

30

var 因素1 因素2 因素3 因素4 因素5 因素6 因素6 因素7

1 -0.751-0.751-0.751-0.751 0.294 -0.029 -0.025 0.089 -0.225 -0.185 -0.450 2 -0.781-0.781-0.781-0.781 0.270 -0.060 0.009 0.023 -0.241 -0.167 -0.421 3 -0.795-0.795-0.795-0.795 0.248 -0.033 0.040 0.027 -0.249 -0.118 -0.443 4 -0.811-0.811-0.811-0.811 0.292 0.026 0.058 0.078 -0.234 -0.033 -0.360 5 -0.831-0.831-0.831-0.831 0.275 0.013 -0.005 0.077 -0.190 -0.061 -0.325 6 -0.839-0.839-0.839-0.839 0.222 0.065 0.076 0.029 -0.239 -0.052 -0.348 7 -0.837-0.837-0.837-0.837 0.384 -0.041 0.020 0.068 -0.239 0.009 -0.236 8 -0.844-0.844-0.844-0.844 0.315 -0.012 0.084 0.039 -0.248 -0.083 -0.285 9 -0.850-0.850-0.850-0.850 0.251 -0.015 0.154 0.013 -0.256 -0.037 -0.274 10 -0.537 0.005 -0.113 0.115 0.066 -0.748-0.748-0.748-0.748 -0.144 -0.304 11 -0.493 0.064 -0.169 0.109 0.053 -0.770-0.770-0.770-0.770 -0.124 -0.312 12 -0.381 -0.063 0.226 0.154 0.057 -0.523 -0.104 -0.611 13 -0.386 -0.045 0.142 0.198 0.094 -0.489 -0.174 -0.602 14 -0.838-0.838-0.838-0.838 0.363 -0.008 0.061 0.050 -0.262 -0.058 -0.268 15 -0.858-0.858-0.858-0.858 0.299 -0.008 0.130 0.025 -0.250 -0.035 -0.253 16 -0.820-0.820-0.820-0.820 0.405 -0.019 0.013 0.046 -0.227 -0.058 -0.276 17 -0.824-0.824-0.824-0.824 0.391 -0.022 0.009 0.059 -0.228 -0.064 -0.286 18 -0.043 0.091 -0.932-0.932-0.932-0.932 0.110 0.041 -0.180 -0.038 0.271 19 0.424 0.041 -0.085 -0.114 -0.033 0.195 0.020 0.8640.8640.8640.864 20 0.402 0.036 -0.093 -0.128 -0.056 0.175 0.013 0.8700.8700.8700.870 21 0.501 0.010 -0.102 -0.124 -0.014 0.214 0.067 0.7950.7950.7950.795 22 0.442 0.104 -0.120 -0.013 -0.040 0.100 0.218 0.8260.8260.8260.826 23 0.096 -0.071 0.035 -0.084 -0.982-0.982-0.982-0.982 0.083 0.041 0.072 24 0.384 -0.899-0.899-0.899-0.899 0.012 -0.113 -0.033 0.134 0.040 0.050 25 0.316 -0.930-0.930-0.930-0.930 0.074 -0.020 -0.034 -0.022 -0.074 -0.106 26 0.329 -0.937-0.937-0.937-0.937 0.043 -0.051 -0.020 -0.007 -0.024 -0.052 27 0.332 -0.937-0.937-0.937-0.937 0.008 -0.019 -0.032 -0.016 -0.037 -0.054 28 -0.077 0.155 -0.113 0.9210.9210.9210.921 0.100 -0.130 -0.182 -0.221 29 0.206 0.142 0.059 -0.308 -0.071 0.373 0.7970.7970.7970.797 0.243 30 -0.498 0.083 -0.170 0.026 0.071 -0.803-0.803-0.803-0.803 -0.162 -0.178

表 5.1 因素分析的結果

31

32

圖 5.3 k-中心、ARACNE 和 MRNET 在不同分群數下的影值和

由圖 5.2 我們可看出三者一致地當分群數大於六之後,負的影值便快速增加,

由此判斷分六群會是一個不錯的選擇。圖 5.3 為全部的影值和,注意 k-中心縱軸

的刻度與其他兩張圖不同,原因是未經處理的互信息中存在許多虛假相關,這會

使得影值計算中的 ( )b i 項 ((4.1)式) 變大,結果就是整體的影值變小。ARACNE 和

MRNET 為消除虛假相關後的互信息網路,影值和比 k-中心大了不少。k-中心和 MRNET 在圖 5.2、圖 5.3 中的表現是一致的,最佳分群數在五、六左右。ARACNE 則沒有這個現象,在圖 5.2 中的最佳分群數是六,但在圖 5.3 中分兩群就達到峰

值了。MRNET 在圖 5.3 中的曲線也不像 k-中心那麼明顯,分群數二到六之間影值

和的差異不大。或許這就是互信息網路的特性,刪除掉一些虛假相關的邊使得利

用影值來找尋最佳分群數目時沒有明顯的結果。但在另一方面,簡潔的互信息網

路可用於變數關係的視覺化,使我們清楚知道哪些變數有真正的直接關係,如圖

5.4。圖 5.4 為 ARACNE 互信息網路分五群的結果,同顏色代表同一群,邊上的權 重為互信息。

33

圖 5.4 ARACNE 互信息網路分五群

34

var 因素分析 k-中心 ARACNE MRNET 1

k-中心、ARACNE 和 MRNET 這三者的分群非常類似但與因素負荷的結果略有不

* 因素分析中 var12、var13 空白表示沒被分群。

35

同,我們簡單討論不同處如下:

var12、var13 :

從散佈圖 (圖 5.6) 上來看,var12 與 var13 大致上呈線性關係,不論互信息或相關

系數, var12 和 var13 都表現地非常一致,且和對方的互信息與相關系數都相對高

(圖 5.7),因此姑且不管其他變數, var12、var13 應該要被分在一群。

圖 5.6 var12 和 var13 的散佈圖

36

圖 5.7 變數間的相關系數 (絕對值) (左) 和互信息 (右)*

var28 var10、var11、var30:

var10、var11 是兩個與其他變數都不太相關的變數,除了和彼此的互信息相對大 外,和 var30 的互信息也相對大,圖 5.8 中 var10、var11 和 var30 的關係大致為線

性,故它們三者應為同一群。var28 和其他變數的相關係數都很低,幾乎都在 0.2

到 0.4 之間 (絕對值),互信息最高的三個就是和 var10、var11、var30,分別為 0.85、

0.88、0.81,其餘幾乎都在 0.7 以下。var28 和 var10、var11、var30 也的確不是線 性關係,但若將 var28 和 var10、var11、var30 的散佈圖分別用二次曲線去近似 (圖

5.9),可發現他們都呈一種類似的二次關係,故將 var10、var11、var28、var30 分 在同一群。

* x 軸與 y 軸同樣為 30 個變數,顏色從白到黑代表值從小到大。

37

圖 5.8 var10、var11、var28 與 var30 的散佈圖

38

圖 5.9 var28 與 var10、var11、var30 的二次回歸

39

40

S 為代表變數的集合,S 是 S 以外的其他變數集合,| |⋅ 表示集合的元素個數, ( )H ⋅ 和H( | )⋅ ⋅ 分別為熵和條件熵。表 5.2 的任何一組代表變數都可以代進(4.15)式計算 出一個分數,此分數望大,表示其他變數可被此組代表變數解釋且代表變數之間

的相關性不大。(4.15)式的第一項的意義為群內相關 (intra-dependence),是一個熵

的比例,分母為 S 內某一個變數v 的熵,分子為已知j v 後i v 的熵,j v 為某一個代i

表變數。此比例越小表示在v 為已知的情況下,i v 的混亂度下降很多,意即j v 可以i

解釋v 。取最小值的意義在於只要 S 中的某一個j v 可以解釋i v 即可,實際實驗時j

我們發現使v 的混亂度下降最多的j v 通常就是i v 所屬那群的代表,故稱“群內”j

相關。第二項亦是一個熵的比例,表示群間相關 (inter-dependence),不同的是v 和i

v 均屬於 S ,此比例越大表示k v 和i v 越無法互相解釋,k v 和i v 越獨立。我們希望k 其他變數都能夠被代表變數解釋且代表變數之間盡量獨立,因此第一項望小,第

二項望大,第一項加上負號故相加後的分數是望大。

三個代表變數 五個代表變數 七個代表變數

因素分析 -2.04 -1.30 1.21

k-中心 -2.68 1.83 3.12

ARACNE -1.76 0.71 2.00

MRNET -2.80 1.26 2.15

表 5.3 簡化系統變數選取的驗證結果

表 5.3 是利用(4.15)式所得到的分數,選取三個代表變數時 ARACNE 的得分

最高,五個、七個代表變數時則是 k-中心的得分最高,顯示我們選出的代表變數

相關文件