離散資料的變數分群與選取結果

如第一章中所述，使用互信息的優點就是可以處理離散資料，在此情況下我

們依然可以完成互信息的計算、變數分群和變數選取。為簡單起見，我們使用同

一包資料，先對每個變數作離散化處理：將每個變數的數值用 k-平均分成高、中、

低三類，之後變數在取樣中的值就只以高、中、低這三個類別表示。當然，經過

此一轉換後互信息、變數分群和變數選取的結果必定會和原本的不同。

圖 5.10 連續資料(a)和離散資料(b)的互信息

圖 5.10 是互信息的比較，(a)是用原本連續資料計算出的互信息，(b)是用經過

上述轉換後的離散資料計算出的互信息。可發現(b)中的互信息整體下降，更重要

的是有些變數間的關係結構也被破壞掉了，圖上來看最明顯的就是 var14、var15、

var16、var17 這四個變數，原本四個變數之間非常相關 (互信息很大)，離散化後他們之間的關係不復存在。var14、var15、var16、var17 與 var8、var9 的情形也是

如此。以 var17 和 var8 為例，圖 5.11 是 var17 與 var8 的散佈圖，可看出這兩個變

數呈線性正相關，相關系數高達 0.979，互信息 1.437 也算大。圖上的分隔線是用

k-平均離散化後類別之間的分界線，共分成九個小區域，圖 5.12 為對應每個小區域內的取樣個數統計，可以將圖 5.12 當成是資料離散化後 var17 與 var8 的散布圖，

已經看不出他們之間的線性關係了，大約五分之四的取樣都擠在左下的區域。離

散化後的互信息降為 0.401。

圖 5.11 var17 與 var8 的散佈圖

圖 5.12 對應圖 5.11 的取樣個數統計圖

上面的例子在探討資料離散化後變數之間關係的失真情形，有可能我們一開

始得到的資料就是離散的，也就沒有所謂失不失真的問題。我們所要強調的是，

即便資料是離散的，我們的方法依然可以進行，變數選取結果如表 5.7 和表 5.8。

ARACNE 12 21 30 MRNET 18 21 30

選取法較具優勢。互信息網路搭配譜分群 (ARACNE、MRNET) 所選出的變數

雖然比不上 k-中心和逐步選取法，但可應用於已知的變數關係網路。

4. 離散資料我們的方法依然可以運行，將同一包資料離散化後來實驗，因離散化後計算出的互信息會有失真，所以變數分群和選取的結果也和資料連續時不

同。

本論文的改進能從以下幾點著手：

1. 實驗中我們是採變數分幾群就選幾個變數的模式 (每群只選出一個代表變數或解釋變數)，事實上不一定要如此，可能考量成本後希望選取較多的變數以掌握

較完整的資訊。但變數並不一定適合分那麼多群，此時便可用前述的方法找出

最佳的分群數，再從每一群中選出一個以上的變數以滿足需求。

2. 互信息網路搭配譜分群的最佳分群數指標不像 k-中心那麼清楚，且選出來的變數無論是簡化系統或解釋良率都比不上 k-中心。選取變數的方式都一樣，所以

問題可能出在變數分群，或許可以嘗試其他的圖分割方法，如凱尼漢-林演算法

(Kernighan-Lin algorithm)。

3. 本論文提出的方法建立在互信息之上，資料取樣的多寡、不同的估計方法、參數所計算出的互信息會有差異，互信息的變異對變數分群、變數選取的影響以

及影響的程度也是一個值得探討的問題。

附錄附錄附錄附錄

(linear discriminant analysis, LDA)

LDA 為一種監督式的分類方法，對於一筆待分類的取樣x∈R^p，我們將它分到c類

probability)。我們假設每類中的資料均呈多維高斯分佈 (multivariate normal distribution) 且每類的共變異矩陣 (covariance) Σ 均相同

(linear regression)

統計上，迴歸分析是利用一組解釋變數 ( , i=1,x_i K,p) 來預測目標變數 ( y ) 的方 法。線性迴歸令 y 的估計值 y)

為解釋變數的線性組合

歸時，y 的估計值為 k 個最近鄰居的平均。

(learning vector quantization, LVQ)

LVQ 是一種基於原型的 (prototype-based)監督式分類演算法，步驟如下

1. 訓練資料中每個類別都任意取出數個取樣當作該類別的原型 (prototype)。

RBF 可視為一種函數近似 (function approximation) 的方法，寫成以下形式

(neural network)[12]

類神經網路為模仿生物神經網路的資訊處理系統，有許多優點例如具有學習能

1 1 2 2

( )

n n

n w x w x w x b Output f n

= + + + +

(7.14)

1, , _n

x K x 為輸入，來自外界環境或其他神經元。w₁,K,w_n為權重，代表前一層或外界輸入對該神經元的相對強度，權重在類神經網路中相當重要，因為網路的學習

即是透過不斷地調整權重以減少誤差，使誤差收斂。 b 是某一設定的偏差 (bias)。

f 是轉移函數 (transfer function)，常用的如雙彎曲函數 (sigmoid function)，可產生

0 到 1 之間的輸出

( ) 1

1 ⁿ

f n = e⁻

+ (7.15)

上圖為類神經網路的基本架構，其中隱藏層 (hidden layer) 的數目不一定只有

一層，端看問題複雜度而定，類神經網路的訓練學習常使用誤差倒傳 (error

back-propagation) 的方法來調整權重，訓練過程可分為兩部分

1. 向前傳遞 (forward propagation)：計算每個神經元的輸出，即輸入訊號向前往各層傳遞，最後在輸出層得到輸出，對於每個輸出神經元，其實際輸出值與

期望輸出值作比較，而產生一誤差函數。

2. 向後傳遞 (back propagation)：使用梯度下降法 (gradient descent) 來找尋誤差函數的局部最小值 (local minimum)。由後往前調整各神經元的權重，權重的

變化量為誤差函數對該神經元權重之偏微分乘上一學習速率，意即將誤差值

往各層後傳，以縮小輸出值與實際輸出值之誤差，而使誤差函數到達局部最

小值。

以上稱為一個學習循環 (learning cycle)，一個網路架構可以將訓練資料反覆數個學

習循環，直到網路收斂為止，但不宜訓練太久，以免過度符合訓練資料的特性，

導致測試資料輸入時無法正確推論。

(classification and regression tree, CART)

分類迴歸樹是一種二元的資料分割方法，最後會歸納出一套“if-then”的規則，結

果以二元樹 (binary tree) 呈現。遞迴的分割方式是從樹根 (root) 開始，在樹的每

一個節點 (node) 都將資料分為兩個無交集的子集合。任意一個節點m都可依不同

的指標訂出不純度 (impurity) ( )Q m ，不同的指標如下 分類錯誤率 (misclassification error)：

1−p)_k

度 (minimum cost complexity)

[2] H. Abdi, "Factor Rotations in Factor Analyses," Encyclopedia for Research Methods for the Social Sciences. Sage: Thousand Oaks, CA, pp. 792-795, 2003.

[3] P. E. Meyer, et al., "minet: A r/bioconductor package for inferring large

transcriptional networks using mutual information," BMC bioinformatics, vol. 9, p. 461, 2008.

[4] W. Zhao, et al., "Inferring Connectivity of GeneticRegulatory Networks Using Information-Theoretic Criteria," IEEE/ACM Transactions on Computational Biology and Bioinformatics, pp. 262-274, 2007.

[5] C. Hsun-Hsien and R. Marco, "Transcriptional Network Cassifiers," BMC bioinformatics, vol. 10.

[6] A. Margolin, et al., "ARACNE: An Algorithm for the Reconstruction of Gene Regulatory Networks in a Mammalian Cellular Context," BMC bioinformatics, vol. 7, p. S7, 2006.

[7] P. E. Meyer, et al., "Information-Theoretic Inference of Large Transcriptional Regulatory Networks," EURASIP Journal on Bioinformatics and Systems Biology, vol. 2007, pp. 8-8, 2007.

[8] U. Von Luxburg, "A Tutorial on Spectral Clustering," Statistics and Computing, vol. 17, pp. 395-416, 2007.

[9] L. Hagen and A. B. Kahng, "New Spectral Methods for Ratio Cut Partitioning

and Clustering," Computer-Aided Design of Integrated Circuits and Systems, IEEE Transactions on, vol. 11, pp. 1074-1085, 1992.

[10] L. C. Freeman, "Centrality in Social Networks Conceptual Clarification," Social networks, vol. 1, pp. 215-239, 1979.

[11] 施昱安, "給定資料不同損失涵式的提升演算法," 碩士論文, 電機與控制工程學系, 國立交通大學, 民國九十二年.

[12] 羅華強, 類神經網路-MATLAB的應用: 清蔚科技, 2001.

在文檔中基於互信息的變數分群和變數選取 (頁 55-70)

附錄 附錄 附錄 附錄

附錄附錄附錄附錄