• 沒有找到結果。

離散資料的變數分群與選取結果

如第一章中所述,使用互信息的優點就是可以處理離散資料,在此情況下我

們依然可以完成互信息的計算、變數分群和變數選取。為簡單起見,我們使用同

一包資料,先對每個變數作離散化處理:將每個變數的數值用 k-平均分成高、中、

低三類,之後變數在取樣中的值就只以高、中、低這三個類別表示。當然,經過

此一轉換後互信息、變數分群和變數選取的結果必定會和原本的不同。

46

圖 5.10 連續資料(a)和離散資料(b)的互信息

圖 5.10 是互信息的比較,(a)是用原本連續資料計算出的互信息,(b)是用經過

上述轉換後的離散資料計算出的互信息。可發現(b)中的互信息整體下降,更重要

的是有些變數間的關係結構也被破壞掉了,圖上來看最明顯的就是 var14、var15、

var16、var17 這四個變數,原本四個變數之間非常相關 (互信息很大),離散化後 他們之間的關係不復存在。var14、var15、var16、var17 與 var8、var9 的情形也是

如此。以 var17 和 var8 為例,圖 5.11 是 var17 與 var8 的散佈圖,可看出這兩個變

數呈線性正相關,相關系數高達 0.979,互信息 1.437 也算大。圖上的分隔線是用

k-平均離散化後類別之間的分界線,共分成九個小區域,圖 5.12 為對應每個小區 域內的取樣個數統計,可以將圖 5.12 當成是資料離散化後 var17 與 var8 的散布圖,

已經看不出他們之間的線性關係了,大約五分之四的取樣都擠在左下的區域。離

散化後的互信息降為 0.401。

47

圖 5.11 var17 與 var8 的散佈圖

圖 5.12 對應圖 5.11 的取樣個數統計圖

上面的例子在探討資料離散化後變數之間關係的失真情形,有可能我們一開

始得到的資料就是離散的,也就沒有所謂失不失真的問題。我們所要強調的是,

即便資料是離散的,我們的方法依然可以進行,變數選取結果如表 5.7 和表 5.8。

48

ARACNE 12 21 30 MRNET 18 21 30

49

50

選取法較具優勢。互信息網路搭配譜分群 (ARACNE、MRNET) 所選出的變數

雖然比不上 k-中心和逐步選取法,但可應用於已知的變數關係網路。

4. 離散資料我們的方法依然可以運行,將同一包資料離散化後來實驗,因離散化 後計算出的互信息會有失真,所以變數分群和選取的結果也和資料連續時不

同。

本論文的改進能從以下幾點著手:

1. 實驗中我們是採變數分幾群就選幾個變數的模式 (每群只選出一個代表變數或 解釋變數),事實上不一定要如此,可能考量成本後希望選取較多的變數以掌握

較完整的資訊。但變數並不一定適合分那麼多群,此時便可用前述的方法找出

最佳的分群數,再從每一群中選出一個以上的變數以滿足需求。

2. 互信息網路搭配譜分群的最佳分群數指標不像 k-中心那麼清楚,且選出來的變 數無論是簡化系統或解釋良率都比不上 k-中心。選取變數的方式都一樣,所以

問題可能出在變數分群,或許可以嘗試其他的圖分割方法,如凱尼漢-林演算法

(Kernighan-Lin algorithm)。

3. 本論文提出的方法建立在互信息之上,資料取樣的多寡、不同的估計方法、參 數所計算出的互信息會有差異,互信息的變異對變數分群、變數選取的影響以

及影響的程度也是一個值得探討的問題。

51

附錄 附錄 附錄 附錄

(linear discriminant analysis, LDA)

LDA 為一種監督式的分類方法,對於一筆待分類的取樣xRp,我們將它分到c

probability)。我們假設每類中的資料均呈多維高斯分佈 (multivariate normal distribution) 且每類的共變異矩陣 (covariance) Σ 均相同

(linear regression)

統計上,迴歸分析是利用一組解釋變數 ( , i=1,xi K,p) 來預測目標變數 ( y ) 的方 法。線性迴歸令 y 的估計值 y)

為解釋變數的線性組合

52

53

歸時,y 的估計值為 k 個最近鄰居的平均。

(learning vector quantization, LVQ)

LVQ 是一種基於原型的 (prototype-based)監督式分類演算法,步驟如下

1. 訓練資料中每個類別都任意取出數個取樣當作該類別的原型 (prototype)。

RBF 可視為一種函數近似 (function approximation) 的方法,寫成以下形式

1

54

(neural network)[12]

類神經網路為模仿生物神經網路的資訊處理系統,有許多優點例如具有學習能

55

1 1 2 2

( )

n n

n w x w x w x b Output f n

= + + + +

=

K

(7.14)

1, , n

x K x 為輸入,來自外界環境或其他神經元。w1,K,wn為權重,代表前一層或外 界輸入對該神經元的相對強度,權重在類神經網路中相當重要,因為網路的學習

即是透過不斷地調整權重以減少誤差,使誤差收斂。 b 是某一設定的偏差 (bias)。

f 是轉移函數 (transfer function),常用的如雙彎曲函數 (sigmoid function),可產生

0 到 1 之間的輸出

( ) 1

1 n

f n = e

+ (7.15)

56

上圖為類神經網路的基本架構,其中隱藏層 (hidden layer) 的數目不一定只有

一層,端看問題複雜度而定,類神經網路的訓練學習常使用誤差倒傳 (error

back-propagation) 的方法來調整權重,訓練過程可分為兩部分

1. 向前傳遞 (forward propagation):計算每個神經元的輸出,即輸入訊號向前往 各層傳遞,最後在輸出層得到輸出,對於每個輸出神經元,其實際輸出值與

期望輸出值作比較,而產生一誤差函數。

2. 向後傳遞 (back propagation):使用梯度下降法 (gradient descent) 來找尋誤差 函數的局部最小值 (local minimum)。由後往前調整各神經元的權重,權重的

變化量為誤差函數對該神經元權重之偏微分乘上一學習速率,意即將誤差值

往各層後傳,以縮小輸出值與實際輸出值之誤差,而使誤差函數到達局部最

小值。

57

以上稱為一個學習循環 (learning cycle),一個網路架構可以將訓練資料反覆數個學

習循環,直到網路收斂為止,但不宜訓練太久,以免過度符合訓練資料的特性,

導致測試資料輸入時無法正確推論。

(classification and regression tree, CART)

分類迴歸樹是一種二元的資料分割方法,最後會歸納出一套“if-then”的規則,結

果以二元樹 (binary tree) 呈現。遞迴的分割方式是從樹根 (root) 開始,在樹的每

一個節點 (node) 都將資料分為兩個無交集的子集合。任意一個節點m都可依不同

的指標訂出不純度 (impurity) ( )Q m ,不同的指標如下 分類錯誤率 (misclassification error):

1−p)k

58

度 (minimum cost complexity)

1

59

[2] H. Abdi, "Factor Rotations in Factor Analyses," Encyclopedia for Research Methods for the Social Sciences. Sage: Thousand Oaks, CA, pp. 792-795, 2003.

[3] P. E. Meyer, et al., "minet: A r/bioconductor package for inferring large

transcriptional networks using mutual information," BMC bioinformatics, vol. 9, p. 461, 2008.

[4] W. Zhao, et al., "Inferring Connectivity of GeneticRegulatory Networks Using Information-Theoretic Criteria," IEEE/ACM Transactions on Computational Biology and Bioinformatics, pp. 262-274, 2007.

[5] C. Hsun-Hsien and R. Marco, "Transcriptional Network Cassifiers," BMC bioinformatics, vol. 10.

[6] A. Margolin, et al., "ARACNE: An Algorithm for the Reconstruction of Gene Regulatory Networks in a Mammalian Cellular Context," BMC bioinformatics, vol. 7, p. S7, 2006.

[7] P. E. Meyer, et al., "Information-Theoretic Inference of Large Transcriptional Regulatory Networks," EURASIP Journal on Bioinformatics and Systems Biology, vol. 2007, pp. 8-8, 2007.

[8] U. Von Luxburg, "A Tutorial on Spectral Clustering," Statistics and Computing, vol. 17, pp. 395-416, 2007.

[9] L. Hagen and A. B. Kahng, "New Spectral Methods for Ratio Cut Partitioning

60

and Clustering," Computer-Aided Design of Integrated Circuits and Systems, IEEE Transactions on, vol. 11, pp. 1074-1085, 1992.

[10] L. C. Freeman, "Centrality in Social Networks Conceptual Clarification," Social networks, vol. 1, pp. 215-239, 1979.

[11] 施昱安, "給定資料不同損失涵式的提升演算法," 碩士論文, 電機與控制工 程學系, 國立交通大學, 民國九十二年.

[12] 羅華強, 類神經網路-MATLAB的應用: 清蔚科技, 2001.

相關文件