第四章、 實證分析
第三節、 收斂問題
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第三節、 收斂問題
我們在第三章的模擬研究中曾經介紹有關隨機森林的分類誤差率之收斂問 題,我們發現該誤差率的收斂與基因的平均差異表現量息息相關。在本節中則將 利用實際資料來進一步探究其他可能影響收斂狀況之因素。首先,我們先驗證有 關隨機森林樹的棵數量的影響。在本研究的每個實例中隨機挑選部分基因組資料,
嘗詴不同的樹棵數量,來判斷其隨機森林中分類誤差率的收斂狀況。圖 4.1 分別 為這些基因組的分類誤差率變動圖,其中橫軸為隨機森林樹的棵數,範圍由 1 至 50000 棵。圖 4.1 之(i)為 Breast 資料中某組特定基因組的收斂狀況圖,我們發 現當樹的數量到 50000 棵時,尚有一些波動而未達到收斂。圖 4.1 之(ii)為 Breast 資料中另外一組特定基因組的收斂狀況圖,發現當樹的數量到 50000 棵時,幾乎 已經達到收斂狀態。圖 4.1 之(iii)為 Gender 資料中某組特定基因組的收斂狀況圖,
其中當樹的數量為 50000 棵時,已經收斂;而圖 4.1 之(iv)為 Gender 資料中另外 一組特定基因組的收斂狀況圖,我們發現圖中仍存上下劇烈波動,故未達到收斂。
因此,我們結論當樹的數量到 50000 棵時,某些特定基因組的分類誤差率並未必 已達到收斂。
在上述的例子中,部分基因組的分類誤差率在樹的數量達到 50000 棵樹時,
仍未能達到收斂,除了基因組的差異表現外,我們猜測可能是基因組中基因數量 大小所造成的問題,基因組越大則其結構當更為複雜,因此可能影響其收斂情形。
故接下來我們探討隨機森林中分類誤差率的收斂狀況與基因數量大小的關係。圖 4.2 為 Breast 資料中四個基因組的分類誤差率變動圖,此四個集合的基因個數由 小至大,分別為 10、24、68、94。但由圖中發現其收斂的情況與基因數並無平 行的變動。也就是並不是基因數多,則收斂情況便一定差。類似的情況也可以在 圖 4.3 發現。圖 4.3 為 Gender 資料中的四個基因組的分類誤差率變動圖,圖 4.3 之(i)和(ii)為 Gender 資料中特定基因組的基因數量大小為小時的收斂狀況圖,其
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
中發現除了圖 4.3(iii)之基因組(基因個數為 111)外,此基因組在樹數量為 100 時 其分類誤差率便已收斂。其他三個基因組,基因數量各為 11、33 或 434 個,無 論基因組是小或大,給定樹的數量為 50000 以內,皆仍未達到收斂。因此可知,
基因組的基因數量大小並非影響分類誤差率收斂的關鍵因素。
接著我們總結本論文的收斂問題,由我們的分析結果可以知道基因組中基因 的數量大小並非影響分類誤差率收斂因素,且當樹的數量到達 50000 棵樹時,某 些特定基因組的分類誤差率也未必達到收斂。另外在多個例子中,其誤差率波動 的 程 度 多 在 有 限 範 圍 內 , 例 如 Breast 資 料 中 的 BC-Regulation of BAD phosphorylation 基因組,當樹的數量越多時,會達到分類誤差收斂值為 0.0816(即 資料中有四個受詴者被錯誤預測),而由圖 4.1(i)可發現其錯誤率在 0.0612 到 0.1020 之間波動,相當於多或少錯誤預測一個受詴者,故其波動程度並不嚴重。
在此研究中,我們會選擇樹的數量為 50000 棵的原因是參考 Pang 等人(2006) 的 文章。若提高樹的數量時,預期會有更準確的結果,但在計算方面上會更加的費 時,特別是在後續排列顯著值的計算上更是曠日廢時。故由於時間上的限制,我 們決定在實證分析中,仍採用 Pang 等人(2006)的設定。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(i) (ii)
(iii) (iv) 圖 4.1 特定基因組的收斂狀況圖
(i)、Breast 資料,基因數量為 24 個。(ii)、Breast 資料,基因數量為 94 個。
(iii)、Gender 資料,基因數量為 111 個。(iv)、Gender 資料,基因數量為 434 個。
0 10000 30000 50000
0.00.10.20.30.40.5
Regulation of BAD phosphorylation
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
Tryptophan metabolism
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
TESTIS_GENES_FROM_XHX_AND_NETAFFX
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
RAP_DOWN
tree
value
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(i) (ii)
(iii) (iv)
圖 4.2 Breast 資料中四個基因組的分類誤差率變動圖 (i)、基因數量為 10 個。(ii)、基因數量為 24 個。
(iii)、基因數量為 68 個。(iv)、基因數量為 94 個。
0 10000 30000 50000
0.00.10.20.30.40.5
Estrogen-response
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
Regulation of BAD phosphorylation
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
Glycolysis-Gluconeogenesis
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
Tryptophan metabolism
tree
value
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(i) (ii)
(iii) (iv)
圖 4.3 Gender 資料中四個基因組的分類誤差率變動圖 (i)、基因數量為 11 個。(ii)、基因數量為 33 個。
(iii)、基因數量為 111 個。(iv)、基因數量為 434 個。
0 10000 30000 50000
0.00.10.20.30.40.5
pepiPathway
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
MAP00970_Aminoacyl_tRNA_biosynthesis
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
TESTIS_GENES_FROM_XHX_AND_NETAFFX
tree
value
0 10000 30000 50000
0.00.10.20.30.40.5
RAP_DOWN
tree
value