第二章、 資料介紹與顯著性假設檢定
第三節、 顯著性檢定方法
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5. 計算測詴組資料的分類誤差率。此處分類誤差率的定義為
預測與實際結果有差異的樣本個數
總樣本數 。
我們透過圖 2.1 的範例來說明隨機森林分類方法的步驟,其中資料為二元分 類表型資料,假設有 3 個受詴者(S1,S2,S3),其分類表型為(–,+,+),考慮建立 T=4 棵樹的隨機森林。在建立每棵決策樹時,先利用拔靴法抽出該棵樹之訓練組樣本 以及測詴組樣本(OOB),再以訓練組資料建造出的決策樹對 OOB 樣本作預測。
其中在第三次拔靴抽樣時,由於所有樣本全被抽出故無 OOB 資料,之後便不列 入考慮。最後每個樣本便依據其在建造森林的過程中的預測而得最後分類結果,
例如 S3為第一與第二次拔靴抽樣中的 OOB 樣本,而這兩棵決策樹對該樣本的預 測皆為+,所以 S3的預測結果為+,與真實分類相同,無分類誤差。另一方面,
S2則為第二棵決策樹的 OOB 樣本,而其最終預測結果為–,與真實分類不同,
則發生分類誤差狀況。而此範例之最後的分類誤差率為 1/3。接著圖 2.2 的範例 為說明資料為多元表型資料(此為三分類)的隨機森林分類方法的步驟,其中假設 有 5 個受詴者(S1,S2,S3,S4,S5),其分類表型為(–,+,+,∆,∆),考慮建立 T=4 棵樹的隨 機森林。在建立每棵決策樹時,先利用拔靴法抽出該棵樹之訓練組樣本以及測詴 組樣本(OOB),再以訓練組資料建造出的決策樹對 OOB 樣本作預測。最後每個 樣本便依據其在建造森林的過程中的預測而得最後分類結果,例如 S2為第二、
第三次與第四次拔靴抽樣中的 OOB 樣本,而這三棵決策樹對該樣本的預測為
∆、–、–,所以 S3的預測結果為∆,與真實分類不相同,有分類誤差。另一方面,
S4則為第一棵和第三棵決策樹的 OOB 樣本,而這二棵決策樹對該樣本的預測皆 為–,與真實分類不同,則發生分類誤差狀況。而此範例之最後的分類誤差率為 2/5。
第三節、 顯著性檢定方法
在此節中,我們將分別針對兩種基因組顯著性檢定,介紹其完整檢定步驟和
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
排列顯著值的計算。首先自足型檢定在虛無假設下分配為在各分類組中之樣本,
此基因組有相同分配,故其排列重抽法便先合併所有各分類組的樣本,再將樣本 中之分類表型(y)重新排列。另一方面,競爭型檢定在虛無假設下分配為此特定 基因組與分類表型的相關程度,與任意有相同基因數量的基因組組合相同,而排 列顯著值為將原始資料之基因表現量(X)重新排列(指對基因表現量的標籤重新 排列)後計算獲得。以下為自足型和競爭型檢定的排列顯著值的詳細計算步驟:
(一)、自足型檢定
1. 利用特定基因組之原始資料建立隨機森林,得到測詴組分類誤差率 (e0)。
2. 合併原始資料中各組樣本,並將分類表型做隨機排列,針對排列資料建
立隨機森林,得到測詴組分類誤差率(ei)。
3. 重複步驟 2 共 K 次。
4. 則排列顯著值為 P-value = 。
5. 當 P-value 小於等於顯著水準 α,拒絕虛無假設,表示特定基因組的基 因有顯著表現。
以上自足型檢定的步驟我們可以用圖例 2.3 來表示,其中 代表為特定基 因組中有 n 個受詴者和 m 個基因,分類表型 為 , 代表為 之第 i 次的排列結果。
(二)、競爭型檢定
1. 針對原始資料中的特定基因組建立隨機森林,得到測詴組分類誤差率 (e0)。
2. 從原始資料中,隨機抽取 m 個基因,針對此組基因之資料建立隨機森 林,得到測詴組分類誤差率(ei)。
3. 重複步驟 2 共 K 次。
4. 則排列顯著值為 P-value = 。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5. 當 P-value 小於等於顯著水準 α,拒絕虛無假設,表示特定基因組的基 因有顯著表現。
以上競爭型檢定的步驟我們可以用圖 2.4 來表示,其中 代表為原始資料 中有 n 個受詴者和 M 個基因,假設此 M 個基因中的前 m 個基因為有興趣的特定 基因組,則令 代表為該特定基因組 n 個受詴者、m 個基因的資料,其分類 表型 為 。若 W 為代表原始資料中基因表現量的標籤, 代表為 對基因表現量的標籤做第 i 次排列組合後,取前 m 個基因的集合。
若比較兩種基因組顯著性檢定的排列顯著值計算,自足型檢定的排列顯著值 以受詴者作為抽樣單位,其前提假設為在虛無假設下,所有受詴者之基因表現量 為獨立且來自同分配的隨機變數;競爭型檢定的排列顯著值以基因作為抽樣單位,
其前提假設為在虛無假設下,所有基因表現量為獨立且來自同一個分配的隨機變 數,實際上基因之間多存在相關性,故此方法較具爭議性。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2.1、隨機森林分類方法的流程圖(二分類) , ,
訓練組:
測詴組:
訓練組:
測詴組:
訓練組:
測詴組:
訓練組:
測詴組:
T
1T
2T
3T
4受詴者
樹的預測分類
T
1T
2T
3T
4S
1X X X - - ○
S
2X - X - - X
S
3+ + X X + ○
ˆy ˆy
y
y vs
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2.2、隨機森林分類方法的流程圖(三分類) , , , ,
訓練組:
測詴組:
訓練組:
測詴組:
訓練組:
測詴組:
訓練組:
測詴組:
T
1T
2T
3T
4
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2.3、自足型檢定的排列分布
圖 2.4、競爭型檢定的排列分布
原始資料(M 個基因)
K 次
…
…
抽 m 個基因 抽 m 個基因
特定基因組 (m 個基因)
特定基因組
K 次
…
…
註: 。
, :a permutation of 。
註: , 。 , 。