• 沒有找到結果。

第四章 模擬資料分析

4.1 模擬設計與流程

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

第四章 模擬資料分析

本章想透過模擬變數資料,了解「貪婪的步驟」下向前逐步迴歸方法經 Bootstrap 改良後的提升成效,故除了與 Lasso 顯著性檢定比較外,也會與其他傳 統變數選取方法一同比較。而由於不同的變數模擬設定方式勢必會影響比較結果,

因此本章先說明模擬設計的架構與條件;接下來再對模擬的結果解釋,比較不同 方法的變數選取效果。

4.1 模擬設計與流程

主要概念是已知真實參數值且控制在相同變數下,比較不同變數選取方法從 10 個候選自變數中分別選出哪些自變數,來了解不同變數選取方法是否有「猜 到」真正有影響力的變數。由於不同方法選取變數的表現可能會因為參數設定的 不同而有所差異(Tibshirani,1996),因此本研究將參數設定分成三種情況:

參數設定一:β=[4, 4, 0, 0, 0, 0, 0, 0, 0, 0]T 參數設定二:β=[4, 4, 2, 2, 2, 0, 0, 0, 0, 0]T

參數設定三:β=[1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 1.5, 0, 0]T

三種參數設定分別具有不同意義:參數設定一為所有候選變數中只有少部分 變數跟應變數有關;參數設定二為候選變數中有一半跟應變數有關,但程度最大 的只有少數;參數設定三為候選變數中大部分皆跟應變數有關,但每個程度都不 大。

而由於自變數間的相關性程度會影響參數挑選的情況,故除了三種參數設定 外,也分成高相關與低相關兩種情況分別探討:自變數間共變異數設定為 0.1 是 低相關,為 0.5 則為高相關(葉世弘,2009)。因此依據參數設定與相關性設定,

設定對應變數資料變異的影響程度,我設定在信噪比(signal-to-noise ratio)為 5.7 下生成應變數資料(Tibshirani,1996)。而由於 Lasso 顯著性檢定法下的模型 不包含截距項,最後還要將自變數與應變數資料進行中心化,即對每一筆變數資 料減去該變數的樣本平均值(Lockhart et al,2013)。

重複以上步驟 10 次,即在 6 種不同 case 下環境,分別會生成 10 組樣本數

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

(1) 傳統向前逐步迴歸(簡稱 Forward):自變數集合從空集合開始,在每一 步將最顯著的變數納入(「貪婪的步驟」),但是以理論分配(F 分配)決定 p 值,直到沒有顯著變數可再納入的階段時停止選取變數。

(2) 以 AIC 決定最後選取組合的向前逐步迴歸(簡稱 AIC Forward):以(1) 的方法進行,但計算所經過的每步之下變數選取組合分別的 AIC 值,以 AIC 值最小的組合為最終變數選取組合。

(3) Lasso:以 Lasso 方法估計參數,λ值以廣義交叉驗證法決定,直接將參 數估計值不為 0 的變數納入。

(4) Lasso 顯著性檢定:將顯著(p 值 < 0.05)的變數納入。

(5) 經 Bootstrap 改良的向前逐步迴歸(簡稱 Bootstrap Forward):從空集合 開始,以「貪婪的步驟」決定代入統計量的變數,並以透過 Bootstrap 所形 成之抽樣分配決定 p 值,將顯著(p 值 < 0.05)的變數納入。

將以上步驟說明整理如圖 4.1 所示:

圖 4.1 模擬資料設計流程圖

相關文件