重要因子挑選比 (挑選比) - 4 超飽和設計挑選比分析

4 超飽和設計挑選比分析

4.1 重要因子挑選比 (挑選比)

本章使用重要因子挑選比 (以下簡稱挑選比) 作為三種因子篩選方法比較的基 準。我們定義模擬次數 t，因子篩選數 c 的挑選比 R_t(c)如下：

R_t(c) = s¯ c = 1

∑t i=1

s_i (4.1)

其中，s_i 為第 i 次模擬中挑選的因子是重要因子的個數。挑選比其實就是 t 次模 擬重要因子數為 c 的資料中，用因子篩選方法挑出的 c 個因子裡是重要因子的比 例平均，挑選比越大越好，代表越能選到正確的重要因子。產生模擬資料的挑選 比 R_t(c)的步驟如下：

步驟 1：設定模擬條件，決定超飽和設計的矩陣設計法、因子數 p、運行數 n、

重要因子係數 β_s、不重要因子係數 β_ns、模型誤差 ϵ 以及模擬次數 t。

步驟 2：在設計矩陣中隨機挑選 c 行為重要因子，依條件設定產生模擬資料，可 以得到一筆觀測值，將觀測值中心化。

步驟 3：利用逐步向前法、LASSO 與 Dantzig selector 挑出 c 個因子，並記錄各方 法所挑出的 c 個因子中重要因子的個數。

步驟 4：步驟 2 到步驟 3 重複執行 t 次。

步驟 5：計算 t 次模擬中各因子篩選方法挑出重要因子個數的平均數，將平均數 除以 c，即可得 Rt(c)。

因為設計矩陣沒有包含常數項，為了確保因子篩選結果不被模型中的常數項影響，會將每一個觀測值減去觀測值平均數，稱為觀測值中心化。而為了避免某些因子混淆程度太高，嚴重影響分析，每次模擬都要重新生成重要因子與模型，

以巨量資料中亂數隨機的概念消除因子間的混淆對統計結果的影響。另外，這裡 的因子篩選都是篩選特定數量的因子，並非以顯著水準 α 或各式的判斷準則作為 篩選因子數的考量。在本文，表 4.1的設定稱為範例條件，在之後的模擬中扮演比 較的標準。這裡以產生範例條件中挑選比 R₁₀₀₀(20)為例說明。

依範例條件，可以利用交互法建構出因子數為 235，運行數為 120 的設計矩陣，在 235 個因子中，隨機挑選 20 個因子為重要因子。再以常態分配亂數產生因

表 4.1: 範例條件因子 p72 p89 p92 p96 p108 p119 p139 係數 3.40 1.90 1.33 −3.13 −2.49 2.76 −1.10 因子 p152 p166 p175 p181 p187 p206 p230 係數 −1.11 −1.67 −1.83 −1.03 −2.35 −2.48 1.96

真實模型，並加入模型誤差項模擬一筆觀測值。為了方便比較，本文模擬的模型誤差項都由期望值為 0 變異數為 1 的常態分配生成。

將觀測值中心化之後，分別使用逐步向前法、LASSO 和 Dantzig selector 三種因子篩選方法進行因子排序，挑選前 20 個顯著因子，如表 4.3。表中深色部分代表範例條件中逐步向前法、LASSO 與 Dantzig selector 中的挑選比。

表 4.3: 不同因子篩選方法挑選因子範例逐步向前法

p72 p63 p108 p10 p48 p1 p96 p230 p206 p119 p187 p175 p19 p89 p181 p30 p92 p166 p9 p159 LASSO

p72 p63 p187 p108 p10 p206 p48 p230 p1 p96 p119 p159 p175 p200 p30 p19 p133 p89 p92 p118 Dantzig selector

p72 p63 p108 p48 p206 p10 p187 p1 p96 p230 p119 p159 p175 p19 p89 p92 p30 p181 p173 p200

表 4.4: R₁₀₀₀(20)記錄重要因子個數範例

個數 9 10 11 12 13 14 15 16 17 18 19 20 逐步向前法 1 1 1 1 21 35 55 107 181 272 252 73 LASSO 0 0 4 6 49 79 202 257 244 125 28 6 Dantzig selector 0 0 0 6 17 32 94 212 260 248 113 18

表 4.5: R1000(20)產生範例

s R1000(20) 逐步向前法 17.56 0.88 LASSO 16.05 0.80 Dantzig selector 16.93 0.85

4.2

不同設定的挑選比分析

本節以範例條件的挑選比分析作為開端，探討三種不同的因子篩選方法在不同因子篩選數的挑選比表現。之後探討在不同的設計矩陣方法、不同的因子數或不同的重要因子係數之下挑選比的變化情形。

4.2.1

範例條件下的挑選比分析

表 4.6: 範例條件因子篩選數 c 為 1 到 60 的挑選比 R₁₀₀₀(c)

c 1 2 3 4 5 6 7 8 9 10

逐步向前法 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.91 0.90 0.90 LASSO 0.90 0.90 0.89 0.88 0.88 0.87 0.87 0.86 0.86 0.85 Dantzig selector 0.90 0.90 0.90 0.90 0.89 0.89 0.89 0.89 0.89 0.88

c 11 12 13 14 15 16 17 18 19 20

逐步向前法 0.90 0.90 0.90 0.90 0.89 0.89 0.89 0.88 0.88 0.88 LASSO 0.85 0.84 0.84 0.83 0.83 0.82 0.82 0.81 0.81 0.80 Dantzig selector 0.88 0.88 0.88 0.87 0.87 0.87 0.86 0.86 0.85 0.85

c 21 22 23 24 25 26 27 28 29 30

逐步向前法 0.88 0.88 0.87 0.86 0.85 0.85 0.84 0.83 0.82 0.81 LASSO 0.80 0.80 0.79 0.78 0.78 0.77 0.77 0.76 0.76 0.75 Dantzig selector 0.84 0.84 0.84 0.83 0.83 0.82 0.82 0.81 0.80 0.80

c 31 32 33 34 35 36 37 38 39 40

逐步向前法 0.79 0.79 0.77 0.77 0.76 0.74 0.73 0.71 0.69 0.69 LASSO 0.75 0.74 0.74 0.73 0.73 0.72 0.72 0.72 0.71 0.70 Dantzig selector 0.79 0.79 0.78 0.78 0.77 0.76 0.76 0.75 0.75 0.74

c 41 42 43 44 45 46 47 48 49 50

逐步向前法 0.67 0.66 0.65 0.63 0.62 0.61 0.60 0.59 0.58 0.56 LASSO 0.70 0.69 0.69 0.69 0.69 0.68 0.68 0.67 0.67 0.66 Dantzig selector 0.73 0.72 0.72 0.71 0.71 0.70 0.70 0.69 0.69 0.68

c 51 52 53 54 55 56 57 58 59 60

逐步向前法 0.56 0.55 0.54 0.53 0.52 0.52 0.51 0.51 0.50 0.49 LASSO 0.66 0.66 0.66 0.66 0.65 0.65 0.64 0.64 0.64 0.64 Dantzig selector 0.68 0.68 0.67 0.67 0.66 0.66 0.65 0.65 0.65 0.64

要因子會更加困難。直到 c 約為 30 以前，比起其它兩種方法，逐步向前法的挑選 時，傾向使用 Dantzig selector 篩選因子。

圖 4.1: 範例條件的挑選比

4.2.2

不同設計矩陣建構方法的挑選比分析

第二章有介紹可以使用 E(s²)來判斷設計矩陣的優劣，在運行數為 120、因子 數為 235 的設計矩陣中，使用折半法與使用交互法建構的設計矩陣 E(s²)差異相當小。那若以這兩種不同的矩陣建構法建構出的設計矩陣進行挑選比分析，得出的結果是否會有差異？圖 4.2左圖與圖 4.1完全相同，為範例條件下的挑選比；而作為對比，圖 4.2右圖為範例條件將矩陣的建構方法從交互法修改為半分法，其餘設定與範例條件相同的挑選比。兩圖中三種因子篩選方法的挑選比表現都相當接 近，顯現出在 E(s²)相近時不同的矩陣建構方法對挑選比分析的影響並不會有顯著的差異。

但是若使用不同矩陣建構方法的設計矩陣 E(s²)差異並不小時，挑選比結果是否會存在差異？圖 4.3左圖與圖 4.3右圖分別也是使用交互法與使用折半法建構

顯著差異時，E(s²)較小的設計矩陣建構方法的挑選比表現會更好，也驗證第二 章所提及過 E(s²)越小則設計矩陣越好。

4.2.3

不同因子數的挑選比分析

當其它設定保持不變，僅改變範例條件中的因子數設定時，挑選比結果會如何變化？圖 4.4左圖為將範例條件中的因子數改為 119 的挑選比，因為此時因子數小於運行數，並非超飽和設計，此情形可以找到並使用行與行間完全正交的設 計矩陣。因為因子之間沒有任何混淆的緣故，此時不論因子篩選數 c 為何，三種 因子篩選方法的挑選比都會相當趨近 1。而圖 4.4右圖、圖 4.5左圖與圖 4.5右圖分 別為將範例條件中的因子數改為 150、320 與 400 的挑選比，可以發現在相同的 c 下，當因子數越大時，其挑選比表現會越差，這是因為要討論的因子數一多，不可避免地會更有機會出現混淆程度較高的因子，造成錯誤選取重要因子的可能性 增加。至於三種因子篩選方法的挑選比表現，在 c 不大的情形之下，逐步向前法 的挑選比表現仍舊較好，但若因子數越大時，逐步向前法與其它兩方法挑選比交 叉的 c 會越小，即逐步向前法的挑選比表現會下降。其它不同設定的模擬也顯示 出，在因子數遠大於運行數的超飽和設計中，逐步向前法的挑選比表現就沒有如 此優異。如圖 4.5右圖，儘管在 c 約為 15 之前，逐步向前法的挑選比表現仍舊較 佳，但與表現第二好的 Dantzig selector 的挑選比都已經相當接近，差距皆在 0.01 以下，而當 c 超過 15 以後，逐步向前法的挑選比表現會完全不如 Dantzig selector，

在 c 超過 25 以後也開始不如 LASSO，且 c 越大時差異會越明顯。另外，不論因 子數的設定為何，LASSO 的挑選比表現仍然完全不如 Dantzig selector。

當其它設定保持不變，僅改變範例條件中的運行數設定時，挑選比結果又會如何變化？其實固定因子數增加運行數與固定運行數減少因子數，對挑選比的結果影響相當類似。所以在其它設定相同的情況下，若運行數越大時，逐步向前法 與其它兩方法挑選比交叉的 c 會越大，即逐步向前法的挑選比表現會上升。在因 子數沒有與運行數差距太大的超飽和設計中，逐步向前法的挑選比表現會較好。

圖 4.2: E(s²)相近時不同設計矩陣建構方法的挑選比：左圖為交互法、右圖為折半法

圖 4.3: E(s²)不相近時不同設計矩陣建構方法的挑選比：左圖為交互法、右圖為折半法

圖 4.4: 不同因子數的挑選比 (一)：左圖因子數為 119、右圖因子數為 150

圖 4.5: 不同因子數的挑選比 (二)：左圖因子數為 320、右圖因子數為 400

圖 4.6: 不同重要因子係數的挑選比：左圖的重要因子係數從標準差為 5 常態分配挑出、右圖的重要因子係數從標準差為 8 常態分配挑出

4.2.4

不同重要因子係數的挑選比分析

那保持其它設定不變的情況下，只改變範例條件中的重要因子係數時，挑選比結果會如何變化？圖 4.6左圖與圖 4.6右圖分別是將範例條件中的重要因子係數改為從標準差為 5 與標準差為 8 的常態分配挑出的挑選比。可由圖中看出挑出重要因子係數的常態分配標準差越大時，LASSO 與 Dantzig selector 的挑選比並不會發生明顯改變，但是逐步向前法的挑選比表現會顯著提升。甚至如圖 4.6右圖，逐 步向前法與其它兩方法挑選比交叉的 c 約為 60，換言之其它兩方法的挑選比表現 會完全不如逐步向前法。所以挑出重要因子係數的常態分配標準差越大時，逐步向前法的挑選比表現相對較佳，反之則 LASSO 與 Dantzig selector 的挑選比表現相對較佳。

4.3

挑選比分析的應用

計。本文稱表 4.7的資料為半 Williams 資料，此資料後來成為超飽和設計的經典資

圖 4.7: 半 Williams 資料的挑選比：左圖的重要因子係數從標準差為 2 常態分配挑出、右圖的重要因子係數從標準差為 20 常態分配挑出

以深色表示，則在半 Williams 資料中逐步向前法、LASSO 與 Dantzig selector 分別可以挑出 3、2、2 個重要因子，顯示優先考慮逐步向前法是合理的。值得一提的是，因子 12 的顯著程度在 Williams 原始資料中相當低，但是在半 Williams 資料篩選 4 個因子時，三種因子篩選方法都有挑出因子 12，這正是超飽和設計中的混淆情形所帶來的影響。不足的運行數會導致在進行超飽和設計的因子篩選時，被因子間的混淆程度所影響，進而可能挑選到錯誤的重要因子。

表 4.8: Williams 原始資料與半 Williams 資料在因子篩選數為 4 時三種因子篩選方法的篩選因子比較

Williams 原始資料

三種因子篩選方法因子 15 因子 20 因子 17 因子 4 半 Williams 資料

逐步向前法因子 15 因子 12 因子 20 因子 4 LASSO 因子 15 因子 17 因子 12 因子 2 Dantzig selector 因子 15 因子 20 因子 12 因子 16

在文檔中超飽和設計因子篩選方法比較 (頁 31-43)