第五章 實證資料分析
5.3 變數選取
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
26
圖 5.1 品質分數之分布情況
5.3 變數選取
在挑選最適當的科學變數組合與品質分數建立迴歸模式前,先了解每一個科 學變數分別與品質分數建立簡單線性迴歸模型下的顯著性與迴歸係數估計值之 方向,將顯著水準設定為 0.05。結果如表 5.2 所示,除了檸檬酸與游離二氧化碳 不顯著以外(p 值皆在 0.5 左右),其他 9 個科學變數皆與葡萄牙清酒的品質分數 呈顯著相關。而在 9 個顯著的科學變數當中,除了 pH 酸鹼值、硫酸鹽,還有酒 精與品質分數間呈正相關外,其他 6 個顯著的科學變數與品質分數間呈負相關。
因此由表 5.2 之整理大致可了解每個科學變數分別與品質分數間的相關性。
‧
Free Sulfur Dioxide(游離二氧化硫) 0.57 0.0004Total Sulfur Dioxide(總二氧化硫) < 0.01 -0.004 Density(密度) < 0.01 -90.942 pH(pH 酸鹼值) < 0.01 0.58 Sulphates(硫酸鹽) < 0.01 0.42 Alcohol(酒精) < 0.01 0.31
此外這筆資料有個特性:這 11 個候選變數間相關性頗高。如表 5.3 所示,
剩餘糖分、密度,以及酒精的 VIF(Variance Inflation Factor)值都很大。而這也 突顯出研究者確實需要透過較穩定、較不受候選變數間相關性太大所影響的變數 選取方法來對這筆資料分析。以本研究第四章的分析結果來看,用 Lasso 顯著性 檢定挑選變數組合,或是本研究提出的 Bootstrap 改良向前逐步迴歸方法,都是 較不受此問題所影響的方法。
表 5.3 11 個科學變數間的 VIF 值
名稱 Fixed Acidity Volatile Acidity Citric Acid
Residual Sugar
VIF 值 2.69 1.41 1.1712.64
名稱 Chlorides Free Sulfur Dioxide
Total Sulfur
Dioxide
Density
VIF 值 1.24 1.79 2.2428.23
名稱 pH Sulphates
Alcohol
VIF 值 2.20 1.147.70
‧
不一樣的最後一個變數:Lasso 顯著性檢定挑出固定性酸度;而 Bootstrap Forward 挑出的是 pH 酸鹼值。
表 5.4 以 Lasso 顯著性檢定與 Bootstrap Forward 挑選之變數
方法 挑選出之科學變數
Lasso 顯著性檢定
Volatile Acidity(揮發性酸度)、Residual Sugar(剩餘糖分)、
Free Sulfur Dioxide(游離二氧化硫)、Density(密度)、
Sulphates(硫酸鹽)、Alcohol(酒精)、Fixed Acidity(固定 性酸度)
Bootstrap Forward
Volatile Acidity(揮發性酸度)、Residual Sugar(剩餘糖分)、
Free Sulfur Dioxide(游離二氧化硫)、Density(密度)、
Sulphates(硫酸鹽)、Alcohol(酒精)、pH(pH 酸鹼值)
表 5.6 與表 5.7 為分別以 Lasso 顯著性檢定與 Bootstrap Forward 找出之變數 將 Lasso 顯著性檢定和 Bootstrap Forward 與舊有方法比較,認為這兩種方法較不 受候選變數間相關性高之影響;但以本章葡萄牙清酒實證資料之分析經驗,當候 選變數間相關性過高,這兩種方法所挑出的變數組合仍不是很理想。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
29
表 5.5 以 Lasso 顯著性檢定挑選之變數組合下建立之迴歸模式估計結果
變數 係數估計值 P 值
固定性酸度 -0.068
皆小於 0.001 揮發性酸度 -2.037
剩餘糖分 0.024 游離二氧化硫 0.004
密度 1.553
硫酸鹽 0.412
酒精 0.380
表 5.6 以 Bootstrap Forward 挑選之變數組合下建立之迴歸模式估計結果
變數 係數估計值 P 值
揮發性酸度 -2.010
皆小於 0.001 剩餘糖分 0.025
游離二氧化硫 0.004
密度 1.279
pH 酸鹼值 0.286
硫酸鹽 0.369
酒精 0.383
‧
變數。此外當候選變數相關性增高時,Lasso 顯著性檢定和 Bootstrap Forward 都 比起傳統方法能適應。 變數;而且因為本研究改良的 Bootstrap Forward 一樣保有「貪婪的步驟」之特質,雖與 Lasso 顯著性檢定一樣不容易選到錯誤變數,但比起 Lasso 顯著性更容易選 到正確變數,不會如 Lasso 顯著性檢定下保守。
因此以 Bootstrap 的方式改良,可以在具有「貪婪的步驟」特性下掌握抽樣 分配。雖然當真的有關的變數占所有候選變數少部分時,選取到正確變數的成效 不如傳統方法,但比起傳統方法不容易選取到錯誤變數。此外又比起 Lasso 顯著