第三節 I Sampling 評估
3.3.4 測試情境
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
另外,本研究也參考 Melville et al. (2004)的作法,在比較每一組數據使 用不同方法測試時,同時呈現前 20%平均錯誤改善率的數據以供評估。
3.3.4 測試情境
1.
建立預測模型時在「建立預測模型」時,我們想要評估 I Sampling 的排序是否可以有效 率的取得關鍵的遺失值。在眾多研究 AFA 的文獻皆以完整的測試資料(test set)驗證模型的準確率 (Zheng & Padmanabhan, 2002;Melville et al., 2004),
主要是因為希望可以透過已經存在完整的資料模擬實際上上運用該分類模型 的情形,得到一致性的結果,因此,本研究也不例外,將會以完整的測驗資 料(test set)檢驗 I Sampling 的分類能力。
為了模擬現實生活中不同的資料遺失狀況,我們參考了相關文獻作法,
並設定兩個實驗情境,詳細說明如下。
(1) 訓練資料遺失比例不同
我們想了解不同的資料遺失比例是否會影響模型的選擇,因此,參 考過去學者的研究 (Melville et al., 2004;Zhu & Wu, 2005;Schlomer, Bauman, & Card, 2010),將資料的遺失率低到高選定四種不同的情形(遺 失比例=10%、20%、30%、50%),利用 8 組資料進行測試,且我們以 遺失比例為 30%繪製學習曲線,了解每次取值後準確率的變化。
(2) 訓練資料遺失型態不同
資料的遺失除了隨機分布外,其實還存在許多不同的型式,為了更 能貼近實際的情形,我們試想了幾種資料可能的遺失型態,比較與檢驗 不同模型的適用性,並以 Zoo 測試不同方法的表現。
我們設想一筆資料中,可能有些屬性的遺失比例相較其他屬性高,
譬如在醫療診斷的時候,有些檢驗遺失情形較其他資料(如性別、年齡)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
多,因此我們將資料依不同比例分割成兩部分,兩個部分的遺失比例不 同(見圖 3.5),且少部分的數據遺失比例較高,而大部分的數據遺失比 例較低,。
其中,遺失比例的種類歸納為極端高與極端低,極端高的遺失比例 設定為 70%,遺失比例低則設定 0%、10%、30%三種情形,至於兩種 遺失比例的分布情形則有:10/90、30/70、50/50 三種分布型態,所有的 資料遺失型態組合詳見表 3.1。
圖 3.4 資料不同遺失型態的說明
X
1X
2X
3X
4.... X
k 結果1
隨機遺失 比例高
隨機遺失比例低
....
𝟐 𝑵 𝟐 𝑵+ 𝟏
...
N
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3.1 訓練資料遺失型態組合
訓練資料
遺失值分布情況 組合 訓練資料遺失比例
遺失比例高 遺失比例低
10/90
1 70% 0%
2 70% 10%
3 70% 30%
30/70
4 70% 0%
5 70% 10%
6 70% 30%
50/50
7 70% 0%
8 70% 10%
9 70% 30%
2.
未來新進資料欲分類時當模型建立後,我們想要測試 I Sampling 的填值順序是否能使新的資 料在進行分類動作時,取得較少的資料達到更高的準確率,因此我們透過 10 折交互驗證將 90%完整的訓練資料建立填值順序,再以 10%的具有遺失 值的測試資料進行檢驗。為了實驗方便,本研究僅將測試資料隨機挖空 70%使用 I Sampling 方式取值,直到測試資料填畢為止。
‧
該資料是受試者進行生醫聲音檢驗(biomedical voice measurements),從不同的聲音檢測了解哪些人罹患 帕金森氏疾病。
7 Pima Indians Diabetes
此資料為 Pima 印地安婦女罹患糖尿病的判定報 告,其中由各種不同的指標檢驗出病患所罹患糖尿 病的嚴重性。
8 Zoo 根據動物的特徵辨別為何種動物。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.1.2 資料型態
我們所選取的資料樣本大小有異,具有以下幾點特色:
(1) 資料筆數分布廣,從 32 筆至 768 筆皆有;資料屬性數目分布廣,從 8 個屬性值到 68 個,從資料筆數與屬性數目來看,這 8 組資料的資料型 態類型多樣(表 4.2)。
(2) 資料的結果分布有不同的變化,其中 5 組資料的結果分布較不平均(分 別為 Audiology、Glass、Parkinsons、Pima、Zoo)、3 組資料分類結果則 較平均分配(圖 4.1)。
後續實驗可以了解資料大小、不同型態的資料對於選擇選值順序方式 有無影響,進而評估不同填值順序模型的適用性。
表 4.2 實驗數據的資料型態
No.
資料名稱 資料類別 資料筆數 屬性筆數 結果種類1
Audiology 數值、類別 123 68 212
Breast tissue 數值 106 9 63
Glass 數值 214 9 74
Leaf 數值、類別 340 15 305
Lungcancer 類別 32 56 36
Parkinsons 數值 195 22 27
Pima 數值 768 8 28
Zoo 類別 101 17 7‧
在自測的結果中,我們發現 Error Sampling 和 I Sampling 的表現皆顯 著比 Random Sampling 好(見表 4.3、表 4.4),其中,5 組資料較適用於 Error Sampling,(分別為:Audiology、Breast tissue、Glass、Parkinsons、
Pima),3 組適用 I Sampling (分別為:Leaf、Lung cancer、Zoo)。
雖然有較多筆資料適用於 Error Sampling,但從表 4.4 中,我們發現整 體 8 組數據使用 I Sampling 的錯誤改善率、前 20%錯誤改善率略高於 Error Sampling,我們認為是因某些資料(Leaf)使用 I Sampling 的表現較 Error Sampling 的出色多。當細究資料型態與不同方式的適用性時,我們並沒有 發現任何一致性。
Audiology Breast tissue
Glass Leaf Lungcancer Parkinsons Pima Zoo
分布比例(%)
資料名稱
各組資料的結果分布狀況
‧
表 4.3 使用 Random、Error、I Sampling 自測的準確率
資料/方法
Random Sampling Error Sampling I Sampling
Audiology
73.1780.47
79.18Error Sampling I Sampling
%Err.Red. Top20
* p-value<0.05
註:以 Random Sampling 為比較基準
圖 4.2-圖 4.9 為 8 組數據在三種選值順序方式下使用自測的學習曲線。
以 Audiology 的學習曲線(圖 4.2)為例,可明顯看到 Error Sampling 在曲線 前半部分時以較少的資料達到與其他兩種方式相同的準確率,但後半部分 則由 I Sampling 進步的幅度較大,雖然本研究的實驗以填滿所有遺失值的
‧
650 700 750 800 850 900 950 1000
Accuracy (%)
Number of feature-values acquired
Breasttissue
5500 6000 6500 7000 7500 8000 8500
Accuracy (%)
Number of feature-values acquired
Audiology
R E I
‧
3500 4000 4500 5000
Accracy (%)
Number of feature-values acquired
Leaf
1300 1400 1500 1600 1700 1800 1900 2000
Accuracy (%)
Number of feature-values acquired
Glass
R E I
‧
1200 1300 1400 1500 1600 1700 1800
Accuracy (%)
Number of feature-value acquired
Lung Cancer
R E I
85 90 95 100
3000 3200 3400 3600 3800 4000 4200 4400
Accuracy (%)
Number of feature-values acquired
Parkinsons
R E I
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.8 Pima 自測時的學習曲線
圖 4.9 Zoo 自測時的學習曲線 70
75 80 85 90 95 100
1100 1200 1300 1400 1500 1600 1700 1800
Accuracy (%)
Number of feature- values acquired
Zoo
R E I
70 75 80 85 90
4000 4500 5000 5500 6000 6500
Accuracy (%)
Number of feature value acquired
Pima
R E I
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(2) 10 折交互驗證 (資料遺失比例:30%)
從 10 折交互驗證的結果中(表 4.5、表 4.6),我們發現 Error Sampling 和 I Sampling 的表現皆顯著比 Random Sampling 好,其中 I Sampling 在 6 組數據的表現較好,僅有一組數據(Breast tissue)最適用 Error Sampling。另 外,我們也發現資料結果的分布對於不同方式的使用上沒有很大的差異,
因此,後續的研究將不會針對資料結果進一步做分析。
值得注意的是在 10 折交叉驗證的結果中,有一組資料(Pima)透過 Error Sampling 和 I Sampling 方式建立模型時,表現皆比 Random Sampling 差,
我們推測可能是該筆資料本身的屬性可能就比較不穩定,其模型的準確率 可能不會隨著模型遺失值的減少而增加,又或許是 Error Sampling 和 I Sampling 的方式較不適合該筆資料,未來的研究可以針對要如何判別是否 適合使用特別的選值方法進行探討。
表 4.5 研究資料使用 Random、Error、I Sampling10 折交互驗證的準確率
資料/方法
Random Sampling Error Sampling I Sampling
Audiology 57.50 61.5763.22
Breast tissue 62.6963.40
61.17Glass 67.58 67.98
68.56
Leaf 58.65 58.86
60.57
Lungcancer 51.30 52.23
52.73
Parkinsons 85.78 86.2788.11
Pima
74.70
74.62 73.98Zoo 87.58 88.80
89.74
‧
* p-value<0.05
註:以 Random Sampling 為比較基準
圖 4.10-4.17 在 10 折交互驗證下的學習曲線,以 Audiology 學習曲線為 例(圖 4.10),我們可以看到欲達到 60%的準確率時,Random Sampling 需要 取得約 1,600 個資料,而 Error Sampling 則需要 1,000 個,但若使用 I Sampling 時,只要取得 600 個資料就足夠了,這也代表著 I Sampling 比其 他兩種方式可以有效率的達到指定的準確率。
此外,部分資料(Glass)雖然使用 I Sampling 選值方式時較其他方式達到 更高的準確率,但從學習曲線(圖 4.12)中,可以明顯發現前半部分以
Random Sampling 方式取值較有效率,這是因為本實驗的評估方式以取完所 有遺失值評估平均準確率,而未來欲建立有效率的預測模型時,也許可以 端倪其需要選填的數值數量選擇合宜的方式,但本實驗則仍以平均的準確 率與錯誤改善率為主要評估判斷基礎。
‧
5000 5500 6000 6500 7000 7500 8000
Accuracy (%)
Number of feature-value acquired
Audiology
600 650 700 750 800 850 900
Accuracy (%)
Number of feature-value acquired
Breast tissue
R E I
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.12 Glass 10 折交互驗證時的學習曲線
圖 4.13 Leaf 10 折交互驗證時的學習曲線
62 64 66 68 70 72
1200 1300 1400 1500 1600 1700 1800
Accuracy(%)
Number of feature-value acquired
Glass
R E I
50 55 60 65 70
3200 3400 3600 3800 4000 4200 4400 4600
Accuracy (%)
Number of feature-value acquired
Leaf
R E I
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.14 Lung Cancer 10 折交互驗證時的學習曲線
圖 4.15 Parkinsons 10 折交互驗證時的學習曲線
35 40 45 50 55 60 65
1200 1300 1400 1500 1600 1700
Accuracy (%)
Number of feature-value acquired
Lung Cancer
R E I
82 84 86 88 90 92
2700 2900 3100 3300 3500 3700 3900
Accuracy (%)
Number of feature-value acquired
Parkinsons
R E I
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.16 Pima 10 折交互驗證時的學習曲線
圖 4.17 Zoo 10 折交互驗證時的學習曲線
72 73 74 75 76 77
3900 4400 4900 5400
Accuracy (%)
Number of feature-value acquired
Pima
R E I
82 84 86 88 90 92 94
1000 1100 1200 1300 1400 1500
Accuracy (%)
Number of feature-value acquired
Zoo
R E I
‧
不大,但是 Error Sampling 的方式所得的改善率略好一些。從平均錯誤改 善率來看,我們發現 10 折檢驗的方式所得出的改善率與自行測驗的改善率 有落差,因此我們進一步深究探討,在比較自評與 10 折交互驗證的結果 後,我們發現兩種驗證方式下 Error Sampling 和 I Sampling 的平均錯誤減 少率相減落差大,平均甚至達到 18%-19%(見表 4.12),由此可見自測的評 估方式有過度配適(overfitting)問題,因此,後續的研究將會繼續以 10 折交 互驗證的方式比較不同填值順序的方式,以得到比較穩定且正確的結果。我們想了解 8 組數據在不同資料遺失比例時,Random Sampling、
Error Sampling 和 I Sampling 的表現,因此,本研究將數據依不同比例 (10%、20%、30%、50%)隨機挖空測試,結果如表 4.8 呈現。
‧
Error Reduction Top20% Error Reduction Error
Sampling I Sampling Error
Sampling I Sampling
Audiology
10% 6.50 3.49 30.52 15.04
20%
-0.85
14.95 23.26 34.0630% 9.33 13.21 31.30 30.20 50% 2.63 3.87 25.49 31.23
Breast tissue
10% 4.03 2.44 28.78 24.58
Lungcancer
10% 4.41 9.64 29.42 17.98 20% 12.91 11.90 35.51 34.64 30% 1.9 2.94 19.93 37.81 50% 6.96 0.16 32.20 38.17
Parkinsons
10%
-0.85
13.76 33.23 34.0520% 4.19 5.78 53.89 48.74 30% 3.41 16.34 52.81 50.19
50%
-7.23
3.09 50.94 41.02‧
到較高的平均準確率,11 次(34.38%)使用 E Sampling 較佳,但也有 2 次實驗(6.25%)使用 Random Sampling 的結果較好,集中在 Pima 這筆資料,可能與前面章節提到 Pima 資料本質有關。 不論資料的遺失比例高低,有些資料有各自適合的填值順序方式,
如 Breasttissue 在所有情境中使用 E Sampling 皆比 I Sampling 達到 更高的平均準確率,而 Glass、Parkinsons 則是較適合 I Sampling。
撇除以上 3 組有各自合適的填值順序,以及 Pima 外,有 3 組資料 在數據遺失比例低(10%)時使用 Error Sampling 表現較好,而隨著 資料遺失的比重提升(20%、30%),I Sampling 所達成的平均準確率 更高。然而,當數據遺失比例漸高到 50%時,Error Sampling 在 8
Error Reduction Top20% Error Reduction Error
Sampling I Sampling Error
Sampling I Sampling
Pima
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
依據不同遺失比例將數據以平均的方式呈現(表 4.9),發現當 I Sampling 在設定的四種資料遺失比例(10%、20%、30%、50%)時,其可達到的平 均準確率最好,我們推測是當數據遺失小時,原先的分類器在建樹時的 規則已經分辨清楚,因此沒有模糊辨識的問題,故可以從最具分類能力 的屬性 改善 ,而當 數 據遺失 量過 大時 (50%), 因改良 過後的 Error Sampling 是選擇分類錯誤的該筆數據中隨機挑選屬性值填補,而當屬性 數漸大時,其選擇到關鍵的遺失值填補的機率將變小,故使用 Error Sampling 的成效不如 I Sampling。
表 4.9 不同資料遺失比例時使用 Error、I Sampling 的平均錯誤改善率
遺失比例/方法
Error Sampling I Sampling
10%
3.345.40
20%
4.625.26
30%
4.567.10
50%
4.986.91
同時,我們想要驗證當資料屬性數目越多,使用 Error Sampling 的表現是否會變差,因此將所測試的資料依屬性數量大小的平均值分 群,並根據兩群資料在不同遺失比例下的表現加總平均。從結果(表 4.10)中,我們發現不管屬性數多寡,I Sampling 在所有的資料遺失比 例情況下表現皆比其他方式佳,結果與表 4.9 相同。
‧
Sampling 的表現較 I Sampling 達到的平均準確率高。 當遺失值呈現極端分布時(10/90 分布),遺失比例懸殊時(70% vs 0%),
因整體遺失數據少,因此 I Sampling 的表現可能與 Random Sampling 不相上下,而當遺失比例漸不懸殊時,使用 I Sampling 選值填補可以 比其他方式達到更高的準確率(參考表 4.11)。
屬性數小為 Audiology、Parkinsons 兩筆資料;屬性數大為 Breast tissue、Glass、Leaf、
屬性數小為 Audiology、Parkinsons 兩筆資料;屬性數大為 Breast tissue、Glass、Leaf、