測試情境

第三節 I Sampling 評估

3.3.4 測試情境

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

另外，本研究也參考 Melville et al. (2004)的作法，在比較每一組數據使用不同方法測試時，同時呈現前 20%平均錯誤改善率的數據以供評估。

3.3.4 測試情境

1.

建立預測模型時

在「建立預測模型」時，我們想要評估 I Sampling 的排序是否可以有效率的取得關鍵的遺失值。在眾多研究 AFA 的文獻皆以完整的測試資料(test set)驗證模型的準確率 (Zheng & Padmanabhan, 2002；Melville et al., 2004)，

主要是因為希望可以透過已經存在完整的資料模擬實際上上運用該分類模型的情形，得到一致性的結果，因此，本研究也不例外，將會以完整的測驗資料(test set)檢驗 I Sampling 的分類能力。

為了模擬現實生活中不同的資料遺失狀況，我們參考了相關文獻作法，

並設定兩個實驗情境，詳細說明如下。

(1) 訓練資料遺失比例不同

我們想了解不同的資料遺失比例是否會影響模型的選擇，因此，參考過去學者的研究 (Melville et al., 2004；Zhu & Wu, 2005；Schlomer, Bauman, & Card, 2010)，將資料的遺失率低到高選定四種不同的情形(遺失比例=10%、20%、30%、50%)，利用 8 組資料進行測試，且我們以遺失比例為 30%繪製學習曲線，了解每次取值後準確率的變化。

(2) 訓練資料遺失型態不同

資料的遺失除了隨機分布外，其實還存在許多不同的型式，為了更能貼近實際的情形，我們試想了幾種資料可能的遺失型態，比較與檢驗不同模型的適用性，並以 Zoo 測試不同方法的表現。

我們設想一筆資料中，可能有些屬性的遺失比例相較其他屬性高，

譬如在醫療診斷的時候，有些檢驗遺失情形較其他資料(如性別、年齡)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

多，因此我們將資料依不同比例分割成兩部分，兩個部分的遺失比例不同(見圖 3.5)，且少部分的數據遺失比例較高，而大部分的數據遺失比例較低，。

其中，遺失比例的種類歸納為極端高與極端低，極端高的遺失比例設定為 70%，遺失比例低則設定 0%、10%、30%三種情形，至於兩種遺失比例的分布情形則有：10/90、30/70、50/50 三種分布型態，所有的資料遺失型態組合詳見表 3.1。

圖 3.4 資料不同遺失型態的說明

X

.... X

k 結果

1

隨機遺失比例高

隨機遺失比例低

....

𝟐 𝑵 𝟐 𝑵+ 𝟏

...

N

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3.1 訓練資料遺失型態組合

訓練資料

遺失值分布情況組合訓練資料遺失比例

遺失比例高遺失比例低

10/90

1 70% 0%

2 70% 10%

3 70% 30%

30/70

4 70% 0%

5 70% 10%

6 70% 30%

50/50

7 70% 0%

8 70% 10%

9 70% 30%

2.

未來新進資料欲分類時

當模型建立後，我們想要測試 I Sampling 的填值順序是否能使新的資料在進行分類動作時，取得較少的資料達到更高的準確率，因此我們透過 10 折交互驗證將 90%完整的訓練資料建立填值順序，再以 10%的具有遺失值的測試資料進行檢驗。為了實驗方便，本研究僅將測試資料隨機挖空 70%使用 I Sampling 方式取值，直到測試資料填畢為止。

‧

該資料是受試者進行生醫聲音檢驗(biomedical voice measurements)，從不同的聲音檢測了解哪些人罹患帕金森氏疾病。

7 Pima Indians Diabetes

此資料為 Pima 印地安婦女罹患糖尿病的判定報告，其中由各種不同的指標檢驗出病患所罹患糖尿病的嚴重性。

8 Zoo 根據動物的特徵辨別為何種動物。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.1.2 資料型態

我們所選取的資料樣本大小有異，具有以下幾點特色：

(1) 資料筆數分布廣，從 32 筆至 768 筆皆有；資料屬性數目分布廣，從 8 個屬性值到 68 個，從資料筆數與屬性數目來看，這 8 組資料的資料型態類型多樣(表 4.2)。

(2) 資料的結果分布有不同的變化，其中 5 組資料的結果分布較不平均(分別為 Audiology、Glass、Parkinsons、Pima、Zoo)、3 組資料分類結果則較平均分配(圖 4.1)。

後續實驗可以了解資料大小、不同型態的資料對於選擇選值順序方式有無影響，進而評估不同填值順序模型的適用性。

表 4.2 實驗數據的資料型態

No.

資料名稱 資料類別 資料筆數 屬性筆數 結果種類

1

Audiology 數值、類別 123 68 21

2

Breast tissue 數值 106 9 6

3

Glass 數值 214 9 7

4

Leaf 數值、類別 340 15 30

5

Lungcancer 類別 32 56 3

6

Parkinsons 數值 195 22 2

7

Pima 數值 768 8 2

8

Zoo 類別 101 17 7

‧

在自測的結果中，我們發現 Error Sampling 和 I Sampling 的表現皆顯著比 Random Sampling 好(見表 4.3、表 4.4)，其中，5 組資料較適用於 Error Sampling，(分別為：Audiology、Breast tissue、Glass、Parkinsons、

Pima)，3 組適用 I Sampling (分別為：Leaf、Lung cancer、Zoo)。

雖然有較多筆資料適用於 Error Sampling，但從表 4.4 中，我們發現整體 8 組數據使用 I Sampling 的錯誤改善率、前 20%錯誤改善率略高於 Error Sampling，我們認為是因某些資料(Leaf)使用 I Sampling 的表現較 Error Sampling 的出色多。當細究資料型態與不同方式的適用性時，我們並沒有發現任何一致性。

Audiology Breast tissue

Glass Leaf Lungcancer Parkinsons Pima Zoo

分布比例(%)

資料名稱

各組資料的結果分布狀況

‧

表 4.3 使用 Random、Error、I Sampling 自測的準確率

資料/方法

Random Sampling Error Sampling I Sampling

Audiology

73.17

80.47

79.18

Error Sampling I Sampling

%Err.Red. Top20

* p-value<0.05

註：以 Random Sampling 為比較基準

圖 4.2-圖 4.9 為 8 組數據在三種選值順序方式下使用自測的學習曲線。

以 Audiology 的學習曲線(圖 4.2)為例，可明顯看到 Error Sampling 在曲線前半部分時以較少的資料達到與其他兩種方式相同的準確率，但後半部分則由 I Sampling 進步的幅度較大，雖然本研究的實驗以填滿所有遺失值的

‧

650 700 750 800 850 900 950 1000

Accuracy (%)

Number of feature-values acquired

Breasttissue

5500 6000 6500 7000 7500 8000 8500

Accuracy (%)

Number of feature-values acquired

Audiology

R E I

‧

3500 4000 4500 5000

Accracy (%)

Number of feature-values acquired

Leaf

1300 1400 1500 1600 1700 1800 1900 2000

Accuracy (%)

Number of feature-values acquired

Glass

R E I

‧

1200 1300 1400 1500 1600 1700 1800

Accuracy (%)

Number of feature-value acquired

Lung Cancer

R E I

85 90 95 100

3000 3200 3400 3600 3800 4000 4200 4400

Accuracy (%)

Number of feature-values acquired

Parkinsons

R E I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.8 Pima 自測時的學習曲線

圖 4.9 Zoo 自測時的學習曲線 70

75 80 85 90 95 100

1100 1200 1300 1400 1500 1600 1700 1800

Accuracy (%)

Number of feature- values acquired

Zoo

R E I

70 75 80 85 90

4000 4500 5000 5500 6000 6500

Accuracy (%)

Number of feature value acquired

Pima

R E I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(2) 10 折交互驗證 (資料遺失比例：30%)

從 10 折交互驗證的結果中(表 4.5、表 4.6)，我們發現 Error Sampling 和 I Sampling 的表現皆顯著比 Random Sampling 好，其中 I Sampling 在 6 組數據的表現較好，僅有一組數據(Breast tissue)最適用 Error Sampling。另外，我們也發現資料結果的分布對於不同方式的使用上沒有很大的差異，

因此，後續的研究將不會針對資料結果進一步做分析。

值得注意的是在 10 折交叉驗證的結果中，有一組資料(Pima)透過 Error Sampling 和 I Sampling 方式建立模型時，表現皆比 Random Sampling 差，

我們推測可能是該筆資料本身的屬性可能就比較不穩定，其模型的準確率可能不會隨著模型遺失值的減少而增加，又或許是 Error Sampling 和 I Sampling 的方式較不適合該筆資料，未來的研究可以針對要如何判別是否適合使用特別的選值方法進行探討。

表 4.5 研究資料使用 Random、Error、I Sampling10 折交互驗證的準確率

資料/方法

Random Sampling Error Sampling I Sampling

Audiology 57.50 61.57

63.22

Breast tissue 62.69

63.40

61.17

Glass 67.58 67.98

68.56

Leaf 58.65 58.86

60.57

Lungcancer 51.30 52.23

52.73

Parkinsons 85.78 86.27

88.11

Pima

74.70

74.62 73.98

Zoo 87.58 88.80

89.74

‧

* p-value<0.05

註：以 Random Sampling 為比較基準

圖 4.10-4.17 在 10 折交互驗證下的學習曲線，以 Audiology 學習曲線為例(圖 4.10)，我們可以看到欲達到 60%的準確率時，Random Sampling 需要取得約 1,600 個資料，而 Error Sampling 則需要 1,000 個，但若使用 I Sampling 時，只要取得 600 個資料就足夠了，這也代表著 I Sampling 比其他兩種方式可以有效率的達到指定的準確率。

此外，部分資料(Glass)雖然使用 I Sampling 選值方式時較其他方式達到更高的準確率，但從學習曲線(圖 4.12)中，可以明顯發現前半部分以

Random Sampling 方式取值較有效率，這是因為本實驗的評估方式以取完所有遺失值評估平均準確率，而未來欲建立有效率的預測模型時，也許可以端倪其需要選填的數值數量選擇合宜的方式，但本實驗則仍以平均的準確率與錯誤改善率為主要評估判斷基礎。

‧

5000 5500 6000 6500 7000 7500 8000

Accuracy (%)

Number of feature-value acquired

Audiology

600 650 700 750 800 850 900

Accuracy (%)

Number of feature-value acquired

Breast tissue

R E I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.12 Glass 10 折交互驗證時的學習曲線

圖 4.13 Leaf 10 折交互驗證時的學習曲線

62 64 66 68 70 72

1200 1300 1400 1500 1600 1700 1800

Accuracy(%)

Number of feature-value acquired

Glass

R E I

50 55 60 65 70

3200 3400 3600 3800 4000 4200 4400 4600

Accuracy (%)

Number of feature-value acquired

Leaf

R E I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.14 Lung Cancer 10 折交互驗證時的學習曲線

圖 4.15 Parkinsons 10 折交互驗證時的學習曲線

35 40 45 50 55 60 65

1200 1300 1400 1500 1600 1700

Accuracy (%)

Number of feature-value acquired

Lung Cancer

R E I

82 84 86 88 90 92

2700 2900 3100 3300 3500 3700 3900

Accuracy (%)

Number of feature-value acquired

Parkinsons

R E I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.16 Pima 10 折交互驗證時的學習曲線

圖 4.17 Zoo 10 折交互驗證時的學習曲線

72 73 74 75 76 77

3900 4400 4900 5400

Accuracy (%)

Number of feature-value acquired

Pima

R E I

82 84 86 88 90 92 94

1000 1100 1200 1300 1400 1500

Accuracy (%)

Number of feature-value acquired

Zoo

R E I

‧

不大，但是 Error Sampling 的方式所得的改善率略好一些。從平均錯誤改善率來看，我們發現 10 折檢驗的方式所得出的改善率與自行測驗的改善率有落差，因此我們進一步深究探討，在比較自評與 10 折交互驗證的結果後，我們發現兩種驗證方式下 Error Sampling 和 I Sampling 的平均錯誤減少率相減落差大，平均甚至達到 18%-19%(見表 4.12)，由此可見自測的評估方式有過度配適(overfitting)問題，因此，後續的研究將會繼續以 10 折交互驗證的方式比較不同填值順序的方式，以得到比較穩定且正確的結果。

我們想了解 8 組數據在不同資料遺失比例時，Random Sampling、

Error Sampling 和 I Sampling 的表現，因此，本研究將數據依不同比例 (10%、20%、30%、50%)隨機挖空測試，結果如表 4.8 呈現。

‧

Error Reduction Top20% Error Reduction Error

Sampling I Sampling Error

Sampling I Sampling

Audiology

10% 6.50 3.49 30.52 15.04

20%

-0.85

14.95 23.26 34.06

30% 9.33 13.21 31.30 30.20 50% 2.63 3.87 25.49 31.23

Breast tissue

10% 4.03 2.44 28.78 24.58

Lungcancer

10% 4.41 9.64 29.42 17.98 20% 12.91 11.90 35.51 34.64 30% 1.9 2.94 19.93 37.81 50% 6.96 0.16 32.20 38.17

Parkinsons

10%

-0.85

13.76 33.23 34.05

20% 4.19 5.78 53.89 48.74 30% 3.41 16.34 52.81 50.19

50%

-7.23

3.09 50.94 41.02

‧

到較高的平均準確率，11 次(34.38%)使用 E Sampling 較佳，但也有 2 次實驗(6.25%)使用 Random Sampling 的結果較好，集中在 Pima 這筆資料，可能與前面章節提到 Pima 資料本質有關。

 不論資料的遺失比例高低，有些資料有各自適合的填值順序方式，

如 Breasttissue 在所有情境中使用 E Sampling 皆比 I Sampling 達到更高的平均準確率，而 Glass、Parkinsons 則是較適合 I Sampling。

 撇除以上 3 組有各自合適的填值順序，以及 Pima 外，有 3 組資料在數據遺失比例低(10%)時使用 Error Sampling 表現較好，而隨著資料遺失的比重提升(20%、30%)，I Sampling 所達成的平均準確率更高。然而，當數據遺失比例漸高到 50%時，Error Sampling 在 8

Error Reduction Top20% Error Reduction Error

Sampling I Sampling Error

Sampling I Sampling

Pima

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

依據不同遺失比例將數據以平均的方式呈現(表 4.9)，發現當 I Sampling 在設定的四種資料遺失比例(10%、20%、30%、50%)時，其可達到的平均準確率最好，我們推測是當數據遺失小時，原先的分類器在建樹時的規則已經分辨清楚，因此沒有模糊辨識的問題，故可以從最具分類能力的屬性改善，而當數據遺失量過大時 (50%)，因改良過後的 Error Sampling 是選擇分類錯誤的該筆數據中隨機挑選屬性值填補，而當屬性數漸大時，其選擇到關鍵的遺失值填補的機率將變小，故使用 Error Sampling 的成效不如 I Sampling。

表 4.9 不同資料遺失比例時使用 Error、I Sampling 的平均錯誤改善率

遺失比例/方法

Error Sampling I Sampling

10%

3.34

5.40 20%

4.62

5.26 30%

4.56

7.10 50%

4.98

6.91

同時，我們想要驗證當資料屬性數目越多，使用 Error Sampling 的表現是否會變差，因此將所測試的資料依屬性數量大小的平均值分群，並根據兩群資料在不同遺失比例下的表現加總平均。從結果(表 4.10)中，我們發現不管屬性數多寡，I Sampling 在所有的資料遺失比例情況下表現皆比其他方式佳，結果與表 4.9 相同。

‧

Sampling 的表現較 I Sampling 達到的平均準確率高。

 當遺失值呈現極端分布時(10/90 分布)，遺失比例懸殊時(70% vs 0%)，

因整體遺失數據少，因此 I Sampling 的表現可能與 Random Sampling 不相上下，而當遺失比例漸不懸殊時，使用 I Sampling 選值填補可以比其他方式達到更高的準確率(參考表 4.11)。

屬性數小為 Audiology、Parkinsons 兩筆資料；屬性數大為 Breast tissue、Glass、Leaf、

在文檔中預測模型的遺失值處理─選值順序的研究 - 政大學術集成 (頁 37-0)

第三節 I Sampling 評估

3.3.4 測試情境

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.4 測試情境

1.

(1) 訓練資料遺失比例不同

(2) 訓練資料遺失型態不同

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

X

X

X

X

.... X

1

....

...

N

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

10/90

30/70

50/50

2.

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.1.2 資料型態

No.

1

2

3

4

5

6

7

8

‧

各組資料的結果分布狀況

‧

Random Sampling Error Sampling I Sampling

Audiology

80.47

Error Sampling I Sampling

%Err.Red. Top20

‧

Breasttissue

Audiology

‧

Leaf

Glass

‧

Lung Cancer

Parkinsons

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Zoo

Pima

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學