• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

42

第五章 結論與建議

第一節 結論

預測模型中的訓練資料若有遺失值,則會影響模型的預測能力,因此如何處 理遺失值就變成一個重要的問題。本研究的範疇是在「用特定的成本」去真實取 得遺失的資料,我們提出了新的填補順序 U-Sampling,以用更有效率的方式填 補遺失值。

有別於過去的研究中 row-based 的方法,是以「受試者的重要性」來排列填 補順序,本研究提出的 U-Sampling 是一個 column-based 的方法,以「特徵值的 重要性」來排列填補順序,其目的是判斷每一種不同特徵值的重要順序。

在過去的文獻中 Uncertainty Score 的「高低」 被用來判斷一個受試者是否 容易被歸到錯的類別,其值越低則越容易被分類錯誤。但在本研究中進一步把受 試者的每一個特徵值分開,輪流把每一個特徵值用遺失值取代,並且計算其對整 個模型 Uncertainty Score「變化量」,「變化量」越大則被列為較重要的特徵值。

我們對 8 組不同的資料集合各自進行三次的遺失值填補實驗,每次的遺失比 例不同,主要的結果列在下面各項中

1. 在總共 22 個情境下 U-Sampling 在 70%以上的實驗表現都好於 Random Sampling 以及 Error Sampling,因此平均上情況使用 U-Sampling 會節省成本。

2.對於某些資料,取得更多的特徵值並不會增加決策樹對結果預測的準確率,

在此種情況下額外在花成本取得遺失值便沒有太大的意義。因此在使用 U-Sampling 之前應判斷該資料是否需要做遺失值的處理。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

43

3. 在遺失比例小的時候(10%),平均準確率的進步幅度較小,我們推測原因 是資料在遺失比例低的時候,填補遺失值並不會對其模型造成太大的影響。不過 隨著遺失比例增加(30%~50%),準確率的進步幅度也隨之增加。

4. 我們也模擬了「未來資料」填值順序的實驗,在遺失比例 70%的前提下,

依照 U-Sampling 的填值順序來填補資料,其準確率會比 Random Sampling 為高,

因此不論是用於建立決策樹模型或是未來希望被正確分類的資料,U-Sampling 都提供了一個節省成本的選值順序。

第二節 研究限制及建議 5.2.1 研究限制

1. 在本研究中我們並沒有關於資料的成本資訊。因此我們假設每個資料的 取得成本相同,純粹使用特徵值的重要性去排序。

2. 受限於實驗時間以及程式運作速度,我們並沒有應用到非常大的資料集 合。

5.2.2 未來建議

1. 加入成本的資訊,配合 U-Sampling 所提供的重要性,將可以做加權計算,

再去判斷哪一個資訊是最重要的。

2. 除了 column-based 的方法外,也可以把 Error Sampling 的概念納入其中,

先選到重要的「特徵值」之後再選重要的「受試者」。

3. 改善程式的速度,可以把 U-Sampling 實驗在更大的資料集合上。

1. Allison, P. D. (2001). Missing data. Thousand Oaks, CA: Sage.

2. Alpaydın, E. (2010). Introduction to machine learning. London, England:

The MIT Press.

3. Bennett, D. A. (2001). How can I deal with missing data in my study?

Australian and New Zealand Journal of Public Health, 25(5), 464–469.

4. Giks, Walter R ; Richardson, Sylvia; Spiegelhalter, David J. (1996).

Introducing Markov chain Monte Carlo. In Markov chain Monte Carlo in

practice (pp. 1-19). London: Chapman & hall/CRC.

5. Graham, J. W. (2003). Adding missing-data-relevant variables to FIML basedstructural equation models. Structural Equation Modeling, pp. 10, 80–

100.

6. Jackson, J. (2002). Overview, data mining: a conceptual. Communications

of the Association for Information Systems.

7. Kohavi, R. (1995). A study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. IJCAI, (Vol.14, No.2, pp. 1137-1145).

8. Levin, N., & Zahav, J. (2001, Spring). Predictive modeling using segmentation. Journal of Interactive Marketing, 15(2), 2-22.

9. Melville, P., Saar-Tsechansky, M., Provost, F., & Mooney, R. (2004). Active Feature-Value Acquisition for Classifier Induction. Proceedings of the 4th

IEEE International Conference on Data Mining, (pp. 483-486). Brighton,

UK.

10. Pallant, J. (2007). SPSS survival manual (3rd ed.). New York, NY: Open University Press.

11. Pedro J. Garcı´a-Laencina Æ Jose´-Luis Sancho-Go´mez Æ , A. R.-V. (2010).

Pattern classification with missing data: a review. Neural Comput & Applic.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

45

12. Peng, C. Y. J., Harwell, M., Liou, S.M., & Ehman, L.H. (2006). Advances in missing data methods and implications for educational research. In Real

data analysis, 31-78. North Carolina,US : Information Age Publishing.

13. Quinlan, J. R. (1989). Unknown attribute values in induction., In ML (pp.

164-168).

14. Rubin, D. B. (1987). Multiple imputation for non-response in surveys. New York: John Wiley & Sons.

15. Saar-Tsechansky, M., Melville, P., & Provost, F. (2009, 4). Active Feature-Value Acqusition. Management Science, 55(4), 664-684.

16. Schafer, J. L. (1999). Multiple imputation: a primer. Statiscal methods in

medical research, 8(1), 3-15.

17. Schlomer, G. L., Bauman, S., & Card, N. A. (2010). Best Practices for

Missing Data Management in Counseling Psychology. Journal of

Counseling Psychology, 57(1), 1-10.

18. Simon, H. A., & Lea, G. (1974). Problem solving and rule induction: A unified view. Knowledge and cognition. Oxford, England: Lawrence Erlbaum.

19. Simon, H., & Lea, G. (1974). Problem solving and rule induction: A unified

view.

20. Turney, P. (2000). Types of Cost in Inductive Concept Learning.

Proceedings of the Cost-Sensitive Learning Workshop at the 17th ICML-2000 Conference. Stanford, CA.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

46

21. Vinod, N. C., & Punithavalli, D. M. (2011). Classification of Incomplete Data Handling Techniques-An Overview. International Journal on

Computer Science and Engineering, 3(1), 340-344.

22. Zheng, Z., & Padmanabhan, B. (2002). On Active Learning for Data Acquisition. Proceedings of IEEE International Condference on Data

Mining, (pp. 562-569).

網路資料

1.

UCI machine Learning Repository. (n.d.). Retrieved from

http://archive.ics.uci.edu/ml/

相關文件