國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
42
第五章 結論與建議
第一節 結論
預測模型中的訓練資料若有遺失值,則會影響模型的預測能力,因此如何處 理遺失值就變成一個重要的問題。本研究的範疇是在「用特定的成本」去真實取 得遺失的資料,我們提出了新的填補順序 U-Sampling,以用更有效率的方式填 補遺失值。
有別於過去的研究中 row-based 的方法,是以「受試者的重要性」來排列填 補順序,本研究提出的 U-Sampling 是一個 column-based 的方法,以「特徵值的 重要性」來排列填補順序,其目的是判斷每一種不同特徵值的重要順序。
在過去的文獻中 Uncertainty Score 的「高低」 被用來判斷一個受試者是否 容易被歸到錯的類別,其值越低則越容易被分類錯誤。但在本研究中進一步把受 試者的每一個特徵值分開,輪流把每一個特徵值用遺失值取代,並且計算其對整 個模型 Uncertainty Score「變化量」,「變化量」越大則被列為較重要的特徵值。
我們對 8 組不同的資料集合各自進行三次的遺失值填補實驗,每次的遺失比 例不同,主要的結果列在下面各項中
1. 在總共 22 個情境下 U-Sampling 在 70%以上的實驗表現都好於 Random Sampling 以及 Error Sampling,因此平均上情況使用 U-Sampling 會節省成本。
2.對於某些資料,取得更多的特徵值並不會增加決策樹對結果預測的準確率,
在此種情況下額外在花成本取得遺失值便沒有太大的意義。因此在使用 U-Sampling 之前應判斷該資料是否需要做遺失值的處理。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
43
3. 在遺失比例小的時候(10%),平均準確率的進步幅度較小,我們推測原因 是資料在遺失比例低的時候,填補遺失值並不會對其模型造成太大的影響。不過 隨著遺失比例增加(30%~50%),準確率的進步幅度也隨之增加。
4. 我們也模擬了「未來資料」填值順序的實驗,在遺失比例 70%的前提下,
依照 U-Sampling 的填值順序來填補資料,其準確率會比 Random Sampling 為高,
因此不論是用於建立決策樹模型或是未來希望被正確分類的資料,U-Sampling 都提供了一個節省成本的選值順序。
第二節 研究限制及建議 5.2.1 研究限制
1. 在本研究中我們並沒有關於資料的成本資訊。因此我們假設每個資料的 取得成本相同,純粹使用特徵值的重要性去排序。
2. 受限於實驗時間以及程式運作速度,我們並沒有應用到非常大的資料集 合。
5.2.2 未來建議
1. 加入成本的資訊,配合 U-Sampling 所提供的重要性,將可以做加權計算,
再去判斷哪一個資訊是最重要的。
2. 除了 column-based 的方法外,也可以把 Error Sampling 的概念納入其中,
先選到重要的「特徵值」之後再選重要的「受試者」。
3. 改善程式的速度,可以把 U-Sampling 實驗在更大的資料集合上。
‧
1. Allison, P. D. (2001). Missing data. Thousand Oaks, CA: Sage.
2. Alpaydın, E. (2010). Introduction to machine learning. London, England:
The MIT Press.
3. Bennett, D. A. (2001). How can I deal with missing data in my study?
Australian and New Zealand Journal of Public Health, 25(5), 464–469.
4. Giks, Walter R ; Richardson, Sylvia; Spiegelhalter, David J. (1996).
Introducing Markov chain Monte Carlo. In Markov chain Monte Carlo in
practice (pp. 1-19). London: Chapman & hall/CRC.
5. Graham, J. W. (2003). Adding missing-data-relevant variables to FIML basedstructural equation models. Structural Equation Modeling, pp. 10, 80–
100.
6. Jackson, J. (2002). Overview, data mining: a conceptual. Communications
of the Association for Information Systems.
7. Kohavi, R. (1995). A study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. IJCAI, (Vol.14, No.2, pp. 1137-1145).
8. Levin, N., & Zahav, J. (2001, Spring). Predictive modeling using segmentation. Journal of Interactive Marketing, 15(2), 2-22.
9. Melville, P., Saar-Tsechansky, M., Provost, F., & Mooney, R. (2004). Active Feature-Value Acquisition for Classifier Induction. Proceedings of the 4th
IEEE International Conference on Data Mining, (pp. 483-486). Brighton,
UK.10. Pallant, J. (2007). SPSS survival manual (3rd ed.). New York, NY: Open University Press.
11. Pedro J. Garcı´a-Laencina Æ Jose´-Luis Sancho-Go´mez Æ , A. R.-V. (2010).
Pattern classification with missing data: a review. Neural Comput & Applic.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
45
12. Peng, C. Y. J., Harwell, M., Liou, S.M., & Ehman, L.H. (2006). Advances in missing data methods and implications for educational research. In Real
data analysis, 31-78. North Carolina,US : Information Age Publishing.
13. Quinlan, J. R. (1989). Unknown attribute values in induction., In ML (pp.
164-168).
14. Rubin, D. B. (1987). Multiple imputation for non-response in surveys. New York: John Wiley & Sons.
15. Saar-Tsechansky, M., Melville, P., & Provost, F. (2009, 4). Active Feature-Value Acqusition. Management Science, 55(4), 664-684.
16. Schafer, J. L. (1999). Multiple imputation: a primer. Statiscal methods in
medical research, 8(1), 3-15.
17. Schlomer, G. L., Bauman, S., & Card, N. A. (2010). Best Practices for
Missing Data Management in Counseling Psychology. Journal of
Counseling Psychology, 57(1), 1-10.18. Simon, H. A., & Lea, G. (1974). Problem solving and rule induction: A unified view. Knowledge and cognition. Oxford, England: Lawrence Erlbaum.
19. Simon, H., & Lea, G. (1974). Problem solving and rule induction: A unified
view.
20. Turney, P. (2000). Types of Cost in Inductive Concept Learning.
Proceedings of the Cost-Sensitive Learning Workshop at the 17th ICML-2000 Conference. Stanford, CA.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
46
21. Vinod, N. C., & Punithavalli, D. M. (2011). Classification of Incomplete Data Handling Techniques-An Overview. International Journal on
Computer Science and Engineering, 3(1), 340-344.
22. Zheng, Z., & Padmanabhan, B. (2002). On Active Learning for Data Acquisition. Proceedings of IEEE International Condference on Data
Mining, (pp. 562-569).
網路資料
1.