未來新進資料欲分類時

第四章研究結果

第二節實驗結果

4.2.2 未來新進資料欲分類時

Error Sampling I Sampling

極 Sampling 和 I Sampling 兩種方式選值進行比較，發現 I Sampling 表現均較 Random Sampling 較好(表 4.11)，我們推測是因為完整的訓練資料已建立好明確分類的準則，因此具有遺失值的新進資料依據該填值順序填補後，可以有更好

Parkinsons

80.81

83.08 Pima

70.59

73.81 Zoo

75.04

88.60

‧

升幅度遠比 Error Sampling 快(圖 4.18-4.24)，以 Audiology 為例(圖 4.18)，欲達到 60%的準確率時，使用 I Sampling 僅需取得 70 個數據，而 Random Sampling 時需要 460 數據，兩種方式所需取得的數據量差異頗大。因此，在未來面對新

250 350 450 550 650 750 850

Accuracy (%)

Number of feature-value acquired

Audiology

Accuracy (%)

Number of feature-value acquired

Breast tissue

R I

‧

150 200 250 300 350 400 450 500 550

Accuracy (%)

Number of feature-value acquired

Leaf

Accuracy (%)

Number of feature-value acquired

Glass

R I

‧

100 150 200 250 300 350 400 450

Accuracy (%)

Number of feature-value acquired

Parkinsons

150 250 350 450 550 650

Accuracy (%)

Number of feature-value acquired

Pima

R I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.24 Zoo 測試資料有遺失值時的學習曲線

50 60 70 80 90 100

40 60 80 100 120 140 160

Accuracy (%)

Number of feature-value acquired

Zoo

R I

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 第五章結論與建議

第一節結論

預測模型在商業智慧中扮演重要的角色，許多企業皆可透過資料採礦技術，從一群資料中挖掘有用的資訊與知識做出預測，支援企業決策分析，提升企業的競爭優勢。但是在一群具有遺失值的資料當中，要如何提升預測模型的分類能力與精準程度又是極大的考驗，因此，延續處理遺失值的議題，本研究提出一個填補的策略─I Sampling，優先考量一群具有遺失值資料中最大獲利的屬性值填補，使得在建立預測模型遇到遺失值時，可以有效率的選擇合適的遺失值，且不同於過去研究的方式，本方式一次僅選擇一個資料點填補，同時，

我們也考量在不同的遺失值情況下測試不同方式的適用性。

我們將實驗分成兩個部分，第一是了解 8 組資料在建立預測模型時，使用 Random Sampling、Error Sampling、I Sampling 三種方式處理遺失值選值順序的表現，第二部分則是當預測模型建立完畢後，未來具遺失值的新進資料根據預測模型的選填順序所填補後的結果，實驗結果總結如下。

1.

建立預測模型時

(1) 資料的筆數、屬性值數目、結果的分布對於選擇填值順序較無影響。

(2) 當訓練資料整體遺失比例較小時，I Sampling 表現最佳，而在遺失比例達到 50%時，Error Sampling 的表現有漸佳的趨勢。若以資料依屬性數目大小區分時，上述現象依然存在。

(3) 極端遺失值分布的極端程度與不同方法的表現有差異，極端遺失值分布較小時，使用 I Sampling 較好，但當整體遺失率平均越高時，

使用 Error Sampling 可達成的平均準確率較高。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(4) 有些資料本身準確率的改善程度不大，即便使用不同填值方式依然預測模型本身的分類能力並無太大改變，因此，未來欲測試檔案是否使用特定填值策略時，可以先就現有的資料隨機抽取部分數據進行實驗，了解該筆資料準確率的成長空間。

2.

未來新進資料愈分類時

(1) 所有資料使用 I Sampling 時皆較 Random Sampling 進步幅度快。

(2) 即便有資料不適用 I Sampling 處理預測模型的遺失值問題，但當預測模型以建立完整，透過 I Sampling 的填值順序可以快速提升未來新進資料的分類精準程度。

第二節研究貢獻與建議 5.2.1 學術貢獻與建議

在 Active Feature-Value Acquisition 的研究議題當中，我們提出了一個新的處理遺失值的方式，優先將決策樹上的根節點是重要屬性這個概念納入填值策略，衍生出 I Sampling 的想法，同時，有別於現有的「row-oriented」的填值方式，我們也是首先思考以「column-oriented」(或是「attribute-oriented」)的方式處理訓練資料的遺失值，並考慮一次僅填補一個資料點，處理最具關鍵性的遺失值。

5.2.2 實務貢獻與建議

現實生活中預測模型的應用十分廣泛，像是銀行進行融資業務時，需從消費者的消費記錄、信用評等資料判斷放款額度，或是電子商務業者透過觀測前在消費者瀏覽網頁與購物記錄中，預測其消費的偏好與未來消費的可能，抑或是醫生判斷病患的病情時，需要根據許多的就診資料瞭解病患的狀況並適時給予不同的診療。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

為了貼近現實世界中的應用，我們實驗了許多資料遺失的情境，並且根據不同的情境歸納結果，找出適用的填值策略，期望未來企業界在建立預測模型，或是欲將新的一筆資料進行歸類時，可以用較少的經費，以最有效率的取得重要的遺失資訊，減少預測未來的偏誤。

第三節研究限制與後續研究方向 5.3.1 研究限制

1. 並未取得數據的相關成本資訊

本研究的實驗數據主要自 UCI Machine Learning 網站蒐集，但由於數據蒐集的緣故，本研究並沒有將成本因素列入考量，因此當使用 I

Sampling 方式選定屬性值填補時，很有可能選擇到的關建屬性值的取得成本較高。

2. 較少嘗試資料量較大的數據

受限於實驗的時間，我們並未嘗試資料量較大的數據，因此無法試驗與比較本研究所提出的 I Sampling 是否合適於更大的資料量。

5.3.2 未來研究建議

1.

納入資訊取得成本一同考量

未來若在進行相關研究時，可以考量尋找具有成本資訊的相關數據，

將遺失值的成本資訊與重要性一同評估，也許可以透過給予權重或是或是其他的評估方式，找出更有效率、更貼近現實情境的填值策略。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.

將 Error Sampling 的想法納入 I Sampling 中

考量到填值策略的效率，假設現在的填值經費只夠填補 22 個數據，但從 I Sampling 方式所選擇的關建屬性有 40 個遺失值，除了從 40 個遺失值中隨機選擇填補外，或許未來可以將 Error Sampling 的想法與 I Sampling 的想法結合，從這 40 個數據中先填補被分類錯誤的數據(Error Sampling 的概念)。

3.

改善程式運作

以更大規模的數據融入 I Sampling 的想法進行實驗，將可以更精準的找到合適的遺失值填補方式。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 參考文獻

外文文獻

1. Bennett, D. A. (2001), “How can I deal with missing data in my study?

“Australian and New Zealand Journal of Public Health, 25(5), 464–469.

2. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM, 39(11), 27-35.

3. Gilks, W. R., Richardson, S.,& Spiegelhalter, D. J. (1996). Introducing Markov chain Monte Carlo. In Markov chain Monte Carlo in practice (pp.

1-19). London: Chapman & hall/CRC.

4. Kohavi, R. (1995, August). A study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. In IJCAI, (Vol.14, No.2, pp.

1137-1145).

5. Levin, N., & Zahavi, J. (2001). Predictive modeling using segmentation.

Journal of Interactive Marketing, 15(2), 2-22.

6. Lindenbaum, M., Markovitch, S., & Rusakov, D. (2004). Selective

Sampling for Nearest Neighbor Classifiers. Machine Learning, 54(2), 125-152.

7. Lizotte, D. J., Madani, O., & Greiner, R. (2002, August). Budgeted learning of Naive-Bayes Classifiers. In Proceedings of the Nineteenth conference on Uncertainty in Artificial Intelligence (pp. 378-385). Morgan Kaufmann Publishers Inc..

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

8. Melville, P., Saar-Tsechansky, M., Provost, F., & Mooney, R. (2004, November). Active Feature-Value Acquisition for Classifier Induction. In Proceedings of the 4th IEEE International Conference on Data Mining. (pp.

483-486). Brighton, UK.

9. Peng, C. Y. J., Harwell, M., Liou, S.M., & Ehman, L.H. (2006). Advances in missing data methods and implications for educational research. In Real data analysis, 31-78. North Carolina,US : Information Age Publishing.

10. Pyle , D. (1999). Data Preparation for Data Mining. Massachusetts:

Morgan Kaufmann.

11. Quinlan, J. R. (1989, December). Unknown attribute values in induction. In ML (pp. 164-168).

12. Redman, T. C. (1996). Data quality for the information age. Massachusetts:

Artech House, Incorporated.

13. Rubin, D. B. (1987). Multiple imputation for non-response in surveys. New York: John Wiley & Sons.

14. Saar-Tsechansky, M., Melville, P., & Provost, F. (2009, 4). Active Feature-Value Acquisition. Management Science,55(4), 664-684.

15. Schafer, J. L. (1999). Multiple imputation: a primer. Statiscal methods in medical research, 8(1), 3-15.

16. Schlomer, G. L., Bauman, S., & Card, N. A. (2010). Best Practices for Missing Data Management in Counseling Psychology. Journal of Counseling Psychology, 57(1), 1-10.

17. Settles, B. (2010). Active Learning Literature Survey. Computer Sciences Technical Report 1648, Unversity of Wisconsin, Madison, 52, 55-66.

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

18. Simon, H. A., & Lea, G. (1974). Problem solving and rule induction: A unified view. Knowledge and cognition. Oxford, England: Lawrence Erlbaum.

19. Tong, S., & Koller, D. (2001, August). Active learning for structure in Bayesian networks. In International joint conference on artificial intelligence, (vol. 17, No.1, pp. 863-869).

20. Vinod, N. C., & Punithavalli, D. M. (2011). Classification of Incomplete Data Handling Techniques-An Overview. International Journal on Computer Science and Engineering, 3(1), 340-344.

21. Zheng, Z., & Padmanabhan, B. (2002). On Active Learning for Data Acquisition. In Proceedings of IEEE International Condference on Data Mining. (pp. 562-569).

22. Zhu, X., & Wu, X. (2005). Cost-Constrained Data Acquisition for

Intelligent Data Preparation. IEEE Transactions on Knowledge and Data Engineering, 17(11), 1542-1556.

中文文獻

1. 麥爾荀伯格、庫基耶 (2013)，大數據 (初版) (林俊宏譯)，台北市：天 下文化 (原著出版年：2013 年)。

2. 王鴻龍、楊孟麗、陳俊如、林定香 (2012)，缺失資料在因素分析上的處理方法之研究，教育科學研究期刊，第五十七卷第一期，頁 29-50。

3. 吳元彰、沈永勝、楊鍵樵 (2007)，應用加權式灰關聯法與自動分群技術於遺失值填補問題，技術學刊，第二十二卷第一期，頁 77-87。

4. 彼得杜拉克(1980)，動盪時代下的經營(初版)(李辛模譯)，台北市: 現代企業經營管理 (原著出版年：1980 年)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5. 林惠玲、陳正倉 (2004)，統計學：方法與應用，台北市：雙葉書廊。

6. 林曉芳 (2002)，以 Hot deck 插補法推估成就測驗之不完整作答反應，國立政治大學教育學系教育心理與輔導組博士學位論文，未出版，台北市。

7. 翁頌舜、梁德馨 (2002)，資料採礦資料缺值插補之變異數分析，輔仁管理評論，第九卷第三期，頁 163-180。

8. 馬芳資、林我聰 (2003)，決策樹形式知識之線上預測系統架構，圖書館學與資訊科學，第二十九卷第二期，頁 60-76。

9. 陳信木、林佳瑩 (1997)，調查資料之遺漏值的處置─以熱卡插補法為例，調查研究─方法與應用，第三期，頁 75-106。

10. 黃齡葦 (2005)，遺失資料之多重插補法模擬比較，國立台灣大學農藝學研究所碩士論文，未出版，台北市。

網路資料

1. UCI machine Learning Repository. (n.d.). Retrieved from https://archive.ics.uci.edu/ml/index.html

在文檔中預測模型的遺失值處理─選值順序的研究 - 政大學術集成 (頁 59-0)

第四章 研究結果

第二節 實驗結果

4.2.2 未來新進資料欲分類時

Error Sampling I Sampling

Parkinsons

83.08

Pima

73.81

Zoo

88.60

‧

Audiology

Breast tissue

‧

Leaf

Glass

‧

Parkinsons

Pima

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Zoo

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 第五章 結論與建議

第一節 結論

1.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.

第二節 研究貢獻與建議 5.2.1 學術貢獻與建議

5.2.2 實務貢獻與建議

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 研究限制與後續研究方向 5.3.1 研究限制

1. 並未取得數據的相關成本資訊

2. 較少嘗試資料量較大的數據

5.3.2 未來研究建議

1.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.

3.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 參考文獻

外文文獻

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

中文文獻

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章研究結果

第二節實驗結果

立政治大學

立政治大學

l C h engchi U ni ve rs it y 第五章結論與建議

第一節結論

立政治大學

第二節研究貢獻與建議 5.2.1 學術貢獻與建議

立政治大學

第三節研究限制與後續研究方向 5.3.1 研究限制

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學