• 沒有找到結果。

第四章 研究結果

第二節 實驗結果

4.2.2 未來新進資料欲分類時

Error Sampling I Sampling

極 Sampling 和 I Sampling 兩種方式選值進行比較,發現 I Sampling 表現均較 Random Sampling 較好(表 4.11),我們推測是因為完整的訓練資料已建立好明確 分類的準則,因此具有遺失值的新進資料依據該填值順序填補後,可以有更好

Parkinsons

80.81

83.08

Pima

70.59

73.81

Zoo

75.04

88.60

升幅度遠比 Error Sampling 快(圖 4.18-4.24),以 Audiology 為例(圖 4.18),欲達 到 60%的準確率時,使用 I Sampling 僅需取得 70 個數據,而 Random Sampling 時需要 460 數據,兩種方式所需取得的數據量差異頗大。因此,在未來面對新

250 350 450 550 650 750 850

Accuracy (%)

Number of feature-value acquired

Audiology

Accuracy (%)

Number of feature-value acquired

Breast tissue

R I

150 200 250 300 350 400 450 500 550

Accuracy (%)

Number of feature-value acquired

Leaf

Accuracy (%)

Number of feature-value acquired

Glass

R I

100 150 200 250 300 350 400 450

Accuracy (%)

Number of feature-value acquired

Parkinsons

150 250 350 450 550 650

Accuracy (%)

Number of feature-value acquired

Pima

R I

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.24 Zoo 測試資料有遺失值時的學習曲線

50 60 70 80 90 100

40 60 80 100 120 140 160

Accuracy (%)

Number of feature-value acquired

Zoo

R I

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y 第五章 結論與建議

第一節 結論

預測模型在商業智慧中扮演重要的角色,許多企業皆可透過資料採礦技 術,從一群資料中挖掘有用的資訊與知識做出預測,支援企業決策分析,提升 企業的競爭優勢。但是在一群具有遺失值的資料當中,要如何提升預測模型的 分類能力與精準程度又是極大的考驗,因此,延續處理遺失值的議題,本研究 提出一個填補的策略─I Sampling,優先考量一群具有遺失值資料中最大獲利的 屬性值填補,使得在建立預測模型遇到遺失值時,可以有效率的選擇合適的遺 失值,且不同於過去研究的方式,本方式一次僅選擇一個資料點填補,同時,

我們也考量在不同的遺失值情況下測試不同方式的適用性。

我們將實驗分成兩個部分,第一是了解 8 組資料在建立預測模型時,使用 Random Sampling、Error Sampling、I Sampling 三種方式處理遺失值選值順序的 表現,第二部分則是當預測模型建立完畢後,未來具遺失值的新進資料根據預 測模型的選填順序所填補後的結果,實驗結果總結如下。

1.

建立預測模型時

(1) 資料的筆數、屬性值數目、結果的分布對於選擇填值順序較無影 響。

(2) 當訓練資料整體遺失比例較小時,I Sampling 表現最佳,而在遺失 比例達到 50%時,Error Sampling 的表現有漸佳的趨勢。若以資料 依屬性數目大小區分時,上述現象依然存在。

(3) 極端遺失值分布的極端程度與不同方法的表現有差異,極端遺失值 分布較小時,使用 I Sampling 較好,但當整體遺失率平均越高時,

使用 Error Sampling 可達成的平均準確率較高。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(4) 有些資料本身準確率的改善程度不大,即便使用不同填值方式依然 預測模型本身的分類能力並無太大改變,因此,未來欲測試檔案是 否使用特定填值策略時,可以先就現有的資料隨機抽取部分數據進 行實驗,了解該筆資料準確率的成長空間。

2.

未來新進資料愈分類時

(1) 所有資料使用 I Sampling 時皆較 Random Sampling 進步幅度快。

(2) 即便有資料不適用 I Sampling 處理預測模型的遺失值問題,但當預 測模型以建立完整,透過 I Sampling 的填值順序可以快速提升未來 新進資料的分類精準程度。

第二節 研究貢獻與建議 5.2.1 學術貢獻與建議

在 Active Feature-Value Acquisition 的研究議題當中,我們提出了一個新的 處理遺失值的方式,優先將決策樹上的根節點是重要屬性這個概念納入填值策 略,衍生出 I Sampling 的想法,同時,有別於現有的「row-oriented」的填值方 式,我們也是首先思考以「column-oriented」(或是「attribute-oriented」)的方式 處理訓練資料的遺失值,並考慮一次僅填補一個資料點,處理最具關鍵性的遺 失值。

5.2.2 實務貢獻與建議

現實生活中預測模型的應用十分廣泛,像是銀行進行融資業務時,需從消 費者的消費記錄、信用評等資料判斷放款額度,或是電子商務業者透過觀測前 在消費者瀏覽網頁與購物記錄中,預測其消費的偏好與未來消費的可能,抑或 是醫生判斷病患的病情時,需要根據許多的就診資料瞭解病患的狀況並適時給 予不同的診療。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

為了貼近現實世界中的應用,我們實驗了許多資料遺失的情境,並且根據 不同的情境歸納結果,找出適用的填值策略,期望未來企業界在建立預測模 型,或是欲將新的一筆資料進行歸類時,可以用較少的經費,以最有效率的取 得重要的遺失資訊,減少預測未來的偏誤。

第三節 研究限制與後續研究方向 5.3.1 研究限制

1. 並未取得數據的相關成本資訊

本研究的實驗數據主要自 UCI Machine Learning 網站蒐集,但由於數 據蒐集的緣故,本研究並沒有將成本因素列入考量,因此當使用 I

Sampling 方式選定屬性值填補時,很有可能選擇到的關建屬性值的取得成 本較高。

2. 較少嘗試資料量較大的數據

受限於實驗的時間,我們並未嘗試資料量較大的數據,因此無法試驗 與比較本研究所提出的 I Sampling 是否合適於更大的資料量。

5.3.2 未來研究建議

1.

納入資訊取得成本一同考量

未來若在進行相關研究時,可以考量尋找具有成本資訊的相關數據,

將遺失值的成本資訊與重要性一同評估,也許可以透過給予權重或是或是 其他的評估方式,找出更有效率、更貼近現實情境的填值策略。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.

將 Error Sampling 的想法納入 I Sampling 中

考量到填值策略的效率,假設現在的填值經費只夠填補 22 個數據,但 從 I Sampling 方式所選擇的關建屬性有 40 個遺失值,除了從 40 個遺失值 中隨機選擇填補外,或許未來可以將 Error Sampling 的想法與 I Sampling 的想法結合,從這 40 個數據中先填補被分類錯誤的數據(Error Sampling 的 概念)。

3.

改善程式運作

以更大規模的數據融入 I Sampling 的想法進行實驗,將可以更精準的 找到合適的遺失值填補方式。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y 參考文獻

外文文獻

1. Bennett, D. A. (2001), “How can I deal with missing data in my study?

“Australian and New Zealand Journal of Public Health, 25(5), 464–469.

2. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD Process for Extracting Useful Knowledge from Volumes of Data. Communications of the ACM, 39(11), 27-35.

3. Gilks, W. R., Richardson, S.,& Spiegelhalter, D. J. (1996). Introducing Markov chain Monte Carlo. In Markov chain Monte Carlo in practice (pp.

1-19). London: Chapman & hall/CRC.

4. Kohavi, R. (1995, August). A study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. In IJCAI, (Vol.14, No.2, pp.

1137-1145).

5. Levin, N., & Zahavi, J. (2001). Predictive modeling using segmentation.

Journal of Interactive Marketing, 15(2), 2-22.

6. Lindenbaum, M., Markovitch, S., & Rusakov, D. (2004). Selective

Sampling for Nearest Neighbor Classifiers. Machine Learning, 54(2), 125-152.

7. Lizotte, D. J., Madani, O., & Greiner, R. (2002, August). Budgeted learning of Naive-Bayes Classifiers. In Proceedings of the Nineteenth conference on Uncertainty in Artificial Intelligence (pp. 378-385). Morgan Kaufmann Publishers Inc..

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8. Melville, P., Saar-Tsechansky, M., Provost, F., & Mooney, R. (2004, November). Active Feature-Value Acquisition for Classifier Induction. In Proceedings of the 4th IEEE International Conference on Data Mining. (pp.

483-486). Brighton, UK.

9. Peng, C. Y. J., Harwell, M., Liou, S.M., & Ehman, L.H. (2006). Advances in missing data methods and implications for educational research. In Real data analysis, 31-78. North Carolina,US : Information Age Publishing.

10. Pyle , D. (1999). Data Preparation for Data Mining. Massachusetts:

Morgan Kaufmann.

11. Quinlan, J. R. (1989, December). Unknown attribute values in induction. In ML (pp. 164-168).

12. Redman, T. C. (1996). Data quality for the information age. Massachusetts:

Artech House, Incorporated.

13. Rubin, D. B. (1987). Multiple imputation for non-response in surveys. New York: John Wiley & Sons.

14. Saar-Tsechansky, M., Melville, P., & Provost, F. (2009, 4). Active Feature-Value Acquisition. Management Science,55(4), 664-684.

15. Schafer, J. L. (1999). Multiple imputation: a primer. Statiscal methods in medical research, 8(1), 3-15.

16. Schlomer, G. L., Bauman, S., & Card, N. A. (2010). Best Practices for Missing Data Management in Counseling Psychology. Journal of Counseling Psychology, 57(1), 1-10.

17. Settles, B. (2010). Active Learning Literature Survey. Computer Sciences Technical Report 1648, Unversity of Wisconsin, Madison, 52, 55-66.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

18. Simon, H. A., & Lea, G. (1974). Problem solving and rule induction: A unified view. Knowledge and cognition. Oxford, England: Lawrence Erlbaum.

19. Tong, S., & Koller, D. (2001, August). Active learning for structure in Bayesian networks. In International joint conference on artificial intelligence, (vol. 17, No.1, pp. 863-869).

20. Vinod, N. C., & Punithavalli, D. M. (2011). Classification of Incomplete Data Handling Techniques-An Overview. International Journal on Computer Science and Engineering, 3(1), 340-344.

21. Zheng, Z., & Padmanabhan, B. (2002). On Active Learning for Data Acquisition. In Proceedings of IEEE International Condference on Data Mining. (pp. 562-569).

22. Zhu, X., & Wu, X. (2005). Cost-Constrained Data Acquisition for

Intelligent Data Preparation. IEEE Transactions on Knowledge and Data Engineering, 17(11), 1542-1556.

中文文獻

1. 麥爾荀伯格、庫基耶 (2013),大數據 (初版) (林俊宏譯),台北市:天 下文化 (原著出版年:2013 年)。

2. 王鴻龍、楊孟麗、陳俊如、林定香 (2012),缺失資料在因素分析上的 處理方法之研究,教育科學研究期刊,第五十七卷第一期,頁 29-50。

3. 吳元彰、沈永勝、楊鍵樵 (2007),應用加權式灰關聯法與自動分群技 術於遺失值填補問題,技術學刊,第二十二卷第一期,頁 77-87。

4. 彼得杜拉克(1980),動盪時代下的經營(初版)(李辛模譯),台北市: 現 代企業經營管理 (原著出版年:1980 年)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5. 林惠玲、陳正倉 (2004),統計學:方法與應用,台北市:雙葉書廊。

6. 林曉芳 (2002),以 Hot deck 插補法推估成就測驗之不完整作答反 應,國立政治大學教育學系教育心理與輔導組博士學位論文,未出 版,台北市。

7. 翁頌舜、梁德馨 (2002),資料採礦資料缺值插補之變異數分析,輔仁 管理評論,第九卷第三期,頁 163-180。

8. 馬芳資、林我聰 (2003),決策樹形式知識之線上預測系統架構,圖書 館學與資訊科學,第二十九卷第二期,頁 60-76。

9. 陳信木、林佳瑩 (1997),調查資料之遺漏值的處置─以熱卡插補法為 例,調查研究─方法與應用,第三期,頁 75-106。

10. 黃齡葦 (2005),遺失資料之多重插補法模擬比較,國立台灣大學農藝 學研究所碩士論文,未出版,台北市。

網路資料

1. UCI machine Learning Repository. (n.d.). Retrieved from https://archive.ics.uci.edu/ml/index.html

相關文件