緒論 - 預測模型中遺失值之選填順序研究

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章緒論

第一節研究背景

預測模型的建立在許多商業智慧中都扮演重要的腳色，不論是運用歷史資料來判斷消費者行為，或是建立模型偵測詐騙行為。而一個預測模型的品質往往跟他的訓練資料有關 (Saar-Tsechansky, Melville, & Provost, 2009)。而在訓練資料中，

遺失值是一項常見的困難。試想一分消費者意見調查中遺失的意見、看法和答案，

或是在一份醫療檢驗報告中未完成或是未紀錄的數據，或是在銀行借貸的時候缺少顧客的信用資料所導致訓練資料不完整，都可以對其所建立的模型預測能力產生很大的影響。因此，若能找到有效處理遺失值方法，在未來資料處理上將會使預測模型的建立有很大的助益。

在處理訓練資料的遺失值時，可以使用刪除法，包括成批或成對刪除法，也可以使用現有的資料對其做預測，例如平均數填補、回歸填補、最大可能性法等等。其計算成本和效果各有優缺點 (Schlomer, Bauman, & Card, 2010)。使用刪除法可以節省許多成本，但是相對的可能大幅減低樣本數量，也可能無法比較每個不同分析方式，因為其刪除的訓練資料可能不同。另外其他填補式的方法則試著去模擬整體資料的各種參數(平均數、變異數)，既然是預測就會產生誤差，因此有些太單純的方式，例如平均數填補法被很多專家反對 (Allison, 2001；Bennett D.

A., 2001；Graham, 2003；Pallant, 2007)。

另一種作法是實際去取得遺失值，則資料就會變得更為完整。但是此種方法將會花費額外的成本，若是要取得全部的遺失值則可能產生無法負擔的高成本 (Melville, Saar-Tsechansky, Provost, & Mooney, 2004)。因此，若是要採用這個方法，

就必須在實際花成本取得遺失值時用對的方法去挑選對於整個模型的預測能力貢獻比較大的特徵值。這也是本研究探討的主題，希望可能找出節省成本的方式去取得需要的遺失值，來增加整體模型的預測能力。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節研究動機與目的

很多時候預測模型的工作涵蓋了許多遺失值，而這些遺失值是可以用成本去取得他的，但如果想要取得所有的遺失值，其成本可能高到難以負荷 (Melville et al., 2004)。但是在建立分類模型時，如果訓練資料含有遺失值會導致其表現變差，如果直接忽略遺失值，更可能使模型的預測能力降低 (Quinlan, 1989)。

在很多預測模型的研究中關鍵的資料並不完整，但可以用成本去取得他。但傳統上「資訊取得」和「建立模型」是兩個獨立的議題。也就是說蒐集資料時並沒有考慮到預測模型想達到的目標。不過這兩者應該是要具有相關性，因為新取得的資訊或影響到從訓練資料建立的模型，而且這可以用來幫助決定取得哪一些新資訊會是最有用的 (Simon & Lea, 1974)。

AFA(Active Feature Acquisition)是關於選值順序的相關研究，其背後的原理是依照成本/效率的考量，逐步選出要取得的特徵值 (Saar-Tsechansky, Melville, &

Provost, 2009)。因此，本研究延續 AFA 的概念，目的在於取得新資訊的同時，

觀察其對預測模型的影響，知道其影響力大小的順序之後便可以先取得影響力較大的資訊，如此一來便可以用較低的成本，獲得資訊含量較高的資料。在提出方法後，將透過和過去文獻中提出的方法比較，測試其在準確率及錯誤減少率上是否有進步，並分析不同的資料型態一窺其適用性。

本研究的研究目的整理如下：

1.在一份訓練資料中，判斷每個特徵值的重要性順序來決定填值順序 2.比較現有的填值順序方法與本研究的優缺點

3.試驗本方法在不同的資料遺失型態中的適用性

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節研究架構

在本研究中，我們提出 Uncertainty Score(不確定性值)的架構來判斷在一組資料中哪一些特徵值對於預測結果影響較大，並且把影響較大的特徵值定義為較重要的。之後使用 8 組美國 UCI Machine Learning Repository 網站提供的公開資料集作為測試資料。

我們使用資料包含類別型、數值型、混合型等數據形式，其中以疾病、生物體檢測為主要的研究對象。因為疾病確認、生物體檢測通常需要有高成本、高複雜度的辨識程序，可能是昂貴的實驗過程或是測試儀器。所以當資料有遺失值時，

選定每個特徵值的重要性會嚴重的影響成本的大小，因此在本研究中填值的時候是一次只填某個受試者的某個特徵值，而非一次就填完所有該受試者的所有特徵值。

過去不論是 Random sampling 或是 Error sampling 都不需要原始的完整資料，

隨時都可以應用在決策樹上，而本研究中提出的 U-sampling 需要先有一小筆完整的訓練資料來判斷不同特徵值的重要性，因此我們將會採用一開始完整的資料並且用人工的方式把部分資料用遺失值來取代。

本研究的架構共分成三大部分：「研究動機及目的及資料挑選」、「建立特徵值的重要順序」、「填值方式的測試與比較」以及「不同遺失值型態的影響」。在第一部分中先釐清資料來源的類型範疇，第二部分「建立遺失值選值的方式」根據過往的方法提出一套新的特徵值重要性排列方式，並依此決定填值順序，第三部分「填值方式的測試與比較」，利用 8 組生物檢驗、疾病判斷相關數據與先前文獻所提出的方式進行比較，第四部分「不同遺失值型態的影響」用不同的遺失值型態當作測試資料來觀察是否對於實驗的結果有影響。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節研究結果與貢獻

本研究中提出的 U Sampling 架構期望能從過去的歷史資料歸納出各個特徵值的重要性順序，並且依照這個順序來填補遺失值，並且同時建立決策樹模型來預測資料的分類結果，最後在觀察不同資料型態的遺失值是否對於實驗結果有影響。其主要貢獻如下

1. 提供一套新的架構衡量每個特徵值分類結果的重要性排序。

2. U-sampling 在 UCI 地 8 組資料中的準確率表現較 Random Sampling 以及 Error Sampling 為佳，並且我們把遺失比例從 0.1 到 0.7 分成四組比較，

可觀察在不同遺失比例下不同方法的適用性。U-sampling 應用在遺失值的取得上可以以較低的成本達到相同的準確率。

3. 分析和比較不同遺失值資料型態對於結果的影響，可以提供在不同資料形態下各個模型的表現差異及優缺點。

第五節論文架構

本論文將分成五個章節，第一章介紹本研究的動機與目的，第二章整理研究相關的文獻資料，建立本研究的基礎，第三章則說明本研究提出的填值方法、程式架構，第四章將呈現研究的結果，最後，在第五章則整理本研究的結論，並提出研究限制與相關建議，以供後續研究參考。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5 圖 1.1 研究架構

結論與貢獻/未來研究方向研究動機與目的

文獻回顧

設計遺失值選填方法

不同填補方式結果比較

不同遺失值型態對結果的影響

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中預測模型中遺失值之選填順序研究 - 政大學術集成 (頁 9-14)

緒論

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章 緒論

第一節 研究背景

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 研究動機與目的

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 研究架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節 研究結果與貢獻

第五節 論文架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

結論與貢獻/未來研究方向 研究動機與目的

文獻回顧

設計遺失值選填方法

不同填補方式結果比較

不同遺失值型態對結果的影響

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

第一章緒論

第一節研究背景

立政治大學

第二節研究動機與目的

立政治大學

第三節研究架構

立政治大學

第四節研究結果與貢獻

第五節論文架構

立政治大學

結論與貢獻/未來研究方向研究動機與目的

立政治大學