論文架構

第一章緒論

第五節論文架構

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節論文架構

本論文將分成五個章節，第一章介紹本研究的動機與目的，第二章整理研究相關的文獻資料，以建立研究基礎，第三章則說明本研究的所提出的方式與實驗方法，確認實驗的參考指標，第四章介紹實驗的數據，並且呈現實驗的結果，最後，在第五章我們將整理本研究的結論，提出研究限制與相關建議，以供後續研究參考。

圖 1.3 研究架構圖

結論與建議 研究動機與目的

文獻整理

建立遺失值選填方法

遺失值填補的方法評估

確認評估選值方法

的指標 其他遺失值選填方法

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 第二章文獻回顧

本研究欲探討遺失值填補順序的相關議題，並且提出一個新的方法，使得填值後的訓練模型可以達到更精準的預測結果，因此，本章將先從遺失值的特性與處理方式開始研討，並且了解現有的機器學習領域、分類方法相關議題，

最後整理相關 AFA(Active Feature-Value Acquisition)的理論與方法，找出目前還可以研討的方向與議題，據此提出新的選值方式。

第一節遺失值

欲在具有遺失值的資料中建立一個準確率高的模型，我們必須了解遺失值本身的屬性、遺失值的處理方式，並且對於使用機器學習的填值方式有進一步的認識，因此，以下將針對上述所提到的主題逐一整理文獻。

2.1.1 遺失值的種類

遺失值分類有以下幾種，而這些遺失值的分布狀況也將會影響我們在處理遺失值時的方法選擇。

1.

完全隨機遺失(MCAR, missing completely at random)

資料的遺失與否完全不受任何因素的影響，純粹是隨機發生的不論是依變數或應變數都與資料缺失無關，像是具備大學學歷與研究所學歷的人，在某一題的資料缺失的機率是一樣的，或是某受試者的檢體在運送途中破裂損壞等。由於缺失的資料是隨機出現的，因此完全隨機遺失是屬於可忽略的遺失機制 (王鴻龍、楊孟麗、陳俊如、林定香，2012)。

2.

隨機遺失(MAR, missing at random)

變數資料的遺失與否不受其他變數的影響，而是與被觀察的部分有

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

關。譬如高學歷的人，比較不願意回答目前的就業狀況，而當你控制這些變數時缺失資料的情況便成為隨機的，因此資料缺失的問題就可以忽略。

3.

非隨機遺失(NMAR ,Not missing at random)

非隨機因素產生的遺失值與其他遺失值有關，但與觀察到的部分無關。可能是問題本身太過敏感、受訪者刻意不填答或問卷太過冗長而隨便跳題亂答，此種情況下資料缺失是不能忽視的，研究者必須深入研究資料為何缺失。

2.1.2 遺失值處理方式

許多專家對於數據遺失的容忍程度上未有一致的標準，Schafer(1999)建議將數據遺失比例 5%為可忍受的臨界點，然而，有學者提到當數據遺失超過 10%時將造成統計上的偏差 (Bennett, 2009)，也有學者認為 20%的資料遺失會讓後續的資料分析失真 (Peng, 2006)。Vinod & Punithavalli (2011)則提出面對不同遺失比例的資料時應該的因應辦法(表 2.1)。

表 2.1 不同數據遺失比例的因應辦法

數據遺失比例 處理方式

<1%

可以忽略

1-5%

簡單處理

5-15%

需複雜的填值方式

>15%

需審慎考量適合的處理方式，以避免影響後續的分析

除了花費金錢取得真實的遺失值外，常見的處理遺失值的方法可以大致歸類成「刪除」、「插補法」、「模型建構法」，以下我們將詳細的介紹這三個類別。

1.

刪除

刪除法是將依照不同的研究需求將遺失的資料刪除，僅利用剩餘完整

‧

(1) 成批刪除法(list-wise)

蒐集的資料當中若有一變數為遺失值，則將整筆資料刪除，通常的樣本量不同，產生不穩定的共變量矩陣(unstable covariance matrix)，

因而在應用共變數矩陣進行多變量分析時，可能會產生統計計算上的

‧

類成為若干的「插補空格」（imputation cell），然後在每出現一個遺失值的觀察體中，依據其輔助變數的條件從相對應的「插補空格」中尋找一個觀察體，以其觀測所得的變項數值代替遺失值。通常「輔助變項」

的界定和選擇，與研究主題有關，如年齡、性別、教育、社會經濟地位等，而且若干個輔助便像所形成的眾多「插補空格」，必須是彼此周延 (exhaustive)、互斥(exclusive)、同質(homogeneous)的 (陳信木、林佳瑩，1997)。

 迴歸插補 (Regression Imputation)

迴歸法是將所要研究的變數區分成依變數、自變數，並根據相關理論建立合適的模型。

‧

(2) 多重插補法(Multiple imputation)：一種插補方法做多次插補

Rubin (1987)提出多重插補法，由每一個遺失值代入 m>1 個可能值，形成 m 套資料以供分析母體參數，而 m 通常介於 3 到 10 之間，並不太會使用太大的插補套數(Schafer, 1999)。使用上的優點為：可將有缺失的資料形成完整資料進行分析、增加估計效率、使其統計推結果更

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

採用 m=5 套資料已足夠，但當資料遺失的比例越高，所需要的套數也越多。

II. 使用這 m 組資料進行一般對完整資料的統計分析

III. 將所得的估計值加以組合，以獲得插補後的參數估計值(黃齡葦，

2005)

常見的多重插補法介紹如下。

 蒙地卡羅－馬可夫鏈法 (Markov Chain Monte Carlo)

蒙地卡羅－馬可夫鏈是一個隨機變量序列，其中每個元素的分布只受前一個數值的影響。在蒙地卡羅－馬可夫鏈的模擬下，構建了一個具有穩定分配的馬可夫鏈，插補值則由這個馬可夫鏈中抽出。

蒙地卡羅－馬可夫鏈有幾個步驟。首先，設起始值並利用這些起始值來估算先驗分布；第二步驟是插補步驟，從現有的先驗分布中重複隨機選擇一個值來取代缺失值，直到先驗分布達到穩定或前後兩個迭代的差異小於某一預設標準為止；第三步驟是後驗步驟，重新計算新的變異數矩陣。如果尚未得到最終估計值，新估出的變異矩陣可為下次迭代的插補步驟使用 (Giks, Walter R ; Richardson, Sylvia; Spiegelhalter, David J, 1996)。

3.

模型建構法

模型建構法主要是應用概似最大化(Maximum Likelihood)的統計理論，

替遺失值預設一個母體的分布情況，再以觀察的樣本資料在概似最大化的原則下估計參數值，就算遺失值的分布並非完全隨機，但是概似最大化的估計仍可能是一致有效的。(陳信木、林佳瑩，1997)

最大概似估計法假設樣本所來自的母群為常態分配，具有未知的參數

（平均值與變異數矩陣），先求出使概似函數（likelihood function）有最大值的參數聯立方程組，接著求出方程組的初始解，再持續修正參數值，直

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

到達到最高概似值為止，而最後具有最高概似值的參數值即為該參數的最大概似估計值。最大概似估計法在處理缺失時並不需要刪除具有缺失資料的觀察個體，也不必事先處理缺失值，可以直接自具有缺失值的資料中直接估計出平均數向量與共變矩陣，並不屬於插補法。

除了常見的三類處理遺失值的方法外，在資料探勘的概念下也有許多填補遺失值的方法被提出，例如：關聯法則(association rules)、群集分析 (clustering analysis)、機器式學習(machine learning)、K 筆近似鄰居法(k-nearest neighbors)等，這些方法的概念皆為應用資料探勘的工具於歷史資料集，期望能找出有利於填補遺失值的知識，進而推估其值 (吳元彰、沈永勝、楊鍵樵，2007)。

第二節機器學習

2.2.1 發展與原理

機器學習是由人工智慧的概念延伸而來，嘗試讓電腦程式從以往的經驗、

資料中學習(見圖 2.1)，利用資料來建立一些模擬真實世界的模式（model），

並運用模式來描述資料中的特徵（patterns）以及關係（relations），因此，具有以下兩項好處：(1)瞭解資料的特徵與關係，以提供做決策所需要的資訊；(2)根據所訓練的資料特徵進行預測。

圖 2.1 機器學習的概念

機器學習共分成「監督學習」、「無監督學習」與「半監督學習」三個類

機器學習

人工智慧 傳統統計學

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.2 AFA (Active feature-value acquisition)

主動學習法是機器學習領域中半監督式學習特別的方法，該學習演算法可以從部分訓練的資料集中建立的模型運用到新的資料上(圖 2.3)，已得到了較為廣泛的應用，Google、IBM、 Microsoft 等企業已將主動學習技術應用到商業資訊中 (Settles, 2010)。

圖 2.3 自主學習法示意圖資料來源：Settles (2010)

從主動學習法中衍生出來的 AFA(Active Feature-Value Acquisition)是指在給定一個取得資訊的預算之下，找出需要填補的遺失值使得整個預設的模型有更好的準確率。根據 Zheng and Padmanabhan(2002)的研究結果顯示，使用主動學習法取得該填的資料可以更有效率的建立模型。

在填補遺失值時有三個重點需考慮：「填值偵測」、「填值順序」、「填值方式」，以下我們將逐一介紹「填值偵測」與「填值順序」的方法。我們大致整理以下與 AFA 相關的演算法(圖 2.4)，同時也會介紹 AFA 常用的分類器。

‧

Active Feature-value Acquisition Framework Given:

G − set of complete data points I − set of incomplete data points

(1) Random sampling

隨機選取樣本是最簡單的選擇哪個遺失填補的方式，該方法即在從所有遺失值當中隨機選取欲填值的資料，根據 Prem Melville 等學者 (2004)的研究，欲達成相同的模型準確率時，此方法與其他方法相比需要填入最多的值。

(2) GODA (goal-oriented data acquisition)

傳統上的主動學習法研究主題為貪婪式的主動學習，貪婪策略

（Greedy Method）常用來解決最佳化問題（Optimization Problem），

在每一個步驟中做出目前看起來最好選擇，即局部最佳解，而一旦做出了選擇，就不再更改，並希望這樣的選擇可以得到全域的最佳解。

而 GODA 便是一種貪婪啟發方式(greedy heuristic)，其選取遺失值填補的順序說明如圖 2.4 所示。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.5 GODA 的流程

先前的實驗結果顯示貪婪式的取值方式可以有效的降低訓練資料的數量 (Tong & Koller, 2001)，但有學者表示貪婪式取值成效不如預期， (Lizotte, Madani, & Greiner, 2002)，也有學者指出該方法使用上較缺乏效率，無法獲得顯著的獲益 (Lindenbaum, Markovitch, & Rusakov, 2004)。

(3) Error Sampling

此方法是 Melville 等學者(2004)提出的，填值的順序將先參考以訓練資料建立的模型分類錯誤的該列的遺失值，而此方法也證實較 Random sampling 來得有效率。Error Sampling 的原理為先選擇被分類錯誤的遺失值填補，詳細說明如圖 2.6。

Step1

• 先以特定填值方式填補 k 個遺失值

Step2

• 將填補好的資料納入原先的資料建立預測模型

Step3

• 評估何種填值的組合可以達到最高的準確率

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.6 Error Sampling 的流程

其中，Uncertainty Score 的計算方式說明如下，當一棵決策樹建置完成後，可以用它來測試資料，假設該資料共有 k 種類別，決策樹可

在文檔中預測模型的遺失值處理─選值順序的研究 - 政大學術集成 (頁 14-0)

第一章 緒論

第五節 論文架構

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節 論文架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 第二章 文獻回顧

第一節 遺失值

2.1.1 遺失值的種類

1.

2.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.

2.1.2 遺失值處理方式

<1%

1-5%

5-15%

>15%

1.

‧

(1) 成批刪除法(list-wise)

‧

‧

(2) 多重插補法(Multiple imputation)：一種插補方法做多次插補

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 機器學習

2.2.1 發展與原理

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.2 AFA (Active feature-value acquisition)

‧

(1) Random sampling

(2) GODA (goal-oriented data acquisition)

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

(3) Error Sampling

Step1

Step2

Step3

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章緒論

第五節論文架構

立政治大學

第五節論文架構

立政治大學

l C h engchi U ni ve rs it y 第二章文獻回顧

第一節遺失值

立政治大學

立政治大學

立政治大學

第二節機器學習

立政治大學

立政治大學

立政治大學