第一章 緒論
第五節 論文架構
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第五節 論文架構
本論文將分成五個章節,第一章介紹本研究的動機與目的,第二章整理研 究相關的文獻資料,以建立研究基礎,第三章則說明本研究的所提出的方式與 實驗方法,確認實驗的參考指標,第四章介紹實驗的數據,並且呈現實驗的結 果,最後,在第五章我們將整理本研究的結論,提出研究限制與相關建議,以 供後續研究參考。
圖 1.3 研究架構圖
結論與建議 研究動機與目的
文獻整理
建立遺失值選填方法
遺失值填補的方法評估
確認評估選值方法
的指標 其他遺失值選填方法
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y 第二章 文獻回顧
本研究欲探討遺失值填補順序的相關議題,並且提出一個新的方法,使得 填值後的訓練模型可以達到更精準的預測結果,因此,本章將先從遺失值的特 性與處理方式開始研討,並且了解現有的機器學習領域、分類方法相關議題,
最後整理相關 AFA(Active Feature-Value Acquisition)的理論與方法,找出目前還 可以研討的方向與議題,據此提出新的選值方式。
第一節 遺失值
欲在具有遺失值的資料中建立一個準確率高的模型,我們必須了解遺失值 本身的屬性、遺失值的處理方式,並且對於使用機器學習的填值方式有進一步 的認識,因此,以下將針對上述所提到的主題逐一整理文獻。
2.1.1 遺失值的種類
遺失值分類有以下幾種,而這些遺失值的分布狀況也將會影響我們在處理 遺失值時的方法選擇。
1.
完全隨機遺失(MCAR, missing completely at random)資料的遺失與否完全不受任何因素的影響,純粹是隨機發生的不論是 依變數或應變數都與資料缺失無關,像是具備大學學歷與研究所學歷的 人,在某一題的資料缺失的機率是一樣的,或是某受試者的檢體在運送途 中破裂損壞等。由於缺失的資料是隨機出現的,因此完全隨機遺失是屬於 可忽略的遺失機制 (王鴻龍、楊孟麗、陳俊如、林定香,2012)。
2.
隨機遺失(MAR, missing at random)變數資料的遺失與否不受其他變數的影響,而是與被觀察的部分有
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
關。譬如高學歷的人,比較不願意回答目前的就業狀況,而當你控制這些 變數時缺失資料的情況便成為隨機的,因此資料缺失的問題就可以忽略。
3.
非隨機遺失(NMAR ,Not missing at random)非隨機因素產生的遺失值與其他遺失值有關,但與觀察到的部分無 關。可能是問題本身太過敏感、受訪者刻意不填答或問卷太過冗長而隨便 跳題亂答,此種情況下資料缺失是不能忽視的,研究者必須深入研究資料 為何缺失。
2.1.2 遺失值處理方式
許多專家對於數據遺失的容忍程度上未有一致的標準,Schafer(1999)建議 將數據遺失比例 5%為可忍受的臨界點,然而,有學者提到當數據遺失超過 10%時將造成統計上的偏差 (Bennett, 2009),也有學者認為 20%的資料遺失會 讓後續的資料分析失真 (Peng, 2006)。Vinod & Punithavalli (2011)則提出面對不 同遺失比例的資料時應該的因應辦法(表 2.1)。
表 2.1 不同數據遺失比例的因應辦法
數據遺失比例 處理方式
<1%
可以忽略1-5%
簡單處理5-15%
需複雜的填值方式>15%
需審慎考量適合的處理方式,以避免影響後續的分析除了花費金錢取得真實的遺失值外,常見的處理遺失值的方法可以大致歸 類成「刪除」、「插補法」、「模型建構法」,以下我們將詳細的介紹這三個類別。
1.
刪除刪除法是將依照不同的研究需求將遺失的資料刪除,僅利用剩餘完整
‧
(1) 成批刪除法(list-wise)
蒐集的資料當中若有一變數為遺失值,則將整筆資料刪除,通常 的樣本量不同,產生不穩定的共變量矩陣(unstable covariance matrix),
因而在應用共變數矩陣進行多變量分析時,可能會產生統計計算上的
‧
類成為若干的「插補空格」(imputation cell),然後在每出現一個遺失值 的觀察體中,依據其輔助變數的條件從相對應的「插補空格」中尋找一 個觀察體,以其觀測所得的變項數值代替遺失值。通常「輔助變項」的界定和選擇,與研究主題有關,如年齡、性別、教育、社會經濟地位 等,而且若干個輔助便像所形成的眾多「插補空格」,必須是彼此周延 (exhaustive)、互斥(exclusive)、同質(homogeneous)的 (陳信木、林佳 瑩,1997)。
迴歸插補 (Regression Imputation)
迴歸法是將所要研究的變數區分成依變數、自變數,並根據相關理 論建立合適的模型。
‧
(2) 多重插補法(Multiple imputation):一種插補方法做多次插補
Rubin (1987)提出多重插補法,由每一個遺失值代入 m>1 個可能 值,形成 m 套資料以供分析母體參數,而 m 通常介於 3 到 10 之間,並 不太會使用太大的插補套數(Schafer, 1999)。使用上的優點為:可將有 缺失的資料形成完整資料進行分析、增加估計效率、使其統計推結果更‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
採用 m=5 套資料已足夠,但當資料遺失的比例越高,所需要的套 數也越多。
II. 使用這 m 組資料進行一般對完整資料的統計分析
III. 將所得的估計值加以組合,以獲得插補後的參數估計值(黃齡葦,
2005)
常見的多重插補法介紹如下。
蒙地卡羅-馬可夫鏈法 (Markov Chain Monte Carlo)
蒙地卡羅-馬可夫鏈是一個隨機變量序列,其中每個元素的分布只 受前一個數值的影響。在蒙地卡羅-馬可夫鏈的模擬下,構建了一個具 有穩定分配的馬可夫鏈,插補值則由這個馬可夫鏈中抽出。
蒙地卡羅-馬可夫鏈有幾個步驟。首先,設起始值並利用這些起始 值來估算先驗分布;第二步驟是插補步驟,從現有的先驗分布中重複隨 機選擇一個值來取代缺失值,直到先驗分布達到穩定或前後兩個迭代的 差異小於某一預設標準為止;第三步驟是後驗步驟,重新計算新的變異 數矩陣。如果尚未得到最終估計值,新估出的變異矩陣可為下次迭代的 插補步驟使用 (Giks, Walter R ; Richardson, Sylvia; Spiegelhalter, David J, 1996)。
3.
模型建構法模型建構法主要是應用概似最大化(Maximum Likelihood)的統計理論,
替遺失值預設一個母體的分布情況,再以觀察的樣本資料在概似最大化的 原則下估計參數值,就算遺失值的分布並非完全隨機,但是概似最大化的 估計仍可能是一致有效的。(陳信木、林佳瑩,1997)
最大概似估計法假設樣本所來自的母群為常態分配,具有未知的參數
(平均值與變異數矩陣),先求出使概似函數(likelihood function)有最大 值的參數聯立方程組,接著求出方程組的初始解,再持續修正參數值,直
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
到達到最高概似值為止,而最後具有最高概似值的參數值即為該參數的最 大概似估計值。最大概似估計法在處理缺失時並不需要刪除具有缺失資料 的觀察個體,也不必事先處理缺失值,可以直接自具有缺失值的資料中直 接估計出平均數向量與共變矩陣,並不屬於插補法。
除了常見的三類處理遺失值的方法外,在資料探勘的概念下也有許多 填補遺失值的方法被提出,例如:關聯法則(association rules)、群集分析 (clustering analysis)、機器式學習(machine learning)、K 筆近似鄰居法(k-nearest neighbors)等,這些方法的概念皆為應用資料探勘的工具於歷史資料 集,期望能找出有利於填補遺失值的知識,進而推估其值 (吳元彰、沈永 勝、楊鍵樵,2007)。
第二節 機器學習
2.2.1 發展與原理
機器學習是由人工智慧的概念延伸而來,嘗試讓電腦程式從以往的經驗、
資料中學習(見圖 2.1),利用資料來建立一些模擬真實世界的模式(model),
並運用模式來描述資料中的特徵(patterns)以及關係(relations),因此,具有 以下兩項好處:(1)瞭解資料的特徵與關係,以提供做決策所需要的資訊;(2)根 據所訓練的資料特徵進行預測。
圖 2.1 機器學習的概念
機器學習共分成「監督學習」、「無監督學習」與「半監督學習」三個類
機器學習
人工智慧 傳統統計學
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2.2.2 AFA (Active feature-value acquisition)
主動學習法是機器學習領域中半監督式學習特別的方法,該學習演算法可 以從部分訓練的資料集中建立的模型運用到新的資料上(圖 2.3),已得到了較為 廣泛的應用,Google、IBM、 Microsoft 等企業已將主動學習技術應用到商業資 訊中 (Settles, 2010)。
圖 2.3 自主學習法示意圖 資料來源:Settles (2010)
從主動學習法中衍生出來的 AFA(Active Feature-Value Acquisition)是指在給 定一個取得資訊的預算之下,找出需要填補的遺失值使得整個預設的模型有更 好的準確率。根據 Zheng and Padmanabhan(2002)的研究結果顯示,使用主動學 習法取得該填的資料可以更有效率的建立模型。
在填補遺失值時有三個重點需考慮:「填值偵測」、「填值順序」、「填 值方式」,以下我們將逐一介紹「填值偵測」與「填值順序」的方法。我們大 致整理以下與 AFA 相關的演算法(圖 2.4),同時也會介紹 AFA 常用的分類器。
‧
Active Feature-value Acquisition Framework Given:
G − set of complete data points I − set of incomplete data points
(1) Random sampling
隨機選取樣本是最簡單的選擇哪個遺失填補的方式,該方法即在 從所有遺失值當中隨機選取欲填值的資料,根據 Prem Melville 等學者 (2004)的研究,欲達成相同的模型準確率時,此方法與其他方法相比 需要填入最多的值。
(2) GODA (goal-oriented data acquisition)
傳統上的主動學習法研究主題為貪婪式的主動學習,貪婪策略
(Greedy Method)常用來解決最佳化問題(Optimization Problem),
在每一個步驟中做出目前看起來最好選擇,即局部最佳解,而一旦做 出了選擇,就不再更改,並希望這樣的選擇可以得到全域的最佳解。
而 GODA 便是一種貪婪啟發方式(greedy heuristic),其選取遺失值填補 的順序說明如圖 2.4 所示。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2.5 GODA 的流程
先前的實驗結果顯示貪婪式的取值方式可以有效的降低訓練資料 的數量 (Tong & Koller, 2001),但有學者表示貪婪式取值成效不如預 期, (Lizotte, Madani, & Greiner, 2002),也有學者指出該方法使用上較 缺乏效率,無法獲得顯著的獲益 (Lindenbaum, Markovitch, & Rusakov, 2004)。
(3) Error Sampling
此方法是 Melville 等學者(2004)提出的,填值的順序將先參考以訓 練資料建立的模型分類錯誤的該列的遺失值,而此方法也證實較 Random sampling 來得有效率。Error Sampling 的原理為先選擇被分類 錯誤的遺失值填補,詳細說明如圖 2.6。
Step1
• 先以特定填值方式填補 k 個遺失值Step2
• 將填補好的資料納入原先的資料建立預測模型
Step3
• 評估何種填值的組合可以達到最高的準確率
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 2.6 Error Sampling 的流程
其中,Uncertainty Score 的計算方式說明如下,當一棵決策樹建置 完成後,可以用它來測試資料,假設該資料共有 k 種類別,決策樹可
其中,Uncertainty Score 的計算方式說明如下,當一棵決策樹建置 完成後,可以用它來測試資料,假設該資料共有 k 種類別,決策樹可