U-Sampling 說明

第三章研究方法

第二節 U-Sampling 說明

在第二章的文獻中我們引用了 Error Sampling 的原理，其希望透過

Uncertainty Score 的「大小」去判斷每個「受試者(row)」的遺失值重要性，而有別於此，我們提出了新的方法 U-Sampling，希望可以用「特徵值(column)」來排序遺失值的填補順序。

U sampling 的方法源於 Uncertainty Score，其假設為「某特徵值的遺失若影 響到 Uncertainty Score 越多，其對分類結果正確率的影響也會越大」，因此在本研究中，將會輪流把不同的特徵值用遺失值取代，觀察其 Uncertainty Score 的絕對值變化大小│Uncertainty Score original data –Uncertainty Score data with empty column │，

來判斷該特徵值的重要性。

接下來我們用一系列圖示來說明 U-Sampling 的應用方式。圖 3.2 為我們拿到的原始資料，其中包含一些遺失值，而原始資料可以計算出第一組的

Uncertainty Score，我們將其記錄下來並標註為 USoriginal data。

X₁ X₂ X₃ ….. X_m Result (假設有 K 種結果)

I₁

Original Data (with missing values)

US

I₂

US

…..

…

I_n

US

圖 3.2 完整資料的 Uncertainty score

在圖 3.3 中，當 A₁特徵值遺失的時候，我們會得到另一組的 Uncertainty Score，

我們紀錄並標註為 USdata with empty column。我們將會重複這個步驟共 m 次(因為總共

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

有 m 個特徵值)。我們將 A₁恢復原狀，並把 A₂用遺失值取代，記錄另一組 Uncertainty Score，重複此步驟直到我們有 m 組新的 Uncertainty Score。

X₁ X₂ X₃ _……… X_m Result (假設有 K 種結果)

I₁

NA NA NA NA NA

Original Data

US

I₂

US

₂

US

I₄

US

…..

…

US

圖 3.3 特徵值 X₁遺失時的 Uncertainty Score

進行完上面的步驟，我們總共會有一組原始的 Uncertainty Score USoriginal data，以及 m 組的 USdata with empty column (第 1~m 組的 US 分別代表的 1~m 個特徵值遺失的時候 Uncertainty Score 的值)。我們將 m 組新的 US 和原始的 US 相減並且取絕對值，得到 m 組「差距」，也就是我們定義的重要性「大小」。

差距等於│Uncertainty score original data-Uncertainty score data with empty column│，若是此相差的絕對值總和越大，就代表特徵值遺失的時候對於整個模型的

Uncertainty Score 影響越大，因此我們將其值越大的特徵值視為比較重要的特徵

值，應該給予較高順位的填值順序。

‧

U Sampling framework Given:

𝐹 − set of total complete data points 𝐼 − set of incomplete data points G − set of complete data points, F − I

𝑈 − set of uncertainty score calculating data points

𝐷 − set of difference in uncertainty score between F and U 𝑅 − rank of D in an decreasing order 且測量它們對 Uncertainty Score 的影響，依照絕對值大小總和順序排序。之後以此順序進行填值，並且記錄準確度。

3.2.3 假設與限制

本研究主要是對特徵值重要性排序，也就是填值順序的不同對於分類準確度的影響，所以並沒有比較不同的填值方法。再者，我們在填值的時候填的是實際

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的數值，也就是說本研究用的資料必須是原先完整，但經過我們抽樣之後用不同比例的遺失值取代之。

另外，由於本研究並沒有考慮到不同特徵值間的成本差異，因此的資料並沒有提供每項特徵值的成本，且現有文獻對於特徵值的取得成本的模擬與分析也沒有一致的看法，因此，本研究將假設資料的所有取得成本一樣。

本方法還有一個應用上的限制，由於計算 Uncertainty Score 需要一定數量的完整資料，所以本方法不能使用在完全沒有歷史紀錄的資料庫。

在文檔中預測模型中遺失值之選填順序研究 - 政大學術集成 (頁 28-31)

第三章 研究方法

第二節 U-Sampling 說明

Original Data (with missing values)

US

US

US

…

US

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

NA NA NA NA NA

Original Data

US

US

US

US

…

US

Uncertainty Score 影響越大，因此我們將其值越大的特徵值視為比較重要的特徵

‧

3.2.3 假設與限制

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

立政治大學

立政治大學