• 沒有找到結果。

第三章 研究方法

第二節 U-Sampling 說明

在第二章的文獻中我們引用了 Error Sampling 的原理,其希望透過

Uncertainty Score 的「大小」去判斷每個「受試者(row)」的遺失值重要性,而有 別於此,我們提出了新的方法 U-Sampling,希望可以用「特徵值(column)」來排 序遺失值的填補順序。

U sampling 的方法源於 Uncertainty Score,其假設為「某特徵值的遺失若影 響到 Uncertainty Score 越多,其對分類結果正確率的影響也會越大」,因此在本 研究中,將會輪流把不同的特徵值用遺失值取代,觀察其 Uncertainty Score 的絕 對值變化大小│Uncertainty Score original data –Uncertainty Score data with empty column │,

來判斷該特徵值的重要性。

接下來我們用一系列圖示來說明 U-Sampling 的應用方式。圖 3.2 為我們拿 到的原始資料,其中包含一些遺失值,而原始資料可以計算出第一組的

Uncertainty Score,我們將其記錄下來並標註為 USoriginal data

X1 X2 X3 ….. Xm Result (假設有 K 種結果)

I1

Original Data (with missing values)

US

1

I2

US

2

I3

US

3

…..

In

US

n

圖 3.2 完整資料的 Uncertainty score

在圖 3.3 中,當 A1特徵值遺失的時候,我們會得到另一組的 Uncertainty Score,

我們紀錄並標註為 USdata with empty column。我們將會重複這個步驟共 m 次(因為總共

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

有 m 個特徵值)。我們將 A1恢復原狀,並把 A2用遺失值取代,記錄另一組 Uncertainty Score,重複此步驟直到我們有 m 組新的 Uncertainty Score。

X1 X2 X3 ……… Xm Result (假設有 K 種結果)

I1

NA NA NA NA NA

Original Data

US

1

I2

US

2

I3

US

3

I4

US

4

…..

In

US

n

圖 3.3 特徵值 X1遺失時的 Uncertainty Score

進行完上面的步驟,我們總共會有一組原始的 Uncertainty Score USoriginal data, 以及 m 組的 USdata with empty column (第 1~m 組的 US 分別代表的 1~m 個特徵值遺失 的時候 Uncertainty Score 的值)。我們將 m 組新的 US 和原始的 US 相減並且取絕 對值,得到 m 組「差距」,也就是我們定義的重要性「大小」。

差距等於│Uncertainty score original data-Uncertainty score data with empty column│,若 是此相差的絕對值總和越大,就代表特徵值遺失的時候對於整個模型的

Uncertainty Score 影響越大,因此我們將其值越大的特徵值視為比較重要的特徵

值,應該給予較高順位的填值順序。

U Sampling framework Given:

𝐹 − set of total complete data points 𝐼 − set of incomplete data points G − set of complete data points, F − I

𝑈 − set of uncertainty score calculating data points

𝐷 − set of difference in uncertainty score between F and U 𝑅 − rank of D in an decreasing order 且測量它們對 Uncertainty Score 的影響,依照絕對值大小總和順序排序。之後以 此順序進行填值,並且記錄準確度。

3.2.3 假設與限制

本研究主要是對特徵值重要性排序,也就是填值順序的不同對於分類準確度 的影響,所以並沒有比較不同的填值方法。再者,我們在填值的時候填的是實際

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

的數值,也就是說本研究用的資料必須是原先完整,但經過我們抽樣之後用不同 比例的遺失值取代之。

另外,由於本研究並沒有考慮到不同特徵值間的成本差異,因此的資料並沒 有提供每項特徵值的成本,且現有文獻對於特徵值的取得成本的模擬與分析也沒 有一致的看法,因此,本研究將假設資料的所有取得成本一樣。

本方法還有一個應用上的限制,由於計算 Uncertainty Score 需要一定數量的 完整資料,所以本方法不能使用在完全沒有歷史紀錄的資料庫。

相關文件