緒論 - 利用半監督式特徵萃取於高維度樣本辨識

在本章節中，將簡介關於目前的高維度樣本辨識現況以及研究者的研究動機，並設定研究目的，接著說明本研究所提到之各項名詞，最後是本研究所使用之符號。

第一節研究背景與動機

目前的統計樣式辨認問題上，不論是在教育、科學或是生物領域上，資料的維度數均在不斷的上昇，教育方面的資料是因為試卷的題目數常大於受測人數，

使得測驗資料也成了高維度資料；另外在科學領域上，由於感應器的技術進步，

可同時使用多個感應器進行偵測；生物領域上，目前的生物上微陣列動輒數百個測試的資料更是不在話下。

因維度的上升，隨之而來的就是小樣本的問題，所謂小樣本問題是指在高維度樣本辨識時，因樣本點數不足，容易發生參數估計的誤差，或是根本無法估計；

如在高斯辨識器中需要估計標準差，便需要相等於資料維度數的樣本點數。但在高維度遙測影像辨識時，因資料維度上升，估計參數所需要的樣本點數也隨之提升。由於訓練樣本一般而言取得成本相當高，要隨著維度數的上昇而增加樣本點數相當不切實際。因維度數上升，樣本點數相對不足而影響辨識率的現象稱為 Hughes phenomenon

(Hughes, 1968)

，而如何減緩這樣的現象則是大家一直研究的題目。

減緩因為樣本點數小於資料維度數而產生的問題主要有幾個方法，降低維度或是正規化參數估計。此外，同時利用已知類別與未知類別樣本的方式也曾被提出，該方式主要是利用尚未給定類別的樣本，增加參數估計的精準度，進而提高分類器的辨識率。常見方法包含 Co-training(Blum & Mitchell,1998; Goldman &

Zhou, 2000)、Reweighting (Crook & Banasik, 2002)、Common-component mixture with EM (Ghahramani & Jordan, 1994; Miller& Uyar, 1997)、以及 adaptive classifier (Jackson & Landgrebe, 2001; 2002)，本研究採用 adaptive classifier 為基礎。adaptive

classifier 是利用訓練樣本訓練出初始的分類器，之後再由初始分類器分類給定其他樣本類別，藉由重新給定類別、更新模型的迭代方式，直到結果收斂，實驗結果顯示這樣的半監督式分類步驟可以明顯的增加分類的效能(Jackson & Langrebe, 2001; 2002)。

在降低維度數的方法上，包含特徵萃取法與特徵選取法，例如主成分分析、

線性區別分析、無參數加權特徵萃取法…等，但原本的線性區別分析，受限於當樣本點數少於維度數時，組內分散矩陣還是會有奇異(singular)的問題而無法進行反矩陣(inverse)運算。

有鑑於半監督式分類法的效果尚有進步空間，本研究嘗試將特徵萃取結合半監督式分類法，成為半監督式特徵萃取，希望能夠進一步提升半監督式分類法的效能。

第二節研究目的

本研究中，為了緩和樣本點數過小的影響，將半監督式樣本辨識應用在線性區別分析與無參數加權特徵萃取法上，本研究所提出的半監督式線性區別分析與半監督式無參數加權特徵萃取法在迭代的階段均使用了已知類別與未知類別的資料。本研究希望能夠驗證半監督式特徵萃取法在真實資料上的表現是否真能達到增進效能的效果。

第三節名詞釋義

壹線性區別分析

線性區別分析是指 Fukunaga(1990)於書中所列之 Fisher’s Linear Distribution Analysis，簡稱 LDA，也稱 Distribution Analysis Feature Extraction(DAFE)。

貳無參數加權特徵萃取法

本研究所指無參數加權特徵萃取法是指 Kuo & Langrebe (2004)在

Nonparametric Weighted Feature Extraction for Classification

^{中所提出之}

Nonparametric Weighted Feature Extraction

簡稱 NWFE 。

參監督式樣本點

監督式樣本點(supervised sample)類別由人工給定，也就是在辨識過程前即已知該資料所屬之類別。

肆非監督式樣本點

非監督式樣本點(unsupervised sample)在辨識過程前，其資料所屬類別未知。

伍半監督式樣本點

半監督式樣本點(semi-supervised data)在辨識過程前，該資料類別未知，而依分類器的辨識結果給定該樣本類別，給定的類別並不一定正確。

陸加權叢集分析法

加權叢集分析法為本研究提出，利用加權平均數取代 k-mean 中將各樣本點權重設定相同的方式，其公式定義如結合叢集分析之半監督式無參數特徵萃取法之步驟四。

第四節符號表

] ,

[x₁ x₂ x_n

X = K 有ⁿ個樣本點的資料集X x 單一個樣本點^x

L 類別數 N 總樣本點數

) , , 1 (i L

n_i = L 類別i的總樣本點數

ω i 類別i

M0 總樣本的期望向量 Pi 類別ⁱ的先驗機率

)

| (x _i

P ω 類別ⁱ的條件機率密度函數 )

| ( x

p ω_i or q_i(x) 類別i的後驗機率函數

Mi 類別i的期望向量 Σi 類別i的共變數矩陣

A 轉置矩陣

Y 轉置後空間

µ i 類別ⁱ的半監督式期望向量

在文檔中利用半監督式特徵萃取於高維度樣本辨識 (頁 8-12)

緒論

第一節 研究背景與動機