第一節 研究動機與目的
近年來,高維度資料(high dimensional data)如高光譜影像資料、基因微陣列
(microarray)、手寫辨識、人臉辨識等資訊,逐漸廣泛的被應用於日常生活中。而傳統 的分類技術在統計樣式辨認時的假設大多是基於有足夠的訓練樣本可以供研究者使 用。但是,高維度資料分類時所需要的訓練樣本數通常比傳統的資料要多出許多,所 以更容易出現訓練樣本數不足的情況發生。高維度資料的主要問題就是當訓練樣本數 過少時,傳統的分類器容易會出現Hughes phenomenon(Hughes,1968)。也就是說當資 料的維度增加時,在不增加訓練樣本的數量情況下,常會因為Hughes phenomenon 而 造成的辨識率下降。
在現實中的情況,訓練樣本是較難以取得的,所以在處理高維度資料時,經常會 遭遇到小樣本(small sample size)的問題。通常會利用到特徵萃取(feature extraction)或是 特徵選取(feature selection)來降低原始資料訓練樣本數過少所造成的影響。
在進行資料處理的時候,就如同圖1-1所表示,資料的維度數增加可以增加資料的 分散度(separability)。資料的分散度增加相對於辨識率提升是有幫助的,但是在資料維 度數增加時,分類器中所需估計的參數同時也會相對的增加。
圖1-1 資料維度數與分散度的相關性
圖1-2中,分別表示不同大小的樣本點數,在資料維度數增加,而不改變訓練樣本 點數的情況下,參數估計的精確度就會隨著維度
p
增加而下降。圖1-3顯示當資料的維 度數變大時分散程度就會變大並且有助於辨識;可是當樣本的維度數過大時,參數估 計精確度不良的效果就會大於分散程度所提供的幫助,最終造成辨識率不良的情況。所以,如何在資料的維度數較多,也就是分散程度較高的情況下,而不增加訓練樣本 的數目,可以達到提升辨識率的目的,這是一個兩難的問題。
圖1-2 資料維度數與參數估計精確度相關性
圖1-3 資料維度數與辨識率相關性
接著由圖1-4中的圖形可以看出,平均辨識率會伴隨著測量複雜度增加而減少,只 有在當訓練樣本點數
n
在無限大的時候,平均辨識率才不會因為測量複雜度的增加而 受到影響。在現實的情況下,要得到“足夠“的訓練樣本,是件不容易的事情。因此在 本研究中希望在有限的樣本下,減輕Hughes phenomenon對實驗所造成的影響,進而提 升辨識率。圖1-4 Hughes phenomenon (Hughes,1968)
高維度資料分類時,訓練樣本裡所有的類別是已知的,但是實際上在同一類別中 有可能有些的樣本是非常態分布或是多峰混合分布(multi-modal mixture distribution),
這些樣本有可能直接或間接影響到分類的辨識率。在處理上述的這些資料已有學者提 出針對分類器去改善,Mixture Classifier(Kuo & Landgrebe, 2002)就是其中一種能改善 的方法。
圖 1-5 為非常態分布樣本的其中一種,在 Fisher(1936)的線性區別分析(linear discriminant analysis, LDA)以及 Kuo & Landgrebe(2002, 2004)的無參數加權特徵萃取 (nonparametric weighted feature extraction, NWFE)等兩種演算法都是需要計算到組內分 散度矩陣以及組間分散度矩陣,因此,在這情形下特徵萃取對此樣本作處理時就會遇 到共同平均值(common mean)的問題,這種情形對辨識率都會有相當程度的影響。於 是本研究將針對特徵萃取的部份提出一個將叢集分析法融入的新演算法,以提升辨識 率。
圖1-5 非常態分布樣本示意圖