研究目的 - 緒論 - 適性半監督局部區別分析法

第一章緒論

第二節研究目的

依據上述動機，本研究在探討半監督式局部區別分析法時，發現用來保持局部幾何性質的未標記樣本數量是固定的。於是我們嘗試去調整它的數量，結果發現其分類正確率會隨著樣本數量上升到某個最大值後，如果樣本數量再持續增加的話，分類正確率就會開始逐漸下降，如圖 1-2-1 所示。

圖 1-2-1 未標記樣本數量與分類正確率之關係圖

我們認為會導致這個現象是因為半監督式局部區別分析法在結合線性區別

400 800 1200 1600 2000 2400 2800 3200 3600 4000 4400 4800 5200 5600 6000 64000 0.4

0.45 0.5 0.55 0.6 0.65 0.7

Number of unlabeled sample

Accuracy

分析法與鄰域保持嵌入法時，是採用將兩者的分散矩陣直接相加，並未考慮到兩者之間所使用到的樣本數目差異對於分散矩陣內值大小之影響，其影響如表 1-2-1 所示。

表 1-2-1

未標記樣本數量對於分散矩陣內值之影響(數值為分散矩陣內值的平均數)

未標記樣本之數量 1600 3200 6400

LDA

S

1 . 30  10

⁶

NPE

S

4 . 43  10

⁷

8 . 45  10

⁷

1 . 69  10

⁸

LDA

S

1 . 21  10

⁶

NPE

S

6 . 04  10

⁴

8 . 28  10

⁴

1 . 77  10

⁵

表中

S

^LDA_b 代表的是線性區別分析法之組間分散矩陣，

S

_b^NPE是鄰域保持嵌入法之組間分散矩陣，

S

^LDA_w 是線性區別分析法之組內分散矩陣，

S

_w^NPE是鄰域保持嵌入法之組內分散矩陣。由於我們是要探討兩者樣本數目差異對於分散矩陣內值大小之影響，於是我們使用 10 個類別的影像資料集 Indian Pines Site 作為實驗樣本，並且固定使用在線性區別分析法內的標記樣本數量為每類 10 個，總共 100 個，調整使用在鄰域保持嵌入法內之未標記樣本之數量為 1600、3200、6400，並觀察其對於分散矩陣之影響。結果我們發現當兩者樣本數量差異越大，其分散矩陣內值的平均數之差異也越來越大。由此可知，如何平衡兩者之間的差距變成我們的主要問題。

另外，在先前的研究中顯示運用權重參數可以平衡兩者的差距，並且使得分類的效果更好(Li, et al., in press)，故我們將權重參數的概念導入了半監督式局部區別分析法內，用以平衡兩者的分散矩陣內值大小之差異，而權重的大小則是使

用交叉驗證法(Cross-Validation) (Kohavi, 1995)來自動挑選。

除此之外，在半監督式局部區別分析法中鄰域保持嵌入法之部分所使用到的未標記樣本是採取隨機選取的，在先前的研究中，有提到保持訓練樣本周遭的幾何一致性（即將高維度空間的資料，投影至低維度空間時，保持樣本點與周圍點在投影前後的位置），可以使得分類正確率得到提升(Zhang, Berg, Maire & Malik, 2006；Feris, Tian, Zhai & Hampapur, 2008；Xu & Yang, 2009；Zhu, Hu & Yang, 2010)，

所以我們希望在挑選使用於鄰域保持嵌入法的未標記樣本時，能保持訓練樣本區域的一致性。依據 Voronoi diagram 的概念，可以將未標記樣本依照訓練樣本數量分割成多個區域，再從各個區域中挑選未標記樣本，這樣就能使得訓練樣本周遭具有幾何的一致性。

總結以上，本研究利用兩種概念，提出了共三種的新特徵萃取法，如下所示：

1. 適性半監督局部區別分析法 (Adaptive Semisupervised Local Discriminant Analysis, ASELD)是運用了權重參數的概念來改善半監督局部區別分析法對於不同數量的未標記樣本對於分類正確率之影響。

2. 基於 k 近鄰概念之半監督式局部區別分析法 (Semisupervised Local Discriminant Analysis with k-Nearest Neighbors, kSELD)是將 Voronoi diagram 的概念放入半監督局部區別分析法，來改變未標記樣本的選取方式，以提高分類正確率。

3. 基於 k 近鄰概念之適性半監督局部區別分析法(Adaptive Semisupervised Local Discriminant Analysis with k-Nearest Neighbors, kASELD)為同時使用權重參數 的概念與 Voronoi diagram 的概念來改善半監督局部區別分析法，不只改善了半監督局部區別分析法所遭遇到的問題，還可以提高分類正確率。

最後，將這些方法實驗在高光譜影像資料集以及教育測驗資料集上，搭配 k 最近 鄰分類器(k-Nearest-Neighbor classifier, kNN)與支撐向量機(Support Vector Machine, SVM)來驗證其效能。

在文檔中適性半監督局部區別分析法 (頁 17-21)

研究目的

第一章 緒論

第二節 研究目的

S