緒論 - 介紹 - 結合分群與成對約束法於半監督式特徵萃取數學模型之研發

第一章介紹

1.1 緒論

第一章介紹

1.1 緒論

由於測量技術的進步，感應器(sensor)數量得以增加，也使得資料維度不斷上升，像這樣高維度影像隨之而來的就是常常遭遇到小樣本問題(small sample size)[4]-[7]，因為在現實情況下已知類別的已標號樣本(labeled samples)之取得方式，往往需要利用人工方式來標記，花費也較高，所以要取得大量的已標號樣本並不容易，已往傳統分類技術在分類一般資料時，大多有足夠的樣本可供使用，

但在分類高維度影像時，其維度數通常是大於已標號的樣本數，而大量的已標號樣本又取之不易，所以在樣本數不足的情況下，會造成在分類時無法準確的進行參數估計，連帶使得正確率降低。所以在進行小樣本高維度資料分類時，容易出現 Hughes phenomena 現象[4]。

圖 1.1-1 Hughes phenomenon 示意圖(摘錄自[4])

圖 1.1-1 為 Hughes phenomena 現象，每一條曲線代表資料集樣本數為mm，

每一資料集當維度數nn增加時，正確率也隨之增加，但皆在到達某個維度後正確率就開始下降。當維度數很大，唯有樣本數無限多的時候，正確率才不會下降，

但現實情況下，不可能有無限多的已標號樣本可以使用。所以該圖就表現出在分類小樣本高維度時常常會有 Hughes phenomena 現象導致正確率的下降。

此外，由於樣本數小於維度數的關係，樣本所成的共變異矩陣為奇異(singular) 不可逆矩陣，在分類上較難有好的分類結果[5]。較常見的例子是線性區別分析 (linear discriminant analysis, LDA)[5], [8], [9], [17], [18]，其在進行特徵萃取 (feature extraction)[5], [10]-[18]計算其分離性準則(separability criteria)[5], [17], [18]

時，需要使用到分散式矩陣的反矩陣，由於樣本點數不足的問題，因而出現奇異或者是接近奇異(nearly singular)的情況，造成分類效果低落。

在機器學習 (machine learning) 中，半監督式學習法 (semi-supervised learning)[20]-[22]它是結合少量已標號樣本和大量未標號樣本資訊對資料做分析處理的機器學習方法，常用來解決已標號樣本不足及在分類上產生的 Hughes phenomena 問題，所以本研究引入了結合分群與成對約束法 (pairwise constraints)[20], [23]-[25]之形式的半監督式學習法，並利用正規化圖-拉普拉斯 (normalized graph Laplacian)[20]的概念所計算出的投影矩陣降維，解決小樣本及 Hughes phenomena 問題。

半監督式學習中，在資料集的結構分布上提出三項假設：平滑假設 (smoothness assumption) 、群假設 (cluster assumption) 、流形假設 (manifold assumption)，而至少要使用其中一個假設才算是半監督式學習法[20]。半監督式學習定義一個目標函數通常是根據監督式學習裡的平滑性假設來做一個延伸性的假設，稱為半監督式平滑假設(semi-supervised smoothness assumption)，若原資料點xx11和xx22在高維度空間的距離是接近的，則投影至低維度空間後，所對應輸出 的新資料點yy11和yy22也應該是接近的[20]。群假設，若空間中的兩點屬於同一群，

則它們可能是屬於同一類。換句話說，我們可以運用一個分群演算法，藉由已標號的資料點將未標號的資料點更準確的分配到每個群集裡。在分散良好的（well separated）資料集中，此假設或許是合理的，但現實情況下，很多高密度的圖像，

資料點間的距離很靠近但卻不是同一類[3], [20]。本研究中引入了分群法，並利用正規化圖-拉普拉斯概念解決了在高密度圖像進行分群的缺點。流形假設和群

假設是不同的概念，群假設是建立在整體(global)資料集間的距離關係，而流形假設是若在一個局部(local)區域內的資料點具有相似的性質，則其類別應該一樣。

在這一假設中，大量未標號資料點的作用就是讓資料空間變得更加稠密，進而有助於更加準確地表現出局部區域的特性，使得在分類時可以有更加的辨識效果 [3], [20]。

在現實情況下，由於進行樣本標記所花費的人力、物力通常很高，而未標號的樣本通常又多於已標號的樣本，但已標號樣本的監督信息又對數據的處理極為重要，所以研究人員開始研究其它更易獲得的監督信息。半監督式學習的監督訊息的來源又根據監督訊息的不同，被分為基於類別標號(class label)、基於成對約束(pairwise constraints)和基於其他監督信息的三類方法[2], [3], [20], [26]。在本研究中，使用基於在成對約束法上的監督訊息，成對約束法的標記方式適合用於相同或不同的群集[20]，所以成對約束僅需知道兩個樣本是否屬於同一群集，而不必知道它們具體屬於哪一個類別，與基於類別標號的監督訊息相比，成對約束所需要的監督信息不需要太多，取得也就相對容易，適用範圍更廣[3]。成對約束法分為必連約束(must-link constraint, ML)和不連約束(cannot-link constraint, CL)。

若兩樣本屬於同一群則為 ML；反之，若兩樣本不屬於同一群則為 CL，如圖 1.1-2。

圖 1.1-2 成對約束示意圖

在本研究過程中，利用了成對約束法概念，但在取得監督訊息的方式中做了些改變。上述所提及的成對約束法的標記方式適合用於相同或不同的群集，也就是取得監督訊息的方式是先利用分群法分群，然後從分群的結果中取得必連約束和不連約束。因為分群後可能導致原同類的樣本分到不同群或者不同類的樣本分到同一群，所以用此方法想從大量的未標號樣本來取得可用監督訊息，反而會失去原本部分已標號樣本的正確監督訊息。所以在本研究中，先從已知類別的標號樣本中取得必連約束和不連約束，再透過分群法將所有資料樣本進行分群，在這過程中，雖然也會導致原同類的樣本分到不同群或者不同類的樣本分到同一群，

但必連約束和不連約束的樣本卻還是原本已標號樣本的正確監督訊息，如此ㄧ來，

依然可以保有原來已標號樣本的正確監督訊息。

樣本通常具有群聚特性，也就是同樣類別的會彼此靠近，因此本研究結合了 k

k-means 分群法[18]來進行分群以萃取未標號樣本的有用訊息。此外，還引入了判別項(discrimination term)概念及重新設計正規項(regularization term)的運算方式來萃取特徵[27]，並運用圖論(graph theory)裡的鄰接矩陣(adjacent matrix)結合正規化圖-拉普拉斯[20]的概念計算出投影矩陣，最後利用投影矩陣來進行降維。

在半監督式學習法中，計算圖的方法一般使用圖-拉普拉斯[20]。首先我們定義一個G = (V; E)G = (V; E)為無向圖(undirected graph)，其中V = fvV = fv11; ¢ ¢ ¢ ; v; ¢ ¢ ¢ ; viigg為端點集合，

E為無向邊的集合。若點vv_i_i和點vv_j_j之間存在一個邊，則我們稱點vv_i_i和點vv_j_j為鄰接 (adjacent)，表示這兩點是有關聯的(incident)。所以對應圖G = (V; E)G = (V; E)，我們便可以定義出一個鄰接矩陣 (adjacent matrix) ，SSijij = [s= [sijij]]為一N £ NN£ N矩陣，若 (vi; vj) 2 E

(vi; vj) 2 E，則ssijij = 1= 1，反之，則ssijij = 0= 0，如表 1.1-1。

鄰接矩陣是表示圖的一種最自然的形式，但其實它的實用價值並不大，因為鄰接矩陣的特徵值和特徵向量無法顯示圖結構的重要訊息[1]。所以這裡介紹一適合建立特徵值集合理論的無向圖表示矩陣LL，稱為圖-拉普拉斯矩陣，其又分為兩種型式[20]，一種是 unnormalized Laplacian：L = D ¡ SL = D ¡ S，另一種是 normalized

5 (normalized graph Laplacian)，如表 1.1-2。

表 1.1-1 類別無向圖與鄰接矩陣

在鄰接矩陣的表示法方面，因為 SSDR[26]的鄰接矩陣判別方式，在樣本過大時，

未標號樣本的之間的資訊趨近於 0，換句話說，就失去了半監督式學習法的意義了，所以我們開發出一個較合理的表示法來詮釋鄰接矩陣。

本研究的目的是希望能透過少量的已標號樣本對容易取得的大量的未標號樣本進行資料分析處理，進而得到未標號樣本的一些可用資訊來解決小樣本中的樣本數不足的問題，然後在藉由降維的方式解決在小樣本問題正確率不佳的情形。

所以將結合分群的方法和半監督式學習法來進行分析，再利用本研究所開發的鄰接矩陣表示法運用在計算出投影矩陣來進行降維，以提升分類時的正確率。

在文檔中結合分群與成對約束法於半監督式特徵萃取數學模型之研發 (頁 13-18)

緒論

第一章 介紹

1.1 緒論

第一章 介紹

1.1 緒論

第一章介紹

第一章介紹