基於特徵選取之通用影像分類器

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 基於特徵選取之通用影像分類器 A Generalized Image Classifier based on Feature Selection. 指導教授：李忠謀博士. 研究生：余晟麟撰中華民國 104 年 06 月.

(2) 摘要傳統上建立一個分類系統，需要很複雜的程序，包含搜集訓練資料、特徵擷取、辨識模式訓練及準確率分析等等。一般而言建立的分類系統只能針對特定主題的影像資訊來做辨識，原因在於指定影像主題能夠利用該主題的特色資訊做訓練，可使辨識系統達到良好的準確率。在過去的研究中，主要針對特定主題提出影像分類的方法，本研究有別於一般性的影像分類研究在於不需指定影像主題，就能建立一個影像辨識系統。. 在實際的應用上，訓練資料蒐集不易，能提供訓練的樣本資料不多，本研究對於辨識系統的設計為藉由少量的訓練樣本，擷取大量與不同種類的特徵，使得辨識系統盡可能擁有足以表達各種不同影像主題的能力，並且使用 SVM 結合 F-score 特徵選取的方法於影像分類領域中，從大量特徵中挑選一組滿足分類任務所需要的通用特徵集合，以實現通用分類器，提供一個不需侷限影像主題的分類應用。. 關鍵字：SVM、f-score、影像分類、圖形識別. i.

(3) Abstract Establishing an image classification system traditionally requires a series of complex procedures, including collecting training samples, feature extraction, training model and accuracy analysis. In general terms, the established image classification system should only be used to identify images of specific topics. The reason is that the system can apply the characteristics of knowledge within a specific image domain to train a model, which leads to higher accuracy. Most of the image classification methods of the earlier studies focus on specific domains, and the proposed method of the current research is otherwise that we do not specify the image domain in advance, while the image classification system can still be established. Regarding the actual application, it is not easy to collect the training images, and therefore the provided training samples are insufficient. We have built an image classifier with a small number of training samples and extracted numerous features of every variety. By so doing, the classifier is equipped with the ability to present images of different topics. To create a general classifier that can function without the need to identify a certain image domain, SVM classifier and F-score feature selection method are combined, and within the field of image classification, a specific feature has been selected to satisfy facilitate the classification tasks. Keyword: SVM, f-score, image classification, pattern recognition. ii.

(4) 致謝首先誠摯的感謝指導教授李忠謀博士，老師細心的教導使我得以一探影像處理領域的深奧，不時的討論並指點我正確的方向，使我在這些年中獲益匪淺，老師對學問的嚴謹更是我輩學習的典範。本論文的完成另外亦得感謝鎵興企業-黎高興總經理協助，因為有您的鼓勵及支持，使得本論文能夠更完整而嚴謹。另外，在 IBM Taiwan 實習的過程中， Mentor Louis 授予課業中學習不到的觀念與知識，深深感謝。兩年裡的日子，實驗室裡共同的生活點滴，感謝眾位學長姐、同學、學弟妹的共同砥礪，你/妳們的陪伴讓兩年的研究生活變得多彩絢麗。感謝政杰、明男、德清學長們對於我論文以及研究上給予細膩又精闢的見解與指導，紹中及祐生學長們對於技術探討上讓我能有知識的交流與學習，國輔、軒宇學長們在生活上的陪伴與打氣。承嘉、于立、美琪、雅淳學姐們在技術上以及課業上不厭其煩的的指導，總能在我迷惘時為我解惑。另外也感謝信實、子婷、峻瑋、奕凌、亦鈞、競永、April 的幫忙，讓我能夠順利走過這兩年。實驗室的逸禮學弟、盈君、維琳、依潔學妹們當然也不能忘記，你/妳們的幫忙及協助我銘感在心。另外，感謝在背後默默支持我的 RURU，沒有妳的體諒、包容，相信這兩年的生活將是很不一樣的光景。最後，謹以此文獻對我無怨無悔付出，摯愛的雙親。余晟麟謹致中華民國 104 年 6 月 iii.

(5) 目錄摘要 .................................................................................................................................... I ABSTRACT .................................................................................................................... II 圖目錄 ............................................................................................................................. VI 表目錄 .......................................................................................................................... VIII 第一章前言 ...................................................................................................................... 1 1.1 研究動機 ................................................................................................................. 1 1.2 研究目的 ................................................................................................................. 2 1.3 研究範圍與限制 ..................................................................................................... 2 1.4 論文架構 ................................................................................................................. 3 第二章文獻探討 .............................................................................................................. 4 2.1 監督式學習(SUPERVISED LEARNING) .................................................................... 4 2.2 影像特徵(IMAGE FEATURE) .................................................................................... 6 2.2.1 色彩直方圖(Color Histogram) ........................................................................ 6 2.2.2 尺度不變特徵轉換(Scale-Invariant Feature Transform)[4] ........................... 6 2.2.3 視覺詞袋模型(Bags of words model, BoW)[5] .............................................. 8 2.3 特徵選取(FEATURE SELECTION)........................................................................... 10 2.3.1 Filter Method .................................................................................................. 11 2.3.2 Wrapper Method ............................................................................................ 12 2.3.3 Filter + Wrapper ............................................................................................. 12 2.4 F-SCORE ................................................................................................................. 14 第三章研究方法 ............................................................................................................ 16 3.1 系統架構 ............................................................................................................... 16 3.2 影像特徵擷取 ....................................................................................................... 19 iv.

(6) 3.3 特徵選取 ............................................................................................................... 25 3.3.1 特徵排序 ....................................................................................................... 26 3.3.2 特徵子集個數挑選........................................................................................ 26 3.3.3 特徵子集驗證................................................................................................ 27 第四章實驗規劃 ............................................................................................................ 29 4.1 資料庫介紹 ........................................................................................................... 29 4.2 實驗設計 ............................................................................................................... 33 4.3 實驗結果 ............................................................................................................... 35 第五章結論與未來工作 ................................................................................................ 45 5.1 結論 ....................................................................................................................... 45 5.2 未來工作 ............................................................................................................... 46 參考文獻 ......................................................................................................................... 47. v.

(7) 圖目錄圖 1 分類系統的基本階段，引用[3] ............................................................ 5 圖 2 利用 DoG 計算尺度空間極值，引用[4] .............................................. 7 圖 3 DoG 範例圖 ............................................................................................ 7 圖 4 SIFT 特徵描述單元，引用[4] ............................................................... 8 圖 5 BoW 概念描述，引用[5]....................................................................... 8 圖 6 以車圖片為例，BoW 步驟分解 ........................................................... 9 圖 7 BoW 表示圖像特徵，引用[5]............................................................... 9 圖 8 特徵選取基本步驟概念圖[8] .............................................................. 11 圖 9 Filter 加上 Wrapper 示意圖 ................................................................ 13 圖 10 簡單的特徵分佈比較例子................................................................. 15 圖 11 訓練階段流程圖 ................................................................................. 17 圖 12 測試階段流程圖................................................................................. 18 圖 13 字典轉換示意圖................................................................................. 21 圖 14 色彩空間表示圖................................................................................. 23 圖 15 全部特徵表示圖................................................................................. 24 圖 16 特徵選取流程圖................................................................................. 25 圖 17 特徵子集合組合，以特徵數 100 為例 ............................................. 27 圖 18 NEC Animal Dataset 網站部分範例圖片[26] ................................... 30 圖 19 單一類別動物模型所含影像[26] ...................................................... 30 圖 20 Butterfly Dataset 網站範例圖片[27].................................................. 31 圖 21 Flower Image Dataset 網站部分範例圖片[28] .................................. 32.

(8) 圖 22 NEC Animal Dataset 訓練樣本以及分類類別數量實驗結果 .......... 36 圖 23 NEC Animal Dataset 特徵使用頻率分佈 .......................................... 37 圖 24 Flower Dataset 訓練樣本以及分類類別數量實驗結果 ................... 38 圖 25 Flower Image Dataset 特徵使用頻率分佈 ........................................ 39 圖 26 Butterfly Dataset 訓練樣本以及分類類別數量實驗結果 ................ 40 圖 27 Butterfly Image Dataset 特徵使用頻率分佈 ..................................... 40 圖 28 Different Domains Dataset 訓練樣本與分類類別數量實驗結果..... 42 圖 29 Different Domains Dataset 特徵使用頻率分佈................................. 42 圖 30 各資料庫特徵子集數量統計............................................................. 44. vii.

(9) 表目錄表 1 興趣點特徵重要參數 .......................................................................... 21 表 2 色彩直方圖參數 .................................................................................. 22 表 3 演算法: 最佳特徵子集合模型............................................................ 28 表 4 Leeds Butterfly Dataset 類別張數統計............................................... 31. viii.

(10) 第一章前言 1.1 研究動機在多媒體領域快速發展下，影像分類被廣泛應用於生活之中，現今的影像分類系統在方法上的設計都會專注於某種領域的應用。一般而言，分類器會根據影像主題設計適合的影像特徵，並針對主題的特性進行分類訓練。. 然而辨識率的好壞，同時取決於訓練樣本(Training Images)以及影像類別 (Categories)這兩種參數的數量多寡影響，如當訓練樣本多，類別數量少的時候可以容易的達到較高的辨識率。再者，往往不瞭解影像處理知識的人想做影像分類器，卻都要請人分析所提供的產品或者影像主題的影像特性，來設計所使用的特徵以及模型訓練，方能得其所用。. 從實際的應用角度考量，很多影像分類應用並不需要 100%的準確率，若能有一通用型分類器，雖捨棄少量的準確率，卻能免除選用特徵及影像主題領域知識的成本，能使影像分類更有應用價值。. 基於上述種種原因，本研究不限定影像主題領域，著重在小規模影像類別與少量的訓練資料量的情況下，將透過影像處理的知識，結合特徵選取演算法，建置一個自動選取適合的影像特徵，進而自動產生適當的影像分類器。.

(11) 1.2 研究目的本研究提出一個通用影像分類器的架構，無論分類主題為何的前提之下，期望盡可能使用少量的訓練樣本，擷取大量且多樣的影像特徵，使用 SVM []結合 F-score [2]特徵選取的方法，挑選適合該分類影像主題的影像特徵，進而證明特徵選取在本研究的前提假設下的可行性，以達通用分類器的精神。設計者除了不必事先假設分類影像所屬哪種主題領域，訓練出的分類模型也不須再經過人工調整參數，且適用於不同類型的影像分類任務中，同時能擁有良好的辨識效果。. 1.3 研究範圍與限制實際上要達到通用分類器的目標是並不容易，當類別數量一多且訓練樣本不夠的時候容易出現辨識率不佳的現象。因此本研究為達到通用分類器的目標，給予下列條件限制。. 1.. 本研究架構適用於少量類別的分類任務中，實驗以 10 類為主要測試標準值。. 2.. 主要目標影像需在圖片中的主要涵蓋區域，在此我們不考慮主體於圖片邊邊角角的狀況。 2.

(12) 1.4 論文架構本論文共分成五章，第二章為文獻探討，提出監督式學習相關介紹、影像特徵描述、近代與特徵選取技術文獻討論；第三章為研究方法，深入探討整體架構流程、理論以及方法，第四章為實驗，第五章為結論與未來工作。. 3.

(13) 第二章文獻探討影像分類任務屬於機器學習中的監督式學習，為實踐通用影像分類器，必須讓影像特徵擁有足夠的表示能力，及一個具有策略性的特徵挑選方式來完成。故本章節將探討在圖形識別領域當中相關的技術與特徵選取方法進行討論，並將相關文獻分成下列三部份來做探討：（1）監督式學習(Supervised Learning)（2）影像特徵(Image Feature)（3）特徵選取(Feature Selection)。上述三個領域涉略非常廣泛，僅針對與本研究採用方法，或有直接相關技術應用予以介紹。. 2.1 監督式學習(Supervised Learning) 監督式學習透過許多不同類型的資訊數據的提供，經過適當的前處理作業將其整理為可利用的資訊，並且透過機器學習的方法運算，預測新資料的類別為何。監督式意味著所提供的資料必須是有標記(Labeled)的，也就是說機器學習的方法是利用事前所提供的資料及所屬標記資訊，進而進行學習，當未標記的新資料被輸入同時，方可依照訓練過程給予一個最相近類別的預測。. 監督式學習另一種說法就是「分類」，一般進行分類的基本策略做法[3]為: 針對欲辨識的物體蒐集大量的樣本(Pattern)，針對樣本蒐集特徵(Feature Generation)，根據這些特徵做分類器的設計(Classifier Design)，建立某種分類模型(Model)，最後對系統進行測試(System Evaluation)並且評估辨識率準確度，反覆改進直到達到所要求的準確度門檻為止，如下圖 1 所示。.

(14) 圖 1 分類系統的基本階段，引用[3]. 根據監督式學習的特性，演算法的相關研究至今，已被證明在不同的領域上都有成功的應用，並且根據演算法特性有許多知名的演算法:. 2.1.1 支持向量機(Support Vector Machines, SVM) [1] 根據統計學理論中的結構風險最小化法(Structural Risk Minimization)來區分兩類或者多類的分類問題。在線性可分(Linear-Separable)的情況下，SVM 不在乎資料點分佈，試圖直接找到一個決策邊界(Margin)，使得類別與類別之間的距離能夠最大化，類別內彼此距離最小化，在 SVM 中稱之為超平面(Hyperplane)。當資料是非線性可分(Non-Linear Separable)的狀況下，在決策邊界地方會有重疊的資料點而無法順利被分割，因此使用映射函數將資料映射到更高維的空間來做轉換處理。其中映射函數是複雜且不易求得其值的函數，透過內積運算可以簡化計算，Radial Based Function (RBF)為其中一種映射函數，並且針對映射函數導入誤差，給有誤差的資料點懲罰(Cost)。. 近年來，SVM 分類技術已被廣泛應用於各領域中，其中包括手寫辨識、文件分類、資料探勘、圖片分類…，等等應用中。. 5.

(15) 2.2 影像特徵(Image Feature) 在影像處理(Image Processing)的範疇中，影像特徵是來自於圖片中的資訊將其視為該圖片的特徵，利用不一樣的演算法和計算方式來偵測特徵(Feature Detection)，具體的特徵包括如點、形狀、紋理、顏色。下面我們將探討一些特徵的表達方式，以及如何取得作探討。. 2.2.1 色彩直方圖(Color Histogram) 色彩直方圖在圖片檢索應用中被廣泛採用的顏色特徵，直方圖為表示圖片在色彩空間的分佈狀況，也就是顏色出現在圖片中的比例，標示並且統計出各個顏色區間的像素數量。色彩直方圖可以基於不同的色彩空間作表示，常用的色彩空間有 RGB、HSV、HSI、LUV、LAB、CMYK 等。. 2.2.2 尺度不變特徵轉換(Scale-Invariant Feature Transform)[4] 尺度不變特徵轉換(SIFT)[21]已被證明在影像中的物件識別(Object Recognition)領域上有各種成功應用。主要概念有兩個部分：（1）偵測可能的興趣點（2）擷取關鍵點描述子(Keypoint Descriptor)。. 興趣點偵測. 利用高斯差分(Difference of Gaussian)偵測尺度空間極值，找尋具有可能是邊的特徵點，透過不同大小的影像做高斯模糊將其相減取代拉普拉斯高斯轉換. 6.

(16) (Laplacian of Gaussian)。接著精準定位特徵點，將低對比度的點，或者是沿邊較差的點去除，最後計算特徵點梯度方向和大小。. 圖 2 利用 DoG 計算尺度空間極值，引用[4]. 圖 3 (左)經 DoG 計算所得特徵點，(中)消除對比度較低的的特徵點，(右)邊緣過度點去除。. 擷取興趣點描述子. 以特徵點為中心，像周遭鄰居延伸 8*8 的區域，分別計算梯度值，再將區域分成 4 個 4*4 的子區域，分別統計 8 個梯度分佈方向，做為特徵主要方向，整體為 4*4*8=128 個値所構成 128 維度的特徵向量。此種特徵的優點在於擁有尺度、旋轉、照度、角度不變性等等。. 7.

(17) 圖 4 SIFT 特徵描述單元，引用[4]. 2.2.3 視覺詞袋模型(Bags of words model, BoW)[5] 視覺詞袋模型應用於圖片分類的技術中，將區域特徵轉為固定長度的特徵維度的一種方法，主要可以分為三個步驟（1）特徵擷取（2）建立視覺字典（3）產生詞袋模型。. 圖 5 BoW 概念描述，引用[5]. 在特徵擷取的部分有興趣點特徵(如 SIFT、SURF)、亂數取樣[6]方法等等，利用這些特徵學習視覺化字典(Visual Vocabulary or Codebook)。學習視覺化字典. 8.

(18) 的過程中，採用分群(Clustering)的技術，將所擷取到的特徵投射到一個相同維度的平面。以 SIFT 特徵和 K-means 分群方法為例，將所擷取到每張圖片的興趣點投射到 128 維度的特徵空間，接著透過 K-means 的方法將特徵維度裡面的資料點做分群，形成一個詞袋(字典)。. 圖 6 以車圖片為例，BoW 步驟分解. 最後，產生詞袋模型表示法用於影像分類，根據所出現的頻率以直方圖作為表示，詳見 3.2.3 影像特徵表示法。. 圖 7 BoW 表示圖像特徵，引用[5]. 9.

(19) 2.3 特徵選取(Feature Selection) 多媒體發展數年，所能取得的資料跟特徵非常之多，而當我們在處理大量的特徵時，維數災難(Curse of Dimensionality)[7]的問題一直是不容易解決的難題，也就是指當特徵數量提高，特徵分布空間愈漸稀疏，為了在統計學上獲得一個正確的結果，而這種結果所需要的資料量通常隨著維數的提高而呈指數級增長，使得原本的組織策略變得沒有好的效果。故我們使用特徵選取的方法，用來面對維數很高時的狀況處理。. 特徵選取大多應用於機器學習領域及圖形識別中，從大量的特徵中(原集合)挑選出具有鑑別力的特徵，視為子集合，並且將此子集合應用於影像分類中使辨識率能達到最佳。尋找最佳子集合問題，為 NP-Complete[8]的最佳化問題，也就是當特徵數量很大的時候，無法在多項式時間內求得最佳解，唯有透過暴力法(Brute Force)窮舉所有特徵值的可能組合才能得知。然而在實際運用上，有限的時間及資源內暴力法並不可行，故後續的研究提出生成「近似最佳特徵子集合」的問題，找出一個近似解以達到與最佳解相近之結果。. 過去的研究中生成「近似最佳特徵子集合」的方法，其步驟包括子集合生成(Subset Generation)、子集合效能評估(Subset Evaluation)、停止測試條件 (Stopping Criteria)以及結果驗證(Result Validation)等四個條件，重複以上前三個步驟，直到滿足停止測試條件為止[8][9]，如圖 8 所示。而根據演算法特性主要. 10.

(20) 可以分為 Filter 與 Wrapper 兩種架構，說明如下。. 圖 8 特徵選取基本步驟概念圖[8]. 2.3.1 Filter Method 此方法 [6][8][10]主要目的是利用特徵本身所擁有的特徵去計算其權重值，經由全部的特徵集合 D 中挑選出權重值高的特徵子集合 D’作為最後訓練的特徵集合。透過不一樣的效能評估指標，例如:訊息增益(Information Gain, IG)[11]、 Relief[12]、Chi-Square[13]等統計或資訊理論標準來衡量特徵的好壞與否，是否為有鑑別力的特徵，其同時也意味著對特徵做排名。. 這種作法好處是，只需要透過一次計算就可以評估所有不一樣的特徵對於分類器的效果，計算簡單而且快速，可以簡單的擴展到高維度的資料集當中。缺點則是沒有考慮到特徵與模型之間的相互關係，因為每個特徵皆單獨考慮，忽略了特徵彼此之間的依賴性，有可能導致不良的辨識結果。. 11.

(21) 2.3.2 Wrapper Method Wrapper 則是透過最佳化的演算法，或者是搜尋的策略逐一將能夠提高效能指標數值的特徵納入特徵子集合中，例如:循序搜尋法(Sequential Search)[14]、基因演算法(Genetic Algorithms, GAs)[15]，或者近幾年的循序向前選取法 (Sequential Forward Selection, SFS)[16]、循序向後選擇法(Sequential Backward Selection, SBS)[16]。. 該做法的優點相較 Filter Method，考量到特徵與模型間的相互作用，以及特徵與特徵之間的依賴性，但也因為如此所付出的計算成本比 Filter Method 要高出很多。. 2.3.3 Filter + Wrapper Wrapper Method 的方法計算量雖遠比 Filter Method 大上很多，但效能卻比 Filter Method 來的佳，近年來也有許多方法將兩者結合以加快計算速度並且試著提升更進一步的效能，常見的做法是 Filter Method 加上 Wrapper Method[17][18][19][20]，如圖 9 所示。利用 Filter Method 將認為相差甚遠的特徵先行淘汰，亦為先行選出較為可能的候選特徵，接著再利用 Wrapper Method 的方法，從已經篩選過的特徵中找出最佳的特徵子集合，除了能夠大量降低窮舉的計算量之外，效能結果也有不錯的表現。. 12.

(22) 圖 9 Filter 加上 Wrapper 示意圖. 13.

(23) 2.4 F-score Fisher’s Criterion[21]是一種統計準則，用來評估特徵是否具有鑑別力，簡單並且有效率的衡量方法。將 Fisher’s Criterion 應用於特徵排序即計算特徵分數，簡稱 F-score，透過 F-score 來表示特徵與標記之間的鑑別度。. 以單一特徵為例子，給定擁有 m 個類別的訓練樣本 X，Xk 為屬於 k 類別中的訓練樣本，其中|𝑋 𝑘 | = 𝑙𝑘 ，𝑘 = 1, … , 𝑚，另外假設 𝑥̅𝑗𝑘 和 𝑥̅𝑗 分別為第 jth 特徵在 Xk 及 X 的平均值，Fisher score(F-score)在第 jth 特徵的定義如式(1):. 𝐹̂ (𝑗) ≡. 𝑆𝐵 (𝑗) 𝑆𝑤 (𝑗). (1). 其中，𝑆𝐵 (𝑗) 和 𝑆𝑤 (𝑗) 以式子(3.2)、式子(3.3)表示之。 𝑚. 𝑆𝐵 (𝑗) = ∑ 𝑙𝑘 (𝑋̅𝑗𝑘 − 𝑋̅𝑗 )2. (2). 𝑘=1 𝑚. 𝑆𝐵 (𝑗) = ∑ ∑ (𝑋𝑗 − 𝑋̅𝑗𝑘 )2. (3). 𝑘=1 𝑋∈𝑋 𝑘. 根據 F-score 的分子表示類與類之間的關係(Between Class)，分母表示每一類別中的緊密程度(Within Class)。 (+). (−). − 𝑥̅𝑗 )2 + (𝑥̅𝑗 − 𝑥̅𝑗 )2 F(j) = 1 1 (+) (+) 2 (−) (−) 2 + − ∑𝑛𝑖=1 ∑𝑛𝑖=1 (𝑥 − 𝑥̅ ) + (𝑥 − 𝑥̅ ) 𝑖,𝑗 𝑗 𝑖,𝑗 𝑗 𝑛+ − 1 𝑛− − 1 (𝑥̅𝑗. 14. (4).

(24) 在訓練集中含有多數特徵時，第 j 個特徵之 F-score 即如式(4)，其中𝑛+ 和 (+). (−). 𝑛− 分別為正類和負類的樣本數，𝑥̅𝑗 ，𝑥̅𝑗 以及 𝑥̅𝑗. 各為第 j 個特徵在整個訓練. 集上的平均特徵值，在正類訓練集上的平均特徵值，在負類訓練集上的平均特 (+). (−). 徵值；𝑥𝑖,𝑗 是第 i 個正類樣本上的第 j 個特徵之特徵值，𝑥𝑖,𝑗 亦同，[18]。. 圖 10 簡單的特徵分佈比較例子. 但 F-score 的做法無法得知特徵與特徵之間的共同資訊(Mutual Information)，如圖 10，舉例來說，圖 10 (左)以及圖 10 (右)兩者正負類別在資料分佈上獨立成群，相同類別的集中在同一群，資料皆能清楚的歸成正負兩類。但是根據 Fscore 的算法圖 10 (右)得例子會得到較低的 F-score 分數，因為兩類之間的距離關係(Between)太過接近，使得分子變小因而得到較低的 F-score 分數。. 由此可見 F-score 衡量方法沒有考量類與類之間的關係，儘管如此，Fscore 在不管特徵數量多寡的狀況下，計算上都是很簡單並且有效率的。. 15.

(25) 第三章研究方法本研究參考支向機與屬性選擇[2]的架構，進而提出 F-score 搭配 SVM 的模型訓練。透過 F-score 將特徵進行排序(Ranking)，當作影像特徵選取上決策的依據，藉由特徵選取方法在尚未假設任何分類領域的狀態下，決定一組通用的影像特徵集合，套用到所有類別的分類任務上，利用交叉驗證檢視演算法挑選出的通用特徵集合在分類任務上的可行性，故本研究在訓練前將擷取大量不同類型的特徵，以作為提供挑選時含有更多選擇性，盡可能最大化不同類別的辨識率。最後利用 SVM 建立模型，依照所訓練的標記作分類。. 藉由特徵選取方法，套用於不分主題領域的圖片分類問題上，並且在特徵排序以及選取的決策上做調整，更能貼近本研究問題所需。. 本章共分成五個小節，3.1 節為系統架構，說明本研究之系統架構及流程； 3.2 節介紹研究中所使用到的影像特徵；3.3 節針對所用特徵選取方法進行說明，最後 3.4 節論述分類模型細節。. 3.1 系統架構本節分為兩個部份:(1)訓練階段 (2)測試階段。. 16.

(26) 3.1.1 訓練階段圖 11 表示訓練模型的過程。從所輸入的訓練圖片中，擷取系統中所預設擷. 取的所有特徵，產生一個特徵集合為 D，接著藉由特徵選取策略，進行特徵排序(Feature Ranking)，結合 SVM RBF Kernel 分類器，並透過格子式搜尋(Grid Search)從中找尋最佳的模型參數(C, γ)，以作為最終模型輸出。. 特徵排序的方法透過計算將依照特徵的辨識度能力多寡做排序，並使用循序向後選擇法(Sequential Backward Selection)的方式來挑選表現最好的特徵子集 D’組合，並且透過交叉驗證(Cross Validation)檢驗其特徵與分類器辨識度好壞。. 最後在此階段將得到經由特徵選取方法後得到最好的特徵子集(Feature Subset) D’，以及已經訓練過可供分類的模型。. 圖 11 訓練階段流程圖. 17.

(27) 3.1.2 測試階段本階段採用標準圖形識別流程，將輸入圖片根據訓練階段所得的特徵子集 D’進行特徵擷取，接著將特徵送進經由訓練階段所得的分類器進行預測，方可得該分類器所預測的結果。. 圖 12 測試階段流程圖. 18.

(28) 3.2 影像特徵擷取影像的特徵擷取是利用影像處理的技術，從圖片中取得足以代表該張圖片的資訊。若要使圖形識別的效能提升，最佳的作法是根據圖片的領域知識做設計，但本研究為達成非針對性的分類器設計，需盡可能滿足各種不同的分類領域，故若能在影像特徵擷取的部份蒐集更多不同種類的特徵資訊，便會對整體的效能有所幫助。. 影像特徵種類繁多，本研究將所使用的特徵分別介紹如下:. 3.2.1 區域特徵(Local Feature) (a) SIFT(Scale-Invariant Feature Transform) David Lowe 於 1999 年[4]提出一個用來描述圖片中的局部性特徵，在空間尺度中找出興趣點，藉此提取尺度、位置、旋轉等資訊。該種特徵對於視角和光照變化具有不變性。. (b) SURF(Speeded Up Robust Features)[22]由 Hebert Bay 於 2006 年提出基於 SIFT 方法做改善，利用海森矩陣行列式(Determinant of the Hessian) 找出特徵點。採用方形模糊(Box Blur)加速計算，除了減少影像縮放所建立不同尺度特徵的計算花費，另外更不用對不同尺度做相減所耗時，整體速度比 SIFT 還來的快上很多中。相較 SIFT，除了時間快上很多之外，對於光照變化不變性能力也更佳，但同時也損失部分的尺度及旋轉不變性的能力。. (c) ORB(Oriented FAST and Rotated BRIEF)[24] Ethan 等人未改善 BRIEF[23] 19.

(29) 對於旋轉不變性做改良於 2011 年提出利用 FAST 特徵點，改變提取特徵點方向的算法，由 FAST 算子本身所具備的旋轉不變性來做改善；另外在於影像雜訊的處理，原本 BRIEF 像素與像素的構造描述子對於雜訊非常敏感的狀況，改成使用 9x9 的 patch-pair，對比補丁(Patch)的像素和。. 3.2.2 全域特徵(Global Feature) 色彩直方圖(Color Histogram)色彩資訊在影像的特徵是很重要的一種，透過 RGB 三原色光模式將其轉換成不同色彩空間，其中包含 HSV、YCbCr、 CMYK 等，並且採用直方圖表示顏色在圖片中的資訊，以視為不一樣的影像特徵。. 3.2.3 特徵表示法(Feature Representation) 上述所及的各種特徵，在擷取之後通常根據算法特性所得到的資料格式都不太一樣，為了使分類器在學習的過程中能夠有效的發揮特徵的特性，故我們需要針對不一樣的特徵方法，做不一樣的格式處理，讓分類器在訓練的時候不會因為格式或者資料表示法的不一致，導致特徵失真影響訓練結果，這節我們將討論實際上在系統應用到的特徵表示方式以及處理。. (a) 興趣點特徵 (Interest point). 興趣點特徵包括 SIFT、SURF、ORB，透過上述演算法擷取出來的特徵，每張圖片分別是不一樣數量與維度的特徵向量和。然而在機器學習中，需要使 20.

(30) 用相同維度的特徵資料才能進行學習，故本研究透過視覺詞袋 BoW[5]的表示法，將三種興趣點特徵法各別透過字典(Codebook)將影像資訊作轉換，使興趣點特徵維度不同的狀況，得以做進一步的轉換，讓每張圖片所取得的特徵維度一致，最後才能夠使用機器學習的方法進行學習。. 以表 1 與圖 13 來說，分別將 SIFT、SURF、ORB 三種特徵作轉換，在訓練的過程中對個別的特徵產生屬於自己特徵的詞袋，再藉由詞袋轉換成固定維度的特徵，而特徵的維度根據所偵測到的興趣點數量不同而有所區別。. 表 1 興趣點特徵重要參數類型. 特徵向量維度. SIFT. 128. SURF. 128. ORB. 32. 描述. 使用 k-means 作分群將特徵轉換成相同維度，k 值設所偵測到的特徵數量. 圖 13 在訓練過程中產生字典，讓影像藉此轉換成相同維度的特徵。. 21.

(31) (b) 色彩直方圖 (Color Histogram). 一張圖片的顏色通常由基本 RGB 單位組成，而透過色彩空間轉換，從圖片上獲得更多關於不同的色彩資訊。另外，在直方圖的表示法使用上，本研究採用將三個色彩空間做線性串接，使三個色彩空間合併成一整個大型色彩直方圖特徵視為該影像的色彩資訊。. 每種顏色通道原本的分佈值為 0 到 255 之間，以直方圖來說，就會統計 0 到 255 之間所出現的頻率次數來表示之，而以色彩空間域來表示的同時，同一種色彩空間的直方圖規模就會有 256 * 3 = 768 個值。在實際的實驗中，我們不考慮將顏色特徵取得太過細小，故在取得顏色直方圖特徵的同時，我們設定不一樣的參數來減少計算量，同時也能保有一定程度的色彩訊息。如下表 2 所示，我們設定 bins 為 64，表示在 0 到 255 的值中，將範圍內切 64 等分。. 表 2 色彩直方圖參數參數. 值. 描述. Bins. 64. 區塊數量. Range. 0,255. 色彩值分佈範圍 0 到 255. Normed. True. 是否透過密度函數將值轉成 0~1 之間的相對值. Color space. RGB、HSV、HSL、 YCbCr、LUV. 使用了那些色彩空間表示法. 最後產生六種不同色彩空間的顏色直方圖，利用線性串接的方式，把所有的色彩直方圖串起來，將每個 bin 內的值視為單獨一維的特徵，根據本篇研究. 22.

(32) 特徵設計方法可得 960 維度的色彩特徵，如圖 14 五種不同的色彩空間中，各有三個通道，而每個通道擷取 64bins 的直方圖資訊，經過線性組合將所有色彩直方圖串接起來，一共產生 960 維度的特徵資訊所示。. 圖 14 五種不同的色彩空間中，各有三個通道，而每個通道擷取 64bins 的直方圖資訊，經過線性組合將所有色彩直方圖串接起來，一共產生 960 維度的特徵資訊. 23.

(33) 3.2.3 特徵結合根據前兩小節所提及的特徵，最終我們要進行訓練要將所有類型的特徵結合。一般做法為將一種色彩空間特徵視為一維特徵做訓練，本研究不同之處為所有色彩空間的每個 bin 都視為一維特徵，並且以線性方式做串接。也就是說五種色彩直方圖產生的各區塊總和共有 960 維，加上藉由 BoW 產生的 SIFT、 SURF、ORB 各三種不同數量的維度特徵一同加總(因 BoW 特性的原因，特徵轉換後的維度並非固定)，由圖 15 結合色彩空間特徵以及興趣點特徵作為全部的特徵擷取資訊我們可以觀察到所有的特徵經由線性串接，將產生一個大量維度的特. 徵集合。其中又因 F-score 的特性，選取特徵時能更仔細的去觀察每一維的特徵，以 RGB 色彩直方圖為例子，傳統作法將整個色彩空間 64*3 bins 視為 1 維，當做選取決策時，只能全選或不選。在此，我們將 64*3 bins 的特徵視為 192 維度，提供挑選特徵能有更彈性的選擇，意思是不見得整個 RGB 都要同時使用，亦可以挑選 64*3 bins 其中幾個 bins 來做訓練都是可行的，在第四章將觀察特徵使用頻率分佈即能得知所選特徵的不同。. 圖 15 結合色彩空間特徵以及興趣點特徵作為全部的特徵擷取資訊. 24.

(34) 3.3 特徵選取本研究特徵選取方法採用 SVM 的核心方法 F-score 作為特徵選取演算法，此方法僅能搭配 SVM 分類器一同使用。根據圖 16 特徵選取流程圖所示，將所取得的特徵集合，利用 F-score 的標準先做特徵排序(Feature Ranking)，接著從已排序過後的特徵序列中，使用循序向後法(Sequential Backward Selection)，策略性挑選出不一樣的特徵個數作為子集合來進行訓練。. 透過 SVM 格子式參數搜尋(Grid search) 以及交叉驗證來找出 RBF kernel 中最佳的參數(C, γ)以及正確率(CV rate)，檢驗此模型對於該分類任務的準確率好壞。重複此步驟，直到嘗試完所有特徵子集合數量為止，並輸出其中 CV rate 最佳特徵子集合視為最佳的訓練模型。. 圖 16 特徵選取流程圖. 25.

(35) 3.3.1 特徵排序根據 2.3 節所提，利用 Fisher’s Criterion 統計準則，評估本研究所設計的所有影像特徵是否具有鑑別力，應用於特徵排序和計算特徵分數，也就是用 Fscore 來表示特徵與標記之間的鑑別度。. 此小節最後我們會得到一個根據 F-score 的分數好壞排序的特徵序列，愈大的值代表該特徵愈有鑑別度與表示能力。. 3.3.2 特徵子集個數挑選根據上小節所產生的特徵排序序列(Ranking Feature List)，當序列個數很小時，可以使用窮舉法找出集合裡最好的特徵子集合(Feature Subset)。但一般狀況下特徵序列內的特徵數量極大，假設特徵序列中含有 n 個特徵，若我們一次考慮兩個特徵組合，全部計算便需要嘗試 n(n-1)/2 種組合。因此策略式挑選方法變得更重要，為了加速特徵的選擇，在有限時間內找到相對好的次佳解，此處採用循序向後選取法(Sequential Backward Selection)亦是向後淘汰法(Recursive Feature Elimination, RFE)的方式做挑選以及嘗試各種不同的特徵子集合。. 也就是說，在嘗試挑選個數的時候，每次都將挑選子集個數減半。舉例而言，若 n=100，則嘗試的排列組合個數將會有 100、50、25、12、6、3、1 個特徵等組合，並且全部依照已排序過的特徵序列作拿取，如圖 17 特徵子集合組合，以特徵數 100 為例所示。 26.

(36) 而向後淘汰法的挑選方式，已經在[25]文獻中被證明是很有效的，但這種挑選方法的前提是只適用於已經排序過的特徵集合。. 圖 17 特徵子集合組合，以特徵數 100 為例. 3.3.3 特徵子集驗證利用特徵序列以及特徵個數的取得，會產生各種不一樣的特徵子集合，每個不一樣的子集合，透過 SVM 格子式搜尋找尋 RBF Kernel 函式參數 γ 以及於線性不可分(Non-Separable)的懲罰權重(Cost, C)，以及在找尋參數的過程中，訓練經過交叉驗證法可得知該參數的模型準確率(CV rate)，用以檢視優劣，最後從所有子集合的模型中找擁有最佳準確率者作為最佳訓練模型，同時輸出特徵子集合，供其使用。. 此節特徵選取的做法，亦可參考表 3 演算法: 最佳特徵子集合模型演算法: 最佳特徵子集合模型。. 27.

(37) 表 3 演算法: 最佳特徵子集合模型演算法: 最佳特徵子集合模型. 輸入:5-fold 訓練集，測試集輸出:預測每種特徵子集合 1. 利用 f-score 特徵排序演算法計算特徵序列，𝒇𝒋 ，j=1,…,n。 2. For 每個特徵數量 m，𝐦 ∈ {𝟏, 𝟐, 𝟒, … , 𝟐𝒊 , … , 𝐧}。 (a) 從特徵序列中選 m 個特徵產生訓練樣本，𝐟𝐣 ，j=1,…,m。 (b) 利用格子式搜尋(Grid search)找到最佳 C, γ 參數。 (c) 用訓練樣本訓練 SVM 模型。 (d) 用測試樣本預測 SVM 模型。 3. 輸出最大準確率之模型(Max CV Rate)及特徵集合。. 28.

(38) 第四章實驗規劃本研究實驗期望能夠有效實踐在尚未假設任何影像主題之前，能夠透過大量擷取影像特徵，並使用特徵選取方式選取適合的特徵來解決影像分類問題。因此，本實驗將使用多種的資料庫(Dataset)來做實驗，以及操作不同的變因來做實驗，分多層面來探討影像分類問題，並觀察其所選取特徵情況是否因不同主題的影像而選取有別。以下 4.1 節介紹實驗中會用到的資料庫，4.2 詳述實驗設計細節，最後 4.3 節呈現所有實驗結果。. 4.1 資料庫介紹 (a) NEC Animal Dataset [26] NEC 動物模型資料庫中選用含有 1680 張連續拍攝的動物照片，總共含有 60 種不同的動物種類模型，根據本研究限制，60 種經人工挑選把主體過小的類別去除，使用其中 24 個類別做為測試，共約 1690 張圖片，又每個類別含約 70 張不同視角的圖片拍攝。此影像資料庫背景單純固定，此研究將此影像資料庫視為基礎標準實驗(baseline)。. 29.

(39) 圖 18 NEC Animal Dataset 網站部分範例圖片[26]. 圖 19 單一類別動物模型所含影像[26]. 30.

(40) (b) Leeds Butterfly Dataset [27] 此資料庫收錄十種不同品種的蝴蝶照片，資料庫的生成來自於 Google 搜尋引擎中蒐集而成，總共擁有 832 張圖片，每個類別的張數在 55 到 100 之間，影像條件程度不一，如影像大小、光線不一致等等，依序如下表。. 圖 20 Butterfly Dataset 網站範例圖片[27]. 表 4 Leeds Butterfly Dataset 類別張數統計品種名. 張數. 品種名. 張數. 品種名. 張數. Danaus plexippus. 82. Junonia coenia. 90. Nymphalis antiopa. 100. Heliconius charitonius. 93. Lycaena phlaeas. 88. Papilio cresphontes. Heliconius erato. 61. Vanessa cardui. 85. Pieris rapae. Vanessa cardui. 85. 31. 89 55.

(41) (c) Flower Image Dataset [28] 此資料庫收錄來自英國常見的 17 種花卉品種的圖片，而每個類別各擁有 80 張圖片，每張圖片含有不一樣的姿勢角度、光線變化，以及雜亂不相關的背景等等。. 圖 21 Flower Image Dataset 網站部分範例圖片[28]. 32.

(42) 4.2 實驗設計一個完整的分類系統會受到很多因素的影響，實驗設計的部分，我們調整不一樣的變因觀察整個辨識系統的準確率，包含訓練集的數量、類別數的多寡，以及辨別影像主題領域差異等等，各別來探討。. (a) 訓練樣本與類別關係此實驗探討訓練樣本數量影響分類準確率的好壞，使用同一主題領域的影像資料庫分別進行實驗，將訓練樣本數量當作控制變因，為呼應 1.2.節所提及在少量訓練樣本下建立辨識系統，因此該實驗預期在愈少量的測試樣本的狀況下就能觀察到可接受的辨識率。. 在該辨識系統樣本訓練過程中需透過交叉驗證，而交叉驗證的值為 5，故該實驗最少需要 5 張，方可使交叉驗證方法可行。同時，類別數量的考量，我們將類別設定在 2 類別以上，持續嘗試不同的類別數量組合依序到 10 類或以上，觀察其分類的準確率好壞狀況。另外，測試影像數量各類皆為 15 張，除非該類別總張數扣除訓練樣本不足 15 張，就以所剩張數為測試樣本數。另外，一般而言，為使實驗取得的樣本能夠平均，對於資料庫中的訓練類別以及樣本，皆做亂數挑選，並且重複 10 次取其平均值，方可從中得到較公平的結果。. 另一方面，觀察使用的所有分類模型的特徵，找出針對不同的資料庫的特徵使用特性。 33.

(43) (b) 不同主題影像變因實驗這個部分我們要探討影像分類的主題領域，是否會影響整體分類器的準確率。因此，此處需要固定訓練樣本參數及類別參數，利用 4.1 節所述的所有不同主題的影像資料庫，將其混合一起使用，分別是 NEC Animal、Flower、 Butterfly，各有 24、17、10 種，共 51 種不一樣類別變化，透過亂數每次挑選出固定數量的類別做分類驗證，最後跟固定主題領域影像分類作比較。. (c) 特徵子集使用個數分析根據(b)、(c)中所產生的分類模型，將所使用到的特徵數量做統計以及平均，並且觀察特徵選取演算法在挑選特徵策略以及特徵個數，是否與模型參數的設計有所相關。. 34.

(44) 4.3 實驗結果 (a) 訓練樣本與類別關係以下呈現本研究方法在各種不同主題領域資料庫的分類準確率表現以及特徵使用頻率分佈分析，各別以兩張圖表示，一為各種訓練樣本搭配不同類別數的條件下所表現出的準確率；另一為全域特徵以及區域特徵所使用的頻率分佈圖，前半段為全域特徵，又其中每一相同色系代表同一種色彩空間，後半段是區域特徵，皆為相同顏色，實驗樣本數為 250 次。. 1.1 NEC Animal Dataset – 準確率. 此影像資料庫因為背景固定，影像皆為主體的多選轉角度拍攝而成，對於影像中的雜訊極少，資料庫的主體單純清楚，在分類任務上屬於簡單易分的資料庫。. 根據實驗數據我們可以看到，僅用 5 張的訓練樣本，就可以使得 2 類到 10 類之間的類別數分類任務都能有 7 成 5 以上的辨識率，若訓練樣本數持續提高至 10 張，在 10 類以下的分類任務皆能達到 9 成 5 的辨識率，效果非常好。. 其中，在此資料庫的 2 類分類任務中，我們可以看到當訓練樣本數使用 40 張的時候，辨識率大幅下降，這時發生過度訓練(Overfitting)訓練的現象，也就是該分類任務使用過多的訓練參數，亦即太多訓練樣本反而造成辨識率下降。在機器學習中，盡可能避免過度訓練的情形發生。 35.

(45) 圖 22 NEC Animal Dataset 訓練樣本以及分類類別數量實驗結果. 1.2 NEC Animal Dataset – 特徵頻率. 圖 23 NEC Animal Dataset 特徵使用頻率分佈為該資料庫總共 250 個測試模型中. 所使用到的頻率分佈圖，彩色分佈區域為全域特徵，其他藍色分佈為區域特徵，兩者累積使用次數大致超過 200 次，將近 8 成的使用率，另外，在全域特徵跟區域特徵的使用頻率兩者也是相近的，由此可見在此資料庫中，全域特徵以及區域特徵的重要程度相近，被使用的頻率才會相近。. 36.

(46) 圖 23 NEC Animal Dataset 特徵使用頻率分佈. 2.1 Flower Dataset – 準確率. 在 Flower Dataset 資料庫中，就數據呈現而言我們探討類別數量變因。不管訓練樣本數量為何，當類別數量少的時候，辨識率往往都比類別數量多的時候來的高，這是很直覺的。當然此資料庫讓該現象更清楚呈現，以 Y 軸觀察之，位於辨識率 9 成的位置曲線是類別數量最少的分類任務，依序往下類別數遞增，也就是說，在同樣的方法之中，並且固定訓練樣本數量，當類別數量提高時，辨識率往往會跟著下降。. 另外，相較於 NEC Animal Dataset 而言，此資料庫難易度明顯提高，訓練樣本原本就保有較多的雜訊，比如繁雜的背景、葉子小草、不同光線明亮變化、以及主體佔畫面比重等等，在影像的純度上不比 NEC 的資料庫，甚至有些圖. 37.

(47) 片內擁有其他更鮮明的主物體，而非花本身。這些原因也都是使得分類任務難度提高的原因。以此實驗結果來說，訓練樣本數量來到 30 張左右，可使 10 類分類任務的辨識率達到將近 8 成。. 圖 24 Flower Dataset 訓練樣本以及分類類別數量實驗結果. 2.2 Flower Dataset – 特徵頻率. 圖 25 Flower Image Dataset 特徵使用頻率分佈區域特徵比全域特徵使用的頻率. 都來的高，表示 Flower Dataset 顏色特徵的表示能力比區域特徵的任一種都來的有鑑別度，透過 F-score 的算法使得顏色特徵在分類花的圖片上比各種區域特徵更容易被使用。. 38.

(48) 另外在全域特徵中，部分特徵使用率極低甚至沒有被使用過，此現象說明特徵選取演算法在挑選特徵時，不見得需要將整個相同色彩空間特徵一同選用，在挑選時保有更多彈性，更針對分類任務進行挑選。. 圖 25 Flower Image Dataset 特徵使用頻率分佈. 3.1 Leeds Butterfly Dataset – 準確率. 最後一個相同主題領域影像資料庫中，10 種品種不同的蝴蝶卻有著相似的外型，一樣搭配混雜的背景使得分類任務難度提高，但相較於 Flower Dataset 之下，分類表現又顯得優良許多。該影像資料庫使用 15 張的訓練樣本數，可使得在 10 類內的分類任務都有 9 成以上的辨識率；而在 Flower Dataset 中一樣使用 15 張訓練樣本卻僅有約 7 成的辨識率。. 39.

(49) 3.2 Leeds Butterfly Dataset – 特徵頻率. 與 2.2 Flower 特徵頻率剛好相反，該資料庫可以看出區域特徵在使用頻率上比全域特徵普遍還高，表示蝴蝶影像使用區域特徵比用全域特徵還來的重要但在所有的特徵中，僅有少數特徵使用頻率超過 150 次，意味著挑選的特徵較不固定，代表同種類別的蝴蝶，影像相似度不高。. 圖 26 Butterfly Dataset 訓練樣本以及分類類別數量實驗結果. 圖 27 Butterfly Image Dataset 特徵使用頻率分佈 40.

(50) (b) 不同主題影像變因實驗實驗(a)的每一個影像資料庫，皆視為相同主題領域的影像資料庫，在實驗 (b)中，我們將三種相同主題領域的影像資料庫做混合，形成一個綜合資料庫並將其視為不同領域的資料庫。藉此比較當分類任務的影像類型如果很相似或差異性較高的時候，本研究的辨識率的效果好壞。. 根據實驗數據可得知，整體表現上比變異性高的 Flower Dataset 和 Leeds Butterfly Dataset 表現還佳，但是仍輸給難易度最低的 NEC Animal Dataset。本研究方法中，相同主題領域的影像資料庫的難易度好壞，大大決定辨識率的優劣。如前段所述，簡單的 NEC Animal Dataset 可使用極少的訓練樣本就能有不錯的表現，最難的 Flower Dataset，雖使用較多的訓練樣本，但辨識率卻依然不及 NEC Animal Dataset。. 不同領域的影像資料庫中，本研究方法能保持可接受的準確率表現，呼應本研究目的，並未事先針對分類任務做該領域知識的模型設計，就能達到不錯的辨識率，以此實驗設計來說，使用 10 張訓練樣本就能達有 8 成辨識率。. 另一方面，在特徵頻率分佈表現上可以看出全域特徵比區域特徵使用頻率上要來的高，更重要的是，在全域區域的色彩空間分佈中，不同通道中的 bin 呈現出來彼此之間寬度大且相鄰緊密，說明在不分主題領域的資料庫所用到的特徵其實是很多元及廣泛的，幾乎整個色彩空間的所有 bin 都被挑選作為分類. 41.

(51) 使用，相較於前面相同主題領域資料庫這部分密集許多，就直方圖粗細而言。. 圖 28 Different Domains Dataset 訓練樣本以及分類類別數量實驗結果. 圖 29 Different Domains Dataset 特徵使用頻率分佈. 42.

(52) (c). 特徵子集使用個數分析特徵選取演算依據每個不一樣的分類任務挑選適合的特徵，子集合的特徵. 個數也不盡相同，圖 29 呈現各個資料庫裡所有訓練模型在特徵子集合中所用到的特徵數量統計以及平均，四張分佈圖看來沒有一致的規律性，僅 Butterfly Dataset 中可以歸納出在該資料庫中的分類任務，比較頻繁被使用的特徵數量組合為 250 到 600 之間擁有較多模型資料點落在此區間。. 另外由圖 29 可知，特徵選取演算法不保證選取完的特徵數量會有規律性，有可能使用到極少量的特徵，也有機會用到非常大量的特徵，明顯與特徵降維 (Feature Reduction) 做法截然不同。. 43.

(53) 圖 30 各資料庫特徵子集數量統計 44.

(54) 第五章結論與未來工作 5.1 結論本研究提出使用特徵選取的方式來實踐通用影像分類器的架構，藉由 SVM 的核心方法 F-score 演算法有效挑選出合適的影像特徵來完成影像分類的工作。透過實驗證明在不同領域的分類任務中皆能有一定程度的辨識準確度，並且深入探討分類資料中的訓練樣本數與類別數目之間的關係與差異性。. 其中，相同主題的資料庫以 NEC Animal Dataset 為最佳，皆擁有 9 成 5 的辨識率；不同主題的影像資料庫使用 10 張訓練樣本，就能達到 8 成以上的辨識率。但是我們也可以看到，本研究方法並非對所有的資料庫表現都是最好的，資料庫的特性仍然是決定辨識率好壞一個很重要的因素。. 在應用方面貼近一般真實分類任務狀況，在尚未假設分類主題領域的前提之下，使用本研究提出的通用分類器架構能自動產出適合的分類器，供其使用。. 45.

(55) 5.2 未來工作本研究仍有改善的空間，為達到通用分類器的效果，我們在準確率上做了犧牲，相較於專屬設計的分類器上仍然遜色許多，雖說這是權衡(Trade-off)的考量，要達到通用效果難無法完美於辨識率。為提高辨識準確率，特徵擷取的部分應提高擷取特徵的詮釋能力，例如在特徵擷取的時候加入重點區域選擇，或者更多不同類型的影像特徵，加強特徵的表示能力，避免不必要的雜訊影響到整體辨識率；或者，在特徵選取的決策上能有更精闢的策略，例如嘗試將特徵以類別的方式作分類，以分群階層式架構概念做挑選，讓佔有高比重同類型的特徵擁有較低的優先權，彌補 F-score 沒考量到共同資訊的缺點，相信都能夠使分類器擁有更佳的表現。. 46.

(56) 參考文獻 [1]. C. Chang and C. Lin, “LIBSVM: A Library for Support Vector Machines,” ACM Trans. Intell. Syst. Technol. 2011.. [2]. Y. Chen and C. Lin, “Combining SVMs with Various Feature Selection Strategies,” Featur. Extr. Stud. Fuzziness Soft Comput., vol. 207, no. 1, pp. 315–324, 2006.. [3]. K. Koutroumba, Pattern Recognition 4th Edition. pp. 4–7.. [4]. D. G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints,” Int. J. Comput. Vis., 2004.. [5]. Fei-Fei Li, Rob Fergus, Antonio Torralba “Recognizing and Learning Object Categories,” Int. J. Comput. Vis., 2009.. [6]. U. Vidal Naquet, “Object Recognition with Informative Features and Linear Classification,” Comput. Vis., 2003.. [7]. Curse of dimensionality. [Online]. Available: http://en.wikipedia.org/wiki/Curse_of_dimensionality.. [8]. M. Dash and H. Liu, “Feature selection for classification,” Intell. Data Anal., 1997.. [9]. Feature Selection. [Online]. Available: http://terms.naer.edu.tw/detail/1678987/.. [10] M. Dash, K. Choi, P. Scheuermann, and H. L. H. Liu, “Feature selection for clustering - a filter solution,” 2002 IEEE Int. Conf. Data Mining, 2002. [11] J. R. Quinlan, “Discovering Rules From Large Collections of Examples: A Case Study,” Expert Syst. Microelectron. Age. Edinburgh Univ. Press., 1979. [12] M. Robnik-Siknja and I. Kononeko, “Theoretical and empirical analysis of RelifF and RReliefF,” Mach Learn, 2003. [13] Huan Liu, “Chi2: feature selection and discretization of numeric attributes,” in Tools with Artificial Intelligence, 1995. [14] P. Pudil, “Floating search methods in feature selection,” Pattern Recognit. Lett., pp. 1119–1125, 1993. [15] I.-S. Oh, J.-S. Lee, and B.-R. Moon, “Hybrid genetic algorithms for feature selection.,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 26, no. 11, pp. 1424– 1437, 2004. 47.

(57) [16] P. L. Iñaki Inza1, Basilio Sierra1, Rosa Blanco1, “Gene selection by sequential search wrapper approaches in microarray cancer class prediction,” J. Intell. Fuzzy Syst., vol. 12, 2002. [17] F. De Inform and B. A. Draper, “Feature Selection from Huge Feature Sets,” Comput. Vis., 2001. [18] Y. Chang and C. Lin, “Feature Ranking Using Linear SVM,” pp. 53–64. [19]. S. Das, “Filters, wrappers and a boosting-based hybrid for feature selection,” in ICML ’01 Proc. of the Eighteenth International Conference on Machine Learning, 2001, pp. 74–81.. [20] A. Y. Ng, “On Feature selection: Learning with Exponentially many Irrelevant Features Training Examples,” Proc. 15th Interntional Conf. Mach. Learn., pp. 404–412, 1998. [21] G. McLachlan, Discriminant Analysis and Statistical Pattern Recognition. Wiley. 1992. [22] H. Bay, T. Tuytelaars, and L. Van Gool, “SURF: Speeded up robust features,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 3951 LNCS, pp. 404–417, 2006. [23] M. Calonder, V. Lepetit, M. Ozuysal, T. Trzcinski, C. Strecha, and P. Fua, “ BRIEF: Binary Robust Independent Elementary Features, ” IEEE Trans. Pattern Anal and Mach. Intell, 2012. [24] E. Rublee and G. Bradski, “ORB: an efficient alternative to SIFT or SURF,” Comput. Vis. (ICCV), 2011. [25] I. Guyon, J. Weston, S. Barnhill, and V. Vapnik. “Gene selection for cancer classication using support vector machines,” Machine Learning, 2002. [26] NEC Animal Dataset. [Online]. Available: http://ml.nec-labs.com/download/data/videoembed. [27] Leedsbutterfly dataset. [Online]. Available: http://www.comp.leeds.ac.uk/scs6jwks/dataset/leedsbutterfly/. [28]. Flower Image Dataset. [Online]. Available: http://www.robots.ox.ac.uk/~ vgg/data/flowers.. [29] A. Vedaldi, V. Gulshan, M. Varma, and A. Zisserman, “Multiple Kernels for object detection,” Proc. IEEE Int. Conf. Comput. Vis., pp. 606–613, 2009. 48.

(58) [30]. Caltech-101 Dataset. [Online]. Available: http://www.vision.caltech.edu/Image_Datasets/Caltech101/.. [31]. Experiments on Caltech-101. [Online]. Available: http://www.robots.ox.ac.uk/~vgg/software/MKL/.. 49.

(59)