Full Bandwidth RBF核函數參數自動挑選法與其在特徵選取之應用
全文
(2) 謝辭 首先感謝我的指導教授李政軒老師,在研究所二年中在研究上的指 導與提攜,教導了我許多專業知識以及程式撰寫,也帶著我與學長到加 拿大參與了國際研討會,開拓了我的視野與學術經驗。也感謝郭伯臣老 師與輔仁大學黃孝雲老師擔任我的口試委員,給了我許多建議和指導, 使我的論文更加的豐富與完整。 在研究所的生活中,感謝王敏嫻學姊在大大小小的事給予我的幫助, 感謝陳愷謦學長與張志昇學長在研究上的指導,還有許許多多的學長姐、 同學與學弟妹們,真的很謝謝大家。 且要感謝本論文研究所應用的各資料集之提供者,本論文使用的 「Pavia University Scene」影像資料集是由 Paolo Gamba 教授與 Fabio Dell’ Acqua 教授提供, 「Indian Pine Site」影像資料集由 Landgrebe 博士提供, 而教育測驗資料集由郭伯臣教授提供。另外感謝科技部(計劃編號 NSC 102-2218-E-142-001-與計畫編號 MOST 103-2221-E-142 -003 -MY3)的支 持,使本研究能順利進行。. 謝佩鈞 中華民國一○四年一月.
(3)
(4) 摘要 在科技日新月異的時代,我們所能獲得資訊的方式也越來越快速與多樣化, 但也因這些資料過於大量,且大多屬於高維度與高複雜度之資料,導致使用傳統 的方法分析這些巨量資料不僅耗時又困難,因此該如何有效的處理巨量資料成為 這個世代非常重要的議題。 許多的研究顯示,在處理高維度資料時會遇到所謂的 Hughes 現象,而支撐 向量機(support vector machine, SVM)可以有效的克服此現象。然而非線性的支 撐向量機,需應用核技巧(kernel trick)將資料透過隱映射的方式,對應到特徵空 間。在特徵空間中,利用線性支撐向量機找到最佳分類邊界,相對於原空間的資 料,即為一個非線性的分類邊界。但核函數挑選或核函數(kernel function)參數 值的選取對分類的性能有很大的影響,使用傳統方法交叉驗證法挑選不僅耗時也 無法保證會得到一個最佳解的參數。因此,如何有效地決定核函數參數是一種大 課題。Li 等人提出的自動核函數參數挑選法(automatic parameter selection, APS) , 可以有效且快速地找到 RBF(Radial Basis Function)核函數最佳參數。本研究將 APS 概念推廣,應用在尋找 FRBF(Full Bandwidth RBF)核函數的最佳參數組合。 另外,在處理高維度資料時,許多研究者也想知道其中哪些特徵比較重要, 哪些特徵對分類是有幫助的,故本研究根據 FRBF 核函數最佳參數的值來決定特 徵的重要程度,進而提出一個核化特徵選取法(kernel-based feature selection, KFS) 。 根據模擬資料的實驗結果,此方法可以有效地找到具有最大非線性分散程度的特 徵子集合。除了可以提供研究者了解特徵之重要性外,進而能提高支撐向量機的 分類效能。. 關鍵詞:支撐向量機、核函數、自動核函數參數挑選法、基於核函數之特徵選 取法。. I.
(5) II.
(6) Abstract Many researches show that dealing with the high-dimensional data with limit training samples encounters the Hughes phenomenon. Additionally, the nonlinear support vector machine (SVM) can overcome it efficiently. Nonlinear SVM is widely applied in various real-life fields including bioinformatics, medicine, food safety, forensics, text classification, and so on. However, the choice of kernel functions or their parameters has a large influence on classification performance by applying nonlinear SVM. Traditionally, the cross-validation based on grid search is used to pre-determine the appropriate kernel parameters. Nevertheless, it not only costs lots of time but also can’t guarantee to get the “best” parameters. Therefore, how to choose the kernel parameters efficiently and fast is a big issue for kernel-based algorithm. An automatic kernel parameter selection (APS) method was proposed by Li in 2010 and 2012, and the suitable kernel parameter of Radial Basis Function (RBF) kernel can be pre-determine in few seconds. In this study, we extend the APS to find the good parameters of the full bandwidth RBF (FRBF) kernel. Furthermore, these proper parameters can be used to determine the feature importance based on the largest nonlinear separability. According to the experimental results among simulation data set and real data sets, the classification accuracies by applying SVM based on FRBF kernel with the kernel parameters pre-determined by APS (SVM_FRBF) are higher than those by applying SVM based on RBF kernel with the kernel parameter pre-determined by APS (SVM_RBF). In addition, for SVM_RBF based on the suitable feature subset by proposed feature selection method (KFS+SVM_RBF), the corresponding classification accuracy may be higher than SVM_FRBF and SVM_RBF with whole features.. Keywords: Nonlinear support vector machine, SVM, RBF kernel, FRBF kernel, kernel-based feature selection method. III.
(7) IV.
(8) 目錄 摘要 ................................................................................................................................. I ABSTRACT ..................................................................................................................III 目錄 ................................................................................................................................ V 表目錄 ......................................................................................................................... VII 圖目錄 .......................................................................................................................... IX 第一章 緒論 ................................................................................................................. 1 第一節 研究動機 ......................................................................................................1 第二節 研究目的 ......................................................................................................3 第二章 文獻探討 ......................................................................................................... 9 第一節 支撐向量機 ..................................................................................................9 第二節 核函數最佳參數選擇法 ............................................................................12 第三節 特徵選取 ....................................................................................................15 第四節 基因演算法 ................................................................................................16 第三章 研究方法 ....................................................................................................... 19 第一節 自動 FULL-BANDWIDTH RBF 核參數挑選法 ...........................................19 第二節 基於核函數特徵選取法之應用 ................................................................25 第四章 實驗設計 ....................................................................................................... 29 第一節 資料描述 ....................................................................................................29 壹、UCI 資料庫之資料集 ....................................................................................29 一、Wine 資料集...............................................................................................29 二、Image Segmentation 資料集 ......................................................................29 三、Ionosphere 資料集 .....................................................................................30 貳、教育測驗資料集 ............................................................................................30 參、高光譜影像資料集 ........................................................................................32 一、Pavia University Scene 影像資料集 ..........................................................32 二、Indian Pine Site 影像資料集 .....................................................................34 第二節 實驗描述 ....................................................................................................36 第五章 實驗結果 ....................................................................................................... 39 第一節 UCI 資料庫之資料集 ................................................................................39 第二節 教育測驗資料集 ........................................................................................44. V.
(9) 第三節 高光譜影像資料集 ....................................................................................46 第六章. 結論與未來發展 ........................................................................................... 55. 參考文獻 ....................................................................................................................... 57 中文部分....................................................................................................................57 英文部分....................................................................................................................59 附錄一 教育測驗資料試題 ....................................................................................65. VI.
(10) 表目錄 表 2-2-1 常見核函數及其公式 ....................................................................................12 表 4-1-1 微積分單元之錯誤概念分類表 ....................................................................31 表 4-1-2 Pavia University Scene 影像各類別所含有之樣本數 ..................................33 表 4-1-3 Indian Pine Site 影像各類別所含有之樣本數 ..............................................34 表 4-2-1 不同實驗方案中各資料集樣本數量分配 ....................................................38 表 5-1-1 UCI 資料庫中各資料集的平均分類正確率 ................................................39 表 5-2-1 教育測驗資料集上的平均分類正確率 ........................................................44 表 5-3-1 Pavia University Scene 影像資料集之平均分類正確率 .............................46 表 5-3-2 Indian Pine Site 影像資料集之平均分類正確率 .........................................49. VII.
(11) VIII.
(12) 圖目錄 圖 1-1-1 高光譜遙感數據立方體 ..................................................................................2 圖 1-2-1 Hughes phenomenon.........................................................................................3 圖 1-2-2 RBF 核函數參數 1/ 4 下得到的邊界 ........................................................5 圖 1-2-3 RBF 核函數參數 1/ 2 下得到的邊界 .........................................................5 圖 1-2-4 RBF 核函數參數 1下得到的邊界 .............................................................6 圖 2-1-1 藍色邊界為 SVM 認為最適當的邊界 .............................................................. 10 圖 2-1-2 SVM 希望能找到一個直線 w T x b 0 具有最大的 margin .......................... 10 圖 2-2-1 值與相對的 J ( ) .........................................................................................14 圖 2-2-2 不同參數 與其整張影像的正確率 .............................................................15 圖 3-1-7 基因演算法流程圖 ........................................................................................17 圖 3-1-1 Easy Donut 資料集之特徵 1 與特徵 2.........................................................21 圖 3-1-2 Easy Donut 資料集之特徵 1 與特徵 5.........................................................21 圖 3-1-3 Easy Donut 資料集之特徵 2 與特徵 11 .......................................................22 圖 3-1-4 Easy Donut 資料集之特徵 4 與特徵 7.........................................................22 圖 3-1-5 1 、 2 與其對應的 J ( 1 , 2 ) 值 ...................................................................23 圖 3-1-6 不同參數 1 、 2 下之測試樣本正確率 .......................................................24 圖 3-2-1 使用本研究提出之 KFS 所得到的. 1. ,. 1. | | | | * 1. * 2. ,,. 1 | d* |. ...............................27. 圖 3-2-2 提出的核化特徵選取法搭配 SVM 的分類流程 ..........................................28 圖 4-1-1 Pavia University Scene 資料集之完整影像 ..................................................32 圖 4-1-2 Pavia University Scene 資料集地真資料分布圖 ..........................................33 圖 4-1-3 Indian Pine Site 資料集之完整影像 ..............................................................35 圖 4-1-4 Indian Pine Site 資料集地真資料分布圖 ......................................................35 圖 4-1-5 實驗用 Indian Pine Site 資料集地真資料分布圖 .........................................36 圖 5-1-1 在 Wine 資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類 正確率 ...........................................................................................................................41 圖 5-1-2 在 Image Segmentation 資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率 ..................................................................................42 圖 5-1-3 在 Ionosphere 資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的 分類正確率 ...................................................................................................................43 圖 5-2-1 在教育測驗資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的 分類正確率 ...................................................................................................................45 圖 5-3-1 Pavia University Scene 資料集在方案二下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率 ..................................................................................47. IX.
(13) 圖 5-3-2 Pavia University Scene 資料集在方案三下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率 ..................................................................................48 圖 5-3-3 Indian Pines Site 資料集在方案二下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率 ..................................................................................51 圖 5-3-4 Indian Pine Site 資料集在方案三下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率 ..................................................................................52 圖 5-3-5 為 Indian Pine Site 影像資料集在方案三中,SVM_RBF 之分類結果 .....53 圖 5-3-6 為 Indian Pine Site 影像資料集在方案三中,SVM_FRBF 之分類結果 ...53 圖 5-3-7 為 Indian Pine Site 影像資料集在方案三中,KFS+SVM_RBF 之分類結果 .......................................................................................................................................54. X.
(14) 第一章. 緒論. 第一節 研究動機 由於資訊科技不斷的進步,以及資料儲存成本的下降,我們能獲取的資料量 以正驚人的速度不斷增加,而資料來源也越來越多樣化,像是常見的數位通訊資 料、交易資料以及各種感測資料等等。這些巨量資料不僅資料量非常大量和龐雜, 且更新與產生的速度也非常快速,所以無法在短時間內透過人工達到擷取、處理 並整理成為一般能解讀的資訊(林俊宏,2014a,2014b)。而這些巨量資料大多也是 屬於高維度與高複雜度之資料,舉例來說,本論文所使用的 UCI 資料集(Bache & Lichman, 2013) 、高光譜遙測影像資料(Benediktsson, Palmason & Sveinsson, 2005; Landgrebe, 2003)與教育測驗資料(張偉民,2012)皆為高維度資料。 高光譜影像是由數十至數百之近連續波段所構成的光譜資訊,如圖 1-1-1 所 示。因此相對於傳統的多光譜影像,高光譜影像能提供更多且更豐富之資訊 (Cariou, Chehdi & Moan, 2011;Jia & Richards, 1994) 。現實生活中應用到高光譜 影像之領域非常的廣泛,陳天來與陳用佛(2014)以高光譜影像分析文件上之紅 色印泥,作為鑑別文書真偽之方法,因其處理過程不需與文件接觸,不僅有助於 文件之保存與管理,且操作簡單快速。施明倫、林唐煌、洪志豪與蔡廣叡(2013) 參考遙感技術於環境污染之應用,開發一套可攜式高光譜影像儀,藉由擷取周遭 空氣之高光譜影像,分析其空氣汙染指標好壞。葉育惠等人(2014)根據高光譜 影像技術具有非破壞性且快速之優點,將其應用於植物病害的鑑別與分析,以早 期發現病害,減少農作物之損失。王驥魁、朱宏杰、林志交與曾義星(2012)利 用高光譜影像之高空間解析度與高分辨率的特性,並結合全波形光達資料,能更 準確的以影像將土地進行分類。雖然高光譜遙測影像具有許多的優點,但其光譜 裡也包含許多雜訊或多餘的光譜資訊,且在分析上也比傳統多光譜影像更加困難 與複雜。. 1.
(15) 圖 1-1-1 高光譜遙感數據立方體 資料來源:Manolakis, D., Marden, D., & Shaw, G. A. (2003).Hyperspectral Image Processing for Automatic Target Detection Applications. LINCOLN LABORATORY JOURNAL, 14(1), 79-116.. 而教育測驗資料方面,藉由題目之設計與電腦化的幫忙,我們所能獲得的資 訊也比以前多了許多,題型方面也不單單只是選擇題或是非題,如在建構反應題 中,我們能透過分析學生的解題方式,獲得更多不同的資訊。並根據專家之判定, 能更清楚的了解到學生在解題時是哪個環節犯了錯誤,對於哪些觀念有了誤解, 也因此能更準確的導正學生其不足的部分,對於從事教育方面的人們來說,也能 更進一步的思考不同的教學策略來引導出學生正確的觀念,不管對於學生或從事 教育者都有很大的幫助,但也導致了這些教育測驗資料越來越大量且複雜,需要 更有效率的分析方法,自動區分學生屬於哪些錯誤類型(鄭俊彥,2011)。 雖然這些巨量資料擁有更大量且豐富的資訊,但在分析這些高維度與高複雜 度之資料時,使用傳統的分析方法不僅需耗費許多時間且分析的困難度增加,因 此該如何有效的處理巨量資料成為這個世代非常重要的議題。故本研究將以高維 度資料之處理為研究主題。. 2.
(16) 第二節 研究目的 在本研究處理高維度資料時,分為以下 3 種方向探討: 一、降低在處理高維度資料時遇到 Hughes 現象所帶來之影響 在處理高維度資料時,若訓練樣本(training sample)是有限的情況下,會遇 到所謂的 Hughes 現象(Hughes, 1968;Camps-Valls, et al., 2006;Kuo & Chang, 2007;Bruzzone & Persello, 2009;Kuo, Li, & Yang, 2009) ,此現象是因為高維度資 料跟一般分類資料比較起來,需要更多的訓練樣本個數。因此在固定的訓練樣本 之下,當所使用的維度增加時,其分類的正確率也會隨之上升,但到達某個最大 值之後,分類的正確率卻會隨著維度繼續增加而逐漸下降(Hughes, 1968) ,圖 12-1 所示,其中 N 為訓練樣本數,n 為模型的複雜度。. 圖 1-2-1 Hughes phenomenon 資 料 來 源 : Hughes, G. F. (1968). On the mean accuracy of statistical pattern recognizers. IEEE Transactions on Information Theory, 14(1), 55-63.. 3.
(17) 因此為了減低 Hughes 現象所帶來的影響,許多分類方法隨之先後被提出, 支撐向量機(support vector machine, SVM) (Boser, Guyon, & Vapnik, 1992;Vapnik, 2001)就是近年來常見的分類方法之一,且從 Melgani & Bruzzone(2004) 、CampsValls & Bruzzone ( 2005 )、 Camps-Valls, et al. ( 2006 )、 Fauvel, Chanussot, & Benediktsson(2006)和 Bruzzone & Persello(2009)等人的研究中發現,SVM 可 以有效的克服 Hughes 現象。支撐向量機是由 Vapnik 等人所提出的一種機器學習 技術,它是一種基於統計學習理論的分類(classification)演算法,此方法是嘗試 在訓練資料所構成的空間中找出一個最適合的分類超平面(hyperplane) ,並藉由 此超平面將兩個不同的集合分開,並同時要使此超平面與不同類別的間距達到最 大以獲得最佳的分類效果(Vapnik, 2001)。因此本研究將以 SVM 作為處理高維 度資料之分類器。 二、核函數參數挑選的重要性 上述描述是以資料為線性為前提。但在現實社會中,大部分的資料都是屬於 非線性的情形,為了解決這個問題,我們就需要利用核技巧(kernel trick)將資料 透過映射的方式,使資料轉換到更高維度的空間或特徵空間(feature space),且 針對這些樣本,找到一個線性的關係,就可以很輕易的利用一個超平面 (hyperplane)將資料正確地分類。 而在核函數(kernel function)中,核函數參數值的選取對分類的性能有很大 的影響,因此我們使用 Fisher's Iris 資料集(Fisher, 1936)進行核函數參數值挑選 的測試。Fisher's Iris 資料集是在樣本辨識與判別分析中常被用到的資料集,資料 集可分為山鳶尾、變色鳶尾和維吉尼亞鳶尾三種類別,每個類別各有 50 個樣本, 以及花萼長度、花萼寬度、花瓣長度與花瓣寬度四種特徵。 從圖 1-2-2、圖 1-2-3 和圖 1-2-4 可以發現,在使用 radial basis function(RBF) 核函數的 SVM 中,當 1/ 4 時,分類的邊界是呈現一條不規則的曲線。當. 1/ 2 時,分類的邊界是一條較平緩的曲線。而當 1 時,分類的邊界則是一條. 4.
(18) 平滑的曲線。其結果驗證了使用不同的 RBF 核函數參數 的確會改變分類結果。. 圖 1-2-2 RBF 核函數參數 1/ 4 下得到的邊界. 圖 1-2-3 RBF 核函數參數 1 / 2 下得到的邊界. 5.
(19) 圖 1-2-4 RBF 核函數參數 1 下得到的邊界. 在 Chapelle, et al(2002) 、Camps-Valls, et al(2004)和 Chang & Lin(2001) 等人的研究中發現,傳統常運用交叉驗證法(cross-validation,CV)來挑選最佳參 數,但交叉驗證法不僅耗時,也無法保證會得到一個最佳解的參數。而 Li 等人 (2010,2012)提出了一種基於核函數之類別分類法(kernel-based class separability, KCS),並藉由 KCS 類與類組間與組內的資訊發展出自動核函數參數挑選法 (automatic parameter selection, APS),此方法能將 SVM 之最佳參數在極短的時 間內找到。 此外,由 Kwon & Gurram(2010)的研究顯示使用 full bandwidth RBF (FRBF) 核函數可以改善分類的一般化能力(generalization ability)。FRBF 定義為: (x x' ) 2 1 d FRBF (x, x ' ) exp x x'T Dx x' exp( s 2 s ) 2 s 2 s1. 其中 D 為 the full diagonal bandwidth parameters matrix,其定義如下:. 6.
(20) 1 2 0 1 D 0 1 d2 . 也就是說我們可以針對每一個維度,調整不同的 band width。但 FRBF 核函數所 使用的參數數量等於特徵的數量,而參數多到難以使用交叉驗證 (cross-validation) 去預先確定 FRBF 核函數的最佳參數,故鮮少被研究者拿來使用。因此,在本研 究中,我們延伸了 APS 的概念(Li, et al., 2010,2012) ,藉此來確定較適合 FRBF 核函數之參數。 三、探討具有最大非線性分散程度之特徵子集合 在高維度資料中,研究者常常希望知道哪些特徵比較重要,且那些特徵對於 SVM 分類是有幫助的,例如高光譜影像資料是要找尋哪些特徵對於分類具有最 好的效能。而教育測驗資料則是想要知道哪些試題對於區別學生能力是最有幫助 的。因此提出一個核化特徵選取法(kernel-based feature selection, KFS),透過最 佳的參數來決定特徵的最重要性,且利用這些重要特徵進行分類,不僅能加快分 類速度,也能提高分類精準度。. 7.
(21) 8.
(22) 第二章. 文獻探討. 依據本研究之目的,在使用支撐向量機前,希望能利用自動核函數參數挑選 法來取代傳統的交叉驗證法挑選 FRBF 核函數之參數。因此在本章將探討、整理 與本研究有關的相關文獻,並將其分成兩節來敘述: 第一節為支撐向量機;第二 節為核函數最佳參數選擇法。. 第一節 支撐向量機 支撐向量機(support vector machine)簡稱 SVM,是由 Vapnik 等人從結構風 險最小化(structural risk minimization)概念中,所提出的一種基於統計學習理論 的分類(classification)演算法(Vapnik, 2001) 。此分類法被應用在許多不同的領 域,如:黃承龍、陳穆臻與王界人(2004)以支撐向量機建立分類系統,嘗試解 決信用卡詐欺之問題。蔡爾逸(2012)使用支撐向量機來預測都市不動產之價格, 以解決在不動產估價時因人為主觀判斷而產生的缺陷。而越來越多研究顯示在分 類方面支撐向量機皆能達到良好的效果,且能有效的有效的克服 Hughes 現象 (Melgani & Bruzzone, 2004;Camps-Valls & Bruzzone, 2005;Camps-Valls, et al., 2006;Fauvel, Chanussot, & Benediktsson, 2006;Bruzzone & Persello, 2009) ,因此 支撐向量機成為許多研究常使用的分類方法。 支撐向量機的分類原理是嘗試在訓練資料所構成的空間中找出一個最適合 的分類超平面(hyperplane) ,並藉由此分類超平面來分隔兩個類別之資料。以二 維資料的分類為例,從圖 2-1-1 中可以發現能用來區分兩類別資料之線條不只一 種,許多不同的線條皆能將兩類別的資料分開,但其中藍色的直線才是最適當的 邊界,故我們需要透過不同的方法找出能最有效區分兩類別資料的最佳線條。然 而支撐向量機之資料可能為高維度資料,所以用來分隔兩類別資料之高維平面我 們稱為分類超平面。. 9.
(23) 圖 2-1-1 SVM 判定之最適當的邊界(藍色). 因此為了得到最好的分類效果,我們必須找出具有最大邊界之分類超平面, 使得特徵空間中兩類資料的距離最大,將兩類資料以最佳的方式區分開來,如圖 圖 2-1-2 所示。. 圖 2-1-2 具有最大的 margin 的直線 wT x b 0. 但大部分的資料都是屬於非線性的情形,因此我們可以利用核技巧(kernel. 10.
(24) trick)將資料透過隱映射的方式,使資料轉換到更高維度的空間或特徵空間 (feature space)成為線性可分割,便可以很輕易的利用一個超平面(hyperplane) 將資料正確地分類。 而 該 如 何 找 出 最 適 合 的 分 類 超 平 面 ? 假 設 有 一 組 集 合 {( x i , yi )} , i 1,2,...,N ,其中 x i R 為訓練樣本, d. yi {1,1} 為 x i 的所屬類別。支撐向量機. 所使用的公式如下所示:. min w ,ξ. N 1 T w w C ξi 2 i 1. (1). 使得. . . yi wT xi b 1 ξi , i 1,2,, N ,ξi 0. (2). 其中 w 是超平面之法向量,b 為常數, 是一個非線性的映射函數, ξ i 為鬆弛變 數(Slack Variables),是分類錯誤的容許量,而 C 為懲罰參數,當 C 值變小時,分 類錯誤的容許量較高,分類精準度較低;反之,當 C 值變大時,分類錯誤的容許 量較低,則分類精準度較高。 但由於限定條件的關係,在解最佳化問題時會顯得有些棘手,因此我們利用 Lagrange Multiplier 方法將公式(1)(2)轉換為公式(3),藉此找出可以使 L 為最小值 的 w , b, 。 N. L( w, b, ) i i 1. 1 N N i j yi y j x i T x j 2 i 1 j 1. (3). 其 中 i 為 Lagrange Multiplier , i=1,2,…,N , 且 我 們 可 由 Mercer’s 定 理 得 知. x i , x j (x i )T (x j ) 。所以將公式(3)改寫如下(Shawe-Taylor & Cristianini, 2004):. 11.
(25) N. L( w, b, ) max i α. i 1. 1 N N i j yi y j x i , x j 2 i 1 j 1. (4). 一般而言, 為未知的隱映射,而透過控制核函數 的參數來調整不同的隱映 射 ,即我們只需要利用核函數計算出資料在特徵空間的內積值就可得到我們需 要的結果。. 第二節 核函數最佳參數選擇法 目前常見的核函數有線性核函數(linear kernel) 、多項式核函數(polynomials kernel)以及放射基核函數(radial basis function, RBF) ,如表 2-2-1 所示(Schölkopf & Smola, 2001)。 表 2-2-1 常見核函數及其公式 名稱. 公式. linear kernel. x i , x j x i x j T. x i , x j x i x j 1. radial basis function (RBF). m. T. polynomial kernel. x x i j x i , x j exp 2 2 . 2. m0. R 0 . 但從 Hsu(2003)等人的研究中我們可以發現,其中的 RBF 核函數具有以下之優 點: (一)RBF 核函數有助於處理與分類非線性高維度之資料。 (二)所使用的值在 0 至 1 之間,有助於減少運算的難度以及處理之時間。 (三)支撐向量機搭配 RBF 核函數只需調整參數 C 與 ,且操作較為簡單與擁 有足夠的預測能力。. 12.
(26) 因此使用不同的 C 和 ,皆會影響到支撐向量機分類的正確性。傳統的方法 是運用交叉驗證法(cross-validation, CV)與網格搜尋(grid search)來挑選參數 (Chapelle, et al., 2002;Camps-Valls, et al., 2004;Chang & Lin, 2001) ,但是這種 搜尋方法,不僅需要耗費大量時間,同時也無法保證會得到一個最佳解的參數。 Li 等人(2010)在 2010 年提出了一個基於核函數之類別分類法(kernel-based class separability),在假設 {x (ji ) } j 1,, Ni Rd 為第 i 類的訓練樣本情況下,運用 RBF 核函數的重要特性: (1)在特徵空間中,每個向量的長度為 1,即 ( x (i ) , x (i ) , ) 1 ; (2)特徵空間中,兩個向量之間的內積值介於 0 到 1 之間,即 0 (x(i ) , x(k j ) , ) 1。 根據這兩個特性,可以發現特徵空間中兩向量 (x(i ) ) 與 (x (k j ) ) 的餘弦值就等於是 其內積值,因為 cos . ( x (i ) )T ( x (k j ) ) ( x (i ) , x (k j ) , ) ( x (i ) , x (k j ) , ) (i ) (i ) ( j) ( j) || ( x (i ) ) || || ( x (k j ) ) || (x , x , ) (x k , x k , ). 也就是說,可以利用內積值 (x(i ) , x(k j ) , ) 來決定兩個向量的相似程度。 因此,我們希望藉由調整 RBF 核函數之參數 ,使得特徵空間中同一類的訓 練樣本要越接近越好,而不同類的訓練樣本距離則是要越遠越好。且由於每個向 量的長度皆為 1,換句話說,我們要調整 使得特徵空間中同類的訓練樣本內積 值(餘弦值) (x (i ) , x (ki ) , ) 要越接近 1 越好,同時,希望調整 使得不同類的訓練 樣本內積值(餘弦值) (x(i ) , x(k j ) , ), i j 則要越接近 0 越好。 故可利用同類之間的核函數值之平均 ( ) . L. 1. i 1 Ni2 L. Ni. Ni. (x i 1 1 k 1. (i ) . , x (ki ) , ). 來 量 測 組 內 的 分 散 程 度 , 即 核 化 組 內 分 散 程 度 ( kernel-based with-class separability)。同時也可以利用不同類之間的核函數值之平均. 13.
(27) b( ) . L. 1. L. i 1. L j 1 j i. Ni N j. L. Ni. Nj. (x i 1 j 1 1 j 1 j i. (i ) . , x (k j ) , ). 來 量 測 組 間 的 分 散 程 度 , 即 核 化 組 間 分 散 程 度 ( kernel-based between-class separability) 。由於我們要調整 使 ( ) 接近 1,同時 b( ) 接近 0,這等同於調整 ,使得 J ( ) 1 ( ) b( ). (5). 也就是說 J ( ) 為一個核化類別分散程度測量準則(kernel-based class separability, KCS) ,可以用瞭解在固定的 下,相對應的特徵空間中,類別之間的分散程度。 圖 2-2-1 為利用 Indian Pine Site(Landgrebe, 2003)中取出的訓練樣本,在不 同參數 之下,其相對應的 J ( ) 值。由此可以發現 J ( ) 為一個簡單曲線,且具有 單一個最小值,故可以很容易且快速地用最佳化演算法求得最小值發生的位置。 vs. J() 1 0.95 0.9. J(). 0.85 0.8 0.75 0.7 0.65. 0. 2000. 4000. 6000. 8000. 10000. 12000. 14000. 16000. 18000. . 圖 2-2-1 值與相對的 J ( ) 資料來源:Li, C. H., Ho, H. H., Liu, Y. L. Lin, C. T., Kuo, B. C., & Taur, J. S. (2012). An automatic method for selecting the parameter of the normalized kernel function to support vector machines. Journal of Information Science and Engineering, 28(1), 115.. 圖 2-2-2 為不同參數 ,其相對應的測試樣本之正確率與整張影像之正確率,. 14.
(28) 從下列兩張圖中可以發現圖 2-2-1 找出的最佳參數,其相對應於圖 2-2-2 的正確 率也在最高正確率附近,也就是說使用這個最佳參數選擇法可以有效且快速地找 到支撐向量機使用 RBF 核函數時之最佳參數。. 圖 2-2-2 不同參數 與其整張影像的正確率 資料來源:Li, C. H., Ho, H. H., Liu, Y. L. Lin, C. T., Kuo, B. C., & Taur, J. S. (2012). An automatic method for selecting the parameter of the normalized kernel function to support vector machines. Journal of Information Science and Engineering, 28(1), 1-15.. 第三節 特徵選取 特徵選取(Feature Selection)在處理高維度資料中是一項很重要的前處理工 作,其是依據可靠的準則去挑選最佳特徵的方法(Liu, 1998) 。特徵選取是將有用 的特徵保留,移除對分類之相關性較低的特徵,並希望使用最佳特徵所得到的分 類結果能接近使用全部特徵所得到的分類結果,而只使用最佳特徵不僅能降低特 徵空間的複雜度,且能加快分類速度。 特徵選取已被應用在許多不同的領域,像是圖形辨識和文件分類等高維度資 料,Dhir、Iqbal 與 Lee(2007)在人臉辨識方面,比較使用資訊增益與 Fisher 準 則兩種方法挑選特徵其在分類之表現。詹正維、廖學華、郭伯臣與紀明宏(2005). 15.
(29) 將不同特徵選取法及辨識器應用在 Washition DC Mall 圖庫資料集上(Landgrebe, 2003),驗證其辨識效果。黃乙哲(2009)建置偵測乳癌惡性變化系統,並使用 Sequential Forward Search(Yu & Guan, 2000)、Sequential Backward Search(Yu & Guan, 2000)與 F 分數(Chen & Lin, 2006)挑選擁有較佳能力的特徵子集合來輔 助分類。Xu 等人(2008) 使用主成分分析(Principle Component Analysis, PCA) 、 FOSMOD (Forward Orthogonal Searchby Maximizing the Overall Dependency)與 Fscore 分析肝臟影像分割,並比較其效能。簡卉伶(2008)為了將垃圾郵件過濾最 佳化,從垃圾郵件與正常信件中選取特徵值,並依比例找出最適當的特徵值數量 進行分類。然而上述方法皆是於原空間中找出具有最大分散量或分離量之特徵, 因此本研究將透過核化概念,提出核化特徵選取法(kernel-based feature selection, KFS),來找出具有最大非線性分離量的特徵,以達到更好的分類效果。. 第四節 基因演算法 基因演算法是被提出用來解最佳化問題的方法(Holland, 1992) ,其靈感與原 理是來自自然界生物基因中 DNA 編碼及物競天擇的演化理論。因此基因演算法 一開始需要先有母代(Parent generation) ,而母代中有許多基因(Genes) ,接著去 評估每一個染色體得到適應值(fitnessvalue),並根據既定的挑選機制(selection echanism)來複製個體進行生殖(Reproduction) 、交配(Crossover)與突變(Mutation) 以產生新的子代(Offspring) 。經過不斷重複這個過程,會將較好的基因遺傳下去, 因此最後我們會得到最佳的結果,其流程圖如圖 3-1-7 所示。. 16.
(30) 圖 3-1-1 基因演算法流程圖. 基因演算法已被廣泛的應用在各領域,McKinney & Lin(1994)以基因演算法求解 非線性與凸性之地下水管理設計問題。Chen(1997)使用基因演算法求得灌溉水資源管 理問題之最佳解。Harrouni 等人(1997)利用基因演算法與傳統非線性規劃求解含水層 之參數率定模式,並比較其差別。陳柏榮(2002)應用基因演算法、模糊理論、類神經 網路建立「智慧型投資組合決策輔助系統」 。林建智(2002)以基因演算法有效率地解決 訂單排程問題。黃福居(2001)利用基因演算法進行風扇葉片之設計。林楨家(1999) 將基因演算法做為構建都市規劃者的分析工具。 根據 Garrard & Fraga(1998)及 Haupt & Haupt(1998)的研究可歸納出基因演算的 特點及優點如下: 1. 基因演算法的起始群體是由亂數產生,因此不需猜測初始值(initial value)。 2. 基因演算法可以解決連續與不連續參數之最佳化問題。 3. 基因演算法可以處理大量的參數,且僅需適應函數資訊就可求解,不需要推導 複雜的數學模式。 4. 基因演算法在演化完成後,可以同時得到多組的最佳解,而非單一解。 5. 基因演算法能有效跳脫局部最佳化陷阱,因而能得到全域最佳值。. 17.
(31) 本研究利用解最佳化問題的方式來決定 FRBF 核函數最佳參數,由於 FRBF 之參數個數與特徵數相同,採用傳統數值方式解此最佳化問題不但耗時,也常常 找到的局部最佳值。故本研究將採用基因演算法來找最佳解,除了可以加速外, 也可以跳脫局部最佳解,得到全域最佳解。. 18.
(32) 第三章. 研究方法. 在 2010 年時,Kwon & Gurram(2010)的研究顯示使用 full bandwidth RBF (FRBF) 核函數可以改善分類的一般化能力(generalization ability)。但由本研究 前面之敘述可知,在使用非線性支撐向量機時,核函數的挑選影響分類結果甚巨。 尤其是參數頗多之核函數,因參數多,難以用交叉驗證法(CV)與網格搜尋法來 挑選最佳參數,因此 FRBF 核函數鮮少在研究中被使用。 本研究運用 Li 等人(2010,2012)所提出的「自動核函數參數挑選法」與「核 化類別分散程度測量準則」應用在找尋 FRBF 核函數之最佳核化參數,並搭配支 撐向量機進行分類。此外,FRBF 核函數的參數可以用來表徵變數的重要程度, 故本研究亦提出一個核化特徵選取法(kernel-based feature selection method) ,間 接挑選最適合支撐向量機的特徵。. 第一節 自動 Full-Bandwidth RBF 核參數挑選法 Full-bandwidth RBF (FRBF)核函數(Kwon & Gurram, 2010)的定義為:. 1 FRBF (x, x' ) exp x x'T Dx x' 2 . (6). 其中 D 為 the full diagonal bandwidth parameters matrix,其定義如下: 1 2 0 1 D 0 1 d2 . (7). 也 就 是 說 我 們 可 以 針 對 每 一 個 維 度 , 調 整 不 同 的 band width 。 但 如 果. 1 d ,則 FRBF 核函數就會退化成傳統的 RBF 核函數,所以傳統的 RBF 核函數為 FRBF 中的特例。. 19.
(33) 雖然 FRBF 核函數比起傳統的 RBF 核函數更加的彈性且能改善分類的一般 化能力(generalization ability) 。但在資料使用的維度增加時,使用交叉驗證(crossvalidation)與網格搜尋(grid search)來預先確定核參數之最佳參數是相當費時且 困難的。 因此為了改善 FRBF 核函數,我們延伸了自動核函數參數挑選法(APS)的 概念,提出類與類的組間與組內分散程度量測準則,其公式如下. ( 1 ,, d ) . L. 1. . Ni. Ni. . L. 2 i i 1 1 k 1. 1. L. N i 1. FRBF. ( x (i ) , x (ki ) , 1 ,, d ). (8). 與 b ( 1 ,, d ) . L. i 1. L j 1 j i. Ni N j. L. Ni. Nj. i 1 j 1 1 j 1 j i. FRBF. ( x (i ) , x (k j ) , 1 ,, d ). (9). 這與 APS 的概念相似,只是其中參數量從原來的一個 轉變成 1 , , d ,而我們 可以透過以下算式自動獲得最佳化的 1 ,, d min J ( 1 ,, d ). (10). J (1,, d ) 1 (1,, d ) b (1,, d ). (11). 1 ,, d. 使得. 我們使用 Easy Donut 資料集來討論最佳參數選擇法的效能(Kuncheva & Vetrov, 2006) 。Easy Donut 是由 2-D 繪製所產生的人造資料集,共有 12 個維度。 在這個資料集中,前 2 個特徵為真實特徵,而另外 10 個特徵為服從均勻分布的 雜訊。且特別的地方是就算是在前兩個特徵中,其資料之具備的竟是最大的非線 性分離量,而不是最大的線性分離量。從下面圖 3-1-1(使用第 1 個特徵與第 2 個 特徵所形成的散佈圖)可以發現,在特徵 1 與特徵 2 兩個特徵中,一類是聚集在 中間,另一類則是散佈於外圈。. 20.
(34) 圖 3-1-2 Easy Donut 資料集之特徵 1 與特徵 2. 若考慮第 1 個特徵與第 5 個特徵所形成的散佈圖(圖 3-1-2) ,不難發現在特 徵 1 中,第 1 類(紅色)是集中於中間,第 2 類(藍色)則散佈於-6 到+6 之間。 然而第 5 個特徵(雜訊) ,兩類資料散佈情況類似。考慮第 2 個特徵與第 11 個特 徵所形成的散佈圖(圖 3-1-3),也有類似的現象。. 圖 3-1-3 Easy Donut 資料集之特徵 1 與特徵 5. 21.
(35) 圖 3-1-4 Easy Donut 資料集之特徵 2 與特徵 11. 若考慮第 4 個特徵(雜訊)與第 7 個特徵(雜訊)所形成的散佈圖(圖 3-14) ,可以發現資料是均勻的分散在此二度平面空間中。. 圖 3-1-5 Easy Donut 資料集之特徵 4 與特徵 7. 22.
(36) 由圖 3-1-1、圖 3-1-2、圖 3-1-3 和圖 3-1-4 散佈圖可以得知,除了第 1 與第 2 兩個特徵一起搭配外,任何倆倆搭配的特徵子集合,皆不是最大的線性分離量。 為了瞭解提出的方法是否真的能夠找出 FRBF 核函數最佳參數位置,將仿照 圖 2-2-1 與圖 2-2-3,探討 J ( 1 , 2 ) 與正確率之間的關係。首先,我們只考慮 Easy Donut 資料集前面兩個真實維度,即忽略掉雜訊的維度。然後,使用 Kuncheva 和 Vetrov(2006)提供的 Easy Donut 提供的資料集生成函數,分別產生每類 50 個訓 練樣本與 50 個測試樣本。再利用訓練樣本算出不同 1 、 2 下的 J ( 1 , 2 ) 值,如 圖 3-1-5。最後,在計算出不同 1 、 2 下的分類正確率,如圖 3-1-6。. 2. 1. 圖 3-1-6 1 、 2 與其對應的 J ( 1 , 2 ) 值. 從圖 3-1-5 中我們也可以發現, J ( ) 為一個曲面且具有最小值,最小值的位 置發生在 ( 1 , 2 ) (0.1,0.2) 附近。我們將圖 3-1-5 與圖 3-1-6 進行比較,可以發現 從圖 3-1-5 找出的最佳參數,其相對應於圖 3-1-6 的正確率也在最高正確率附近。. 23.
(37) 2. 1 圖 3-1-7 不同參數 1 、 2 下之測試樣本正確率. 由 Easy Donut 資料集所得到的結果可以驗證,使用這個最佳參數選擇法,我 們也可以有效且快速地找到基於 FRBF 核函數之支撐向量機的最佳參數。但由於 在實際的數據集中,這些參數的數量可能會非常大量,因此我們使用基因演算法 (genetic algorithm, GA)來解決最佳化問題(Goldberg, 1989;Conn, Gould, & Toint, 1991;Conn, Gould, & Toint, 1997)。 綜合以上所說,本研究將自動核函數參數挑選法概念應用於尋找 FRBF 核函 數的最佳參數所提出方法之步驟如下: 步驟一::在基於訓練樣本 {x (ji ) } j 1,, Ni R d ,解最佳化問題 min J ( 1 ,, d ). 1 ,, d. 並獲得適當的參數 1* , , d* 。 步驟二: 應用交叉驗證(cross-validation)決定在最佳參數 1* , , d* 下,基於 FRBF. 24.
(38) 核函數之支撐向量機的懲罰參數 C。. 第二節 基於核函數特徵選取法之應用 根據上述之研究,我們發現 FRBF 核函數可以再拆解成為下面之公式: 1 x x'T Dx x' 2 . FRBF ( x, x' ) exp . 1 1 1 1 exp 2 ( x1 x1 ' ) 2 ( x2 x2 ' ) 2 ( xd xd ' ) 2 d 2 1. (12). 也就是說,我們可以將 band width 視為特徵的重要程度,其中 1 / i2 代表其第 i 個 特徵的重要程度。因此根據迴歸概念,為了能利用迴歸係數來解釋變數的重要性, 我們必須先求得每一個特徵的標準化值(z-score)(Dell’Acqua, Gamba, & Ferrari, 2003;Benediktsson, Palmason, & Sveinsson, 2005;Goldberg, 1989) 。其標準化過 程作法如下: 假設 x (i ) [ x(1i ) ,...,x(di ) ]T Rd 為每一筆資料,針對每個特徵,計算其平均與標準 差,即 L. m0 [m01 ,...,m0 d ]T R d , m0 k . L. s [ s1 ,...,sd ]T R d , sk . 每一個特徵的 z-score 為 z. (i ) k. Ni. x i 1 1. (i ) k. (13). N1 N L. (x i 1 1. Ni. (i ) k. m0k )2. (14). N1 N L. x(ki ) m0 k ,因此我們可以直接利用此 z-score 值所得 sk. 到的 z (i ) [ z(1i ) ,, z(di ) ]T R d 向量之組合係數大小來決定特徵的重要程度。因此, FRBF 核函數之最佳參數(band widths)將被用來決定特徵的重要性,即我們提. 25.
(39) 出一個核化特徵選取法(kernel-based feature selection, KFS)。 在核化特徵選取法中類與類的組間與組內分散程度測量準則如下. ( 1 , , d ) . . L. Ni. L. 1 N i 1. Ni. . 2 i i 1 1 k 1. FRBF. (z (i ) , z (ki ) , 1 , , d ). (15). 與 b ( 1 , , d ) . L. 1. L. i 1. L j 1 j i. Ni N j. L. Ni. Nj. i 1 j 1 1 j 1 j i. FRBF. (z (i ) , z (k j ) , 1 , , d ). (16). 調整 1 , , d 使得 min J ( 1 , , d ) 1 ( 1 , , d ) b ( 1 , , d ). (17). 1 ,, d. 其中 z 代表其相應樣本 x 的每個特徵之 z-score 值。與回歸相似, 1 / i2 可代表 (i ). (i ). 第 i 個特徵之類別非線性分散程度的重要程度。且如同前面提到的方法,最佳的. 1* ,, d* 可透過基因演算法(GA)自動獲得(Goldberg, 1989;Conn, Gould, & Toint, 1991;Conn, Gould, & Toint, 1997)。 最 佳 的 1* ,, d* 大 小 被 用 來 確 定 特 徵 的 重 要 性 , 其 挑 選 之 特 徵 是 根 據 1 1 1 1 { * , * ,, * } 的大小降序排列。當 值越大,則代表此特徵相當重要; | 1 | | 2 | |d | | i* |. 相反的,當. 1 | i* |. 值越小,則代表此特徵比較不重要,可以不用先列入考量。. 我們也利用 Easy Donut 資料集來實驗本研究提出之 KFS 的效能,圖 3-2-1 為 其在 Easy Donut 資料集上所得到之. 1. ,. 1. | | | | * 1. * 2. ,,. 1 | | * d. ,由圖中可發現. 1 | 2* |. 具有最. 大的值,換句話說第 2 個特徵就是 KFS 所判定的最重要特徵。而從前面的圖 3-11 也可以看到,資料在第 2 特徵上的顯示有個缺口,因此單獨考慮第 2 特徵時能. 26.
(40) 得到最大的類與類之分離量。而 KFS 所挑選到的前 2 特徵,分別是第 2 個維度與 第 1 個維度,就是 Easy Donut 資料集中的前兩個真實且具備最大的非線性分離量 的特徵,且 KFS 在雜訊上所得到的. 1 | i* |. , i 3,4,,12 非常接近 0。由此結果可驗. 證,本研究提出之 KFS 能找到具備最大非線性類與類分離量的子空間。. 圖 3-2-1 使用本研究提出之 KFS 所得到的. 1. ,. 1. | | | | * 1. * 2. ,,. 1 | d* |. 本研究利用所提出來的核化特徵選取法(KFS)來搭配 SVM,其完整流程如 圖 3-2-2 所示。. 27.
(41) 圖 3-2-2 提出的核化特徵選取法搭配 SVM 的分類流程. 28.
(42) 第四章. 實驗設計. 本論文將透過 UCI 資料庫之資料集、教育測驗資料集和高光譜影像資料集等 高維度資料來驗證驗證本研究提出方法之效能。. 第一節 資料描述 在本研究中,使用了 UCI 資料庫的 Wine、Image Segmentation 和 Ionosphere 三個資料集(Bache & Lichman, 2013)以及教育測驗資料集微分四則運算(張偉 民 , 2012 ) 和 高 光 譜 影 像 資 料 集 Pavia University Scene 與 Indian Pine Site (Benediktsson, Palmason & Sveinsson, 2005;Landgrebe, 2003) 。對於各資料集的 完整描述於下。. 壹、UCI 資料庫之資料集 本研究實驗採用 UCI 資料庫之 Wine、Image Segmentation 和 Ionosphere,資 料集摘要如下: 一、Wine 資料集 Wine 資料集是在意大利同一個區域所生產之三種不同品種的葡萄酒資料, 共有 178 個樣本數,包含 Alcohol、Malic acid、Ash、Alcalinity of ash、Magnesium、 Total phenols、Flavanoids、Nonflavanoid phenols、Proanthocyanins、Color intensity、 Hue、OD280/OD315 of diluted wines 和 Proline 13 種屬性。其中第一類有 59 個樣 本數,第二類有 71 個樣本數,第三類有 48 個樣本數。 二、Image Segmentation 資料集 Image Segmentation 資料集是由馬薩諸塞大學的 Vision Group 所創建,實例 數據是來自磚面、天空、樹葉、水泥、窗戶、小徑及草這 7 種戶外影像類別,每 個實例皆為 3 × 3 的區域,且影像皆用手勢分割為每個像素創建分類。樣本數共 2310 個,訓練樣本 210 個,與測試樣本 2100 個,包含 19 種屬性,分別為 region-. 29.
(43) centroid-col、region-centroid-row、region-pixel-count、short-line-density-5、short-linedensity-2、vedge-mean、vegde-sd、hedge-mean、hedge-sd、intensity-mean、rawredmean、rawblue-mean、rawgreen-mean、exred-mean、exblue-mean、exgreen-mean、 value-mean、saturatoin-mean 與 hue-mean。其中在訓練樣本中每個類別各有 30 個 實例,而在測試樣本中每個類別有 300 個實例。 三、Ionosphere 資料集 Ionosphere 資料集是來自 Johns Hopkins University 的電離層數據庫,此數據 是由 16 個高頻天線所組成的系統,在拉布拉多半島的 Goose Bay 所收集到的雷 達數據,並可依據電離層中自由電子的回饋將數據區分為好與壞兩種類別,此數 據共有 351 個樣本,包含 34 種屬性,其中被定義為好的樣本有 225 個,壞的樣 本有 126 個。. 貳、教育測驗資料集 所使用的教育測驗資料集是「行政院國家科學委員會輔助研究專題計畫-以貝 氏網路為基礎之微積分適性診斷測驗暨學習系統研發」之技專院校微積分領域中 的「微分四則運算」單元。此單元共有 23 題,18 題為四選一的選擇題,5 題為建 構反應題型,本研究則以第九題當作此教育測驗資料,測驗試題內容如附件一。 依據施測後所得到的結果,將學生的錯誤概念分成 13 種類型,與需要進行 補救教學之概念,如表 4-1-1。. 30.
(44) 表 4-1-1 微積分單元之錯誤概念分類表 組別. 人數. 類型. 1. 36. 錯用冪分配. 2. 0. 受加法律影響. 3. 33. 受乘法律影響. 4. 0. 形式錯覺. 5. 0. 缺乏正確的運算法則. 6. 3. 忽略對稱性或交錯性. 7. 5. 忽略必然性. 8. 67. 失序〈或流程不完全〉. 9. 8. 順序錯誤. 10. 0. 公式混搭. 11. 55. 無法歸納類別. 12. 58. 未作答. 13. 91. 正確答案. 合計. 356. 此資料集有 19 個維度,13 個類別,樣本數共 356 個。但是其中「受加法律 影響」 、 「形式錯覺」、「缺乏正確的運算法則」與「公式混搭」4 個類型之人數為 0,因此刪除這幾種類型,只使用「錯用冪分配」 、 「受乘法律影響」 、 「忽略對稱性 或交錯性」 、 「忽略必然性」 、 「失序〈或流程不完全〉 」 、 「順序錯誤」 、 「無法歸納類 別」 、 「未作答」與「正確答案」9 種類型進行實驗。. 31.
(45) 參、高光譜影像資料集 本 研 究 所 運 用 的 高 光 譜 影 像 為 「 Pavia University Scene 」( Benediktsson, Palmason & Sveinsson, 2005)資料集與「Indian Pine Site」資料集(Landgrebe, 2003) , 這兩個影像資料集皆可以從網路上免費取得。 一、Pavia University Scene 影像資料集 Pavia University Scene 資料集(Benediktsson, Palmason & Sveinsson, 2005)是 利用 Reflective Optics System Imaging Spectrometer(ROSIS)感測器在義大利一所 學校附近區域所測得的影像資料。原始的影像大小為 610 × 610 像素,但因影像 中某些區域沒有資訊,所以用來分析的影像大小為 610 × 340 像素。 Pavia University Scene 具有 103 個波段的光譜資料,且包含 Shadows、SelfBlocking Bricks、Bitumen、Bare Soil、Painted metal sheets、Trees、Gravel、Meadows 和 Asphalt 九種類別。圖 4-1-1 為 Pavia University Scene 資料集之完整的影像(原 始大小),圖 4-1-2 為 Pavia University Scene 資料集地真資料分布圖,表 4-1-2 為 PAVIA 各類別之像素個數。. 圖 4-1-1 Pavia University Scene 資料集之完整影像. 32.
(46) Shadows. Self-Blocking Bricks. Bitumen. Bare Soil. Painted metal sheets. Trees. Gravel. Meadows. Asphalt. Backgorund. 圖 4-1-2 Pavia University Scene 資料集地真資料分布圖. 表 4-1-2 Pavia University Scene 影像各類別所含有之樣本數 類別 1 2 3 4 5 6 7 8 9. 類別名稱 Shadows Self-Blocking Bricks Bitumen Bare Soil Painted metal sheets Trees Gravel Meadows Asphalt 全部. 33. 樣本數 947 3682 1330 5029 1345 3064 2099 18649 6631 42776.
(47) 二、Indian Pine Site 影像資料集 Indian Pine Site 資料集(Landgrebe, 2003)是利用 Airborne Visible/Infrared Imaging Spectrometer(AVIRIS)感測器在美國的 Indiana 一個混合森林與農業區 域所測得的影像。影像大小為 145 145 像素,具有 220 個波段的光譜資料,且包 含 16 種 Corn-notill、Grass-Pasture、Woods、Soybean-clean、Stone-Steel-Towers、 Wheat、Alfalfa、Corn-mintill、Grass-Pasture-mowed、Hay-windrowed、Soybean-mintill、 Corn、Grass-Trees、Buildings-Grass-Trees-Drives、Soybean-notill 和 Oats。. 表 4-1-3 Indian Pine Site 影像各類別所含有之樣本數 類別 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16. 類別名稱 Alfalfa Corn-notill Corn-mintill Corn Grass-pasture Grass-trees Grass-pasture-mowed Hay-windrowed Oats Soybean-notill Soybean-mintill Soybean-clean Wheat Woods Buildings-Grass-Trees-Drives Stone-Steel-Towers 全部. 34. 樣本數 46 1428 830 237 483 730 28 478 20 972 2455 593 205 1265 386 93 10249.
(48) 圖 4-1-3 為 Indian Pine Site 資料集之完整的影像(原始大小),圖 4-1-4 為 Indian Pine Site 資料集地真資料分布圖。表 4-1-3 為 IPS 各類別之像素個數。. 圖 4-1-3 Indian Pine Site 資料集之完整影像. 圖 4-1-4 Indian Pine Site 資料集地真資料分布圖. 35.
(49) 但因為部分類別的個數過少無法達到本研究實驗設計之標準,故此資料集只 用了其中 12 個類別,分別為:Corn-notill、Grass-Pasture、Woods、Soybean-clean、 Wheat、Corn-mintill、Hay-windrowed、Soybean-mintill、Corn、Grass-Trees、BuildingsGrass-Trees-Drives 和 Soybean-notill,如圖 4-1-5。. 圖 4-1-5 實驗用 Indian Pine Site 資料集地真資料分布圖. 第二節 實驗描述 本研究運用自行撰寫之 MATLAB 程式進行資料處理,採用的分類器是核函 數為 RBF 的支撐向量機、核函數為 FRBF 的支撐向量機和運用本研究所提出來 的核化特徵選取法(KFS)搭配 RBF 的支撐向量機。而在使用 RBF 核函數的支 撐向量機(SVM_RBF)時,須考慮到 RBF 核函數參數 。為了找出這個參數的 最佳值,我們使用由 Li 等人所開發的對於支撐向量機之自動挑選參數法來自動 選擇參數 (Li, et al., 2012)。當使用 FRBF 核函數的支撐向量機(SVM_FRBF) 時,須考慮到一組參數 1 , 2 ,..., d 。最佳參數則由本研究提出的 FRBF 核函數最. 36.
(50) 佳參數選擇法來決定。另外,支撐向量機的懲罰參數 C,則是使用網格搜尋法(Grid Search) 搭配 交叉驗 證法( cross-validation,CV) 來決 定。其 中網格 是設 定為. C 2 20 ,2 19 , ,2 20,交叉驗證設定為 5 折交互驗證法(5-fold cross-validation) 。 在本研究中使用三種不同類型的資料進行分類,第一種為 UCI 資料庫之資料 集,第二種為教育測驗資料集,第三種為高光譜影像資料集。並根據訓練樣本個 數的不同,分成下列三種實驗。 對於 UCI 資料庫之資料集,選用 10%的數據當作訓練樣本,其餘的 90%當作 測試樣本;教育測驗資料集是選用 50%的數據當作訓練樣本,其餘的 50%當作測 試樣本。 而在高光譜影像資料集中,由於考慮到現實情況常遇到小樣本問題,因此根 據張光佑(2006)研究中的實驗設計,將訓練樣本分成下列兩種情況來分析探究: (1)ill-posed: N i 10 N d ; (2)poorly-posed: N i 40 d N 。其中 N i 代表 第 i 類的標記樣本數量,N 代表的是訓練樣本的總數,d 代表的是維度。 第一種情況是 ill-posed,代表的是訓練的樣本總數 N 小於訓練樣本的維度數 d。而第二種情況是 poorly-posed,指的是訓練樣本總數 N 大於訓練樣本維度 d, 但每個類別的訓練樣本數 N i 還是小於訓練樣本維度 d。另外,針對這兩種方案, 其測試樣本皆為 100。不同實驗方案中各資料集樣本數量分配如表 4-2-1 所示。. 37.
(51) 表 4-2-1 不同實驗方案中各資料集樣本數量分配 實驗方案. 訓練樣本數. 測試樣本數. (全部樣本). (全部樣本). 資料集 Wine. 方案一. Image Segmentation. 10%. 90%. Ionosphere 方案一. 教育測驗資料集. 實驗方案. 資料集. 50%. 50%. 訓練樣本數. 測試樣本數. (每個類別). (每個類別). 維度. 類別數. 13. 3. 19. 7. 34. 2. 19. 13. 維度. 類別數. 方案二. Pavia University. 10. 100. 103. 9. 方案三. Scene. 40. 100. 220. 12. 10. 100. 103. 9. 40. 100. 220. 12. 方案二 方案三. Indian Pine Site. 38.
(52) 第五章 第一節. 實驗結果. UCI 資料庫之資料集. 本研究將自動核函數參數挑選法應用在 FRBF 核函數之支撐向量機並提出 KFS,亦將 KFS 搭配 RBF 核函數之支撐向量機使用(KFS+SVM_RBF) ,再將其 分別實驗在 UCI 資料庫中的 Wine、Image Segmentation 與 Ionosphere 三個資料集 驗證分類效能。其中 SVM_RBF 與 SVM_FRBF 分別代表在使用全部特徵(維度) 下,利用核函數最佳參數選擇法所挑選的 RBF 核函數參數之支撐向量機與 FRBF 核函數參數之支撐向量機。另外,KFS+SVM_RBF 代表先使用 KFS 決定特徵子 集合後,再利用 SVM_RBF 進行分類。各分類器在這三個 UCI 資料集的分類正確 率如表 5-1-1 所示,其中(維度數)代表 KFS+SVM_RBF 得到最高正確率時,相 對之 KFS 子集合所用的維度數。. 表 5-1-1 UCI 資料庫中各資料集的平均分類正確率 資料集. Wine. 維度. 13. 分類器. 分類正確率(維度數). SVM_RBF. 0.7107. SVM_FRBF. 0.7736. KFS+SVM_RBF. 0.8302(3). SVM_RBF. 0.8975. SVM_FRBF. 0.9129. KFS+SVM_RBF. 0.9197(13). SVM_RBF. 0.9175. SVM_FRBF. 0.9206. KFS+SVM_RBF. 0.9365(16、17). Image 19 Segmentation. Ionosphere. 34. 39.
(53) 由表 5-1-1 可知,在 UCI 資料庫的 Wine 資料集中,使用 KFS+SVM_RBF 所 得到的分類結果,其最高正確率為 0.8302,使用 SVM_RBF 的分類正確率為 0.7107, 使 用 SVM_FRBF 的 分 類 正 確 率 為 0.7736 , 顯 示 在 Wine 資 料 集 中 使 用 KFS+SVM_RBF 能得到較好的分類結果。在 Image Segmentation 資料集中,使用 KFS+SVM_RBF 所得到的分類結果,其最高正確率為 0.9197,使用 SVM_RBF 的 分類正確率為 0.8975,使用 SVM_FRBF 的分類正確率為 0.9129,顯示在 Image Segmentation 資 料 集 中 使 用 KFS+SVM_RBF 能 得 到 較 好 的 分 類 結 果 。 而 在 Ionosphere 資料集中,使用 KFS+SVM_RBF 所得到的分類結果,其最高正確率為 0.9175,使用 SVM_RBF 的分類正確率為 0.9206,使用 SVM_FRBF 的分類正確 率為 0.9365,顯示在 Ionosphere 資料集中使用 KFS+SVM_RBF 能得到較好的分 類結果。 由實驗結果顯示,在 UCI 資料庫的三個資料集中,SVM_FRBF 的分類正確 率高於 SVM_RBF,特別是在 Wine 資料集,由此可以驗證對於分類而言,支撐向 量機搭配 FRBF 核函數比搭配 RBF 核函數有更好的分類結果。另外,也間接驗證 本研究提出的自動 FRBF 核函數挑選法可以找到 FRBF 核函數的最佳參數。 最後,使用 KFS+SVM_RBF 所得到的分類正確率皆高於使用 SVM_RBF 與 使用 SVM_FRBF 所得的分類正確率,可證明在此實驗中使用本研究提出之 KFS 搭配 RBF 核函數之支撐向量機能得到較好的分類效能。因此,在搭配 KFS 提供 的最佳特徵子集合下,KFS+SVM_RBF 的分類效能優於 SVM_FRBF;SVM_FRBF 的分類效能優於 SVM_RBF。. 40.
(54) 0.8302. 0.84. 辨識正確率. 0.82 0.8 0.78. 0.76 0.74 0.72 0.7 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 特徵數 SVM_RBF. SVM_FRBF. KFS+SVM_RBF. 圖 5-1-1 在 Wine 資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分 類正確率,其中 SVM_RBF 與 SVM_FRBF 為使用全部特徵(13 維度) 的分類正確率,即與表 5-1-1 相同. 圖 5-1-1 為在 UCI 資料庫之 Wine 資料集下使用各方法所得到之分類正確率 的曲線圖,其中 SVM_RBF 與 SVM_FRBF 為使用全部 13 個特徵的分類正確率, 其分類正確率分別為 0.7107 及 0.7736,而 KFS+SVM_RBF 則會隨著使用不同的 特徵數其分類正確率也會跟著改變。 由圖 5-1-1 中可看到,KFS+SVM_RBF 在只使用 1 個特徵時,分類的正確率 為 0.7107,接著隨著使用的特徵數增加其分類正確率也跟著增高,很快的在使用 3 個特徵時達到了最高的分類正確率 0.8302。 這結果顯示了,使用 KFS+SVM_RBF 最高的分類正確率為 0.8302,不僅高 於使用 SVM_RBF 的分類正確率 0.7107 與使用 SVM_FRBF 的分類正確率為 0.7736,且 KFS+SVM_RBF 只使用了 3 個特徵數就能達到比 SVM_RBF 與 SVM_FRBF 更好的分類效能。. 41.
(55) 辨識正確率. 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25. 0.9197. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15 16 17. 18. 19. 特徵數 SVM_RBF. SVM_FRBF. KFS+SVM_RBF. 圖 5-1-2 在 Image Segmentation 資 料 集 下 , SVM_RBF 、 SVM_FRBF 與 KFS+SVM_RBF 的分類正確率,其中 SVM_RBF 與 SVM_FRBF 為使 用全部特徵(19 維度)的分類正確率,即與表 5-1-1 相同. 圖 5-1-2 為在 UCI 資料庫之 Image Segmentation 資料集下使用各方法所得到 之分類正確率的曲線圖,其中 SVM_RBF 與 SVM_FRBF 為使用全部 19 個特徵的 分類正確率,其分類正確率分別為 0.8975 及 0.9129,而 KFS+SVM_RBF 則會隨 著使用不同的特徵數其分類正確率也會跟著改變。 由圖 5-1-2 中可看到,KFS+SVM_RBF 在只使用 1 個特徵時,分類的正確率 為 0.2646,接著隨著使用的特徵數增加其分類正確率也跟著增高,在使用 13 個 特徵時達到了最高的分類正確率 0.9197,之後雖然使用更多的特徵數,但分類正 確率卻下降了一些且趨於平緩。 這結果顯示了,使用 KFS+SVM_RBF 最高的分類正確率為 0.9197,不僅高 於使用 SVM_RBF 的分類正確率 0.8975 與使用 SVM_FRBF 的分類正確率為 0.9129,且 KFS+SVM_RBF 只使用了 13 個特徵數就能達到比 SVM_RBF 與. 42.
(56) SVM_FRBF 更好的分類效能。. 1. 0.9365. 辨識正確率. 0.95 0.9 0.85 0.8 0.75. 0.7 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34. 特徵數 SVM_RBF. SVM_FRBF. KFS+SVM_RBF. 圖 5-1-3 在 Ionosphere 資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率,其中 SVM_RBF 與 SVM_FRBF 為使用全部特徵(34 維度)的分類正確率,即與表 5-1-1 相同. 圖 5-1-3 為在 UCI 資料庫之 Ionosphere 資料集下使用各方法所得到之分類正 確率的曲線圖,其中 SVM_RBF 與 SVM_FRBF 為使用全部 33 個特徵的分類正確 率,其分類正確率分別為 0.9175 及 0.9206,而 KFS+SVM_RBF 則會隨著使用不 同的特徵數其分類正確率也會跟著改變。 由圖 5-1-3 中可看到,KFS+SVM_RBF 在只使用 1 個特徵時,分類的正確率 為 0.7524,但在使用 4 個特徵時,分類正確率很快的上升至 0.9111,接著又隨著 使用的特徵數增加其分類正確率也跟著增高,在使用 16 與 17 個特徵時達到了最 高的分類正確率 0.9365。 這結果顯示了,使用 KFS+SVM_RBF 最高的分類正確率為 0.9365,不僅高. 43.
(57) 於使用 SVM_RBF 的分類正確率 0.9175 與使用 SVM_FRBF 的分類正確率為 0.9206,且 KFS+SVM_RBF 只使用了 16 個特徵數就能達到比 SVM_RBF 與 SVM_FRBF 更好的分類效能。. 第二節 教育測驗資料集 在教育資料集上(表 5-2-1 所示) ,也有類似使用 UCI 資料集的結果。即在搭 配 KFS 提供的最佳特徵子集合下,KFS+SVM_RBF 的分類效能優於 SVM_FRBF; SVM_FRBF 的分類效能優於 SVM_RBF。. 表 5-2-1 教育測驗資料集上的平均分類正確率 資料集. 教育資料集. 維度. 19. 分類器. 分類正確率(維度數). SVM_RBF. 0.7543. SVM_FRBF. 0.7886. KFS+SVM_RBF. 0.8057(17). 由表 5-2-1 可知,在教育測驗資料集上中,使用 KFS+SVM_RBF 所得到的分 類結果,其最高正確率為 0.8057,使用 SVM_RBF 的分類正確率為 0.7543,使用 SVM_FRBF 的分類正確率為 0.7886,顯示使用 KFS+SVM_RBF 所得到的分類正 確率高於使用 SVM_RBF 的分類正確率 0.7543 與使用 SVM_FRBF 的分類正確率 0.7886,可證明在此實驗中使用本研究提出之 KFS 搭配 RBF 核函數之支撐向量 機能得到較好的分類效能。. 44.
(58) 0.9. 0.8057. 辨識正確率. 0.8 0.7 0.6. 0.5 0.4 0.3 0.2 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 特徵數 SVM_RBF. 圖 5-2-1. SVM_FRBF. KFS+SVM_RBF. 在教育測驗資料集下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的 分類正確率,其中 SVM_RBF 與 SVM_FRBF 為使用全部特徵(19 維 度)的分類正確率,即與表 5-2-1 相同. 圖 5-2-1 為在教育測驗資料集下使用各方法所得到之分類正確率的曲線圖, 其中 SVM_RBF 與 SVM_FRBF 為使用全部 19 個特徵的分類正確率,其分類正確 率分別為 0.7543 及 0.7886,而 KFS+SVM_RBF 則會隨著使用不同的特徵數其分 類正確率也會跟著改變。 由圖 5-2-1 中可看到,KFS+SVM_RBF 在只使用 1 個特徵時,分類的正確率 0.2629,但使用 7 個特徵時,分類正確率很快的上升至 0.7085,之後也隨著使用 的特徵數增加其分類正確率也跟著增高,在使用 17 個特徵時達到了最高的分類 正確率 0.8057。 這結果顯示了,使用 KFS+SVM_RBF 最高的分類正確率為 0.8057,高於使 用 SVM_RBF 的分類正確率 0.7543 與使用 SVM_FRBF 的分類正確率為 0.7886, 且 KFS+SVM_RBF 只使用了 17 個特徵數就能達到比 SVM_RBF 與 SVM_FRBF. 45.
(59) 更好的分類效能。. 第三節 高光譜影像資料集 在高光譜遙測影像資料集(表 5-3-1、表 5-3-2 所示)亦可以得到類似於第一 節 UCI 資料集與第二節教育資料集的實驗結果。. 表 5-3-1 Pavia University Scene 影像資料集之平均分類正確率 資料集. 維度. 實驗方法. 方案二 Pavia University 103 Scene 方案三. 分類器. 分類正確率(維度數). RBF SVM. 0.7622. FRBF SVM. 0.7711. KFS+SVM. 0.7989(52). RBF SVM. 0.8356. FRBF SVM. 0.8556. KFS+SVM. 0.8878 (39). 由表 5-3-1 可知,Pavia University Scene 影像資料集在方案二的實驗結果中, 使用 KFS+SVM_RBF 所得到的分類結果,其最高正確率為 0.7989,使用 SVM_RBF 的分類正確率為 0.7622,使用 SVM_FRBF 的分類正確率為 0.7711,顯示 Pavia University Scene 影像資料集在方案二中使用 KFS+SVM_RBF 能得到較好的分類 結果。 而 Pavia University Scene 影 像 資 料 集 在 方 案 三 的 實 驗 結 果 中 , 使 用 KFS+SVM_RBF 所得到的分類結果,其最高正確率為 0.8878,使用 SVM_RBF 的 分類正確率為 0.8356,使用 SVM_FRBF 的分類正確率為 0.8556,顯示 Pavia. 46.
(60) University Scene 影像資料集在方案三中使用 KFS+SVM_RBF 能得到較好的分類 結果。 由實驗結果顯示,Pavia University Scene 影像資料集在方案二與方案三中, 使 用 KFS+SVM_RBF 所 得 到 的 分 類 正 確 率 皆 高 於 使 用 SVM_RBF 與 使 用 SVM_FRBF 所得的分類正確率,可證明在此實驗中使用本研究提出之 KFS 搭配 RBF 核函數之支撐向量機能得到較好的分類效能。 且由表 5-3-1 也可得知,Pavia University Scene 影像資料集在方案三中使用 SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 所得到的分類正確率皆高於方案二 中的分類正確率,方案三是使用 40 個訓練樣本,而方案二是使用 10 個訓練樣本, 顯示提高訓練樣本數量也有助於提升分類正確率。. 0.85. 0.7989. 辨識正確率. 0.80 0.75 0.70 0.65 0.60 0.55. 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101. 0.50. 特徵數 SVM_RBF. 圖 5-3-1. SVM_FRBF. KFS+SVM_RBF. Pavia University Scene 資料集在方案二下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率,其中 SVM_RBF 與 SVM_FRBF 為使用全部特徵(103 維度)的分類正確率,即與表 5-3-1 相同. 47.
(61) 圖 5-3-1 為 Pavia University Scene 資料集在方案二下使用各方法所得到之分 類正確率的曲線圖,其中 SVM_RBF 與 SVM_FRBF 為使用全部 103 個特徵的分 類正確率,其分類正確率皆分別為 0.7622 及 0.7711,而 KFS+SVM_RBF 則會隨 著使用不同的特徵數其分類正確率也會跟著改變。 由圖 5-3-1 中可看到,KFS+SVM_RBF 在只使用 1 個特徵時,分類的正確率 為 0.5278,但使用 7 個特徵時,分類正確率很快的上升至 0.78,之後也隨著使用 的特徵數增加其分類正確率也跟著增高,在使用 52 個特徵時達到了最高的分類 正確率 0.7989。 這結果顯示了,使用 KFS+SVM_RBF 最高的分類正確率為 0.7989,不僅高 於使用 SVM_RBF 的分類正確率 0.7622 與使用 SVM_FRBF 的分類正確率為 0.7711,且 KFS+SVM_RBF 只使用了 52 個特徵數就能達到比 SVM_RBF 與 SVM_FRBF 更好的分類效能。. 0.95. 0.8878. 0.90. 辨識正確率. 0.85 0.80 0.75 0.70 0.65 0.60. 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101. 0.55. 特徵數 SVM_RBF. SVM_FRBF. KFS+SVM_RBF. 圖 5-3-2 Pavia University Scene 資料集在方案三下,SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 的分類正確率,其中 SVM_RBF 與 SVM_FRBF 為使 用全部特徵(103 維度)的分類正確率,即與表 5-3-1 相同. 48.
(62) 圖 5-3-2 為 Pavia University Scene 資料集在方案三下使用各方法所得到之分 類正確率的曲線圖,其中 SVM_RBF 與 SVM_FRBF 為使用全部 103 個特徵的分 類正確率,其中分類正確率分別為 0.8356 及 0.8556,而 KFS+SVM_RBF 則會隨 著使用不同的特徵數其分類正確率也會跟著改變。 由圖 5-3-2 中可看到,KFS+SVM_RBF 在只使用 1 個特徵時,分類的正確率 為 0.5611,但使用 3 個特徵時,分類正確率很快的上升至 0.8166,之後也隨著使 用的特徵數增加其分類正確率也跟著增高,在使用 39 個特徵時達到了最高的分 類正確率 0.8878。 這結果顯示了,使用 KFS+SVM_RBF 最高的分類正確率為 0.8878,不僅高 於使用 SVM_RBF 的分類正確率 0.8356 與使用 SVM_FRBF 的分類正確率為 0.8556,且 KFS+SVM_RBF 只使用了 39 個特徵數就能達到比 SVM_RBF 與 SVM_FRBF 更好的分類效能。. 表 5-3-2 Indian Pine Site 影像資料集之平均分類正確率 資料集. 維度. 實驗方案. 方案二 Indian Pine Site. 分類器. 分類正確率(維度數). RBF SVM. 0.6150. FRBF SVM. 0.6775. KFS+SVM. 0.7050(34). RBF SVM. 0.7508. FRBF SVM. 0.7892. KFS+SVM. 0.8167(124). 220 方案三. 49.
(63) 由表 5-3-2 可知,Indian Pine Site 影像資料集在方案二的實驗結果中,使用 KFS+SVM_RBF 所得到的分類結果,其最高正確率為 0.705,使用 SVM_RBF 的 分類正確率為 0.6150,使用 SVM_FRBF 的分類正確率為 0.6775,顯示 Indian Pine Site 影像資料集在方案二中使用 KFS+SVM_RBF 能得到較好的分類結果。 而 Indian Pine Site 影像資料集在方案三的實驗結果中,使用 KFS+SVM_RBF 所得到的分類結果,其最高正確率為 0.8167,使用 SVM_RBF 的分類正確率為 0.7508,使用 SVM_FRBF 的分類正確率為 0.7892,顯示 Indian Pine Site 影像資 料集在方案三中使用 KFS+SVM_RBF 能得到較好的分類結果。 由實驗結果顯示,Indian Pine Site 影像資料集在方案二與方案三中,使用 KFS+SVM_RBF 所得到的分類正確率皆高於使用 SVM_RBF 與使用 SVM_FRBF 所得的分類正確率,可證明在此實驗中使用本研究提出之 KFS 搭配 RBF 核函數 之支撐向量機能得到較好的分類效能。 且 由 表 5-3-2 也 可 得 知 , Indian Pine Site 影 像 資 料 集 在 方 案 三 中 使 用 SVM_RBF、SVM_FRBF 與 KFS+SVM_RBF 所得到的分類正確率皆高於方案二 中的分類正確率,方案三是使用 40 個訓練樣本,而方案二是使用 10 個訓練樣本, 顯示提高訓練樣本數量也有助於提升分類正確率。. 50.
相關文件
Core vector machines: Fast SVM training on very large data sets. Using the Nystr¨ om method to speed up
Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated
利用 determinant 我 們可以判斷一個 square matrix 是否為 invertible, 也可幫助我們找到一個 invertible matrix 的 inverse, 甚至將聯立方成組的解寫下.
Then, we tested the influence of θ for the rate of convergence of Algorithm 4.1, by using this algorithm with α = 15 and four different θ to solve a test ex- ample generated as
Numerical results are reported for some convex second-order cone programs (SOCPs) by solving the unconstrained minimization reformulation of the KKT optimality conditions,
Particularly, combining the numerical results of the two papers, we may obtain such a conclusion that the merit function method based on ϕ p has a better a global convergence and
By exploiting the Cartesian P -properties for a nonlinear transformation, we show that the class of regularized merit functions provides a global error bound for the solution of
The original curriculum design for the Department of Construction Engineering of CYUT was to expose students to a broad knowledge in engineering and applied science rather than