• 沒有找到結果。

尋優支持向量機於分類應用之研究

N/A
N/A
Protected

Academic year: 2021

Share "尋優支持向量機於分類應用之研究"

Copied!
7
0
0

加載中.... (立即查看全文)

全文

(1)尋優支持向量機於分類應用之研究 Applying Optimal Support Vector Machine for Pattern Classification 林錦昌. 駱至中. 佛光人文社會學院 資訊學系. 佛光人文社會學院 資訊學系. linedwin@ms14.hinet.net. locc@mail.fgu.edu.tw. 摘要 近 十年 來,支 持向 量機 (Support Vector Machine,簡稱為 SVM)由於其在許多領域問 題之解決上均有良好表現而受到矚目。在支持 向 量 機中 包含 一 個學 習演 算 法及 其輸 入 空 間,輸入空間內含一個訓練集和一個測試集。 藉由訓練集的輸入,學習演算法可以找出一個 辨別器,並經由測試集我們可以知道此辨別器 的辨別正確度。支持向量機的目的便是找出正 確度夠好的辨別器以分辨鑑別後續未知的輸 入項。機器學習機制學習效果的優劣,會因所 使用的訓練資料集中能否涵蓋整個問題空間 的而定。但隨著輸入空間的維度增加,計算的 複雜度也跟著提高,而往往致使機器學習效果 變差。特性篩選便是為解決這類問題而發展出 來的。而特性篩選又可分為二種,一為針對輸 入空間中的向量分量作排序,以決定分量對辨 別器的影響,進而捨棄不重要者以降低計算的 複雜度;其二則以找出含蓋整個問題空間的最 大樣模,來做為訓練範例以得到最佳的學習機 制。在本論文中,我們提出「尋優支持向量 機」,其中以模擬退火演算法找出支持向量機 所需的支持向量集合做為訓練資料集,配合支 持向量機的學習機制,在較少數量訓練資集 中,找出最能代表整個母體資料的訓練樣本, 建構最大邊緣解的支持向量集以克服大量的 輸入資料的分類問題。為驗證所提出之機器學 習機制的分類效能,本研究以糖尿病資料集為 驗證實例。結果顯示,本研究所提出之尋優支 持向量機確實有能力處理樣模分類問題。 關 鍵 詞 : 支 持 向 量 機 (Support Vector Machine) 、 模 擬 退 火 演 算 法 (Simulated Annealing)、尋優支持向量機(Optimal SVM)、特性篩 選(Feature Selection). 一、緖論 支 持 向 量 機 (SVM) 源 起 於 統 計 學 習 理 論,它研究如何構造學習機制以解決樣模分類. (Pattern Classification)問題[8]。支援向量機使 用結構風險最小化(Structural Risk Minimization,SRM 準則)原理構造決策超平面,使每 一類資料之間的分類間隔(Margin)最大[11]。 根據 SRM 準則:學習機對未知數據分類所產 生的實際風險在 0 < η < 1 時,得滿足以下關 係: R ≤ Remp +. h (log(2n / h ) + 1) − log(η / 4) n. (1). 其中,n 為訓練樣本個數,R 是實際風險,而 不等式的右邊總稱為「風險邊界」,Remp 為經 驗風險, h(log(2n / h ) + 1) − log(η / 4) 項則被稱之 n. 為“VC 置信值”,值項中的 h 是學習機的 VC 維,它也反映了此學習機的複雜程度。 SVM 的基本精神就是在樣本數目適宜的 前提下,選取比較好的 VC 維(h),使 Remp 和 VC 置信值得以折衷均衡,使每一類別資料之 間的分類間隔(Margin)最大,最終使得 R 值 變小。對於線性不可分的數據,支援向量機則 依照 Cover 定理,通過核函數把資料由低維空 間向高維空間映射,進而在高維空間為低維資 料構造線性可分超平面。SVM 研究中,最常 用的核函數主要有多項式函數、徑向基函數和 多層 Sigmoidal 神經網路函數等三類。而其空 間轉換的具體作法為﹕在低維不可分的情況 下,對於每個要判別的未知樣本 u,計算高維 空間中的最佳超平面分類函數 f(u): S. f (u ) = ∑ α i y i K (u, xi ) + b. (2). i =1. 其中,αi 是支持向量 xi 對應的 Lagrange 乘數, yi 是支持向量 xi 的類別標記(值為 1 或者-1), S 是支持向量總數,K 是核函數, f(u)值的正 負即分別代表不同的類別。支援向量機適合解 決高維度的稀疏矩陣資料,但當要克服大量的 輸入資料,找出支持向量矩陣時,將需要極大.

(2) 的資源及複雜的計算時間。 模擬退火演算法(Simulate Algorithm,簡 稱 SA)是屬於啟發式演算法的一種。而所謂的 啟發式演算法,均會有下列四個特點[1, 7]: 1、 在解空間中反覆的搜尋。 2、 問題中的決策變數扮演某些特定角色, 例如:神經元(neurons)、微粒(particles)、 染色體(chromosomes)、螞蟻(ants)等。 3、 決策變數間採競爭與合作的運算方法。 4、 演算法本身擁有對問題的表現,進行自 我修正改善(self-modification)的機制。 由以上說明可知,啟發式演算法乃是一群 由人工智慧所衍生或與之相關的尋優技術。它 藉由決策變數的角色扮演,在解空間中依循一 定的法則進行搜尋,而 SA 則是近年來公認最 具有實用價值的啟發式演算法之一。一般在處 理最佳化的問題時,必須注意搜尋是否落入區 域的最佳解,在近年來所謂的啟發式演算法, 利用隨機性的搜尋法則,在可行解空間中利用 疊代改善的搜尋方法搜尋最佳解,以提高得到 全域最佳解(global optima)的機率。所謂的疊代 改善法,就是指演算法在搜尋的過程中,在經 過『初始解』的設定之後,演算法會在鄰近的 解空間當中,尋找一個較佳的鄰近解,並且將 較佳的鄰近解,取代而成為目前解,如此經由 不斷的疊代改善之後,搜尋便會朝最佳解邁 進,找到最佳值。SA 便其中的一種相當成功 的搜尋方法。 本文所提出一名為「尋優支持向量機」的 機器學習機制,機制中以模擬退火演算法配合 支持向量機,在數量較少的訓練資料集中,找 出最能代表整個母體空間的訓練樣本,建構最 大邊緣解的支持向量集以克服大量輸入資料 的分類問題。本研究中並以糖尿病資料集為實 證案例來驗證本研究所提出之尋優支持向量 機的效能及處理能力。. 二、模擬退火演算法 1953 年,Metropolis 等人首先提出一套 模 擬 金屬 退火 過 程的 電腦 演 算程 序, 稱 作 Metropolis 程序。之後,Kirpatrick 等人(1983) 便以此作為理論基礎,提出了 SA。所謂的 SA,其原理乃是模擬凝結物質結晶的退火程 序(annealing process)。其主要的構想在於當物 體受熱,溫度升高至熔融狀態時,若將分子不 同的結晶狀態模擬成不同的可行解,在溫度高 時,分子的活動能力較強,在解空間之中散亂 的搜尋,所形成結晶的型態較多,也代表其搜 尋範圍較大[2]。. 理論上,隨著退火程序的進行,溫度隨著 時間而下降,物體分子的活動能力也跟著降 低,搜尋範圍減小,結晶體趨穩定,當溫度降 到最低時,物體的結晶為最穩定的狀態,我們 稱之為基態(ground state),代表其分子間的 最小能量,且晶格的排列為最佳的狀態,圖 1 為模擬退火演算法搜尋過程的演化歷程圖。然 而,在溫度降低的過程中,若此降溫過程太 快,亦即快速地使熔融狀態的物體達到固化狀 態,物體快速地凝結會使得部份晶格來不及重 新排列,如此材料內部就會有晶格排列紊亂的 情形發生,這一種狀態的能量將會比經過充分 時間退火的材料的能量高,這種情形稱之為快 速淬火( rapid quenching )。快速淬火的結果, 導致晶格排列無法達到最佳的狀態,亦即函數 落入了區域的最佳值。此時必須利用另一個方 法,用機率公式來決定協助 SA 跳脫區域的最 佳解,這個方法稱之為波茲曼機率分布 (Boltzmann probability distribution)。. 圖 1、模擬退火演算法搜尋過程 SA 屬於疊代改善法的一種,除了疊代改 善之外,SA 之所以能夠成功的搜尋全域最佳 解,在於它改善了疊代改善法容易陷入區域最 佳解的缺點,而擁有跳脫局部最佳解的能力之 故。所謂的解,指的就是一種狀態,以最佳化 問題為例,就是每個決策變數所對應的目標函 數值,就稱為一個『可行解(solution)』,目前 的可行解狀態就叫做『現行解』。以最小化的 問題為例,疊代改善法之『現行解』若是落在 區域最小值的區域內,便會繼續的往該區域之 最小值移動,而忽略了真正的全區域最小值。 以下為模擬退火演算法 SA 的演算步驟[3, 4]: Step1、 設定初始狀態 T = Ti,在空間中任意 選取一點 S 作為起始點,作為現行 解,並計算其目標函數值 C(S)。 Step2、 利 用 某 一 個 有 效 的 擾 動 機 制 (Perturbation Mechanism),根據現行 解的狀態,產生一鄰近解 S ′ 。 Step3、 計 算 S 與 S ′ 目 標 函 數 值 的 差 ,.

(3) ∆E = C (S ′) − C (S ) 。 Step4、 進 行 如 下 之 決 策 判 斷 ﹕ 若 是 ∆E < 0 ,此時表示鄰近解的狀態較 佳,則接受 S ′ 成為新的現行解。反 之 , 若 是 ∆E ≥ 0 , 則 以 機 率 值  − ∆E  來 判 斷 是 否 接 受 鄰 p = exp   KT  近解﹔其作法為隨機產生一介於 0 與 1 之間的實數 R,若 p ≥ R 則接 受,反之則否。 Step5、 判斷收斂條件(終止條件),若符合之 前所設定的終止條件,則停止演算 法,以目前解為最佳解,若否,則 進行 Step6。 Step6、 降低溫度,利用溫度降低的機制, 產生下一個溫度 Ti+1 < Ti ,重複 Step2,進行下一個搜尋。. 在下式(4)中找出 w 及 b 的最佳解,以滿足其 限制條件。. d i ( wT xi + b) ≥ 1 for i = 1, 2,..., N (4) 且 w 符合以下式(5)之狀況: minimizes. J ( w, b, α ) =. [. ]. N 1 T w w − ∑ α i d i ( wT xi + b) − 1 (6) 2 i =1. 接著,再利用 duality theorem 而可得到﹕ N 1 N N T Q(α ) = ∑ α i − ∑ ∑ α iα j d i d j xi x j (7) 2 i =1 j =1 i =1. N. 支持向量機(SVM)是一個具有良好學習 機制的特性,主要作用在產生一個用來分類的 超平面(hyper plane),並嚐試之間的空間最大 化。更詳細的說 SVM 是一個用風險最小化的 學習機制實作,其主要的原理在於用訓練錯誤 率(training error rate)限制發生於 VC 維度之測 試資料集的錯誤率。 通常,支持向量學習演算法(SV algorithm)可以被用來建構 (1)多項式學習機制 (Polynomial learning machines)、(2)半徑基底函 數類神經網路(Radial-basis-function networks) 和(3)多層式感知機學習機制(Mutilayer perceptrons)等三種不同的學習機制。以下將就支 持向量機的應用模式及理論進一步的闡述 [6, 7, 9, 10]。 3.1 支持向量機於線性可分割 (linear separable patterns)的處理模式 在線性可分割的模式,當以 W 代表 weight vector,X 是 input vector,b 是 bias,d i 是 output 則﹕. d i = +1. (5). 這種叫做 primal problem,其有下列特性﹕ 1、 Φ ( w) 是 w 的 convex 函數 2、 w 是最佳化過程之線性 Lagrange 乘數. ∑α d i. for. 1 T w w 2. 而其間各參數變化必得在下列限制之內﹕. 三、支持向量機. W T Xi + b ≥ 0. Φ ( w) =. (3). d i = −1 W T Xi + b < 0 上式(3)中的 W 及 b 可做調整而為值大於等於 1 或小於-1 ,Support vector 是那些合併在決 策面的點,因此是最難合併的點。故可利用二 次最佳化找出最佳的決策邊界超平面 ( Quadratic optimization finding the optimal hyperplane). i. = 0 & αi ≥ 0. for i = 1, 2,..., N (8). i =1. N. w0 = ∑α 0,i d i xi. (9). i =1. b0 = 1 − w0T x ( s ) for d ( s ) = 1 3.2. (10). 支持向量機於不可分離(Non-separable pattern)的處理模式. 當在線性不可分割的模式,目的在於建立 對所有的測試資料集平均最小的分類錯誤。如 有違反. d i (W T X i + b) ≥ +1, i = 1, 2,..., N. (11). 則稱之為 soft,違反的情形有兩種分在正確區 但在 region 內或分錯區。Hyper plane 為: (12) d i (W T X i + b) ≥ 1 − ξ1 , i = 1, 2,..., N 如果求出來的ξ>1 代表分錯區 0 ≤ ξ 分對區。 最小化分錯的個數: N. Φ (ξ ) = ∑ I (ξ i − 1). ≤ 1 代表. (13). i =1. Φ ( w, ξ ) =. N 1 T w w + C∑ξ i 2 i =1. (14). C 是由機制的複雜度及分錯的個數決定,可由 (1)經驗、(2) 用 VC 來分析,結果如可分割 (separable)模式的一樣限制,在 hyper plane 只 差最後用 VC 來分析, 0 ≤ α i. ≤ C ,C 是由使. 用者決定, b0 最好是由 data point 中找出平均 值。 再經由對偶理論(Duality theorem)找出最佳解 1、 如果 primal problem 有最佳解,則 dual.

(4) 問題也有最佳解,且最佳解還相同 2、 為了 w0 是 primal 的最佳解 α 0 是 dual 的 最佳解且 w0 必需滿足問題及下式 Φ( w0 ) = J ( w0 ,b 0 ,α 0 ) = min J ( w0 ,b 0 ,α 0 ) (15) w. 最後建構 SVM 的樣式辨認. 3.3 最佳化設計支持向量機 不同的輸入有不同的非線性轉換(nonlinear transformation)故有不同的 φ i ( x ) 經由運. = φ T ( x)φ ( xi ) 結果為. N. ∑ α d K ( x, x ) = 0 i =1. i. i. (16). i. j =0. N. 1 N. ∑ Lε (d , y ) i. i =1. i. (26). 滿足下列條件:. d i − w T ϕ ( xi ) ≤ ε + ξ i , w T ϕ ( x i ) − d i ≤ ε + ξ i ' ,. ξ ≥ 0, ξ ' ≤ 0, fori = 1.2.... N 其最小成本函數: N. Φ( w, ξ i , ξ i ' ) = C (∑ (ξ i + ξ i ')) + i =1. 1 T w w (28) 2. N. J ( w, ξ , ξ ' , α , α ' , γ , γ ' ) = C ∑ (ξ i + ξ i ' ) + i =1. [. N. 1 T w w 2. ]. − ∑α i w T ϕ ( xi ) − d i + ε + ξ −. ∑α '[d N. ∞. k ( x, xi ) = ∑ λiϕ i ( x)ϕ i ( x' ). (17). i =1. i. i =1. i. ]. N. − wT ϕ ( xi ) + ε + ξ ' − ∑ (γ iξ i + γ i ' ξ ' ) (29) i =1. 取得 convex function:. 若且唯若 a a. ∫ ∫ k ( x, x' )Ψ ( x)Ψ ( x' )dxdx ' ≥ 0 , b b. λi ≠ 1. 第 i 個 image. a. 2 ∫ ϕ ( x)dx < ∞ b. λi Φ i ( x) 包含. 在一個擴張性特徵函數(eigenfunctions)之輸入 向量 x 的特徵空間內,且這樣的特徵空間可能 是無限大。 最佳化支持向量機: N. Q (α ) = ∑ α i − i =1. 1 N ∑ 2 i =1. N. ∑α α j =1. i. j. d i d j K ( xi , x j ) (18). N. (1) ∑ α i d i = 0( 2)0 ≤ α i ≤ 0 fori = 1.2... N i =1. N. ∑α i =1. 0 ,i. d iϕ ( xi ). 支持向量機的三種內積核函數: T. (a) 多項式學習機制: ( x xi. + 1) p. (19). 1. 2 (20) x − xi ) 2σ 2 (c) 二層式感知器: tanh( βx T xi + β 1 ) (21). (b) RBF: exp(−. SVM 解分類問題較均方差 (mean square error)更合適,且不需要 domain knowledge,在 非線性回歸,用 SV 方式比 MLP,更有效,計 算更快。 3.4 SVM 解決非線性回歸問題的步驟. N. N. i =1. i =1. Q (α i , α i ' ) = ∑ d i (α i − α i ' ) − ε ∑ (α i − α i ' ) −. 1 N N ∑∑ (α i − α i ' )(α j − α j ' )K ( xi , α j ) (30) 2 i =1 j =1 且須滿足下列限制條件: N. ∑ (α i =1. 滿足下列條件:. (2) w0 =. y = ∑ w jϕ j ( x), Rmap =. i =1. Mercer’s theorem:. 得到當. 此式叫 E-insensitive loss function,其中 d 為想 要的輸出,y 為評估的結果,E 為規定的參數。 其 Langrange 方程式如下式: m1. 1、 把輸入向量非線性對映到高維度的特徵 空間,把輸入及輸出隱藏住。 2、 把對映出來的特徵空間(feature space)做 分類。. 算我們設 k ( x, xi ). SVM 解決非線性回歸問題所使用的 loss function 如下式: L∈ ( d , y ) = {d − y − ∈, for d − y ≥∈} (25). i. − α i ' ) = 0,0 ≤ α i ≤ C ,. i = 1.2... N ,0 ≤ αi ' ≤ C , i = 1.2... N 四、研究設計 範例學習機制的資料量對其再生能力有重 要影響。低資料量學習系統只需要較小的訓練 集,高資料量學習系統則需要較大的訓練集, 但其所獲得的解將優於前者。對給定訓練集來 說,高資料量學習系統的訓練集誤差和測試集 誤差之間的差別將大於低資料量學習系統。故 如何找出具有涵蓋整個資料範例特徵的最小 訓練資料集,將是克服範例學習人工智慧技術 設計的一大瓶頸。神經計算技術已經在很多領 域得到了成功的應用,但由於缺少一個統一的 理論框架,經驗性成分相當高。這使得研究者 們難以對各種神經計算模型的性能及其適用 範圍進行理論分析,僅能用不十分可靠的實驗 性比較評價優劣。另一方面,在利用神經計算 解決問題時,也只能採取具體問題具體分析的.

(5) 方式,通過大量費力耗時的實驗摸索,確定出 合適的神經網路模型、演算法以及參數設置。 這些缺陷已經對神經計算的進一步發展造成 了極大的阻礙。 Vapnik 等人提出支援向量機制。由於其 出色的學習性能,該技術已成為機器學習界的 研究熱點。支援向量機 是 Vapnik 等人 提出 的一類新型機器學習方法。由於其出色的學習 性能,該技術已成為機器學習界的研究熱點, 並在很多領域都得到了成功的應用,如人臉檢 測 、手寫體數位識別 、文本自動分類… 等。 支援向量機(SVM)是一種建立在統計學習理 論基礎上的機器學習方法。通過學習演算法, SVM 可以自動尋找那些對分類有較好區分能 力的支援向量,由此構造出的分類器可以最大 化類與類的間隔,因而有較好的推廣性能和較 高的分類準確率。SVM 主要思想是針對兩類 分類問題,在高維空間中尋找一個超平面作爲 兩類的分割,以保證最小的分類錯誤率。而且 SVM 一個重要的優點是可以處理線性不可分 的情況。用 SVM 實現分類,首先要從原始空 間中抽取特徵,將原始空間中的樣本映射爲高 維特徵空間中的一個向量,以解決原始空間中 線性不可分的問題。 為了解決高維度的分類問題,本文中提出 一個兩階段式的學習方法,底層以支持向量機 (SVM),而上層以模擬退火演算法搜尋最佳 的支持向量空間及支持向量機的參數組合。尋 優支持向量機制利用 SA 搜尋具有涵蓋整個資 料範例特徵的最小訓練資料集,以克服範例學 習人工智慧技術設計的障礙。利用 SVM 自動 尋 找 那些 對分 類 有較 好區 分 能力 的支 持 向 量,由此構造出的分類器可以最大化類與類的 間隔,使其具有較好的推廣性能和較高的分類 準確率來實現分類。. 圖 3、SA-SVM 之模擬退火流程 (a). 在可允許的參數空間內任取一亂數向量. x1 ,並求其適應函數值 f ( x1 ) 。函數值 f ( x1 ) 為經由支持向量機訓練後的辨識. 正確率。 (b). 給一個初始高溫 T (0 ) = Tinit 。. (c). 用隨機或其他智慧型策略找出第二組解 答 向 量 ( solution vector ) x 2 並 求 取. f (x2 ) 。. (d). 求 上 述 兩 適 應 函 數 之 差 ,. ∆f = f ( x 2 ) − f ( x1 ) 。 (e) 如果 ∆f < 0 ,表示能量在遞減中,則 x 2. 的答案可以接受,跳至步驟(f)。如果 ∆f > 0 , 先 求 一 概 率. p (k ) = exp[− ∆f / T (k )] ,然後由亂數 我出一值,若此值比 p (k ) 值小則 x 2 可接 受,此表示金屬冷卻過程中有可能暫存 在某一比較高位的能階上,再跳至步驟 ( f)。如 果上 述 概率 不成 立 則至 步驟 (g)。k 為進行次數的指標(Iteration index)。 (f). 令 x1 = x 2 , f ( x1 ) = f ( x 2 ) ,此表示把 最好的結果存起來。其次降低溫度,依. T (k + 1) = λT (k ) 公式來算, λ 是一個. 圖 2、尋優支持向量機模式(SA-SVM) 本模式利用 SA 演算法在有限的輸入空 間樣本資料量搜尋最能函蓋整個母體資料集 的訓練資料集及搜尋最佳各支向量機制的調 整參數,本模式的方法大致如下,圖 3 為本研 究的模擬退火法之流程圖:. 0 至 1 的實數,一般選用 0.95 至 0.98。λ 的選定是依隨機取亂數 0.95 至 0.98 之 間。. 如果現在的溫度己比設定的最後低溫為. 小 , T (k ) < T final , 那 最 後 結 果 為 x1 及. f ( x1 ) 。如果不成立則同步驟(c)。.

(6) 五、實例驗證與分析 本研究所採用的實例驗證資料集為糖尿 病(Diabetes)標準資料集為糖尿病檢測資料 集,以個案生活習慣及相關檢驗值為輸入變 數,計有 8 個輸入變數來判斷是否患有糖尿 病,資料筆數為 768 筆,而其中 65.1%不為糖 尿病。資料來源:http://www.liacc.up.pt/ML/ statlog/datasets/diabetes/。在本研究中,對標準 資料集所設計的實驗流程如圖 4 所示,本研究 將實驗資料模型劃分為三種資料集(測試資料 集,佔 50%、驗證資料集,佔 25%、測試資料 集,佔 25%),系統是以 Matlab 語言為開發工 具,在 Windows 平台上進行開發及實驗。. 超平面的極大化的分類間隔(Margin)的支持 向量,進而降低測試資料集中分類錯誤率。圖 5 所禾為本研究所提出之尋優支持向量機制分 類模式以線性核函數的支持向量機的模擬退 火搜尋演化歷程圖。由圖 5 可知,大約在 175 疊代的演化中便可得本實驗的最佳解;在表 1 指出在測試資料集中其分類錯誤率設為 0.1934。而圖 6 所示為本研究所提出之尋優支 持向量機制分類模式以半徑基底核函數之支 持向量機的模擬退火搜尋演化歷程圖。由圖 6 可知大約在 250 疊代的演化中便可得本實驗 的最佳解,而其在測試資料集中其分類錯誤率 在表 2 可知為 0.2215。 表 1、SA-SVM 實驗最佳參數數據理(linear) Support Vector Classification: Constructing ... Optimising ... Execution time: 55.5 seconds Status : OPTIMAL_SOLUTION |w0|^2 : 1575274357731.632600 Margin : 0.000002 Sum alpha : 1575312485034.961700 Support Vectors : 214 (95.1%) error_rate = 0.1934 val = 20.0440. 圖 4、本研究實例驗證實驗流程. [Use of Simulated annealing to find optimum] >>>Best PI= 20.044048 x(1)= 5.361037、x(2)=224.926696 Training Dataset:255、Testing Dataset:423. 圖 5、SA-SVM 之模擬退火搜尋過程(linear). 圖 6、SA-SVM 之模擬退火搜尋過程(rbf). 本實驗首先底層以不同的支持向量機的 核函數,線性核函數及半徑基底核函數,配合 支持向量機的 langrange 學習演算法,找出分 類決策超平面的極大化的分類間隔 (Margin);再搭配上層模擬退火演算法,搜 尋最小的訓練集,且具有涵蓋最大的分類決策. 在醫療診斷糖尿病標準資料集的實驗 中,本研究所提出的尋優支持向量機制分類模 式中在不同的核函數的支持向量機中其分類 的錯誤率在線性模式的核函數為 0.1934 而利 用模擬退火演算法中所搜尋的訓練資料集中 有 95.1%(214/225)為支持向量。另外以半徑.

(7) 基底的核函數其分類的錯誤率為 0.2215 而利 用模擬退火演算法中所搜尋的訓練資料集中 有 81.8%(233/285)為支持向量。其分類效能 均比表 3 所列出的各種演算法為佳,可見本研 究所提出之尋優支持向量機制分類模式可改 善支持向量機在大量的資料集中所浪費的資 源並節省其計算的時間。. 等,建構更佳的分類應用模式,以擴展人工智 慧運用的範疇。. [1]. 徐君豪,「全域最佳化之模擬退火法」, 淡江大學機械工程研究所碩士論文 , 1998。. 表 2、SA-SVM 實驗最佳參數數據理(rbf) Support Vector Classification: Constructing ... Optimising ... Execution time: 41.7 seconds Status : OPTIMAL_SOLUTION |w0|^2 : 117403.909687 Margin : 0.005837 Sum alpha : 117403.909626 Support Vectors : 233 (81.8%) error_rate = 0.2215 val = 22.7821 [Use of Simulated annealing to find optimum] >>>Best PI= 22.782115 x(1)= 24.243752、x(2)=284.635916. [2]. 蘇志傑,「模擬退火法之應用與改進」, 碩士論文,國立中興大學機械工程學 系,1999。. 表3、diabetes-實驗數據分類效能比較表 Algorithm Train Error Test Er- Train Test Rate ror Rate Time Times IGNF 0.172 0.208 9468 1 LogDisc 0.219 0.223 31 7 Dipol92 0.220 0.224 36 1 Discrim 0.220 0.225 27 7 Smart 0.177 0.232 3762 ? Radial 0.218 0.243 5 0 Itrule 0.223 0.245 31 2 BackProp 0.198 0.248 7171 0 Cal5 0.232 0.250 237 0 Cart 0.227 0.255 30 1 Castle 0.260 0.258 35 5 QuaDisc 0.237 0.262 24 7 http://www.liacc.up.pt/ML/statlog/datasets/diabe tes/diabetes.use.html. 六、結論與建議 本研究利用模擬退火演算法配合支持向 量機,有效地藉由分類特徵,克服人工智慧技 術在範例學習中設計的瓶頸。從實例驗證的結 果顯示:本研究所提出的「尋優支持向量機」 , 在分類應用上的效能,明顯優於之前學者所提 出之其他演算法,亦可顯示本研究模式為一有 效的混合型計算式智慧技術。 在後續的研究中,尚可運用其它有效的啟 發式搜尋法,諸如遺傳演算法、禁忌搜尋法、 增 援演算法(Reinforcement algorithm)…等. 七、參考文獻. [3]. A. I. Abdelmola, and S. M. Taboum, “Productivity model for the cell formation problem: a simulated annealing algorithm,” Computers & Industrial Engineering, 37, 327-330, (1999). [4] M. M. Ali, A. Torn, and S. Viitanen, “A direct search variant of the simulated annealing algorithm for optimization involving continuous variables, ” Computers & Operation Research 29, pp. 87-102, 2002. [5] K. P. Bennett and C. Campbell, “Support vector machines: hype or hallelujah?” ACM Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) Expolarations, Vol. 2, No. 2, pp. 1-13, 2000. [6] V. Chapelle, O. Vapnik, Bousquet, and S. Mukherjee, “Choosing multiple parameters for support vector machines,” Machine Learning, Vol. 46, No. 1, pp. 131-160, 2002 [7] A. Corana, M. Marchesi, C. Martini, and S. Ridella, “Minimizing multimodal functions of continuous variables with the simulated annealing algorithm,” ACM Trans. On Mathematical Software, 13, 1987, pp.262-280. [8] C. Gold and P. Sollich, “Model selection for support vector machine classification,” Advances in Neural Information Processing Systems, Vol. 15, 2002. [9] T. Joachims, “Making large-scale support vector machine learning practical advances in kernel methods-support vector learning”, pp. 169-184, Cambridge, MA, 1999, MIT Press. [10] S. S. Keerthi and E. G. Gilbert. “Convergence of a generalized SMO algorithm for SVM classifier design”, Machine Learning 46, 351-360, 2002. [11] J. C. Platt, “Probabilistic Outputs for Support Vector Machines for Pattern Recognition,” U. Fayyad, Editor, 1999, Kluwer Academic Publishers: Boston.

(8)

參考文獻

相關文件

include domain knowledge by specific kernel design (e.g. train a generative model for feature extraction, and use the extracted feature in SVM to get discriminative power).

– stump kernel: succeeded in specific applications infinite ensemble learning could be better – existing AdaBoost-Stump applications may switch. not the

1 Embedding Numerous Features: Kernel Models Lecture 1: Linear Support Vector Machine.. linear SVM: more robust and solvable with quadratic programming Lecture 2: Dual Support

1 Embedding Numerous Features: Kernel Models Lecture 1: Linear Support Vector Machine.

2 Distributed classification algorithms Kernel support vector machines Linear support vector machines Parallel tree learning.. 3 Distributed clustering

2 Distributed classification algorithms Kernel support vector machines Linear support vector machines Parallel tree learning?. 3 Distributed clustering

Keywords Support vector machine · ε-insensitive loss function · ε-smooth support vector regression · Smoothing Newton algorithm..

support vector machine, ε-insensitive loss function, ε-smooth support vector regression, smoothing Newton algorithm..