3.2 地物分類
3.2.2 分類方法
本研究使用兩種分類方法,一是隨機森林分類,二是支持式向量機(SVM)。分類的 一般作法是將訓練資料(由已知類別標記的資料所組成)建立分類模式,分類模式對未知 類別的測試資料進行預測。
隨機森林法是以決策樹分類為基礎,將許多不同決策樹的成果進行投票,選擇出最 佳的分類決策樹。SVM則廣泛使用於影像分類領域,是以統計學習理論提出的一種機器 學習方法,主要特性是在特徵空間中尋求具最大邊界的區分Hyper-plane以區分不同的兩 個類別。
3.2.2.1 隨機森林分類(Random Forests)
隨機森林分類法是一個基於決策樹分類的整合式分類法,而決策樹分類問題及答案 事實上可以用一個包含節點及方向箭頭,且具層級式結構的決策樹來完成,包含根節點、
內部節點、葉節點(圖 3-14)。
圖 3-14 決策樹分類(Tan et al., 2006)
決策樹之特性:決策樹分類的類別及其他屬性並不需要滿足任何機率分布;通常是 使用經驗法則找最佳的決策樹,所以很多決策樹都在大量的假設空間中進行搜尋。在資
38
料量大的情形下建立決策樹不難,其執行的速度也迅速,一旦決策樹建立後,針對測試 資料的分類也會變得非常快。尤其是對較小的樹而言,解釋上相對容易,其正確性也可 以與其他分類法進行比較。決策樹演算法可以處理雜訊問題,尤其是可以避免「過度學 習」的情形。重複的屬性不會影響決策樹的正確性,但是太多重複或是無關的屬性會造 成樹太大的問題,需要刪除修剪。因為大部分的決策樹都是採取由上而下及遞迴分割的 方法來處理,所以在葉節點中,也許會因為資料量太少而無法達到統計的顯著性,所以 可以設定當資料量少於門檻就不能再分割。子樹可以在決策樹中重複多次,這會使得決 策樹變得更為複雜,也許會更不易解釋。
隨機森林是一個特別設計給決策樹分類的整合分類方法,其結合多個決策樹的預測 結果,其由Breiman (2001)所提出,此分類方法的優點為可提供分類特徵資料的重要性,
並且其使用分類成果最佳的方針建立模型,在這樣的前提之下,其分類的精度會再一定 的標準以上。
圖 3-15 隨機森林分類步驟示意圖(Guo et al., 2011)
隨機森林法詳細演算步驟如下,隨機森林中的每棵樹都是根據隨機向量值所建立的,
而隨機向量是依據固定機率分配所產生。流程圖為圖 3-15:
(1)決定訓練區資料n組,分類特徵參數m種。
39
3.2.2.1 Support Vector Machine (SVM)分類
Support Vector Machine (SVM) (Vapmik (1995),Burges (1998))在航遙測的領域中,被 廣泛利用在影像分類的部分。起源於統計學習理論,已成功用在一些應用問題中,像是 手寫辨識或是文件分類,也可以處理高維度的資料。
其分類法主要的精神是對於一群在特徵空間中的資料,希望能夠在該空間之中找出 一Hyper-plane,並且希望此 Hyper-plane 可以將這群資料切成兩群(例如:群組A、群組
40
B) 。 而 屬 於 群 組 A 的 資 料 均 位 於 Hyper-plane 的 同 側 , 而 群 組 B 的 資 料 均 位 於 Hyper-plane的另一側,見圖 3-16。而為了可以群組AB明確地分辨出來,所以兩個群組 間的邊界(Margin)愈大愈好分離。
一般可以線性分割的函數,其公式如式(26)及(27),而處理非線性的資料,線性函 數無法分割,必須進行屬性轉換,把資料轉至更高維度的空間或是特徵空間,才能加以 分辨出來(圖 3-17),其公式如式(28)及(29)。 而通常轉換函數 是一個複雜且不容易求 得的函數,所以我們會將轉換函數 做內積,得到要一個較為簡單的函數,稱作核函數 (kernel function)。
圖 3-16 SVM原理示意圖(線性分割)
圖 3-17 非線性屬性轉換示意圖
41 線性分割:
‖ ‖ (26)
(27)
非線性要進行屬性轉換 :
‖ ‖ (28)
(29) 本研究使用三個不同的kernel 進行分類成果的討論:(1) Polynomial Kernel 、(2) a universal kernel function based on the Pearson VII function (PUK Kernel) 、(3) Radial Basis Function (RBF) Kernel。第一個Polynomial Kernel為一個基礎的多項式核函數,而第二 個PUK Kernel是一個通用的核函數,其具有大的強鈍性(Robustness),具有很好的屬性 轉換能力,且其成果跟其他核函數相較並不差或是更好,因此常用來替代一般常見的 多項式核函數或是RBF函數(Ü stün et al., 2006)。這三個核函數皆較基礎且較多人使用,
也被常用在SVM分類中做為討論比較的項目(Pal, 2009)。
42