第二章 文獻探討
第四節 雲端運算與智慧型演算法
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
26
圖 2- 10 一般 SQL 與 HiveSQL 比較圖
第四節 雲端運算與智慧型演算法
一、 成長式階層自我組織映射模型(GHSOM)
成長式階層自我組織映射模型(Growing Hierarchical Self-Organizing Map,
GHSOM)為 SOM 的延伸,GHSOM 可有效解決 SOM 先天上的兩種限制(1)SOM 必須事先定義網路拓樸,無法根據資料自動調整與適應,(2)SOM 無法表達出資 料的階層性。故Rauber et al. (2002)更提出了 GHSOM 來克服自我組織映射圖的 兩個限制。GHSOM 是一種動態演算法,其階層結構中具有多個層級,每層級 皆由數個獨立的SOM 所組成。每層級中的拓撲結構大小可依據資料而有所成長,
如此便可以適應各種不同大小的資料,將其彼此內部相關性確實表現出來。
GHSOM 的階層架構如圖 2-11 GHSOM 結構示意圖所示(Rauber et al. 2002)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
27
圖 2-11 GHSOM 結構示意圖 資料來源: (Rauber et al. 2002)
二、 徑向基函數類神經網路(RBFNN)
徑向基函數類神經網路(Radial Basis Function Neural Networks,RBFNN)是一 種前饋式類神經網路(Feedforward),其特質主要在於模擬大腦皮質層軸突的局 部調整功能,目前已應用於許多領域上,例如:時間序列的預測方法及分類。如 圖 2-12 徑向基函數示意圖,RBFNN 之網絡架構主要有三層:輸入層、隱藏層(非 線性的徑向基函數)及線性的輸出層,當輸入的值是落在一個特定的局部空間裡,
就會使隱藏層產生反映。其中隱藏層神經元的函數通常以高斯函數為主。
圖 2-12 徑向基函數示意圖
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
28
三、 支持向量機(SVM)
支持向量機(Support Vector Machines,SVM)是一種監督式學習(supervised learning)的方法,是由 Vapnik(1995)等學者根據統計學習理論提出的一種分類 (Classification)演算法,在許多識別應用上 SVM 皆具有極佳的學習能力。SVM 之概念如圖 2-13 SVM 概念圖所示,SVM 希望能找出一個超平面(hyperplane),
使之將兩個不同的集合分開,集合的分散程度越高,則代表此分類結果越好。如 圖 2-13 SVM 概念圖可看出 H3能使兩群資料達到最大的分散程度。
圖 2-13 SVM 概念圖 資料來源:Wikipedia-SVM
從數學式子來看的話,SVM 就是要在一堆點集合 , i 1 … n and ∈ ∈ 1, 1 中,找到一條直線f 使所有 1的點落在 f 0的這一邊,而 1的點落在f 0的這一邊,如此一來便可依據f 的 正負號來判斷這個點是屬於兩個集合中的哪一個,而這樣的超平面稱為
separating hyperplane,距離兩邊邊界最大的就稱為 optimal separating hyperplane
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
29
(OSH)。
基本上來說,SVM 是一個二元的分類器(binary classifier),但實務上所面臨 的情況常常需要做多元分類(multi-class classification),所以 SVM 就有衍生出一 些方法,使其在多元分類上也可以正常運作。SVM 在多元分類上的策略主要有 兩種:
1. 一對多(one-against-rest):
於k 類有 k 個 SVM,第 m 個 SVM 可以將第 m 類和其他類分開,也就是會 分辨是不是屬於特定類別的SVM。
2. 一對一(one-against-one):
對於任兩個類別都造一個SVM,共需要 k(k-1)/2 個 SVM。SVM 只能分辨當 初訓練時所使用的兩類。假設當初是用a 類和 b 類來訓練這個 SVM,那它 自然對屬於a 類或 b 類的資料會分辨的相當好,但如果我們的測試資料還夾 雜著其他類的資料,如c 類,那我們就很難確定這到底是那一類的資料,我 們只能由這個SVM 知道這是不屬於那類的資料。我們可藉由一個淘汰賽的 方式來判斷這是屬於那一類的資料。比賽是由樹的最底層開始,到最後看是 那一類勝出。
圖 2- 14 SVM 測試資料圖
以圖 2- 14 SVM 測試資料圖為例,假設我們的測試資料總共有八類,樹的
‧
2. 系統抽樣(systematic sampling):將母體中的所有單位按一定順序排列,在 規定的範圍內隨機地抽取一個單位作為初始單位,然後按事先規定好的規則 確定其他樣本單位。
3. 分層抽樣(stratified sampling):將抽樣單位按某種特徵或某種規則劃分為不 同的層,然後從不同的層中獨立、隨機地抽取樣本。
4. 整群抽樣(cluster sampling):將總體中若干個單位合併為群,抽樣時直接抽