2.2 巨量資料分析(Big Data Analytics)
2.2.2 結構化資料分析方法
2.2.2.2 GHSOM 演算法
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
代表粒子自我經驗之最佳解的影響係數。c2為粒子社會信心係數(social confidence coefficient),代表全體粒子最佳解的影響係數。ri1、ri2為亂數產生 器,其亂數範圍為 0 至 1 間。n 為本期,n+1 為下一期。
2.2.2.2 GHSOM 演算法
Kohonen(1982)提出自我組織映射圖(Self-Organizing Map,簡稱 SOM)演算法,屬非監督式學習類神經網路(unsupervised learning neural network)。演算法的主要特色有三,一是將複雜高維度的輸入向量資料(如圖 2-3 xj)對應至低維度之輸出層拓樸映射圖(如圖 2-3 Ci)上,Ci是聚類訓練的 結果;二是 SOM 為「有福同享」的競爭式學習法,不是「贏者全拿」的競爭 方式,其競爭式學習除了贏者神經元(如圖 2-3 Ci紅色圓圈)獲得學習外,並 且也會影響其週遭鄰近神經元(如圖 2-3 Ci粉紅色圓圈);三是每一筆輸入向 量透過鏈結層 wji權重與輸出層神經元相連接。
SOM 被廣泛地運用產生拓樸地圖及資料視覺化等應用,此演算法拓樸地圖 大小是事先決定,端賴資料分析者對於資料結構的洞察,方能做出最佳地圖來 表達,有關 SOM 網路架構如圖 2-3 所示。
圖 2-3:SOM 拓樸架構圖
x
2x
1x
jC
iw
ji輸入層 鏈結層 SOM 輸出拓樸層
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
然 SOM 演算法拓撲地圖需事先決定較無彈性的缺點,往往無法適配資料 之統計特性,且 SOM 拓樸地圖無法表達上下層或父子層間關係,只能表達相 似性等。因此 Dittenbach et al.(2002)提出增長層級式自我組織映射圖演算法
(GHSOM),透過平均量化誤差(the mean quantization error,簡稱 MQE)及 兩個閥值,以及資料本身結構特性,向橫向、縱向生成節點與層級,自動生成 適合資料之拓樸地圖,亦即由平均量化誤差來引導整個訓練過程,如圖 2-4 所 示。圖 2-4 中的每個平行四邊形為 SOM 網路拓樸映射圖,稱為 Neural
Network;而映射圖的圓圈為圖 2-4 之 SOM 輸出層神經元 Ci,稱為 Neuron;圖 2-4 所示之 Layer 0 至 3 之整層 Layer,稱為 Neural Network Layer。圖 2-4 Layer 0 是初始層,Layer 1 是由 2x3 個神經元組成之 SOM 網路拓樸映射圖,Layer 2 則包含 6 個 SOM 網路拓樸映射圖,以此類推。有關 GHSOM 演算法步驟如下 所示:
圖 2-4:GHSOM 拓樸架構圖(Dittenbach et al., 2002)
1.初始化虛擬層及參數:虛擬層 0(如圖 2-4 所示)為單一神經元節點(single node),開始執行前,需先初始化參數包含學習率(learning rate)、鄰近範 圍(the neighborhood range)、訓練階段初始地圖大小(the initial map size for the training process)、水平廣度成長停止標準 τ1(the growing-stopping
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
criterion)、垂直深度成長停止標準 τ2(the hierarchical stopping criterion)、虛 擬層權重向量(weight vector)等,並依公式(2.4)計算第 0 層之平均量化 誤差,以 MQE0表示,再依步驟 2 執行單一 SOM 拓樸映射圖演算法訓練。
2.單一 SOM 拓樸映射圖演算法訓練:
將此 SOM 拓樸映射圖所有輸入資料一一與所有權重向量間比較,以最小 歐幾里德距離的方式,找出得勝者類神經元(winner),再調整自己與鄰近範 圍神經元之鏈結權重向量,直到映射圖形成後,SOM 演算法才予以終止。
3.檢查是否需要水平廣度成長:
(1)若滿足公式(2.6)之條件,則水平廣度停止成長。水平廣度停止成長 的條件,是由目前所在層(the current layer,以 MQEm表示)與其前一層(the preceding layer,以 MQEp表示)之整層級平均量化誤差決定,整層平均量化誤 差依公式(2.5)計算而得。
(2)若未符公式(2.6)條件,則表示該 SOM 網路拓樸映射圖需要水平成 長,其成長的方式如下:
(A)依公式(2.4)計算該 SOM 網路拓樸映射圖內之所有神經元之平均 量化誤差(mqe),其中最大的 mqe 之神經元視為錯誤單元(error unit),如圖 2-5 之 e 點表示。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(B)計算該 SOM 網路拓樸映射圖內之所有神經元與錯誤單元 e 點之距 離,距離最遠的神經元以 d 表示。決定 e 與 d 神經元後,再依圖 2-5 所列規則 加入新的行或列於 e 與 d 之間。
(C)當新的行或列加入 e 與 d 神經元後,其鄰近範圍與學習率將被重新 設定,並且回到步驟 2 進行單一 SOM 網路拓樸映射圖訓練。
圖 2-5:GHSOM 神經元生長圖(Dittenbach et al., 2002)
(3)τ1為控制 GHSOM 水平廣度成長的參數,當 τ1愈大則 MQEm容忍度愈 大,此層產生 SOM 網路拓樸映射圖數則愈少;反之,τ1愈小則 MQEm容忍度 愈小,此層產生 SOM 網路拓樸映射圖數則愈多。
4.檢查是否需垂直深度成長或符合整體訓練終止條件:
若滿足公式(2.7)條件,則垂直深度停止成長或整體訓練終止,其中 mqei
表示第 i 個 SOM 拓樸單元的平均量化誤差,MQE0表示第 0 層的平均量化誤 差,τ2為 GHSOM 整體終止準則及垂直深度擴展之控制參數。當 τ2愈大 mqei容 忍度愈大,則 GHSOM 不易向下發展,反之亦然。
𝑚𝑞𝑒 𝑖 = 1
𝑛 ∙ ∑ ‖𝑤 𝑖 − 𝑥 𝑗 ‖
𝑛
(2.4)nc為 xj樣本數,wi為權重向量。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝑀𝑄𝐸 𝑚 = 1
𝜇 ∙ ∑ 𝑚𝑞𝑒 𝑖
𝑖
(2.5)m 為第 m 個神經網路層,而 u 代 表第 m 層 SOM 拓樸映射圖數。
𝑀𝑄𝐸 𝑚 < 𝜏 1 ∙ 𝑀𝑄𝐸 𝑝
(2.6)水平寬度成長終止條件𝑚𝑞𝑒 𝑖 < 𝜏 2 ∙ 𝑀𝑄𝐸 0
(2.7)垂直深度成長及整體訓練終止條件GHSOM 演算法鮮少運用於股票預測領域,Shih et al.(2008)對於台灣證 券市場之法律文件建置 GHSOM 方法分類地圖,Huang et al.(2009)提出 GHSOM 二元方法(a dual approach)進行財務舞弊偵測,Yang et al.(2010)運 用 GHSOM 進行資安入侵偵測研究,而 Yang and Tsaih(2010)則使用 GHSOM 進行利他理論的研究。