GHSOM 演算法

2.2 巨量資料分析（Big Data Analytics）

2.2.2 結構化資料分析方法

2.2.2.2 GHSOM 演算法

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

代表粒子自我經驗之最佳解的影響係數。c2為粒子社會信心係數（social confidence coefficient），代表全體粒子最佳解的影響係數。ri1、ri2為亂數產生 器，其亂數範圍為 0 至 1 間。n 為本期，n+1 為下一期。

2.2.2.2 GHSOM 演算法

Kohonen（1982）提出自我組織映射圖（Self-Organizing Map，簡稱 SOM）演算法，屬非監督式學習類神經網路（unsupervised learning neural network）。演算法的主要特色有三，一是將複雜高維度的輸入向量資料（如圖 2-3 xj）對應至低維度之輸出層拓樸映射圖（如圖 2-3 Ci）上，Ci是聚類訓練的結果；二是 SOM 為「有福同享」的競爭式學習法，不是「贏者全拿」的競爭 方式，其競爭式學習除了贏者神經元（如圖 2-3 Ci紅色圓圈）獲得學習外，並 且也會影響其週遭鄰近神經元（如圖 2-3 Ci粉紅色圓圈）；三是每一筆輸入向 量透過鏈結層 wji權重與輸出層神經元相連接。

SOM 被廣泛地運用產生拓樸地圖及資料視覺化等應用，此演算法拓樸地圖大小是事先決定，端賴資料分析者對於資料結構的洞察，方能做出最佳地圖來表達，有關 SOM 網路架構如圖 2-3 所示。

圖 2-3：SOM 拓樸架構圖

x

C

w

輸入層鏈結層 SOM 輸出拓樸層

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

然 SOM 演算法拓撲地圖需事先決定較無彈性的缺點，往往無法適配資料之統計特性，且 SOM 拓樸地圖無法表達上下層或父子層間關係，只能表達相似性等。因此 Dittenbach et al.（2002）提出增長層級式自我組織映射圖演算法

（GHSOM），透過平均量化誤差（the mean quantization error，簡稱 MQE）及 兩個閥值，以及資料本身結構特性，向橫向、縱向生成節點與層級，自動生成適合資料之拓樸地圖，亦即由平均量化誤差來引導整個訓練過程，如圖 2-4 所示。圖 2-4 中的每個平行四邊形為 SOM 網路拓樸映射圖，稱為 Neural

Network；而映射圖的圓圈為圖 2-4 之 SOM 輸出層神經元 Ci，稱為 Neuron；圖 2-4 所示之 Layer 0 至 3 之整層 Layer，稱為 Neural Network Layer。圖 2-4 Layer 0 是初始層，Layer 1 是由 2x3 個神經元組成之 SOM 網路拓樸映射圖，Layer 2 則包含 6 個 SOM 網路拓樸映射圖，以此類推。有關 GHSOM 演算法步驟如下所示：

圖 2-4：GHSOM 拓樸架構圖（Dittenbach et al., 2002）

1.初始化虛擬層及參數：虛擬層 0（如圖 2-4 所示）為單一神經元節點（single node），開始執行前，需先初始化參數包含學習率（learning rate）、鄰近範圍（the neighborhood range）、訓練階段初始地圖大小（the initial map size for the training process）、水平廣度成長停止標準 τ1^（the growing-stopping

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

criterion）、垂直深度成長停止標準 τ2^（the hierarchical stopping criterion）、虛擬層權重向量（weight vector）等，並依公式（2.4）計算第 0 層之平均量化 誤差，以 MQE0表示，再依步驟 2 執行單一 SOM 拓樸映射圖演算法訓練。

2.單一 SOM 拓樸映射圖演算法訓練：

將此 SOM 拓樸映射圖所有輸入資料一一與所有權重向量間比較，以最小歐幾里德距離的方式，找出得勝者類神經元（winner），再調整自己與鄰近範圍神經元之鏈結權重向量，直到映射圖形成後，SOM 演算法才予以終止。

3.檢查是否需要水平廣度成長：

（1）若滿足公式（2.6）之條件，則水平廣度停止成長。水平廣度停止成長 的條件，是由目前所在層（the current layer，以 MQEm表示）與其前一層（the preceding layer，以 MQEp表示）之整層級平均量化誤差決定，整層平均量化誤差依公式（2.5）計算而得。

（2）若未符公式（2.6）條件，則表示該 SOM 網路拓樸映射圖需要水平成長，其成長的方式如下：

（A）依公式（2.4）計算該 SOM 網路拓樸映射圖內之所有神經元之平均 量化誤差（mqe），其中最大的 mqe 之神經元視為錯誤單元（error unit），如圖 2-5 之 e 點表示。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

（B）計算該 SOM 網路拓樸映射圖內之所有神經元與錯誤單元 e 點之距離，距離最遠的神經元以 d 表示。決定 e 與 d 神經元後，再依圖 2-5 所列規則加入新的行或列於 e 與 d 之間。

（C）當新的行或列加入 e 與 d 神經元後，其鄰近範圍與學習率將被重新設定，並且回到步驟 2 進行單一 SOM 網路拓樸映射圖訓練。

圖 2-5：GHSOM 神經元生長圖（Dittenbach et al., 2002）

（3）τ1為控制 GHSOM 水平廣度成長的參數，當 τ1愈大則 MQEm容忍度愈 大，此層產生 SOM 網路拓樸映射圖數則愈少；反之，τ1愈小則 MQEm容忍度愈小，此層產生 SOM 網路拓樸映射圖數則愈多。

4.檢查是否需垂直深度成長或符合整體訓練終止條件：

若滿足公式（2.7）條件，則垂直深度停止成長或整體訓練終止，其中 mqei

表示第 i 個 SOM 拓樸單元的平均量化誤差，MQE0表示第 0 層的平均量化誤差，τ2為 GHSOM 整體終止準則及垂直深度擴展之控制參數。當 τ2愈大 mqei容忍度愈大，則 GHSOM 不易向下發展，反之亦然。

𝑚𝑞𝑒 _𝑖 = 1

𝑛 ∙ ∑ ‖𝑤 _𝑖 − 𝑥 _𝑗 ‖

𝑛

（2.4）nc為 xj樣本數，wi為權重向量。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑀𝑄𝐸 _𝑚 = 1

𝜇 ∙ ∑ 𝑚𝑞𝑒 _𝑖

𝑖

（2.5）m 為第 m 個神經網路層，而 u 代 表第 m 層 SOM 拓樸映射圖數。

𝑀𝑄𝐸 _𝑚 < 𝜏 ₁ ∙ 𝑀𝑄𝐸 _𝑝

（2.6）水平寬度成長終止條件

𝑚𝑞𝑒 _𝑖 < 𝜏 ₂ ∙ 𝑀𝑄𝐸 ₀

（2.7）垂直深度成長及整體訓練終止條件

GHSOM 演算法鮮少運用於股票預測領域，Shih et al.（2008）對於台灣證券市場之法律文件建置 GHSOM 方法分類地圖，Huang et al.（2009）提出 GHSOM 二元方法（a dual approach）進行財務舞弊偵測，Yang et al.（2010）運用 GHSOM 進行資安入侵偵測研究，而 Yang and Tsaih（2010）則使用 GHSOM 進行利他理論的研究。

在文檔中 EPSO-GHSOM股票巨量資料選擇交易策略 - 政大學術集成 (頁 40-44)

2.2 巨量資料分析（Big Data Analytics）

2.2.2 結構化資料分析方法

2.2.2.2 GHSOM 演算法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

x

x

x

C

w

輸入層 鏈結層 SOM 輸出拓樸層

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑚𝑞𝑒 𝑖 = 1

𝑛 ∙ ∑ ‖𝑤 𝑖 − 𝑥 𝑗 ‖

𝑛

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑀𝑄𝐸 𝑚 = 1

𝜇 ∙ ∑ 𝑚𝑞𝑒 𝑖

𝑖

𝑀𝑄𝐸 𝑚 < 𝜏 1 ∙ 𝑀𝑄𝐸 𝑝

𝑚𝑞𝑒 𝑖 < 𝜏 2 ∙ 𝑀𝑄𝐸 0

立政治大學

輸入層鏈結層 SOM 輸出拓樸層

立政治大學

立政治大學

立政治大學

𝑚𝑞𝑒 _𝑖 = 1

𝑛 ∙ ∑ ‖𝑤 _𝑖 − 𝑥 _𝑗 ‖

立政治大學

𝑀𝑄𝐸 _𝑚 = 1

𝜇 ∙ ∑ 𝑚𝑞𝑒 _𝑖

𝑀𝑄𝐸 _𝑚 < 𝜏 ₁ ∙ 𝑀𝑄𝐸 _𝑝

𝑚𝑞𝑒 _𝑖 < 𝜏 ₂ ∙ 𝑀𝑄𝐸 ₀