第二章 文獻探討
2.5 自組性演算法
自組性演算法(Group Method of data handling,GMDH)[4]為俄國學者 A.G.Ivakhenko[21]於 1969 年所發展,他認為在大多數的情況下,透過模式 來建立目標與因子之間的關係時,其交互作用往往是最難以得知且不確定 的,若在建構數學模式時加入太多主觀的判斷會影響到數學模式之正確性,
所以在針對一系統或問題建構數學模式求解時,必須對該系統或問題有相 當的了解,才能決定其影響變數間之關係。因此他假設應變數與自變數間 呈現高階多項式的關係,且讓資料本身存在的訊息來決定模式之間的關係,
也就是資料導向(Data-Oriented)的建模概念。在目標與變數之間關係不明 確的系統中,自組性演算法可令變數進行配對、競爭的動作、直到訓練模 式的效能達到最佳,或誤差收斂為止。其優點是對於複雜的非線性系統可 作出較佳的推測,且不需要大量的訓練資料,並對時間週期較短的預測問 題也有較佳的分析能力(Farlow,1984)
自組性演算法在演算過程上,類似倒傳遞類神經網路,兩者皆透過與 目標實際值的誤差比較,訓練出較佳的模式。但最大的不同點在於,倒傳 遞類神經網路之隱藏層數目必須一開始就確定 ,而自組性演算法可以在 訓練過程中自動找出最佳的層數,自行衍生出一高階非線性系統,可將其 歸類為自組性網路架構(Self-organization)。其模式建立之概念類似動植物 演化過程,依據「適者生存」之原則來決定新方程式之取捨,透過競爭後 留下的方程式將比原始方程式更適合描述此系統,這些優勝的方程式再次 競爭則又可以得出具有更佳解釋能力之方程式。在演化的過程中,對系統 影響不顯著的輸入變數會被自行淘汰,以此方式層層向下推演,直到滿足 演算法終止條件或是下一代方程式並無明顯優於上一代為止,建構出一個 可表示輸入與輸出之關係的高階多項式,圖 2.7 為自組性演算法之網路架
13
構圖,並說明其演算步驟。
圖 2. 7 自組性演算法之網路架構圖[24]
步驟一:假設建模資料共有 n+m 筆,分為訓練資料(M)及內部驗證資料(n) 兩部份,目標值為 y,變數為x 、x 、x … x ,共有 p 個變數,作為 GMDH
之輸入層,如圖 2.8 所示。
圖 2. 8GMDH 演算法之輸入層[4]
步驟二:建構各層間輸入與輸出之關係。將 p 個變數兩兩組合,假設所選 取的變數為 u、v,再代入內建方程式:
f u, v Y A Bu Cv Du Ev Fuv
以最小平方法(Ordinary Least Squares,OLS)求取 A、B、C、D、E、F 之 值,因此在每一層中將會延伸出C 個變數,如圖 2.9 所示
14
圖 2. 9GMDH 演算法各層變數組合過程
步驟三:求出 u、v 等新生變數的方程式後,再以內部驗證資料作驗證,
並以均方根(Root Mean Square,RMS)或誤差均方根(Root Mean Square Error,RMSE)等指標來評估總誤差大小,並依照誤差由小到大對各新生變 數進行排序。均方根與誤差均方根之說明如下:
(1) 均方根
為第 n 層中第 條方程式之均方根值,y(
t
)為第 個時間點之實際觀 測值, 為第n 層第 條方程式於第 個時點之預測值,其中 公 式如下:∑T y t Z t
∑T y t (2) 誤差均方根
為第n 層中第 i 條方程式之均方根值,其公式如下:
∑T y t Z t n
15
步驟四:假設每層之最小誤差為R ,若某一層之R 小於上一層之R 則回到步驟二。
步驟五:若某一層之R 大於上一層之R ,即以上一層之結果作為模式 之最終輸入。
步驟六:依據模式輸出結果層層往上回推,即可找出模式選定的影響因 子。
若最初輸入層之輸入變數為x 、x 、x …x ,則第一層所產生之新生 變數標示為Z f x , x ,Z f x , x , … ,Z、 f x , x ,依此類 推第 k 1層新變數為ZK f Z , Z ,ZK f Z , Z ,…,ZK
f ZP , Z ,其中 p(k)表示第 k 層中變數的數量。
一般的非線性系統來說,當模式發展到第三層獲第四層(方程式最高 階為 8 階次或 16 階次)時,即可以得到一個最佳模式[1],否則常會發生模 式對於訓練資料的趨勢模擬相當接近,但對於訓練資料以外的驗證資料會 產生較大的誤差。
自組性演算法發展至今,被各種領域的學者廣泛運用,當作預測分析 的工具[11]。Dipti[19]進行需求電量的預測時,利用移動平均法、時間數列 分析法、倒傳遞類神經網路以及自組性演算法進行預測,其研究結果指出 自組性演算法在這些方法中表現最好。謝易霖[17]針對洪水暴雨的現象,
對河水水位的變化使用自組性演算法結合馬斯金更公式進行預測,成功地 使誤差縮小至30公分以內;余靜芳[3]運用自組性演算法結合基因演算法,
發展出一套最佳化單品質及多品質特性混合實驗之演算法,以求出一組可 使產品品質特性最大化的成分比例。林敬凱[5]對於半導體公司之蝕刻製程 的資料,利用自組性演算法結合資料包絡法,提出一套多品質特性同時最 佳化演算法。游翔百[14]先使用分類迴歸樹(Classification and Regression
16
Trees)進行變數篩選,再分別使用判別分析、羅吉斯迴歸、機率類神經網 路、倒傳遞類神經、一般迴歸神經網路(General Regression Neural Network, GRNN)、自組性演算法、k-means及學習向量量化網路(Learning Vector Quantization, LVQ)等八種方法進行分類,發現複合式模型之準確率較單一 方法好,另一個研究結果為:在違約資料之判別率上自組性演算法又比其 他單一方法來得高。
自組性演算法不需繁複的計算,且其使用限制很少,成為各領域相關 研究的熱門分析工具。