• 沒有找到結果。

I-Shou University Institutional Repository:Item 987654321/11398

N/A
N/A
Protected

Academic year: 2021

Share "I-Shou University Institutional Repository:Item 987654321/11398"

Copied!
51
0
0

加載中.... (立即查看全文)

全文

(1)一種用於解決神經網路學習不完全的方法. A New Method for Solving the Incomplete Learning Problem of Neural Network 研究生:陳威志 撰 指導教授:黃瑞初 博士. 義守大學 電機工程學系碩士班 碩士論文. A Thesis Submitted to the Department of Electrical Engineering of I-Shou University in Partial Fulfillment of the Requirements for the Master Degree with a Major in Electrical Engineering June , 2010 Kaohsiung, Taiwan Republic of China. 中華民國 九十九 年 六 月.

(2)  .

(3) 致謝 碩士班期間承蒙指導老師 黃瑞初教授,於研究領域與生活學習上給予學生督促 與指導;以及對於本論文內容之細心校稿,使本論文得以順利完成,在此深深的表達 最真誠的感謝。此外,感謝口試委員:義守大學電機系 王曙民教授與樹德科技大學電 通系 陳智勇教授,給予本論文之指導與建議,讓本論文之內容更趨於完善,學生在此 獻上十二萬分的謝意與敬意。 研究過程特別感謝致樫學長於本議題上之指導與幫助,並承蒙彬烜、俊任、仁賓、 宜慶、盈璁學長在學業上所給予威志之建議及鼓勵,同學國軒、舜池、士豪、佳明、 子銘、振銘與學弟鄭傑、田源,以及我最要好的朋友惠琪在生活上的相互學習與陪伴, 使我的研究生活充滿深刻且美好的回憶。此外,感謝智慧型控制實驗室的所有夥伴們, 在課餘時間安排豐富的休閒活動以抒發研究壓力。 最後,我要感謝最親愛的家人,一路上在背後默默的關心、支持與鼓勵,給與我 一個無後顧之憂的避風港,讓我可以順利完成碩士班的研究。在此,謹將此論文獻給 曾經陪伴過我的每一個人,願他們都能順心平安。. 陳威志 謹誌于 義守大學電機工程系研究所 中華民國九十九年六月. i.

(4) 一種用於解決神經網路學習不完全的方法. 研究生:陳威志. 指導教授:黃瑞初. 義守大學電機工程研究所. 摘要. 類神經網路於近幾十年以來在人工智慧領域中為一門發展十分成熟的技術。然 而,在相關研究中,最為人所廣泛應用之監督式學習網路卻普遍存在如易落入局部極 小值、收斂速度過慢以及網路架構不易決定等問題。各方文獻所提出之解決方法大多 僅侷限使用於特定之訊號處理,對於實際之應用層面無法達到所謂的一般性與廣泛 性。在此,我們提出一套新的機制用於解決神經網路學習不完全的問題,利用一個階 數明確之多項式,等同近似於原有傳統神經網路,並利用數值分析之方法進行最佳化 的搜尋。相較於傳統神將網路演算方式,本機制之優勢在於無需費時於嘗試錯誤,並 可有效解決神經網路陷入局部極小值之問題及應用不精確的缺點。 關鍵字:類神經網路,多項式神經網路,局部極小值。. ii.

(5) A New Method for Solving the Incomplete Learning Problem of Neural Network. Student: Wei-Chih Chen. Advisor: Rey-Chue Hwang. Department of Electrical Engineering I-Shou University. ABSTRACT In recent years, neural network is a kind of mature technology in the artificial intelligent field. Generally, the supervised neural network is the most popular model used in the real applications. However, it is well known that the local minimum, the slow convergent speed and the determination of model size are three main problems exist in the neural applications. Many researchers have proposed to solve these problems, but most of them only focus on some specific signal processing topics. In other words, the generalization and popularity presented by these researches are still very weak. In this thesis, we proposed a new technique for solving the incomplete learning problem of neural network. A clear high-order polynomial will be treated as the equivalent model of neural network and be used in the same application. Any optimization method can be used for searching the optimal solution. Compared to the traditional neural network, the advantages of the new technique proposed are (1) no time-consuming problem, i.e. not many trials are needed;(2) the local minimum problem can be effectively solved and then the accuracy of application could be greatly improved.. iii.

(6) 目錄 致謝 ...................................................................................................................................... i  中文摘要 ............................................................................................................................. ii  英文摘要 ............................................................................................................................ iii  目錄 .................................................................................................................................... iv  圖目錄 ................................................................................................................................ vi  表目錄 .............................................................................................................................. viii  第一章 . 緒論 ............................................................................................................. 1 . 1.1 . 研究背景與動機 ......................................................................................... 1 . 1.2 . 研究目的與方法 ......................................................................................... 1 . 1.3 . 論文架構 ..................................................................................................... 2 . 第二章 . 類神經網路介紹 ......................................................................................... 3 . 2.1 . 概述 ............................................................................................................. 3 . 2.2 . 2.3 . 2.1.1 . 神經元模型 ......................................................................................... 3 . 2.1.2 . 類神經網路架構 ................................................................................. 5 . 倒傳遞演算法 ............................................................................................. 6  2.2.1 . 概述 ..................................................................................................... 6 . 2.2.2 . 權值更新公式之推導 ......................................................................... 7 . 2.2.3 . 演算法流程 ........................................................................................11 . 多項式神經網路演算法 ........................................................................... 12  2.3.1 . 概述 ................................................................................................... 12 . 2.3.2 . 網路架構及其學習法則 ................................................................... 12 . 2.3.3 . 演算法流程 ....................................................................................... 15 . 第三章 . 最小均方演算法介紹 ............................................................................... 16 . 3.1 . 概述 ........................................................................................................... 16 . iv.

(7) 3.2 . LMS 之網路模型與運算方式 .................................................................. 16 . 3.3 . LMS 之演算流程 ...................................................................................... 19 . 第四章 . 實驗模擬結果 ........................................................................................... 20 . 4.1 . 資料來源及前處理 ................................................................................... 20 . 4.2 . 4.3 . 第五章 . 4.1.1 . 資料來源 ........................................................................................... 20 . 4.1.2 . 資料前處理 ....................................................................................... 22 . 4.1.3 . 誤差計算方式 ................................................................................... 23 . 系統辯證實驗之模擬結果 ....................................................................... 24  4.2.1 . 第 A 組資料之模擬結果 .................................................................. 24 . 4.2.2 . 第 B 組資料之模擬結果 .................................................................. 28 . 訊號預測實驗之模擬結果 ....................................................................... 34  4.3.1 . 第 C 組資料之模擬結果 .................................................................. 34 . 4.3.2 . 第 D 組資料之模擬結果 .................................................................. 36 . 結論與未來研究方向 ............................................................................... 38 . 參考文獻 ........................................................................................................................... 39 . v.

(8) 圖目錄 Fig. 2.1 . 神經元的運算模型 ..................................................................................... 3 . Fig. 2.2 . 門檻函數(Hard limit Function) .................................................................. 4 . Fig. 2.3 . S 型函數(Sigmoid Function) ...................................................................... 5 . Fig. 2.4 . 類神經網路基本架構圖 ............................................................................. 5 . Fig. 2.5 . 傳統 Sigmoid 神經網路三層架構圖 ......................................................... 6 . Fig. 2.6 . Sigma-Pi 型神經網路架構圖 ................................................................... 12 . Fig. 3.1 . LMS 演算法架構圖 .................................................................................. 16 . Fig. 4.1 . 第 B 組資料範例 ...................................................................................... 21 . Fig. 4.2 . PNN 第 A 組資料 XOR Gate 訓練與測試誤差曲線圖(架構 2-2-1) ...... 24 . Fig. 4.3 . LMS 第 A 組資料 XOR Gate 訓練與測試誤差曲線圖(2 階多項式) .... 25 . Fig. 4.4 . PNN 第 A 組資料 XNOR Gate 訓練與測試誤差曲線圖(架構 2-2-1) ... 26 . Fig. 4.5 . LMS 第 A 組資料 XNOR Gate 訓練與測試誤差曲線圖(2 階多項式) . 27 . Fig. 4.6 . PNN 第 B 組訓練資料期望及實際輸出圖(架構 2-5-1) ......................... 28 . Fig. 4.7 . PNN 第 B 組測試資料期望及實際輸出圖(架構 2-5-1) ......................... 28 . Fig. 4.8 . LMS 第 B 組訓練資料期望及實際輸出圖(5 階多項式) ....................... 29 . Fig. 4.9 . LMS 第 B 組測試資料期望及實際輸出圖(5 階多項式) ....................... 29 . Fig. 4.10 . PNN 第 B 組訓練資料期望及實際輸出圖(架構 2-8-1) ......................... 30 . Fig. 4.11 . PNN 第 B 組測試資料期望及實際輸出圖(架構 2-8-1) ......................... 30 . Fig. 4.12 . LMS 第 B 組訓練資料期望及實際輸出圖(8 階多項式) ....................... 31 . Fig. 4.13 . LMS 第 B 組測試資料期望及實際輸出圖(8 階多項式) ....................... 31 . Fig. 4.14 . PNN 第 B 組訓練資料期望及實際輸出圖(架構 2-10-1) ....................... 32 . Fig. 4.15 . PNN 第 B 組測試資料期望及實際輸出圖(架構 2-10-1) ....................... 32 . Fig. 4.16 . LMS 第 B 組訓練資料期望及實際輸出圖(10 階多項式) ..................... 33 . Fig. 4.17 . LMS 第 B 組測試資料期望及實際輸出圖(10 階多項式) ..................... 33 . vi.

(9) Fig. 4.18 . BP 第 C 組資料初始權值 I 訓練與測試誤差曲線圖(架構 3-4-1) ......... 34 . Fig. 4.19 . LMS 第 C 組資料訓練與測試誤差曲線圖(20 階多項式) ..................... 35 . Fig. 4.20 . BP 第 D 組資料 SET1 訓練與測試誤差曲線圖(架構 2-3-1) ................. 36 . Fig. 4.21 . LMS 第 D 組資料 SET1 訓練與測試誤差曲線圖(6 階多項式) ............ 37 . vii.

(10) 表目錄 Table 4.1 . 第 A 組資料範例(XOR Gate) .................................................................. 20 . Table 4.2 . 第 A 組資料範例(XNOR Gate) ............................................................... 20 . Table 4.3 . 第 C 組資料範例 ...................................................................................... 22 . Table 4.4 . 第 D 組資料範例 ...................................................................................... 22 . Table 4.5 . PNN 第 A 組資料 XOR Gate 之模擬結果(架構 2-2-1) .......................... 24 . Table 4.6 . LMS 第 A 組資料 XOR Gate 之模擬結果(2 階多項式) ........................ 25 . Table 4.7 . PNN 第 A 組資料 XNOR Gate 之模擬結果(架構 2-2-1) ....................... 26 . Table 4.8 . LMS 第 A 組資料 XNOR Gate 之模擬結果(2 階多項式) ..................... 27 . Table 4.9 . PNN 第 B 組資料之模擬結果(架構 2-5-1) ............................................. 28 . Table 4.10 . LMS 第 B 組資料之模擬結果(5 階多項式) ........................................... 29 . Table 4.11 . PNN 第 B 組資料之模擬結果(架構 2-8-1) ............................................. 30 . Table 4.12 . LMS 第 B 組資料之模擬結果(8 階多項式) ........................................... 31 . Table 4.13 . PNN 第 B 組資料之模擬結果(架構 2-10-1) ........................................... 32 . Table 4.14 . LMS 第 B 組資料之模擬結果(10 階多項式) ......................................... 33 . Table 4.15 . BP 第 C 組資料之模擬結果(架構 3-4-1) ................................................ 34 . Table 4.16 . LMS 第 C 組資料之模擬結果(20 階多項式) ......................................... 35 . Table 4.17 . BP 第 D 組資料之模擬結果(架構 2-3-1) ................................................ 36 . Table 4.18 . LMS 第 D 組資料之模擬結果(6 階多項式) ........................................... 37 . viii.

(11) 第一章 緒論. 1.1. 研究背景與動機. 類神經網路(Neural Network,NN)是一種仿造生物神經運作方式的智慧型工具, 以聯結數個具資料處理能力之神經元,創造出一個可接收外界訊號並加以學習的系 統。近幾十年來,神經網路已是一門發展成熟且廣泛被應用的技術。在許多科技工業 及商業分析上皆可見其顯著之成果;而諸如於影像辨識(Image Identification)、訊號預 測(Signal Forecasting)、系統辯證(System Identification)等研究議題上,許多國內外專家 學者亦提出許多相關著作與研究報告[1-6]。 現階段類神經網路之學習模式可分為兩大類,分別為監督式學習(Supervised Learning)與非監督式學習(Unsupervised Learning);其中,監督式學習網路模式經常與 基 於 最 陡 坡 降 法 (Gradient Steepest Descent Method) 所 推 論 之 誤 差 回 授 (Error Back-Propagation,BP)學習演算方式搭配使用;然而,此類演算法普遍存在如易落入 局部極小值(Local Minimum)、收斂速度過慢以及網路架構不易決定等問題。尤其當所 面對之訊號型態過於複雜而使其誤差曲線或面呈現非凹特性,亦或是資料量過於龐大 時,則不可避免地會遭遇局部極小值的困擾,而產生學習不完全之網路模型,如此, 當其應用於實際訊號處理上時便無法獲得良好的表現。為此,我們期望可提出一套新 的機制用於解決神經網路學習不完全的問題。. 1.2. 研究目的與方法 類神經網路現存之相關研究文獻中,除了探討如何縮短學習時間以及提升其網路. 正確率之方法外,該如何避免落入局部最小值的問題更是神經網路研究者期待解決的 一大挑戰;但我們可發現,多數的方法皆侷限使用於特定訊號或者資料,即實際應用. 1.

(12) 層面中無法達到所謂的一般性[7-23]。 本研究提出一種新的方法用以驗證監督式神經網路於實際應用時,判斷是否已達 該網路架構下之最佳學習效果,或是已落入網路局部極小值。因此,我們利用一個階 數明確的多項式表示式來執行訊號的趨近,即是將多項式神經網路的輸出與輸入變數 間之非線性關係視為一種輸入變數經過轉換後之線性關係,如下式所示。 h. n. p. y k = ∏ ( ∑ ωij xik ) = γ 0 + ∑ γ i zik l =1 i = 0. (1.1). i =1. 其中, zik 為輸入變數 xik 間之非線性乘積項;p 為原輸入變數乘積項之階數,其 大小由隱藏層神經元個數來決定。 由於輸出與輸入的關係經轉換後已成為線性關係,故可以使用任何線性最佳化之 數值方法尋找其近似之最佳解;本研究即是使用最小均方法 (Least Mean Square. Method,LMS)以迭代方式求得之。相較於傳統倒傳遞神經網路與多項式神經網路,本 論文所提出的方法不僅無需如上述傳統神經網路般多次嘗試錯誤,其學習效果之表現 更是遠遠優於上述網路;如此,本研究可提高類神經網路於日後之實際應用時之實用 價值。. 1.3. 論文架構. 本論文之架構分為五大章節。依序為緒論、類神經網路介紹、最小均方演算法介 紹、實驗模擬結果以及結論與未來研究方向。各章節主要內容說明如下:第一章為緒 論,說明本論文之研究背景、動機、目的與方法;第二章為類神經網路介紹,神經元 模型、神經網路架構,倒傳遞演算法與多項式神經網路演算法;第三章為最小均方演 算法介紹;第四章為實驗模擬結果,以本文蒐集之數筆訊號進行實驗模擬,並與不同 類型之神經網路進行比較以驗證本研究模型之成效;第五章為結論與未來研究方向。. 2.

(13) 第二章 類神經網路介紹. 2.1. 概述 類神經網路是一個複雜的計算系統,它利用電腦快速之運算能力,聯結大量之人. 工神經元以模仿生物神經網絡之能力,並藉由類似人類學習之過程加以訓練,便可使 系統如附有智慧般處理大量且煩瑣之資料,因此類神經網路於各種產業及領域中均有 優異之表現。此章節將針對類神經網路之神經元模型、類神經網路架構、倒傳遞演算 法及多項式神經網路演算法逐一進行介紹。. 2.1.1 神經元模型 人工神經元實為一簡單之運算單元,如 Fig. 2.1 所示,其主要由三個部分所組成, 分別為:權值、集成函數與激發函數。權值為神經元與其輸入之聯結強度;集成函數 是神經元之輸入與權值之乘積總合;激發函數可為一線性或非線性函數,將集成函數 之數值代入激發函數中便可得到神經元之輸出值。. bais. X0. w0 j. X1. w1 j. X2. w2 j. 1. 激發函數. net. f net. wij. Xn. wnj. 集成函數 Fig. 2.1 神經元的運算模型. 3. yj t.

(14) 其中 X i 為輸入訊號; bias = X 0 為偏權值,通常設定為 1; wi 為權值; net 為集成 函數之輸出值,如式(2.1)所示; f (net) 則是將 net 代入激發函數所產生輸出值,如式(2.2) 所示,其值亦等於神經元之輸出值 y 。 n. net = ∑ X i ∗ wi. (2.1). y = f (net). (2.2). i =0. 以下介紹兩種神經元常使用之激發函數,門檻函數(Hard limit Function)及 S 型函 數(Sigmoid Function);依實際應用訊號之不同所使用之激發函數也有所差異,如門檻 函數多用於線性分類問題,而 S 型函數多用於處理複雜之非線性的問題上。Fig. 2.2 為門檻函數之響應圖;Fig. 2.3 為 S 型函數之響應圖。. (1) 門檻函數(Hard limit Function) ⎧1 , if , v ≥ 0 f (v ) = ⎨ ⎩0 , if , v < 0. (2.3). 1.2. 1.0. 0.8. f(v). 0.6. 0.4. 0.2. 0.0. -20. -10. 0. 10. 20. v. Fig. 2.2 門檻函數(Hard limit Function). 4.

(15) (2) S 型函數(Sigmoid Function) f (v ) =. 1 1 + e −v. (2.4). 1.2. 1.0. 0.8. f(v). 0.6. 0.4. 0.2. 0.0. -20. -10. 0. 10. 20. v. Fig. 2.3 S 型函數(Sigmoid Function). 2.1.2 類神經網路架構 類神經網路之基本架構主要分為三個部分,分別為輸入層(Input Layer)、隱藏層. (Hidden Layer)及輸出層(Output Layer),如 Fig. 2.4 所示[25];其中,除輸入層之神經元 僅為接受訊號之用而不經任何函數運算外,其餘神經元皆如前述介紹之神經元模型之 運算模式;此外,神經網路之隱藏層數量可大於一層。. 輸出層. Y1. Yl. fo1 s1. fol sl. sl. Yp. fop s p. sl. sp. rj. rk. wjl r1. 隱藏層. fh1 u1 u1. f hj u j. fhk uk. r0. xn. x0. uk. uj. vij. 輸入層 xi. x1. Fig. 2.4 類神經網路基本架構圖. 5.

(16) 2.2. 倒傳遞演算法. 2.2.1 概述 倒傳遞演算法(Back-Propagation,BP)屬於監督式學習模式中最為人所知的方法之 一。其依據最陡坡降法則之推演使得成本函數最小化,並將網路輸出單元之目標輸出 值(期望值)與推論輸出值(實際值)間之誤差回傳,層層回送至輸入層來修正所有連接之 權值,進而使其網路的實際值趨近於期望值,達到學習的目的。本研究所使用之倒傳 遞演算法中其網路神經元之激發函數皆為 S 型函數。以下我們以一個基本三層架構之 網路模型為例,如 Fig. 2.5 所示,詳細說明其網路權值修正公式之推導過程[26]。. wnj. Fig. 2.5 傳統 Sigmoid 神經網路三層架構圖. 6.

(17) 2.2.2 權值更新公式之推導 首先定義參數如下: k :輸入資料筆數。. x0 :隱藏層之偏權值,定義初始值為 1。 r0 :輸出層之偏權值,定義初始值為 1。 xi (k ) :輸入層第 k 筆輸入資料於第 i 個輸入值。 (i = 1 ~ n). u j (k ) :隱藏層第 j 個神經元淨輸入值。 ( j = 1 ~ k ) sl (k ) :輸出層第 l 個神經元淨輸入值。 (l = 1 ~ p) x0 (k ) :隱藏層的輸入常數項,設定值為 1。 r0 (k ) :輸出層的輸入常數項,設定值為 1。. vij :輸入層第 i 個神經元與隱藏層第 j 個神經元所連接之權值。. w jl :隱藏層第 j 個神經元與輸出層第 l 個神經元所連接之權值。 v 0 j :隱藏層第 j 個神經元所對應之偏權值。 w0l :輸出層第 l 個神經元所對應之偏權值。. rj (k ) :隱藏層第 j 個神經元之輸出值。 yl (k ) :輸出層第 l 個神經元之輸出值。 d l (k ) :輸出層第 l 個神經元之期望值。 el (k ) :輸出層第 l 個神經元之誤差。. δ jhid (k ) :隱藏層第 j 個神經元之靈敏度(Sensitivity)。 δ lout (k ) :輸出層第 l 個神經元之靈敏度(Sensitivity)。 η :學習速率。 7.

(18) α :動量因子。 定義成本函數(Cost Function)如方程式(2.5),. Ek = =. 1 p 2 ⋅ ∑ (d l (k ) − yl (k )) 2 l =1. (2.5). 1 p 2 ⋅ ∑ (el (k )) 2 l =1. 若欲使成本函數為最小化,則其隱藏層第 j 個神經元與輸出層第 l 個神經元之權值 調變量 Δw jl (k ) 正比於負的成本函數對 w jl 作偏微分。. Δw jl ∝ −. ∂E k ∂w jl (k ). (2.6). 使用連鎖律(Chain Rule)對方程式(2.6)作推導可得:. −. ∂s (k ) ∂E k ∂Ek =− ⋅ l ∂sl (k ) ∂w jl (k ) ∂w jl (k ). (2.7). 其中 N hid. sl (k ) = ∑ w jl (k ) ⋅ rj (k ). (2.8). j =0. 則 ∂sl (k ) ∂ N hid = ∑ wkl (k ) ⋅ rk (k ) = rj (k ) ∂w jl (k ) ∂w jl (k ) k =0. (2.9). 定義靈敏度為:. ∂Ek ∂sl (k ). (2.10). ∂Ek = δ lout (k ) ⋅ r j (k ) ∂w jl (k ). (2.11). δ lout (k ) = − 則. −. 將式(2.11)代入式(2.6),整理後可得到 Δw jl :. Δw jl (k ) = η ⋅ δ lout (k ) ⋅ r j (k ). (2.12). 對方程式(2.10)使用連鎖律(Chain Rule):. 8.

(19) δ lout (k ) = −. ∂e (k ) ∂yl (k ) ∂Ek ⋅ =− l ∂yl (k ) ∂sl (k ) ∂sl (k ). (2.13). 其中. ∂Ek 1 Nout ∂ 2 − =− ⋅ ∑ (d l (k ) − yl (k )) = d l (k ) − yl (k ) ∂yl (k ) ∂yl (k ) 2 l =0 ∂yl (k ) 1 e − sl (k ) ∂ = ⋅ = ∂sl (k ) ∂sl (k ) 1 + e −sl (k ) 1 + e − sl (k ). (. ). 2. (2.14). 1 1 ⎞ ⎛ ⎞ ⎛ ⋅ = ⎜1 − − sl ( k ) ⎟ ⎜ − sl ( k ) ⎟ ⎠ ⎝ 1+ e ⎠ ⎝1+ e. = yl (k ) ⋅ (1 − yl (k )). (2.15). 將式(2.14)與(2.15)帶入式(2.13),可得:. δ lout (k ) = yl (k ) ⋅ (1 − yl (k )) ⋅ (d l (k ) − yl (k )). (2.16). 同理,輸入層至隱藏層之權值調變量亦可表示為:. Δvij (k ) ∝ −. ∂Ek ∂vij (k ). (2.17). 利用連鎖律(Chain Rule)可得: −. ∂Ek ∂Ek ∂u j (k ) =− ⋅ ∂vij (k ) ∂u j (k ) ∂vil (k ). (2.18). 其中 N in. u j (k ) = ∑ vij (k ) ⋅ xi (k ). (2.19). i =0. 則 ∂u j (k ) ∂vij (k ). =. ∂. Nin. ∑ v (k ) ⋅ x (k ) = x (k ). ∂vij (k ) k =0. kj. k. (2.20). i. 定義靈敏度為:. δ jhid (k ) = −. ∂E k ∂u j (k ). (2.21). 則. −. ∂E k = δ jhid (k ) ⋅ xi (k ) ∂vij (k ). (2.22). 9.

(20) 將式(2.22)代入式(2.17),整理後可得到 Δvij (k ) :. Δvij (k ) = η ⋅ δ jhid (k ) ⋅ xi (k ). (2.23). 對方程式(2.21)使用連鎖律(Chain Rule):. δ jhid (k ) = −. ∂Ek ∂Ek ∂rj (k ) =− ⋅ ∂u j (k ) ∂rj (k ) ∂u j (k ). (2.24). 其中 Nout ∂Ek ∂Ek ∂s0 (k ) Nout ∂Ek ∂ Nhid − = ∑− ⋅ = ∑− ⋅ ∑ wpo (k ) ⋅ rp (k ) ∂rj (k ) o=1 ∂s0 (k ) ∂rj (k ) o=1 ∂s0 (k ) ∂rj (k ) p=0 N out. = ∑− o =1. ∂rj (k ). Nout ∂Ek ⋅ w jo (k ) =∑ δ oout (k ) ⋅ w jo (k ) ∂so (k ) o =1 −u (k ). ∂. 1 e j = ⋅ = ∂u j (k ) ∂u j (k ) 1 + e −u j (k ) 1 + e −u j (k ). (. ). 2. (2.25). 1 1 ⎛ ⎞ ⎛ ⎞ = ⎜1 − ⋅ −u j ( k ) ⎟ ⎜ −u j ( k ) ⎟ ⎝ 1+ e ⎠ ⎝1+ e ⎠. = rj (k ) ⋅ (1 − rj (k )). (2.26). 將式(2.25)與(2.26)帶入式(2.24),可得:. δ. hid j. (k ) = r j (k ) ⋅ (1 − r j (k ))⋅ ∑ δ oout (k ) ⋅ w jo (k ) N out. (2.27). o =1. 10.

(21) 2.2.3 演算法流程 步驟 1:初始化網路參數設定,包括初始權值 vij 、 w jl (初始權值設定為-0.5~0.5 間的隨機亂數)以及學習速率 η 。 步驟 2:將輸入項 wi 與其相對應之期望值 dl (k ) 代入類神經網路架構中。 步驟 3:計算神經網路隱藏層與輸出層的淨輸入值與實際輸出值。 隱藏層: N in. 淨輸入: u j (k ) = ∑ xi (k ) ⋅ vij (k ) i =0. 輸出值: r j (k ) =. 1 −u ( k ) 1+ e j. 輸出層: N hid. 淨輸入: sl (k ) = ∑ rj (k ) ⋅ w jl j =0. 輸出值: yl (k ) =. 1 1 + e −sl (k ). 步驟 4:利用步驟 2 與步驟 3 之值計算隱藏層及輸出層各神經元之差距量。 輸出層: δ lout (k ) = yl (k ) ⋅ (1 − yl (k )) ⋅ (d l (k ) − yl (k )) 隱藏層: δ jhid (k ) = r j (k ) ⋅ (1 − r j (k )) ⋅ ∑ δ oout (k ) ⋅ w jo (k ) N out. o =1. 步驟 5:計算隱藏層及輸出層各個神經元相連接之權值調變量。 隱藏層接輸出層: Δw jl (k ) = η ⋅ δ lout (k ) ⋅ r j (k ) 輸入層接隱藏層: Δvij (k ) = η ⋅ δ jhid (k ) ⋅ xi (k ) 步驟 6:更新隱藏層及輸出層各個神經元相連接之權值。 隱藏層接輸出層: w jl (k + 1) = w jl (k ) + Δw jl (k ) + α ⋅ (w jl (k ) − w jl (k − 1)) 輸入層接隱藏層: vij (k + 1) = vij (k ) + Δvij (k ) + α ⋅ (vij (k ) − vij (k − 1)) 步驟 7:將更新後之權值及下一筆資料代回步驟 2~6 運算,直到疊代結束。. 11.

(22) 2.3. 多項式神經網路演算法. 2.3.1 概述 多項式神經網路演算法(Polynomial Neural Network,PNN)與倒傳遞演算法皆屬於 監督式學習模式,兩者亦皆以最陡坡降法使成本函數最小化為旨,故其推論方式與倒 傳遞演算法大至雷同。. 2.3.2 網路架構及其學習法則 Sigma-Pi 型多項式神經網路之架構如 Fig. 2.6 所示,此型態之網路神經元分別使 用 Sigma( ∑ )與 Pi (Π) 來取代隱藏層與輸出層神經元之激發函數;隱藏層與輸出層間之 相連權值固定為 1,且不隨著學習過程而修正之。. Y. Π. h1. hk. hj. ∑. ∑. ∑. ∑. wij x1. x2. xi. xn. Fig. 2.6 Sigma-Pi 型神經網路架構圖. 12. x0.

(23) 首先定義參數如下: k :輸入資料筆數。 x0 :隱藏層之偏權值,定義初始值為 1。. xi (k ) :輸入層第 k 筆輸入資料於第 i 個輸入值。 (i = 1 ~ n) h j (k ) :令為隱藏層第 j 個神經元之輸出值。. Y (k ) :為輸出層神經元之輸出值。 wij :輸入層第 i 個神經元與隱藏層第 j 個神經元所連接之權值。. δ j (k ) :隱藏層第 j 個神經元之靈敏度(Sensitivity)。. η :學習速率。. 首先定義成本函數(Cost Function)如方程式(2.28),. E k = (d (k ) − Y (k )). 2. (2.28). = (e(k )). 2. 若欲使成本函數為最小化,則其隱藏層第 j 個神經元與輸入層第 i 個神經元之權值調變 量 Δwij (k ) 正比於負的成本函數對 wij 作偏微分。. Δwij (k ) ∝ −. ∂E k ∂wij (k ). (2.29). 使用連鎖律(Chain Rual)對方程式(2.29)作推導可得: −. ∂Ek ∂Ek ∂h j (k ) =− ⋅ ∂wij (k ) ∂h j (k ) ∂wij (k ). (2.30). 其中 N hid. h j (k ) = ∑ wij (k ) ⋅ xi (k ). (2.31). i =0. 則 13.

(24) ∂h j (k ). N hid ∂ = ⋅ ∑ wkj (k ) ⋅ xk (k ) = xi (k ) ∂wij (k ) ∂wij (k ) k =0. (2.32). 定義靈敏度為:. ∂E k ∂h j (k ). (2.33). ∂E k = δ j (k ) ⋅ xi (k ) ∂wij (k ). (2.34). δ j (k ) = − 則. −. 將式(2.34)代入式(2.29),整理後可以得到 Δwij :. Δwij (k ) = η ⋅ δ j (k ) ⋅ xi (k ). (2.35). 對方程式(2.33)使用連鎖律(Chain Rual):. δ j (k ) = −. ∂E k ∂E k ∂Y (k ) =− ⋅ ∂h j (k ) ∂Y (k ) ∂h j (k ). (2.36). 其中 Y (k ) = ∏ h j (k ). (2.37). j. ∂Y (k ) ∂ = ⋅ ∏ hl (k ) = ∏ hl (k ) ∂h j (k ) ∂h j (k ) l l (l ≠ j ) −. (2.38). ∂E k ∂ 2 =− ⋅ (d (k ) − Y (k )) = 2(d (k ) − Y (k )) ∂Y (k ) ∂Y (k ). (2.39). 所以,權值更新可以表示為:. wij (k + 1) = wij (k ) + η ⋅ δ j (k ) ⋅ xi (k ). (2.40). 將式(2.31)與式(2.37)結合,推導出神經網路輸入與輸出之間的關係式: N hid. N hid N hid. Y = c0 + ∑ ci xi + ∑∑ cij xi x j + LL i. i. (2.41). j. 其中 c0 、 ci 、 cij L 為權值 wij 函數之係數,故此種網路也稱之為多項式類神經網 路。. 14.

(25) 2.3.3 演算法流程 步驟 1:初始化網路參數設定,包含起始權值 wij (起始權值設定為-0.5~0.5 之間的 隨機亂數)以及學習速率η 。 步驟 2:將輸入項 xi (k ) 與其相對應之期望值 d (k ) 代入多項式網路架構中。 步驟 3:計算多項式網路隱藏層與輸出層的實際輸出值。 N in. 隱藏層: h j (k ) = ∑ xi (k ) ⋅ wij (k ) i =0. N hid. 輸出層: Y (k ) = ∏ h j (k ) ⋅ 1 j =0. 步驟 4:利用步驟 2 與步驟 3 之值計算隱藏層各神經元之差距量。 隱藏層: δ j (k ) = 2(d (k ) − Y (k )) ⋅ ∏ hl (k ) l (l ≠ k ). 步驟 5:計算隱藏層各個神經元相連接之權值調變量。 輸入層接隱藏層: Δwij (k ) = η ⋅ δ j (k ) ⋅ xi (k ) 步驟 6:更新隱藏層各個神經元相連接之權值。 輸入層接隱藏層: wij (k + 1) = wij (k ) + η ⋅ δ j (k ) ⋅ xi (k ) 步驟 7:將更新後之權值及下一筆資料代回步驟 2~6 運算,直到疊代結束。. 15.

(26) 第三章 最小均方演算法介紹. 3.1. 概述. 最小均方演算法(Least Mean Square,LMS)是一常見之數值分析方法,為 Windro 與 Hoff 於 1960 年所提出,通常使用於線性最佳化之議題;因其具有良好之穩定性以 及容易建置與實現等優勢,故被許多研究所採用。下面章節將對 LMS 演算法之網路 模型與運算方式做一個簡單的介紹。. 3.2. LMS 之網路模型與運算方式 Fig. 3.1 為 LMS 演算法之基本架構。如圖所示,輸出單元 y (k ) 為輸入向量 xn 與聯. 結權值 wn (k ) 之乘積總合。本演算法亦使用最陡坡下降方式進行權值修正公式之推 論,利用目標輸出值與實際輸出值間之誤差迴授以調整權值,使成本函數趨近於零。 其中, k 為輸入資料筆數,並定義網路偏權值 x0 之初始值為 1。. w1 (k ). w2 (k ). wn (k ). d (k ). Fig. 3.1 LMS 演算法架構圖. 16.

(27) xi (k ) :輸入層第 k 筆輸入資料於第 i 個輸入值。 (i = 1 ~ n). Y (k ) :為輸出層神經元之輸出值。 d (k ) :目標訊號。 wi :輸入層第 i 個神經元連接之權值。. e(k ) = (d (k ) − Y (k )) :為誤差值。 Δwi (k ) :輸入層第 i 個神經元連接之權值調變量。. η :學習速率。. 首先在 LMS 演算法中[28]第 k 筆資料所輸出之數學方程式為(3.1) n. Y (k ) = ∑ wi ⋅ xik = W T ⋅ X k = X kT ⋅ W. (3.1). i =1. 其中. X k = [x1k , x2 k , L, xik , L, xnk ] 為第 k 筆資料所輸入之向量; T. W = [w1 , w2 , L, wi ,L, wn ] 為 LMS 演算法中權值向量。 T. 所以輸出誤差 e(k ) 為. e(k ) = (d (k ) − Y (k )) = d (k ) − W T ⋅ X k = X kT ⋅ W. (3.2). 其中 d (k ) 為目標輸出值其平方誤差值為. e(k ) = d (k ) − 2 ⋅ d (k ) ⋅ X kT ⋅ W + W T ⋅ X k ⋅ X kT ⋅ W 2. 2. (3.3). 然而均方誤差(Mean Square Error)MSE 則可表示成式子(3.4). [. ] [. ]. [. ]. [. ]. MSE = E e(k ) = E d (k ) − 2 E d (k ) ⋅ X kT ⋅ W + W T ⋅ E X k X kT ⋅ W. [. 2. 2. ]. = E d (k ) − 2 P T ⋅ W + W T ⋅ R ⋅ W 2. 由式子(3.4)可得到 R 與 P 兩個相關矩陣,其中. 17. (3.4).

(28) [. R = E X k X kT. ]. [. ⎡ x1k x1k x1k x2 k L ⎤ = E ⎢⎢ x2 k x1k x2 k x2 k L ⎥⎥ ⎢⎣ M M xnk xnk ⎥⎦. P = E d (k ) ⋅ X kT. ]. (3.5). ⎡d (k )x1k ⎤ ⎢d (k )x ⎥ 2k ⎥ = E⎢ ⎢ M ⎥ ⎢ ⎥ ⎣d (k )xnk ⎦. (3.6). 利用權值調變量,使整個平方誤差達到最小化。則式子(3.4)極小平方誤差為. [. ]. ∇E e(k ) = 2. [. ]. ∂E e(k ) = 2 RW − 2 P ∂W (k ) 2. (3.7). 其中在梯度為 0 時,理想加權向量函數 W 0 ,即為. [. ]. ∇E e(k ) = 2 RW 0 − 2 P = 0 2. (3.8). 則由式子(3.8)推導而出 W 0 = R−1P. (3.9). 將(3.9)式帶回(2.4)式,可得. [. ] [. ]. E e(k ) = E d (k ) − P T W 0 2. 2. (3.10). 則在 LMS 演算法中,利用梯度估測從 e(k ) 來預測梯度 ∇(k ) ,即 2. [. ]. [. ]. ∇ (k ) = ∇E e(k ) = 2e(k )∇ e(k ) = 2e(k )∇ d (k ) − WkT X k = −2ek xk 2. (3.11). 所以,權值更新可以表示為 wi (k + 1) = wi (k ) + η ⋅ (− ∇(k )). (3.12). 將式(3.11)帶入式(3.12)可得到權值更新式 wi (k + 1) = wi (k ) + 2 ⋅η ⋅ e(k ) ⋅ xi (k ). (3.13). 其中 2η 為學習速率,用來控制穩定性與收斂速度快慢,此種修正方式稱之為最小 均方演算法(Least Mean Square)。. 18.

(29) 3.3. LMS 之演算流程. 步驟 1:初始化網路參數設定,包含起始權值 wi (起始權值設定為-0.5~0.5 之間的 隨機亂數)以及學習速率η 。 步驟 2:將輸入項 xi (k ) 與其相對應之期望值 d (k ) 代入多項式網路架構中。 步驟 3:計算網路輸出層的實際輸出值。 n. 輸出層: Y (k ) = ∑ wi ⋅ xik i =1. 步驟 4:利用步驟 2 與步驟 3 之值計網路誤差。 誤差: e(k ) = (d (k ) − Y (k )) 步驟 5:計算相連接之權值調變量。 權值調變量: Δwi (k ) = η ⋅ e(k ) ⋅ xi (k ) 步驟 6:更新相連接之權值。 更新權值: wi (k + 1) = wi (k ) + η ⋅ e(k ) ⋅ xi (k ) 步驟 7:將更新後之權值及下一筆資料代回步驟 2~6 運算,直到疊代結束。. 19.

(30) 第四章 實驗模擬結果. 4.1. 資料來源及前處理. 我們將所提出之方法應用至系統辯證與訊號預測兩類不同之訊號類型進行驗 證。實驗模擬之第一部分為訊號辯證,本研究針對兩筆不同資料分別使用不同架構之 多項式網路進行訓練及測試;而第二部分為系統預測,亦針對兩筆附有雜訊之資料使 用不同架構之倒傳遞類神經網路進行訓練及測試;最後將上述實驗結果分別與本研究 所提出之方法做為比較。. 4.1.1 資料來源 系統辯證實驗中,我們將邏輯電路中 XOR Gate 與 XNOR Gate 之真值表當作第 A 組之實驗訊號,其範例如 Table 4.1 與 Table 4.2 所示。其中先以全部 4 筆作為訓練,另 外再將 4 筆資料作為測試;訓練次數為 5000 次,且每 1 次訓練便進行測試。 Table 4.1 第 A 組資料範例(XOR Gate) XOR Gate X1(Input1). X2(Input2). Y(Output). 0. 0. 0. 0. 1. 1. 1. 0. 1. 1. 1. 0. Table 4.2 第 A 組資料範例(XNOR Gate) XNOR Gate X1(Input1). X2(Input2). Y(Output). 0. 0. 1. 0. 1. 0. 1. 0. 0. 1. 1. 1. 20.

(31) 第 B 組之實驗訊號則為一 1038 筆之分類資料,如圖 Fig. 4.1 所示。其中,519 筆 作為訓練,另外 519 筆資料作為測試;訓練次數為 5000 次,且每 10 次訓練便進行測 試。我們分別將上述兩組資料分別使用不同架構之多項式網路進行訓練及測試,再與 以本研究所提出之方法相比較。藉此驗證多項式網路易落入局部極小值之問題。. 1.2 0.1 0.9. 1.0 0.8 0.6 0.4 0.2 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. Fig. 4.1 第 B 組資料範例. 另一部分為訊號預測之實驗,同樣包含 C、D 兩組訊號;第 C 組資料為附有雜訊 之 184 筆動態訊號,其中,92 筆作為訓練,另外 92 筆資料作為測試;訓練次數為 10 萬次,且每 500 次訓練便進行測試。其範例如 Table 4.3 所示。第 D 組資料為一 108 筆之印刷參數訊號;其中,80 筆作為訓練,另外 28 筆資料作為測試;訓練次數為 10 萬次,且每 100 次訓練便進行測試。其範例如 Table 4.4 所示。同樣的,我們分別將上 述兩組資料分別使用不同架構之倒傳遞類神經網路進行訓練及測試,再與以本研究所 提出之方法相比較。藉此驗證倒傳遞類神經網路易落入局部極小值之問題。. 21.

(32) Table 4.3 第 C 組資料範例 輸入 1. 輸入 2. 輸入 3. 目標輸出. 43. 59. 380815. 362134. 48. 70. 362134. 404230. 46. 64. 404230. 401224. 54. 61. 401224. 411852. 50. 59. 411852. 411897. 48. 72. 411897. 409802. 57. 70. 409802. 374141. :. :. :. :. Table 4.4 第 D 組資料範例 輸入 1. 輸入 2. 目標輸出. 5. 65. 44. 5. 105. 36. 5. 145. 23. 5. 145. 25. 10. 145. 24. 10. 65. 43. 10. 145. 23. :. :. :. 4.1.2 資料前處理 本研究將訊號預測實驗中之兩筆資料進行前處理,分別以內差法方式將資料等比 例壓縮至 0~1 之間;此壓縮方式乃配合本研究所使用之類神經網路中神經元之激發函 數-S 型函數之輸出;均介於 0~1 之間。式 4.3 為內差法之數學方程式。. X new =. ( X − X min ) ⋅ (X new − X new ( X max − X min ) max. min. )+ X. newmin. (4.3). 22.

(33) X :壓縮前之原始資料。. X min :壓縮前之原始資料集中最小值。 X max :壓縮前之原始資料集中最大值。 new :壓縮後之新資料集中最小值。 X min. new X max :壓縮後之新資料集中最大值。. X new :壓縮後之新資料值。. 4.1.3 誤差計算方式 本研究所使用之誤差計算方式分為下三種,分別為絕對值平均誤差(Absolute Mean. Error,AME)、平均平方誤差(Mean Square Error,MSE)以及絕對值百分比平均誤差 (Absolute Mean Percentage Error,MAPE);其公式如式4.4 - 4.6所示:. 1 l AME = ⋅ ∑ d q − yq l q=1. (4.4) 2. 1 l MSE = ⋅ ∑ (d q − y q ) l q=1. (4.5). 1 l d q − yq MAPE = ⋅ ∑ l q =1 d q. (4.6). 其中, l :輸入資料筆數。. d q :第 q 筆資料之期望值。. y q :第 q 筆資料之實際值。. 23.

(34) 4.2. 系統辯證實驗之模擬結果. 4.2.1 第 A 組資料之模擬結果 我們使用架構為 2-2-1 之多項式網路針對第 A 組資料(XOR Gate)進行訓練及測 試,並列出學習速率設定為 0.01、0.05、0.08 與 0.1 時之訓練及測試誤差(AME)。Table. 4.5 為第 A 組資料(XOR Gate)之模擬結果;Fig. 4.2 為第 A 組資料(XOR Gate)於學習速 率 0.08 之訓練與測試誤差曲線圖。. Table 4.5 PNN 第 A 組資料 XOR Gate 之模擬結果(架構 2-2-1) 學習速率. 訓練誤差. 測試誤差. 0.01. 0.03107. 0.02983. 0.05. 0.000134. 0.000117. 0.08. 0.326996. 0.305854. 0.1. 7.62E-16. 6.11E-31. 0.6 Training Test 0.5. AME. 0.4. 0.3. 0.2. 0.1. 0.0 0. 500. 1000. 1500. 2000. 2500. 3000. 3500. 4000. 4500. 5000. epoch. Fig. 4.2 PNN 第 A 組資料 XOR Gate 訓練與測試誤差曲線圖(架構 2-2-1). 24.

(35) 接下來使用第A組資料(XOR Gate)於本研究所提出之機制,利用LMS演算法針對一 個2階多項式進行線性最佳化之模擬。Table 4.6為第A組資料(XOR Gate)之模擬結果;Fig.. 4.3第A組資料(XOR Gate)於學習速率0.1之訓練與測試誤差曲線圖。. Table 4.6 LMS 第 A 組資料 XOR Gate 之模擬結果(2 階多項式). LMS-2 階 學習速率. 訓練誤差. 測試誤差. 0.1. 1.27E-15. 1.41E-30. 1.2 Training Test 1.0. AME. 0.8. 0.6. 0.4. 0.2. 0.0 0. 50. 100. 150. 200. 250. 300. 350. 400. 450. 500. epoch. Fig. 4.3 LMS 第 A 組資料 XOR Gate 訓練與測試誤差曲線圖(2 階多項式). 25.

(36) 同樣地,我們使用架構為2-2-1之多項式網路針對第A組資料(XNOR Gate)進行訓練 及測試,並列出學習速率設定為0.01、0.05、0.08與0.1時之訓練及測試誤差(AME)。Table. 4.7為第A組資料(XNOR Gate)之模擬結果;Fig. 4.4為第A組資料(XNOR Gate)於學習速率 0.01之訓練與測試誤差曲線圖。. Table 4.7 PNN 第 A 組資料 XNOR Gate 之模擬結果(架構 2-2-1) 學習速率. 訓練誤差. 測試誤差. 0.01. 0.328849. 0.328025. 0.05. 0.294113. 0.28191. 0.08. 3.67E-13. 2.45E-13. 0.1. 1.89E-08. 1.33E-08. 0.7 Training Test. 0.6. AME. 0.5. 0.4. 0.3. 0.2. 0.1. 0.0 0. 500. 1000. 1500. 2000. 2500. 3000. 3500. 4000. 4500. 5000. epoch. Fig. 4.4 PNN 第 A 組資料 XNOR Gate 訓練與測試誤差曲線圖(架構 2-2-1). 26.

(37) 接下來使用第A組資料(XNOR Gate)於本研究所提出之機制,利用LMS演算法針對 一個2階多項式進行線性最佳化之模擬。Table 4.8為第A組資料(XNOR Gate)之模擬結 果;Fig. 4.5第A組資料(XNOR Gate)於學習速率0.1之訓練與測試誤差曲線圖。. Table 4.8 LMS 第 A 組資料 XNOR Gate 之模擬結果(2 階多項式). LMS-2 階 學習速率. 訓練誤差. 測試誤差. 0.1. 1.16E-15. 1.18E-30. 1.0 Training Test 0.8. AME. 0.6. 0.4. 0.2. 0.0 0. 50. 100. 150. 200. 250. 300. 350. 400. 450. 500. epoch. Fig. 4.5 LMS 第 A 組資料 XNOR Gate 訓練與測試誤差曲線圖(2 階多項式). 27.

(38) 4.2.2 第 B 組資料之模擬結果 我們使用架構為 2-5-1 之多項式網路針對第 B 組資料進行訓練及測試,並列出學 習速率設定為 0.001~0.009 時之訓練及測試正確率。Table 4.9 為第 B 組資料之模擬結 果;Fig. 4.6 為第 B 組訓練資料於學習速率 0.009 之期望及實際輸出圖;Fig. 4.7 為第 B 組測試資料於學習速率 0.009 之期望及實際輸出圖。 Table 4.9 PNN 第 B 組資料之模擬結果(架構 2-5-1) 架構 2 - 5 - 1 學習 速率 訓練正確率(%) 測試正確率(%). 0.001. 56.48. 58.4. 0.002. 53.28. 55.36. 0.003. 53.28. 53.28. 0.004. 53.28. 53.12. 0.005. 53.6. 53.28. 0.006. 53.44. 53.12. 0.007. 53.28. 52.64. 0.008. 52.96. 52.16. 0.009. 52.64. 52.16. 1.2. 1.2 0.1 0.9. 0.1 0.9 1.0. 0.8. 0.8. 0.6. 0.6. X2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. 0.2. 0.4. X1. 0.6. 0.8. 1.0. 1.2. X1. Fig. 4.6 PNN 第 B 組訓練資料期望及實際輸出圖(架構 2-5-1) 1.2. 1.2 0.1 0.9. 0.1 0.9. 0.8. 0.8. 0.6. 0.6. X2. 1.0. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. X1. 0.2. 0.4. 0.6. 0.8. 1.0. X1. Fig. 4.7 PNN 第 B 組測試資料期望及實際輸出圖(架構 2-5-1). 28. 1.2.

(39) 接下來使用第 B 組資料於本研究所提出之機制,利用 LMS 演算法針對一個 5 階 多項式進行線性最佳化之模擬。Table 4.10 為第 B 組資料之模擬結果;Fig. 4.8 為第 B 組訓練資料於學習速率 0.1 之期望及實際輸出圖;Fig. 4.9 為第 B 組測試資料於學習速 率 0.1 之期望及實際輸出圖。 Table 4.10 LMS 第 B 組資料之模擬結果(5 階多項式). LMS-5 階 正確率. 學習速率. 訓練正確率. 測試正確率. 90.36%. 89.98%. 0.1. 1.2. 1.2. 0.1 0.9. 0.1 0.9. 1.0. 0.8. 0.8. 0.6. 0.6. x2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 1.2. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. x1. X1. Fig. 4.8 LMS 第 B 組訓練資料期望及實際輸出圖(5 階多項式) 1.2. 1.2. 0.1 0.9. 0.1 0.9. 1.0. 0.8. 0.8. 0.6. 0.6. X2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 1.2. 0.2. 0.4. 0.6. 0.8. 1.0. X1. X1. Fig. 4.9 LMS 第 B 組測試資料期望及實際輸出圖(5 階多項式). 29. 1.2.

(40) 以相同的方式,我們使用架構為 2-8-1 之多項式網路針對第 B 組資料進行訓練及 測試,並列出學習速率設定為 0.001~0.009 時之訓練及測試正確率。Table 4.11 為第 B 組資料之模擬結果;Fig. 4.10 為第 B 組訓練資料於學習速率 0.009 之期望及實際輸出 圖;Fig. 4.11 為第 B 組測試資料於學習速率 0.009 之期望及實際輸出圖。 Table 4.11 PNN 第 B 組資料之模擬結果(架構 2-8-1) 架構 2 - 8 - 1 學習 速率 訓練正確率(%) 測試正確率(%). 0.001. 56.48. 58.4. 0.002. 55.36. 55.04. 0.003. 55.04. 55.2. 0.004. 54.72. 54.72. 0.005. 54.24. 53.92. 0.006. 53.76. 53.12. 0.007. 53.12. 52.64. 0.008. 53.12. 52.16. 0.009. 52.8. 51.36. 1.2. 1.2 0.1 0.9. 0.1 0.9. 0.8. 0.8. 0.6. 0.6. X2. 1.0. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. 0.2. 0.4. X1. 0.6. 0.8. 1.0. 1.2. X1. Fig. 4.10 PNN 第 B 組訓練資料期望及實際輸出圖(架構 2-8-1) 1.2. 1.2 0.1 0.9. 0.1 0.9. 0.8. 0.8. 0.6. 0.6. X2. 1.0. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. X1. 0.2. 0.4. 0.6. 0.8. 1.0. X1. Fig. 4.11 PNN 第 B 組測試資料期望及實際輸出圖(架構 2-8-1). 30. 1.2.

(41) 接下來使用第 B 組資料於本研究所提出之機制,利用 LMS 演算法針對一個 8 階 多項式進行線性最佳化之模擬。Table 4.12 為第 B 組資料之模擬結果;Fig. 4.12 為第 B 組訓練資料於學習速率 0.1 之期望及實際輸出圖;Fig. 4.12 為第 B 組測試資料於學習 速率 0.1 之期望及實際輸出圖。 Table 4.12 LMS 第 B 組資料之模擬結果(8 階多項式). LMS-8 階 正確率. 學習速率. 訓練正確率. 測試正確率. 92.68%. 91.52%. 0.1. 1.2. 1.2. 0.1 0.9. 0.1 0.9. 1.0. 0.8. 0.8. 0.6. 0.6. x2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 1.2. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. x1. X1. Fig. 4.12 LMS 第 B 組訓練資料期望及實際輸出圖(8 階多項式) 1.2. 1.2. 0.1 0.9. 0.1 0.9. 1.0. 0.8. 0.8. 0.6. 0.6. x2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 1.2. 0.2. 0.4. 0.6. 0.8. 1.0. x1. X1. Fig. 4.13 LMS 第 B 組測試資料期望及實際輸出圖(8 階多項式). 31. 1.2.

(42) 以相同的方式,我們使用架構為 2-10-1 之多項式網路針對第 B 組資料進行訓練及 測試,並列出學習速率設定為 0.001~0.009 時之訓練及測試正確率。Table 4.13 為第 B 組資料之模擬結果;Fig. 4.14 為第 B 組訓練資料於學習速率 0.008 之期望及實際輸出 圖;Fig. 4.15 為第 B 組測試資料於學習速率 0.008 之期望及實際輸出圖。 Table 4.13 PNN 第 B 組資料之模擬結果(架構 2-10-1) 架構 2 - 10 - 1 學習 速率 訓練正確率(%) 測試正確率(%). 0.001. 56. 56.12. 0.002. 55.68. 55.52. 0.003. 55.68. 55.36. 0.004. 54.88. 54.4. 0.005. 56.48. 58.4. 0.006. 56.48. 58.4. 0.007. 53.12. 52. 0.008. 52.8. 51.36. 0.009. 57.6. 57.92. 1.2. 1.2 0.1 0.9. 0.1 0.9. 0.8. 0.8. 0.6. 0.6. X2. 1.0. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. 0.2. 0.4. X1. 0.6. 0.8. 1.0. 1.2. X1. Fig. 4.14 PNN 第 B 組訓練資料期望及實際輸出圖(架構 2-10-1) 1.2. 1.2 0.1 0.9. 0.1 0.9. 0.8. 0.8. 0.6. 0.6. X2. 1.0. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. X1. 0.2. 0.4. 0.6. 0.8. 1.0. X1. Fig. 4.15 PNN 第 B 組測試資料期望及實際輸出圖(架構 2-10-1). 32. 1.2.

(43) 接下來使用第 B 組資料於本研究所提出之機制,利用 LMS 演算法針對一個 10 階 多項式進行線性最佳化之模擬。Table 4.14 為第 B 組資料之模擬結果;Fig. 4.16 為第 B 組訓練資料於學習速率 0.1 之期望及實際輸出圖;Fig. 4.17 為第 B 組測試資料於學習 速率 0.1 之期望及實際輸出圖。 Table 4.14 LMS 第 B 組資料之模擬結果(10 階多項式). LMS-10 階 正確率. 學習速率. 訓練正確率. 測試正確率. 92.68%. 91.33%. 0.1. 1.2. 1.2. 0.1 0.9. 0.1 0.9. 1.0. 0.8. 0.8. 0.6. 0.6. x2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 0.0. 1.2. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. x1. X1. Fig. 4.16 LMS 第 B 組訓練資料期望及實際輸出圖(10 階多項式) 1.2. 1.2 0.1 0.9. 1.0. 0.8. 0.8. 0.6. 0.6. x2. X2. 1.0. 0.4. 0.4. 0.2. 0.2. 0.0. 0.0. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. 1.2. 0.0. X1. 0.2. 0.4. 0.6. 0.8. 1.0. x1. Fig. 4.17 LMS 第 B 組測試資料期望及實際輸出圖(10 階多項式). 33. 1.2.

(44) 訊號預測實驗之模擬結果. 4.3. 4.3.1 第 C 組資料之模擬結果 我們使用架構為 3-4-1 之倒傳遞神經網路針對第 C 組資料隨機選取三組初始權值 進行訓練及測試,並列出學習速率設定為 0.1~0.9 時之訓練及測試誤差(MAPE)。Table. 4.15 為第 C 組資料之模擬結果;Fig. 4.18 為第 C 組資料於第 I 組初始權值及學習速率 為 0.1 之訓練與測試誤差曲線圖。 Table 4.15 BP 第 C 組資料之模擬結果(架構 3-4-1) 學習速率. 隨機初始權值 I. 隨機初始權值 II. 隨機初始權值 III. 訓練誤差. 測試誤差. 訓練誤差. 測試誤差. 訓練誤差. 測試誤差. 0.1. 5.0852. 4.7821. 5.1045. 4.8175. 5.0465. 4.7477. 0.2. 4.9138. 5.0311. 5.1424. 4.966. 4.9234. 4.9363. 0.3. 4.9322. 5.0472. 4.9371. 4.9903. 7.4941. 5.2015. 0.4. 4.9404. 5.1618. 4.9355. 5.1673. 4.9382. 5.1698. 0.5. 4.8554. 5.2358. 4.9504. 5.2833. 4.9504. 5.282. 0.6. 4.9178. 5.7487. 4.8915. 5.3011. 4.9675. 5.3805. 0.7. 4.9732. 5.4486. 4.8262. 5.6668. 7.1343. 5.7262. 0.8. 4.7844. 5.8239. 4.9436. 5.4752. 4.7426. 5.7824. 0.9. 5.0021. 5.6797. 5.0006. 5.7219. 4.991. 5.6706. 0.070 Training Test 0.065. MAPE. 0.060. 0.055. 0.050. 0.045. 0.040 0. 100. 200. 300. 400. 500. 600. 700. 800. 900. 1000. epoch. Fig. 4.18 BP 第 C 組資料初始權值 I 訓練與測試誤差曲線圖(架構 3-4-1). 34.

(45) 接下來使用第C組資料於本研究所提出之機制,利用LMS演算法針對一個20階多項 式進行線性最佳化之模擬。Table 4.16為第C組資料之模擬結果;Fig. 4.19第C組資料於學 習速率0.01之訓練與測試誤差曲線圖。. Table 4.16 LMS 第 C 組資料之模擬結果(20 階多項式). LMS-20 階 MAPE. 學習速率. 訓練誤差. 測試誤差. 4.76%. 4.97%. 0.01. 0.08 Training Test 0.07. MAPE. 0.06. 0.05. 0.04. 0.03 0. 100. 200. 300. 400. 500. 600. 700. 800. 900. 1000. epoch. Fig. 4.19 LMS 第 C 組資料訓練與測試誤差曲線圖(20 階多項式). 35.

(46) 4.3.2 第 D 組資料之模擬結果 我們使用架構為 2-3-1 之倒傳遞神經網路針對第 D 組資料隨機打亂之三組資料 (SET1~SET3)進行訓練及測試,並列出學習速率設定為 0.1~0.9 時之訓練及測試誤差 (MAPE)。Table 4.17 為第 D 組資料之模擬結果;Fig. 4.20 為第 D 組資料之 SET1 於學 習速率 0.7 之訓練與測試誤差曲線圖。 Table 4.17 BP 第 D 組資料之模擬結果(架構 2-3-1) 學習速率. SET1. SET2. SET3. 訓練誤差. 測試誤差. 訓練誤差. 測試誤差. 訓練誤差. 測試誤差. 0.1. 1.81994. 2.3664. 1.91885. 1.6918. 1.68523. 2.6367. 0.2. 1.83806. 2.3154. 1.92641. 1.7044. 1.68663. 2.6253. 0.3. 1.83509. 2.3181. 1.93615. 1.6892. 1.69345. 2.6255. 0.4. 1.84362. 2.2973. 1.93801. 1.6945. 1.71282. 2.6202. 0.5. 1.83769. 2.2625. 1.94935. 1.7048. 1.7046. 2.6238. 0.6. 1.83743. 2.2918. 1.95135. 1.6912. 1.72262. 2.6233. 0.7. 1.86271. 2.2563. 1.95079. 1.7321. 1.71717. 2.6237. 0.8. 1.86543. 2.265. 1.9528. 1.6949. 1.72352. 2.6239. 0.9. 1.87301. 2.2685. 1.96739. 1.6985. 1.74545. 2.6225. 5.0 Training Test. 4.5 4.0 3.5. MAPE. 3.0 2.5 2.0 1.5 1.0 0.5 0.0 0. 20. 40. 60. 80. 100. 120. 140. 160. 180. 200. epoch. Fig. 4.20 BP 第 D 組資料 SET1 訓練與測試誤差曲線圖(架構 2-3-1). 36.

(47) 接下來使用第D組資料之SET1~SET3於本研究所提出之機制,利用LMS演算法針對 一個6階多項式進行線性最佳化之模擬。Table 4.18為第D組資料之模擬結果;Fig. 4.21第. D組資料於學習速率0.001之訓練與測試誤差曲線圖。 Table 4.18 LMS 第 D 組資料之模擬結果(6 階多項式). LMS-6 階 學習速率. SET1 訓練誤差 測試誤差. 0.001. 1.80023. SET2 訓練誤差 測試誤差. 2.3385. 1.91154. 1.6927. SET3 訓練誤差 測試誤差 1.67121. 2.6241. 5.0 Training Test. 4.5 4.0 3.5. MAPE. 3.0 2.5 2.0 1.5 1.0 0.5 0.0 0. 20. 40. 60. 80. 100. 120. 140. 160. 180. 200. epoch. Fig. 4.21 LMS 第 D 組資料 SET1 訓練與測試誤差曲線圖(6 階多項式). 37.

(48) 第五章 結論與未來研究方向 局部最小值問題為類神經網路研究中之重點議題。本研究將傳統倒傳遞類神經網 路、多項式神經網路以及所提出之方法分別應用於多筆不同類型之訊號學習上;由第 四章的實驗結果得知,傳統倒傳遞類神經網路與多項式神經網路兩者之結果皆存在落 入局部極小值的問題,而需以多次嘗試錯誤的方式尋找相對較佳之結果,儘管如此, 亦無法驗證是否已得到該系統之最佳解;相較於前述兩種神經網路,本研究所提出之 機制不僅在實際訊號應用上可獲得較佳之表現外,更可明確檢視多項式神經網路於現 存架構中是否已落入局部最小值。因此,本研究提出之機制相信可大大幫助類神經網 路跳脫局部最小值,進而達到網路最佳學習之目的,使得類神經網路於日後之各類實 際應用時更能提升其應用之準確性。 本論文之未來研究方向包含以下兩部分;第一,利用本研究所發展之學習機制與 多項式神經網路間相通之數學關係,回過頭來找出多項式神經網路之最佳化模型。第 二,應用於各類實際訊號以驗證此方法之實用性與一般性,提供從事類神經網路研究 人員一重要之參考指標。. 38.

(49) 參考文獻 [1] S. Chen, S. Billings, and P. Grant, “Non-linear System Identification Using Neural Networks”, International Journal of Control, Vol. 51, pp. 1191-1214, 1990. [2] A. Khotanzad, R. C. Hwang, A. Abaye, and D. Maratukulam, “An Adaptive Modular Artificial Neural Network: Hourly Load Forecaster and Its Implementation at Electric Utilities”, IEEE Transactions on Power Systems, Vol. 10, pp. 1716-1722, 1995. [3] Vermaak J. and Botha E. C., “Recurrent Neural Networks for Short Term Load Forecasting,” IEEE Trans. On Power Systems, Vol. 13, No. 1, pp. 126-132, 1998. [4] B. Zhang, M. Fu, H. Yan, and M. A. Jabri, “Handwritten Digit Recognition by Adaptive-Subspace Self-Organizing Map (ASSOM),” IEEE Trans. on Neural Networks , Vol. 10, No. 4, 1999. [5] C. Wohler and J. K. Anlauf, “An Adaptive Time-Delay Neural-Network Algorithm for Image Sequence Analysis”, IEEE Transactions on Neural Networks, Vol. 10, pp. 1531-1536, 1999. [6] Huang H. C., Hwang R. C. and Hsieh J. G., “A New Artificial Intelligent Peak Power Load Forecaster Based on Non-Fixed Neural Networks,” International Journal of Electrical Power and Energy Systems, Vol. 24, Issue 3, pp. 245-250, March 2002. [7] Sun, Junping, Grosky, William I.; Hassoun, Mohamad H., “Heuristic and Hybrid Methods for Finding he Global Minimum of the Error Function in Artificial Neural Networks”, Modeling and Simulation, Proceedings of the Annual Pittsburgh Conference, Vol. 21, No. Part 2, pp. 521-525, 1990. [8] B. Cetin, J. Burdick, and J. Barhen, “Global Descent Replaces Gradient Descent to Avoid Local Minima Problem in Learning with ANN,” Proceedings of IEEE International Conference on Neural Network, Vol. 2, pp. 836-842, 1993. [9] X. H. Yu and G. A. Chen, “On the Local Minima Free Condition of Backpropagation Learning,” IEEE Transactions on Neural Networks, Vol. 6, pp. 1300-1303, 1995. [10] Shang, Yi, Wah, Benjamin W., “Global Optimization for Neural Network Training”, Computer, Vo. 29, No. 3, pp. 45-54, Mar 1996. [11] Lawrence, Steve, Tsoi, Ah Chung; Giles, C.Lee, “Local Minima and Generalization”, IEEE International Conference on Neural Networks, Vol. 1, pp. 371-376, 1996. [12] D. S. Huang, “The Local Minima-Free Condition of Feedforward Neural Network for Outer-Supervised. Learning,”. IEEE. Transactions 39. on. System,. Man,. and.

(50) Cybernetics-Part B: Cybernetics, Vol. 28, No. 3, pp. 447-480, June 1998. [13] K. Fukumizu and S. I. Amari, “Local Minima and Plateaus in Multilayer Neural Networks,” Artificial Neural Networks, Conference Publication No. 470, pp. 597-602, Sept., 1999. [14] I. Sprinnhuizen-Kuyper and E. Boers, “A Local Minimum for the 2-3-1 XOR Network,” IEEE Transactions on Neural Networks, Vol. 10, No. 4, pp. 968-971, 2002. [15] Erdogmus, Deniz, Fontenla-Romero, Oscar; Principe, Jose C.; Alonso-Betanzos, Amparo; Castillo, Enrique, “Linear-Least-Squares Initialization of Multilayer Perceptrons Through Backpropagation of the Desired Response”, IEEE Transactions on Neural Networks, Vol. 16, No. 2, pp. 325-337, March 2005. [16] Kryzhanovsky, Boris, Magomedov, Bashir; Fonarev, Anatoly, “On the Probability of Finding Local Minima in Optimization Problems”, IEEE International Conference on Neural Networks-International Joint Conference on Neural Networks 2006, p 3243-3248, 2006. [17] Hu, Xiaolin; Wang, Jun, “A Recurrent Neural Network for Solving Nonconvex Optimization Problems”, IEEE International Conference on Neural Networks (IJCNN’06), pp. 4522-4528, 2006. [18] Li, Hong-Ru, Li, Hai-Long, “A Global Optimization Algorithm Based on Filled-Function. for. Neural. Networks”,. Dongbei. Daxue. Xuebao/Journal. of. Northeastern University, Vol. 28, No. 9, pp.1247-1249, September 2007. [19] Cho, Yong-Hyun, Hong, Seong-Jun, “An Efficient Global Optimization of Neural Networks by Using Hybrid Method”, Proceedings of the Frontiers in the Convergence of Bioscience and Information Technologies, FBIT 2007, pp. 807-812, 2007. [20] Atakulreka, Akarachai, Sutivong, Daricha, “Avoiding Local Minima in Feed Forward Neural Networks by Simultaneous Learning”, Advances in Artificial Intelligence 20th Australian Joint Conference on Artificial Intelligence, Lecture Notes in Computer Science, Vol. 4830 LNAI, pp. 100-109, 2007. [21] Hayakawa, Yoshihiro ; Nakajima, Koji, “Parameter Analysis for Removing the Local Minima of Combinatorial Optimization Problems by Using the Inverse Function Delayed Neural Network,” Lecture Notes in Computer Science, Vol. 5506 LNCS, No. PART 1, pp. 875-882, 2009, Advances in Neuro-Information Processing - 15th International Conference, ICONIP 2008. [22] Kryzhanovsky, Boris, Kryzhanovsky, Vladimir, “Binary Optimization: On the Probability of A Local Minimum Detection in Random Search”, Artificial Intelligence 40.

(51) and Soft Computing - ICAISC 2008 -9th International Conference, Lecture Notes in Computer Science, Vol. 5097 LNAI, pp. 89-100,2008. [23] Ninomiya, H., “A Hybrid Global/Local Optimization Technique for Robust Training of Microwave Neural Network Models”, IEEE Congress on Evolutionary Computation, 2009, pp. 2956 – 2962, 18-21 May 2009. [24] 葉怡成, ”類神經網路模式應用與實作, ” 儒林圖書有限公司, 1998. [25] 龔志剛, ”類神經網路於邏輯電路之設計應用, ” 私立義守大學電機工程研究所碩. 士論文,2008. [26] Hagan, Demuth, and Beale, “Neural Network Design,” PWS, 1996. [27] A. J. Patrikar, Neural Network Paradigms for Adaptive Signal Processing and Control, Ph.D. Thesis, Southern Method University, Texas, U.S.A, 1992. [28] 黃銘湖, ”基於 FPGA 架構之主動式噪音控制, ” 國立中央大學機械工程研究所碩. 士論文,2003.. 41.

(52)

數據

Fig. 2.2  門檻函數(Hard limit Function)
Fig. 2.3  S 型函數(Sigmoid Function)  2.1.2  類神經網路架構
Table 4.1  第 A 組資料範例(XOR Gate)  XOR Gate
Table 4.3  第 C 組資料範例  輸入 1  輸入 2  輸入 3  目標輸出 43 59  380815 362134  48 70  362134 404230  46 64  404230 401224  54 61  401224 411852  50 59  411852 411897  48 72  411897 409802  57 70  409802 374141  : : :  :  Table 4.4  第 D 組資料範例  輸入 1  輸入 2  目標輸出 5 65 44
+7

參考文獻

相關文件

Wang, A recurrent neural network for solving nonlinear convex programs subject to linear constraints, IEEE Transactions on Neural Networks, vol..

Wang, Solving pseudomonotone variational inequalities and pseudo- convex optimization problems using the projection neural network, IEEE Transactions on Neural Network,

Then, based on these systematically generated smoothing functions, a unified neural network model is pro- posed for solving absolute value equationB. The issues regarding

Qi (2001), Solving nonlinear complementarity problems with neural networks: a reformulation method approach, Journal of Computational and Applied Mathematics, vol. Pedrycz,

They are suitable for different types of problems While deep learning is hot, it’s not always better than other learning methods.. For example, fully-connected

Pascanu et al., “On the difficulty of training recurrent neural networks,” in ICML, 2013..

Attack is easy in both black-box and white-box settings back-door attack, one-pixel attack, · · ·. Defense

F., “A neural network structure for vector quantizers”, IEEE International Sympoisum, Vol. et al., “Error surfaces for multi-layer perceptrons”, IEEE Transactions on