• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:複合轉換函數神經網路 Hybrid Transfer Function Neural

Networks

系 所 別:資訊管理學系

學號姓名:M09310010 陳重志 指導教授:葉怡成

中華民國 九十六 年 一 月

(2)

摘要 

傳統的倒傳遞網路(BPN)的隱藏層大都採取雙彎曲轉換函數處理單元,傳 統的徑向基底函數網路(RBFN)的隱藏層大都採取高斯型轉換函數處理單元,這 二種架構各有優缺點,適合不同類型的問題。為結合這兩種架構的優點,本文 提出複合轉換函數神經網路(Hybrid Transfer Function Neural Networks,

HTFN),並推導出其學習規則。此網路在同一個隱藏層中同時包含雙彎曲與高 斯型轉換函數的處理單元。為證明此一架構優於傳統的只含雙彎曲轉換函數或 只含高斯型轉換函數處理單元的架構,本研究以五個人為的與五個真實的分類 與迴歸例題進行比較。結果顯示,只含雙彎曲轉換函數或只含高斯型轉換函數 處理單元的架構確實各有擅長處理的問題,而單層隱藏層HTFN 的準確度優於 兩者,印證了在同一個隱藏層中同時包含雙彎曲與高斯型轉換函數的處理單元 可以結合二者優點。

關鍵字:倒傳遞神經網路、半徑基神經網路、轉換函數、雙彎曲函數、高 斯型函數。

(3)

Abstract 

Traditional back-propagation network (BPN) uses Sigmoid function as transformation function of hidden units; on the other hand, radial basis function network (RBFN) uses Gaussian function as transformation function. These two kinds of structure have their own advantages and disadvantages toward solving different problems. In order to combine these two structures’ advantages, the hybrid transfer function neural network (HTFN) is proposed. HTFN has both Sigmoid and Gaussian functions inside the same hidden layer. Experiments with five

human-made problems and five real-world problems were conducted. The results showed that BPN or RBFN has its own advantages and disadvantages toward specific problems, and HTFN surpass both of them. This proved that using both Sigmoid and Gaussian function as transformation functions inside the same hidden layer could combine both transformation functions’ advantages.

Keyword: BPN, RBFN, transformation function, Sigmoid function, Gaussian

function.

(4)

目錄 

論文題目………..i

授權書……….ii

指導教授推薦書………iii

口試委員審定書………....…iv

摘要...v

Abstract ...vi

目錄...vii

圖目錄...ix

表目錄...xi

第一章 前言...1

第一節 研究目的...1

第二節 文獻探討...4

第三節 研究內容...6

第二章 理論推導...7

第一節 神經網路的基本原理...7

第二節 單層隱藏層複合轉換函數網路的演算法推導...8

第三節 二層隱藏層複合轉換函數網路的演算法推導...12

第三章 數值例題...19

第一節 簡介...19

第二節 二維四球分類問題...20

第三節 二維混合分類問題...22

第四節 十維四局部最大迴歸問題...25

(5)

第五節 二維 SIN 函數迴歸問題 ...27

第六節 六維混合型迴歸問題...29

第七節 總結...31

第四章 實際例題...33

第一節 簡介...33

第二節 風險房貸顧客評估...33

第三節 潛在貸款客戶發掘...36

第四節 面板瑕疵判斷...39

第五節 森林地表覆蓋分類...40

第六節 混凝土配方強度預測...43

第七節 總結...45

第五章 結論...48

第六章 參考文獻...50

符號對照表...51

附錄一 單層隱藏層複合轉換函數神經網路...52

附錄二 二層隱藏層複合轉換函數神經網路...55

(6)

圖目錄 

圖 1 倒傳遞網路 (BPN)...2

圖 2 Sigmoid 函數圖形...2

圖 3 徑向基底函數網路(RBFN) ...3

圖 4 Gaussian 函數圖形 ...3

圖 5 開放型分類邊界 ...1

圖 6 封閉型分類邊界 ...1

圖 7 RBPN 網路...5

圖 8 Gaussian-Sigmoid 神經網路...6

圖 9 單層隱藏層複合轉換函數網路 ...9

圖 10 複合轉換函數神經網路於兩層隱藏層 ...14

圖 11 二維四球分類問題原始資料 ...20

圖 12 二維四球分類問題於單層隱藏層的誤判率收斂圖 ...21

圖 13 二維四球分類問題於兩層隱藏層的誤判率收斂圖 ...22

圖 14 二維混合分類問題原始資料 ...23

圖 15 二維混合分類問題於單層隱藏層的誤判率收斂圖 ...24

圖 16 二維混合分類問題於二層隱藏層的誤判率收斂圖 ...24

圖 17 十維四局部最大迴歸問題於單層隱藏層的誤差均方根收斂圖 ...26

圖 18 十維四局部最大迴歸問題於二層隱藏層的誤差均方根收斂圖 ...26

圖 19 二維 SIN 函數迴歸問題...27

圖 20 二維 SIN 函數迴歸問題實驗於單層隱藏層的誤差均方根收斂圖...28

圖 21 二維 SIN 函數迴歸問題實驗於二層隱藏層的誤差均方根收斂圖...28

圖 22 六維混合型迴歸問題實驗於單層隱藏層的誤差均方根收斂圖 ...30

(7)

圖 23 六維混合型迴歸問題實驗於二層隱藏層的誤差均方根收斂圖 ...30

圖 24 實驗範例綜合比較 ...32

圖 25 風險房貸顧客評估於單層隱藏層的誤判率收斂圖 ...35

圖 26 風險房貸顧客評估於二層隱藏層的誤判率收斂圖 ...35

圖 27 潛在貸款客戶發掘於單層隱藏層的誤判率收斂圖 ...38

圖 28 潛在貸款客戶發掘於二層隱藏層的誤判率收斂圖 ...38

圖 29 面板瑕疵判斷於單層隱藏層的誤判率收斂圖 ...39

圖 30 面板瑕疵判斷於二層隱藏層的誤判率收斂圖 ...40

圖 31 森林地表覆蓋分類於單層隱藏層的誤判率收斂圖 ...42

圖 32 森林地表覆蓋分類於二層隱藏層的誤判率收斂圖 ...43

圖 33 混凝土配方強度預測於單層藏層的誤差均方根收斂圖 ...44

圖 34 混凝土配方強度預測於二層隱藏層的誤差均方根收斂圖 ...45

圖 35 實際例題綜合比較 ...47

(8)

表目錄 

表 1 二維四球分類問題最佳實驗結果 ...22

表 2 二維混合分類問題最佳實驗結果 ...25

表 3 十維四局部最大迴歸問題最佳實驗結果 ...27

表 4 二維 SIN 函數迴歸問題最佳實驗結果...29

表 5 六維混合型迴歸問題最佳實驗結果 ...29

表 6 實驗例題比較總結 ...31

表 7 實驗例題效果排名 ...31

表 8 風險房貸顧客評估變數表 ...34

表 9 風險房貸顧客評估最佳實驗結果 ...34

表 10 潛在貸款客戶發掘最佳實驗結果 ...36

表 11 潛在貸款客戶發掘變數表 ...37

表 12 面板瑕疵判斷最佳實驗結果 ...40

表 13 森林地表覆蓋分類的輸入變數 ...41

表 14 森林地表覆蓋分類的覆蓋類型 ...42

表 15 森林地表覆蓋分類最佳實驗結果 ...43

表 16 混凝土配方強度預測變數表 ...44

表 17 混凝土配方強度預測最佳實驗結果 ...45

表 18 實際例題比較總結 ...46

表 19 實際例題效果評比 ...46

表 20 各種網路評比:相對誤差法 ...49

表 21 各種網路評比:排序法 ...49

(9)

第一章 前言 

第一節 研究目的

傳統上常用統計學的方法做為建構分類或迴歸模型的依據,例如判別分析、

迴歸分析,這些方法在許多問題上都具有不錯的效果。然而在面對許多複雜的問 題時,這些方法仍有不足,最主要的原因是傳統統計學方法對於非線性系統以及 變數間有交互作用的系統較難適用(葉怡成, 2006)。

近年來神經網路已被視為非常有效的非線性模型建構工具。神經網路是由許 多人工神經元(artificial neuron)所組成,人工神經元又稱處理單元(processing element)。每一個處理單元的輸出,成為許多處理單元的輸入。一個神經網路是 由許多個人工神經元與其連結所組成,並且可以組成各種網路模式。其中以倒傳 遞網路(Back-Propagation Network,BPN)應用最普遍。一個 BPN 包含許多層,

每一層包含若干個處理單元(圖 1)。輸入層處理單元用以輸入外在的環境訊息,

輸出層處理單元用以輸出訊息給外在環境。此外,另包含一重要之處理層,稱為 隱藏層(hidden layer),隱藏層提供神經網路各神經元交互作用,與問題的內在 結構處理能力。

介於處理單元間的訊號傳遞路徑稱為連結(connection)。每一個連結上有一 個數值的加權值W ,用以表示第 i 處理單元對第 j 個處理單元之影響強度。處ij 理單元其輸出值與輸入值之間的關係式,一般可用輸入值的加權乘積和之函數來 表示,公式如下:

) (

i

j i ij

j f W X

Y (1) 其中

的閥值。

模仿生物神經元的模型

輸入訊號。

模仿生物神經元模型的

加權值 神經節強度,又稱連結

模仿生物神經元模型的

轉換函數。

模仿生物神經元模型的

輸出訊號。

模仿生物神經元模型的

j i ij j

X W f Y

(10)

倒傳遞網路的轉換函數通常是一個具有雙向彎曲的Sigmoid 函數(圖 2)(葉 怡成, 2006):

Y x

exp 1

1 (2a)

Sigmoid 函數既包含了線性的部份,亦有非線性的部份,因此對於線性與非 線性模型都有良好的建構能力,所以BPN 常採用它做為轉換函數。

圖 1 倒傳遞網路 (BPN)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-6 -4 -2 0 2 4 6

1/(1+exp(-x))

x

圖 2 Sigmoid 函數圖形

除了倒傳遞網路,徑向基底函數網路 (Radial Basis Function Network, RBFN) X1 X2………Xm

(11)

(圖 4)亦經常被採用,它常採用 Gaussian 函數(圖 4)做為轉換函數:

) exp( x2

Y (2b)

圖 3 徑向基底函數網路(RBFN)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-3 -2 -1 0 1 2 3

exp(-x*x)

x

圖 4 Gaussian 函數圖形

這兩種轉換函數在處理各種分類問題上各有擅長。一般而言,Sigmoid 函數 對於開放型分類邊界較能夠配適(圖 5);Gaussian 函數則對封閉型的分類邊界較 能配適(圖 6)。

X

1

X

2

………X

m

(12)

然而,在真實狀況下並無法預知分類問題的分類邊界型態,因此無法預知倒 傳遞網路(BPN)與徑向基底網路(RBFN)何者較適用。甚至一個分類問題可能同時 混合兩種分類邊界,可能兩者都不是十分適合。為結合這兩種架構的優點,本文 提出複合轉換函數神經網路(Hybrid Transfer Function Neural Networks, HTFN),它 在同一個隱藏層中同時包含雙彎曲與高斯型轉換函數的處理單元,並推導出其學 習規則。

第二節 文獻探討

Hecht-Nielsen (1989)指出倒傳遞網路最早是由 Bryson 與 Ho 在 1969 年所提 出,亦在1974 年被 Paul Werbos 所重新發掘其初步數學概念。而在 1986 年由 David E. Rumelhart、Geoffrey E. Hinton 與 Ronald J. Williams 加以調整、改進而成的多 層監督式類神經網路(Rumelhart, et al.,1986)。經由 le Chun 與 Yunn 於 1988 年所 提出的報告,Bryson 與 Ho 對於 BPN 的研究才能夠被發掘出來。在 BPN 演算法 的演進中,最值得注意的是以Sigmoid 作為轉換函數的發現。雖然在 1982 年 Grossberg 已經提出以 Sigmoid 來處理類神經網路的技術,但被 BPN 所採用則是 要到1983 年 Williams 對於感知網路的應用才有其端倪,到此 BPN 演算法的建立 與設定達到一定的成熟期,其效果也更為顯著 (Hecht-Nielsen, 1989)。

Radial Basis Function Network (RBFN) 與 BPN 相似,同樣是多層監督式學習 的類神經網路。RBFN 是 Moody 與 Darken 在 1989 年所提出的(Moody and Darken,

圖 5 開放型分類邊界 圖 6 封閉型分類邊界

(13)

1989)。其隱藏層採用 k-means 的演算公式來算出輸入層中各中心數值,然後利 用最近鄰居法則找出每個處理單元中高斯函數中寬度的適當大小,並以線性迴歸 方式連接處理單元以及輸出結果。Gaussian 函數則針對各個隱藏層模擬輸入層與 輸出層中的交互演算。RBFN 的困難,在於選擇隱藏層的數目以及型心的中心點 以及寬度(Carse, et al., 1995)。RBFN 在模式鑑別、時間序列預測以及故障診斷等 領域都有廣泛的應用(Whitehead and Choate, 1996)。

為了結合上述二種神經網路的優點,一些複合式的結構被提出。例如,

RBPN(Radical Basis Perception Network)(圖 7)是在 RBFN 的基礎上,加入使用線 性函數與單步函數的第二層隱藏層,來改進原有的網路(Han and Xi, 2002)。結果 顯示,在預測建築物物料成份的問題上有不錯的效果,然在學習速率上仍有許多 問題尚須克服。

圖 7 RBPN 網路

……

X1 X2 ……….……...Xm

(14)

Gaussian-Sigmoid 神經網路(圖 8)則是在 RBFN 的基礎上,加入使用 Sigmoid 函數的第二層隱藏層,來改進原有的網路(Shibata and Ito, 1999)。結果顯示,此 網路不但具有RBFN 的優點,亦有 BPN 的優點。但是這種演算法的最大問題,

在於當有很大的輸入層時,會影響整體的表現與結果。而這樣的問題與一般 RBFN 網路所遇到的問題是一樣的。

圖 8 Gaussian-Sigmoid 神經網路

第三節 研究內容

為結合BPN 與 RBFN 這兩種架構的優點,本文提出複合轉換函數神經網路 (Hybrid Transfer Function Neural Networks, HTFN),並推導出其學習規則。此網路 在同一個隱藏層中同時包含雙彎曲與高斯型轉換函數的處理單元。為證明此一架 構優於傳統的只含Sigmod 轉換函數或只含 Gaussian 轉換函數處理單元的架構,

本研究以五個人為的與五個真實的分類與迴歸例題進行比較。

本文第二節將推導HTFN 的學習規則,第三節則以五個人為的分類與迴歸例 題進行比較,第四節則以五個實際的分類與迴歸例題進行比較,第五節將對整體 研究做總結。

X1 X2 ………...………...Xm

(15)

第二章 理論推導 

第一節 神經網路的基本原理

在推導HTFN 神經網路學習規則之前,先簡介 BPN 神經網路的基本原理如 下(葉怡成, 2006):

1. 前向傳播 (回想階段)

應用訓練範例的輸入變數值計算隱藏層處理單元的輸出值:

) exp(

1 ) 1 (

k k

k

f net net

H

(4)

k i

i ik

k W X

net (5)

其中H 為隱藏層第 k 個單元的輸出值;k net 為隱藏層第 k 個單元的淨值; f 為k 轉換函數;X 為第 i 個輸入單元的值;i W 為第 i 個輸入單元與第 k 個隱藏層單ik 元間的連結強度; k為隱藏層的第 k 個單元的門限值。

應用隱藏層處理單元的輸出值計算輸出層處理單元的輸出值:

) exp(

1 ) 1 (

j j

j

f net net

Y

(6)

j k

k kj

j W H

net (7)

其中Y 為輸出層第 j 個單元的輸出值;j net 為輸出層第 j 個輸出單元的淨值; f 為j 轉換函數;W 為第 k 個隱藏層單元與第 j 個輸出層單元間的連結強度;kj j為輸 出層第 j 個單元的門限值。

2. 後向傳播 (學習階段)

比較網路所推得的「推論輸出值」與訓練範例原有的「目標輸出值」可得網 路誤差,類神經網路依照此誤差作為修正連結中的加權值的依據。因為監督式學 習旨在降低網路輸出單元目標輸出值與推論輸出值之差距,所以一般以下列誤差 函數(或稱能量函數)表示學習的品質:

(16)

2

2 1

j

j Y

T

E (8)

其中T 為訓練範例輸出層第 j 個輸出單元的目標輸出值;j Y 為訓練範例輸出層第j j 個輸出單元的推論輸出值。

神經網路學習的目的為修正網路上的加權值,使網路誤差函數達到最小值。

當每輸入一個訓練範例,網路即小幅調整連結加權值的大小。調整的幅度和誤差 函數對該加權值的敏感程度成正比,即與誤差函數對加權值的偏微分值大小成正 比:

W

W E (9)

其中 稱為學習速率(learning rate),控制每次加權值修改的幅度。

第二節 單層隱藏層複合轉換函數網路的演算法推導

1. 前向傳播 (回想階段)

單層隱藏層的複合轉換函數網路(圖 9)在隱藏層同時有 Sigmoid 與 Gaussian 兩種處理單元,而在輸出層採用Sigmoid 處理單元。

(1) 計算隱藏層輸出向量{H1,H2,H3,...}

) exp(

1 ) 1 (

1 1

1

k k

k

f net net

H

(10)

1 1

1 k

i

i ik

k W X

net k1 1,2,...,Nsigmod (11) 其中H 為隱藏層的第 k1 個 Sigmoid 單元的輸出值;k1 net 為隱藏層的第 k1 個k1 Sigmoid 單元的淨值;W 為第 i 個輸入單元與隱藏層的第 k1 個 Sigmoid 單元間ik1 的連結強度; k1為隱藏層的第 k1 個 Sigmoid 單元的門限值。

) exp(

)

(

2 2

2 k k

k

f net net

H

(12)

i

ik i i k k

i

ik i i

k Q V X W

W X V

net 2 22 2 2 2

2

2 2 2

2 ( )

) (

Gauss

N

k2 1,2,..., (13) 其中Hk2為隱藏層的第 k2 個 Gaussian 單元的輸出值;netk22 為隱藏層的第 k2 個

(17)

Gaussian 單元的淨值;Wik2為第 k2 個 Gaussian 單元的核的第 i 個輸入變數的中 心值;V 為第 i 個輸入變數的加權值,代表輸入變數的重要程度;i k2為第 k2 個 Gaussian 單元的核的半徑;Q 為第 k2 個 Gaussian 單元的核的半徑的倒數,採k2 用倒數的原因是為了避免直接使用半徑的平方時,可能出現分母為0 的問題。

(2) 計算推論輸出向量{Y1,Y2,Y3,...}

) exp(

1 ) 1 (

j j

j

f net net

Y

(14)

j k

k kj

j W H

net (15)

其中H 為隱藏層的第 k 個隱藏單元的輸出值;k net 為輸出層的第 j 個單元的淨j 值;Y 為第 j 個輸出單元的輸出值;j W 為隱藏層的第 k 單元與輸出層第 j 個單元kj 間的連結強度; j為輸出層第 j 個單元的門限值。

圖 9 單層隱藏層複合轉換函數網路 X1 X2 ………...Xm

Yj

……

(18)

2. 後向傳播 (學習階段)

(1) 隱藏層與輸出層之間的處理

網路輸出層與隱藏層間之連結加權值之修正量可用偏微分的連鎖率(chain rule)得到:

kj j j

kj

kj W

net net

E W

W E (16)

其中

kj kj

j

W W

net

k j k

k

kjH H

W )

(

(17)

j j j

j net

Y Y

E net

E (18)

j

j Y

Y

E )

2

(1 Tj Yj 2 (Tj Yj)

(19) ' '

)) (

( j j j

j j

j f net f net f

net net

Y

(20) 將(19)(20)代入(18)得

) '

( j j j

j

f Y net T

E

(21)

定義

' j j j

j T Y f (22) 則

j

netj

E

(23)

將(17)(23)代入(16)得

k j k

j

kj H H

W ( ) (24)

同理,輸出單元的門限值修正量:

j j

j

E (25)

(2) 輸入層與隱藏層之間的處理

(19)

使用Sigmoid 為轉換函數的隱藏單元:

ik k k ik

ik W

net net

E W

W E (26)

其中

i ik

k X

W

net (27)

' '

' ( ) k

j kj j k

j

kj j k

j k

j j

k k k k

f W f

W H f

net net

E net

H H

E net

E

(28) 定義

' k j

kj j

k

W f

(29) 則

k

netk

E

(30)

i k i k

ik X X

W ( ) (31)

同理,隱藏層單元的門檻限制值修正量:

k k

k

E (32)

使用Gaussian 為轉換函數的隱藏單元:

ik k k

ik

ik W

net net

E W

W E (33)

k

netk

E (34)

)) (

2

2(

2

ik i i

k ik

k Q V X W

W

net (35)

代入上式得

) (

2

)) (

2 ( )

(

2 2

2 2

ik i i k k

ik i i

k k ik

W X V Q

W X V

Q

W (36)

同理, Q 計算方式如下: k

(20)

k k k k

k Q

net net

E Q

Q E (37)

k

netk

E (38)

i

ik i i k k

k Q V X W

Q

net 2 2

) (

2 (39)

代入上式得

i

ik i i k k

i

ik i i k k k

W X V Q

W X V Q Q

2 2

2 2

) (

2

) (

2 ) (

(40)

同理, V 計算方式如下: i

i k

k k

i

i V

net net

E V

V E (41)

k

netk

E (42)

2 22 i( i ik)

k i

k Q V X W

V

net (43)

代入上式得

k

ik i i k k

k

ik i i k j i

W X V Q

W X V Q V

2 2

2 2

) (

2

) (

2 )

(44)

上述單層隱藏層的HTFN 演算法整理如附錄 1 所示。

第三節 二層隱藏層複合轉換函數網路的演算法推導

1. 前向傳播 (回想階段)

二層隱藏層的複合轉換函數網路(圖 10)在隱藏層同時有 Sigmoid 與 Gaussian 兩種處理單元,而在輸出層採用Sigmoid 處理單元。

(1) 計算第一層隱藏層輸出向量

{ L

1

, L

2

, L

3

,...}

) exp(

1 ) 1 (

1

1 l

l

f net

L

(45)

(21)

1 1

1 l

i

i il

l W X

net l1 1,2,...,Nsigmod1 (46) 其中L 為第一隱藏層的第 l1 個 Sigmoid 單元的輸出值;l1 net 為第一隱藏層的第l1 l1 個 Sigmoid 單元的淨值;X 為第 i 個輸入單元;i W 為第 i 個輸入單元與第一il1 隱藏層的第 l1 個 Sigmoid 單元間的連結強度; l1為第一隱藏層的第 l1 個單元的 門限值。

) exp(

)

(

2 2

2 l l

l

f net net

L

(47)

i

il i i l

l Q V X W

net2 22 2( 2)2 l2 1,2,...,NGauss1 (48) 其中L 為第一隱藏層的第 l2 個 Gaussian 單元的輸出值;l2 netl22 為第一隱藏層的 第 l2 個 Gaussian 單元的淨值;W 為第一隱藏層的第 l2 個 Gaussian 單元的核的il2 第 i 個輸入變數的中心值;V 為第 i 個輸入變數的重要性加權值;i Q 為第一隱l2 藏層的第 l2 個 Gaussian 單元的核的半徑的倒數。

(2) 計算第二層隱藏層輸出向量{H1,H2,H3,...}

) exp(

1 ) 1 (

1 1

1

k k

k

f net net

H

(49)

1 1

1 k

l

l lk

k W L

net k1 1,2,...,Nsigmod2 (50) 其中H 為第二隱藏層的第 k1 個 Sigmoid 單元的輸出值;k1 net 為第二隱藏層的k1 第 k1 個 Sigmoid 單元的淨值;W 為第一隱藏層的第 l 個單元與第二隱藏層的第lk1 k1 個單元間的連結強度; k1為第二隱藏層的第 k1 個單元的門限值。

) exp(

)

(

2 2

2 k k

k

f net net

H

(51)

l

lk l l k

k Q V L W

net 2 22 2( 2)2 k2 1,2,...,NGauss2 (52) 其中Hk2為第二隱藏層的第 k2 個 Gaussian 單元的輸出值;netk22 為第二隱藏層的 第 k2 個 Gaussian 單元的淨值;Wlk2為第二隱藏層的第 k2 個 Gaussian 單元的核的 第一隱藏層的第 l 個變數的中心值;V 為第一隱藏層的第 l 個變數的重要性加權l

(22)

值;Q 為第二隱藏層的第 k2 個 Gaussian 單元的核的半徑的倒數。 k2 (2) 計算推論輸出向量{Y1,Y2,Y3,...}

) exp(

1 ) 1 (

j j

j

f net net

Y

(53)

j k

k kj

j W H

net (54)

其中H 為第二隱藏層的第 k 個單元的輸出值;k net 為輸出層的第 j 個單元的淨j 值;Y 為第 j 個輸出單元的輸出值;j W 為第二隱隱藏層的第 k 單元與輸出層第 jkj 個單元間的連結強度; j為輸出層第 j 個單元的門限值。

圖 10 複合轉換函數神經網路於兩層隱藏層 X1 X2 ………Xm

……

Yj

……

(23)

2. 後向傳播 (學習階段)

(1) 第二層隱藏層與輸出層之間的處理

其推導過程與單層隱藏層網路相同,在此不加贅述,其公式如下:

k k

kj H

W (55)

j

j (56)

(2) 第一隱藏層與第二層隱藏層間的處理

使用Sigmoid 為轉換函數的隱藏單元:

lk

lk W

W E

lk k

k W

net net

E (57)

其中

l lk

k L

W

net (58)

k

netk

E (59)

l k l

k

lk L L

W ( ) (60)

同理,隱藏層單元的門檻限制值修正量:

k k

k

E (61)

使用Gaussian 為轉換函數的隱藏單元:

lk k k

lk

lk W

net net

E W

W E (62)

k

netk

E (63)

)) (

2

2(

2

lk l l

k lk

k Q V L W

W

net (64)

代入上式得

) (

2

)) (

2 ( )

(

2 2

2 2

lk l l k k

lk l l

k k lk

W L V Q

W L V

Q

W (65)

(24)

同理, Q 計算方式如下: k

k k k k

k Q

net net

E Q

Q E (66)

k

netk

E (67)

l

lk l l k k

k Q V L W

Q

net 2 2

) (

2 (68)

代入上式得

l

lk l l k k

l

lk l l k k k

W L V Q

W L V Q Q

2 2

2 2

) (

2

) (

2 ) (

(69)

同理, V 計算方式如下: l

k l

k k l

l V

net net

E V

V E (70)

k

netk

E (71)

2 22 l( l lk)

k l

k Q V L W

V

net (72)

代入上式得

k

lk l l k k

k

lk l l k k l

W L V Q

W L V Q V

2 2

2 2

) (

2

) (

2 ) (

(73)

(3) 輸入層與第一層隱藏層間的處理

使用Sigmoid 為轉換函數的隱藏單元:

il l l il

il W

net net

E W

W E (74)

其中

(25)

i il

l X

W

net (75)

k l

l l

k k

l net

L L net net

E net

E (76)

k

netk

E (77)

lk l

k W

L

net (78)

' l l

l f

net

L (79)

代入上式得

k

l lk k l

f net W

E ( ) ' l'

k lk

kW f (80)

' l k

lk k

l W f (81)

l

netl

E (82)

i l i l

il X X

W ( ) (83)

同理,隱藏層單元的門檻限制值修正量:

l l

l

E (84)

使用Gaussian 為轉換函數的隱藏單元:

il l l il

il W

net net

E W

W E (85)

net l

E (86)

(26)

)) (

2

2(

2

il i i

l il

l Q V X W

W

net (87)

代入上式得

Wil ( l) Ql2Vi2( 2(Xi Wil)) 2 lQl2Vi2(Xi Wil) (88) 同理, Q 計算方式如下: l

l l l l

l Q

net net

E Q

Q E (89)

l

netl

E (90)

i

il i i l l

l Q V X W

Q

net 2 2

) (

2 (91)

代入上式得

i

il i i l l

i

il i i l l l

W X V Q

W X V Q Q

2 2

2 2

) (

2

) (

2 ) (

(92)

同理, V 計算方式如下: i

l i

l l i

i V

net net

E V

V E (93)

l

netl

E (94)

2 22 i( i il)

l i

l Q V X W

V

net (95)

代入上式得

l

il i i l l

l

il i i l l i

W X V Q

W X V Q V

2 2

2 2

) (

2

) (

2 ) (

(96)

上述二層隱藏層的HTFN 演算法整理如附錄 2 所示。

(27)

第三章 數值例題  第一節 簡介

本節以五個人為設計的題目進行實驗,以比較HTFN 相對於 BPN 與 RBFN 的效能。為了檢驗學習的效果,將範例隨機分成二個部份,一部分做訓練範例,

一部分做驗證範例。在網路學習階段,可每學習幾個訓練循環即將驗證範例載入 網路,測試網路的誤差是否收斂。網路的誤差可用下列二種基準:

1. 誤判率 (Error Rate)

分類型問題之網路誤差程度可用誤判率來檢核之:

誤判率=

範例總數

正判範例數

範例總數 -

(97)

其中正判範例是指範例中,其「推論輸出值」最大的輸出單元,與「目標輸 出值」最大的輸出單元是同一個之範例。

2. 誤差均方根 (Root of Mean Square,RMS)

迴歸型問題之網路誤差程度可用誤差均方根來檢核之:

誤差均方根=

N M

Y T

N

j M

p

jp jp

2

(98)

其中T 為第 p 個範例的第 j 個輸出單元之目標輸出值;jp Y 為第 p 個範例的jp 第 j 個輸出單元之推論輸出值; M 為範例數目;

N

為輸出處理單元的數目。

網路的參數設定原則如下:

1. 隱藏層處理單元數目

本研究以嘗試錯誤方式先決定 BPN 的最佳隱藏層處理單數目,為了比較的 一致性,其餘二種網路也採用相同的數目。而在兩層隱藏層時,則以單層隱藏層 處理單元的數目做為第二層隱藏層處理單元的數目。在 HTFN 的隱藏層中有 Sigmoid 與 Gaussian 二種處理單元,經過反覆的測試之後,發現 Sigmoid 與 Gaussian 的比例約為 3:1 時有較佳的效能。

2. 學習速率

採用在每一個訓練循環完畢即將學習速率乘以一個小於1.0 的係數(例如

(28)

0.95)的方式,逐漸縮小學習速率,但不小於預設的學習速率下限值。本研究在 Sigmoid 處理單元方面,「迴歸型」問題:初始值=5.0,折減係數=0.95,下限值

=0.1;「分類型」問題:初始值=1.0,折減係數=0.95,下限值=0.1。經過反覆的 測試之後,發現在Gaussian 處理單元方面,學習速率為 Sigmoid 的 1/10 會有較 好的成效。

3. 慣性因子

慣性因子與學習速率一樣,採用逐漸縮小方式。本研究初始值=0.5,折減係 數=0.95,下限值=0.1。

第二節 二維四球分類問題

本研究首先針對封閉型的例題,對上述三種網路進行比較。本研究設計了一 個具有完全封閉分類邊界的「二維四球分類問題」,其分類公式如下:

x 0 . 25

2

y 0 . 25

2

0 . 2

x 0 . 75

2

y 0 . 25

2

0 . 2

2

. 0 75 . 0 25

.

0

2

y

2

x

x 0 . 75

2

y 0 . 75

2

0 . 2

則屬第一類,否則為第二類。 (99)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

y

x

圖 11 二維四球分類問題原始資料

(29)

在值域

0 x 1

,

0 y 1

的範圍內,以隨機取點方式取得300 筆訓練資料,

200 筆測試資料。此問題的範例分佈狀況如圖 11 所示,其中屬第一類的範例形 成各自以(0.25, 0.25),(0.25, 0.75),(0.75, 0.25),(0.75, 0.75)為中心點,半徑為 0.2 的四個完全封閉的圓形。屬於第二類的範例則是分佈於四個圓形以外的地方。

本例題的第一、第二隱藏層的處理單元數目都採用8 個。單層隱藏層的誤判 率的收斂狀況如圖 12。可知 BPN 收斂最慢,所得到的準確度居中。RBFN 收斂 最快,但所得到的準確度最差。HTFN 收斂速度略慢於 RBFN,但遠快於 BPN,

所得到的準確度最佳。可見HTFN 整合了 RBFN 的收斂快速與 BPN 模型準確的 優點,表現最佳。

二層隱藏層的誤判率的收斂狀況如圖 13。可知三者在兩層隱藏層時,收斂 結果都遠比單層隱藏層時差很多。其中HTFN 在學習後期準確度大幅提高,但收 斂狀況不穩定。

表 1 顯示本例題在整個收斂過程的最佳結果。可知無論在單層或二層隱藏 層,HTFN 均遠優於 BPN 與 RBFN。在單層隱藏層時,HTFN 的誤判率只有 BPN 的1/4 左右,誤差均方根只有 1/2 左右。採取兩層隱藏層的時候,三種演算法所 得到的結果都比採用單層隱藏層時來得差,約為原來的2~4 倍。

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

證範例誤判率

學 習循 環

BPN HTFN RBFN

圖 12 二維四球分類問題於單層隱藏層的誤判率收斂圖

(30)

0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

驗證範例誤判率

學習循環

BPN HTFN RBFN

圖 13 二維四球分類問題於兩層隱藏層的誤判率收斂圖

表 1 二維四球分類問題最佳實驗結果

單層隱藏層 兩層隱藏層

演算法

比較方式 BPN HTFN RBFN BPN HTFN RBFN 驗證誤判率 0.214 0.049 0.28 0.456 0.219 0.386 驗證誤差均方根 0.393 0.205 0.429 0.5 0.399 0.464

第三節 二維混合分類問題

接下來本研究針對混合封閉與開放分類邊界的問題作比較。本研究設計了一 個具有圓形(封閉)與拋物線形(開放)分類邊界的問題,如圖 14 所示。其分類公式 如下:

x

2

y

2

1

(

x 2

x 2 y x 2

)

則屬第一類,否則為第二類 (100)

在值域

1 . 25 x 3

,

1 . 25 y 1 . 25

的範圍內,以隨機取點方式取得300 筆訓

(31)

練資料,200 筆測試資料。此問題的範例分佈狀況如圖 14 所示,其中屬第一類 的範例在左方的圓形與右方的開口朝右的拋物線形內;屬於第二類的範例則是分 佈於它們以外的地方。

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

-1 -0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.8 1

y

x

圖 14 二維混合分類問題原始資料

本例題的第一、第二隱藏層的處理單元數目都採用8 個。單層隱藏層的誤判 率的收斂狀況如圖 15。可知 BPN 收斂最慢,但所得到的準確度略高於另外二種 網路。HTFN 收斂速度與 RBFN 一樣都遠快於 BPN,而且所得到的準確度略高 於RBFN。可見 HTFN 整合了 RBFN 的收斂快速與 BPN 模型準確的優點。

二層隱藏層的誤判率的收斂狀況如圖 16。BPN 初期收斂最慢,最後得到的 準確度略低於HTFN。RBFN 幾乎不收斂。HTFN 初期收斂速度遠快於 BPN,中 間有一段不穩定的學習過程,但最後仍穩定收斂,且最終準確度略高於BPN。

表2 顯示本例題在整個收斂過程的最佳結果。可知單層 HTFN 優於其他網 路,二層RBFN 遠差於其他網路,其餘網路差距不大。

(32)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

驗證範例誤判率

學習循環

BPN HTFN RBFN

圖 15 二維混合分類問題於單層隱藏層的誤判率收斂圖

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

驗證範例誤判率

學習循環

BPN HTFN RBFN

圖 16 二維混合分類問題於二層隱藏層的誤判率收斂圖

(33)

表 2 二維混合分類問題最佳實驗結果

單層隱藏層 兩層隱藏層

演算法

比較方式 BPN HTFN RBFN BPN HTFN RBFN 驗證誤判率 0.045 0.050 0.055 0.050 0.030 0.320 驗證誤差均方根 0.148 0.148 0.149 0.13 0.11 0.264

第四節 十維四局部最大迴歸問題

接下來本研究針對封閉型迴歸問題作比較。本研究設計了一個十維,具有四 個局部最大點的迴歸問題。其迴歸公式如下:

8 16 16

16

4 3

2 1

3 2

4

d d

d d

e e

e e

y

(101)

其中

d

1

x

1

1

2

x

9

1

2

4 x

6

1

2 (102)

2 8 2 4 2 5

2

4 x 1 x 1 x 1

d

(103)

2 10 2 3 2 7

3

2 x 1 2 x 1 x 1

d

(104)

2 4 2 1 2 2

4 4 x 1 4 x 1 x 1

d (105)

由函數公式可知,此函數在

d

1

d

2d 、3

d

4等於0 時為局部最大點。在值 域 2 xi 2, i=1,2,...,10 的範圍內,以隨機取點方式取得 300 筆訓練資料,200 筆測試資料。

本例題的第一、第二隱藏層的處理單元數目都採用10 個。單層隱藏層的誤 判率的收斂狀況如圖 17。可知在這個問題上,HTFN 與 BPN 沒有顯著差距,二 者均遠優於RBFN,其誤差均方根只有 BPN 的 3/4 左右。

二層隱藏層的誤判率的收斂狀況如圖 18。可知在這個問題上,HTFN 與 BPN 沒有顯著差距,二者均優於RBFN,其誤差均方根只有 RBFN 的 1/4 左右。

表3 顯示本例題在整個收斂過程的最佳結果。可知單層 HTFN 與單層 RBFN 表現最佳。值得注意的是,RBFN 在二層隱藏層下遠比單層下差,相差達 4 倍之 多,與其他方法在兩層隱藏層下只比單層下略差一些有極大的不同。

(34)

0 0.05 0.1 0.15 0.2 0.25

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

差均方

學習循環

BPN HTFN RBFN

圖 17 十維四局部最大迴歸問題於單層隱藏層的誤差均方根收斂圖

0 0.05 0.1 0.15 0.2 0.25

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

差均方

學習循環

BPN HTFN RBFN

圖 18 十維四局部最大迴歸問題於二層隱藏層的誤差均方根收斂圖

(35)

表 3 十維四局部最大迴歸問題最佳實驗結果

單層隱藏層 兩層隱藏層

演算法

比較方式 BPN HTFN RBFN BPN HTFN RBFN 驗證誤差均方根 0.026 0.018 0.019 0.026 0.029 0.126

第五節 二維 SIN 函數迴歸問題

接下來以一開放迴歸的例題作比較。二維SIN 函數迴歸問題(Chen and Chang, 1996)是一個封閉型的預測問題,其公式如下:

1 2

sin sin

5 x

12

x

2

y

(106)

其函數曲面如圖 19。在值域

0 . 8 x

1

0 . 7

0 . 8 x

2

0 . 7

的範圍內,以隨機 取點方式取得300 筆訓練資料,200 筆測試資料。

-0.6-0.8 -0.2-0.4 0.2 0 0.6 0.4 -0.8-0.6

-0.4-0.2 0 0.2

0.40.6 -4

-2 0 2 4 6 8

x2 x1

圖 19 二維 SIN 函數迴歸問題

本例題的隱藏層的處理單元數目都採用20 個。單層隱藏層的誤判率的收斂 狀況如圖 20。可知 BPN 初期收斂最慢,但是最終可以得到與 HTFN 一樣好的結 果。RBFN 初期收斂很快,但隨之停滯不前,所得到的準確度最差。HTFN 初期 收斂速度與RBFN 一樣,都遠快於 BPN,且最終可以得到與 BPN 一樣好的結果。

可見HTFN 整合了 RBFN 的收斂快速與 BPN 模型準確的優點,表現最佳。

二層隱藏層的誤判率的收斂狀況如圖 21。與單層隱藏層的情形十分相似,

只是BPN 的最終結果略優於 HTFN。可見 HTFN 整合了 RBFN 的收斂快速與 BPN 模型準確的優點。

(36)

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

差均方

學習循環

BPN HTFN RBFN

圖 20 二維 SIN 函數迴歸問題實驗於單層隱藏層的誤差均方根收斂圖

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 0.22

0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000

差均方

學習循環

BPN HTFN RBFN

圖 21 二維 SIN 函數迴歸問題實驗於二層隱藏層的誤差均方根收斂圖

(37)

表 4 顯示本例題在整個收斂過程的最佳結果。可知三者之中,RBFN 最差,

BPN 與 HTFN 相差不大。

表 4 二維 SIN 函數迴歸問題最佳實驗結果

單層隱藏層 兩層隱藏層

演算法

比較方式 BPN HTFN RBFN BPN HTFN RBFN 驗證誤差均方根 0.012 0.011 0.079 0.004 0.007 0.042

第六節 六維混合型迴歸問題

接下來以一個包含封閉與開放曲面的函數例題作比較。本研究設計了一個函 數如下:

25 . 0

5 . exp 0

1

1 25

. 0

5 . exp 0

5 . 0 2 ) 5 . 0 ( 4

6 5

4 2 3

2 2

1

x x x x

x x

y

(107) 在值域0 xi 1,i=1,2,...,6,i=1,2,...,6 的範圍內,以隨機取點方式取得 300 筆訓 練資料,200 筆測試資料。由上述公式可知,前三項屬於封閉型函數;後三項則 為開放型函數。

本例題的隱藏層的處理單元數目都採用6 個。單層隱藏層的誤判率的收斂狀 況如圖 22。可知 HTFN 與 RBFN 的收斂速度遠比 BPN 快,且 HTFN 的最終誤 差均方根低於BPN,可見 HTFN 整合了 RBFN 的收斂快速與 BPN 模型準確的優 點,表現最佳。

二層隱藏層的誤判率的收斂狀況如圖 23。可知 BPN 遠比 HTFN 佳,而 HTFN 又遠比RBFN 佳。

表 5 顯示本例題在整個收斂過程的最佳結果。可知在單層時 HTFN 遠優於 另外二種網路,在二層時BPN 遠優於另外二種網路。二層 BPN 略優於單層 HTFN。

表 5 六維混合型迴歸問題最佳實驗結果

單層隱藏層 兩層隱藏層

演算法

比較方式 BPN HTFN RBFN BPN HTFN RBFN 驗證誤差均方根 0.018 0.013 0.022 0.011 0.060 0.107

(38)

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

差均方

學習循環

BPN HTFN RBFN

圖 22 六維混合型迴歸問題實驗於單層隱藏層的誤差均方根收斂圖

0 0.02 0.04 0.06 0.08 0.1 0.12

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

差均方

學習循環

BPN HTFN RBFN

圖 23 六維混合型迴歸問題實驗於二層隱藏層的誤差均方根收斂圖

(39)

第七節 總結

為了比較各法的優劣,在此將所有數值例題的在整個收斂過程的誤判率的最 佳結果,以單層隱藏層BPN 的結果做為基準來進行比較,整理如表 6 與圖 24。

為了避免單一例題的影響太大,也將各法在各例題下的優劣給予排名,整理如表 7。由這些圖表可以發現下列結論:

1. 單層隱藏層 HTFN 最佳,其餘依序為單層 BPN、二層 BPN、二層 HTFN、單 層RBFN、二層 RBFN。

2. 在單層隱藏層時 HTFN 是最佳網路,在二層隱藏層時 BPN 是最佳網路。RBFN 不論在單層或二層隱藏層下都是最差網路。

3. 雖然 RBFN 表現不佳,但單層隱藏層 RBFN 仍在一個例題中表現優於單層隱 藏層BPN,可見 RBFN 仍有其價值。

4. 二層隱藏層的網路的表現普遍比單層者來得差。但一層與二層 BPN 各有擅長 的例題,平均而言,差異很小。而二層HTFN 與 RBFN 均遠比單層者差。

總之,BPN 模型準確,RBFN 收斂快速,而單層隱藏層 HTFN 不但準確度 優於BPN,而且其收斂速度接近 RBFN,遠優於 BPN,可見 HTFN 整合了 RBFN 的收斂快速與BPN 模型準確的優點。下一章將以實際例題進一步的驗證 HTFN 的實用性。

表 6 實驗例題比較總結

單層隱藏層 兩層隱藏層

例題名稱 例題代表

BPN HTFN RBFN BPN HTFN RBFN 二維四球分類 封閉分類 1 0.228 1.308 2.13 1.023 1.803 二維混合分類 混合分類 1 1.111 1.222 1.111 0.667 7.111 十維四局部函數 封閉迴歸 1 0.692 0.73 1 1.115 4.846 二維SIN 函數 開放迴歸 1 0.917 6.583 0.333 0.583 3.5 六維混合型函數 混合迴歸 1 0.722 1.222 0.611 3.333 5.944 平均 1 0.734 2.213 1.037 1.344 4.641

表 7 實驗例題效果排名

(40)

單層隱藏層 兩層隱藏層

例題名稱 例題代表

BPN HTFN RBFN BPN HTFN RBFN

二維四球分類 封閉分類 2 1 4 6 3 5

二維混合分類 混合分類 2 3 5 3 1 6

十維四局部函數 封閉迴歸 3 1 2 3 5 6

二維SIN 函數 開放迴歸 4 3 6 1 2 5

六維混合型函數 混合迴歸 3 2 4 1 5 6

平均 2.8 2.0 4.2 2.8 3.2 5.6

名次 2 1 5 3 4 6

0.30 0.60.9 1.21.5 1.82.1 2.42.73 3.33.6 3.94.2 4.54.8 5.15.4 5.76 6.36.6 6.97.2 7.5

BPN單層 HTFN單層 RBFN單層 BPN雙層 HTFN雙層 RBFN雙層

演算法

單層BPN的誤差相較之相對誤差

二維四球分類 二維混合分類 十維四局部函數 二維SIN函數 六維混合型函數

圖 24 實驗範例綜合比較

參考文獻

相關文件

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期

年初至當期累計 按年變動 主要指標 單位 參考期