3-1 前言
此章旨在提出多橢圓空間機率神經網路(Multi-Ellipse-Space Probabilistic Neural Networks, MEPNN),它與單橢圓空間機率神經網路相似,不同知處在於 所有樣本的輸入變數使用不同的變數權值。本文第二節將推導其網路學習規則。
第三、四節分別以三個人為的分類問題及一個實際的分類問題來驗證此網路,並 與倒傳遞網路及機率神經網路做比較。第五節以三個人為的迴歸問題、三個人為 的分類問題以及七個實際的分類問題來比較SEPNN、MEPNN、PNN、BPN,以 證明用多個變數權值是有意義的。第六節為結論。
3-2 理論
3-2-1 網路參數的學習演算法
本研究將機率神經網路作如下修正:
2 )
) (
exp( 1 2
2 2
2
p m
i
p i i ip p
p
x x W h
f σ
∑
=−
−
= (3-1)
其中
i =
x
未知樣本的第 i 個輸入變數的值。=
p
x
i 樣本庫第p 個樣本的第 i 個輸入變數的值。ip =
W
樣本庫第p 個樣本的第 i 個輸入變數權重,它控制機率密度函數的形狀,使得機率密度函數的等高線不再受限為圓形,而可以是橢圓形,而變數權 值越大的變數,代表其重要性越大,該方向的橢圓形半徑越小。
p =
h
樣本庫第p 個樣本的資料權值,它相當於機率密度函數的高度,高度愈大,代表樣本的可信度越大。
p =
σ
樣本庫第p 個樣本的平滑參數,它相當於機率密度函數的寬度,寬度愈大,代表樣本的有效範圍越大。
為了避免在自適應調整過成中平滑參數可能逼近0,造成上式出現分母為 0 的問題,故採用核寬倒數代替平滑參數:
令
p
V
pσ
2= 1 (3-2)
其中
V
p =樣本庫第p 個樣本的核寬倒數,它相當於機率密度函數的寬度之倒數,其值愈大,代表樣本的有效範圍越小。
故
) ) (
exp(
1
2 2
2
2
∑
=
−
−
= m
i
p i i ip p p
p
h V W x x
f
(3-3)令
∑
=−
≡ m
i
p i i ip p
p
V W x x
D
1
2 2
2 ( ) (3-4)
則
)
2exp(
p p
p h D
f = −
(3-5)
為了導出自適應調整上述參數的公式,令誤差函數
∑
−= n
j
j
j y
t
E ( )2
2
1 (3-6)
其中 n=輸出變數的數目;
t
j =訓練範例的第 j 個輸出變數的已知值;y
j =訓練 範例的第 j 個輸出變數的推論值:∑
∑
=
=
⋅
= n
p p n
p
pj p
j
f t f y
1
1 (3-7)
其中
y
j =樣本的第 j 個輸出變數推論值;t
pj =樣本庫第 p 個樣本的第 j 個輸出 變數已知值。調整參數的目標在於最小化誤差函數,故可依最陡坡降法推導各參數的修正
量如下:
z 變數權值
ip
ip W
W E
∂
− ∂
=
Δ η (3-8)
其中
η
=學習速率。由偏微分的連鎖律得
ip p p p p
j
j j
ip j
j j
ip
W
D D
f f y y
E W
y y
E W
E
∂
∂
∂
∂
∂
∂
∂
= ∂
∂
∂
∂
= ∂
∂
∂
∑ ∑
(3-9)由(3-6)式微分得 ) ( j j
j
y y t
E =− −
∂
∂ (3-10)
由(3-7)式微分得
∑
∑ ∑ ∑
∑ ∑
∑
⋅ − ⋅ = − = −∂ =
∂
p j pj p
p pj
p pj
p
pj p pj
p p
j
f y t f
f t
f t
f
t f t
f f
y
( / )) (
1 ) (
) (
2 (3-11)
由(3-5)式微分得 )
2exp(
p p
p
p
h D
D
f
=− −∂
∂ (3-12)
由(3-4)式微分得
) ) (
2
( 2
2 p
i i ip p ip
p
V W x x
W
D
= −∂
∂ (3-13)
將(3-10)(3-11)(3-12)(3-13)式帶入(3-9),再帶入(3-8)式得
∑ ∑
− ⋅ ⋅ ⋅ −− −
−
∂ =
− ∂
= Δ
j
p i i ip p p p
p j pj j j ip
ip
h D V W x x
f y y t
W t
W η E
2η
( ) 2exp( ) 2 ( )2 (3-14)令δ 為第 p 個預測輸出值與實際輸出值的誤差量 P
∑
=−
−
−
≡ n
j
p p
j pj j j
p t y t y h D
1
) exp(
) )(
δ ( (3-15) 其中
t
j =此訓練樣本的第 j 個輸出變數已知值。將(3-14)式簡化為
2
2 ( )
2 1 p p p ip i ip
p
ip h V W x x
W =− f −
Δ η
∑
δ (3-16)z 資料權值
p
p h
h E
∂
− ∂
=
Δ η (3-17)
由偏微分的連鎖律得
p p p
j
j j
p
h
f f y y
E h
E
∂
∂
∂
∂
∂
= ∂
∂
∂
∑
(3-18)由(3-5)式微分得 ) exp(
2 p p
p
p
h D
h
f
= ⋅ −∂
∂ (3-19)
將(3-10)(3-11)(3-17)式帶入(3-18),再帶入(3-17)式得 ) exp(
) (
2 p p
p j pj j
j j p
p
h D
f y y t
h t
h E
− −−
∂ =
− ∂
=
Δ
η η ∑ ∑
(3-20) 由(3-15)可將上式簡化為p p
p f
h η δ
=
∑
Δ 1
2 (3-21)
z 核寬倒數
p
p V
V E
∂
− ∂
=
Δ η (3-22)
由偏微分的連鎖律得
p p p p p
j
j j
p
V
D D
f f y y
E V
E
∂
∂
∂
∂
∂
∂
∂
= ∂
∂
∂
∑
(3-23)由(3-4)式微分得
p p
p
V
V D
=2∂
∂ 2 2
) ( i ip
i
ip x x
W −
∑
(3-24)將(3-10)(3-11)(3-12)(3-24)式帶入(3-23),再帶入(3-22)式得
2 2
2exp( ) ( )
) (
2 i ip
i ip p
p p
p j pj j
j j p
p
h D V W x x
f y y t
V t
V E
− − ⋅ ⋅ −−
−
∂ =
− ∂
=
Δ
η η ∑ ∑ ∑
(3-25)由(3-15)可將上式簡化為
⋅
⋅
⋅
−
=
ΔVp 2η
∑
1fp δp hp Vp∑
i Wip2(xi −xip)2 (3-26)上述演算法可以使機率密度函數的核之形狀、高度、以及半徑等三種參數在 學習過程中被優化,讓每筆樣本的每個輸入變數具有不同的變數權值,使得每筆 樣本的機率密度函數都可依訓練樣本而調整成合適的橢圓形,因而減小模型的誤 差,因此稱之為「橢圓空間機率神經網路」,其架構如圖3-1 所示。
圖3-1 多橢圓空間機率神經網路架構
3-2-2 變數重要性的估計
在MEPNN 中,令第 i 個輸入變數對第 j 個輸出變數的一次微分如下:
∑
∂∂ ∂∂ ∂∂∂ =
∂
p i
p p p p
j i
j
x D D
f f y x
y
(3-27)由(3-4)式微分得 ) (
2 p2 ip2 i ip
i
p
V W x x
x
D
= −∂
∂ (3-28)
將(3-11)(3-12)(3-28)式帶入(3-27)式得
∑ ∑
− − ⋅ ⋅ ⋅ −−
∂ =
∂
p
p i i ip p p p
p j pj i
j
h D V W x x
f y t x
y
2exp( ) 2 2 ( ) (3-29)雖然(3-29)式可以定量衡量輸入變數對輸出變數的影響力,但由公式可知,
其值與樣本的輸入變數值有關。因此為了消除個別樣本的差異,忽略(3-29)式中 與樣本的輸入變數值有關的部份,簡化得下式:
∑
⋅ ⋅−
∂ ∝=
∂
p
ip p p i
j
h V W
x
y
2 2 2(3-30)
因為只要輸入變數對輸出變數具有影響力,則其一次微分值必定顯著異於0,因 此定義下列指標:
j
I =
iP x abs y
i j ⎟⎟⎠
⎜⎜ ⎞
⎝
⎛
∂
∂
(3-31) 其中
I
ij =第j個輸出變數的第i個輸入變數的「重要性指標」;P =訓練樣本的數目。當「重要性指標」越大,代表輸入變數的作用越顯著。因為這一個指標可以 定量衡量每一個輸入變數的重要程度,因此在網路訓練完畢後,計算此指標可以 使MEPNN 在具有預測能力之外,也能具有判斷變數重要性的能力,提高其模型 的透明度,改善其黑箱模型的缺點。
3-3 數值例題
本研究設計了三個不同類型的函數來測試與探討MEPNN 的性能及特性。這 三種例題分別有十個輸入變數X1~
X ,及二個代表不同類別的二元輸出變數
10 Y1、Y2。每一個例題的輸入變數皆在0~1 的範圍內隨機取點,產生 1000 個訓練 範例與100 個測試範例。這三組資料將用來比較倒傳遞網路(BPN)、機率神經網 路(PNN)與多橢圓空間機率神經網路(MEPNN)的準確度。此三個例題也將用來驗 證重要性指標是否可以顯示輸入變數影響輸出變數的重要程度。為得到最佳結果,在此採用不同的網路架構、學習參數,以建立最適模型:
z BPN:嘗試不同的隱藏層單元數目(4, 8, 16, 32)與學習速率(0.1, 0.3, 1.0, 3.0)。
z PNN:嘗試不同的平滑參數(0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1.0, 2.0, 5.0, 10.0)。
z MEPNN:嘗試不同的學習速率(0.1, 0.3, 1.0, 3.0)與初始核寬倒數(0.1, 0.3, 1.0, 3.0)。
3-3-1 例題一:線性與二次函數(分類)
假設有如下分類函數] ) 5 . 0 (
8 ) 5 . 0 ( 4 ) 5 . 0 ( 2
) 5 . 0 ( 1 ) 5 . 0 ( 0 [ 4 8 4 2 1 0
2 10
2 9
2 8
2 7
2 6
5 4 3 2 1
− +
−
−
− +
−
−
− +
− +
− +
=
X X
X
X X
X X X X X
Y (3-32)
如果Y >0則為第一類;否則為第二類。
在上式中,可明顯看出X1~
X 和輸出變數的關係為線性且變數重要性逐漸
5 上升,X ~
6X 和輸出變數的關係為二次且變數重要性逐漸上升。結果顯示,在
10 不同的網路架構、學習參數下,BPN、PNN、MEPNN 所建立的最適模型的測試 範例誤判率分別為0.05、0.19、0.08,顯示 MEPNN 的準確度只略低於 BPN,而 遠優於PNN。圖3-2 顯示例題一的重要性指標結果,可見X1~
X 及
5X ~
6X 對輸出變數的
10 重要性逐漸上升,其中,X 、
5X 的指標值相對較高,代表此變數極為重要,與
10 此人為函數的應有結果一致,證實了MEPNN 的重要性指標確實可以衡量線性及 二次分類函數的輸入變數之重要程度。0 0.2 0.4 0.6 0.8 1 1.2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
輸入變數
重要性指標
圖3-2 例題一的重要性指標
3-3-2 例題二:交互與二次函數(分類)
假設有如下函數2 5
10 4
8
1 0.5)( 0.5) 1.5( 0.5)( 0.5) ( 0.5) (
5 .
1 − − + − − + −
=
X X X X X
Y
(3-33)在此函數中,
X、
1X
8與X 、
4X
10為二組交互作用變數,X 為曲率作用變數,
5 其餘X
2、X
3、X
、6X
7、X
9為無關變數。結果顯示,在不同的網路架構、學習參數 下,BPN、PNN、MEPNN 所建立的最適模型的測試範例誤判率分別為 0.05、0.26、0.07,顯示 MEPNN 的準確度與 BPN 相近,而遠優於 PNN。
圖 3-3 顯示例題二的重要性指標結果。由圖可知,
X
、1X
4、X
、5X
、8X
10具有 較大的指標值,代表它們是較重要的變數,而X
、2X
、3X
6、X
7、X
9具有較小的指 標值,代表它們是較不重要的變數。此結論與此例題二的應有結果一致,證實了 重要性指標可以衡量混合交互作用、曲率作用的分類函數之輸入變數重要程度。0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
輸入變數
重要性指標
圖3-3 例題二的重要性指標
3-3-3 例題三:混合函數(分類)
假設有如下函數) 75 . 0 (
) 25 . 0 ( )
75 . 0 ( ) 25 . 0
( 1 − 2 − 3 − 2 + 5 − 7 + 9 − ∗ 10 −
=
X X X X X X
Y
(3-34)上式函數中,
X、
1X
3為曲率作用變數,X 、
5X
7為線性作用變數,X 、
9X
10為 一組交互作用變數,X、2 X、4X 、
6X
8為無關變數。結果顯示,在不同的網路架構、學習參數下,BPN、PNN、MEPNN 所建立的最適模型的測試範例誤判率分別為 0.01、0.08、0.06,顯示 MEPNN 的準確度低於 BPN,而優於 PNN。
圖3-4 顯示例題三的重要性指標結果。由圖可知,
X
、1X
、3X
5、X
、7X
、9X 具
10 有較大的指標值,代表它們是較重要的變數,而X、2 X、4X 、
6X
8具有較小的指標 值,代表它們是較不重要的變數。此結論與此例題三的應有結果一致,證實了重 要性指標確實可以提升衡量混合線性作用、交互作用、曲率作用的分類函數之輸 入變數重要程度。0 0.2 0.4 0.6 0.8 1 1.2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
輸入變數
重要性指標
圖3-4 例題三的重要性指標
3-3-4 誤判率之比較
將三個數值例題的誤判率,繪圖比較如圖 3-5。可見在例題一與例題二中 MEPNN 的誤判率明顯接近 BPN,而遠低於 PNN;在例題三中 MEPNN 的誤判 率雖明顯高於BPN,但仍低於 PNN,證實了 MEPNN 的準確性遠優於 PNN。這 可能是因為在學習過程中,MEPNN 不像 PNN 採取固定的變數權值,而可以調 整各樣本的變數權值、核寬倒數、資料權值,使其機率密度函數的形狀能夠更接 近分類問題的本質,而使模型有更小的誤差。
0 0.05 0.1 0.15 0.2 0.25 0.3
例題一 例題二 例題三
數值例題
誤判率
BPN PNN MEPNN
圖3-5 三個數值例題的誤判率之比較
3-3-5 重要性指標之評估與改進
雖然這三個數值例題的變數權值的趨勢與人為函數的應有結果一致,證實了 重要性指標確實可以衡量線性作用、交互作用、曲率作用的分類函數之輸入變數
重要程度,但其相對大小不夠突出。以例一為例,由(3-32)式可知,X2、
X 、
3 X4、X 的重要性應為 1:2:4:8,其重要性指標分別為 0.75、0.76、0.79、0.96,差距甚
5小。因為在MEPNN 中有三種網路參數(變數權值、核寬倒數、資料權值)需要調 整,因此可能是因為變數權值的調整速度過慢,導致變數權值的調整不足,因而 導致重要性指標的調整不足。由於變數權值的調整速度與學習速率成正比,為加 速變數權值的調整,故在此改將變數權值的學習速率額外乘以訓練範例的數目開 根號,故這三種參數的學習速率分別如下:
變數權值學習速率 ηW = P⋅η (3-35)
核寬倒數學習速率
η
V =η
(3-36)資料權值學習速率
η
h =η
(3-37)在(3-35)式中額外乘以訓練範例的數目開根號的原因是,在先前的研究中,
各樣本使用統一的變數權值,其調整公式為
∑ ∑
−−
= Δ
p
p i i i p p p p
i
h V W x x
W
1f
2 ( )22
η δ
(3-38)此式產生的變數權值十分理想,其相對大小與人為函數的應有結果一致。因為上 式與(3-35)式的差異在於它對所有的訓練範例進行加總,故其值遠大於(3-35)式所 得。但因為在(3-38)式的總和內部的值正負號均有可能,因此雖然加總了「訓練 範例的數目」這麼多次,但依機率理論可知,n 個具有相同平均值與標準差的常 態隨機變數的總和之標準差只會增加 n 倍。故為了讓變數權值調整量的尺度能 跟得上(3-38)式,在此將其學習速率放大訓練範例的數目開根號倍。
利用上述學習速率重新執行,得結果如圖3-6~圖 3-9。由圖 3-6~圖 3-8 可知,
重要性指標的相對大小與人為函數的應有結果明顯較為一致。以例一為例,由 (3-32)式可知,X2、
X 、
3 X4、X 的重要性應為 1:2:4:8,其重要性指標分別為
5 0.46、0.47、0.55、0.88,其比例比起原方法要合理多了。由圖 3-9 可知,使用新 的學習速率可使誤判率獲得小幅改善。0 0.2 0.4 0.6 0.8 1 1.2 1.4
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
輸入變數
重要性指標
圖3-6 例題一的重要性指標 (改變學習速率下)
0 0.2 0.4 0.6 0.8 1 1.2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
輸入變數
重要性指標
圖3-7 例題二的重要性指標 (改變學習速率下)
0 0.2 0.4 0.6 0.8 1 1.2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
輸入變數
重要性指標
圖3-8 例題三的重要性指標 (改變學習速率下)
0 0.05 0.1 0.15 0.2 0.25 0.3
例題一 例題二 例題三
數值例題
誤判率
BPN PNN MEPNN
圖3-9 三個數值例題的誤判率之比較 (改變學習速率下)
3-3-6 EPNN 可以依照樣本點調整變數權值嗎?
在 EPNN 中,每個樣本都有特定的變數權值,在輸入變數很多,且樣本很 多的情況下,會有大量的變數權值。為了證明EPNN 可以依照樣本點所處位置 的特性,調整變數權值,在此假設有如下函數
2
1 X
X
Y = ⋅ (3-39)
此函數的等高線圖如圖 3-10。由圖可知,左上方處的Y 值與X1的大小較相關,
與X2的大小較不相關,因此在計算樣本間的「距離」時,X1的權重應大於X2的 權重,故
W
1p/W
2p會較大。同理,在右下方處的Y 值與X1的大小較不相關,與X2 的大小較相關,因此在計算樣本間的「距離」時,X1的權重應小於X2的權重,故
W
1p/W
2p會較小。在左下到右上的對角線上,Y 值與X1及X2的大小之相關性 相同,因此X1的權重應等於X2的權重,故W
1p/W
2p=1.0。假設各輸入變數皆在 0~1 的範圍內,在此範圍內隨機取樣,產生 300 個訓練 範例與 100 個測試範例。以 EPNN 建模後,將第 p 個訓練範例樣本的X1與X2的 變數權值的相對大小
W
1p/W
2p與W
2p /W
1p分別繪成圖 3-11、圖 3-12 的泡泡圖,其中變數權值的比值與泡泡的寬度成比例。由圖 3-11 可知,