行政院國家科學委員會專題研究計畫成果報告

(1)

行政院國家科學委員會專題研究計畫成果報告

類神經網路演算法之改良(II) 研究成果報告(精簡版)

計畫類別：個別型

計畫編號： NSC 99-2221-E-216-040-

執行期間： 99 年 08 月 01 日至 100 年 07 月 31 日執行單位：中華大學資訊管理學系

計畫主持人：葉怡成

計畫參與人員：碩士班研究生-兼任助理人員：劉佩玲碩士班研究生-兼任助理人員：匡麗麗

報告附件：出席國際會議研究心得報告及發表論文

處理方式：本計畫可公開查詢

中華民國 100 年 07 月 29 日

(2)

行政院國家科學委員會補助專題研究計畫 □ 成果報告

□期中進度報告

類神經網路演算法之改良(II)

計畫類別：□個別型計畫 □整合型計畫計畫編號：NSC 99‐2221‐E‐216‐040

執行期間：99 年 8 月 1 日至 100 年 7 月 31 日執行機構及系所：中華大學資訊管理學系

計畫主持人：葉怡成

計畫參與人員：匡麗麗、劉佩玲

成果報告類型(依經費核定清單規定繳交)： □精簡報告 □完整報告

本計畫除繳交成果報告外，另須繳交以下出國心得報告：

□赴國外出差或研習心得報告

□赴大陸地區出差或研習心得報告

□出席國際學術會議心得報告

□國際合作研究計畫國外研究報告

處理方式：除列管計畫及下列情形者外，得立即公開查詢

□涉及專利或其他智慧財產權，□一年□二年後可公開查詢

中華民國 100 年 7 月 30 日

(3)

摘要

本研究提出一個結合倒傳遞網路(Back-Propagation Network, BPN)與 ARIMA 優點的 ARIMA‐BPN 神經網路，它是以 BPN 為模型，將 ARIMA 模式的輸入，包括前時 p 個時刻的數列值與前 q 個時刻的數列殘差值做為輸入值，組成非線性函數，以建立更準確的時間數列預測模型。因為數列殘差值在 BPN 的訓練過程中會因網路連結權值的調整而改變，因此必須修改 BPN 的演算法來適應此需求，即藉由不斷更新每次預測所得之殘差值做為網路的輸入值。本研究以六個人為設計的例題，及現實世界的各國股市時間數列預測來比較 ARIMA、BPN 和 ARIMA‐BPN 三者的效能。研究結果顯示，ARIMA‐BPN 神經網路演算法在部份例題比 ARIMA 與 BPN 方法更準確。

關鍵字：時間數列、ARIMA、倒傳遞神經網路。

Abstract

In this paper we proposed an ARIMA-BPN algorithm combining advantages of Back-propagation networks (BPN) and ARIMA. The algorithm is based on BPN and its inputs are the same as ARIMA. It can generate a non-linear function to create an accurate model to predict time series. The BPN algorithm must be modified because the residuals would be changed when the weights were changed during continuously training BPN.

Therefore, the continuously updated residuals are used as the inputs of ARIMA-BPN. This study examined 6 artificial designed cases and stock index prediction in real world to evaluate the abilities of the ARIMA, BPN, and ARIMA-BPN. The results showed that ARIMA-BPN is the most accurate methods in the three methods.

Key words: time series, ARIMA, Back-Propagation Neural Network.

壹、前言

時間序列預測是一個具有廣泛應用的研究領域。ARIMA 模式，又稱 Box-Jenkins 模式，是一種用來處理複雜的時間序列的一種重要的建模方法(Pankratz, 1983)，其優點在於能精確掌握複雜的時間序列。使用 ARIMA 模式所處理的時間數列必須是穩態的時間序列。所謂穩態是指其統計參數如平均值與標準差不隨時間而變，因此有傾向或季節性的數列便不符合穩態的條件，但可先將數列去除傾向性與季節性後，得到穩態數列再加以處理。ARIMA 在建立時間數列預測模型時，以前 p 個時刻的數列值與前 q 個時刻的數列殘差值做為輸入值，組成線性函數：

p t p t

t

y y y

y = φ

₀

+ φ

₁ ₋₁

+ φ

₂ ₋₂

+ ... + φ

₋

+ ε

_t

− θ

₁

ε

_t₋₁

− θ

₂

ε

_t₋₂

− ... − θ

_q

ε

_t₋_q

(1)

其中 y

_t

= 時刻數列值； t ε

_t

= t 時刻殘差值； φ

₀

= 常數項； φ

_t_{− p}

= 第

t− p

時刻數列值的係

數； θ

_t_{− p}

= 第

t−p

時刻殘差值的係數。

(4)

在(1) 式中，數列值構成的部份稱為自我迴歸模式(Autoregressive Models, AR)，而殘差值構成的部份稱為移動平均模式(Moving-Average Models, MA)，故統稱

自我

迴歸移動平均模式(Autoregressiver Moving-Average Models, ARIMA)。

近年來，類神經網路(Artificial Neural Networks, ANN)逐漸成為時間序列預測的另一個重要的建模方法。一個類神經網路是由許多個人工神經元與其連結所組成，並且可以組成各種網路模式(network model)。其中以倒傳遞網路(Back-Propagation Network, BPN) 應用最普遍。BPN 模式其基本原理是利用最陡坡將法(the gradient steepest descent method) 的觀念，將誤差函數予以最小化(Law, 1999; Law, 2000)。BPN 是一種無回饋連結的前向式網路，其特色是加入隱藏層並改用平滑可微分的非線性轉換函數，以導出網路加權值。基本架構包含了輸入層、隱藏層以及輸出層。隱藏層數目依問題的複雜程度而定。

根據經驗，一般問題可取一層隱藏層，較複雜問題則可取二層隱藏層。此外，隱藏層內的神經元數目越多，則可使誤差減小，但也可能發生過度配適(ovefitting)，而影響實際的預測能力。BPN 在建立時間數列預測模型時，以前 p 個時刻的數列值做為輸入值，組成非線性函數：

) ,..., ,

(

_t ₁ _t ₂ _t _p

t

f y y y

y =

₋ ₋ ₋

(2)

比較 ARIMA 與 BPN 兩者，前者多考慮了數列殘差值做為輸入值，但只能產生線性函數，後者則可產生非線性函數，但未考慮了數列殘差值做為輸入值。因此近年來有不少研究在比較二者的優劣。例如，呂志峰(1999)嘗試使用 ARIMA 和 BPN 兩種方法來預測品質成本變化的情形，目的是希望預測出其趨勢，並利用此趨勢，提出品質管理上的一些對策。結果顯示 BPN 的預測誤差低於 ARIMA。李振民(2000)、湯健文(2003)比較 BPN 和 ARIMA 二種方法之準確性。透過數十多個個案研究，結果顯示 BPN 可建立較精確的時間序列預測模型。

過去也有很多學者研究改良 BPN，以更適用在時間序列預測領域。例如，蔡裕春(2001) 以 ARIMA 分析技術之有母數分析方法輔助 BPN 信賴區間之建構，彌補 BPN 僅能提供預測之點估計值，無法提供區間估計的缺陷。並以台灣地區營造工程物價指數之預測為例，進行驗證。結果顯示其 90%及 95%預測信賴區間包含了所有實際資料，成功地為 BPN 建構了預測值之信賴區間。

此外，也有學者企圖結合 BPN 與 ARIMA 的優點形成複合模式。這些研究大致可分成六類(參考圖 1)：

第 1 類：單模型前處理法

以 ARIMA 技術對數列作前處理，去除傾向性與季節性，產生的平穩化數列交由 ANN 建立預測模型。例如，Jain and Kumar (2007)即利用 ARIMA 去除水文資料的傾向性與季節性，再以 BPN 建模。此類方法的整合程度最低，只是一種很鬆散的整合。

第 2 類：單模型串列整合法 ─ ANN-AIMA

(5)

以 ARIMA 建立模型，此模型的預測值與殘差交由 ANN 建立預測模型。例如，Tseng et al. (2001)以此法處理臺灣的機械產業產值與軟性飲料產值的時間數列，研究結果發現，此法優於單獨使用 ARIMA 與 ANN。

第 3 類：單模型串列整合法 ─ ARIMA-ANN

以 ANN 建立模型，此模型的預測值與殘差交由 ARIMA 建立預測模型。此法為第 2 類方法的反向方法，即先用 ANN 再用 ARIMA。

第 4 類：雙模型平行加權法

以 ARIMA 與 ANN 各自建立一個模型，再以加權平均法等將二個模型的預測值整合成最終預測值。加權平均的權值一般可用模型的殘差平方和的倒數。例如，張百棧 (2004)建立多元迴歸分析、倒傳遞類神經網路、以及自我迴歸移動平均整合模式，再將這三種預測模型所得到之結果透過一動態權重值加以結合。並以台灣地區股價指數之預測為例，進行驗證。研究結果發現，結合模型的預測誤差比其他三種預測模型有明顯改善。Inoue et al. (2001)則用此法整合 ANN 與最近鄰居法(kNN)於時間數列預測，研究結果發現，整合屬於 Global Model 的 ANN 與 Local Model 的 kNN 可以獲得更準確的預測。

第 5 類：雙模型串列疊加法 ─ ANN-ARIMA

以 ANN 建立第一個模型，此模型的殘差交由 ARIMA 建立第二個模型，最後以二個模型的預測值疊加成最終預測值。例如，王成財(2002)結合 BPN 與 ARIMA 發展「複合模式」。此模式先以 BPN 做預測，求出預測值與實際值的殘差，再利用 ARIMA 針對殘差值加以預測，最後將二者所得之預測值疊加後產生最終預測值。研究結果顯示，此複合模式優於 BPN 模式，而 ARIMA 最差。

第 6 類：雙模型串列疊加法 ─ ARIMA-ANN

以 ARIMA 建立第一個模型，此模型的殘差交由 ANN 建立第二個模型，最後以二個模型的預測值疊加成最終預測值。例如，Zhang (2003)用此法處理三個時間數列的經典例題：太陽黑子(sunspot)問題(1700~1987，288 筆年資料)、加拿大山貓(lynx)問題 (1821~1934，114 筆年資料)、英磅美金匯率問題(1980~1993，731 筆週資料)。研究結果顯示，此法優於單獨使用 ARIMA 與 ANN。此外，Bo et al. (2007)擴充 Zhang 的方法，

整合了 ARCH 族的方法(包括 ARCH, GARCH, EGARCH 等)與 ANN。而 He et al. (2006)

也擴充 Zhang 的方法，整合了 ARIMA 與支持向量機(support vector machine)。這些研究

都顯示複合模式優於單一模式。

(6)

圖 1 ARIMA 與 ANN 的複合法之分類

由上述文獻探討可知，雖然已有學者提出結合 ARIMA 與 BPN 的複合模式，然而都屬於鬆散式結合，並沒有發展出真正結合 ARIMA 與 BPN 原理的複合模式。此外，上述的串列整合法、平行加權法、串列疊加法等複合模式的共同缺點是必需建立兩個以上的模型，在使用上較為複雜，也容易出錯。且因為模型過於複雜，其結論「複合模式優於單一模式」有過度配適(overfitting)的可能。有鑑於此，本文提出一個結合 ARIMA 之整合數列值與殘差值於同一模型，以及 BPN 的建構非線性模型能力優點的真正複合模式 ─ ARIMA‐BPN 神經網路，以改善預測效果。ARIMA‐BPN 以 BPN 為模型，將 ARIMA 模式的輸入，包括前時 p 個時刻的數列值與前 q 個時刻的數列殘差值，都做為 BPN 的輸入值，

組成非線性函數 y

_t

= f ( y

_t₋₁

, y

_t₋₂

,..., y

_t₋_p

, ε

_t₋₁

, ε

_t₋₂

,..., ε

_t₋_p

) ，以建立更準確的時間數列預測模型。因為數列殘差值在 BPN 的訓練過程中會因網路連結權值的調整而改變，因此必須修改 BPN 的演算法來適應此需求，即藉由不斷更新每次預測所得之殘差值做為網路的輸入值。

ARIMA‐BPN 神經網路有別於前述六種複合法，它真正將 ARIMA 的概念融入 ANN 中，

產生一種新的 BPN 演算法。而前述的單模型法只是透過模型間的資料傳遞來整合；而雙模型法只是整合 ARIMA 與 ANN 的預測結果。因此，無論單模型法、雙模型法都屬於鬆散式結合，而本文提出的 ARIMA‐BPN 神經網路則屬於緊密式結合。

本文第二節將介紹 ARIMA-BPN 神經網路演算法。而第三節與第四節分別以六個數值例題與一個現實世界的例題進行實證。第五節為結論。

複合法

單模型法

雙模型法

前處理法串列整合法平行加權法

串列疊加法

ANN-ARIMA

ARIMA-ANN

ANN-ARIMA

ARIMA-ANN

(7)

貳、 ARIMA-BPN 神經網路

本研究所提出的 ARIMA-BPN 演算法是以 BPN 為基礎，並加入了殘差向量來改良預測效果的演算法。BPN 的理論已有大量的文獻(葉怡成，2005；葉怡成 2006)，在此不再贅述。

傳統的 BPN 在處理時間數列時是以前 p 個時刻的數據來預測第 p + 1 個數值，也就是輸入層有 p 個。ARIMA-BPN 則另外加入了 q 個殘差做為輸入，組成非線性函數

) ,..., ,

, ,..., ,

(

_t ₁ _t ₂ _t _p _t ₁ _t ₂ _t _p

t

f y y y

y =

₋ ₋ ₋

ε

₋

ε

₋

ε

₋

，以建立更準確的時間數列預測模型。因為數列殘差值在 BPN 的訓練過程中會因網路連結權值的調整而改變，因此必須修改 BPN 的演算法來適應此需求，即藉由不斷更新每次預測所得之殘差值做為網路的輸入值。圖 2 是 ARIMA‐BPN 神經網路架構圖。

Y

t-1

Y

_t-p

Y

t-p+1

p 個

ε

t-1

ε

_t-q

ε

t-q+1

q 個

Input Layer

Hidden Layer

Output Layer

Y

t

圖 2 ARIMA‐BPN 神經網路架構圖

在第一次訓練時，由於還沒有預測值，所以輸入層的 q 個殘差皆為 0。另外輸入層還有 1 至 p 等 p 個時刻的數據作為輸入層。所以演算法用了

p+q

個輸入層，透過隱藏層的運算(此時殘差皆為 0)得到第 p + 1 個時刻的預測數據。此時得到預測數據後，再將第 p + 1 個時刻的實際數據與預測數據相減，即可得到殘差。這時我們需要更新初始的 q 個殘差。假設有 1 ~ q 個殘差，以第 q − 1 個取代第 q 個殘差，第 q − 2 個取代第 q − 1 個殘差，以此類推直到第 1 個取代第 2 個殘差。最後以本次的殘差取代第 1 個殘差，即再開始下個訓練。

在第二次訓練時，在輸入層的第 1 個殘差為前一時刻的殘差，其餘 q − 1 個殘差還是

(8)

為 0。第二次循環將預測第 p + 2 個時刻的數據，因此還以 2 至 p + 1 個時刻的數據做輸入。同樣地，經由隱藏層的運算，會得到新的殘差。更新殘差後，再接著下個訓練，直到訓練完最後一個範例。

在更新殘差後，可以發現若下次欲預測第

n

個時刻，則第 1 個殘差屬於第

n−1

個時刻，而第 q 個殘差屬於第 n − 個時刻。而隱藏層在計算隱藏層的權重值時會用到第 q

n−1

到 n − 個數列值，以及第 p

n−1

到 n − 個殘差值，運算後即得到第 q

n

個時刻的預測值。

以下是 ARIMA-BPN 神經網路演算法的學習過程。

1. 設定網路參數：包括學習速率 η 、慣性因子 α 、AR 的階次 p 、MA 的階次 q 、時間序列長度 n 等。(此網路的輸入變數有

p+q

個，輸出變數只有一個)

2. 以均佈隨機亂數設定加權值矩陣

W

、門限值向量初始值θ 。 3. 設 t=p+1

4. 設定殘差向量初始值 0 ,...,

,

₂

1 ₋ ₋

=

− t t q

t

ε ε

ε (3) 5. 決定輸入向量

輸入向量 X

_i

= Y

_t₋_i

i = 1 , 2 ,..., p (4) 輸入向量 X

_p₊_i

= ε

_t₋_i

i = 1 , 2 ,..., q (5) 目標輸出 desire _ y = Y

_t

(6) 6. 計算推論輸出值 y

(a) 計算隱藏層輸出向量 { h

1

^, h

2

^, h

3

^,... }

∑ ⁻

=

k

k i ik

k

W x

net θ (7)

(

k

)

k

net

h = + − exp 1

1 (8) (b) 計算推論輸出向量 y

∑ ⁻

=

k k k

h W

net θ (9)

( ^net )

y = + − exp 1

1 (10)

7. 計算差距量

(a) 計算輸出層差距量 δ

(

desire y− y

) (

⋅y⋅ −y

)

= _ 1

δ (11) (b) 計算隱藏層差距量 δ

_k

(

_k

)

_k

(

_k

)

k

= δ ⋅ W ⋅ h ⋅ 1 − h

δ (12) 8. 計算加權值矩陣修正量，及門限值向量修正量

(a) 計算輸出層加權值矩陣修正量，及門限值向量修正量

(9)

( ) = + ⋅ Δ ( − 1 )

Δ W

_k

n ηδ h

_k

α W

_k

n (13)

( )

=− + ⋅Δ

(

−1

)

Δ

θ

n

ηδ α θ

n

(14) (b) 計算隱藏層加權值矩陣修正量，及門限值向量修正量

( ) = + ⋅ Δ ( − 1 )

Δ W

_ik

n ηδ

_k

x

_i

α W

_ik

n (15)

( ) = − + ⋅ Δ ( − 1 )

Δ θ

_k

n ηδ

_k

α θ

_k

n (16) 9. 更新加權值矩陣，及門限值向量

(a) 更新輸出層加權值矩陣，及門限值向量

k k

k

W W

W = + Δ (17) θ

θ

= +Δ

(18) (b) 更新隱藏層加權值矩陣，及門限值向量

ik ik

ik

W W

W = + Δ (19)

k k

k

θ θ

θ = + Δ (20) (c) 計算殘差值

ε

_t

= desire _ y − y (21) 10. 設 t=t+1

11. 檢查是否已到最後一個訓練範例，完成一個學習循環：如果 t ≤ n 回到步驟 5，否則到步驟 12。

12. 重覆步驟 3 至步驟 11，直到預設的學習循環數目。

以上介紹中，值得注意的是由於開始時尚未做預測，因此殘差向量設為 0。在預測第 p + 1 個時刻時，其

p+q

個輸入變數中，前 p 個輸入為前 p 個數列值，後 q 個輸入為前 p 個時刻的殘差值。而學習過程中在更新殘差向量時，以第 q − 1 個取代第 q 個殘差，

第 q − 2 個取代第 q − 1 個殘差，以此類推直到第 1 個取代第 2 個殘差，最後以本次的殘差取代第 1 個殘差。另外每次在開始一個新的學習循環時，要記得將殘差向量設為 0，

因為循環開始時尚未有預測數據，殘差是未知的，故設為 0。

舉例來說，有 5 筆數據，以前 p 個時刻及前 q 個時刻的殘差值為神經網路之輸入，

進而預測下個時刻之數據。本例子的 p 與 q 為 2。圖 3 為此範例之流程圖。在步驟一，

欲預測值為第 3 個時刻，因此我們以第 1 與第 2 個時刻，也就是前 2 個數列值為輸入。

另外，ARIMA‐BPN 神經網路還需要前 q 個時刻之殘差值做為輸入，但是由於步驟一之前並未有任何的預測，所以我們將第 1 個與第 2 個時刻之殘差值 q1 與 q2 設為 0。輸入完成後 ARIMA‐BPN 神經網路即可得到第 3 個時刻的預測值，並以倒傳遞演算法的通用差距法則(general delta rule)，即(13)~(16)式，修正網路的連結權值。

到了步驟二時，欲預測值為第 4 個時刻，因此我們以第 2 與第 3 個時刻，也就是前

2 個數列值為輸入。而在殘差值部分，將第 3 個時刻之實際值減去步驟一的第 3 個時刻

的預測值得到第 3 個時刻的殘差值，然後以以第 2 個與第 3 個時刻的殘差值為輸入。輸

(10)

入完成後 ARIMA‐BPN 神經網路即可得到第 4 個時刻的預測值，並以通用差距法則修正網路的連結權值。

同樣地，到了步驟三時，欲預測值為第 5 個時刻，因此我們以第 3 與第 4 個時刻，

也就是前 2 個數列值為輸入。而在殘差值部分，將第 4 個時刻之實際值減去步驟一的第 4 個時刻的預測值得到第 4 個時刻的殘差值，以第 3 個與第 4 個時刻的殘差值為輸入。

輸入完成後 ARIMA‐BPN 神經網路即可得到第 5 個時刻之預測值，並以通用差距法則修正網路的連結權值。

圖 3 ARIMA‐BPN 神經網路簡例流程圖

參、數值例題

3.1 數值例題

為了驗證 ARIMA-BPN 的效能，本節設計了六個以「殘差值」構成的「非線性」時間序列。這樣設計的原因是因為 ARIMA 無法處理「非線性」，而 BPN 無法處理「殘差值」。而 ARIMA-BPN 是在擅長建構非線性模型的 BPN 中加入 ARIMA 的以殘差值為輸入之概念，因此有可能可以建立比 ARIMA 及 BPN 更準確的預測模型。這六個時間序列公式如下：

例題一

t t t t

t

y

t

= − 0 . 6 ε

₋₁

+ 1 . 3 ε

₋₂

+ 2 ε

₋₁

ε

₋₂

+ ε (22)

(11)

例題二

t t t

y

t

= 2 ε

₋₁

ε

₋₂

+ ε (23)

例題三

t t t

yt =1.3

ε

²₋₁ −0.6

ε

²₋₂ +

ε (24) 例題四

t t t t

t

yt=−1.8

ε

₋₁ +0.9

ε

₋₂ +10

ε

₋₁

ε

₋₂ +

ε (25) 例題五

t t t

yt=3

γ

₋₁

ε

₋₁ +

γ (26)

t t t

t

γ ε ε

γ

=0.9 ₋₁ +0.9 ₋₁ +

(27)

例題六

t t t

yt=

γ

²₋₁ +

ε

+

γ (28)

t t

t

ε ε

γ

=8 ²₋₁ +

(29)

每一個公式產生一個由 800 個數列值構成的時間序列，其中前 400 個將作為訓練範例，後 400 作為測試範例，以避免過度配適的問題。對所有例題，BPN 一律取前二個時刻的數列值為輸入，而 ARIMA-BPN 則除了取前二個時刻的數列值為輸入外，還取前二個時刻的殘差值為輸入，即取 p = 2 ， q = 2 。而 ARIMA 則以典型的平穩化、模型鑑別、

參數估計、殘差診斷等四個步驟建立最適模型。

3.2 結果

表 1 與表 2 為實驗結果，表中的結果都以測試範例為準。由表可得下列結論：

1. 誤差均方根的比較

由表 1 可知，除了數列二之外，ARIMA‐BPN 的誤差均方根(RMS)都是三個方法中最小的，且在六個例題中，ARIMA‐BPN 的誤差都低於 ARIMA。

2. 判定係數 R 的比較

²

(12)

由表 2 與圖 4 可知，除了數列二之外，ARIMA‐BPN 的判定係數 R 都是三個方法中

²

最大的，且在六個例題中，ARIMA‐BPN 的判定係數都高於 ARIMA。此結論與觀察 RMS 的結論相似，且更顯著。

3. 散佈圖的比較

由圖 5 至圖 10 可知，ARIMA‐BPN 的實際值與預測值的關係遠比 BPN 合理地散佈在 45 度對角線上。

表 1 各方法之 RMS 比較 (黑體字為三個方法中的最佳方法) 方法

例題

ARIMA (測試範例)

BP

(測試範例)

ARIMA‐BPN (測試範例) 例題 1 0.432 0.49 0.43 例題 2 0.33 0.32 0.32 例題 3 0.315 0.31 0.30 例題 4 1.085 1.101 1.100 例題 5 1.22 1.19 1.14 例題 6 1.32 1.23 1.20

表 2 各方法之判定係數 R 比較

²

例題 ARIMA

(測試範例) BP

(測試範例)

ARIMA‐BPN (測試範例) 例題 1 0.337 0.224 0.382 例題 2 0.010 0.123 0.105 例題 3 0.003 0.0456 0.0752 例題 4 0.0243 0.0216 0.0289 例題 5 0.222 0.244 0.287 例題 6 0.181 0.224 0.266

(13)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

1 2 3 4 5 6

非線性時間序列

判定係數

ARIMA BP

ARIMA-BPN

圖 4 各方法之 R 比較

²

R² = 0.2243

實際值

預測值

圖 5(a) BPN 測試範例之散佈圖

R² = 0.3821

實際值

預測值

圖 5(b) ARIMA-BPN 測試範例之散佈圖

R² = 0.0893

實際值

預測值

R² = 0.1056

實際值

預測值

(14)

R² = 0.0456

實際值

預測值

R² = 0.0752

實際值

預測值

R² = 0.0216

實際值

預測值

R² = 0.0289

實際值

預測值

R² = 0.2446

實際值

預測值

R² = 0.2866

實際值

預測值

(15)

R² = 0.2243

實際值

預測值

R² = 0.2656

實際值

預測值

肆、各國股市時間數列預測

4.1 簡介

本節以包括美國、巴西、英國、香港、印尼、日本、韓國、馬來西亞、墨西哥、台灣等十個股票市場(表 3)，各約 2000 多日的收盤假時間數列，來評估 ARIMA‐BP 的建模能力。

表 3 本研究選取的股價指數

國家股市名稱股票代號

日本 NIKKEI 225 N225

印尼 Composite Index JKSE 巴西 IBOVESPA SAO PAULO BVSP 馬來西亞 KLSE Composite KLSE

墨西哥 IPC MXX

韓國 KOSPI Composite Index KS11 美國 DOW JONES COMPOSITE INDEX DJA

英國 FTSE 100 FTSE

香港 HANG SENG INDEX HSI

台灣 TSEC weighted index TWII

(16)

0 500 1000 1500 2000 2500 3000 3500 4000 4500

圖 11(a) America 原始數據折線圖

0 5000 10000 15000 20000 25000 30000 35000 40000 45000

圖 11(b) Brazil 原始數據折線圖

0 1000 2000 3000 4000 5000 6000 7000 8000

圖 11(c) England 原始數據折線圖

0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000

圖 11(d) Hong Kong 原始數據折線圖

0 200 400 600 800 1000 1200 1400 1600

圖 11(e) Indonesia 原始數據折線圖

0 5000 10000 15000 20000 25000

圖 11(f) Japan 原始數據折線圖

0 200 400 600 800 1000 1200 1400 1600

圖 11(g) Korea 原始數據折線圖

0 200 400 600 800 1000 1200

圖 11(h) Malaysia 原始數據折線圖

(17)

0 5000 10000 15000 20000 25000

圖 11(i) Mexico 原始數據折線圖

0 2000 4000 6000 8000 10000 12000

圖 11(j) Taiwan 原始數據折線圖

4.2 ARIMA 分析

在本例題的 ARIMA 分析實驗中，使用了 CPRE 軟體且一般差分設為 1。經過 ARIMA 分析後，可以得到四種模型的 R 值，選擇

²

R 值最高者為最佳模型。但是可以發現有不

²

只一個最大 R 的狀況，也就是 ARIMA 無法精確建模的情形，如 America 與 Mexico。

²

觀察 RMS 值，發現還是無法判定 America 在何種模型中表現較佳。其他可發現 Indonesia 與 Mexico 為 MA1 模型，其餘全部為 AR2 模型。表 4 為經過 ARIMA 分析後所得的 R

²

值與 RMS 值。圖 12 與圖 13 分別為 ACF 圖與 PACF 圖。

圖 12(a) America 股市 ACF 圖: 一次差分圖 13(a) America 股市 PACF 圖: 一次差分

(18)

圖 12(b) Brazil 股市 ACF 圖: 一次差分圖 13(b) Brazil 股市 PACF 圖: 一次差分

圖 12(c) Eangland 股市 ACF 圖: 一次差分圖 13(c) England 股市 PACF 圖: 一次差分

圖 12(d) Hong Kong 股市 ACF 圖: 一次差分圖 13(d) Hong Kong 股市 PACF 圖: 一次差分

圖 12(e) Indonesia 股市 ACF 圖: 一次差分圖 13(e) Indonesia 股市 PACF 圖: 一次差分

圖 12(f) Japan 股市 ACF 圖: 一次差分圖 13(f) Japan 股市 PACF 圖: 一次差分

(19)

圖 12(g) Korea 股市 ACF 圖: 一次差分圖 13(g) Korea 股市 PACF 圖: 一次差分

圖 12(h) Malaysia 股市 ACF 圖: 一次差分圖 13(h) Malaysia 股市 PACF 圖: 一次差分

圖 12(i) Mexico 股市 ACF 圖: 一次差分圖 13(i) Mexico 股市 PACF 圖: 一次差分

圖 12(j) Taiwan 股市 ACF 圖: 一次差分圖 13(j) Taiwan 股市 PACF 圖: 一次差分

(20)

表 4 ARIMA 分析各國股市之 R 值與 RMS 值

²

AR1 AR2 MA1 MA2

全部範例判定係數 -0.000 0.000 -0.000 0.000

全部範例 RMS 30.02 30.01 30.02 30.01

訓練範例 RMS (1060) 31.95 31.92 31.95 31.98

美國

測試範例 RM S (1057) 27.821 27.83 27.820 27.87

全部範例判定係數 0.003 0.004 0.003 -0.000

全部範例 RMS 322.10 322.04 322.07 322.61

訓練範例 RMS (1060) 297.06 297.16 297.04 297.87

巴西

測試範例 RM S (1057) 345.14 344.67 345.12 345.24

全部範例判定係數 0.001 0.005 0.001 0.000

全部範例 RMS 60.79 60.65 60.79 60.80

訓練範例 RMS (1000) 71.73 71.29 71.72 71.86

英國

測試範例 RM S (998) 47.130 47.131 47.135 47.30

全部範例判定係數 0.001 0.003 0.001 -0.000

全部範例 RMS 205.51 205.31 205.50 205.68

訓練範例 RMS (1060) 265.47 265.15 265.45 265.70

香港

測試範例 RM S (1057) 118.13 118.06 118.15 118.23

全部範例判定係數 0.026 0.027 0.028 -0.000

全部範例 RMS 10.10 10.10 10.09 10.24

訓練範例 RMS (1060) 10.7164 10.72 10.7162 10.86

印尼

測試範例 RM S (1057) 9.4310 9.4059 9.41 9.401

全部範例判定係數 0.001 0.006 0.001 0.000

全部範例 RMS 203.03 202.55 203.01 203.10

訓練範例 RMS (1060) 247.93 247.05 247.87 248.19

日本

測試範例 RM S (1057) 144.5394 144.56 144.5396 144.59

全部範例判定係數 0.005 0.007 0.005 0.001

全部範例 RMS 15.38 15.36 15.37 15.41

訓練範例 RMS (1060) 17.596 17.575 17.59 17.65

韓國

測試範例 RM S (1057) 12.765 12.75 12.763 12.77

(21)

表 4 ARIMA 分析各國股市之 R 值與 RMS 值(續)

²

AR1 AR2 MA1 MA2

全部範例判定係數 0.005 0.007 0.005 0.001

全部範例 RMS 15.38 15.36 15.37 15.41

訓練範例 RMS (1060) 17.596 17.575 17.59 17.65

韓國

測試範例 RM S (1057) 12.765 12.75 12.763 12.77

全部範例判定係數 0.013 0.050 0.013 0.035

全部範例 RMS 10.60 10.39 10.59 10.47

訓練範例 RMS (1060) 14.02 13.72 14.02 13.82

馬來西亞

測試範例 RM S (1057) 5.29 5.271 5.29 5.272

全部範例判定係數 0.013 0.014 0.014 0.001

全部範例 RMS 110.81 110.79 110.78 111.50

訓練範例 RMS (1060) 105.55 105.40 105.44 106.58

墨西哥

測試範例 RM S (1057) 115.573 115.63 115.576 116.05

全部範例判定係數 0.004 0.006 0.004 0.004

全部範例 RMS 105.79 105.69 105.80 105.77

訓練範例 RMS (1060) 129.13 128.94 129.15 129.06

台灣

測試範例 RM S (1057) 75.48 75.470 75.472 75.55

將各國人均 GDP(美元，2003)( United Nations Statistics Division, 2003)與 AR(1)模型

的判定係數繪成散佈圖(圖 14)，可發現，除了巴西之外，人均 GDP 的對數值與 AR(1)

模型的判定係數成反比，可見高所得(高度經濟發展)國家的股票市場的市場效率比低所

得(低度經濟發展)者高，這與一般對效率市場的看法是吻合的。

(22)

表 5 各國人均 GDP(美元，2003) 與 AR(1)模型的判定係數之關係

國家 Log

10

GDP

全部範例判定係數

美國 4.567 0.000 巴西 3.431 0.003 英國 4.482 0.001 香港 4.354 0.001 印尼 2.975 0.026 日本 4.529 0.001 韓國 4.043 0.005 馬來西亞 3.626 0.013 墨西哥 3.774 0.013 台灣 4.098 0.004

y = -0.0132x + 0.0592 R² = 0.7111

0 0.005 0.01 0.015 0.02 0.025 0.03

2 2.5 3 3.5 4 4.5 5

人均GDP的對數值

AR(1)模型的判定係數

圖 14 各國人均 GDP(美元，2003) 與 AR(1)模型的判定係數之關係

4.6.3 BPN 分析

本研究以倒傳遞類神經預測十國股市時，網路架構設定為 2 個輸入層，8 個隱藏層，

以及 1 個輸出層。其他設定如 1 次非季節差分，學習循環數目為 3000，學習速率初始值

為 1，學習速率折減係數為 0.95，學習速率下限值為 0.1。表 6 為倒傳遞類神經網路預測

十國股市之實驗結果。

(23)

表 6 倒傳遞類神經網路預測十國股市之 RMS 值

所有範例訓練範例測試範例 BP

美國 30.09 (2117) 31.96 (1060) 28.08 (1057) (1,0,2) 巴西 322.22 (2117) 297.16 (1060) 345.53 (1057) (1,0,2) 英國 60.82 (2117) 71.24 (1060) 48.15 (1057) (1,0,2) 香港 205.38 (2117) 264.94 (1060) 118.67 (1057) (1,0,2) 印尼 10.112 (2117) 10.71 (1060) 9.48 (1057) (1,0,2) 日本 203.37 (2117) 247.00 (1060) 147.16 (1057) (1,0,2) 韓國 15.42 (2117) 17.64 (1060) 12.81 (1057) (1,0,2) 馬來西亞 10.61 (2117) 14.03 (1060) 5.31 (1057) (1,0,2) 墨西哥 110.86 (2117) 105.57 (1060) 115.93 (1057) (1,0,2) 台灣 106.31 (2117) 129.64 (1060) 76.03 (1057) (1,0,2)

4.6.4 ARIMA-BP 分析

表 7 為 ARIMA-BP 神經網路預測十國股市的結果。比較表 6 與表 7 中的測試範例之 RMS 值，可以發現 ARIMA-BP 的表現與倒傳遞神經網路不相上下，但是並未優於 ARIMA。

表 7 ARIMA-BP 預測十國股市之 RMS 值

所有範例訓練範例測試範例 ARIMA-BP

美國 30.10 (2117) 31.96 (1060) 28.10 (1058) (1,0,2,2) 巴西 322.26 (2117) 297.14 (1060) 345.63 (1058) (1,0,2,2) 英國 60.82 (2117) 71.25 (1060) 48.15 (1057) (1,0,2,2) 香港 205.26 (2117) 264.78 (1060) 118.65 (1057) (1,0,2,2) 印尼 10.111 (2117) 10.70 (1060) 9.48 (1057) (1,0,2,2) 日本 203.32 (2117) 246.97 (1060) 147.07 (1057) (1,0,2,2) 韓國 15.41 (2117) 17.63 (1060) 12.80 (1057) (1,0,2,2) 馬來西亞 10.58 (2117) 13.99 (1060) 5.30 (1057) (1,0,2,2) 墨西哥 110.88 (2117) 105.48 (1060) 116.04 (1057) (1,0,2,2) 台灣 106.23 (2117) 129.55 (1060) 75.96 (1058) (1,0,2,2)

(24)

4.6.5 比較

比較表 4，表 6，以及表 7 的測試範例之 RMS 值，可以清楚發現 ARIMA、BP、

ARIMA-BP 的表現不分軒輊。

伍、結論

改善時間序列預測模型的研究從未間斷過，在時間序列預測的研究中，ARIMA 模型已經成為最為人接受的方法之一。近年來，BPN 網路也證明了在時間序列預測的應用價值，特別是對非線性模型有非常顯著的處理能力。但相對於 ARIMA 而言，BPN 網路只使用到 AR 方面的資訊，而忽略 MA 方面的資訊，因此並不能保證它在各種預測環境下是最佳的方法。因此，本文提出了一種結合 ARIMA 與 BPN 網路來處理時間序列的 ARIMA-BPN 網路。其要點是將 MA 方面的資訊也成為 BPN 網路的輸入，因此導致必須修改 BPN 的學習演算法。

本研究以六個人為設計的例題，及一個現實世界的例題來比較 ARIMA、BPN 和 ARIMA‐BPN 三者的效能。研究結果顯示：

1. 對以殘差值構成的非線性時間序列而言，ARIMA‐BPN 有穩定且優於 ARIMA 與 BPN 的預測能力，在六個例題中有五個例題 ARIMA‐BPN 是最佳方法。

2. 對真實世界的實例而言，ARIMA-BPN 並未優於 ARIMA 與 BPN。

由上述實驗結果可知，加入殘差值到 BPN 模型的 ARIMA‐BPN 演算法能結合 BPN 與 ARIMA 的優點，改善 BPN 的預測能力，建立更精確的時間序列預測模型。但真實世界的實例如果不是穩定的非線性系統，則 ARIMA‐BPN 並未優於 ARIMA。

參考文獻

Bo, W., Shouyang, W., and Lai, K. K. (2007) “A hybrid ARCH-M and BP neural network model for GSCI futures price forecasting,” Lecture Notes in Computer Science, Vol.4489, 917–924.

Box, G. E. and Jenkins, G.. M. (1970). Time Series Analysis: Forecasting and Control, San Francisco: Holden-Day.

He,Y., Zhu, Y., and Duan, D. (2006) “Research on hybrid ARIMA and support vector machine model in short term load forecasting,” ISDA '06. Sixth International Conference on Intelligent Systems Design and Applications, Jinan, China, 1, 804-809.

Inoue, H., Fukunaga, Y., and Narihisa, H. (2001) “Efficient hybrid neural network for chaotic

time series prediction,” Lecture Notes in Computer Science, Vol. 2130, 712–718.

(25)

Jain, A. and Kumar, A.M. (2007) “Hybrid neural network models for hydrologic time series forecasting,” Applied Soft Computing, 7, 585–592.

Law, R. (2000). “Back-propagation learning in improving the accuracy of neural

network-based tourism demand forecasting,” Tourism Management, 21(4) 331-340.

Law, R. and Au, N. (1999). “A neural network model to forecast Japanese demand for travel to Hong Kong,” Tourism Management, 20(1), 89-97.

Pankratz, A. (1983). Forecasting with Univariate Box-Jenkins Models: Concepts and Cases.

New York: John Wiley.

Tseng, F.M., Yu, H.C., and Tzeng, G.H. (2001) “Combining neural network model with seasonal time series ARIMA model,” Technological Forecasting and Social Change, 69(1), 71–87.

Zhang, G. P. (2003) “Time series forecasting using a hybrid ARIMA and neural network model,” Neurocomputing, 50 , 159–175.

王成財(2000)，林陳彥，洪水鴻，游珮瑛，蕭佩玉，莊峻瑜，潘淯民，「結合類神經網路與時間序列預測台北地區臭氧濃度之研究」，第七屆人工智慧與應用研討會

(TAAI2002)論文集，53-58。

李振民(2001)，「以類神經網路為基礎之預測系統之研究」，中華大學土木工程研究所，

碩士論文。

呂志峰(1999)，品質成本與品質管理之關聯性研究-關聯性研究-類神經網路類神經網路預測模式之運用，義守大學管理科學研究所，碩士論文。

張百棧，王彥文，楊雯寧(2004)，「混合式預測模式之發展—預測台灣股價指數之波動」，

Journal of the Chinese Institute of Industrial Engineers, 21(4), 358-368.

湯健文(2003)，「類神經網路於因果關係模型與時間數列模型之應用」，中華大學土木工程研究所，碩士論文。

葉怡成(2005)，應用類神經網路，台北：儒林書局。

葉怡成(2006)，應用類神經網路—應用與實作，台北：儒林書局。

蔡裕春(2001)，台灣地區營造工程物價指數預測之研究—以類神經網路與 ARIMA 模

式，輔仁大學應用統計學研究所，碩士論文。

(26)

國科會補助專題研究計畫項下出席國際學術會議心得報告

日期：100 年 7 月 28 日

一、參加會議經過

此次 2011 ICMLC 國際研討會在 2011/2/26-28 新加坡召開。本人發表 Elliptical Probabilistic Neural Networks 這一篇是國科會 NSC-99-2221-E-216-040 的相關成果。

第一天 (2/26) 註冊

第二天 (2/27) 聽取學者演講第一天 (2/28) 上午論文口頭報告二、與會心得

這次會議的研究主題包含了許多機器學習的相關議題，並請學者專題演獎，其中 SVM、蟻群演算法似乎是重要趨勢。

三、建議

新加坡是一個風景秀麗的城市，觀光資源豐富。外國觀光客很多。

四、攜回資料名稱及內容 (1) 會議論文光碟一份 (2) 議程文件一份

計畫編號 NSC99－2221－E－216－040－

計畫名稱類神經網路演算法之改良(II) 出國人員

姓名葉怡成服務機構

及職稱

中華大學資管系教授

會議時間 100 年 2 月 26 日至

100 年 2 月 28 日會議地點新加坡

會議名稱

(中文)2011 年第三屆機器學習與計算國際會議 (英文)2011 3rd International Conference on Machine Learning and Computing (ICMLC 2011)

發表論文題目

(中文) 橢圓機率神經網路

(英文) Elliptical Probabilistic Neural Networks

(27)

(28)

(29)

Elliptical Probabilistic Neural Networks

I-Cheng Yeh / Department of Information Management, Chung Hua University

Hsin Chu, Taiwan 30067, R.O.C.

E-MAIL: [email protected]

Kuan-Cheng Lin / Department of Information Management, Chung Hua University

Hsin Chu, Taiwan 30067, R.O.C.

Kuan-Chieh Huang / Department of Computer Science and Information Engineering, Cheng-Kung University

Tainan, Taiwan 30067, R.O.C.

Xinying Zhang / Department of Management Science and Engineering in School of Economy and Management, Harbin Institute of Technology

Harbin, China

E-MAIL: [email protected] Chong Wu / Department of Management Science

and Engineering in School of Economy and Management, Harbin Institute of Technology

Harbin, China E-MAIL: [email protected] Abstract—The traditional Probabilistic Neural Networks (PNN)

believes that all the variables have the same status, making the contour of probabilistic density function round. In this study, variable weights are added into the probabilistic density function of Elliptical Probabilistic Neural Network (EPNN), so that the kernel function can be adjusted into arbitrary hyper-ellipse to match the various shapes of classification boundaries. Although there are three kinds of network parameters in EPNN, including variable weights representing the importance of input variables, the core-width-reciprocal representing the effective range of data, and data weights representing the data reliability, in this study the principle of minimizing error sum of squares is used to derive the supervised learning rules for all the parameters with a unified mathematic theoretical framework. The performance of EPNN is testified and compared with MLP and PNN with 15 real classification applications. The results show that EPNN is more accurate than MLP and PNN.

Keywords- probabilistic neural network, variable importance, classification, learning rule

THEORY

Probabilistic Neural Network (PNN) [1-6] has a wide range of applications in model identification, time series prediction, as well as fault diagnosis and other fields [7-11]

and the algorithm also has a number of different variations [3, 8-14]. For example, Specht [3] pointed out that PNN learned quickly from examples in one pass and asymptotically achieved the Bayes-optimal decision boundaries. The major disadvantage of a PNN was that it required one node or neuron for each training pattern.

Various clustering techniques were proposed to change this requirement into one node per cluster center.

Berthold and Diamond [13] proposed a constructive training algorithm for probabilistic neural networks, a special type of radial basis function networks. In contrast to other algorithms, predefinition of the network topology was not required. The proposed algorithm introduced new

hidden units whenever necessary and adjusted the shape of existing units individually to minimize the risk of misclassification. This led to smaller networks compared to classical PNNs and therefore enabled the use of large data sets. Song, et al. [8] proposed a modified probabilistic neural network (PNN) for brain tissue segmentation with magnetic resonance imaging (MRI). In this approach, covariance matrices were used to replace the singular smoothing factor in the PNN's kernel function, and weighting factors were added in the pattern of summation layer. Rutkowski [10] proposed a new class of PNN working in nonstationary environment. He formulated the problem of pattern classification in nonstationary environment as the prediction problem and designed a probabilistic neural network to classify patterns with time-varying probability distributions. Rutkowski [11] also proposed a new class of generalized regression neural networks working in nonstationary environment, and proved convergence of the General Regression Neural Network (GRNN) based on general learning theorems.

The proposed EPNN has three kinds of network parameters:

(1) The variable weights decide the shape of probabilistic density function so that the contour lines are not round but elliptical. The larger the variable weight of the variable, the more important the variable, and the smaller the radius of the ellipse in the direction of the variable;

(2) The core-width-reciprocal is equivalent to the reciprocal of the smooth parameter in the traditional probabilistic density function, that is, the width-reciprocal of probabilistic density function. The larger core-width (the smaller core-width-reciprocal), the larger the effective range of the sample;

(3) The data weight is equivalent to the height of probabilistic density function. The larger the height, the higher the credibility of the sample.

(30)

These three kinds of parameters, adjusted through training, can improve the accuracy of the model and can be employed to estimate the importance of input variables.

The contributions and innovations of this study are as follows.

(1) Hyper-elliptical probabilistic density function The traditional PNN believes all the variables have the same status, making the contour of probabilistic density function round. In this study, variable weights are added into the probabilistic density function so that we can adjust the kernel function into arbitrary hyper-ellipse to match the various shapes of classification boundaries. This variable weight can be regarded as the kernel shape parameter of the probabilistic density function. Based on several public data sets, this study proves that the probabilistic density function with the shape parameter is able to greatly improve the accuracy of classification model; EPNN is significantly more accurate than a traditional PNN and even a Multi-Layered Perception.

(2) Unified mathematic theoretical framework The traditional PNN often decides the smooth parameters (kernel radius parameters) of probabilistic density function with the trial and error method. Although there are three kinds of network parameters in EPNN, in this study, the principle of minimizing error sum of squares is used to derive the supervised learning rules for all the parameters, including kernel radius, shape, and height parameters of the probabilistic density function, with a unified mathematic theoretical framework.

In Section II, the learning rules of EPNN are derived.

In the third section, we testify the performance of EPNN and compare it with MLP and PNN with 15 real classification applications. In Section IV, we make a summary of the testing results in the entire study.

THEORY

Probabilistic Neural Network (PNN) is a common neural network model, the theory of which is based on Bayesian classifier and the probabilistic density function [1-5]. Assuming that a classification problem has k classes as

C

₁

, C

₂

,..., C

_k , the classification rules are made by m-dimensional feature vectors as follows,

) ,..., ,

( X

₁

X

₂

X

_m

X =

(1)

In this m-dimensional sample space, the classification probabilistic density function is the function of feature vectors

f

₁

( X ), f

₂

( X ),..., f

_k

( X )

, and for all

j ≠ i

, the decision-making formula of Bayesian classifier is

) ( )

( X h c f X f

c

h

_i _i _i

>

_j _j _j (2)

where

f

_k is the probabilistic density function of the k-th category;

c

_k represents the cost of error in which the k-th category is misjudged;

h

_k is the prior probability of the k-th category.

Generally, the probabilistic density function above is the normal probabilistic density function, shown as follow,

∑

= ⎟⎟⎠

⎜⎜ ⎞

⎝

⎛ − −

⎟⎟ −

⎠

⎜⎜ ⎞

⎝

= ⎛ ⁿ^a

p

ap ap

m a m a

X X X X X n

f

1 2

'

2 2

) (

) exp (

1 )

2 ( ) 1

( π σ σ

(3)

where

f

_a

( X )

represents the value of probabilistic density function of Category A at point X; m represents the number of input variables;

σ

represents the smooth parameter;

n

_a represents the number of training vectors in Category A ;

X

represents the testing data vector;

X

_ap

represents the p-th training data in Category A.

Because

⎟⎟ =

⎠

⎜⎜ ⎞

⎝

⎛

m a

m

n

1 )

2 (

1

2

σ

π

^Constant ⁼^h ^, and (4)

2 1

'

( ) ( )

)

(

_i _i^ap

m

i ap

ap

X X x x

X

X − − = ∑ −

=

(5)

the probabilistic density function can be simplified as follows,

∑

=

ⁿ^a

p ap

a

X h f

f

1

)

(

(6)

and

2 ) ) (

exp( ¹ ₂

2

σ

∑

=

−

=

m

i

ap i i ap

x x

f (7)

where

x

_i represents the value of i-th input variable in the testing sample;

x

_i^ap represents the i-th input variable of the p-th sample of Category A in the sample base.

Although PNN can deal with classification problems, it cannot fulfill the function mapping. Hence, Specht [6]

improved the network output with the weighted average method as follows,

∑

=

⋅

=

_n

p p n

p

p p

f t f y

1

(8)

where

t

_p

=

the known output variable of the p-th sample in the sample base;

f

_p

=

the weight of the p-th sample in the sample base; n = number of samples in the sample base.

行政院國家科學委員會專題研究計畫 成果報告