碩士論文中華大學

(1)

中華大學

碩士論文

題目：最小風險神經網路 Minimum Risk Neural Networks

系所別：資訊管理系

學號姓名：E09410013 曾培彥指導教授：葉怡成

中華民國九十六年七月

(2)

博碩士論文電子檔案上網授權書

（提供授權人裝訂於紙本論文書名頁之次頁用）

本授權書所授權之論文為授權人在中華大學資訊管理學系 95 學年度第二學期取得碩士學位之論文。

論文題目：最小風險神經網路指導教授：葉怡成

茲同意將授權人擁有著作權之上列論文全文（含摘要），非專屬、無償授權國家圖書館及本人畢業學校圖書館，不限地域、時間與次數，以微縮、光碟或其他各種數位化方式將上列論文重製，並得將數位化之上列論文及論文電子檔以上載網路方式，提供讀者基於個人非營利性質之線上檢索、閱覽、下載或列印。

讀者基非營利性質之線上檢索、閱覽、下載或列印上列論文，應依著作權法相關規定辦理。

授權人：曾培彥

簽名：_____________________ 中華民國 96 年 07 月 20 日

(3)

(4)

(5)

摘要

本研究提出最小風險神經網路(Minimum Risk Neural Networks, MRNN)，它以倒傳遞神經網路(BPN)為基礎，加入結構風險最小原理的分類間隔最大化的觀念，其目的為了提高 BPN 分類模型的普遍性，克服過度學習，以提對驗證範例的準確度。為了證明此網路的性能，本研究以五個人為設計的分類問題以及五個實際應用的分類問題來做測試，並與倒傳遞網路做比較。結果證明最小風險神經網路的模型準確度優於倒傳遞網路。本文並比較MRNN 與支援向量機的關係，

為兩者建立一個統一的理論架構，並證明權值衰減技術是MRNN 的簡化，為此技術找到較嚴謹的理論基礎。

關鍵字：倒傳遞網路、結構風險最小原理、支援向量機、權值衰減。

(6)

Abstract

This study proposed the Minimum Risk Neural Network (MRNN), which is based on back-propagation network (BPN) and combined with the concept of maximization of classification margin of Structural Risk Minimization Theory. Its purpose is to improve the generalization of BPN classification model and overcome the over-learning to increase the accuracy to validation examples. To prove the performance of this network, five artificial classification problems as well as five real classification problems were employed to test it and compare it with BPN. The results proved that the accuracy of MRNN is superior to BPN. Moreover, this study

compared the relation between MRNN and SVM as well as formed an unified theoretical framework for them, and proved that the weight decay technology is the simplification of MRNN, which build a more rigorous theoretical foundation for this technology.

Key words: back propagation network, structural risk minimization, SVM, weight

decay.

(7)

誌謝

首先感謝指導教授葉怡成老師的教導，使學生能夠順利完成學業。老師對學術之嚴謹與執著令人佩服，研究期間沐於老師之身教、言教之中，令我受益匪淺；

在此謹致最高之敬意與由衷的感謝。

同時也要感謝口試委員交通大學資工系傅心家博士及中華大學資管系系主任邱登裕博士在百忙之中抽空參加我的論文口試，不但提出相當多中肯的建議並給予寶貴的意見，讓我的論文更臻完善。

研究生涯中，感謝沛儒、榮原、育仕、進明等同儕好友們在生活與學業上的協助與關懷，很高興能與你們一起渡過這些時光。在這兼顧工作與課業的學習過程中，所經歷的每一分感覺與悸動皆難以磨滅，足以作為一輩子的資產。

最後由衷感謝父母親劬勞養育之恩與無怨無悔的付出，家人與至親好友不時給予我的支持鼓勵與包容，使我能順利完成學位。在此，僅將本論文獻給所有幫助過我的人以及我的家人。

曾培彥謹誌民國96 年 7 月

(8)

目錄

第一章前言...1

1-1 研究動機...1

1-2 研究方法...3

1-3 研究內容...5

第二章文獻回顧與理論推導...6

2-1 神經網路...6

2-1-1 模型架構...6

2-1-2 模型建立...8

2-2 支持向量機...14

2-2-1 模型架構...14

2-2-2 模型建立...15

2-3 最小風險神機網路...17

2-4 最小風險神機網路與權值衰減技術之關係...19

第三章數值例題...20

3-1. 例題一：一維分類問題...20

3-2. 例題二：二維線性邊界分類問題...22

3-3. 例題三：二維非線性邊界分類問題...25

3-4. 例題四：二維封閉邊界分類問題...28

3-5. 例題五：具空白區邊界的十維非線性邊界分類問題...31

3-6. 少量樣本之影響...32

3-7. 討論...36

第四章實例分析...38

4-1. 前言...38

4-2. 應用實例介紹...38

4-3. 應用實例結果...44

4-4. 少量樣本之影響...47

4-5. 結論...49

第五章結論與建議...51

5.1 結論...51

5.2 研究貢獻...51

5.3 未來研究建議...52

參考文獻 53 附錄一 MRNN 程式...55

A-1 使用手冊 ...55

A-3 流程圖 ...63

A-4 原始碼簡介 ...67

(9)

圖目錄

圖 1 - 1 線性可分情況下的最優分類面 ...3

圖 1 - 2 一維分類問題與分類函數 ...4

圖 2 - 1 處理單元 ...7

圖 2 - 2 轉換函數 ...7

圖 2 - 3 倒傳遞神經網路架構 ...8

圖 2 - 1 處理單元 ...7

圖 2 - 2 轉換函數 ...7

圖 2 - 3 倒傳遞神經網路架構 ...8

圖 3 - 1 例題一的問題描述 ...20

圖 3 - 2 例題一的雜訊與參數與誤判率的關係...21

圖 3 - 3 例題一的模型分類邊界 ...22

圖 3 - 4 例題二的問題描述 ...22

圖 3 - 5 例題二的雜訊與參數與誤判率的關係...23

圖 3 - 6 例題二的模型分類邊界 ...24

圖 3 - 7 例題三的問題描述 ...25

圖 3 - 8 例題三的雜訊與參數與誤判率的關係...26

圖 3 - 9 例題三的模型分類邊界 ...27

圖 3 - 10 例題四的問題描述 ...28

圖 3 - 11 例題四的雜訊與參數與誤判率的關係 ...29

圖 3 - 12 例題四的模型分類邊界 ...30

圖 3 - 13 例題五的雜訊與參數與誤判率的關係...31

圖 3 - 14 例題一的雜訊與參數與誤判率的關係...33

圖 3 - 15 例題二的雜訊與參數與誤判率的關係...33

圖 3 - 16 例題三的雜訊與參數與誤判率的關係...34

圖 3 - 17 例題四的雜訊與參數與誤判率的關係...35

圖 3 - 18 例題五之訓練樣本數與參數與誤判率的關係...35

圖 4-1 實例一的雜訊與參數與誤判率的關係...44

圖 4 - 2 實例二的雜訊與參數與誤判率的關係...45

圖 4 - 3 實例三的雜訊與參數與誤判率的關係...45

圖 4 - 4 實例四的雜訊與參數與誤判率的關係...46

圖 4 - 5 實例五的雜訊與參數與誤判率的關係...47

圖 4 - 6 實例一不同樣本的雜訊與參數與誤判率的關係...47

圖 4 - 7 實例二不同樣本的雜訊與參數與誤判率的關係...48

圖 4 - 8 實例三不同樣本的雜訊與參數與誤判率的關係...48

圖 4 - 9 實例四不同樣本的雜訊與參數與誤判率的關係...49

圖 4 - 10 實例五不同樣本的雜訊與參數與誤判率的關係...49

圖 4 - 11 樣本數目之影響比較 ...50

圖 4 - 1 實例一的雜訊與參數與誤判率的關係...44

圖 4 - 2 實例二的雜訊與參數與誤判率的關係...45

(10)

圖 4 - 5 實例五的雜訊與參數與誤判率的關係...47

圖 4 - 6 實例一不同樣本的雜訊與參數與誤判率的關係...47

圖 4 - 7 實例二不同樣本的雜訊與參數與誤判率的關係...48

圖 4 - 8 實例三不同樣本的雜訊與參數與誤判率的關係...48

圖 4 - 9 實例四不同樣本的雜訊與參數與誤判率的關係...49

圖 4 - 10 實例五不同樣本的雜訊與參數與誤判率的關係...49

圖 4 - 11 樣本數目之影響比較 ...50

附錄圖A2 - 1 訓練範例檔 ...58

附錄圖A2 - 2 測試範例檔 ...58

附錄圖A2 - 3 MRNN 執行畫面 ...60

附錄圖A2 - 4 收斂檔結果 ...61

附錄圖A2 - 5 結果檔數據 ...62

附錄圖A3 - 1 MRNN 之主要流程圖 ...63

附錄圖A3 - 2 MRNN 之訓練範例測試循環流程圖 ...64

附錄圖A3 - 3 MRNN 之測試範例測試循環流程圖 ...65

附錄圖A3 - 4 MRNN 之學習循環流程圖 ...66

(11)

表目錄

表 3 - 1 例題 1-4 訓練樣本數...32

表 3 - 2 具空白區邊界的十維非線性邊界分類問題在少量訓練樣本結果 ...36

表 4 - 1 五個實際分類例題 ...38

表 4 - 2 森林地表覆蓋類型實例的輸入變數 ...39

表 4 - 3 各覆蓋類型的資料數目 ...39

表 4 - 4 輸入變數表 ...40

表 4 - 5 SPAMBASE 的欄位說明 ...41

表 4 - 6 風險房貸顧客評估變數表 ...42

表 4 - 7 潛在貸款客戶發掘變數表 ...43

表 4 - 8 樣本數目之影響比較表 ...50

附錄表A1 - 1 參數檔格式 ...55

附錄表A1 - 2 訓練與測試檔格式 ...56

附錄表A1 - 3 結果檔格式 ...56

附錄表A1 - 4 誤差均方根檔格式 ...57

附錄表A1 - 5 連結權值格式 ...57

附錄表A2 - 1 參數設定檔 ...59

(12)

第一章前言

1-1 研究動機

類神經網路(artificial neural networks)藉由學習規則來修正本身的加權值和偏權值，可以建構準確的輸入變數與輸出變數之間的非線性模型，因此應用十分廣泛，例如診斷與預測等領域。因為類神經網路學習的目的在於降低網路輸出單元目標輸出值與推論輸出值之差距，所以一般以下列誤差函數(或稱能量函數)表示學習的品質 [1,2]：

j

Y

T

E

( )²

2

1 (1-1)

其中

T 為訓練範例之輸出層第 j 個輸出單元的目標輸出值；

_j

Y 為訓練範例之輸

_j 出層第 j 個輸出單元的推論輸出值。

網路的連結權值修正量可用最陡坡降法得到 [1,2]

i j ij

ij

X

W

W E

(1-2)

其中

W

_ij＝第 i 個單元與第 j 個單元間的連結加權值； =學習速率 (learning rate)，控制每次加權值修改的步幅； _j=第 j 個單元的誤差量；

X ＝第 i 個單元

_i 的輸入值。

雖然最小化(1-1)式的能量函數可以使類神經網路具有建立對訓練範例而言非常精確的非線性模型的能力，即模型具有重現性，但此一模型未必具有預測測試範例的能力，即不具普遍性。這種種現象稱之為過度學習(overlearning)。為了克服過度學習，有學者提出權值衰減(weight decay)的技術，即在能量函數中加入權值的平方和[3-6]：

2

1

E

=

j

Y

T

)² 2 (

1 + ^W

N

k

W

k 1

2

2 (1-3)

其中

W

_k＝第 k 個連結權值；

N

_W＝網路的連結權值總數； =連結權值懲罰係數，

控制權值衰減的程度，其值大於等於0。

(13)

此時網路的連結權值修正量為 ) ( _j _i _ij

ij

X W

W

W E

(1-4)

(1-4)式蘊藏「權值的修正量與權值大小反向」的概念，即當權值為正值時，

連結權值修正量會含一個與權值大小成比例的負項；當權值為負值時，連結權值修正量會含一個與權值大小成比例的正項；兩者都有避免權值往極端方向發展的效果，因此這種技術被稱為權值衰減(weight decay)。這個方法不是建立在嚴謹的理論根據上，而是基於啟發式的直覺：「在權值的平方和最小化的原則下，降低網路輸出單元目標輸出值與推論輸出值之差距，可以產生最具普遍性的網路。」

此方法雖然有時可以改善模型的普遍性，但也經常不具實效[3-6]。

支援向量機（Support Vector Machine）是 Vapnik 等人根據統計學理論提出的一種新的通用學習方法，它是建立在統計學理論的VC 維（Vapnik Chervonenks Dimension）理論和結構風險最小原理(Structural Risk Minimization Inductive Principle）的基礎上，能較好地解決小樣本、高維次、非線性和局部極小點等實際問題，已成為機器學習界的研究熱點之一，並成功的應用於分類、函數逼近和時間序列預測等方面[7-10]。

支援向量機是從線性可分情況下的最優分類面發展而來的，其基本思想可用圖1-1 的二維情況說明。圖中黑點和白點代表兩類樣本，H 為分類超平面，H1、 H2分別為過各類中距離分類超平面最近的樣本且平行於分類超平面的平面，它們之間的距離叫做分類間隔（margin）。所謂最優分類面就是要求分類面不但能將兩類正確分開（訓練錯誤率為0），而且使分類間隔最大，從而提高分類預測能力。距離最優分類超平面最近的向量稱為支持向量[7-10]。

在圖1-1 中，雖然圖(a)與圖(b)均可完全區分兩類樣本，但圖(b)顯然具有較佳的普遍性。因此在SVM 中採取下列的能量函數[7-10]：

2

1

E

=

k

i

C

i 1

+ ( , ) 1

b w

p

(1-5)

其中C=懲罰係數，C 0，C 越大，對分類的誤差的懲罰越重。 _i=鬆馳變數， _i 0，

(14)

(a)較差的分類超平面(分類間隔較小)

(b)較佳的分類超平面(分類間隔較大) 圖 1 - 1 線性可分情況下的最優分類面

在(1-5)式的能量函數中，第一項是使超平面分類的誤差儘量小，使模型具有重現性；第二項是使樣本到超平面的距離儘量大，從而提高模型分類預測能力，

即普遍性。比較(1-3)式與(1-5)式知，(1-5)式的第一項相當於(1-3)式的誤差平方和項，第二項相當於(1-3)式的權值平方和項。這個觀察啟發了本研究利用結構風險最小原理推導權值衰減技術理論基礎的動機。

1-2 研究方法

本研究試圖提升類神經網路的普遍性，其原理是以倒傳遞神經網路為基礎，

加入結構風險最小原理的分類間隔最大化的觀念。例如圖1-2 的一維分類問題，

自變數右端為Class A，其分類函數值為 1；自變數左端為 Class B，其分類函數

H2

支援向量

H

分類間隔

H₁

支援向量

H1

H H2

支援向量分類間隔支援向量

(15)

值為0。假設類神經網路經過不同的學習歷程去協這兩個分類的樣本後，產生 H、

H1、H2、H3等分類函數，由圖可知這四個分類函數如以函數值大於0.5 為界，都可以完全正確地區隔這兩個分類，但H1很明顯有過於傾向預測Class A 的可能；

H3有過於傾向預測Class B 的可能；兩者在預測測試範例時都必須冒著較大的誤判風險。H 與 H2分類函數雖然都沒有過於傾向預測Class A 或 Class B 的可能，

兩者在預測測試範例時都有較小的誤判風險，但由於這兩個分類中間有相當寬闊的區段沒有樣本，因此要產生H2分類函數是困難的；但如果限制分類函數必須有最小坡度，則可以得到H 分類函數。因此本文提出「最小風險神經網路」，其能量函數除誤差平方和以外，還考慮分類函數的坡度平方和，即一次微分的平方和：

2

1

E

=

j

Y

T

)² 2 (

1 +

2

2 _i

j

i j

X

Y

(1-6)

其中 =坡度平方和的懲罰係數，控制坡度平方和在能量函數中的比例，其值大於等於0。

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

圖 1 - 2 一維分類問題與分類函數

本文將證明(1-6)式的第二項可以得到與傳統權值衰減相似但更精緻的公式，為權值衰減技術找到嚴謹的理論基礎。

Class B

Class A

H3

H1 H2 H

(16)

1-3 研究內容

本研究第二章為文獻回顧與理論推導，第三章為五個數值例題、第四章為五個應用實例，它們被用來證明「最小風險神機網路」具有比傳統的倒傳遞網路更佳的普遍化預測能力，最後一章為結論。

(17)

第二章文獻回顧與理論推導

2-1 神經網路 2-1-1 模型架構

傳統上常用統計學上的方法作為分類的依據，例如邏輯迴歸、判別分析，這些方法頗具成效，然而在面對許多複雜的問題時，這些方法仍有所不足，最主要的問題是傳統統計學方法對非線性系統以及變數間有交互作用的系統較難適用。

近年來神經網路(Artificial Neural Network, ANN)已被視為非常有效的非線性模型建構工具。神經網路是指模仿生物神經網路的資訊處理系統。神經網路較精確的定義為：「神經網路是一種計算系統，包括軟體與硬體，它使用大量簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是生物神經元的簡單模擬，它從外界環境或者其他人工神經元取得資訊，並加以非常簡單的運算，並輸出其結果到外界環境或者其他人工神經元。」

神經網路除了具有建構非線性模型能力的優點外，另一個優點是其處理分類與迴歸這二類問題的方法幾乎相同，因此使用上非常方便，應用十分廣泛。

神經網路是由許多人工神經元（artificial neuron）所組成，人工神經元又稱處理單元（processing element）（圖 2-1）。每一個處理單元的輸出，成為許多處理單元的輸入。處理單元其輸出值與輸入值之間的關係式，一般可用輸入值的加權乘積和之函數來表示，公式如下：

) (

i

j i ij

j

f W X

Y

(2-1)

其中

閥值。

模仿生物神經元的型的

輸入訊號。

模仿生物神經元模型的

加權值神經節強度，又稱連結

轉換函數。

輸出訊號。

j i ij j

X W f Y

。

介於處理單元間的訊號傳遞路徑稱為連結（connection）。每一個連結上有一

(18)

神經網路是由許多個人工神經元與其連結所組成，並且可以組成各種網路模式

（network model）。其中以倒傳遞網路（Back-Propagation Network，BPN）應用最普遍。一個BPN 包含許多層，每一層包含若干個處理單元。輸入層處理單元用以輸入外在的環境訊息，輸出層處理單元用以輸出訊息給外在環境。此外，另包含一重要之處理層，稱為隱藏層（hidden layer），隱藏層提供神經網路各神經元交互作用，與問題的內在結構處理能力。

轉換函數通常被設為一個具有雙向彎曲的指數函數：

e x

1

f(x) 1 (2-2)

此函數在自變數趨近負正無限大( , )時，函數值趨近(0,1)，如圖 2-2 所示。

j j 處理單元

Xi輸入變數 Yj輸出變數

W_ij

圖 2 - 1 處理單元

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5

轉換函數自變數值

轉換函數值

圖 2 - 2 轉換函數

倒傳遞神經網路架構如圖2-3所示，包括：

輸入層：用以表現網路的輸入變數，其處理單元數目依問題而定。使用線性轉換函數，即 f(x)=x。

隱藏層：用以表現輸入處理單元間的交互影響，其處理單元數目並無標準方法可以決定，經常需以試驗方式決定其最佳數目。使用非線性轉換函數。網

(19)

路可以不只一層隱藏層，也可以沒有隱藏層。

輸出層：用以表現網路的輸出變數，其處理單元數目依問題而定。使用非線性轉換函數。

X₁輸入變數 X₂輸入變數 X₃輸入變數 H₂ H1

Y 輸出變數

4

6

5

W₁₄

W₅₆ W₄₆

W₂₄

W34 W15

W₂₅ W₃₅ 4 號單元

1 號單元 2 號單元 3 號單元 6 號單元

5 號單元

輸入層隱藏層輸出層

圖 2 - 3 倒傳遞神經網路架構

2-1-2 模型建立

倒傳遞神經網路模式(Back-propagation Network，BPN)是目前神經網路學習模式中最具代表性，應用最普遍的模式。已發表的應用至少在數千個以上，不勝枚舉。倒傳遞神經網路基本原理與迴歸分析一樣是最小化誤差平方和，而不同之處有：

(1) 誤差函數的組成：誤差平方和不是迴歸係數的函數，而是連結加權值與門限值的函數。

(2) 誤差函數最小化：因為神經網路是非線性系統，無法同迴歸分析一樣用極值

(20)

利用最陡坡降法(Gradient Steepest Descent Method)以迭代的方式將誤差函數予以最小化，而解得連結加權值與門限值。

網路演算法

以下用一個具有單層隱藏層的層狀神經網路為例(如圖 2-3 所示)，說明倒傳遞演算法如何應用一個訓練範例的一組輸入值，與一組目標輸出值，修正網路連結加權值與門限值，而達到學習的目的。下列推導需具初等微積分知識，讀者如不熟悉，請直接跳到結論。

首先，應用訓練範例的輸入處理單元的輸入值 {X}，計算隱藏層隱藏處理單元的輸出值 {H} 如下：

) exp(

1 1

k

net

H

(2-3)

k i ik i

k

W X

net

(2-4) 其中

H

_k＝第 k 個隱藏單元的輸入值；

net

_k＝輸入值之加權乘積和；

X ＝第 i 個

_i 輸入單元的輸入值；

W

_ik^＝第 i 個輸入單元與第 k 個隱藏單元間的連結加權值；

k=第k個隱藏單元的門限值。

同理，應用隱藏層隱藏處理單元的輸出值 {H}，計算輸出層處理單元的推論輸出值 {Y}如下：

) exp(

1 1

j

net

Y

(2-5)

j k

k kj

j

W H

net

(2-6) 其中

net ＝隱藏值之加權乘積和；

_j

W ＝第 k 個隱藏單元與第j個輸出單元間的

_kj 連結加權值； _j＝第 j 個輸出單元的門限值。

網路推得的「推論輸出值」與訓練範例原有的「目標輸出值」相較可得網路誤差。網路即利用此誤差作為修正連結中的加權值的依據，以從訓練範例中，學習隱含的分類知識。因為監督式學習旨在降低網路輸出單元目標輸出值與推論輸出值之差距，所以一般以下列誤差函數(或稱能量函數)表示學習的品質：

(21)

E = (1/2) (Tj-Yj)² (2-7) 其中 (a) Tj 為訓練範例之輸出層第 j 個輸出單元的目標輸出值；

(b) Yj 為訓練範例之輸出層第 j 個輸出單元的推論輸出值。

顯然網路學習的目的為：修正網路連結上的加權值，使網路誤差函數達到最小值，即使推論輸出值趨近目標輸出值，如此，網路已經從訓練範例中學習到隱含在訓練範例中的系統模型。因此，網路的學習過程變成使上述誤差函數最小化的過程。因為誤差函數是網路連結上加權值的函數，所以為了使誤差函數達到最小值，可用「最陡坡降法」來使能量函數最小化，即每當輸入一個訓練範例，網路即小幅調整連結加權值的大小，調整的幅度和誤差函數對該加權值的敏感程度成正比，即與誤差函數對加權值的偏微分值大小成正比：

-

= W W

η E

Δ (2-8)

其中 η 稱為學習速率 (learning rate)，控制每次加權值修改的步幅。

以下分成二部份推導連結加權值修正量公式：

1.隱藏層與輸出層間之連結加權值 2.輸入層與隱藏層間之連結加權值分述如下：

1.隱藏層與輸出層間之連結加權值

誤差函數對網路隱藏層第 k 個單元與輸出層第 j 個單元間之連結加權值 Wkj 的偏微分可用微積分學的連鎖律 (chain rule) 得

k j j

j kj

j j j j kj

H ) (net f ) Y - -(T W = net net

Y Y

= E W

E (2-9)

令 δj 定義為輸出層第 j 個輸出處理單元的誤差量：

(22)

) (net f ) Y - (T

= _j _j _j

δj (2-10)

則網路輸出層與隱藏層間連結之加權值 Wkj 之修正量如下：

k k

j j

j kj

kj (T -Y ) f (net ) H H

W - E

=

W η η η _j

Δ

(2-11)

同理，輸出單元的門限值修正量

- E = -

=

j j

j ηδ

η θ

Δθ (2-12)

2.輸入層與隱藏層間之連結加權值

誤差函數對網路輸入層第 i 個單元與隱藏層第 k 個單元間之連結加權值 Wik 的偏微分為：

Wik

E

ik k k k

k W

net net

H H

= E

i k

j k

j j j j

X ) (net H f

net net

Y Y

= E

i k j

kj j j

j -Y) f (net ) W f (net ) X

(T -

=

i k j

kj

jW f (net ) X

-

= (2-13)

令 δk 定義為隱藏層第 k 個隱藏處理單元的誤差量：

) (net f W

= _k

j kj j

k (2-14)

則網路隱藏層與輸入層間的連結加權值Wik 之修正量如下：

(23)

i k i

k j

kj j ik

ik W f (net ) X X

W - E

=

W η η η

Δ (2-15)

同理，隱藏單元的門限值修正量

- E = -

=

k j

k ηδ

η θ

Δθ (2-16)

通常上述公式在應用時會加上一個慣性(momentum)項，即加上某比例的上次加權值的修正量以改善收斂過程中振盪的現。因此可改寫成

ΔWkj(n) = ηδjHk + αΔWkj(n-1) (2-17) Δθj(n) = -ηδj + αΔθj(n-1) (2-18) ΔWik(n) = ηδkXi + αΔWik(n-1) (2-19) Δθk(n) = -ηδk + αΔθk(n-1) (2-20) 其中 (1) α 稱為慣性因子，控制慣性項之比例；

(2) ΔWkj(n) 表示加權值 Wkj 第 n 次之修正量；

(3) ΔWkj(n-1) 表示加權值 Wkj 第 n-1 次之修正量；

(4) ΔWik(n) 表示加權值 Wik 第 n 次之修正量；

(5) ΔWik(n-1) 表示門限值 Wik 第 n-1 次之修正量；

(6) Δθj(n) 表示門限值 θj 第 n 次之修正量；

(7) Δθj(n-1) 表示門限值 θj 第 n-1 次之修正量；

(8) Δθk(n) 表示門限值 θk 第 n 次之修正量；

(9) Δθk(n-1) 表示門限值 θk 第 n-1 次之修正量。

結論：(2-17)、(2-18)、(2-19)、(2-20)式即倒傳遞演算法之關鍵公式，這種學習法則稱之為「通用差距法則」(General Delta Rule)。至於沒有隱藏層時，輸入層與輸出層間的加權值修正量和隱藏單元的門限值修正量與(2-17)式及(2-18)式相近。當隱藏層不只一層時，可依(2-19)式與(2-20)式類推。

如果非線性轉換函數使用雙彎曲函數，即(2-2)式，則

(24)

f(x) 1 f(x)

e 1 1 1 e 1

1 e

1 e e

1 1 e

1 e e

1 1 dx

d dx df(x) (x)

f _x _x _x

-x x

x 2 x x

(2-21) 故

f '(netk) = f(netk)(1-f(netk)) = Hk(1-Hk) (2-22) f '(netj) = f(netj)(1-f(netj)) = Yj(1-Yj) (2-23) 此學習過程通常以一次一個訓練範例的方式進行 (稱之為「逐例學習」)，

直到學習完所有的訓練範例，稱為一個訓練循環 (learning cycle)。一個網路可以將訓練範例重覆學習數百甚至數萬個訓練循環，直至達到收斂。如果學習過程改以一次多個訓練範例的方式進行，即累積多個訓練範例後再修改權值一次的方式進行，稱之為「加權值累積式更新」或稱「批次學習」(batch learning)。

倒傳遞網路演算法整理如下(單層隱藏層倒傳遞網路)：

學習過程：

1.設定網路參數。

2.以均佈隨機亂數設定加權值矩陣與門限值向量初始值。

3.輸入一個訓練範例的輸入向量 X，與目標輸出向量 T。

4.計算推論輸出向量 Y

(a) 計算隱藏層輸出向量 H

netk= Wik X i-θk (2-24) Hk=f(netk) (2-25) (b) 計算推論輸出向量 Y

netj= WkjHk-θj (2-26)

Yj=f(netj) (2-27) 5.計算差距量δ

(a) 計算輸出層差距量δ

δ_j =(T_j-Y_j) Y_j (1-Y_j) (2-28) (b) 計算隱藏層差距量δ

= W H_k (1-H_k)

j kj j

k (2-29)

6.計算加權值矩陣修正量，及門限值向量修正量

(25)

(a) 計算輸出層加權值矩陣修正量，及門限值向量修正量

ΔWkj(n) = ηδjHk + αΔWkj(n-1) (2-30) Δθj(n) = -ηδj + αΔθj(n-1) (2-31) (b) 計算隱藏層加權值矩陣修正量，及門限值向量修正量

ΔWik(n) = ηδkXi + αΔWik(n-1) (2-32) Δθk(n) = -ηδk + αΔθk(n-1) (2-33) 7.更新加權值矩陣，及門限值向量

(a) 更新輸出層加權值矩陣，及門限值向量

Wkj=Wkj+ΔWkj (2-34) θj=θj+Δθj (2-35) (b) 更新隱藏層加權值矩陣，及門限值向量

Wik=Wik+ΔWik (2-36) θk=θk+Δθk (2-37) 8.重覆步驟 3 至步驟 7，直到收斂。

2-2 支持向量機 2-2-1 模型架構

支援向量機（Support Vector Machine），又譯為支撐向量機，或支持向量機，

是Vapnik 等人根據統計學理論提出的一種新的通用學習方法，它是建立在統計學理論的VC 維（Vapnik Chervonenks Dimension）理論和結構風險最小原理 (Structural Risk Minimization Inductive Principle）的基礎上，能較好地解決小樣本、高維次、非線性和局部極小點等實際問題，已成為機器學習界的研究熱點之一，並成功的應用於分類、函數逼近和時間序列預測等方面。

支援向量機是從線性可分情況下的最優分類面發展而來的，其基本思想可用圖1-1 的二維情況說明。圖中黑點和白點代表兩類樣本，H 為分類超平面，H1、 H2分別為過各類中距離分類超平面最近的樣本且平行於分類超平面的平面，它們之間的距離叫做分類間隔（margin）。所謂最優分類面就是要求分類面不但能將兩類正確分開（訓練錯誤率為0），而且使分類間隔最大，從而提高分類預測能力。距離最優分類超平面最近的向量稱為支持向量。

(26)

2-2-2 模型建立

設樣本為n 維向量，某區域的 k 個樣本及其所屬類別表示為

(x1,y1),…,(xk,yk) (2-38) 其中 xi為n 維向量，yi={±1}為二元分類變數。

設超平面 H 表示為

w·x+b=0 (2-39)

「兩類正確分開」的要求

依據最優分類面必須使「兩類正確分開」的要求，對所有樣本 x_i滿足下列不等式：

w·xi+b=1 若 yi=1 (2-40a)

w·xi+b=-1 若 yi=-1 (2-40b) 可將上述不等式合併為單一不等式：

yi·(w·xi+b)=1 i=1,2,…,k. (2-41)

「分類間隔最大」的要求

依據「分類間隔」的定義：「H 為分類超平面，H1、H2分別為過各類中距離分類超平面最近的樣本且平行於分類超平面的平面，H1、H2之間的距離稱為分類間隔。」故分類間隔可表示為：

) , , ( )

, , ( )

,

(

Min Min

} 1 : { }

1 :

{ j

y x i y

x

x b w d x

b w d b

w p

j j i

i

(2-42)

因為點 x 到超平面 H 的距離為：

w b x x w

b w

d

( , , ) (2-43)

代入(2-42)得

w b x w w

b x b w

w

p

^j

y x i

y

x_i _i

Min

_j _j

Min

{ : 1} { : 1}

) ,

( (2-44)

由(2-40)式知，最優分類面必須使「兩類正確分開」，得 w·xi+b=1 若 yi=1

w·xi+b=-1 若 yi=-1 故

(27)

w w

b x w

_i

y x_i _i

Min

1

} 1 : {

(2-45a)

w w

b x w

_j

y x_j _j

Min

1

} 1 : {

(2-45b) 代入(2-44)得

w w b w

w

p

1 1 2

) ,

( (2-46)

限制最佳化問題

依據最優分類面必須使「分類間隔最大」的要求，就是使上式最大化，相當於將其倒數最小化。此外最優分類面必須使「兩類正確分開」的要求，因此必須滿足式(2-40)的條件。綜合以上二個要求，構造最優分類超平面的問題可轉化為以下的限制最佳化問題：

b w w b p

w

Min

2

1 ) , ( ) 1 ,

( (2-47)

subjected to yi·(w·xi+b)=1 i=1,2,…k. (2-48)

但是考慮到可能存在一些樣本不能被超平面正確分類，即(2-48)式無法被滿足，因此引入鬆馳變數ξi，將(2-48)修改成

yi·(w·xi+b)=1-ξi, i=1,2,…,k. (2-49)

顯然，當樣本分類出現錯誤時，ξi大於零；分類沒有錯誤時，ξi等於零。故

ξi=0, i=1,2,…,k (2-50)

最優分類超平面為了盡可能減少不能被超平面正確分類的樣本數，應使鬆馳變數最小化，因此將鬆馳變數的和視為「懲罰項」，加入目標函數。綜合以上考慮，構造最優分類超平面的問題可轉化為以下的限制最佳化問題：

k

i

C

i

w b

w Min

2 1

) 1 ,

( (2-51)

Subjected to yi·(w·xi+b)=1-ξi, i=1,2,…,k. (2-52)

(28)

在(2-51)式中，C 為懲罰係數，C 0，C 越大，對分類的誤差的懲罰越重。目標函數(2-51)的第一項是使樣本到超平面的距離儘量大，從而提高分類預測能力；第二項以及限制條件(2-52)是使超平面分類的誤差儘量小。

最優分類超平面的係數可由求解(2-51)與(2-52)所構成的限制最佳化問題得到，但其原理較複雜，在此不討論。

2-3 最小風險神機網路

最小風險神機網路的能量函數如(1-6)式所示，根據最陡坡降法，網路的連結權值修正量可用能量函數對連結權值的偏微分得到

ij ij

ij

W

E W

W E

¹ ² (2-53)

以下分成二部份推導具有一層隱藏層的神經網路其加權值與偏權值的修正量公式：

隱藏層與輸出層間之連結加權值與偏權值的修正量公式

k j j

j kj

j j j j kj

H net f Y net T

net Y Y

E W

E

( ) '( )

W

1 (2-54)

令

) ( ' )

( _j _j _j

j

T Y f net

(2-55)

則

k j kj

W H E

₁

(2-56)

i j i

j kj

kj

X

Y W

E

₂ ²

2 1

W (2-57)

上式中的一階微分可用連鎖律推導

i k k k

k k

j j j i

j

X net net

H H net net

Y X

Y

l

il l lj

j

W f net W

net

f

^'( ) ^'( ) (2-58)

(29)

將(2-58)式代入(2-57)式得

i l

il l lj

j kj

i j l

il l lj

j kj

kj

W net f W net f

W net f W net W f

E

2 2 2

) ( ' )

( W '

2 1

) ( ' )

( 2 '

1 W

i

ik k j

l

il l lj

j

W f net W f net f net W

net

f

'( ) '( ) '( ) '( ) (2-59) 故

i

ik k j

l

il l lj

j k

j

kj kj

kj

W net f net f W net f W net f H

W E W

W E

) ( ' ) ( ' )

( ' )

( '

2 1

(2-60) 輸入層與隱藏層間之連結加權值與偏權值的修正量公式

i k

j k

j j j j

ik k k k k ik

X net H f

net net

Y Y

E

net net

H H

E W

E

) ( ' W

1

i k j

kj j j

j

Y f net W f net X

T

) '( ) '( )

(

i k j

kj

j

W f

'(

net

)

X

(2-61)

令

) ( ' _k

j kj j

k

W f net

(2-62)

則

i k ik

W X E

₁

(2-63)

(30)

i j i j ik

ik

X

Y W

E

₂ ²

2 1

W (2-64)

將(2-58)式代入(2-64)式得

j l

il l lj

j ik

i j l

il l lj

j ik

ik

W net f W net f

W net f W net W f

E

2 2 2

) ( ' )

( W '

2 1

) ( ' )

( 2 '

1 W

j

k kj

j l

il l lj

j

W f net W f net W f net

net

f

'( ) '( ) '( ) '( ) (2-65) 故

j

k kj

j l

il l lj

j i

k

ik ik

ik

net f W net f W net f W net f X

W E W

W E

) ( ' )

( ' )

( '

2 1

(2-66)

2-4 最小風險神機網路與權值衰減技術之關係

為尋找最小風險神機網路與權值衰減技術之關係，因(2-60)式中的

f

^'(

net

_j) 與

f

^'(

net

_k)必為正值，並不影響(2-60)式的正負號，而因此可以考慮忽略之，故可簡化得

ik

i l

lj il k

j

kj

H W W W

W

(2-67)

同理，(2-66)式可減化為

kj

j l

lj il i

k

ik

X W W W

W

(2-68)

比較(2-67)式與(2-68)式和權值衰減技術之(1-4)式可知，兩者的基本原則類似，都蘊藏「權值的修正量與權值大小反向」的概念，因此傳統的權值衰減技術可視為最小風險神機網路的簡化，為權值衰減技術找到嚴謹的理論基礎。

(31)

第三章數值例題

為了驗證最小風險神經網路是否可以找到最小風險的分界線，本節設計數個特殊的分類問題。在這些問題中，分類之間具有寬闊的區域沒有訓練樣本，而所有的測試樣本都取自此區域。因此分類邊界如果能依照最小風險原理產生，其測試樣本的誤判率應該可達到最低；相反地，如果未能依照最小風險原理，而只是企圖產生一個可以把訓練樣本正確分類的邊界，其測試樣本的誤判率可能很高。

3-1. 例題一：一維分類問題

圖3-1 為一維分類問題，自變數右端(X>0.5)為 Class A，其分類函數值為 Y=1；自變數左端(X<0.5)為 Class B，其分類函數值為 Y=0。但分類之間具有寬闊的區域(X=0.4~0.6)沒有訓練樣本，所有的測試樣本都取自此區域。

0 0.2 0.4 0.6 0.8 1

X

Y Train Data

Test Data

圖 3 - 1 例題一的問題描述

(32)

為了探討MRNN 在有雜訊的情況下是否仍能有很好的效果，在此例題分別加入5%、10%、20%的雜訊，即訓練樣本中，有該比例的樣本的分類故意改為錯誤的類別。對MRNN 而言，最重要的參數為，在此取 0.01、0.1、1、3、5、

10、100 等七種值，其結果如圖 3-2。為了與傳統的 BPN 比較，在此將 MRNN 中的參數設為0，MRNN 即退化為傳統的 BPN。由於圖 3-2 為對數尺度，參數設為0 時無法標在圖上，因此將參數設為 0 的情形，以參數設為 0.0001 來表示。此外，為了避免網路的初始設定的影響，圖3-2 中的每一個點都是執行十次的平均值成果。由圖可知MRNN 在參數設為 0.1 時有極佳的表現，在 0%、

5%、10%、20%的雜訊下，其誤判率為 0%、0%、3%、0%，而傳統的 BPN 高達 3%、3%、16%、40%。

0 0.1 0.2 0.3 0.4 0.5 0.6

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

0%雜訊 5%雜訊 10%雜訊 20%雜訊

圖 3 - 2 例題一的雜訊與參數與誤判率的關係

為了確認，將在0%的雜訊下 MRNN 與 BPN 的分類函數繪於圖 3-3，由圖可知，MRNN 的分類邊界(Y=0.5)的位置十分接近正確的位置(X=0.5)，而 BPN 的分類邊界的位置較偏離正確的位置。可見MRNN 的分類邊界確實有最小風險的效果，其邊界十分靠近訓練樣本中的二類樣本中間地帶的中心線。

BPN

(33)

-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

X

Y BPN

M RNN

圖 3 - 3 例題一的模型分類邊界

3-2. 例題二：二維線性邊界分類問題

圖3-4 為二維線性分類問題，右上方為 Class A，其分類函數值為 Y=1；左下方為Class B，其分類函數值為 Y=0。分類邊界為

2 1

1

x

(3-1)

但分類之間具有寬闊的區域(

x

₁

x

₂ 0.8~1.2)沒有訓練樣本，所有的測試樣本都取自此區域。

0 0.2 0.4 0.6 0.8 1

X1

X2

Train Data - A Train Data - B Test Data - A Test Data - B

正確分類邊界

(34)

為了探討MRNN 在有雜訊的情況下是否仍能有很好的效果，在此例題分別加入5%、10%、20%的雜訊。對 MRNN 而言，最重要的參數為，在此取 0.01、

0.1、1、3、5、10、100 等七種值，其結果如圖 3-5。為了與傳統的 BPN 比較，

在此將MRNN 中的參數設為 0，MRNN 即退化為傳統的 BPN。由於圖 3-5 為對數尺度，參數設為0 時無法標在圖上，因此將參數設為 0 的情形，以參數設為0.0001 來表示。此外，為了避免網路的初始設定的影響，圖 3-5 中的每一個點都是執行十次的平均值成果。由圖可知，MRNN 在參數設定太小時( 參數=0.01)，其效果等同 BPN；在參數設定太大時( 參數>1)，其效果比 BPN 還差；但在適當的參數時，其效果可能比BPN 還要佳。在 0%、5%、10%、20%

的雜訊下，MRNN 在適當的參數下，誤判率為 1%( =0.1)、6%( =0.1)、

8%( =1)、4%( =0.01)，而傳統的 BPN 高達 12%、13%、12%、19%。可知無論雜訊高低，只要參數選取得當，MRNN 誤判率都可以低於傳統的 BPN。

0 0.1 0.2 0.3 0.4 0.5 0.6

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

0%雜訊 5%雜訊 10%雜訊 20%雜訊

圖 3 - 5 例題二的雜訊與參數與誤判率的關係

為了確認，將在0%的雜訊下 MRNN 與 BPN 的分類函數繪於圖 3-6，由圖可知，MRNN 的分類邊界(Y=0.5)的位置較接近正確的位置，即座標(0,1)至(1,0)的對角線，而BPN 的分類邊界的位置較偏離正確的位置。可見 MRNN 的分類邊界

BPN

(35)

確實有最小風險的效果，其邊界十分靠近訓練樣本中的二類樣本中間地帶的中心線。

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

X1

X2

0.500 -1.000 0.000 -0.500

(a) BPN 的分類邊界

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

X1

X2

0.500 -1.000 0.000 -0.500

(b) MRNN 的分類邊界圖 3 - 6 例題二的模型分類邊界

正確分類邊界正確分類邊界

(36)

3-3. 例題三：二維非線性邊界分類問題

圖3-7 為二維非線性分類問題，右上方為 Class A，其分類函數值為 Y=1；

左下方為Class B，其分類函數值為 Y=0。分類邊界為 8

.

2 0

2 2

1

x

(3-2)

但分類之間具有寬闊的區域(

x

₁²

x

₂² =0.7~0.9)沒有訓練樣本，所有的測試樣本都取自此區域。

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6 0.8 1 X1

X2

圖 3 - 7 例題三的問題描述

本題作法於與前題相似，在此不再贅述，參數取0.001、0.01、0.03、0.1、

1、10、100 等七種值，其結果如圖 3-8。由圖可知，在低雜訊下(0~10%)，MRNN 誤判率可以低於傳統的BPN，但在高雜訊下(20%)，則無法優於 BPN。在適當的參數時( 參數=0.01)，在 0%、5%、10%、20%的雜訊下，其誤判率為 5%、

4%、9%、16%，而傳統的 BPN 高達 4%、15%、35%、16%。

正確分類邊界

(37)

0 0.1 0.2 0.3 0.4 0.5

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

0%雜訊 5%雜訊 10%雜訊 20%雜訊

圖 3 - 8 例題三的雜訊與參數與誤判率的關係

為了確認，將在5%的雜訊下 MRNN 與 BPN 的分類函數繪於圖 3-9，由圖可知，MRNN 的分類邊界(Y=0.5)的位置較接近正確的位置，即以(0,0)為中心，半徑0.8 的 1/4 圓；而 BPN 的分類邊界的位置較偏離正確的位置。可見 MRNN 的分類邊界確實有最小風險的效果，其邊界十分靠近訓練樣本中的二類樣本中間地帶的中心線。

BPN

(38)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

X1

X2

0.500 -1.000 0.000 -0.500

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

X1

X2

0.500 -1.000 0.000 -0.500

(b) MRNN 的分類邊界

圖 3 - 9 例題三的模型分類邊界正確分類邊界

正確分類邊界

(39)

3-4. 例題四：二維封閉邊界分類問題

圖3-10 為二維非線性分類問題，圓球內為 Class A，其分類函數值為 Y=1；

圓球外為Class B，其分類函數值為 Y=0。分類邊界為 31

. 0 ) 5 . 0 ( ) 5 . 0

(

x

₁ ²

x

₂ ² (3-3)

但分類之間具有寬闊的區域( (

x

₁ 0.5)² (

x

₂ 0.5)² =0.25~0.4)沒有訓練樣本，所有的測試樣本都取自此區域。

0 0.2 0.4 0.6 0.8 1

X1

X2

圖 3 - 10 例題四的問題描述

本題作法於與前題相似，在此不再贅述，參數取0.001、0.003、0.01、0.03、

0.05、0.1、0.15、0.3、1、10、100 等十一種值，其結果如圖 3-11。由圖可知，

在不同雜訊下(0~20%)，MRNN 誤判率都可以低於傳統的 BPN。在適當的參數時，在0%、5%、10%、20%的雜訊下，其誤判率為 12%( =0.03)、17%( =0.15)、

19%( =0.1)、23%( =0.1)，而傳統的 BPN 高達 20%、22%、25%、26%。基本上，雜訊越大，適當的參數會越大，因為在高度雜訊下，更需要在能量函數中

正確分類邊界

(40)

0.1 0.15 0.2 0.25 0.3 0.35 0.4

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

0%雜訊 5%雜訊 10%雜訊 20%雜訊

圖 3 - 11 例題四的雜訊與參數與誤判率的關係

為了確認，將在0%的雜訊下 MRNN 與 BPN 的分類函數繪於圖 3-12，由圖可知，MRNN 的分類邊界(Y=0.5)的位置較接近正確的位置，即以(0.5,0.5)為中心，半徑0.31 的圓；而 BPN 的分類邊界的位置較偏離正確的位置。可見 MRNN 的分類邊界確實有最小風險的效果，其邊界十分靠近訓練樣本中的二類樣本中間地帶的中心線。

BPN

(41)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

X1

X2

0.500 -1.000 0.000 -0.500

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.00.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

X1

X2

0.500 -1.000 0.000 -0.500

(b) MRNN 的分類邊界

圖 3 - 12 例題四的模型分類邊界

正確分類邊界

(42)

3-5. 例題五：具空白區邊界的十維非線性邊界分類問題

設一個十維的分類問題，其分類函數為

] ) 5 . 0 (

8 ) 5 . 0 (

4 ) 5 . 0 (

2 ) 5 . 0 (

1 ) 5 . 0 (

0 [ 4 8

4 2

1 0

2 10

2 9

2 8

2 7

2 6

5 4

3 2

1

X X

X

X X

X

Y

(3-4)

分類邊界為 06 . 0

Y

(3-5)

但分類之間具有寬闊的區域(Y =-0.12~0.00)沒有訓練樣本，所有的測試樣本都取自此區域。

本題作法於與前題相似，在此不再贅述，參數取0.001、0.01、0.1、1、10、

100 等六種值，其結果如圖 3-13。由圖可知，在不同雜訊下(0~20%)，MRNN 誤判率都可以低於傳統的BPN。在適當的參數時，在 0%、5%、10%、20%的雜訊下，其誤判率為30%( =0.1)、31%( =0.1)、29%( =0.01)、39%( =1)，而傳統的BPN 略高一些，達 39%、38%、31%、45%。

0.25 0.35 0.45 0.55 0.65

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

0%雜訊 5%雜訊 10%雜訊 20%雜訊

圖 3 - 13 例題五的雜訊與參數與誤判率的關係

BPN

(43)

3-6. 少量樣本之影響

另外延續例題一到例題五，但使用不同的訓練樣本數量。其目的是為了證明訓練樣本數量對於MRNN 之影響而設計。例題一到例題四分別再使用原始訓練樣本的1/2、1/4 做為訓練樣本數，詳細數量如表 3-1，參數分別取 0.001、0.01、

0.1、1、10、100 等六種值。例題五則分別再使用 50、100、200、400、800 筆之訓練樣本做比較。參數分別取0.001、0.01、0.1、1 等四種值。

表 3 - 1 例題 1-4 訓練樣本數

例題原始樣本數1/2 訓練樣本數 1/4 訓練樣本數

例題一：一維分類問題 165 83 42

例題二：二維線性邊界分類問題 198 99 50

例題三：二維非線性邊界分類問題 107 54 27

例題四：二維封閉邊界分類問題 274 137 69

例題一：一維分類問題

一維分類問題在少量訓練樣本之結果如圖3-14，由圖得知 MRNN 在少量訓練樣本下其表現依然比 BPN 好。詳細誤判率如下：

(1) 1/2 訓練樣本數：在適當的參數時，其誤判率為 2.9%( =0.1)、2.3%( =1)，

而傳統的BPN 略高一些，達 8.6%。

(2) 1/4 訓練樣本數：在適當的參數時，其誤判率為 1.7%( =0.01)、0%( =0.1)、

0%( =1)，而傳統的 BPN 略高一些，達 2.9%。

(44)

0 0.1 0.2 0.3 0.4 0.5

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

所有樣本 1/4樣本 1/2樣本

圖 3 - 14 例題一的雜訊與參數與誤判率的關係

例題二：二維線性邊界分類問題

二維分類問題在少量訓練樣本之結果如圖3-15，由圖得知 MRNN 在少量訓練樣本下其表現依然比 BPN 好。詳細誤判率如下：

(1) 1/2 訓練樣本數：在適當的參數時，其誤判率為 10.2%( =0.01)、

4.0%( =0.1)、7.8%( =1)，而傳統的 BPN 略高一些，達 11.1%。

(2) 1/4 訓練樣本數：在適當的參數時，其誤判率為 14.7%( =0.1)、

14.9%( =1)，而傳統的 BPN 略高一些，達 16.7%。

0 0.1 0.2 0.3 0.4 0.5 0.6

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 3 - 15 例題二的雜訊與參數與誤判率的關係

BPN

(45)

例題三：二維非線性邊界分類問題

二維非線性邊界分類問題在少量訓練樣本之結果如圖3-16，由圖得知 MRNN 在 1/2 訓練樣本下其誤判率略低於 BPN，但在 1/4 訓練樣本下其誤判率略高於 BPN。詳細誤判率如下：

(1) 1/2 訓練樣本數：在適當的參數時，其誤判率為 39.0%( =10)，而傳統的 BPN 略高一些，達 44.1%。

(2) 1/4 訓練樣本數：在適當的參數時，其誤判率為 41.5%( =0.001)，而傳統的BPN 略低一些，達 30.6%。

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

0.0001 0.001 0.01 0.1 1 10 100

Gamma

Error Rate

圖 3 - 16 例題三的雜訊與參數與誤判率的關係

例題四：二維封閉邊界分類問題

二維封閉邊界分類問題在少量訓練樣本之結果如圖3-17，由圖得知 MRNN 在少量訓練樣本下其表現依然比 BPN 好。詳細誤判率如下：

(1) 1/2 訓練樣本數：在適當的參數時，其誤判率為16.7%( =0.01)、

16.5%( =0.1)，而傳統的 BPN 略高一些，達 17.2%。

(2) 1/4 訓練樣本數：在適當的參數時，其誤判率為19.7%( =0.01)、

18.8%( =1)，而傳統的 BPN 略高一些，達 21.3%。

BPN

碩 士 論 文 中 華 大 學

中 華 大 學

碩 士 論 文

題目：最小風險神經網路 Minimum Risk Neural Networks

系 所 別：資訊管理系

學號姓名：E09410013 曾培彥 指導教授：葉怡成

中華民國 九十六 年 七 月

博碩士論文電子檔案上網授權書

摘要

Abstract

Key words: back propagation network, structural risk minimization, SVM, weight

誌 謝

目錄

圖目錄

表目錄

第一章 前言

1-1 研究動機

Y

T

E

T 為訓練範例之輸出層第 j 個輸出單元的目標輸出值；

Y 為訓練範例之輸

X

W

W E

W

X ＝第 i 個單元

E

E

E

Y

T

W

W

N

X W

W

W E

E

E

E

C

b w

p

1-2 研究方法

E

E

E

Y

T

X

Y

1-3 研究內容

第二章 文獻回顧與理論推導

2-1 神經網路 2-1-1 模型架構

f W X

Y

X W f Y

2-1-2 模型建立

net

H

W X

net

H

net

X ＝第 i 個

W

net

Y

W H

net

net ＝隱藏值之加權乘積和；

W ＝第 k 個隱藏單元與第j個輸出單元間的

2-2 支持向量機 2-2-1 模型架構

2-2-2 模型建立

Min Min

x b w d x

b w d b

w p

w b x x w

碩士論文中華大學

中華大學

碩士論文

系所別：資訊管理系

學號姓名：E09410013 曾培彥指導教授：葉怡成

中華民國九十六年七月

誌謝

第一章前言

第二章文獻回顧與理論推導