3-1 迴歸分析

(1)

第三章理論分析

預測是什麼？”預測應該是一個點、一個範圍及機率的估計”（forecast should be a point, range and probability estimate）【3-1】。簡單的說，預測即是對未來值或狀況機率上的估計與敘述，但優良的規劃與控制要求預測必須包含平均值、範圍和該範圍的機率估算等要件。因為有機率，所以預測的結果並非代表一個單一的值，

精確的說應該為值域。

3-1 迴歸分析

迴歸分析法（regression analysis, RA）的應用歷史由來已久，早自十九世紀即被使用於預測，雖然近代已經有許多更新的預測方法，但是迴歸分析仍屬於一個重要的一般方法，而且是更複雜的預測方法之基礎。它是將一個或更多其他變數之間的關係加以模組化的一般方法，可以從一群變數中預測某一變數所需要的資料，。迴歸分析常被指為統計模組化的因果方法（causal methods）。因果方法包括但不限於迴歸，大致上而言因果方法即是將依存變數（dependent variable）和一個或多個其它稱為獨立（independent ）、預測（predictor）或外生變數（exogenous variables）的變數之間在過去的關係，加以模組化以預測未來。依存變數常以 Y 表示，獨立變數常以 X 表示。

迴歸分析的基本原理為最小化誤差平和，由於變數與變數間存在著一定的因果關係，藉由其因果關係收集以往所累積的資料，建立出一個擁有自變數與因變數的關係式，進而預測。

迴歸分析法可分為兩大類【3-2】：

單變數迴歸分析

單變數迴歸分析中有四項重要的假設：

因變數沿著迴歸線的變異是常態分佈。

因變數沿著迴歸線的變異是固定常數。

因變數沿著時間軸的變異是序列獨立。

(2)

自變數與因變數的關係是線性關係。

多變數迴歸分析

多變數迴歸分析較單變數迴歸分析多一個假設，即自變數之間互為獨立。

迴歸分析依其函數關係可略分為線性與非線性。當非線性關係發生於單變數時，藉由變數轉換的方式將因變數與自變數之間非線性關係轉為線性關係，或以多項式方式建立迴歸分析的關係，但是當非線性發生於多變數時，則會變得非常困難。

3-1-1 相關分析

所謂「相關分析」指的是如人的體重與身高，變數之間既存在密切的關係，

又不能由一個或多個變數數值精確求出另一個變數的值，此種變數之間的關係稱之為「相關關係」【3-3】。而相對於相關關係則為確定性關係。確定性關係和相關分析之間並非毫不相干。由於有測量誤差等原因，確定性關係在實際中往往透過相關關係表現，而當對事物內部規律了解更深入時，相關關係又可能轉化為確定性關係。例如人的身高不能決定體重，但我們可知兩者有密切的關係。而人的姓氏筆劃與其收入成就之間，似乎不存在特別的關係，這樣的量在統計上稱為獨立，

或相關為零。不同的量，一端的增長若會導致另一端的下降，此種情況稱為負相關。如果一個量的增長同時也會促進另一個量的增長，則稱兩者為正相關。

相關係數是一個介於-1 與 1 之間的量。兩個量之間如有相關係數-1，則為絕對負相關；若兩個量之相關係數為 1，則為絕對正相關，而相關係數為零時，則表示兩者沒有關聯。

對任何兩個變數 X 和 Y 的一組實驗資料

(

^Xi,^Yi

)

，i＝1,2,3,… … … n 而言，唯有當 Y 和 X 之間存在某種線性關係時，配出的直線才有意義。故在數學上產生一種輔助的方法，引進了稱為相關係數（Correlation Coefficient）的量，用 R 表示，

R 的物理相關意義如圖 3-1-1【3-3】所示：

(3)

而測量二元分佈的相關性，最重要的一個公式就是 pearson 公式，式 3.1.1：

( )( )

( ) _∑ ( )

∑

∑∑

−

=

j j i

i

i j

j i

Y Y X

X

Y Y X X

r 2 2

（3.3.1）

其中 X 為X的平均值，Y 為Y 之平均值，r 係數的範圍在－1 至＋1 之間，即 r ≤1。任何一組兩維資料

(

^Xi,^Yi

)

都落在一條直線上，在相關係數 r＝0 時，即是指這組資料之間不相關（uncorrelated）。

3-1-2 線性關係的分析

線性關係的分析原理其基本條件為連續變數之間的關係，線性關係（linear relationship），指兩個變項的關係可以被一條最具代表性的直線來表達之時，所存在的關連情形。直線之方程式為 Y=bx+a，b 為斜率（即Δy/Δx，每單位的 X 變動時，在 Y 軸上所變動的量），線性關係亦可以散佈圖的方式來表現。

迴歸分析中，相關分析對於建立好的迴歸模型相當重要，相關分析的目的在描述兩個連續變數的線性關係的強度與方向，迴歸基於兩變項之間的線性關係，進一步分析兩變項之間的預測關係的探討與運用。迴歸與相關均以線性關係為基礎，

即以兩個連續變項的共變數為基礎，其數學原理相似。相關係數計算之時，同時考慮兩個變項的變異情形，屬於對稱性設計，以X ↔Y表示。但迴歸則由於目的在取用某一變項去預測另一變項的變化情形，X、Y 兩個變項各有其角色，在迴歸係數的計算中，X、Y 變項為不對稱設計，以X →Y或X ←Y表示。

3-1-3 迴歸分析的基本假設

(一)固定自變項假設（fixed variable）

特定自變數的特定數值應可以被重複獲得，然後得以此一特定的 Xi 代入方程式而得到預測值。

(二)線性關係假設（linear relationship）

當 X 與 Y 的關係被納入研究之後，迴歸分析必須建立在變項之間具有線性關係的

(4)

假設成立上。

(三)常態性假設（normality）

迴歸分析中的所有觀察值 Y 是一個常態分配，即 Y 來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項 e，即由特定 Xi 所預測得到的與實際 Yi 之間的差距，也應呈常態分配。誤差項 e 的平均數為 0。

(四)誤差獨立性假設（independence）

誤差項除了應呈隨機化的常態分配，不同的 X 所產生的誤差之間應相互獨立，無相關存在，也就是無自我相關（nonautocorrelation）。

(五)誤差等分散性假設（homoscedasticity）多元共線性假設

特定 X 水準的誤差項，除了應呈隨機化的常態分配，且其變異量應相等，稱為誤差等分散性

(六)多元共線性假設

自變項間相關程度過高，不但變項之間的概念區隔模糊，難以解釋之外，在數學上會因為自變項間共變過高，造成自變項與依變項共變分析上的扭曲現象，稱為多元共線性（multicollinearnality）

3-1-4 多元迴歸的進入法

一、同時分析法（simultaneous multiple regression）：所有的預測變項同時納入迴歸方程式當中。

(一)強制進入法

在某一顯著水準下，將所有對於依變項具有解釋力的預測變項納入迴歸方程式，

不考慮預測變數間的關係，計算所有變數的迴歸係數。

(二)強制淘汰法

與強迫進入法相反，強制淘汰法之原理為在某一顯著水準下，將所有對於依變項沒有解釋力的預測變項，不考慮預測變數間的關係，一次全部排除在迴歸方程式之外，再計算所有保留在迴歸方程式中的預測變數的迴歸係數。

(5)

二、逐步分析法（stepwise multiple regression）：所有的預測變項並非同時被取用來進行預測，而是依據解釋力的大小，逐步的檢視每一個預測變項的影響，稱為逐步分析法。

(一)順向進入法（forward）

預測變項的取用順序，以具有最大預測力且達統計顯著水準的獨變項首先被選用，然後依序納入方程式中，直到所有達顯著的預測變項均被納入迴歸方程式。

(二)反向淘汰法（backword）

與順向進入法相反的程序，所有的預測變項先以同時分析法的方式納入迴歸方程式的運算當中，然後逐步的將未達統計顯著水準的預測變項，以最弱、次弱的順序自方程式中予以排除。直到所有未達顯著的預測變項均被淘汰完畢為止。

(三)逐步分析法（stepwise）

綜合順向進入法與反向淘汰法，

三、階層分析法：預測變項間可能具有特定的先後關係，而需依照研究者的設計，

以特定的順序來進行分析。

(6)

3-2 遺傳演算法

John Holland 於 1975 年時提出遺傳演算法(Genetic Algorithms, GAs)，並發展出基本架構，且成功的運用在工程問題上。基本理論源自達爾文進化論中「物競天擇，適者生存」的道理，因此符合自然界調適與革新現象。這種由自然演化而來的機制模擬群集遺傳與適應者生存的過程【3-4,3-5】，由舊的族群中得到較好的物種，並隨機性地交換彼此資訊，以期產生優良的下一代。在後代數目上，由於競爭的緣故，適應力較高的個體後代數目會比適應力低的多，因此會把整個族群引導向更適合生存於自然環境的方向發展，長時間下，所產生的變異會逐漸累積，

演變至產生一個特徵能適應於特殊環境下的種族。

遺傳演算法中個體所繁殖的子代經由複製 (reproduction) 和交換(crossover)等機制，來傳承其親代(parents)的特徵。但是在遺傳的過程中，也有可能產生與親代不同的變異(variation)，也就是所謂的突變(mutation)，此舉將導致新物種的產生。

遺傳演算法即是根據上述的論點，對既定的問題求得最佳解，而求取最佳解前需先行擬定目標函數（objective function）、設計變數（design variables）與搜尋空間。

接著將設計變數編碼成近似染色體的二位元字串，字串中各個位元相當於基因

（gene），利用字串進行遺傳演算，在過程中產生高適合度（fitness）的新群集，

在不斷變遷的環境中調整系統使其能愈來愈逼近最佳解。

遺傳演算法不同於傳統優選方法之處：【3-5~3-10】

◎可求解連續(continous)、不連續(discrete)的參數最佳化問題。

◎具有隱平行性運算能力，可大量節省運算的時間。

◎不僅可提供單一最佳解，而且可提供一組多參數之優選結果。

◎演化作用在編碼後的染色體上而非在參數本身。

自然選取(Natural Selection)的過程取決於染色體適合度(Fitness)(目標函數值)大小，而不需計算目標函數的微分值。

◎為一次多點搜尋，而非單點搜尋法，因演算機制可跳脫局部最佳解(local optimal)。

(7)

◎有相當高的機率可極接近或求得全域最佳解(global optimal)。

對於一個問題的解答，要使用遺傳演算法，需具備以下三個項目：

□問題的解能夠以染色體表示，即可將自變數加以編碼。染色體的形式是用二進位字串結構(bit strings)，也就是 1 和 0 的排列來表示。

□產生初始解的群集。通常以一隨機的方式產生初始解的集合，對於演算法結構而言，若能利用隨機產生的解推求至最佳解，則為良好的一種測試表現。

□能夠以適合度(fitness)作為評估函數用以判定試驗解的優劣。

3-2-1 基本運算元

(1)複製(reproduction)與選擇(selection)

複製是將個體字串依照其目標函數值 f 來產生，其目的是將具有較高目標函數值的字串，使其有較多的機會來產生下一代的子代個體。其複製或選擇的方法又可分為：

A.輪盤法(roulette wheel selection)

產生一個〝偏態〞輪盤(biased roulette)。如表 3-2-1 之函數複製及圖 3-2-1 的複製輪盤圖所示，此範例以遺傳演算法解函數 ^f

( )

^x ⁼⁻^x² ⁺²⁰^x⁺⁵⁰⁰^、

31

0≤ x≤ 。當適合度愈高時，輪盤上所佔比例也愈大，選中的機率亦隨著於輪盤上的比例增大。

B.競爭選取法(tournament selection)

模仿自然界生物彼此競爭情形，當個體適合度愈高時，經由競爭選取後，其存活下來而被複製的機會也將愈高。此種選取法有一個好處，就是染色體被複製下來的機率與染色體本身的適合度無絕對的關係，而是取決於染色體間適合度的相對大小，如此一來可避免因某幾條染色體的適合度過大而導致過早收斂於局部最佳解，因此本法比輪盤法更適合用於染色體間適合度變化很大的問題上。其作法如下：

(8)

1.依每代染色體總數(群集數)，設定一個合理的比較個數，一般常假設為 2 個。

2.每次從母代隨機選取設定染色體，比較其適合度，選擇較優者進行複製。

3.重複步驟 2，直到複製的染色體總數等於群集個數。

C.排序選取法(rank selection)

使用排序選取法可避免輪盤法常因某幾條染色體的適合度過大，佔去大部分輪盤的面積，造成選取的機率過大，導致過早收斂於局部最佳解；也免去使用單點交換時，遇到適合度變化過大必須用尺度法(scaling)對適合度作修正；

同時當染色體適合度很接近時，也會因排序的緣故將其被複製的機率差異性表現出來。

排序選取法是依據染色體適合度的大小來排序，被複製的機率是依據排序的順序，而不是染色體本身的適合度大小，因此排序第 i 個與第 i+1 個染色體間被複製的機率是線性的關係，與染色體適合度間的大小差異沒有關係。

(2)交換(crossover)或重組(recombination)

主要可使子代經由親代雙方染色體的互換組合而成，在搜尋的過程中使能產生新的個體。此步驟是針對複製下來的染色體群集，隨機選擇兩條染色體，將其基因排列作重新的組合，但不是每條染色體都會進行交換的步驟，交換與否是以交換率(crossover rate)來作控制，當交換率大時，交換的機會就較大。一般來說，

交換的方式可分為單點交換(one-point crossover)、多點交換(multi-point crossover) 與均一交換(uniform crossover)。

A.單點交換

交換中最簡單的型式，進行單點交換時，交換點依亂數隨機決定一個切斷點，

以這個切斷點將原先挑選出來進行交換的兩條染色體分為兩個部分，互相交換相同的部分重新組合成新的染色體，如圖 3-2-2 所示。

舉例來說，若親代染色體為 11111111 與 00000000 且交換點在位元 6 與 7 之間(位元是從左數到右，始於 1 )，則子代為 11111100 與 00000011。如圖 3-2-3 所示。缺點為易產生位置偏心（positional bias）和端點效應（endpoint effect）。

(9)

B.多點交換

多點交換與單點交換極為類似，唯一的不同在於進行多點交換時，要隨機決定多個切斷點，將染色體分為數個部分再重新組合成新的染色體，如圖 3-2-4 所示。

C.均一交換

使用均一交換時，首先要隨機產生一個和染色體字串長度相等的二進位一維矩陣，在這個矩陣中，每一個位元均由亂數隨機決定其值為 1 或 0，此一矩陣稱之為模具(mask)。若是在模具中的某個位元值為 1 時，就進行交換；反之若其值為 0，就不進行交換，如圖 3-2-5 所示。

(3)交換機率 (crossover probability)

交換機率是指每一個個體或字串，當其被挑選為親代個體時，決定是否要進行交換運算的機率。一般而言，交換率越高，則新物種進入族群的速度越快，整個搜尋最佳值的速度也越快。

交換機率的範圍介於 0∼1 之間。根據文獻及相關研究，一般將交換率設定在 0.4

∼0.9 之間，其相關文獻整理如下：

1.陳國良等人【3-11】建議交換率訂為 0.25~1.0 之間。

2.Thierens【3-12】建議在使用競爭選取法時，交換率應有上限，如下式所示。

^S P_c ≤ (S−1)

S：使用競爭選取法時，進行比較的字串個數。

3.Goldberg【3-6】則認為由 De Jong 一連串的研究結果顯示，交換率訂為 0.6 可獲得不錯之效果。

4.Grefenstette【3-13】建議交換率訂為 0.75~0.95 之間。

5.Mercer【3-14】建議交換率可訂為 1.0。

(4)突變(mutation)

純粹由遺傳所得之特性，所以其組合之多樣性將受限制。雖然搜尋點聚集的

(10)

區域可能存在最佳解，但相對的卻易造成其他區域沒有搜尋到，導致陷入局部最佳解，這種問題常發生在多峰函數求解最佳值的研究中。為使搜尋的空間更具多樣性，因而引入了突變的觀念。在遺傳演算法中，突變是指交換後的字串，利用亂數選取字串中某些字元來作改變，例如在二位元編碼中，將 1 換為 0、0 換為 1。

圖 3-2-6 假設第三個位元發生突變。

(5)突變機率(mutation probability)

突變機率是指可能產生變異的機率，目的在於避免基因落入局部最佳解。在設定突變機率時，其值過大，將造成優良基因被破壞；過小則失去突變的功能，

造成基因偏移而導致過早收斂。De Jong【3-15】認為突變率（Pm）應控制在 0.01~0.001 之間，Patrick 等人【3-16】則認為 De Jong 所建議使用的 Pm=1/N，已成為目前研究遺傳演算法的經驗法則(N 為群集個數)。

(6)群集個數(population size)

群集中個體(individuals)的總數，也就是編碼後字串的總數。

(7)字串長度(bit length)

字串長度是指經變數編碼後的字串所具有的位元個數，當以二位元進行編碼時，其長度即為位元個數 (變數個數×每個變數的位元數)。

(8)尺度調整(scaling)

尺度調整是為了使每一代字串保持適當的競爭能力。若沒有尺度的調整，在早期的運算過程中，可能因一些表現較好的字串而支配選擇複製的程序，此時必須將目標函數尺度縮小，以避免整個群集都被這些表現較好的字串所佔據。當群集大部分都已收斂時，每個字串的優劣將顯得十分接近而不明顯，因此藉由放大目標函數尺度，將使字串間的差異程度能適度的顯現，而繼續朝向最佳化的表現。

(9)精英(elitist)策略

欲改進遺傳演算法之結果，可藉由針對現存群集中最好或最壞的個體進行某種特殊之處理，包括永遠保留至目前為止最佳的個體或最差的個體，如此在新生成的個體中將會有系統的取代原有最差的結果，這對於尋求全域最佳解將產生莫

(11)

大的幫助【3-17】。

3-2-2 遺傳演算法之限制式處理

在解決實際問題時，有時會因某些限制條件未考慮，因而產生不合理的結果，

使得許多時候尋找合理解和尋找最佳解一樣困難【3-6】。為了使 GAs 可以處理限制條件的約束，可利用下列方法來解決：【3-8,3-10,3-18~3-20】

1.加入處罰函數(penalty function)

在目標函數上，針對超出合理範圍的不合理解加上懲罰函數，可使限制型問題轉換為非限制型的問題【3-6】，主要目的是將不符合限制式之值，透過懲罰函數加入原目標函數，以淘汰不合理解。以一限制型最小化問題為例：

minimize g(x) subject to bi(x)≧0 i＝1,2,… … n 將上式轉換成非限制型問題，表示如下式，（式 3.2.1）：

minimize

[ ( ) ]

∑

=

Φ

⋅ + ⁿ

i

i x

b x

g

1

)

( γ

（3.2.1）

where Φ─懲罰函數(penalty function) γ─懲罰係數(penalty coefficient)

式中懲罰係數視問題型態而訂【3-6】。懲罰函數可定義為不合理解(violation) 對合理解之距離【3-6,3-19,3-21】。當求解最小化問題，染色體超出限制條件或合理範圍時，會因加上懲罰函數而使目標函數值增大；反之若為求解最大化問題則因懲罰函數而使目標函數值減小，使得該不合理解在優選過程中被淘汰掉。

使用懲罰函數時需特別注意，當懲罰函數定義太嚴格會造成染色體群集提早收斂至局部最佳解上；定義太鬆則容易得到一些不合理解，使得染色體群集收斂至不合理的區域【3-22】。所以懲罰函數需依實際問題而訂。

2.映射關係

(12)

此法的精神為修復超出限制條件之染色體，直到所有染色體皆滿足限制條件【3-23】。其步驟如下：將字串解碼後，依映射公式將字串解碼之值轉換至限制的範圍區間內。假若一單參數 k，欲轉換至下限為 ai、上限為 bi 之限制範圍區間，若以二位元編碼，其字串長度為 n，則映射公式如式（3.2.2）

所示【3-24】



 

 +  −

= i i ⁱ _n ⁱ i

a k b

a

X 2 （3.2.2）

其中，Xi 代表原始字串映射至限制範圍內之十進位值 ki 代表原始字串之十進位值

3.產生合理群集

此方法分為兩階段，首先隨機產生初始染色體群集，利用遺傳演算法演化至所有染色體皆為合理解或使合理解達到一定的比率；第二階段將第一階段產生的染色體作為此階段的初始染色體，適合度函數則依問題型態而訂。在第二階段的演化過程中，若有染色體超出限制條件時，則強迫該染色體的適合度為 0。

4.將目標函數及限制條件視為獨立

將限制條件視為獨立的目標函數，加上原問題之目標函數，而形成一個多目標規劃之問題，此時再利用多目標遺傳演算法來求解【3-25】。

3-2-3 遺傳演算法之演算架構

在遺傳的世界裡，群集受制於周遭環境所能提供的狀況，適應良好的成員將被選擇配對與複製，通常表現較好的後代是由優良的親代雙方遺傳而來，在第二代中適應力良好的成員又被選來進行配對及複製，這種革新競爭性的循環一直持續下去，表現不佳的將被淘汰而消失，表現優良的則產生更好的後代，接連一代繁衍一代，經過數代之後，留下的群集即適合於環境【3-26】。

求解使用遺傳演算法，演算架構與流程如下【3-5,3-27】：

(13)

1.以隨機方式產生具 n 個 L 位元的染色體之群集(問題的候選解)。

2.計算問題中每個染色體 x 之適合度值 f (x)。

3.重複以下的步驟直到 n 個後代全部產生:

a.在現有的群集中選擇一對親代染色體，選擇的機率乃根據適合度的遞增函數，採用取代的選擇方式，相同的染色體可能被選擇當親代超過一次。

b.以 Pc(交換率)使一對親代隨機的選擇位置來交換，以形成兩個子代；若無交換，所形成的兩個子代則完全由其親代複製而來。

c.突變是以 Pm(突變率)使兩個子代在任一位置上改變其值。

4.以新的群集取代現有的群集 5.重複進行步驟 2.。

經過數代演算後可望得到較佳的解，直到收歛至逼近整體最佳解且不再跳動，方可終止。整個遺傳演算法的演算流程如圖 3-2-7 示。

(14)

3-3 類神經網路（ ANN）

類神經網路（artificial neural networks, ANN）是使用以電腦模型模擬人類大腦部分架構和處理能力進行預測之方法【3-28】。平均來說人腦有 10¹¹個神經元，每個神經元約用 10³ 突觸以接受其它神經元傳送來信號。人腦就因為有這樣的複雜度，所以大家公認人腦是世界最複雜生物機械。

在目前神經科學研究，認為人類知識訊息是儲存在神經網路突觸上。當神經網路在進行學習時，外界刺激神經細胞所產生的電流會去改變突觸上的權重（實際上是一種化學能），在學習過程，外界刺激所產生的電流反覆在網路上流動，突觸的權重也隨之改變，然而慢慢的會趨向穩定，此時即學習完成。

而類神經網路使用大量人工神經元（ artificial neuron) 來模擬生物神經元

（neuron）的能力，如圖 3-3-1、3-3-2。【3-28】。利用大量可平行運算的類神經元所組成的一個可計算的網路，並用來模擬人腦學習行為。在類神經網路中的每一個神經元，接受來自上一層神經元的訊息，再經由該神經元之激發函數激發，再將訊息傳至下一層。基本的類神經網路其原則很簡單，但是大型較複雜的類神經網路提供了多變且有效的方式，模組化複雜的系統。許多金融機構發展類神經網路來執行如價格預測的工作。類神經網路較為精確的定義如下：

「一種基於腦與神經系統研究所啟發的資訊處理技術」。它可以利用一組範例

（即系統輸入與輸出所組成的資料）建立系統模型（輸入與輸出間的關係），有了這樣的系統模型便可用於推估、預測、決策、診斷。【3-29】

3-3-1 神經元運算模型

類神經網路是由許多的人工神經細胞所組成，人工神經細胞又稱為神經元、

人工神經元或處理單元（processing element），人工神經元模型如圖 3-3-2，每一個處理單元的輸出以扇狀輸送出，做為其他處理單元的輸入，其輸入值與輸出值的關係式，如式 3.3.1，可用輸入值的加權乘績和函數表示：【3-28~3-30】

(15)

( )

^j

j

Net f Net

=

Θ +

=

∑

j

j i ji

O

O W

（3.3.1）

Wji：第 j 節點至第 i 點連接權值 Oj：第 j 節點的輸出值或激發值 f：激發函數

Θj：第 j 節點，門限值

式中函數 f 為激發函數，而常應用在類神經網路的激發函數有四種：

1.位階函數（Threshold logic function）

2.硬性限制函數（Hard－limit function）

3.S－型函數（Sigmoid function）

4.Ω－型函數（Radial function）

這些函數均有一通性，即當輸入值接近負無窮大時，其輸出值為 0，而當輸入值接近無窮大時，其輸出值即轉為 1。

3-3-2 類神經網路架構

【3-28~3-33】

類神經網路係由多個人工神經元所組成，一般化的網路有三層架構【3-29】：

1. 輸入層：網路輸入變數，神經元個數依問題型式而定。

2. 隱藏層：用以表現神經元間的交互影響，常使用線性或非線性轉換函數，

隱藏層個數根據各種理論而有不同之設計，節點數無一定限制，必須以試誤法找出最合適數目。

3. 輸出層：表現網路的輸出變數，處理之神經元數目依問題而定。

類神經網路的應用依其輸出變數之特性可分成二大類：

1.函數型問題

網路的輸出為一個連續值的變數，例如：

物理化學變量（濃度、溫度、PH 值、強度、流量、座標、尺寸… ）經濟社會變量（股價漲跌百分比、匯率、利率、成本、銷售量… ）

(16)

2.分類型問題

網路的輸出為一組代表分類的變數，例如決策（醫藥處方、替代方案、買賣決策… ）診斷（疾病種類、故障原因、訊號分類… ）

再來根據類神經網路連結模式的不同，類神經網路可有這幾種型態：

1. 不含回饋的前向網路。感知機（ Perceptron）和反向傳播演算法

（Back-Propagation Algorithm）中所使用的網路都屬於此種型態。

2.從輸出層到輸入層有回饋的前行網路。

3.層內有相互結合的前行網路。

4.相互結合型網路。

3-3-3 倒傳遞網路（ BPN）

倒傳遞類神經網路模式（Back-propagation Network，BPN），是一種 ANN 的監督式學習演算法。由 Rumelhart、Hintonand Williams 在 1986 年發展了 Minsky 的多層網路構想而得。【3-1,3-2】

一個類神經網路不僅有輸入層節點，輸出層節點，而且有隱藏層節點（可一層或多層）。對於輸入訊號，要先向前傳播到隱藏層節點，經過激發函數作用後，

再把隱藏層節點的輸出訊號傳播到輸出點，再經由激發作用，最後由輸出層輸出結果。

就整個演算法的學習過程，是由正、反傳播所組成。在正向傳播過程中，輸入訊號由輸入層，經隱藏層單元逐層處理，並傳向輸出層，每一層神經元的狀態只影響下一個神經元的狀態。如果在輸出層節點所計算輸出值不能得到期望的數值，則進行反向傳遞步驟，將誤差訊號沿原來的連接通路，返向透過修改各層神經元的權值，使得整體系統誤差最小。

在基本概念，BPN 仍然引用梯度下降演算法（Gradient descent Alorithm）：

就每一個神經元來說，可接收鍊結之輸入訊號，並經轉換函數與閥值計算，輸出

(17)

其反應值，以第 n 層的第 j 個單元得輸出值 Aⁿj為例，其為第 n-1 層單元輸出值的轉換函數值如式 3.3.2：

) (

ⁿ_j

n

j

f net

A =

（3.3.2）

f：轉換函數

其中集成函數 netⁿj定義如式（3.3.3）

∑

⁻

= ⁻

j

n j ij n

j W A

net

'

1 θ （3.3.3）

Wij：神經元 i 與神經元 j 間的連結強度，即連結加權值

θj：神經元 j 的閥值

根據神經元連結的關係，以最陡坡降法來調整神經元間的連結加權值，期望達到誤差函數的最小值。誤差函數定義如式（3.3.4）。

∑

⁻

=

j

j A

T

E ( )²

2

1 （3.3.4）

Tj：目標輸出值

Aj：推論輸出值

若未達到設定之誤差量則網路權值需要修正修正方式如式（3.3.5）

ij

ij W

W E

∂

− ∂

=

∆ η. （3.3.5）

Wij

∆ ：神經元 i 與神經元 j 間的連結加權值修正量

η：學習速率（Learning Rate）

(18)

另外為避免網路收斂時產生震盪情形，可增加慣性量（Momentum）的設計，

如式（3.3.6）

ij ij

ij W

W E

W ∂

+ ∂

∆

=

∆ α η. （3.3.6）

α ：慣性量

3-3-4 類神經網路之特性

【3-28,3-29】

學習能力：修正自身的行為反映出環境的變化，並依輸入自我調整，以產生正確的輸出。神經網路能藉由範例，依其網路架構，自動彙整出規則，而非經由人來建立。

儲存能力：神經網路採分散式（distributed）資料處理的方式來儲存資料，也就是將資料分散在網路各連結上，相較於傳統耗費記憶體較少。

容錯性：傳統儲存方式若儲存的位址損壞，則導致該筆資料永久受損。而神經網路是將知識分散式的儲存在網路中，在網路訓練後，就算有少部分的連接受損、亦或是有不完整的輸入及雜訊干擾，也不會影響其輸出的正確性。

可稱之為優雅退化（graceful degradation）。

歸納能力：依本身的網路架構，將以前未曾見過或是不完整的輸入加以歸納分類的能力，並不一定需要明確的輸出當作參考。這在圖形辨識（pattern recognition）上是有相當價值的。

平行處理：神經網路本質上即屬平行式處理的架構，易於在平行處理的電腦上執行，可作為未來發展更高速計算工具的參考。

表 3-3-1 為類神經網路的優缺點。

(19)

3-4 語法式進化（ GE）

語法式進化（Grammatical Evolution、GE）不必針對實際程式執行進化處理 (evolutionary process)，重點在於將變數編碼為二位元字串。而映射處理乃利用二位元字串，選擇並決定在 BNF（Backus-Naur Form）中所定義的語法規則，以產生使用者所慣用程式語言之程式碼。而程式在語法架構上的正確與否，需經由各程式所計算的適合度函數值評定。

當確定程式的輸出結果仍具有效性及合法性時，即可作基因型(genotype)無限制的搜尋。目前，有許多方法可經由一種基因型產生多種合法的表現型(phenotypes)

【3-34】。其他潛在的益處，如有關生物型態上的發展過程，其基因的多樣性便是以中性學說(neutral theory)為基礎。此學說說明大多數的突變，在進化的過程中，

對於表現型仍維持不變；也就是說突變在個體表現的適合度上無法產生效果。在生物的基因系統中，使用退化的基因碼將促進這種現象的產生。此外，退化的基因碼將有助於中性突變的發生，好處是多數的基因型仍可代表相同的表現型，這將有助於基因在群集中維持多樣性。

3-3-1 語法規則

◎Backus-Naur Form

BNF 是一套表示語言語法規則形式之紀錄。BNF 語法由節點及非節點所組成。節點部分乃由+、－等項目所組成;非節點部分則由一個或多個節點、非節點所擴展而成。語法可以表示為｛N、T、P、S｝。N 為非節點之集合，P 為一個將 N 的要素映射至 T 之規則集合，T 為節點之集合，S 則為 N 要素之一的開始符號。

表 3-4-1 是一個 BNF 的例子。由上述 BNF 規則，表 3-4-2 將規則及相互關係的選擇個數作總結。

在 GE 模式中，BNF 的定義常被用來描述系統所產生的輸出語言。例如已經能夠編譯(compilable)的程式碼，可由 T 集合的各節點要素所組成，當 BNF 為系統連接的成分之一時，便意味著 GE 能夠利用各種程式語言產生程式碼，因此也給予

(20)

系統相當大的彈性。

3-3-2 語法式進化之演算架構

A. 映射處理(Mapping Process)

基因型藉由讀取密碼子 8 個位元所產生整數值，將開始符號映射至節點上，

其值便可藉由映射函數的使用，決定合適的語法規則。

規則＝(密碼子整數值)MOD(當前非節點之規則總數) 例如要映射非節點 op，參照表 3-4-1 共有四個規則可供選擇：

假設密碼子產生值為整數 6，將 6 MOD 4 ＝2，因此將選擇規則(2)，其代表為符號 / 。在每個時刻中，密碼子其值被讀取後，將透過非節點、選擇欲被映射之規則，利用此種方法，系統將沿著整條染色體不停運算。

在基因型轉為表現型(genotype-to-phenotype)的映射過程中，個體有可能用完密碼子，因而將個體包覆並重複使用密碼子。密碼子的重複使用在 EAs 的研究中是相當罕見的，至於個體包覆的技術則是由基因重疊(gene-overlapping)的現象所推演出，目前已有許多相關文獻可參照【3-35】。

在 GE 模式中，相同的密碼子將產生相同的整數值。藉由非節點的使用，將可選取不同的規則。當選擇相同的規則時，個體由基因型映射至表現型將產生相同輸出的結果。但是卻可能在發生不完全映射或幾個包覆事件後，個體因而得到最低的適合度值。其中，選擇與取代機制的操作，將以「增加個體從群集中被移除的可能性」為依據。

如果基因型以整數值表示並選取相同的規則，將一再產生不完全映射。例如一個具有三個密碼子經映射後皆為規則 0 的個體：

經包覆後，除非停止否則將無限期持續不完全映射處理。以上述例子為例，

當規則 0 映射至非節點<expr>時，將得到<expr><op><expr>，再用規則 0 映射至最左邊的<expr>，接著再作一次，便可得到<expr><op><expr><op><expr><op><expr>

的結果。如此將會是一種無效的個體，且永遠不會碰到完整的映射。

(21)

B. 舉例說明(Example Individual)

例如某一個體，如圖 3-4-1 所示，其語法規則如 3-4-1 節 BNF 的例子所示，推導演算步驟如下：

(1)首先由＜expr＞開始，第一個密碼子為 11001000，解碼後其值為 200 200 MOD 4＝ 0 ，所以選擇＜expr＞中之規則 0，可得：

＜expr＞＜op＞＜expr＞

(2)選擇最左邊＜expr＞，第二個密碼子為 10110100，解碼後其值為 180 180 MOD 4 = 1，所以選擇＜expr＞中之規則 0，可得

＜expr＞＜op＞＜expr＞＜op＞＜expr＞

(3)選擇最左邊＜expr＞，第三個密碼子為 10100100，解碼後其值為 164 164 MOD 4 = 0，所以選擇＜expr＞中之規則 0，可得

＜expr＞＜op＞＜expr＞＜op＞＜expr＞＜op＞＜expr＞

(4)選擇最左邊＜expr＞，第四個密碼子為 11001011，解碼後其值為 203 203 MOD 4 = 3，所以選擇＜expr＞中之規則 3，可得

＜var＞＜op＞＜expr＞＜op＞＜expr＞＜op＞＜expr＞

(5)選擇（）中之＜expr＞，第五個密碼子為 01001110，解碼後其值為 78 78 MOD 2 = 0，所以選擇＜var＞中之規則 0，可得

X＜op＞＜expr＞＜op＞＜expr＞＜op＞＜expr＞

(6)選擇（）中之＜op＞，第六個密碼子為 01100000，解碼後其值為 96 96 MOD 4 = 0，所以選擇＜op＞中之規則 0，可得

X＋＜expr＞＜op＞＜expr＞＜op＞＜expr＞

(7)選擇（）中之＜expr＞，第七個密碼子為 01111101，解碼後其值為 125 125 MOD 4 = 1，所以選擇＜expr＞中之規則 1，可得

X＋（＜expr＞＜op＞＜expr＞）＜op＞＜expr＞＜op＞＜expr＞

(8)選擇（）中之＜expr＞，第八個密碼子為 11001010，解碼後其值為 202

(22)

X＋（＜pre-op＞（＜expr＞）＜op＞＜expr＞）＜op＞＜expr＞＜op＞＜expr＞

(9)選擇（）中之＜pre-op＞，第九個密碼子為 10101100，解碼後其值為 172 172 MOD 1 = 0，所以選擇＜pre-op＞中之規則 0，可得

X＋（ln（＜expr＞）＜op＞＜expr＞）＜op＞＜expr＞＜op＞＜expr＞

如此持續依序處理得到 X X X

X − ×



 



+ ln

1

ln 。

3-1 迴歸分析

第三章 理論分析

3-1 迴歸分析

3-1-1 相 關 分 析

(

)

( )( )

( ) ∑ ( )

∑

∑∑

(

)

3-1-2 線 性 關 係 的 分 析

3-1-3 迴 歸 分 析 的 基 本 假 設

3-1-4 多 元 迴 歸 的 進 入 法

3-2 遺傳演算法

3-2-1 基 本 運 算 元

( )

3-2-2 遺 傳 演 算 法 之 限 制 式 處 理

[ ( ) ]

∑

3-2-3 遺 傳 演 算 法 之 演 算 架 構

3-3 類神經網路 （ ANN）

3-3-1 神 經 元 運 算 模 型

( )

∑

3-3-2 類 神 經 網 路 架 構

3-3-3 倒 傳 遞 網 路 （ BPN）

) (

f net

A =

∑

∑

3-3-4 類 神 經 網 路 之 特 性

3-4 語法式進化 （ GE）

3-3-1 語 法 規 則

3-3-2 語 法 式 進 化 之 演 算 架 構

第三章理論分析

3-1-1 相關分析

( ) _∑ ( )

3-1-2 線性關係的分析

3-1-3 迴歸分析的基本假設

3-1-4 多元迴歸的進入法

3-2-1 基本運算元

3-2-2 遺傳演算法之限制式處理

3-2-3 遺傳演算法之演算架構

3-3 類神經網路（ ANN）

3-3-1 神經元運算模型

3-3-2 類神經網路架構

3-3-3 倒傳遞網路（ BPN）

3-3-4 類神經網路之特性

3-4 語法式進化（ GE）

3-3-1 語法規則

3-3-2 語法式進化之演算架構