資料特性對類神經網路預測效果影響之研究

(1)

行政院國家科學委員會補助專題研究計畫成果報告

計畫名稱

資料特性對類神經網路預測效果影響之研究

A Study on the Effect of Data Characteristics on the Prediction Performance of Artificial Neural Networks 計畫類別: 個別型計畫計畫編號: NSC 90-2416-H-004-037 執行期間: 90 年 8 月 1 日至 91 年 7 月 31 日計畫主持人: 陳春龍（政治大學資訊管理系教授）共同主持人: 吳忠敏（台北科技大學商業自動化與管理研究所）計畫參與人員: 呂倩如（政治大學統計研究所）楊雅媛（政治大學統計研究所）王治平（政治大學資訊管理研究所）黃萱懿（政治大學資訊管理研究所）黃文杰（政治大學資訊管理研究所）陳嘉芳（政治大學資訊管理研究所）執行單位: 國立政治大學資訊管理系 Chencl@mis.nccu.edu.tw 中華民國 91 年 10 月 31 日

(2)

資料特性對類神經網路預測效果影響之研究 陳春龍國立政治大學資訊管理系 一、摘要 迴歸分析與類神經網路是預測的兩種主要技術。過去幾年來已有超過 50 篇以上的論文比較兩者在不同領域之應用及其預測效果。大部分的研究皆認為類神經網路的效果較佳，但是完整的比較則尚缺乏。本論文嘗試在線性迴歸模式及非線性迴歸模式的條件下，隨機產生不同特性的資料以完整探討資料特性對迴歸分析與類神經網路之預測效果的影響。這些特性包括常態分配、偏態分配、非均等變異、 Michaelis-Menten 關係模式及指數迴歸模式。再者，我們使用區域搜尋法（local search ）中的演化策略法 (evolution strategies，ES) 來當作類神經網路的學習（learning）方法以提高其預測功能。我們稱這種類型的類神經網路為 ESNN。研究結果顯示資料特性確實會影響迴歸分析與類神經網路的預測效果。本研究歸納出一些規則以幫助使用者在面對資料時可以選擇適當的預測方法。此外，結果顯示 ES 確實可提高類神經網路的預測效果。關鍵詞：迴歸分析，類神經網路，區域搜尋法，演化策略法類神經網路 Regression analysis and artificial neural networks are two main techniques for prediction. During the past few years, more than fifty technical papers have been published for comparing the predictive performance of their applications in different

artificial neural networks outperformed regression analysis; however, a more thorough comparison was lacking. In this research, we tried to randomly generate different types of data, so as to completely explore the effect of data characteristics on the predictive performance of regression analysis and artificial neural networks. The data characteristics include normal distribution, skew distribution, unequal variances, Michaelis-Menten relationship model and exponential regression model.

In addition, we used the evolution strategies, one of the local search methods, to train artificial neural networks to further improve its performance. We named this type of artificial neural networks ESNN.

Computational results indicate that data characteristics indeed affect the predictive performance of regression analysis and artificial neural networks. Several rules have been summarized to help user select suitable predictive methods for different types of data. The results also show that ES is able to enhance the predictive performance of artificial neural networks.

Keywords: Regression Analysis, Artificial Neural Networks, Local Search Methods,Evolution strategies neural network,

(3)

二、計畫緣由與目的 迴歸分析多年來在研究的領域與實務的應用上一直扮演重要的角色。在 SSCI 資料庫的搜尋中發現，自 1996 年到 2001 年 5 月為止，主題與迴歸分析有關的文獻，至少可以找到一萬多篇。它的應用領域則從網際網路、商學、工程、管理、社會、政治、教育、心理學到醫學等方面，幾乎無所不包。迴歸分析的主要功能之一為預測，但是不同於迴歸分析的其他預測工具，在這些年間也相繼被提出。其中，類神經網路是最受重視的一支。九零年代初期已有研究是在探討類神經網路與迴歸分析之關係（Masters [8]）。在 SSCI 的期刊中，自 1996 年至今可以找到超過 50 篇論文比較兩者在不同領域之應用及其預測效果。例如：英國的臭氧濃度[10]、鋼鐵輸送管彎曲成本之比較 [9]、股票報酬率及債券指數之效能[2]、旅遊人數[5]、機器排程之安排[3]、市場發展[11]、開發軟體所需時間[6]。大體而言，這些論文有以下共同的特點：（1）類神經網路的預測效果比迴歸分析準確。（2）類神經網路都是使用前授型網路架構（feed forward structure）和監督型學習（supervised learning）。結構的建構大多採取試誤法，而學習（learning）方式則是使用倒傳遞（back propagation）之方法。（3）沒有探討資料本身的特性，例如檢驗資料是否滿足迴歸分析的模式假定。這些研究的結果提供兩個值得深入的研究課題。第一、類神經網路的預測效果是否一定比迴歸分析的預測效果準確？不同的資料特性會不會影響兩者的預測效果？第二、有沒有一個系統性的方法可決定類神經網路的結構與學習的方法，以改善類神經網路的預測效果? 針對第一個問題，Markham 和 Rakes [7] 曾在符合簡單線性迴歸的模式假定之下，亦即誤差項滿足常態性（normality）、均等變異性（equal variance）及隨機性，以模擬的方式探討樣本數的大小與變異數的大小對類神經網路與簡單線性迴歸之預測效果的影響。他們的結論與我們直覺上地推論相當一致，當在樣本數夠多與變異數夠小的情況下，簡單線性迴歸的預測效果比類神經網路為佳；反之，則類神經網路的預測效果較佳。當然，這類研究仍有可以擴充的空間。因為實際的問題中常有多個自變數，而且實際的資料不見得會完全滿足線性迴歸的假定。針對第二個問題，由文獻探討知，常用來與迴歸分析做比較的 BPNN（back propagation neural networks），其結構與學習的方法是不盡理想的。相關的論文（Chen 等[1]）已証實區域搜尋法（local search methods）確實可以取代 BP 學習法來提高類神經網路的預測效果。常被用以幫助類神經網路學習的區域搜尋法包括基因演算法（genetic algorithms），模擬退火法（simulated annealing）等。不過，當初開發這些區域搜尋法的目的都是在解決間斷性變數的問題，而類神經網路的權數卻是連續變數，因此在使用這些這方法時都必須對權數值作修正而影響其精確度。為改善這個問題，本研究選擇以求解連續變數最佳化問題為主的區域搜尋法，演化策略法（evolution strategies，ES）來訓練類神經網路。在本研究中，我們稱此種類神經網路為 ESNN。因此，本研究的主要目的有二：一、探討不同資料特性對迴歸分析與類神經網路之預測效果的影響。這些資料

(4)

特性主要包括一般迴歸分析的假設條件如變異數之大小、誤差項之分配、誤差項之變異數的均等性等。我們希望能針對資料特性找出一些規則以幫助使用者選擇適當的分析方法，迴歸分析或類神經網路。二、使用來訓練類神經網路以提高其預測功能。 三、結果與討論 本研究所隨機產生的問題包括以下幾類： 1、滿足線性、常態、均等變異的假設下，將自變數設為兩個，模擬產生樣本數分別為 50，100，200，與誤差項標準差分別為 20，80，共計六種不同組合的資料形態。對每一組資料，將其中一半用於建模，另一半用於驗証模式以比較線性迴歸、ESNN 與 BPNN 的預測效果。預測效果的衡量則是以其 RMS 值及 MAPE 值為依據。上述的每一實驗會被重複 20 次。 2、滿足線性、常態、非均等變異假設下，模擬 100 筆資料，將其中一半用於建模，另一半用於驗証模式以比較線性迴歸、加權最小平方法 (WLS) 、 ESNN 與 BPNN 的預測效果。每一實驗也重複 20 次。 3、滿足線性、偏態、均等變異的假設下，產生具韋伯分配的資料 100 筆，並重覆執行 20 次，分別計算這 20 組資料的偏度及檢定統計量，再依線性迴歸、韋伯迴歸、ESNN 及 BPNN 四種方法估計的預測值計算 RMS 值與 MAPE 值。 4、滿足非線性、常態、均等變異的假設下，根據 Michaelis-Menten 關係模式與指數迴歸模式產生 100 筆資料，再依線性迴歸、非線性迴歸、ESNN 及 BPNN 四種方法估計的預測值計算 RMS 值與 MAPE 值。每一實驗也重複 20 次。針對每一類型問題的實驗結果，我們使用變異數分析與 Duncan 多重全距檢定來檢定不同預測方法的差異。對第一種類型的問題，若取顯著水準為 0.05，則三種預測方法並無顯著差異。若取顯著水準為 0.1，則有數組有顯著差異。以 RMS 值而言，在 (樣本數 50，標準差 80)這組，以 ESNN 表現最佳，而 ESNN 與 BPNN 有顯著差距。在(樣本數 100，標準差 80)、(樣本數 200，標準差 20)這兩組，以線性迴歸與 ESNN 預測結果較佳，且無顯著差異。 BPNN 則與這兩個方法則有顯著差異。在 (樣本數 200，標準差 80)這組，則是線性迴歸表現最佳，且與 BPNN 有顯著差距。以 MAPE 值而言，則在 (樣本數 200，標準差 20)這組，以 ESNN 表現最佳，而 ESNN 與 BPNN 有顯著差距。在第二種類型的問題中，在顯著水準 0.05 的假設檢定下，四種預測方法並無顯著的差異。在第三種類型的問題中，RMS 值的檢定結果顯示 ESNN 與韋伯迴歸預測的結果最佳，且沒有顯著差異。但 ESNN 則與 BPNN 和線性迴歸有顯著差異。而 MAPE 值的檢定也顯示相同結果。對第四種類型的問題，就 Michaelis-Menten 關係模式而言，不論是 RMS 值或是 MAPE 值的檢定結果皆為：非線性迴歸法與 ESNN 預測的結果沒有顯著差異，但與 BPNN 和線性迴歸有顯著差異。就指數迴歸模式： RMS 值的檢定結果為四種預測方法皆有顯著差異，以非線性迴歸法為最佳。而以 MAPE 值的檢定結果則為非線性迴歸法與 ESNN 預測的結果沒有顯著差異，但與 BPNN 和線性迴歸則有顯著差異。

(5)

綜合本以上分析的結果，可知 ESNN 確實可以取代 BPNN，成為類神經網路的新選擇。再者，針對不同特性的資料，探討究竟該選擇 ESNN 或者是迴歸方法做預測，我們歸納出幾點結論與建議：一、面對一堆資料，開始著手分析時，可依據先驗知識，考慮適當的迴歸模式。不論決定採用何種模式做應用，皆需以圖形表示法或統計檢定方法做檢定，檢查模式之傾向。二、如果原始的資料適合以常態線性迴歸模式配適，則使用者可考慮使用線性迴歸做預測。雖然對於此種資料形態，ESNN 的預測結果與迴歸方法無顯著差異，但是因為類神經網路在結構的確定與資料的訓練上，十分耗時；且由迴歸方法的理論背景，可得到更多的訊息。三、如果原始的資料適合用常態線性迴歸模式配適，但是經由圖形分析或由檢定方法得知誤差項不符合假設時，如：資料違反誤差項為均等變異之假設時，類神經網路 (ESNN、BPNN) 與迴歸方法的預測結果亦無顯著差異。但如果資料呈現韋伯偏態分佈時，則可考慮使用 ESNN 與韋伯迴歸方法。因為本研究在模擬偏態資料時，考慮韋伯分配，得到的結論是 ESNN 與韋伯迴歸方法的預測結果較好。但是，在實際領域中應用時，往往無法確切掌握資料的分配，雖然可以運用適當的轉換技巧做資料轉換，再利用迴歸方法做預測，然而，轉換的技巧亦是一大學問。四、當資料適合以非線性迴歸模式做配適時，可考慮非線性迴歸法或 ESNN 做預測。但需注意的是，非線性迴歸中常用於求解參數的高斯牛頓 (Gauss-Newton) 法，其起始值的抉擇非常重要，因為較差的抉擇會因為收斂速度減緩而造成局部最佳解，甚至會造成發散的狀況，而得不到較佳的迴歸函數估計值。本研究在模擬非線性迴歸模式該章節中，使用非線性迴歸所求之解 (預測結果之 RMS 值、MAPE 值)，可以作為一個用來與其他三種預測 (線性迴歸、ESNN、BPNN) 方法比較的基準 (benchmark)，因為我們在求解的初始值設定上，已經有十足的把握；然而，實務上，並不一定可以找到一個好的初始值。由本研究中，發現 ESNN 對於所舉的兩個非線性模式之預測可以達到與非線性迴歸無顯著之差異，所以我們建議使用者，如果原始的資料適合用非線性迴歸模式配適，則可考慮使用 ESNN ，因為如果使用非線性迴歸法，尚需考慮初始值的問題。 四、計畫結果自評 1. 與原計畫相符程度、達成預期目標情況：本研究原計畫比較七種方法：一般線性迴歸、加權迴歸、韋伯迴歸、 BPNN、GANN、SANN、ESNN，在三種不同類型資料上的預測效果。但是在一些測試問題中發現可能因為前述 ES 的特性， ESNN 所產生的結果都比 GANN 和 SANN 好。所以就將方法集中於 ESNN，但是將題目的類型擴大到非線性迴歸的問題。因此，本研究的結果應該是與原計畫相符、且達成預期目標。 2. 研究成果的學術或應用價值：本研究完整的探討資料特性對迴歸分析與類神經網路預測效果之影響，且提供幾點選

(6)

擇適當預測方法的原則。個人認為這些原則對大部分從事預測研究或實務的人應該很有價值。此外本研究也開發一個新的分析工具，ESNN。個人認為對資料分析與類神經網路的研究人員它應該也是一個值得深入的課題。 3. 是否適合在學術期刊發表：本研究有一些新的想法與好的結果。部分結果已發表在今年的統計年會。完整的結果將儘快整理投到國際期刊，如 Computers &OR。 五、參考文獻

1. Chen, C. L., Kaber, D. B. and Dempsey, P. G. (2000).“ A new approach to applying feedforward neural networks to the prediction of musculoskeletal disorder risk, ”Applied Ergonomics,

vol.31, pp.269-282.

2. Desai, V. S. and Bharati, R.(1998). “The efficacy of neural networks in predicting returns on stock and bond indices”, Decision Sciences, vol.29(2),

Spring, pp.405-425.

3. El-Bouri, A., Balakrisknan, S. and Popplewell, N. (2000). “Sequencing jobs on a single machine: A neural network approach”, European Journal of Operational Research, vol.126(3),

pp. 474-490.

4. Freeman, J. A. and Skapura, D. M. (1991). Neural Networks: Algorithms, Applications, and Programming Technique, Addison-Wesley, Reading, M.A.

5. Law R. (2000). “ Back-propagation learning in improving the accuracy of neural network-based tourism demand forecasting,” Tourism Management,

vol.21, pp.331-340.

6. Lind, M. R.and Sulek, J. M. (2000). “ A methodology for forecasting knowledge work projects,”Computers and Operations Research,” vol.27,

pp.1153-1169.

7. Markham, I. S. and Rakes, T. R. (1998). “ The effect of sample size and variability of data on the comparative performance of artificial neural networks and regression”, Computers Operations Research, vol.25(4), pp.251-263.

8. Masters, T., (1993). Practical Neural Networks Recipes in C++. Academic Press, New York.

9. Shtub, A., and Versano, R. (1999). “ Estimating the cost of steel pipe bending ” , Internation Journal of Production Economics, vol.62, pp.201-207.

10. Spellman, G. (1999).“An application of artificial neural networks to the prediction of surface ozone concentrations in the United Kingdom ” , Applied Geography,

vol.19, pp.123-261.

11. Wang, S.,(1999). “ An adaptive approach to market development forecasting ” , Neural Computing & application, vol.8(1), pp. 3-8.