• 沒有找到結果。

1.1 研究背景與動機

1.1.1 迴歸分析(Regression Analysis)

迴歸分析(Regression Analysis)是一種在統計學中很常見的方法,可以用來 找尋變數之間的關係,藉此解釋變數之間的相依性,以及預測資料未來的趨 勢。解釋變數(Explanation)是指我們可以從樣本之中計算出迴歸方程式,以了 解自變數(Independent Variable,或是控制變數 Control Variable)對於依變數 (Dependent Variable,或稱為反應變數 Response Variable)的影響。舉例來說,

若是我們分析水庫集水區的降雨量和水庫進水量的資料所得到的迴歸方程 式,便可以了解水庫進水量和降雨量多寡是成正比的影響。至於預測(Prediction) 方面,則是應用迴歸方程式,算自變數的變動會帶給依變數多大的改變,可以 使預測資料未來的變化。

迴 歸 分 析 可 以 分 為 簡 單 迴 歸(Simple Regression) 和 複 迴 歸 (Multiple Regression)。簡單迴歸是探討一個依變數 y 和一個自變數 x 之間的關係;而複 迴歸則是探討一個或多個依變數和多個自變數xi, i=1,2,…,n,間的關係。以線性 迴歸為例,簡單迴歸和複迴歸的數學表示式如下。

ε x a a

y= 0+ 1 + Eq. ( 1 )

ε x a x

a x a a

y= 0+ 1 1+ 2 2+L+ n n+ Eq. ( 2 ) 在上式之中,a0為常數、ai, i=1,2,…,n,為迴歸係數、而ε為誤差。迴歸方法的 目的便是希望可以使得誤差值ε可以最小化。

參數迴歸可以視為尋找最合適的參數。參數迴歸是一種非常有效的迴歸分析,

它是先假設 f

( )

⋅ 函式的存在,只有參數需要調整而已。典型的參數迴歸方法有 線性迴歸(Linear regression) [ 19 ]、Errors-in-variables models [ 5 ][ 32 ]、Curve fitting [ 25 ]等。無參數迴歸和參數迴歸相反,它並不需要任何預設的結構,典 型的無參數迴歸方法像是orthogonal series estimator [ 37 ]、kernel estimator [ 31 ] 和smoothing spline [ 33 ]等。

1.1.2 研究動機

簡單問題的迴歸分析可以使用 Linear Regression、Curve Fitting、或是 Smoothing Spline 等方法快速得到滿意的結果。但是複雜的、且非線性的問題 並不然。在複迴歸之中,依變數和應變數並非是簡單的一對一的關係,隨著依 變數的增加會使得迴歸公式更加的複雜。因此要使用參數迴歸來解決複迴歸的 問題時,會無法找到合適的假設函式。而非參數迴歸的方法也是難以從依變數 之中找到合適的公式。

由於迴歸分析是找出自變數和依變數兩者之間誤差最小的數學模型,因此 可以被視為一種最佳化的問題。近代處理複雜的、非線性的問題,常常引用軟 式計算(Soft-computing), 人工智慧(Artificial Intelligence), 機器學習(Machine Learning)等非解析數學的技術來進行最佳化的動作。本論文使用的是基因規劃 (Genetic Programming, GP);GP 是由基因演算法(Genetic Algorithm)變化而來。

GP 以樹狀結構來表示數學公式,再依照 “適者生存"的法則演化出符合問題 最好的解答。以GP 為基礎的符號式迴歸(Symbolic Regression)引擎可以用來尋 找誤差最小的迴歸公式。但是在尋找最佳的迴歸公式的過程之中,想要從隨機 的算式演化成符合資料趨勢的最佳迴歸公式,往往必須花費大量的時間。在找 到符合資料趨勢的公式之後,迴歸引擎又需要花費另外的計算時間以找尋更詳 細的公式。因此,若是能夠在演化的一開始便給予資料的趨勢而不是隨機產

生,便可以免去大量的計算時間,讓計算能量都花費在縮短迴歸公式的誤差。

小波迴歸(Wavelet Regression) [ 14 ][ 15 ]是利用小波分析(Wavelet Analysis) [ 24 ]找出資料集的大方向趨勢和小地方細節,再進行逆轉換組合成迴歸公 式。小波分析可以視為是特定的母小波和資料集之間旋積(Convolution)關係。

若是母小波和資料之間沒有太大的關聯性,則小波轉換之後所得的係數會越趨 近於零;相反的,若是兩者之間的趨勢越相近則轉換後的係數則越大。將低於 預設門檻值的轉換係數捨棄掉後進行逆轉換運算便可得到小波迴歸公式。小波 迴歸的優勢是可以快速的找出相近的資料趨勢,但是要得到較低的誤差,勢必 會讓迴歸公式變為非常的複雜。

綜合上述兩種迴歸方法的特色,本研究發現符號式迴歸是以GP 來演化出 誤差最小的迴歸方程式,但是會花費大量的計算時間在染色體的演化過程之 中。小波迴歸則是透過小波轉換來分析資料並透過逆轉換以及門檻值設定來得 到迴歸公式,門檻值設定寬鬆的迴歸公式所得到結果誤差比較小但複雜度高,

而門檻值設定嚴苛所得到的公式複雜度雖然小但是誤差卻高。

因此本論文提出結合小波迴歸和基因規劃技術的符號式迴歸引擎,先使用 小波迴歸找出簡單卻可以代表資料大方向趨勢的公式,同時,這條迴歸公式是 可以寫成符號式數學式子。最後再透過基因規劃進一步的演化出更精確的迴歸 公式。最後我們以數學測試方程式和實際的複迴歸問題作為測試,來驗證此迴 歸引擎的可行性。

1.2 研究架構

本文研究如下圖所示,主要分為研究目的、相關研究、迴歸引擎設計、實 驗分析與結論。

礎的迴歸引擎。

z 相關研究:蒐集與本研究相關研究與相關技術文獻,包含迴歸分析、連

續小波轉換、離散小波轉換、小波迴歸、基因演算法、基因規劃、符號 式迴歸等。

z 迴歸引擎設計:設計一個以小波迴歸和基因規劃為基礎的符號式迴歸引 擎。

z 實驗分析:比較不同資料集、不同實驗參數等各種情況下的實際效能分 析。

z 結論:為依實驗分析結果,探討符號式迴歸引擎的效能,並建議未來研

究方向。

圖 1.2-1 研究架構

1.3 論文架構

本論文架構如下:第一章說明研究背景與動機。第二章簡述背景知識與相 研究目的

研究背景

問題定義

相關研究 迴歸分析

連續小波 轉換 離散小波

轉換

基因 演算法 基因規劃

符號式 迴歸 小波迴歸

迴歸引擎

實驗

結論

關文獻。第三章提出迴歸引擎的設計與規劃,以及所使用的演算法設計。第四 章實驗與分析,說明實驗設計、資料蒐集、實驗的結果與小結。第五章說明研 究的結果、以及未來可能的方向。

相關文件