自助整合法迴歸模型

4-1 前言

本研究在前一章以單一倒傳遞神經網路(BPN)與迴歸樹(RT)模型來研究選股模型，為建構更準確的模型，本章將使用自助整合法來整合多個模型。本章要點有三：

(1) 運用自助整合法(Bagging)來建立模型。

(2) 比較選股效益。

(3) 運用移動學習模式來建立模型。

4-2 方法

本章所使用的資料、迴歸探勘演算法都與前章相同。但為了使用自助整合法(Bagging)，因此將訓練範例做變化。

(1) 利用前章的訓練範例共 7459 筆，採取重複抽樣取出 7459 筆當做一組訓練範例，共做30 次，會得到 30 組訓練範例。

(2) 接下來在利用 30 組訓練範例以迴歸探勘技術建立模型，共做 30 次的建模與測試，而每次的測試範例都相同。

(3) 再將 30 次的測試範例的預測值做平均，評估其結果是否會優於單一模型。

4-3 結果

4-3-1 參數的影響

為了解神經網路的參數對自助整合法的影響，在此以學習循環10, 30, 100, 300, 1000 各產生 10 個模型，分別作自助整合法。結果如圖 4-1，並統計得表 4-1。

由表 4-1 可以觀察測試期間之誤差均方根，在學習循環數為 100 時其誤差均方

根為 0.2916，為五個學習循環數中最佳。顯然倒傳遞網路(BPN)學習循環數為 100 即達最佳。由圖 4-1 可知，Bagging 的模型優於 10 個模型的平均水準，但比 10 個模型的最佳模型差，故 Bagging 方法運用在倒傳遞網路上的效果不佳。

0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05

一二三四五六七八九十 Bagging10

多次預測模型

實際值與預測值之相關係數

Ncycle=10 Ncycle=30 Ncycle=100 Ncycle=300 Ncycle=1000

圖4-1倒傳遞網路

(BPN) Bagging10

次的實際值與預測值之相關係數圖

表4-1倒傳遞網路

(BPN) Bagging10

次的結果

參數誤差均方根

編號隱藏單元數學習循環訓練期間測試期間

1 5 10 -- 0.2944

2 5 30 -- 0.2922

3 5 100 -- 0.2916

4 5 300 -- 0.2917

5 5 1000 -- 0.2917

為了解迴歸樹(RT)的參數對自助整合法的影響，在此以三組參數：

樹葉最小樣本數=500, 樹葉最小標準差=0.001

樹葉最小樣本數=500, 樹葉最小標準差=0.275

樹葉最小樣本數=1000, 樹葉最小標準差=0.275

各產生 10 個模型，分別作自助整合法。結果如圖 4-2，並統計得表 4-2。由圖

4-2 可知，樹葉最小樣本數=500，樹葉最小標準差=0.001 的結果最佳。由圖 4-2 可知，Bagging 的模型優於 10 個模型中的 8 個模型，故 Bagging 方法運用在迴歸樹上的效果頗佳。

表4-2 迴歸樹

(RT) Bagging10

次的結果

參數誤差均方根

編號樹葉最小樣本數樹葉最小標準差訓練期間測試期間

1 500 0.001 -- 0.2913

2 500 0.275 -- 0.2912

3 1000 0.275 -- 0.2914

-0.01 0 0.01 0.02 0.03 0.04 0.05

一二三四五六七八九十 Bagging10

多次預測模型

實際值與預測值之相關係數 support=500;

sigma=0

support=500;

sigma=0.275

support=1000;

sigma=0.275

圖4-2迴歸樹

(RT) Bagging10

次的實際值與預測值之相關係數圖

比較上述兩種方法的結果如圖 4-3，可知

(1) 倒傳遞網路的單一模型優於迴歸樹的單一模型。

(2) 應用 Bagging 方法整合後，倒傳遞網路與迴歸樹的整合模型準確度差異極小。

(3) 訓練 Data 的影響很大。各組訓練範例雖取自同一個資料集，但在抽樣過程中產生差異，有時抽出的資料集剛好可以建立較準確的模型，有時則否。

0 0.01 0.02 0.03 0.04 0.05

一二三四五六七八九十 Bagging10

多次預測模型

實際值與預測值之相關係數

BPN - Ncycle=100 RT - support=500; sigma=0

圖4-3 倒傳遞網路與迴歸樹

Bagging10

次的實際值與預測值之相關係數圖

4-3-2 倒傳遞網路

本小節以倒傳遞網路運用自助整合法來建立選股預測模型，其參數設定採用隱藏單元數為7 與學習循環數為 100，並以作 30 組，再進行整合。其誤差均方根結果如表4-3。由表可以得知，不管是 10 次或是 30 次 Bagging 整合，其誤差均方根小於30 個模型的平均值。

如圖4-4，可以觀察得出來，以測試期間的誤差均方根看來 Bagging30 次優於Bagging10 次，Bagging10 次的誤差均方根為排名第十，而 Bagging30 次則排名第七，所以使用Bagging 雖然沒有辦法超越 30 個模型中的最佳模型，但是可以超越30 個模型中的中等模型。

而其測試期間之Bagging30 次的散佈圖如圖 4-5，在測試期間的相關係數達 0.111355，可以解釋的數據變異可以達 1.24%。

0.289 0.29 0.291 0.292 0.293 0.294 0.295 0.296

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Bagging10 Bagging30

多次預測模型

測試期間之Rank值錯誤均方根

註：粉紅直線：30 次單一模型之平均值為 0.292327;

黃直線：30 次單一模型之最小錯誤均方根值為 0.289943

圖4-4 倒傳遞網路

(BPN) Bagging

次的多年模式結果

-

誤差均方根

(

測試期間

)

4-5

表4-3 倒傳遞網路

(BPN) Bagging30

次的多年模式結果

參數誤差均方根

編號隱藏單元數學習循環訓練期間測試期間

1 7 100 0.281 0.293

2 7 100 0.278 0.29

3 7 100 0.279 0.293

4 7 100 0.279 0.291

5 7 100 0.278 0.29

6 7 100 0.28 0.291

7 7 100 0.281 0.293

8 7 100 0.285 0.295

9 7 100 0.28 0.292

10 7 100 0.28 0.292

11 7 100 0.28 0.292

12 7 100 0.28 0.292

13 7 100 0.282 0.293

14 7 100 0.282 0.295

15 7 100 0.279 0.292

16 7 100 0.28 0.292

17 7 100 0.281 0.292

18 7 100 0.283 0.294

19 7 100 0.28 0.292

20 7 100 0.279 0.292

21 7 100 0.279 0.291

22 7 100 0.28 0.291

23 7 100 0.28 0.291

24 7 100 0.279 0.291

25 7 100 0.278 0.292

26 7 100 0.278 0.292

27 7 100 0.278 0.293

28 7 100 0.281 0.292

29 7 100 0.278 0.292

30 7 100 0.281 0.296

30 次最小 -- -- 0.278 0.29

30 次平均 -- -- 0.28 0.292

Bagging10 次 -- -- -- 0.292

Bagging30 次 -- -- -- 0.291

4-3-3 迴歸樹

本小節以迴歸樹運用自助整合法來建立選股預測模型，參數設定為樹葉最小樣本樹為 500 與樹葉最小標準差為 0.001，並以作 30 組，再進行整合。其誤差均方根結果如表4-4，以及圖 4-6。30 個單一模型在測試期間的平均錯誤均方根為0.294，最小為 0.291。而 Bagging10 次、30 次所建立的預測模型之測試期間的誤差均方根為0.2907 與 0.2906，都比單一模型的誤差均方根的最小值來得小。

由Bagging30 次之結果繪製散佈圖(測試期間) 如圖 4-7，可以從此張散佈圖得知，以 Bagging30 次所建立出來的預測模型，產生出來的模型可解釋 1.17%

的數據變異。

註：粉紅直線：30 次單一模型之平均值為 0.291;

黃直線：30 次單一模型之最小錯誤均方根值為 0.2936

圖4-6迴歸樹

(RT) Bagging

次的多年模式結果

-

誤差均方根

(

測試期間

)

0.288 0.29 0.292 0.294 0.296 0.298 0.3

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Bagging10次 Bagging30次

多次預測模型

測試期間之Rank值錯誤均方根

表4-4 迴歸樹

(RT) Bagging30

次的多年模式結果

參數誤差均方根

編號樹葉最小樣本數樹葉最小標準差訓練期間測試期間

1 500 0.001 0.275 0.293

2 500 0.001 0.275 0.295

3 500 0.001 0.276 0.294

4 500 0.001 0.275 0.293

5 500 0.001 0.276 0.291

6 500 0.001 0.277 0.291

7 500 0.001 0.275 0.295

8 500 0.001 0.278 0.291

9 500 0.001 0.275 0.295

10 500 0.001 0.276 0.294

11 500 0.001 0.275 0.292

12 500 0.001 0.277 0.292

13 500 0.001 0.277 0.294

14 500 0.001 0.278 0.293

15 500 0.001 0.276 0.294

16 500 0.001 0.276 0.292

17 500 0.001 0.276 0.295

18 500 0.001 0.277 0.298

19 500 0.001 0.275 0.293

20 500 0.001 0.277 0.292

21 500 0.001 0.276 0.295

22 500 0.001 0.275 0.293

23 500 0.001 0.277 0.293

24 500 0.001 0.277 0.293

25 500 0.001 0.274 0.295

26 500 0.001 0.275 0.293

27 500 0.001 0.275 0.296

28 500 0.001 0.277 0.294

29 500 0.001 0.274 0.294

30 500 0.001 0.275 0.296

30 次最小 -- -- 0.274 0.291

30 次平均 -- -- 0.2759 0.2936

Bagging10 次 -- -- -- 0.2907

Bagging30 次 -- -- -- 0.2906

圖4-7迴歸樹

(RT) Bagging30

次的多年的散佈圖

(

測試期間

)

4-3-4 小結

綜合上述兩種方法的結果如表4-5，可知

(4) 倒傳遞網路的單一模型優於迴歸樹的單一模型。

(5) 應用 Bagging 方法整合後，迴歸樹的整合模型反而優於倒傳遞網路的整合模型。

表4-5 倒傳遞網路與迴歸樹的比較

倒傳遞網路迴歸樹

訓練期間測試期間訓練期間測試期間

30 次最小 0.2775 0.2899 0.2740 0.2910 30 次平均 0.2799 0.2923 0.2759 0.2936

Bagging10 次 -- 0.2915 -- 0.2907

Bagging30 次 -- 0.2913 -- 0.2906

4-4 選股效益比較

4-4-1 一般選股策略的績效

本小節以財務面的變數構成的選股規則分析選股績效。使用的資料為測試範例(第 24~40 季)，以第 t+2 季財務面的變數依選股規則選取每一季的股票，進而計算其第t+2 季的報酬率。本節探討的八個規則如下：

Rule 1 成長價值報酬率(GVR)的 Rank>0.5 且第 t 季報酬率 Return(t)的 Rank>0.5 Rule 2 成長價值報酬率 (GVR) 的 Rank<0.5 且股東權益報酬率 (ROE) 的 Rank<0.5

Rule 3 股東權益報酬率(ROE)的 Rank>0.5 且淨值股價比(BPR)的 Rank>0.5 Rule 4 股東權益報酬率(ROE)的 Rank<0.5 且淨值股價比(BPR)的 Rank<0.5 Rule 5 股東權益報酬率(ROE)的 Rank>0.5

Rule 6 股東權益報酬率(ROE)的 Rank<0.5 Rule 7 淨值股價比(BPR)的 Rank>0.5 Rule 8 淨值股價比(BPR)的 Rank<0.5

依照選股規則所篩選出每季的股票，計算各季報酬率實際值之平均值與 Sharpe 值，計算結果如表 4-6~表 4-7。並分別將其結果繪製成折線圖如圖 4-8~

圖4-9。在本研究選出的股票中，因為在第 39 與 40 季的時候，所取得的資料比數已經很少了，而經過選股規則的篩選，使得可以通過規則的股票少之又少，

因此忽略這二季的結果。

圖4-8選股效益之平均報酬率

表4-6 選股效益之平均報酬率年季

(以 t 為準)

Rule 1 選股

Rule 2 選股

Rule 3 選股

Rule 4 選股

Rule 5 選股

Rule 6 選股

Rule 7 選股

Rule 8 選股 24 20.6 9.8 21 6 11.6 13.9 18.3 7.1 25 36.7 35.4 36.4 28.8 27.3 32.6 35 25.2 26 47 23.5 29.7 15.9 23.2 26.7 30.9 19.4 27 27.9 8.8 30.3 7.2 14.3 12.3 18.6 8 28 39.2 43.1 42.8 46.8 28.2 34 32.8 29.3 29 30.7 34.7 22.6 36.2 22.8 30.8 26.8 26.7 30 21.3 34.8 23.7 29.6 25.9 29.7 28.1 27.5 31 18.9 10.7 16 6.5 14.8 11.4 14.2 12 32 1.8 1.4 0.9 -1.6 8.3 7.4 8 7.6 33 26.9 25.4 21.5 25.1 26.9 27 26.1 27.9 34 32.8 23.9 30.7 22.8 28 23 25 26 35 13.1 20.5 33.2 20.2 24.6 17.6 20.8 21.3 36 3.9 19.3 22.2 21.4 18.9 8.2 8.3 18.8 37 2.6 7 -0.3 7.8 3.2 -7.2 -9.3 5.3 38 -6.1 -8.1 -7.4 -5.4 -12.8 -17.6 -18.1 -12.4 39 -13.4 -37.2 -24 -34.3 -8.6 -30.1 -24.4 -13.4 40 -11.3 -75.4 -7.5 -72 -12.7 -54.5 -30.6 -23.5

Sharpe 值是在說明每承擔一分風險可以回饋多少報酬，表 4-7 中的 Rule3 與Rule4 的第 40 季因為可以通過篩選規則的筆數不足，所以無法算出其 Sharpe 值。由表4-7 搭配圖 4-9 可以觀察得知，在第 38 季以前幾乎都是正向回饋，但在第38 季以後幾乎都成負向。

表4-7 選股效益之

Sharpe

值

年季 Rule 1 Rule 2 Rule 3 Rule 4 Rule 5 Rule 6 Rule 7 Rule 8 24 0.576 0.219 0.569 0.143 0.346 0.362 0.504 0.206 25 1.065 0.552 0.883 0.603 0.72 0.68 0.758 0.637 26 0.965 0.407 0.626 0.412 0.567 0.567 0.629 0.509 27 0.463 0.237 0.425 0.191 0.281 0.338 0.384 0.206 28 0.692 0.756 0.653 0.782 0.454 0.681 0.635 0.483 29 0.639 0.46 0.573 0.447 0.495 0.462 0.489 0.446 30 0.345 0.665 0.483 0.667 0.446 0.654 0.6 0.483 31 0.347 0.267 0.368 0.176 0.3 0.327 0.384 0.252 32 0.076 0.037 0.038 -0.048 0.302 0.237 0.277 0.254 33 0.741 0.716 0.703 0.659 0.668 0.796 0.814 0.666 34 0.845 0.669 0.704 0.679 0.617 0.718 0.713 0.603 35 0.416 0.427 0.694 0.377 0.611 0.433 0.529 0.511 36 0.116 0.334 0.556 0.35 0.395 0.163 0.184 0.357 37 0.066 0.108 -0.008 0.103 0.076 -0.138 -0.223 0.1 38 -0.148 -0.165 -0.162 -0.107 -0.374 -0.434 -0.464 -0.343 39 -0.449 -1.568 -0.849 -1.506 -0.429 -1.044 -0.818 -0.597 40 -0.571 -6.913 -- -- -0.909 -2.079 -0.864 -0.854

圖4-9選股效益之

Sharpe

值

若以累計資金來看(如表 4-8 與圖 4-10)，可以觀察出，規則 Rule1 與 Rule3 表現佳，而Rule2 與 Rule4 則是八條選股規則裡表現差的規則。

表4-8 選股效益之累計資金

年季 Rule 1 Rule 2 Rule 3 Rule 4 Rule 5 Rule 6 Rule 7 Rule 8

(以 t 為準) 1 1 1 1 1 1 1 1

24 1.048 1.024 1.049 1.015 1.028 1.033 1.043 1.017 25 1.133 1.104 1.133 1.081 1.092 1.108 1.124 1.076 26 1.248 1.164 1.21 1.121 1.15 1.176 1.203 1.125 27 1.327 1.189 1.292 1.141 1.189 1.211 1.255 1.147 28 1.441 1.3 1.413 1.256 1.265 1.302 1.347 1.223 29 1.541 1.401 1.486 1.356 1.332 1.393 1.43 1.298 30 1.617 1.51 1.568 1.447 1.411 1.486 1.521 1.379 31 1.689 1.548 1.627 1.47 1.461 1.527 1.572 1.419 32 1.697 1.554 1.631 1.464 1.49 1.554 1.603 1.445 33 1.801 1.644 1.712 1.549 1.581 1.65 1.698 1.536 34 1.933 1.735 1.831 1.63 1.682 1.738 1.796 1.628 35 1.993 1.817 1.967 1.707 1.777 1.81 1.883 1.709 36 2.013 1.899 2.068 1.792 1.856 1.846 1.92 1.784 37 2.026 1.932 2.066 1.826 1.87 1.812 1.874 1.807 38 1.994 1.891 2.027 1.8 1.807 1.726 1.783 1.748 39 1.924 1.684 1.893 1.621 1.767 1.578 1.662 1.687 40 1.867 1.186 1.856 1.179 1.708 1.296 1.517 1.578

0 0.5 1 1.5 2 2.5

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 季(測試期間)

累計資金(元)

Rule 1 Rule 2 Rule 3 Rule 4 Rule 5 Rule 6 Rule 7 Rule 8

註: 累計資金由第 24 季季初時投資 1 塊錢開始計算

圖4-10選股效益之累計資金

(

第

24~40

季

)

因在2007 年時受到次級房貸的影響，美國經濟景氣開始往下走，當然會也影響到股票市場。2007 年的股票時間點是在本研究的測試資料的第 37~40 季，

由圖4-11 可以看出，在第 37 季以前表現最佳與最差的規則為 Rule7 與 Rule8，

他們的規則是由 BPR 控制。但到了第 37 季以後就翻轉了這個現象，表現最佳與最差的規則為Rule5 與 Rule6。由此現象可以得知，景氣好的時候，由淨值股價比(BRP)的排序控制，即價值股控制。景氣差的時候，是由股東權益報酬率 (ROE)的排序控制，即成長股控制。

0 0.5 1 1.5 2 2.5

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 季(測試期間)

累計資金(元)

Rule 5 Rule 6 Rule 7 Rule 8

註: 累計資金由第 24 季季初時投資 1 塊錢開始計算

圖4-11選股效益之累計資金

(Rule5~Rule8)

將股東權益報酬率(ROE)排序最小的 1/5 與最大的 1/5 累計資金繪成圖 4-12，淨值股價比(BPR)排序最小的 1/5 與最大的 1/5 累計資金繪成圖 4-13，可知

(1) 在初期股東權益報酬率(ROE)排序最小的 1/5 表現比排序最大的 1/5 高，顯示 ROE 無法合理解釋報酬率；但此階段，淨值股價比(BRP)最大的 1/5 表現比排序最小的1/5 高，顯示 BPR 可以合理解釋報酬率。

(2) 在後期股東權益報酬率(ROE)排序最大的 1/5 表現比排序最小的 1/5 高，顯示 ROE 可以合理解釋報酬率；但此階段，淨值股價比(BRP)最小的 1/5 表現比

排序最大的1/5 高，顯示 BPR 無法合理解釋報酬率。

因此初期是由淨值股價比(BRP)的排序控制，即價值股控制。後期是由股東權益報酬率(ROE)的排序控制，即成長股控制。

0 0.5 1 1.5 2 2.5

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 季

累計資金(元)

ROE-小1/5 ROE-大1/5

註: 累計資金由第 24 季季初時投資 1 塊錢開始計算

圖4-12 因變數股東權益報酬率

(ROE)

排序之累計資金

0 0.5 1 1.5 2 2.5

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 季

累計資金(元)

BPR-小1/5 BPR-大1/5

註: 累計資金由第 24 季季初時投資 1 塊錢開始計算

圖4-13 因變數淨值股價比

(BPR)

排序之累計資金

4-4-2 倒傳遞網路、迴歸樹的績效

為評估倒傳遞網路、迴歸樹的績效，RT 與 BPN 的參數設定如下：

• 迴歸樹(RT)：Bagging 30 次樹葉最小樣本數為 500 與樹葉最小標準差為 0.001。

• 倒傳遞網路(BPN)：Bagging 30 次隱藏單元數為 7 學習循環為 100。

將迴歸樹(RT)與倒傳遞網路(BPN)與前節表現佳的規則 Rule1、Rule3 做比較，其累計資金的結果，如表4-9 與圖 4-14 所示。雖然在後面的幾季累積報酬率是往下掉的，但可以發現，若忽略第 39 與 40 季，表現較好的為 RT 與 BPN 排序最大的1/5，而較差的為 RT 與 BPN 排序最小的 1/5。由此可知

(3) 迴歸樹(RT)與倒傳遞網路(BPN)可以提高選股的報酬率

(4) 依迴歸樹(RT)與倒傳遞網路(BPN)的報酬 Rank 值預測值排序最大的 1/5 遠比最小的1/5 有更大的報酬率，可見這兩種模型可以區隔報酬率高與低的股票。

表4-9 選股效益之累計資金與

RT/BPN

比較

RT BPN 年季 Rule 1

選股

Rule 3

選股最小1/5 最大 1/5 最小 1/5 最大 1/5

(以 t 為準) 1 1 1 1 1 1

24 1.0479 1.0487 1 1.05 1 1.06 25 1.1331 1.1334 1.05 1.16 1.04 1.17 26 1.2477 1.2096 1.07 1.27 1.06 1.29 27 1.3269 1.2923 1.06 1.36 1.06 1.39 28 1.4412 1.4126 1.1 1.52 1.09 1.57 29 1.5411 1.4864 1.15 1.67 1.16 1.72 30 1.6173 1.5675 1.19 1.86 1.21 1.91 31 1.6889 1.6269 1.2 1.95 1.22 2.02 32 1.6966 1.6307 1.2 2 1.23 2.08 33 1.8007 1.7122 1.26 2.16 1.3 2.24 34 1.9332 1.8308 1.34 2.3 1.38 2.39 35 1.9934 1.9667 1.4 2.46 1.43 2.52 36 2.0125 2.0676 1.46 2.52 1.48 2.6 37 2.0256 2.0659 1.47 2.42 1.5 2.5 38 1.9941 2.0268 1.41 2.31 1.45 2.37 39 1.9235 1.8925 1.33 1.98 1.39 2.11 40 1.8668 1.8558 1.3 1.73 1.23 1.79

0 0.5 1 1.5 2 2.5 3

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 季

累計資金(元)

Rule 1 Rule 3 RT-小1/5 RT-大1/5 BPN-小1/5 BPN-大1/5

註: 累計資金由第 24 季季初時投資 1 塊錢開始計算

圖4-14選股效益之累計資金與

RT/BPN

比較

4-5 移動學習模式之影響

何謂移動學習，本研究給移動學習的定義為在相同樣的資料集裡，將原本的訓練與測試期間往後或往後移動捨棄一部分的資料進行研究，然後與原本的研究結果做比較。

在前一小節中，在2007 年因經濟的影響使得股票往下跌，或許因為訓練的時間所訓練出來的模型不適合測試期間的股票市場的型態，所以在這一小節，

著重在若將訓練期間往後移動，是否會影響測試期間所測試出來的結果。本節將訓練時期與測試時期移動八季，訓練期間的資料為第10 季~第 32 季，而測試期間的資料則由第33 季~第 40 季，如圖 4-13 所表示。

圖4-15 移動八季期間

在文檔中中華大學 (頁 50-69)