• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
94
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

以迴歸樹與逐步迴歸建構台灣股市多因子選股 Use the regression tree and stepwise regression to build

a multi-factor model of stock selection in Taiwan

系 所 別:資訊管理學系碩士班 學號姓名:E09610019 彭光正 指導教授:葉怡成 博士

中 華 民 國 九十九 年 七 月

(2)

摘要 摘要 摘要 摘要

結合多種效應可以建構報酬率更高的選股模型,但以嘗試錯誤的方式尋找最佳的多 因子模型顯然無效率。本文採用排序正規化法將自變數與因變數正規化。在建模方法方 面,因為並非所有考慮的因子都會影響選股,且過於複雜的多因子選股模型反而會陷入 資料操弄的陷阱,造成模型只具重複性,而不具普遍性,因此本研究選擇逐步迴歸與迴 歸樹這兩種方法。為檢視理論模型的可行性及準確性,本研究以台灣股市為樣本進行實 證分析。結論如下 (1)逐步迴歸分析從 12 個變數因子中,選出稅後股東權益報酬率(ROE) 及股價淨值比(PBR)為最重要的變數,此二變數可解釋 80%以上變異。(2)逐步迴歸分析 推估的 ROE 及 PBR 的最佳權重組合為(55%,45%)。模擬實證結果顯示,此權重組合接 近最佳權重組合。(3)迴歸樹的結果顯示每股稅後盈餘、本益比、股價淨值比是最重要的 變數。雖然並未被發現 ROE 是最重要的變數,但由規則中可以發現隱含著高 ROE 會有 高報酬的原則。(4) 模擬實證結果顯示迴歸樹預測報酬率最高與最低之選股規則分別是 迴歸樹的所有八個選股規則中最高、最低者,證明迴歸樹確實可以產生有用的選股規則。

關鍵詞 關鍵詞關鍵詞

關鍵詞:::迴歸樹:迴歸樹迴歸樹迴歸樹、、、、逐步迴歸逐步迴歸逐步迴歸逐步迴歸、、、、台灣股市台灣股市台灣股市台灣股市、、、、多因子多因子多因子多因子、、、、選股模型選股模型選股模型選股模型。。。

(3)

Abstract

After combining many effects, we can construct a stock selection model with higher return, but it is clearly inefficient using trial and error method to find the best multi-factor model. This study took Sorting Normalization Method to normalize the independent variables and the dependent variable. On the modeling method, since only some factors influence the stock selection, an over-complex multi-factor model will fall into the trap of data snooping and will only build a repetition model, not a generalization model. Therefore, the study employed the stepwise regression and regression tree to build stock selection models. To evaluate the accuracy of these models, the study took an empirical analysis on the Taiwan stock market. Conclusions are given as follows. (1) From the 12 factors considered, stepwise regression selected two most important factors, the return on equity (ROE) and price-to-book value ratio (PBR). These two factors could explain more than 80% variance. (2) According to the estimation of stepwise regression, the best weight of ROE and the best weight of PBR are respectively 55% and 45%. Empirical results showed that the weights are close to the best one.

(3) Regression trees showed that after-tax earnings per share, PE ratio, and PBR are the most important factors. Although we didn’t find that ROE was one of the most important factors, but the rule set generated by the regression trees implied that the higher the ROE, the higher the return. (4) The empirical results showed that the rules with the highest and lowest predicted return generated by regression trees achieved the highest and lowest return among all the rules, which showed that the regression tree can produce useful stock-picking rules.

Key Words:::: Regression tree, stepwise regression, Taiwan stock market, multi-factor, stock selection model.

(4)

目錄

摘要………i

Abstract ……….ii

目錄………...………iii

表目錄………v

圖目錄………vi

第一章 導論... 1

1-1 研究動機... 1

1-2 研究內容... 2

第二章 文獻回顧... 4

2-1 前言... 4

2-2 選股因子之研究... 4

2-3 以迴歸分析方法建構多因子選股模型之研究... 7

2-4 以人工智慧方法建構多因子選股模型之研究... 10

第三章 研究方法... 12

3-1 建模方法一:逐步迴歸分析... 12

3-2 建模方法二:迴歸樹... 12

3-3 變數處理... 16

第四章 逐步迴歸分析多因子選股模型... 17

4-1 資料來源及作法... 17

4-2 逐步迴歸分析結果... 17

4.2.1 全部樣本... 17

4.2.2 大型股樣本... 21

4-3 資料庫實證分析... 26

4.3.1 全部股樣本第 t+2 季之迴歸分析... 26

4.3.2 全部股樣本第 t+3 季之迴歸分析... 29

4.3.3 大型股樣本第 t+2 季之迴歸分析... 32

4.3.4 大型股樣本第 t+3 季之迴歸分析... 35

4-4 模擬實證分析... 38

4-5 結語... 47

第五章 迴歸樹多因子選股模型... 49

5-1 資料來源及作法... 49

5-2 迴歸樹分析結果... 49

5-3 資料庫實證分析... 52

5.3.1 全部股樣本第 t+2 季之迴歸樹... 52

5.3.2 全部股樣本第 t+3 季之迴歸樹... 55

5.3.3 大型股樣本第 t+2 季之迴歸樹... 57

5.3.4 大型股樣本第 t+3 季之迴歸樹... 59

5-4 模擬實證分析... 62

5-5 結語... 68

第六章 結論與建議... 72

(5)

6-1 結論... 72

6-2 建議... 73

參考文獻... 75

附錄 A 迴歸分析之統計 ... 78

附錄 B 迴歸樹之統計 ... 82

(6)

表目錄 表目錄 表目錄 表目錄

表 表表

表 2 2 2- 2--1-11 國外探討選股因子的相關文獻... 5 1 表表表

表 2 2 2- 2--2-22 以迴歸分析方法建構多因子選股模型的相關文獻... 8 2 表表表

表 222-2--3-33 以迴歸樹方法建構多因子選股模型的相關文獻... 10 3 表表表

表 4 4 4- 4--1-11 1 不同 ROE-PBR 權重組合的全部股第 t+2 季結果... 27 表

表表

表 4 4 4- 4--2-22 2 不同 ROE-PBR 權重組合的全部股第 t+3 季結果... 29 表

表表

表 4 4 4- 4--3-33 3 不同 ROE-PBR 權重組合的大型股第 t+2 季結果... 32 表

表表

表 4 4 4- 4--4 -4 4 不同 ROE-PBR 權重組合的大型股第 t+3 季結果... 35 4 表

表表

表 4 4 4- 4--5 -5 5 不同 ROE-PBR 權重組合的投資組合的比較:CMoney 模擬 ... 41 5 表

表表

表 444-4--6-66 資料庫實證與模擬實證之比較... 48 6 表表表

表 5 5 5- 5--1-11 各迴歸樹的八個樹葉之訓練與測試期之間報酬率 Rank 值的判定係數... 50 1 表表表

表 5 5 5- 5--2-22 全部樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值... 53 2 表表表

表 555-5--3-33 3 全部樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值... 55 表表表

表 5 5 5- 5--4-44 4 大型股樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值... 58 表

表表

表 5 5 5- 5--5-55 5 大型股樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值... 60 表

表表

表 5 5 5- 5--6-66 各選股規則的投資組合的比較:CMoney 模擬 ... 64 6 表

表表

表 5 5 5- 5--7-77 7 全部樣本第 t+2 季最佳迴歸樹報酬率的資料庫實證與模擬實證比較... 69 表

表表

表 5 5 5- 5--8-88 迴歸分析與迴歸樹的結果之比較... 71 8 表表表

表 A A A- A--1-11 1 選股因子重要性評分... 78 表表表

表 B B B- B--1-11 全部股第 t+2 季的迴歸樹... 82 1 表表表

表 B B B- B--2-22 全部股第 t+3 季的迴歸樹... 82 2 表表表

表 B B B- B--3-33 大型股第 t+2 季的迴歸樹... 82 3 表

表表

表 B B B- B--4-44 大型股第 t+3 季的迴歸樹... 83 4 表

表表

表 B B B- B--5-55 5 選股因子重要性評分... 83

(7)

圖目錄 圖目錄 圖目錄 圖目錄

圖 圖圖

3-1 決策樹... 13

圖圖

3-2 迴歸樹... 14

圖圖

3-3 不同的不純度函數之函數值比較... 15 圖圖圖

4-1 t+2 季之全部股逐步迴歸分析結果- T 統計量... 19

圖圖

4-2 t+2 季之全部股逐步迴歸分析調整 R 平方 ... 19

圖圖

4-3 t+2 季之全部股逐步迴歸分析結果- T 統計量變化過程... 19

圖圖

4-4 t+3 季之全部股逐步迴歸分析結果- T 統計量... 20

圖圖

圖 4-5 t+3 季之全部股逐步迴歸分析調整 R 平方 ... 20 圖圖圖

4-6 t+3 季之全部股逐步迴歸分析結果- T 統計量變化過程... 21

圖圖

4-7 t+2 季之大型股逐步迴歸分析結果 - T 統計量... 23 圖圖圖

4-8 t+2 季之大型股逐步迴歸分析調整 R 平方 ... 23

圖圖

4-9 t+2 季之大型股逐步迴歸分析結果- T 統計量變化過程... 24

圖圖

4-10 t+3 季之大型股逐步迴歸分析結果- T 統計量... 24 圖圖圖

4-11 t+3 季之大型股逐步迴歸分析調整 R 平方... 25

圖圖

圖 4-12 t+2 季之大型股逐步迴歸分析結果- T 統計量變化過程... 25 圖圖圖

4-13 不同 ROE-PBR 權重組合的全部股第 t+2 季年複利報酬率:離線分析 ... 27

圖圖

4-14 不同 ROE-PBR 權重組合的全部股第 t+2 季的報酬率標準差:離線分析 ... 28

圖圖

4-15 不同 ROE-PBR 權重組合的全部股第 t+2 季的 Sharpe 指標:離線分析 ... 28 圖圖圖

4-16 不同 ROE-PBR 權重組合的全部股第 t+2 季的年複利報酬率與報酬率標準差 . 29

圖圖

4-17 不同 ROE-PBR 權重組合的全部股第 t+3 季年複利報酬率:離線分析 ... 30 圖圖圖

4-18 不同 ROE-PBR 權重組合的全部股第 t+3 季的報酬率標準差:離線分析 ... 30

圖圖

4-19 不同 ROE-PBR 權重組合的全部股第 t+3 季的 Sharpe 指標:離線分析 ... 31 圖圖圖

4-20 不同 ROE-PBR 權重組合的全部股第 t+3 季的年複利報酬率與報酬率標準差 . 31

圖圖

4-21 不同 ROE-PBR 權重組合的大型股第 t+2 季年複利報酬率:離線分析 ... 33

圖圖

4-22 不同 ROE-PBR 權重組合的大型股第 t+2 季的報酬率標準差:離線分析 ... 33 圖圖圖

4-23 不同 ROE-PBR 權重組合的大型股第 t+2 季的 Sharpe 指標:離線分析 ... 34

圖圖

4-24 不同 ROE-PBR 權重組合的大型股第 t+2 季的年複利報酬率與報酬率標準差 . 34 圖圖圖

圖 4-25 不同 ROE-PBR 權重組合的大型股第 t+3 季年複利報酬率:離線分析 ... 36

圖圖

4-26 不同 ROE-PBR 權重組合的大型股第 t+3 季的報酬率標準差:離線分析 ... 36

圖圖

4-27 不同 ROE-PBR 權重組合的大型股第 t+3 季的 Sharpe 指標:離線分析 ... 37 圖圖圖

4-28 不同 ROE-PBR 權重組合的大型股第 t+3 季的年複利報酬率與報酬率標準差 . 37

圖圖

4-29 不同 ROE-PBR 權重組合的投資組合的年複利報酬率:CMoney 模擬... 41 圖圖圖

4-30 不同 ROE-PBR 權重組合的投資組合月報酬的平均:CMoney 模擬... 42

圖圖

4-31 不同 ROE-PBR 權重組合的投資組合年化報酬率標準差:CMoney 模擬... 42 圖圖圖

圖 4-32 不同 ROE-PBR 權重組合的投資組合月報酬標準差:CMoney 模擬... 43

圖圖

4-33 不同 ROE-PBR 權重組合的投資組合的 Beta 值:CMoney 模擬 ... 43

圖圖

4-34 不同 ROE-PBR 權重組合的投資組合的 Sharpe Ratio:CMoney 模擬 ... 44 圖圖圖

圖 4-35 不同 ROE-PBR 權重組合的投資組合的資訊比:CMoney 模擬... 44

圖圖

圖 4-36 不同 ROE-PBR 權重組合的投資組合月報酬超越大盤勝率(%):CMoney 模擬 45 圖圖圖

4-37 不同 ROE-PBR 權重組合的投資組合相對大盤平均勝率:CMoney 模擬... 45

圖圖

圖 4-38 不同 ROE-PBR 權重組合的投資組合相對大盤平均報酬率:CMoney 模擬... 46

圖圖

4-39 不同 ROE-PBR 權重組合的投資組合的平均勝率:CMoney 模擬... 46

(8)

圖 圖圖

4-40 資料庫實證與模擬實證之比較散佈圖... 48

圖圖

5-1 全部樣本第 t+2 季報酬率之最佳迴歸樹 ... 50 圖圖圖

5-2 全部樣本第 t+3 季報酬率之最佳迴歸樹 ... 51

圖圖

5-3 大型股樣本第 t+2 季報酬率之最佳迴歸樹 ... 51 圖圖圖

5-4 大型股樣本第 t+3 季報酬率之最佳迴歸樹 ... 52

圖圖

圖 5-5 全部樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值散佈圖53

圖圖

5-6 全部樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與報酬率標準差散佈圖... 54 圖圖圖

5-7 全部樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與 Sharpe 指標散佈圖... 54

圖圖

5-8 全部樣本第 t+2 季最佳迴歸樹的報酬率實證值與報酬率標準差關係圖 ... 54 圖圖圖

5-9 全部樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值散佈圖56

圖圖

5-10 全部樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與報酬率標準差散佈圖... 56 圖圖圖

5-11 全部樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與 Sharpe 指標散佈圖... 56

圖圖

5-12 全部樣本第 t+3 季最佳迴歸樹的報酬率實證值與報酬率標準差關係圖 ... 57

圖圖

5-13 大型股樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值散佈圖 ... 58 圖

圖圖

5-14 大型股樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與報酬率標準差散佈圖... 58 圖圖圖

圖 5-15 大型股樣本第 t+2 季最佳迴歸樹的報酬率 Rank 值與 Sharpe 指標散佈圖... 59

圖圖

5-16 大型股樣本第 t+2 季最佳迴歸樹的報酬率實證值與報酬率標準差關係圖 ... 59 圖圖圖

5-17 大型股樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與資料庫報酬率實證值散佈圖 ... 60 圖圖圖

5-18 大型股樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與報酬率標準差散佈圖... 61

圖圖

圖 5-19 大型股樣本第 t+3 季最佳迴歸樹的報酬率 Rank 值與 Sharpe 指標散佈圖... 61 圖圖圖

5-20 大型股樣本第 t+3 季最佳迴歸樹的報酬率實證值與報酬率標準差關係圖 ... 61

圖圖

5-21 最佳迴歸樹各樹葉報酬率 Rank 值年化報酬率:CMoney 模擬 ... 65 圖圖圖

5-22 最佳迴歸樹各樹葉報酬率 Rank 值月報酬的平均:CMoney 模擬 ... 65

圖圖

5-23 最佳迴歸樹各樹葉報酬率 Rank 值年化報酬率標準差:CMoney 模擬 ... 65

圖圖

5-24 最佳迴歸樹各樹葉報酬率 Rank 值月報酬的標準差:CMoney 模擬 ... 66 圖圖圖

5-25 最佳迴歸樹各樹葉報酬率 Rank 值的 Beta 值:CMoney 模擬... 66

圖圖

5-26 最佳迴歸樹各樹葉報酬率 Rank 值的 Sharpe Ratio:CMoney 模擬 ... 66 圖圖圖

5-27 最佳迴歸樹各樹葉報酬率 Rank 值的資訊比:CMoney 模擬 ... 67

圖圖

5-28 最佳迴歸樹各樹葉報酬率 Rank 值月報酬超越大盤勝率:CMoney 模擬 ... 67

圖圖

5-29 最佳迴歸樹各樹葉報酬率 Rank 值相對大盤平均勝率(%):CMoney 模擬 ... 67 圖圖圖

圖 5-30 最佳迴歸樹各樹葉報酬率 Rank 值相對大盤平均報酬率:CMoney 模擬 ... 68

圖圖

5-31 最佳迴歸樹各樹葉報酬率 Rank 值平均勝率:CMoney 模擬 ... 68 圖圖圖

5-32 全部樣本第 t+2 季最佳迴歸樹的資料庫實證與模擬實證比較散佈圖 ... 69

圖圖

A-1 第 t+2 季的迴歸分析選股因子重要性評分 ... 79

圖圖

A-2 第 t+3 季的迴歸分析選股因子重要性評分 ... 79

圖圖

A-3 全部股的迴歸分析選股因子重要性評分... 80

圖圖

A-4 大型股的迴歸分析選股因子重要性評分... 80 圖圖圖

A-5 迴歸分析選股因子重要性評分... 81

圖圖

B-1 第 t+2 季的迴歸樹選股因子重要性評分... 84

圖圖

B-2 第 t+3 季的迴歸樹選股因子重要性評分... 84

圖圖

B-3 全部股的迴歸樹選股因子重要性評分... 85

圖圖

B-4 大型股的迴歸樹選股因子重要性評分... 85 圖圖圖

B-5 迴歸樹選股因子重要性評分... 86

(9)

第一章 第一章 第一章

第一章 導論 導論 導論 導論

1-1 研究動機 研究動機 研究動機 研究動機

資本資產定價模型(Capital Asset Pricing Model CAPM)為現代投資組合理論所發展 的定價模型,但近年的實證研究發現 CAPM 單因子模型並不能驗證歷史的投資報酬 (Holthausen & Larker, 1992; Hong, et al., 2000; Piotroski, 2000),必須再考慮許多具有效應 的因子。例如,Banz (1981)的規模效應,指出小型股的報酬率高於大型股;Fama & French (1992, 1993, 1995, 1998)以及 Rosenberg, Reid, & Lanstein (1985)的價值效應,指出價值股 的報酬率高於成長股;De Bondt & Thaler (1985)的反轉效應,指出贏家股的報酬率在較 長期間後會低於輸家股;Jegadeesh & Titman (1993) 的動能效應,指出強者恆強,弱者 恆弱的持續現象。

近年來許多文獻顯示,結合多種效應可以建構報酬率更高的選股模型(Piotroski, 2000; Jaap et al. 2003)。但以嘗試錯誤的方式尋找最佳的多因子模型顯然無效率,因此有 許多文獻探討如何用神經網路或迴歸樹等方法建構多因子選股模型(Olson & Mossman 2003; Eakins & Stansell 2003; Cao, et al. 2005; Quah 2008; Atsalakisa & Valavanis 2009;

Sorensen, et al. 2000; Ren, et al. 2006; Ilir & Gilli 2008; 林金賢與李家豪 2003;王嘉隆與 詹淑慧 2005;張廷政與林冠宇 2005;詹淑慧與王嘉隆 2007)。

對於一個給定的資產 i,它的期望報酬率和市場投資組合的期望報酬率之間的關係 可以表示為:

(

m f

)

i i f

i

r r r

r − = α + β ⋅ −

(1) 其中,

r

i是資產 i 的報酬率;

r

f

是無風險報酬率;

α

i是資產 i 的超額報酬;

β

i是資產

i 的系統風險;

r

m

是市場投資組合的報酬率;

r

m

r

f

是市場風險溢酬(Market Risk Premium),即市場投資組合的報酬率與無風險報酬率之差。

如果選股模型有效,則上式的超額報酬將顯著異於 0。由上式也可看出,個股的報 酬率由兩個部份構成:

(1) 超額報酬:由股票本身的特質決定。

(2) 風險溢酬:由股票的系統風險與市場投資組合的報酬率決定。

因此,在使用股票本身的特質(如本益比、總市值)做為自變數,來建構股票報酬率

(10)

的預測模型時,不可避免地受到市場投資組合的報酬率的干擾。雖然可以將(1)式的右側 的第二項移到左式,得到股票在特定期間超額報酬,再以此超額報酬做為預測模型的因 變數,來避免市場投資組合的報酬率的干擾,然而在實際的股市中並不能排除超額報酬 與市場投資組合報酬率之間存在交互作用的可能性,即(1)式應改寫成下式較為合理

(

m f

)

i i i

(

m f

)

i i f

i

r r r r r

r − = α + β ⋅ − + λ ⋅ α ⋅ β ⋅ −

(2) 其中,

λ

i是資產 i 的報酬率與市場投資組合報酬率之交互作用係數。

在這種情況下,單純地將個股的報酬率扣除風險溢酬並無法得到超額報酬。此外,

股票本身的許多特質(如本益比、總市值)其值域變化甚大,且含有高度的不確定性,這 些都造成建模過程的困難。為克服此問題,本文採用排序正規化法將自變數與因變數正 規化。

在建模方法方面,因為並非所有考慮的因子都會影響選股,且過於複雜的多因子選 股模型反而會陷入資料操弄的陷阱,造成模型只具重複性,而不具普遍性,因此本研究 選擇逐步迴歸與迴歸樹(Sorensen, et al. 2000; Ren, et al. 2006; Ilir & Gilli 2008)這兩種方 法。為檢視理論模型的可行性及準確性,本研究以台灣股市為樣本進行實證分析。

1-2 研究內容 研究內容 研究內容 研究內容

對於在股票市場進行資產配置的人來說,多因子選股模型是個強大的工具。建構過 程雖然龐雜,一旦完成,則能幫助投資者有系統及效率地收集、處理繁瑣的資料,計算 每支股票的預期報酬。因此,本研究針對 1997 年 1 月至 2009 年 9 月之台灣股市所有上 市櫃股票為樣本,以「排序正規化」之方法將自變數與因變數正規化,並以逐步迴歸、

迴歸樹建立報酬率預測模型,以形成投資組合,並以離線的資料庫驗證及線上的模擬驗 證,評估投資組合的績效。提供具有實證支持的選股模型,幫助投資者在充滿雜訊的市 場中穩健獲利。

本文其它各章如下:

第二章為文獻回顧,包括下列主題的文獻:(1) 選股因子之研究 (2) 以迴歸分析方 法建構多因子選股模型之研究 (3) 以人工智慧方法建構多因子選股模型之研究。

第三章介紹研究方法,包括「排序正規化」變數前處理方法,以及逐步迴歸分析與 迴歸樹這兩種建模方法。

第四章以逐步迴歸分析建構多因子選股模型,包括以逐步迴歸從 12 個自變數中建

(11)

構最適報酬率預測模型,找出重要選股因子,並形成最佳投資組合,進行資料庫驗證及 模擬驗證。

第五章以迴歸樹建構多因子選股模型,包括以迴歸樹從 12 個自變數中建構最適報 酬率預測模型,找出重要選股因子,並形成最佳投資組合,進行資料庫驗證及模擬驗證。

第六章為研究結論。

(12)

第二章 第二章

第二章 第二章 文獻回顧 文獻回顧 文獻回顧 文獻回顧

2-1 前言 前言 前言 前言

本章將針對此研究之相關,回顧以下三個主題的文獻:

(1) 選股因子之研究

(2) 以迴歸分析方法建構多因子選股模型之研究 (3) 以人工智慧方法建構多因子選股模型之研究

2-2 選股因子之研究 選股因子之研究 選股因子之研究 選股因子之研究

資本資產定價模型(Capital Asset Pricing Model CAPM)為基於現代投資組合理論所 發展的定價模型,主張市場風險因子是解釋資本資產報酬率的唯一因子。但近年的實證 研究發現 CAPM 單因子模型並不能驗證歷史的投資報酬(Holthausen & Larker, 1992;

Hong, et al., 2000; Piotroski, 2000),必須再考慮許多具有效應的因子。例如,Banz (1981) 的規模效應,指出小型股的報酬率高於大型股;Fama & French (1992, 1993, 1995, 1998) 以及 Rosenberg, Reid, & Lanstein (1985)的價值效應,指出價值股的報酬率高於成長股;

De Bondt & Thaler (1985)的反轉效應,指出贏家股的報酬率在較長期間後會低於輸家 股;Jegadeesh & Titman (1993) 的動能效應,指出強者恆強,弱者恆弱的持續現象。這 些文獻的要旨列出如表 2-1 所示。

在國內也有不少研究,探討可解釋資本資產報酬率的因子,例如程奎皓 (2009)研究 指出台灣股票型基金在多頭時期,高本益比與低現金股利率的股票有較好的表現,空頭 時期則低本益比與高現金股利率的股票表現較好;邵曉陽、蘇敬勤、於聖春(2004)研究 指出中國大陸證券市場上市公司的帳面市價比對股票收益有顯著的預測作用。這些文獻 的要旨亦列出如表 2-1 所示。

(13)

表 表 表

2-1 國外探討選股因子的相關文獻

作者 研究內容

Banz (1981)

本研究探討在 1926 年至 1975 年間列於 NYSE 中之上市公司股票的公 司規模與股票報酬率之間的關係。研究發現小規模公司在風險調整後的報 酬率高於大公司。規模效應已經存在了至少 40 年,實證 CAPM 是不夠完 備的。

規模效應並不是線性的,主要的效果發生在非常小的公司,大型企業與一 般規模企業之間的回報並無明顯的差異。目前還不知道是否是規模大小本 身的效果,還是規模僅僅是一個或多個未知的真正因子的代理變數(Proxy)。

Fama &

French (1992)

本研究將規模及淨值市價比兩個易於衡量的變數,結合市場風險、公 司規模、槓桿程度、淨值市價比、益本比,以取得其在橫斷面上之平均股 票報酬的變化。實證結果發現,當控制規模之下,市場 beta 及平均報酬的 關係變得平坦,即使在 beta 是唯一解釋變數下。

Fama &

French (1993)

本研究針對五個常見於股票及債券的風險因子加以定義,有三個股市 因子:整體市場因子、公司規模、淨值市值比,兩個債券市場因子:到期 日風險、違約風險。股票報酬的變異與股票市場的因子相關,也與債券市 場的因子相關。除了低等級公司之外,債券市場因子可解釋債券報酬。

Fama &

French (1995)

本研究探討,由於規模及淨值市價比的關係,是否股票價格的行為反 應了盈餘的行為。基於合理的股價,高淨值市價比信號持續地表示低盈餘,

低淨值市價比信號持續地表示高盈餘。此外,在將這些公司依規模及淨值 市價比排序後,發現股價預測了盈餘成長的回歸現象。最後,如同報酬,

影響盈餘的因子有市場、規模和淨值市價比。在盈虧上的市場和規模因子 可幫助解釋它們在報酬上的影響,但作者沒有發現在盈餘和報酬上的淨值 市價比之間的關連。

Fama &

French (1998)

在全球市場上,價值股的報酬是高於成長股的。在 1978 至 1995 年間,

全球有價證券的平均報酬,在高淨值市價比與低淨值市價比的差異是一年 7.68%,而在 13 個主要市場中有 12 個市場其價值股績效優於成長股。一 個國際 CAPM 不能解釋價值股的超額報酬,但一個包含相對財務危機的風 險因子的雙因子模型解釋了國際的超額報酬。

(14)

De Bondt

& Thaler (1985)

實驗心理學的研究建議,違反 Bayes 規則,多數人對不可預期及引人 注目的消息事件有過度反應的現象。這個有關市場效率的研究調查了是否 如此行為影響了股價。基於 CRSP 每月的報酬資料,實證證據與過度反應 假說是一致的。實質的弱勢效率市場無效被發現。藉先前的贏家組合及輸 家組合,這個結果也給元月報酬一道曙光。輸家組合有異常高的元月報酬 在形成投組之後的五年內。

Jegadeesh

& Titman (1993)

本研究敘述買過去表現良好的股票,賣掉過去表現不好的股票,且持 有 3 到 12 個月的策略會產生顯著正的報酬。作者發現這些策略的獲利不是 因為系統風險,或對一般因子的延遲股價反應。然而,部份在第一年所產 生的異常報酬,在接下來的兩年會消失。

Chahine (2008)

雖然最近的研究都聚焦在討論為何價值股表現優於成長股時,這篇文 章則研究這些策略對盈餘成長水準的敏感程度。實證測試是依據報酬策略 及資產訂價分析來進行。在 Fama and French (1993)風險因子的下,實證結 果證明,在歐洲地區從 1988 年到 2003 年的資料中,具有高的盈餘成長率 的價值股,即低估價值股,優於價值、成長策略。實證發現建議,決定價 值股及成長股投資組合績效中,盈餘成長具有有價值的效應。

經進一步調查確認,每股盈餘慣性在低估價值股的正面作用;然而在高估 成長股並沒有顯著的效果。

Jaap, Erica, and Dijk (2003)

本研究探討在 1985-1999 年期間,32 個新興市場,範圍廣泛的選股策 略的獲利能力。價值、慣性和盈餘預測修正策略是最成功的,並產生顯著 超額報酬,相對於基於規模、流動性和均數回歸的策略。

這些策略的績效可以透過合併多個股票特性和國家選擇來提高,雖然後者 承擔增加風險的成本。我們沒有找到金融市場自由化在這些策略的績效的 顯著效果。也沒有全球風險因素可以解釋選股策略的超額報酬之證據

。最後,我們說明這些策略,在面對缺乏流動性和相當大的交易成本下,

在實務上可以被大型法人機構成功地執行。

Xing &

Zhang (2004)

本研究探討價值性和成長性公司的經濟基本面的循環行為。其目標是 評估價值溢酬的近期合理理論的實證關連。發現價值性公司的基本面,比 起成長性公司,受到負面景氣循環震盪更加的不利的影響,且此不同的影

(15)

響極為明顯。本文亦探討循環動向的潛在來源。

程奎皓 (2009)

本研究旨在探討台灣股票型基金在面對多頭與空頭時期選股之改變。

研究發現(1)股票型基金在多頭時期偏好大型、高本益比、低現金股利率與 高股價淨值比之股票,空頭時期則相反。研究期間模擬投資組合具超額報 酬。(2)在多頭時期,高本益比與低現金股利率的股票確實表現較好,空頭 時期低本益比與高現金股利率的股票表現較好。

邵曉陽 蘇敬勤 於聖春 (2004)

本研究以 1994 年到 2003 年期間在上海證券交易所上市的全部 A 股股 票作為研究對象,對帳面市價比效應進行了實證核對總和研究。在本文研 究的時間階段,針對中國大陸證券市場得出以下結論:(1)存在帳面市價比 效應;(2)上市公司的「帳面市價比」對股票收益有顯著的預測作用;(3) 證 券市場未達到半強式有效;(4) 價值投資也可以獲得良好的投資回報。

2-3 以迴歸分析方法建構多因子選股模型之研究 以迴歸分析方法建構多因子選股模型之研究 以迴歸分析方法建構多因子選股模型之研究 以迴歸分析方法建構多因子選股模型之研究

近年來,許多文獻顯示,結合多種效應可以建構報酬率更高的選股模型(Piotroski, 2000; Jaap et al. 2003)。建構多因子選股模型的經典方法為多變數迴歸分析。例如,陳榮 昌(2002) 嘗試以 Fama-French 三因子模型再加上股票交易週轉率因子及動能因子等五因 子來解釋台灣股票市場的報酬情形。發現市場因素(Beta 值)不論在單變量、Fama-French 三因子模型或多變量迴歸模式中,均具有顯著的解釋力。且市場亦存在著規模效應,但 動能效應及淨值市價比效應對報酬的解釋就較不穩定。

古 永嘉 、 李 鑑 剛 (1998) 研 究 同 時 比 較 三 種 時 間 序 列 與 橫 斷 面 混 合 迴 歸 分 析 (time-series / cross-section pooling regression)方法,解決了變異數齊一性、時間序列獨立 性之問題;朱凱安(1998) 重新檢驗已經被提出來的模型以及一些新的模型運用,發現羅 吉斯迴歸模型、鑑別分析、變異數極小最適化因子模型、動能策略都在某種程度上捕捉 了股票特性轉換的軌跡。

方文秀(2004) 以時間序列迴歸分析方法,探討台灣股票市場在民國七十三年一月至 九十三年六月之上市普通股月報酬,以三因子模型為基礎,主要利用最小平方法(OLS) 和分量迴歸(Quantile Regression, QR)所估計迴歸參數值的差異,利用比較統計檢定發現

(16)

QR 估計能力應較 OLS 好,主要差異為 QR 能利用不同分量的分位數產生瞭解整個資料 分配的全貌,能得到較客觀的分配或其估計結果。

一些相關文獻的要旨列出如表 2-2 所示。但以嘗試錯誤的方式尋找最佳的多因子模 型顯然無效率,因此本研究將以逐步迴歸建構多因子選股模型。

表表

表表 2-2 以迴歸分析方法建構多因子選股模型的相關文獻

作者 研究內容

顧廣平 (2001)

本研究以台灣上市(櫃)之普通股股票為研究對象,探討 1976 年 1 月至 2001 年 12 月間,股票平均報酬與市場 β 等 20 個因子之間的橫斷面關係。結果顯示:

(1) 股票平均報酬與成交量之間呈現顯著的負向關係,以及與營收市價比、前 7-12 月平均報酬之間呈現顯著的正向關係。(2) 如果將成交量加入模式時,β 對平均報酬橫斷面差異會呈現顯著的解釋能力。(3) 市場 β、成交量、營收市 價比、前 7-12 月平均報酬等 4 個因子對解釋橫斷面平均報酬似乎扮演者一個聯 合的角色,且該 4 因子模式的結果是穩定具有韌性的,並不會受到改變樣本和 分割期間的影響。

古永嘉 李鑑剛 (1998)

本研究試圖結合以往學者所發現的規模效應、權益帳面值(即淨值)對市 價比效應、本益比效應、風險係數與前期報酬率等之變數,探討以上各變數對 股票報酬率之影響程度。在風險係數之估計上,本研究採用 Scholes & Williams 所採用的 beta 估計法,以求更能代表真實市場之風險。此外,有鑑於 Fama &

French(1992)之迴歸方法,僅考慮了橫斷面資訊,而忽略了縱斷面時間因素所 產生序列相關之問題,本研究同時比較三種時間序列與橫斷面混合迴歸分析 (time-series / cross-section pooling regression)方法,解決了變異數齊一性、時間 序列獨立性之問題。研究結果發現:(1)台灣股市存在有規模效應、淨值對市價 比效應,而風險係數為不重要的變數。(2) 月份效應方面,台灣股票市場月份 間報酬率確實存在差異。若以報酬率最高的二月份而言,不論規模效應、淨值 對市價比效應、本益比效應、風險係數與前期報酬率,皆能顯著影響股票報酬 率。

(17)

朱凱安 (1998)

本研究重新檢驗已經被提出來的模型以及一些新的模型運用,例如羅吉斯 迴規模型、多項式羅吉斯迴歸模型、鑑別分析、變異數極小最適化因子模型、

動能與反向策略。至於在解釋因子的部分,使用三種類型的因子,分別是財務 因子、市場狀況因子以及落後期的標的資產報酬。而在分類所依據的股票特徵 部分,使用規模特徵、股價淨值比、本益比、現金流量對股價比、股票殖利率。

總結來說,羅吉斯迴歸模型、鑑別分析、變異數極小最適化因子模型、動能策 略都在某種程度上捕捉了股票特性轉換的軌跡。

陳榮昌 (2002)

本研究嘗試以 Fama-French 三因子模型,再加上股票交易週轉率因子、動 能因子等五因子,來解釋台灣股票市場的報酬情形。研究的結論:(1) 市場因 素(Beta 值)不論在單變量、Fama-French 三因子模型或多變量迴歸模式中,均具 有顯著的解釋力,而台灣股票市場亦存在著規模效應,但動能效應及淨值市價 比效應對報酬的解釋就較不穩定。(2) 雖然市場因素對台灣股票報酬率具有明 顯的影響力,即股票的平均報酬的確包含系統風險的補償,但卻不如 CAPM 所 言,只有 beta 值可衡量股票預期報酬的所有橫斷面變化。 (3)Fama-French 三 因子模型亦無法完整解釋台灣股票報酬的變異,因為股票市場的週轉率(尤其 是高週轉率的股票)對於台灣股票報酬亦存在著顯著的解釋力,亦即台灣股票 市場存在著異常週轉率效果。

方文秀 (2004)

本研究嘗試以時間序列迴歸分析方法,探討台灣股票市場在民國七十三年 一月至九十三年六月之上市普通股月報酬。以三因子模型為基礎,主要利用最 小平方法(OLS)和分量迴歸(Quantile Regression, QR)所估計迴歸參數值的差 異。因為 OLS 估計迴歸模型在誤差項為常態性和同質性,但有違反其假設的 情況,所以利用異質性的 QR 進行分析比較,探討兩種迴歸方法其應用之優劣。

結果發現:(1) 三因子模型在台灣股票市場具有一定適用性,規模效應和淨值 市價效應均顯著存在,不過規模因子比淨值市價比因子係數有更多對股票報酬 產生顯著正向影響,此代表在台灣股票集中市場的「規模效應」比「淨值市價 比效應」還要來的明顯。(2) 利用比較統計檢定發現 QR 估計能力應較 OLS 好,

主要差異為 QR 能利用不同分量的分位數產生瞭解整個資料分配的全貌,能得 到較客觀的分配或其估計結果。

(18)

2-4 以人工智慧方法建構多因子選股模型之研究 以人工智慧方法建構多因子選股模型之研究 以人工智慧方法建構多因子選股模型之研究 以人工智慧方法建構多因子選股模型之研究

建構多因子選股模型的方法,除了經典的多變數迴歸分析之外,隨著電腦科技的快 速發展,以及面對龐大而且複雜之資訊有極佳的處理能力,透過人工智慧建構決策支援 系統已相當盛行。尤其近年來,人工智慧方法、資料探勘理論與應用的蓬勃發展,技術 趨於成熟下,已有許多文獻結合上述方法建構證券市場交易決策系統(Olson & Mossman 2003; Eakins & Stansell 2003; Cao, et al. 2005; Quah 2008; Atsalakisa & Valavanis 2009;

Sorensen, et al. 2000; Ren, et al. 2006; Ilir & Gilli 2008; 林金賢與李家豪 2003;王嘉隆與 詹淑慧 2005;張廷政與林冠宇 2005;詹淑慧與王嘉隆 2007。

過去的學者,大多選用神經網路技術來做相關的研究。雖然神經網路有不錯的預測 能力,但是神經網路所產生出來的預測結果不容易解讀;因此,本研究嘗試利用迴歸樹 作為研究工具,因為迴歸樹所產生的投資規則,容易被解讀與檢測。

一些相關迴歸樹文獻的要旨列出如表 2-3 所示。

表 表

表 2-3 以迴歸樹方法建構多因子選股模型的相關文獻

作者 研究內容

Sorensen, Miller, and Ooi (2000)

關於計量投資一個常見的問題是:對選股而言什麼是好的變數?傳 統的計量策略是篩選技術的變形。計量投資經理人尋求縮小可投資的股 票母體到具有所需特性、可管控數量的股票集合。本研究介紹另一種基 於統計技術卻不同於傳統股票篩選,稱為分類迴歸樹(CART)的方法。

分類迴歸樹允許篩選因子在條件化的基礎下交互作用。最終的結果是一 個為每個股票指派一個表現卓越(或表現不佳)的機率之階層(樹)結 構。作者為科技股的選股運用兩種不同的分類迴歸樹策略,並評估其績 效。比起特定的股票排序技術,該模型證明了顯著改善。

Ren,

Zargham, and Rahimi, (2006)

選股規則被廣泛的運用在建構高績效的投資組合上。然而,一些過 去經濟專家所提出的規則的預測效果對目前股票市場已劇烈地減少了。

在本研究中,C 4.5 決策樹分類方法被用來依基本的股票資料建構股票預 測模型,並產生一組選股規則。實證結果發現,所產生的規則有優越的 預測表現。並且也證明,C 4.5 決策樹分類模型可以在雜訊充斥的股市中 有效運作。

(19)

Andriyashin (2008)

選股是一個專業投資人及研究者特別感興趣財務分析領域。在本 文,選股是以二元樹來進行。最佳的樹大小被認為是樹的預測效果的關 鍵因素。雖然存在著一種標準的修剪方法,它是基於成本複雜取捨 (cost-complexity tradeoff),在大多數二元樹研究中被採用。本文介紹一種 新的,稱為最佳節點策略(BNS)的非對稱式修剪法。一個 BNS 的重要特 性被證明,即它提供一個方便的實際地實施最佳樹大小搜尋方法。BNS 被與傳統的修剪方法比較。每一股票用建構好的決策樹來預測績效。從 回測的結果得知 BNS 明顯的優於傳統的方法。

Andriyashin, Härdle, and Timofeev (2008)

股票動態中的相當比率是可以被公開可用的資訊所解釋,股票動態 與公開資訊之間或許具有非線性的關係。本文提出決策樹選股方法,並 運用在德國 XETRA DAX 股票上。使用基本面及技術面的變數,股票被 分類成作多、放空及中立 3 群股票。更精確地說,使用以基本面變數表 達的公司實際狀況,以及以技術面變數反應的目前市場狀況,判斷公司 目前市場價值是低估、高估或公正的是可能的。這個模型在觀察期間的 績效指出可以從公開可用的經濟資料充分地預測 XETRA DAX 股票的報 酬。這個研究的另一個結論是,將隱含波動此一變數加入訓練樣本後,

會顯著的提高模型的預測能力。

Roko and Gilli (2008)

建構投資組合的傳統方法的主要不便之處是,基於歷史資料並無法 對股價趨勢的突然變化作出預測。採用資產基本面的未來行為的資訊或 許可以幫助作出適當的選擇。然而,一個連結外在資訊與資產價格的模 型的規格化與參數化並非易事。分類樹可以被用來建構預期有相似行為 的資產之區隔。本文分析這個方法在 S&P500 的不同類股上的績效。

(20)

第三章 第三章 第三章

第三章 研究方法 研究方法 研究方法 研究方法

3-1 建模方法 建模方法一 建模方法 建模方法 一 一 一: : : :逐步迴歸分析 逐步迴歸分析 逐步迴歸分析 逐步迴歸分析

在迴歸分析中,模型的準確度與模型之結構,即變數的組合,有著密切的關係。而 可能的變數組合之數目,會隨變數增多而產生「組合爆炸」的現象。因此預設一個模型 結構,經常會是資料探勘過程中最困難的問題。為了解決「組合爆炸」的問題,本研究 將採用逐步迴歸之方法,求得近似最佳變數之組合。

逐步迴歸之方法可分成

 破壞法(後向刪減法,backward elimination):變數由多而少。

 建設法(前向選擇法,forward selection):變數由少而多。

破壞法的原理是先使用全部 N 個變數建立模型,再嘗試丟棄一個變數,使用 N-1 個 變數建立模型,選擇最佳的 N-1 個變數。再從包含此 N-1 個變數下,嘗試丟棄一個變數,

使用 N-2 個變數建立模型,選擇最佳的 N-2 個變數。如此持續進行,變數由多而少,直 到減少更多的變數不能改善模型的準確性為止。

與破壞法比較,建設法比較快速,因為它是從簡單的模型開始嘗試。但當二個變數 本身對輸出變數不具相關性,但其交互作用具相關性之情況下,建設法可能不會選取這 二個變數,而錯失建立更準確模型的機會。但在相同情況下,因丟棄這二個變數的任一 變數,都會降低模型的準確性,因此破壞法則不會丟棄任一變數,因而不會錯失建立更 準確模型的機會。

本研究採用簡化的破壞法,即在執行破壞法過程中,將模型中變數的 t 統計量之絕 對值最小者予以剔除丟棄。雖然這種方法不能保證找到最佳的模型,但可以在合理的時 間內找到近似最佳的模型。

3-2 建模方法 建模方法二 建模方法 建模方法 二 二 二: : : :迴歸 迴歸 迴歸 迴歸樹 樹 樹

決策樹歸納法(Decision Tree Induction)是資料探勘中重要的分類技術之一,它可從

(21)

一群隱含特定知識的範例中,導出一個包含普遍知識之樹狀結構的知識模型,如圖 1。

決策樹本質上是離散系統,可以產生可理解的知識,這對許多需要發現隱含在資料內之 知識的應用問題是一大優點。也因決策樹本質上是離散系統,因此對本質上是連續系統 的問題有些「大而化之」的缺點。

圖 圖 圖

3-1 決策樹

首先介紹歸納決策樹的幾個重要的基本概念如下:

 屬性(attribute):屬性是影響事物的分類及預測的特徵。

 屬性值配對(attribute-value pair):一個屬性值配對包括屬性與其一特徵值。

 決策(decision):決策是對事物的分類或預測。

 範例(example):一個範例包括一群屬性與其值,以及一個決策值。

 歸納決策樹(inductive decision tree):歸納決策樹(如圖 3-1)是一種樹狀結構,以 屬性作為決策樹分枝之節點,以決策值作為決策樹的樹葉。歸納決策樹從樹根開 始,以分枝節點作測試,將事物分成不同的決策值。

 法則(rule):一條 IF-THEN 法則包含一串條件與一個決策值,每個條件由一個屬性 與其值所構成。

屬性可以是離散的類別變數或連續的數值變數。當屬性是類別變數時,每一類別產 生一個分枝;當屬性是數值變數時,通常採用「≦」與「>」某一門檻值分成二個分枝,

形成二元樹。屬性是離散的類別變數或連續的數值變數其演算法十分相似,只是分枝的 數目不同。

當決策是離散的類別變數時,歸納決策樹可稱「分類樹」;當決策是連續的數值變 數時,歸納決策樹可稱「迴歸樹」,如圖 3-2。

樹根

分枝節點 分枝節點

樹葉 分枝節點 樹葉 分枝節點

樹葉 樹葉 樹葉 分枝節點

樹葉 樹葉

(22)

圖 圖圖

3-2 迴歸樹

基本的迴歸樹演算法如下:

步驟 1.樹根分割法則

從樹根處選擇一個具有最小條件不純度函數值的屬性,在該節點下分割成兩分 枝,一支為小於等於分界點之分枝,一支為大於分界點之分枝。每一分枝含有所有 該屬性之值滿足此分枝條件的訓練範例。

步驟 2.分枝判別法則

如果 (1) 分枝的不純度小於一預設值;

或 (2) 分枝所處層數大於一預設值;

或 (3) 分枝所含訓練範例數目小於一預設值;

則以目前分枝中連續決策變數的「平均值」做為此分枝之決策變數預測值,並結束 此分枝。

步驟 3.終止法則

如果所有的分枝均已結束,則輸出歸納決策樹並停止;否則至步驟 4。

步驟 4.分枝分割法則

對每一個未結束的分枝,在該分枝下,選擇一個具有最小條件不純度函數值的 屬性,同步驟 1 的方法產生下一層分枝,回到步驟 2。

在迴歸樹方面,因為決策為連續變數,當集合中的決策之標準差越小,其不純度越 小,即純度越大,如圖 3-3。因此採用標準差做為不純度函數(impurity function)的定 義:

ROE>15%

市值<50 億 P/B>1.5

報酬率 8% Beta<1 報酬率 12% P/E>15

報酬率 4% 報酬率 6% 報酬率 10% 市值>50 億

報酬率 9% 報酬率 7%

(23)

n Y Y Y

STD i

i

=

)2

( )

(

(1)

01

- 4 - 3 - 2 - 1 0 1 2 3 4

極為不純s(Y)=1.5

01

- 4 - 3 - 2 - 1 0 1 2 3 4

相當純化s(Y)=1.0

01

- 4 - 3 - 2 - 1 0 1 2 3 4

非常純化s(Y)=0.5 圖圖圖

3-3 不同的不純度函數之函數值比較

如果訓練範例集合用某種屬性 X 來作分割,即將訓練範例依其屬性 X 的值,分割 成許多個小訓練範例集合,除非在此訓練範例中,決策和屬性 X 是完全獨立的,否則屬 性 X 的屬性值將或多或少影響到決策,因而改變訓練範例中決策值的分佈情形,也就是 改變這個離散資訊系統的不同度。令:

 E(S|X) 表是用屬性 X 的屬性值分割訓練範例集合 S 下,訓練範例系統的條件不純 度函數 (conditional impurity function)。

 P(XV)與P(X >V)表示在訓練範例集合 S 中,訓練範例屬性 X 的屬性值「≦」

與「>」門檻值V 的機率。

則條件不純度函數可依前面所述的不純度函數定義如下:

)

| ( )

( )

| ( )

( )

|

(S X P X V STD S X V P X V STD S X V

STD = ≤ • ≤ + > • > (2) 至於分界點的決定,可預設若干分界點,以具有最佳分割能力,即不純度函數值最 低的分界點,做為該屬性之分界點。

因此選擇屬性的原則為 )

| (S X STD

Min (3) 每次分割後,形成了新的分枝,每一分枝包含較分割前為小的訓練範例次集合。接 著,對每一新分枝重新計算所有屬性的不純度函數值,並再據以選擇新的分割屬性。此 一過程反覆執行,直到每一分枝包含的訓練範例的決策均「純化」為止。這種演算法本 質上屬於一種「貪心法」或稱「登山法」的演算法。

(24)

3-3 變數處理 變數處理 變數處理 變數處理

本研究採用「排序正規化」之方法,將自變數與因變數正規化,亦即將各股票的各 變數分季排序,該季最大者其排序值 Rank=1;最小者 Rank=0,其餘依此內插。例如中 位數的 Rank=0.5。使用 Rank 值來代替原始值在分析上具有以下之優點:

 專注橫向資料比較:可以排除變數之時間軸的變化之縱向影響,而專注在同一時間 的變數之相對大小之橫向比較。例如假設 ROE 是使用原始值,則不景氣時的 ROE=0%與 5%都將被視為低;景氣好時的 ROE=10%與 20%都將被視為高。這對統 計分析 ROE 是否影響報酬率是不利的。如果將 ROE 採用「排序正規化」,則在不 景氣時,ROE=0%可能算是低,ROE=5%可能算是高,但在景氣好時,ROE=10%只 能算低,ROE=20%才能算高;以此方法即可克服此一問題。

 避免單季資料偏差:可以避免單一季對統計結果、迴歸建模的不利影響。例如某一 季大漲,而該季正好有強烈的規模效應,而其它季並無明顯的規模效應,但統計結 果仍可能會出現強烈的規模效應。如果將報酬率採用「排序正規化」,每一季的報 酬率的 Rank 值平均值、標準差都相同,就不會出現此結論。

 避免極端資料偏差:可以避免極端值對統計結果、迴歸建模的不利影響。例如假設 有 100 筆資料,其中報酬率最大值是 1000%,次大是 100%與 98%,則它們會被正 規化到 1.0, 0.99 與 0.98。這樣對計算報酬率平均值或作迴歸分析時,其不利影響 可被降低。

 降低錯誤資料影響:可以降低萬一有錯誤值在資料庫中,對統計結果、迴歸建模的 不利影響。例如假設有 100 筆資料,其中有一個資料其報酬率是 10000%的錯誤值,

則會被正規化到 1.0,真正的最大值會被正規化到 0.99。這樣對計算報酬率平均值 或作迴歸分析時,其不利影響可被降低。

(25)

第四章 第四章 第四章

第四章 逐步迴歸分析多因子選股模型 逐步迴歸分析多因子選股模型 逐步迴歸分析多因子選股模型 逐步迴歸分析多因子選股模型

4-1 資料來源及作法 資料來源及作法 資料來源及作法 資料來源及作法

本研究以臺灣股市為研究範圍,資料來源取自 CMoney 資料庫,研究樣本為所有上 市櫃公司股票,研究期間為 1997 年 1 月至 2009 年 9 月,共 13 年,44 個季之區間,共 26974 筆資料;及從其中區分出總市值(億)前 20%之大型公司股票,共 5404 筆資料。

並以 t+2 季與 t+3 季之報酬率為因變數。採用第 t+2 季與 t+3 季,而非第 t+1 季的報酬率 做為因變數之原因,在於考量真實的投資情況下,第 t 季的個股財報,通常在第 t+1 季結 束時才發布,因此以第 t 季的個股財務面指標,來預測第 t+1 季之報酬率,在實務上是 不可行的。因此,本研究採用第 t+2 季與 t+3 季的季報酬率當做因變數。

在參考顧廣平(2001)、古永嘉與李鑑剛(1998)、朱凱安(1998)、陳榮昌(2002)、方文 秀(2004)等文獻後,本章選用下列

 X1=每股淨值(元)

 X2=負債比率(%)

 X3=稅後股東權益報酬率(%)

 X4=稅後資產報酬率(%)

 X5=每股稅後盈餘(元)

 X6=稅後純益(千)

 X7=成交量(千股)

 X8=總市值(億)

 X9=收盤價

 X10=本益比

 X11=股價淨值比

 X12=本益比(近四季)

共 12 個變數做為自變數(選股因子),進行逐步迴歸分析,以期找出影響報酬率之重要 變數。

在此以逐步迴歸建立迴歸模型,每次迴歸都將前次迴歸所產生的結果中,t 統計之 絕對值最小之自變數去除。以圖 4-1 為例,在迴歸後的 12 個變數中,負債比率(%)之絕 對值為 0.2339,是 12 個變數中最小的因子,因此將其資料整筆刪除,再進行剩下的 11 個自變數之迴歸分析。以此為原則,逐步找尋至最後一個自變數為止。

4-2 逐步迴歸分析結果 逐步迴歸分析結果 逐步迴歸分析結果 逐步迴歸分析結果

4.2.1 全部樣本 全部樣本 全部樣本 全部樣本

以 t+2 季與 t+3 季報酬率的 Rank 值為因變數的逐步迴歸結果如圖 4-1~4-3 所示,與

(26)

圖 4-4~4-6 所示。歸納如下:

(1) 由圖 4-2 與圖 4-5 可知,無論是以 t+2 季或 t+3 季報酬率的 Rank 值為因變數,只需 兩個變數即可解釋絕大多數可解釋的變異。

(2) 由圖 4-3 與圖 4-6 可知,無論是以 t+2 季或 t+3 季報酬率的 Rank 值為因變數,「股 價淨值比(P/B)」的 t 值在「收盤價(P)」被刪除後陡升;「稅後股東權益報酬率(ROE)」

的 t 值在「每股稅後盈餘(EPS)」與「稅後資產報酬率(ROA)」被刪除後陡升;這是 因為它們之間具有相關性,當其中一個因子被從模型中剔除後,剩下的因子在模型 中將變得更顯著。其餘的因子的 t 值相當平穩。

(3) 由圖 4-1 與圖 4-4 可知,無論是以 t+2 季或 t+3 季報酬率的 Rank 值為因變數,最後 留在模型的二個變都是「稅後股東權益報酬率(ROE)」及「股價淨值比(P/B)」,可 見兩者為影響報酬率的關鍵變數。其迴歸公式如下:

) ( 250

. 0 ) ( 304

. 0 473 . 0 2)) Return(t

( Rank ROE Rank PBR

Rank + = + ⋅ − ⋅ (1) )

( 160

. 0 ) ( 155

. 0 502 . 0 )) 3 Return(t

( Rank ROE Rank PBR

Rank + = + ⋅ − ⋅ (2)

1 2 3 4 5 6 7 8 9 10 11 12

每股淨值每股淨值

每股淨值每股淨值((((元元)))) -4.14 -4.16 -4.80 -4.77 -7.19 -7.27 -7.12 -6.46 -4.71 -5.15 負債比率負債比率負債比率

負債比率(%)(%)(%) (%) 0.23 稅後股東權益報酬率 稅後股東權益報酬率 稅後股東權益報酬率

稅後股東權益報酬率 5.48 6.09 9.50 10.82 10.81 10.81 11.22 41.75 42.02 42.2 42.16 26.48 稅後資產報酬率

稅後資產報酬率 稅後資產報酬率

稅後資產報酬率(%)(%)(%)(%) 3.12 4.31 4.27 4.30 4.345 4.34 4.25 每股稅後盈餘

每股稅後盈餘每股稅後盈餘

每股稅後盈餘((((元元)))) -0.61 -0.59 稅後純益

稅後純益 稅後純益

稅後純益((((千千)))) 0.84 0.83 0.695 成交量

成交量成交量

成交量 -6.38 -6.37 -6.35 -6.34 -6.35 -6.30 -6.35 -6.33 -3.24 總市值

總市值 總市值

總市值((((億億)))) 3.87 3.88 3.99 6.00 6.02 6.02 5.96 5.70 收盤價

收盤價收盤價

收盤價 0.97 0.95 0.84 0.82 本益比

本益比本益比

本益比 -1.77 -1.79 -1.79 -1.80 -1.84 -1.81 股價淨值比

股價淨值比 股價淨值比

股價淨值比 -11.0 -11.0 -11.0 -11.3 -33.2 -33.2 -33.8 -33.6 -33.2 -33.6 -34.7

T

本益比 本益比 本益比

本益比((((近四季近四季近四季)))) 近四季 0.84 0.84 0.84 0.84 0.83

RRRR 平方平方平方平方 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.03 調整的

調整的 調整的

調整的 RRRR 平方平方平方平方 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.07 0.03 FFFF 統計顯著值統計顯著值統計顯著值統計顯著值 0 0 0 0 0 0 0 0 0 0 0 2E-1

(27)

圖 圖圖

4-1 t+2 季之全部股逐步迴歸分析結果- T 統計量

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08

1 2 3 4 5 6 7 8 9 10 11 12

逐步迴歸過程 調整

R^2

圖 圖圖

圖 4-2 t+2 季之全部股逐步迴歸分析調整 R 平方

0.1 1 10 100

1 2 3 4 5 6 7 8 9 10 11 12

逐步迴歸分析過程

t統計量絕對值

每股淨值(元) 負債比率(%)

稅後股東權益報酬率 稅後資產報酬率(%) 每股稅後盈餘(元) 稅後純益(千) 成交量 總市值(億) 收盤價 本益比 股價淨值比 本益比(近四季)

圖圖圖

4-3 t+2 季之全部股逐步迴歸分析結果- T 統計量變化過程

(28)

1 2 3 4 5 6 7 8 9 10 11 12 每股淨值每股淨值每股淨值

每股淨值((((元元)))) -1.06 -1.03 -1.37 負債比率

負債比率 負債比率

負債比率(%)(%)(%)(%) -1.90 -1.88 -1.95 -1.93 -4.29 -4.27 稅後股東權益報酬率

稅後股東權益報酬率稅後股東權益報酬率

稅後股東權益報酬率 2.92 2.91 3.66 3.70 18.88 18.85 18.87 20.58 20.18 20.82 21.10 稅後資產報酬率

稅後資產報酬率 稅後資產報酬率

稅後資產報酬率(%)(%)(%) (%) 1.50 1.51 1.44 1.39 每股稅後盈餘

每股稅後盈餘 每股稅後盈餘

每股稅後盈餘((((元元)))) -0.41 -0.55 稅後純益

稅後純益稅後純益

稅後純益((((千千)))) -0.41 成交量成交量

成交量成交量 -5.91 -5.93 -5.91 -5.82 -5.80 -5.58 -5.66 -5.75 -5.17 總市值

總市值總市值

總市值((((億億)))) 5.51 7.09 7.07 6.94 6.89 6.78 6.57 6.44 5.38 2.45 收盤價收盤價

收盤價收盤價 -1.71 -1.69 -1.83 -5.17 -5.11 -5.29 -4.52 -4.07 本益比

本益比 本益比

本益比 -4.76 -4.76 -4.76 -4.80 -4.83 -4.27 -3.81 股價淨值比

股價淨值比股價淨值比

股價淨值比 -5.11 -5.10 -5.09 -6.33 -6.33 -6.11 -6.83 -7.64 -22.1 -21.6 -21.8 -0.61

T

本益比 本益比 本益比

本益比((((近四季近四季近四季近四季)))) 2.55 2.55 2.55 2.61 2.61

R平方平方平方平方 0.03 0.03 0.03 0.03 0.02 0.02 0.02 0.02 0.02 0.02 0.02 7E-0 調整的

調整的 調整的

調整的 R 平方平方平方平方 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 -1E

F統計顯著值統計顯著值統計顯著值統計顯著值 5E-1 7E-1 9E-1 3E-1 7E-1 2E-1 2E-1 2E-1 5E-1 2E-1 2E-1 0.54

圖圖

圖 4-4 t+3 季之全部股逐步迴歸分析結果- T 統計量

-0.005 0 0.005 0.01 0.015 0.02 0.025 0.03

1 2 3 4 5 6 7 8 9 10 11 12

逐步迴歸過程 調整

R^2

圖 圖

圖 4-5 t+3 季之全部股逐步迴歸分析調整 R 平方

參考文獻

相關文件

• The approximate and introduces a false positive if a negative example makes either CC(X ) or CC(Y) return false but makes the approximate and return true. • The approximate

• The approximate and introduces a false positive if a negative example makes either CC( X ) or CC(Y) return false but makes the approximate and return true. • The approximate

Regarding the importance of these aspects, employers generally perceived all aspects were of above average importance, with Management Skills receiving the lowest score of 3.75 and

* School Survey 2017.. 1) Separate examination papers for the compulsory part of the two strands, with common questions set in Papers 1A &amp; 1B for the common topics in

專案執 行團隊

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

Digital PCR works by partitioning a sample into many individual real-time PCR reactions, some portion of these reactions contain the target molecules(positive) while others do

Biases in Pricing Continuously Monitored Options with Monte Carlo (continued).. • If all of the sampled prices are below the barrier, this sample path pays max(S(t n ) −