• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
80
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:以自助整合法建立選股模型─S&P500 成 份股之實證研究

Building stock selection model using bootstrap aggregating - The empirical research of S&P 500

系 所 別:資訊管理學系 碩士班 學號姓名:M09610011 蔡宜眞 指導教授:葉 怡 成 博 士

中華民國 98 年 7 月

(2)

以自助整合法建立選股模型─S&P500 成份股之實證研究

中華大學 資訊管理學系

摘 要

本研究的目的在於以三種迴歸技術,包括迴歸分析(Regression Analysis, RA)、倒傳遞網路(Back-Propagation Network, BPN)與迴歸樹(Regression Tree, RT),建立股票投資報酬率預測模型,並研究以自助整合法(Bagging)整合多個模 型的預測結果的效果。本研究以美國標準普爾 500 指數之公司為研究對象,資 料期間為1998 年至 2007 年,總共有 40 季的資料。採用的八個自變數為第 t 季 的Beta 值(Beta, β)、股東權益報酬率(Return on Equity, ROE)、淨值股價比(B/P, BPR)、成長價值報酬率(GVR)、盈餘股價比(Earnings Yield, E/P)、市值(Market Value)、股票價格(Price-Close, P)、報酬率;因變數為第 t+3 季的報酬率。所有 變數均以「排序正規化」處理,即將同一季的同一變數由小到大排序,正規化 到0~1 的值。研究結果顯示 (1) 若以單一迴歸模型觀察,BPN 的錯誤均方根較 低。(2) 自助整合法可以改善迴歸樹的穩定性與準確性,但是無法明顯改善倒傳 遞網路的穩定性與準確性。(3) 自助整合法所整合的模型數目越多,整合的效果 越好。(4) 迴歸探勘所建立的選股模型比一般的選股策略有更高的報酬率。(5) 迴歸探勘所建立的單一選股模型與自助整合法所建立的選股模型之累計資金差 別不甚大,自助整合法表現並沒有如預期能改善投資績效。(6)不論是單一模型 或整合模型,倒傳遞網路的累計報酬都比迴歸樹優異,但差異不大。(7) 普通的

研究生:蔡宜眞 指導教授:葉怡成 博士

(3)

線性迴歸分析與倒傳遞網路的累計報酬差異很小,可見較複雜的方法亦無法改 善投資績效。

關鍵詞:資料探勘、倒傳遞網路、分類樹、迴歸樹、自助整合法、股票

(4)

銘 謝

感謝葉怡成 教授這兩年來在課業及研究上的細心指導,當課業或研究上 遇到困難時,都不厭其煩的耐心教導且給予支持。另外要感謝親愛的家人,爸 媽與兩位妹妹,不管家裡在怎麼困難也支持著研究所的路,是我心靈上很大的 支柱。

最感謝的是寶碩財務科技(新竹分公司)的同事們,李矅旭 總經理、邱信榮 副總經理、莊坤博 副理與顏吟真 副理,還有金融系統部的大夥們,謝謝你 們給予我的疼愛與還有心靈支持與程式撰寫技術與知識上的教導。且給予我打 工的機會讓我這兩年可以無金錢上的憂慮,每當我有困難時都會幫助我解決困 難。與大夥們在一起,不管前面的路多辛苦有你們的笑聲就是走下去的動力。

還有大學的同學們、研究所的同學與最可愛的M218 實驗室夥伴們,在沒 日沒夜的論文寫作時,有你們的愛鬧、愛虧與關心是讓我撐下去的動力。還有 我三餐不正常的時候有陳坤祺、林姿秀與M218 實驗室的學弟妹們買食物來救 濟,謝謝你們大家的疼愛與關心。

(5)

目 錄

摘 要...I 銘 謝... III 目 錄...IV 圖目錄...VI 表目錄... VIII

第一章 前言... 1

1-1 研究目的... 1

1-2 研究方法... 2

1-3 研究流程... 3

1-4 研究內容... 3

第二章 文獻回顧... 5

2-1 前言... 5

2-2 類神經網路... 6

2-3 決策樹... 9

2-4 整合法... 17

2-5 結語... 20

第三章 單一迴歸模型... 21

3-1 前言... 21

3-2 資料來源 ... 22

3-3 結果... 27

3-3-1 迴歸分析 ... 27

3-3-2 倒傳遞網路 ... 29

3-3-3 迴歸樹 ... 31

3-3-4 小結 ... 37

3-4 選股效益比較 ... 38

3-5 結語... 39

第四章 自助整合法迴歸模型... 41

4-1 前言... 41

4-2 方法... 41

4-3 結果 ... 41

4-3-1 參數的影響 ... 41

(6)

4-3-2 倒傳遞網路 ... 44

4-3-3 迴歸樹 ... 47

4-3-4 小結 ... 49

4-4 選股效益比較... 50

4-4-1 一般選股策略的績效 ... 50

4-4-2 倒傳遞網路、迴歸樹的績效 ... 55

4-5 移動學習模式之影響... 57

4-6 結論... 59

第五章 結論與建議... 60

5-1 結論... 60

5-2 建議... 64

參考文獻... 66

附錄A 資料筆數 ... 70

(7)

圖目錄

圖1-1 研究架構與流程圖... 4

圖2-1(A) 預言探勘:建構模型... 5

圖2-1(B) 預言探勘:使用模型(葉怡成 2008)... 5

圖2-2 人工神經元模型... 6

圖2-3 倒傳遞神經網路架構圖... 7

圖2-4 分類樹... 10

圖2-5 以迴歸樹為例... 12

圖2-6BOOSTING(提升法) ... 17

圖2-7 自助整合系統... 18

圖3-1 因變數計算期間... 24

圖3-2 不同因子在五等分下的第T+3 季報酬率平均值... 24

圖3-3 不同因子在五等分下的第T+3 季報酬率標準差... 25

圖3-4 不同因子在五等分下的第T+3 季 SHARPE指標... 25

圖3-5 不同因子在五等分下的第T+3 季報酬率平均值... 26

圖3-6 迴歸分析的多年的散佈圖(訓練期間) ... 28

圖3-7 迴歸分析的多年的散佈圖(測試期間) ... 28

表3-3 迴歸分析的迴歸T統計量... 29

圖3-8 神經網路的多年的散佈圖(測試期間)... 30

圖3-9 迴歸樹(RT)的多年的樹狀圖(樹葉最小樣本數:1000; 樹葉最小標準差:0.2) ... 33

圖3-10 迴歸樹(RT)的多年的散佈圖... 34

圖3-11 迴歸樹(RT)的多年的樹狀圖(樹葉最小樣本數:500; 樹葉最小標準差:0.2) ... 36

圖3-12 迴歸樹(RT)的多年的散佈圖-無自變數 X4 與 X5... 37

圖3-13 選股效益之累計資金與 RT/BPN 比較... 38

圖4-1 倒傳遞網路(BPN)BAGGING10 次的實際值與預測值之相關係數圖 ... 42

圖4-2 迴歸樹(RT)BAGGING10 次的實際值與預測值之相關係數圖... 43

圖4-3 倒傳遞網路與迴歸樹BAGGING10 次的實際值與預測值之相關係數圖... 44

圖4-4 倒傳遞網路(BPN)BAGGING次的多年模式結果-誤差均方根(測試期間). 45 圖4-5 倒傳遞網路(BPN)BAGGING30 次的多年的散佈圖(測試期間)... 45

圖4-6 迴歸樹(RT)BAGGING次的多年模式結果-誤差均方根(測試期間) ... 47

圖4-7 迴歸樹(RT)BAGGING30 次的多年的散佈圖(測試期間) ... 49

圖4-8 選股效益之平均報酬率 ... 51

圖4-9 選股效益之 SHARPE值... 52

圖4-10 選股效益之累計資金(第 24~40 季)... 53

圖4-11 選股效益之累計資金(RULE5~RULE8) ... 54

(8)

圖4-12 因變數股東權益報酬率(ROE)排序之累計資金 ... 55

圖4-13 因變數淨值股價比(BPR)排序之累計資金... 55

圖4-14 選股效益之累計資金與 RT/BPN 比較... 57

圖4-15 移動八季期間... 57

圖4-16 正常學習期間與移動八季之 RT 累計資金比較 ... 58

圖5-1 選股模型之誤差均方根比較... 61

圖5-2 選股效益之累計資金... 63

圖5-3 實際值與各次預測值的相關性-10 次預測模型 ... 64

圖5-4 實際值與各次預測值的相關性-30 次預測模型 ... 64

(9)

表目錄

表2-1 倒傳遞神經網路在股票交易市場之應用文獻回顧...8

表2-2 決策樹在股票交易市場之應用文獻回顧...12

表2-3 決策樹在股票交易市場之應用文獻回顧...13

表2-4 Bagging 與 Boosting 的方法運用在股票交易市場之應用文獻回顧...19

表3-1 相關係數矩陣...26

表3-2 迴歸分析的多年模式結果...27

表3-3 迴歸分析的迴歸 t 統計量...29

表3-4 倒傳遞網路(BPN)的多年模式結果...29

表3-5 倒傳遞網路(BPN)的多年模式結果-訓練期間之最佳學習循環數為主...31

表3-6 迴歸樹(RT)的多年模式結果...32

表3-7 迴歸樹(RT)的多年模式結果-無自變數 X4 與 X5...35

表3-8 選股效益之累計資本與 RT/BPN 比較...39

表4-1 倒傳遞網路(BPN) Bagging10 次的多年模式結果...42

表4-2 迴歸樹(RT) Bagging10 次的多年模式結果...43

表4-3 倒傳遞網路(BPN) Bagging30 次的多年模式結果...46

表4-4 迴歸樹(RT) Bagging 次的多年模式結果...48

表4-5 倒傳遞網路與迴歸樹的比較...49

表4-6 選股效益之平均報酬率...51

表4-7 選股效益之 Sharpe 值...52

表4-8 選股效益之累計資本...53

表4-9 選股效益之累計資本與 RT/BPN 比較...56

表4-10 正常學習期間與移動八季之 RT 累計資本比較...58

(10)

第一章 前言

1-1 研究目的

資本資產定價模型(Capital Asset Pricing Model;CAPM)是在現代投資組合 理論的基礎上發展起來的定價模型,為現代金融市場均衡價格理論的基石。

CAPM 可以表示為對於一個給定的資產 i,它的期望報酬率和市場投資組合的 期望報酬率之間的關係可以表示為:

(

m f

)

im f

i

r E r r

r

E

( )= +

β

⋅ ( )− (1)

其中,

E

(

r

i)是資產i 的期望報酬率;

r

f是無風險報酬率;

β

im是資產i 的系 統風險;

E

(

r

m)是市場投資組合的期望報酬率;

( E

(

r

m)−

r

f

)

是市場風險溢酬 (Market Risk Premium),即市場投資組合的期望報酬率與無風險報酬率之差。

但 近 年 的 實 證 研 究 證 明 CAPM 模 型 並 不 能 驗 證 歷 史 的 投 資 報 酬 (Holthausen and Larker 1992; Hong, et al. 2000; Piotroski 2000),並發現許多具 有效應的因子。例如,Banz (1981)提出規模效應,指出小型股的報酬率高於 大型股;Rosenberg, Reid, and Lanstein (1985) 提出價值效應,指出價值股的報 酬率高於成長股;De Bondt and Thaler (1985) 提出反轉效應,指出贏家股的報 酬率在較長期間後會低於輸家股;Jegadeesh and Titman (1993) 提出動能效 應,指出贏家股的報酬率在較短期間內會高於輸家股。

這些效應中最常被討論的應屬價值效應。Fama and French(1992, 1995)先 以美國股市實證證明價值效應,接著又以全球主要股市實證證明價值效應 (Fama and French 1998)。此外 Fama and French(1993)結合 CAPM 中的系統風 險、以及異常現象中的規模效應、價值效應建立三因子模型。但此一模型無 法解釋動能效應,因此Carhart (1997)結合三因子模型與動能效應建立四因子 模型。

(11)

Fama and French 的三因子模型可寫成

it t i

t i

ft mt i i ft

it

r a b r r c SMB d HML e

r − = + ( − ) + ( ) + ( ) +

(2)

其中,SMB=小型股股票報酬率減去大型股股票報酬率;HML=價值型股票報 酬率減去成長型公司股票報酬率。

Fama and French 在其三因子模型(FF3)中以淨值股價比(每股淨值除以股 價)大者為價值股,小者為成長股,並以實證證明價值股的報酬率高於成長 股。但實證中,也發現有成長股優於價值股的市場與期間,因此價值股與成 長股何者較佳一直是有高度爭論問題,也一直缺少合理的理論來解釋此一現 象 (Ahmed, et al. 2002; Arshanapalli, et al. 2007; Copeland and Copeland 1999;

Kao and Shumaker 1999; Levis and Liodakis 1999; Nalbantov, et al. 2006)。

有學者使用迴歸技術,選用大量的財務報表的變數值(如淨值股價比、ROE) 及市場交易的變數(如成交量、市值)建立股票投資報酬率預測模型。使用的迴歸 技術包括迴歸分析(Regression Analysis, RA)、倒傳遞網路(Back-Propagation Network, BPN)與迴歸樹(Regression Tree, RT) (洪崇恩 1999; 蔡守倫 2007; Jang, et al. 2004; 黃兆瑜, et al. 2007; Atsalakisa, et al. 2009; Ilir Roko, et al. 2008;

Sorensen, et al. 2000; 鄭忠樑 2002; 楊宗彥 2003; 張玉佩 2003; 周榮祥 2004;

蔡建成 2007)。但還很少有學者研究整合多個模型的預測結果的效果(陳彥銘 2006; 謝有為 2007)。

因此本研究的目的在於以三種迴歸技術建立股票投資報酬率預測模型,並 研究整合多個模型的預測結果的效果。

1-2 研究方法

本研究以美國標準普爾500 指數(S&P 500)之公司為研究對象。所採用的變 數為財務報表上可以取得或計算的項目:Beta 值(β)、股東權益報酬率(Return on Equity, ROE)、淨值股價比(B/P, BPR)、成長價值報酬率(GVR)、盈餘股價比 (Earnings Yield)、市值(MV)、股票價格與第 t 季報酬率,共 8 個財務指標為本研 究的自變數;而因變數則為第 t+3 季報酬率。所採用的資料為美國股市資料從 1998 年至 2007 年,總共有 40 季的財務資料。將所收集而來的變數資料做「排 序正規化」處理,將全部的變數分季且每個變數之數值之相對大小由小到大排

(12)

序,給一個定0~1 的值。

本研究的模型分成二種:

z 單一迴歸模型

此迴歸模型使用迴歸探勘共採取三種方法:迴歸分析(RA)、倒傳遞網路 (BPN)與迴歸樹(RT),並以預測模型產生股票投資報酬率預測值,並據以選股,

計算其累計報酬率,來評估所建立模型的預測能力與準確度。

z 自助整合法迴歸模型

為了提升所建立的選股預測模型的預測準確性,本研究採用自助整合法 (bootstrap aggregating)。此迴歸模型使用迴歸探勘共採取二種方法:倒傳遞網 路(BPN)與迴歸樹(RT)。其使用的原始資料與單一迴歸模型一樣,但以隨機重 複抽取取樣法產生多個資料集,建立多個預測模型,再對其預測值進行平均,

並據以選股,計算其累計報酬率,來評估自助整合法是否可提升預測模型之預 測能力與準確度。

1-3 研究流程

本論文及研究架構與流程繪成圖1-1 所示。

1-4 研究內容

本研究分為五章,各個章節內容敘述如下:

第二章為文獻回顧。針對資料探勘裡的迴歸探勘與整合法做介紹,迴歸探 勘的兩種方法:類神經網路與決策樹,而整合法則有兩種方法:自助法與提升 法,以及這些方法在股票市場上投資分析應用的相關文獻。

第三章為單一迴歸模型。使用迴歸分析(RA)、倒傳遞神經網路(BPN)與迴歸 樹(RT)等三種迴歸探勘方法建立選股預測模型。且以美國股票市場 S&P 500 指 數的財務資料訓練且測試,評估其模型的預測能力。

第四章為自助整合法迴歸模型。使用倒傳遞神經網路(BPN)與迴歸樹(RT) 等兩種迴歸探勘方法且運用自助法(Bagging)方法建立多次選股預測模型,並且 整合預測。評估運用此方法是否可以提升模型的預測能力與準確度。在本章節 也探討,若建立模型的財務資料期間往後移動,是否會影響模型的預測能力,

與準確度,本研究利用累計報酬率來評估其影響能力。

(13)

第五章為結論。總結單一迴歸模型與自助整合法迴歸模型應用於美國股票 市場上的優劣之處。

圖 1-1 研究架構與流程圖

(14)

第二章 文獻回顧

2-1 前言

資料探勘可以幫助使用者從龐大的資料或資料庫裡面歸納出對使用者有 用的知識。資料探勘可依照任務分成描述探勘(Descriptive Data Mining)與預測 探勘(Predictive Data Mining)。預測探勘的目的在於建立一個具有預言能力的知 識模型(圖 2-1)。迴歸探勘(regression)是一種預測探勘,它是指給一組資料(訓練 資料),每筆資料都有一組屬性值與一個連續數值,且其數值都具有連續性,然 後找出一個模式能夠以屬性值將資料做正確預測。例如根據個人的年齡、性 別、所得與職位等資料,預測其購車的消費能力。可使用的分析技術包刮迴歸 分析、類神經網路和迴歸樹(regression tree)等。

資料(x,y)



(輸入變數+輸出變數)

Î

資料探勘



Î

知識(f)

Š

(函數)

1 組:x11,x12,…,x1k y1

2 組:x21,x22,…,x2k y2

: : : … : :n 組:xn1,xn2,…,xnk yn

) ,..., ,

(

x

1

x

2

x

k

f

y

=

圖2-1(a) 預言探勘:建構模型 資料(x)



(輸入變數)

Î

知識(f)

Š

(函數)

Î

資料(y)



(輸出變數)

1 組:x11,x12,…,x1k 2 組:x21,x22,…,x2k

: : : … : n 組:xn1,xn2,…,xnk

) ,..., ,

(

x

1

x

2

x

k

f

y

=

y

圖2-1(b) 預言探勘:使用模型

(

葉怡成

2008 )

(15)

為了使模型有更佳的穩定與提高其預測的準確性,許多學者提出整合多個 模型的方法,常見者有自助法(Bagging)與提升法(Boosting)。

以下各節將介紹類神經網路、迴歸樹、整合法的原理與應用。

2-2 類神經網路

類神經網路是指利用電腦仿效生物神經網路而建立的處理系統。類神經網 路精確的定義是「類神經網路是一種計算系統,包括軟體與硬體,它使用大量 簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是生物神經元 的簡單模擬,它從外界環境或者其他人工神經元取得資訊,並加以非常簡單的 運算,並輸出其結果到外界環境或者其他人工神經元」(葉怡成 2006)。

人工神經元(artificial neuron)又可以稱為處理單元(processing element),

而且由許多的人工神經元可以組成神經網路。每個處理單元會有1 個或 1 個以 上的輸入值,但處理單元的輸出值只會有一個(如圖2-2 所示)。

θj

j 處理單元

Xi輸入變數 Yj輸出變數

Wij

圖2-2 人工神經元模型

人工神經元的輸出值與輸入值之間的關係式,一般可用輸入值的加權乘積 和之函數來表示,公式如下(葉怡成 2006):

) (

=

i

j i ij

j

f W X

Y

θ (2-1) 其中變數的定義如下

(16)

Y =仿效生物神經元模型之輸出訊號。

j

f =仿效生物神經元模型之轉換訊號。

W =仿效生物神經元模型之神經節強度,又稱加權值。

ij

X =仿效生物神經元模型之輸入訊號。

i

θj=仿效生物神經元模型之閥值。

在 人 工 神 經 元 也 就 是 處 理 單 元 之 間 之 傳 遞 訊 號 路 徑 稱 為 連 結 (connection)。在每個連結會有一個加權值為

W ,其用來表示第 i 處理單元對第

ij j 個處理單元的影響強度。

許多個人工神經元與連結可以組成各種網路模式(network model),其中 倒傳遞網路(Back-Propagation Network,BPN)是類神經網路學習模式中最具 代表性的且應用是最普遍的代表性。每個倒傳遞網路包含了許多單層網路,每 一層包含很多個人工神經元(也稱處理單元)。處理單元用來輸入外在環境訊息 稱為輸入層,而處理單元用來輸出訊息給外在的環境稱為輸出層。且倒傳遞網 路還包含了另一個重要的處理層,被稱為隱藏層(hidden layer)。此層用來處 理由輸入單元進來的資料,與各個神經元交互作用。(如下圖 2-3 所示)

圖2-3 倒傳遞神經網路架構圖

X

1

X

2

Y

輸入變數 輸入層 隱藏層 輸出層 輸出變數

θ

1

θ

2

θ

3

θ

4

θ

5

θ

6 W13

W23

W14

W15

W24

W25

W36

W46

W56

(17)

倒傳遞神經網路的詳細演算法介紹可以參考文獻 (葉怡成 2006)。且已經有 不少的文獻將倒傳遞神經網路的方法運用到股票投資市場,部份文獻整理如下 表2-1。

表2-1 倒傳遞神經網路在股票交易市場之應用文獻回顧

文獻 研究內容

洪崇恩 (1999)

本研究是利用總體經濟面、公司基本面、股票市場面的資訊,

透過倒傳遞類神經網路(Back-Propagation Network,BPN)以民國 79 年以前所有已上市的12 家電子公司為研究樣本,研究期間由民國 79 年第一季到民國 86 年第三季共 31 季,進行電子類股票季報酬率正 負之預測,並依本研究的BPN 模型所產生的正負值,為判斷買進賣 出的投資交易依據。實證結果顯示,依本研究方法使用的倒傳遞類 神經網路模型與參數,在報酬率處於上升與下降階段時,實際用於 預測台灣股票市場的電子股季報酬率的正負有其可行性,並透過本 研究的投資交易方法進行投資交易,在投資二季的期間下能獲取不 錯的報酬。

蔡守倫 (2007)

本研究針對臺灣 50 指數之股票型證券投資信託基金 (ETF) 的 隔日股價為預測標的,並以基本面、技術分析等其他層面為基礎,

利用逐步迴歸選取輸入變數,進行股價預測並探討預測績效。同時 也與多元迴歸模式、時間序列模式等方法加以分析、比較。結果顯 示,相較於納入所有輸入變數的倒傳遞類神經預測之預測誤差均方 根 (RMS) 為 0.07258、平均絕對誤差率 (MAPE) 為 5.08%;本研 究 模 型 之 預 測 誤 差 均 方 根 (RMS) 為 0.0195、平均絕對誤差率 (MAPE) 為 1.11%,証實了本研究提出的預測模型可使整體預測能 力提升,而其他預測模型在輸入變數經過選擇後也有良好的預測績 效。最後利用倒傳遞類神經的預測結果,進行交易策略的探討,顯 示出投資報酬率為42.114%。

Jang (2004)

預測股票市場漲跌方向是一項具有挑戰性的任務。本研究利用 倒傳遞神經網路建立一個股票買入/賣出預警系統,並以一個香港股 票進行測試。 研究顯示,系統模型的正確率可達 78%。

(18)

黃兆瑜 (2007)

本研究採用「強化式學習」的策略,直接建構基於技術指標的 遺傳神經網路(GNN)股市買賣決策系統,免除了傳統上必須先建構精 確的股市漲跌預測系統的困難。並探討七個台灣股票市場的議題,

其結果如下:(1) 在演化過程中,確實可以觀察到「訓測相關」與「世 代進步」現象,顯示在強化式學習的演化歷程中,GNN 確實學習到 具普遍化獲利能力的交易策略。(2) 使用包含成交量的資訊產生的系 統如果能避免過度學習,可以提高投資績效。(3) 使用 12 年的訓練 期間資料足以學習到具普遍化獲利能力的交易策略,4.5 年的訓練期 間則否。(4) 使用多數決策略無助於提高對大盤的投資績效,僅可使 其更加穩定。(5) 使用 GNN 決策系統到八大類股指數並無法提高類 股投資績效。(6) 使用雙向交易的 GNN 獲利顯著高於單向交易的 GNN。(7) 當技術指標 RSI、MAI 與 MVI 越大,越可能是買入時機。

Atsalaki- sa(2009)

本研究調查 100 多篇以神經網路和模糊技術建股票市場預測的 文獻。並對模型的輸入數據、預測方法、績效評估方法進行比較分 析。 結果顯示,這些方法已被廣泛研究與測試。

2-3 決策樹

分類樹(Classification Tree, CT)與迴歸樹(Regression Tree, RT)皆為決策樹的 方法。其定義如下:

z 若分析的預期結果只有兩種類型,則稱之為分類樹。

z 若分析的預期結果是一個實際的數值,則稱之為迴歸樹。

分類樹是一種用來預測的模型。分類樹的形成是決策判斷過程以樹狀結構 來表示,其中包含了節點(nodes)與枝幹(branch)。枝幹則表示所對應的屬性,依 照屬性的不同將資料區分到不同的枝幹,由上而下一層一層的往下將資料分 類。節點分為內部節點(interior nodes)與末稍節點(terminal nodes),而內部節點 表示在作決策時所依據的屬性;末稍節點表示最後分類的類別 (丁一賢、陳牧 言2005,張云濤、龔玲 2007,葉怡成 2008 )。

在產生分類樹時,所有資料一開始會都存放在樹根節點(root node),然後 依據節點的屬性與法則分類至下一個內部節點(或稱分支節點 interior nodes),

(19)

在此節點內產生新的資料聚集,然後一直往下伸展。直到樹收歛或是直到使用 者的規定,至最後一層節點則為末梢節點(terminal nodes),末梢節點通常會有 此節點的最後的筆數以及其分類,可讓使用者判斷與了解整棵樹的預測規則。

分類樹重要的基本概念如下(葉怡成 2008,文少宣 2004):

• 屬性(attribute):屬性是影響事物的判斷、分類及預測的特徵。

• 屬性值配對(attribute-value pair):一個屬性值配對包括屬性與其特徵值。

• 決策(decision):決策是對事物的判斷、分類或預測。

• 範例(example):一個範例包括一群屬性與其值,以及一個決策值。

• 分 類 樹:一種樹狀結構,以屬性作為決策樹分枝之節點,以決策值作為決 策樹的樹葉。歸納決策樹從樹根開始,以分枝節點作測試,將事物分成不 同的決策值。

• 法則(rule):一條IF-THEN法則包含一串條件與一個決策值,每個條件由一 個屬性與其值所構成。

圖2-4 分類樹 樹根 節點

分枝 節點

末梢 節點 末梢

節點

末梢 節點 樹

枝 樹

樹 枝

樹 枝

(20)

基本的分類樹學習演算法如下:

步驟 1.樹根分割法則

從樹根處任意選擇一個屬性,並依此屬性所有可能的值產生不同分枝,每 一分枝含有所有該屬性之值同此分枝之值的訓練範例。

步驟 2.分枝判別法則

判別每一分枝:如果分枝中的所有的範例之決策值相同,則稱此分枝為同 質分枝,否則為非同質分枝。如果分枝為同質分枝,則以目前各分枝中佔有最 大比例的決策值做為此分枝之決策值,並結束此分枝。

步驟 3.終止法則

如果所有的分枝均已結束,則輸出歸納決策樹並停止;否則至步驟 4。

步驟 4.分枝分割法則

對每一個未結束的分枝,在該分枝下,任意選擇一個該分枝尚未選擇過的 屬性,同步驟 1 的方法產生下一層分枝,回到步驟 2。

顯然不同的屬性選擇順序會導出不同的分類樹,但不同的樹中,何者是最 佳的樹?也就是不同的屬性選擇順序中,何者是最佳的屬性選擇順序?一般而 言,由知識的「準確性」來看,分枝數目較少、分枝深度較淺,但仍能反應訓 練範例中所隱含的分類知識的分類樹對驗證範例有較佳的預測能力,因此是較 佳的樹。此外,由知識的「有用性」與「解釋性」來看,一個較簡單的樹優於 一個較複雜者。

許多學者提出一些選擇最佳屬性的方法,即使所得分類樹盡量簡化的方 法。Quinlan 在其所提稱為 ID3 的歸納學習演算法中,採用資訊理論(Information Theory)中的不純度(impurity)大小作為選擇最佳屬性的方法基礎。

若以迴歸樹(RT)的例子來舉例說明,下表(如表 2-2)為範例共有五支股票,

其股價與股東權益報酬率(ROE)之數值都已經經過標準化,將這些股票建立迴 歸樹模型後,繪製下圖(如圖 2-5)。而所設定的最小資料筆數為兩筆。

(21)

表2-2 決策樹在股票交易市場之應用文獻回顧 股票 股價 ROE 報酬率

A 0.89 0.95 0.55 B 0.7 0.25 0.68 C 0.91 0.89 0.81 D 0.71 0.52 0.58 E 0.47 0.25 0.21

我們可以發現迴歸樹的規則,一開始將全部的資料集放置數根節點,

而樹根節點的規則是當股東權益報酬率(ROE)大於 0.6 時往右邊(yes)走,由資料 集可以發現,資料A 與資料 C 是往右邊走,而資料 B、資料 D 與資料 E 則是 往左邊。而右邊的第二層節點的資料筆數只有兩筆,達到最小資料筆數的要 求,所以在此停止,我們計算其平均報酬率為0.68。左邊第二層資料筆數有三 筆,所以再次的分裂,其規則為當股價大於0.62 時往右邊(yes)走,並停止分裂,

其平均報酬率計算的結果,第三層左邊的節點為0.63,右邊的節點為 0.21。

圖2-5 以迴歸樹為例

(22)

已經有不少的文獻將決策樹的方法運用至股票投資市場,部份文獻整理如 下表2-3。

表2-3 決策樹在股票交易市場之應用文獻回顧

文獻 研究內容

Ilir Roko (2006)

本研究針對美國股票市場以分類樹建立一個成長或價值的特 徵與技術分析資訊所形成的預測模型。本研究以S&P 500 股票做為 研究對象,以月為單位,資料時間為2001 年 1 月至 2006 年 7 月 1。

考慮的因子包括49 個常見財務指標,例如 PER, PBR, PSR, PCR, ROE, Earning/Sale, Dividend/Earning, Dividend/Price, Debt/Asset,與 4 個常見的技術指標 Close Location Value (CLV),Percentage Price Oscillator (PPO),Relative Strength Index (RSI),Price Momentum。

並以自助法來改善預測模型的準確性。並在過程中不斷地更新模 型。分類樹的好處是可發現有價值的選股規則。本研究還將這個模 型以 2006 年進行投資模擬,結果証實了以分類樹建構的預測模型 是有效的。

Sorensen (2003)

本研究針對美國股票市場中的高科技類股以分類樹建立一個 合理的股票與公司屬性所形成的預測模型。本研究以Russell 1000 股票做為研究對象,以月為單位,資料時間為1993 年 2 月至 1999 年 10 月,以六項財務指標做為區分「表現良好」與「表現不好」

兩種類型股票的依據,並分別組成投資組合,分析其報酬率。其中 六項財務指標分別如下:Sales-Price, Cash flow-Price, EPS-Price, ROA, EPS Momentum, Price Momentum,而預測的值為下個月的報 酬率。研究結果示,在靜態分類樹模型上,「表現良好」的投資報 酬率比起「表現不好」的投資報酬率每個月平均有1.40%以上,而 在動態分類樹上每個月則平均超過1.47%以上。

鄭忠樑 (2002)

股票的價值應該來自於公司的獲利,因此股價應該合理的反應 出公司營運的狀況及獲利的程度,本研究試圖由代表公司營運及獲 利狀況的財務比率,找出預測股價漲跌的參考規則。本研究使用資 料探勘技術中的分類樹模型作為分析的工具,分類樹模型在尋找自

(23)

變數與因變數的規則上,常有不錯的表現,而Salford System 所研 發的CART 軟體則是本研究中的主要分析工具。本研究以台灣地區 的電子類股作為研究標的,研究樣本期間為民國八十四年第一季起 至民國九十年第二季止,資料來源的台灣經濟新報。資料樣本以季 為單位,自變數為公司的各項財務比率資料,因變數為季股價報酬 率資料。研究樣本群以民國八十九年第二季(含)以前為學習樣本 群,共計 1885 筆,用來成長分類樹模型,而民國八十九年第二季 以後資料為測試樣本群,共計674 筆,用來驗證分類樹模型的分類 預測能力。經由分類正確率及模擬投資報酬率的分析,均顯示研究 所得的CART 分類樹模型有效。該模型指出,在所有使用的公司財 務比率中,與去年同期比較的利益成長率對分類預測季股價報酬率 最具成效。透過本研究可以了解,的確可以利用公司財務比率資料 對股價報酬率的趨勢作一定程度的預測,而CART 分類樹模型也的 確具有相當的研究成效,值得進一步加以應用。

楊宗彥 (2003)

股票的價格應該反應公司的價值,而公司的價值最直接反映在 公司的營運狀況與獲利的狀況,本研究希望利用上市公司的財務比 率來預測股票投資報酬,所使用的工具為資料挖掘中的類神經網路 與決策樹技術,以了解兩種工具對於股票投資報酬預測準確度的高 低。本研究以台灣地區的電子類股作為研究標的,研究樣本期間為 西元1994 年第一季起至西元 2002 年第三季止,資料來源的台灣經 濟新報。資料樣本以季為單位,自變數為公司的各項財務比率資 料,因變數為季股價報酬率。建立好預測模型後,本研究再分別針 對兩模型投入新訓練樣本或者投入新變數,探討類神經網路或決策 樹在樣本數增加或自變數增加的情況下,預測報酬準確度有何變 化。本研究結果如下:(1) 不論是類神經網路或是決策樹,均可以 透過增加樣本數或增加自變數的方式來提高預測股票投資報酬率 的準確度。(2) 對於預測股票投資報酬率方面,使用類神經網路所 得到的準確度比使用決策樹來的高。(3) 對於類神經網路與決策樹 來說,增加變數所能帶來的效益大於增加樣本數。

(24)

張玉佩 (2003)

本研究以1997 年第二季至 2003 年第三季之上市電子類股為分 析樣本,並利用六項財務變數(包含價值型與成長型變數)與股價 報酬資料,建構預測台灣電子類股股價報酬之決策樹模型,為避免 研究之樣本數過少,代表性不足,因此在研究期間陸續上市之電子 類股也納入研究樣本中,因此研究之樣本數會逐年增加。在探討各 期模型之預測率方面,本研究整理影響景氣之總體經濟變數資料,

觀察總體經濟變數是否對決策樹模型之預測力有影響,並探討其影 響之程度與可能之原因。本研究之上市電子類股資料來源為台灣經 濟新報資料庫(Taiwan Economic Journal, TEJ),財務比率資料之最 短週期為季,因此以季作為資料週期建立決策樹模型。與景氣相關 之總體經濟變數資料則來自於經建會及主計處之網站。在本研究之 結論方面,依六項價值型與成長型基本變數建立之股價報酬預測模 型對股價報酬確能提供良好之預測力,平均預測力有 59.20%。由 此預測力判斷,依基本變數建立台灣上市電子類股股票報酬之決策 樹模型是可行的。由股票報酬各季預測率與總體經濟變數之連動性 分析可發現,在組成景氣信號之十一項指標及國內生產毛額當中,

平均預測率與貨幣供給 M1B 及其變動率、直間接金融、股價指數 及其變動率、製造業新接訂單指數及非農業部門就業人數呈正向關 係;與票據交換與跨行通匯金額及其變動率及出口物價指數及其變 動率呈反向關係。由以上之連動關係可看出,總體經濟環境確實會 影響股價報酬模型之預測力。

周榮祥 (2004)

本研究以民國八十七年一月至民國九十年十二月為樣本期 間,藉由探討 52,649 位自然人的的股市操作績效,歸納出散戶投 資人特性與報酬率之間的關係,並藉由CART 的分類樹技術架構出 投資人的操作績效與投資人特性之間的關連性。研究結果發現,就 性別來說,男、女性的報酬率並無顯著差異,但男性的週轉率顯著 的高於女性。另外,週轉率與報酬率成反比,顯現愈頻繁的交易,

其所付出的交易成本愈大,所侵蝕的報酬也愈多。再者,交易年資 與報酬率成正比,經驗愈是豐富的投資人其操作績效顯著優於經驗

(25)

資淺的股市投資人。而在分類樹所架設出來的模型中發現,交易年 資是影響投資報酬率的主因,報酬率最低的投資人,擁有低交易年 資的特性,而報酬率最高的一群中,則擁有高交易年資以及低週轉 率的混合特質。另外,在分類的正確率方面,CART 分類樹模型在 報酬率最高的群組中獲得69%的正確率,在報酬率最低的群組中獲 得55%的分類正確率,顯示本研究所得到的分類樹模型,的確具有 穩定且正確的分類效果。

蔡建成 (2007)

本研究主要針對股票投資績效分類進行探討,使用資料探勘技 術之決策樹模型和羅吉斯迴歸模型為分析工具,進行兩者之分類預 測準確性的比較,並且從決策樹模型中找出股票投資之規則。此 外,再進行因素分析與決策樹模型結合應用之探討,藉以瞭解傳統 統計方法與資料探勘技術是否能夠結合應用,以提升分類預測效 果。本研究以台灣上市電子類股為研究對象,研究樣本期間自民國 88 年第二季至民國 94 年第一季止,總共 24 季,並加以區分出多 頭與空頭市場時期,以便進行不同時期分析結果之探討。至於研究 變數方面,採用公司的財務比率為自變數,而因變數則為個股報酬 率與大盤指數報酬率之間的差異。本研究採隨機方式選取 75 %的 樣本資料為訓練樣本,用來建構決策樹模型,再以剩餘的 25 %樣 本資料為測試樣本,用來檢驗該決策樹模型是否具有效用。經由實 證分析可獲得以下之結果:(一)決策樹模型之分類預測能力優於 羅吉斯迴歸模型。(二)因素分析和決策樹模型的結合應用效果不 佳,無法提升模型的分類預測準確率。(三)不論採用決策樹或羅 吉斯模型,皆以空頭市場期間的分類預測成效最佳。(四)影響決 策樹模型的重要變數為總資產報酬率和稅後淨利成長率。

(26)

2-4 整合法

自助法(Bootstrap aggregating, Bagging)與提升法(Boosting)都為整合法,而 這兩種方法都可以用來提升模型的預測準確率。

(1) Boosting(提升法)

各知識模型的訓練集決定於在其之前產生的知識模型的表現,被已有知識 模型錯誤判斷的資料將以較大的概率出現在新知識模型的訓練集中,通過這種 方法可以產生一系列知識模型。如此,新知識模型將能夠很好地處理對已有知 識模型來說很困難的資料。另一方面,雖然此法能夠增強知識模型整合的泛化 能力,但是同時也有可能使整合模型過分偏向於某幾個特別困難的資料。因此,

該方法不太穩定,有時能起到很好的作用,有時卻沒有效果。

2-6 Boosting(提升法

)

(27)

(2) Bagging(自助法)

Bagging 是 bootstrap aggregating 這個字的縮寫 (bootstrap 做形容詞時為依靠 自己力量的意思)。各知識模型的訓練集由從原始訓練集中隨機選取若干資料組 成,訓練集的規模通常與原始訓練集相當,訓練資料允許重複選取。如此,原 始訓練集中某些資料可能在新的訓練集中出現多次,而另外一些資料則可能一 次也不出現。此法通過重新選取訓練集增加了知識模型的差異度,從而提高了 泛化能力。穩定性是此法能否發揮作用的關鍵因素,Bagging 能提高不穩定學習 演算法的預測精度,而對穩定的學習演算法效果不明顯,有時甚至使預測精度 降低。學習演算法的穩定性是指如果訓練集有較小的變化,學習結果不會發生 較大變化,例如,k 最近鄰方法是穩定的,而決策樹、神經網路等方法是不穩定 的。

根據Breiman (1994) 所提出對 Bagging 之想法:Bagging 是一種可以產生 許多個預測模型且利用這些模型得到總體的預測。當要使用多個模型來預測 時,會使用平均數來預測整合的結果。且利用對資料的重複學習與測試,Bagging 的方法可以大幅度的提升預測的準確性,甚至可以降低雜訊的干擾與避免過度 學習的情況發生。

圖2-7 自助整合系統

(28)

Bagging(自助法)與 Boosting(提升法) 的區別在於:

(1) Bagging 的訓練集的選擇是隨機的,各輪訓練集之間相互獨立;而 Boosting 的訓練集的選擇不是獨立的,各輪訓練集的選擇與前面各輪的學習結果有 關。

(2) Bagging 的各個模型地位相等,沒有權重;而 Boosting 的各個模型地不等,

是有權重的。

(3) Bagging 的各個預測函數可以並行生成;而 Boosting 的各個預測函數只能順 序生成。對於像神經網路這樣極為耗時的學習方法,Bagging 可通過並行訓 練節省大量時間耗費。

將Bagging 與 Boosting 的方法運用到股票投資市場的文獻尚不多見,整理 如下表2-4。

2-4 Bagging

Boosting

的方法運用在股票交易市場之應用文獻回顧

文獻 研究內容

陳彥銘 (2006)

股價投資預測技術已發展多年,隨近年來科技的進步,有越來 越多使用資料探勘技術來預測股價,如類神經網路、決策樹…等 等,相較於該技術使用的單一分類器模型,本研究試圖利用多數投 票法和拔靴集成法,建構不同的同質多重分類器(例如:多個類神 經網路模型的結合)與異質多重分類器(例如:類神經網路、決策樹、

回歸模型相結合),試圖建立較佳的股價預測模型,並和單一分類 器模型做比較,除了比較正確率外,更進一步的比較各預測模式間 所獲得的投資報酬。本研究以台灣地區上市電子公司為研究標的,

以財務及總體經濟指標為輸入變數,股價報酬率為輸出變數,樣本 期間為民國九十一年第二季至民國九十五年第三季,經由上述設 定,本研究發現如下:(1) 類神經網路模型確實較其他單一分類器 模型(決策樹、迴歸模型)有更高的準確率及投資報酬率,(2) 多重 分類器模型確實較單一分類器模型有較高的準確率及投資報酬

(29)

率,(3) 異質多重分類器較同質多重分類器有更高的準確率,(4) 然 而,在策略投資下,多數投票法之同質類神經網路多重分類器有最 佳的投資報酬率,(5) 多數投票法和拔靴集成法在準確率上沒有顯 著的差異,而在策略投資下,前者有較佳的投資報酬率。

謝有為 (2007)

本文動機在於降低預測的均方誤差(prediction mean square error , PMSE),首先我們假設了一個時間序列迴歸模型,然後使用 拔靴集中演算法(bagging, 即自助整合法)於此模型上,這個方法 可以產生多個不同形式的預測量並且藉此得到一個集中的預測量

(aggregated predictor)。假設預測是一個數值的結果(numerical outcome),則我們將上述的多個預測量平均(averaging)起來就可 以得到集中的效果。而建構預測量的方式,我們可以藉由拔靴法

(bootstrap)從一個學習集合(learning set)當中重新抽樣並且把 重新取樣的資料當成多個新的學習集合,每一個新的學習集合可以 產生一個預測量。本文應用真實的資料 (美國真實經濟活動指標、

全球生技公司股價),和模擬的資料來對拔靴集中演算法在降低預 測均方誤差上面的表現做評估,在本文的應用上,拔靴集中預測值

(bagging prediction)在大部分的時候要比一般時間序列迴歸模型 預測值來的更加精確,並且可以有效的降低預測的均方誤差。如果 擾亂且不穩定的學習集合會在預測量的建構上產生顯著的影響,則 拔靴集中演算法似乎可以有效的改善預測的精確度。儘管如此,拔 靴集中演算法並非是現今唯一有能力達到降低預測均方誤差效果 的方法。

2-5 結語

在本章節的文獻回顧中,可以發現過去有許多文獻利用迴歸演算法來建立 單一預測模型。因為單一預測模型的穩定度與準確度的差異性很高,所以本研 究在文獻回顧中探討了整合法。本研究將利用整合法來建立預測模型,以改善 預測模型的穩定性與準確性。

(30)

第三章 單一迴歸模型

3-1 前言

本研究使用三種迴歸探勘技術,以基本面的公司財務比率為主要因子,建 立股票報酬率預測模型。本章所使用的三種迴歸演算法之介紹如下:

1. 迴歸分析(Regression Analysis, RA)

是一種基於「最小誤差平方和」原理的迴歸技術。迴歸分析的優點是可以 產生簡明的迴歸公式;缺點是不易處理自變數的非線性效果,以及自變數之間 的交互作用效果。

2. 倒傳遞網路(Back-Propagation Network, BPN)

是一種基於「最小誤差平方和」原理,由生物神經網路所啟發的計算系統。

雖然它與邏輯迴歸的原理相似,但它的架構中具有隱藏層概念,因此它的優點 是可以處理自變數的非線性效果,以及自變數之間的交互作用效果;缺點是不 易產生簡明的分類機率公式。類神經網路是一種計算系統,包括軟體與硬體,

它使用大量簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是 生物神經元的簡單模擬,它從外界環境或者其他人工神經元取得資訊,並加以 非常簡單的運算,並輸出其結果到外界環境或者其他人工神經元。

3. 迴歸樹(Regression Tree, RT)

是一種基於「最小不純度」原理的分類技術。它以樹狀結構來表示分類模 式,其中包含了枝幹(branch)與節點(nodes)。枝幹表示所對應的屬性值。節點分 為內部節點(interior nodes)與末梢節點(terminal nodes),內部節點表示在做分類 時所依據的屬性;末梢節點表示最後分類的類別。分類樹的建構過程是從樹根 (樹根屬於內部節點)開始,對所有內部節點選擇一個能使分類不純度最小化的屬 性做為內部節點,直到分枝內的分類「純化」為止,形成末梢節點。當分類樹 的末端都是末梢節點時即完成分類樹。分類樹的優點是可以產生簡明的分類規

(31)

則,可以處理自變數的非線性效果,以及自變數之間的交互作用效果,缺點是 不易考慮次要但仍有影響的因子,因此準確度較差。

本章以下面四個小節來說明與探討:

第 2 節:資料來源。說明資料如何的收集,其來源與期間以及這些收集的 資料如何做前處理,且定義各個自變數與因變數和選擇其變數的原因。

第 3 節:結果。將經過前處理後的資料,以不同的參數運用迴歸分析(RA)、

倒傳遞網路(BPN)、迴歸樹(RT)這三種模型產生預測值,並以各個模型之預測值 產生散佈圖及各季的誤差均方根,且將其結果進行分析、評論,藉以其分析與 評論找出最佳的預測模型。

第 4 節:選股的效益與比較。探討所建的預測模型是否可提高投資績效,

本研究以三種選股策略來評價各選股模型的績效。

第 5 節:結語。本章的總結論及建議。

3-2 資料來源

本研究所使用的資料取自COMPUSTAT 資料庫,而收集資料的規則如下:

• 範圍:美國標準普爾 500 指數成份股(S&P 500)。

• 期間:1998 年至 2007 年,共有 40 季。

• 變數:8 個自變數與 1 個因變數。

本研究將收集來的資料加以整理,因為第一季的變數資料缺值太多,刪除 不用,最後總共有39 季的資料可以使用。訓練範例期間為第 2~23 季,即 1998 年的第三季至2003 年的第四季,共 7459 筆資料數。測試範例期間為 24~40 季,

相當於2004 年第一季至 2007 年第四季,共 6936 筆資料數。

本研究所討論的自變數有 8 個,選取這 8 個變數的原因是參考五類可能影 響報酬率的因子:

z 風險因子:Beta 值(Beta, β)

(32)

z 成長價值因子:股東權益報酬率(Return on Equity, ROE)、淨值股價比 (BRP)、成長價值報酬率(GVR)、盈餘股價比(Earnings Yield)

z 規模因子:市值(Market Value, MV) z 流動性因子:股票價格(Price-Close) z 動能因子:第 t 季報酬率

因此自變數X1~X8 定義如下:

X1 (第 t 季報酬率):為個股在股票市場第 t 季的年報酬率。

X2 (ß 風險因子):依據資本資產訂價模型(Sharpe, 1964),ß 值越高,所能獲得的 風險溢酬越高。

X3 (股東權益報酬率):即每股盈餘/每股淨值。又稱為股東權益報酬率(ROE),

代表在某一段時間內,公司利用股東權益為股東所創造的利潤。

X4 (市值):為個股在股票市場的總市值。Fama and French (1993)指出規模小的 公司股票報酬率可能較高。

X5 (股價):為個股在季底的每股收盤價格。

X6 (淨值股價比):即每股淨值/每股股價。Fama and French (1993)指出淨值股價 比越大代表股價相對便宜,潛在的股票報酬率可能較高。

X7 (盈餘股價比):即每股盈餘/每股股價。

X8 (成長價值報酬率, GVR):為葉怡成(2008)提出的一個財務指標。

在美國,公司可公告財務季報的期間原本為45 天,但美國證管( SEC)會因 安隆弊案規定自2006 年 6 月起,公司可公告財務季報期間縮短為 30 天。因為 當第t 季財務報表公告的時間在 t+1 季的第一個月,已經超過可以在 t+1 季投資 的時間點,所以本研究在第t+2 季時開始投資。然而原本在第 t+2 季結束時就可 以計算報酬率,但因為X1 (第 t 季報酬率)自變數之定義計算為 6 個月的報酬率,

為避免先視偏差,本研究設定的持有期為第t+3 季,因此因變數為第 t+3 季之年 報酬率。

(33)

圖3-1 因變數計算期間

在本章節,除了上述之資料來源,還將所收集到的資料加以整理排序,將 測試範例以單自變數分季由小而大排序,觀察若以單一自變數排序對於因變數 (t+3 季報酬率)之影響與其重要性。本研究將每季的因變數分為五等份,分別算 出其第t+3 季報酬率平均值、標準差、Sharpe 值,如圖 3-2~3-4。

以報酬率平均值來看(圖 3-2 所示),有明顯的低價股效應、規模效應。其 餘變數的影響並不明顯。而若以報酬率的標準差(圖 3-3 所示)看來,顯然低價股 與高beta 股有很高的風顯。而在 Sharpe 指標方面,每個自變數的影響就較明顯,

反比者有股價、市值;正比者有淨值股價比、盈餘股價比、成長價值報酬率。

0 10 20 30 40 50 60

R et ur n( t) Be ta RO E MV Pr ic e BP R EP R GVR

報酬率平均值

圖3-2 不同因子在五等分下的第

t+3

季報酬率平均值

(34)

0 50 100 150 200

Return(t) Beta ROE MV Price BPR EPR GVR

報酬率標準差

圖3-3 不同因子在五等分下的第

t+3

季報酬率標準差

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

Return(t) Beta ROE MV Price BPR EPR GVR

Sharpe指標

圖3-4 不同因子在五等分下的第

t+3

Sharpe

指標

為了避免少數獲利極大或損失極大的季節影響到績效評估的可信度,再將 每季的因變數分為五等份,分別算出其第t+3 季報酬率的 Rank 值的平均值,如 圖 3-5。因為避免原始值太大的差距,可能會因一支巨型股就可以壓倒數支股 票,所以本研究使用Rank 值。而由圖 3-5 可以得知,以報酬率 Rank 平均值看 得出來,具有小型股及低價股的效應,此外淨值股價比、成長價值報酬率明顯 成正比,但盈餘股價比的影響不明顯。

(35)

0.4 0.45 0.5 0.55 0.6

Return(t) Beta ROE MV Price BPR EPR GVR

報酬率Rank平均值

圖3-5 不同因子在五等分下的第

t+3

季報酬率平均值

以相關係數與陣(如表 3-1)觀察可得知,淨值股價比(BPR)與股東權益報酬 率(ROE)的相關係數為-0.57,這驗證了若公司 ROE 比較大,市場會給該公司股 票較高的PBR,即較低的 BPR,因此 ROE 與 BPR 成反比。成長價值報酬率(GVR) 是由 ROE 與 BPR 計算得到的數值,與二者均成正比,但因 ROE 與 BPR 成反 比,因此GVR 與 BPR 的相關係數高達 0.83,但與 ROE 的相關係數為-0.14。股 價(Price)與市值(MV)的相關係數達 0.43,因為市值的定義與股價有相關性,若 股價高則市值也會高。

表3-1相關係數矩陣

Return(t) Beta ROE MV Price BPR EPR GVR Rank(Y )

Return(t) 1.00

Beta 0.03 1.00

ROE 0.03 -0.16 1.00

MV 0.03 0.00 0.20 1.00 Price 0.10 -0.17 0.26

0.43

1.00

BPR -0.20 -0.03

-0.57

-0.26 -0.24 1.00 EPR -0.18 -0.24

0.39

-0.04 0.08 0.34 1.00

GVR -0.21 -0.15 -0.14 -0.19 -0.12 0.83

0.67

1

Rank(Y) 0.03 -0.02 -0.02 -0.09 -0.19 0.07 0.03 0.07 1

(36)

為了避免各變數的尺度差異太大,因此將所有的變數分季以「排序正規化」

轉成「相對變數」。即每個變數都分季由小至大而排序,該季最大者其排序值 Rank=1;最小者 Rank=0,其餘依此內插。

3-3 結果

3-3-1 迴歸分析

迴歸分析(Regression Analysis, RA)的結果之表現如表 3-2,散佈圖如圖 3-6(訓練期間)、圖 3-7(測試期間),t 統計量如圖 3-8。由結果可以得知,所訓練 出來的模型以測試範例來測試,結果誤差均方根、相關係數均比訓練期間差許 多,這顯示樣本內與樣本外在此模型預測中的差異,這顯示模型有過度配適 (overfitting)現象,其原因可能是隱藏在樣本內資料的模型與隱藏在樣本外資料 的模型可能有相當的差異。以t 統計量觀察而得知,股價(Price)是具有強烈反向 的影響性的,而正比影響性為 ROE 與 BPR 為明顯。因股價的強烈影響性,所 以股價為影響回歸分析模型的重要因素。

3-2 迴歸分析的多年模式結果

誤差均方根 相關係數

訓練期間 測試期間 訓練期間 測試期間 0.278618 0.292145 0.272029 0.1081665

(37)

圖3-6 迴歸分析的多年的散佈圖

(

訓練期間

)

圖3-7 迴歸分析的多年的散佈圖

(

測試期間

)

(38)

表3-3 迴歸分析的迴歸

t

統計量

自變數 t 統計

報酬率 Return(t) 2.4644 風險因子 Beta -3.5521 股東權益報酬率 ROE 3.7884

市值 MV 0.1615

股票價格 Price -19.0374 淨值股價比 BPR 2.7849 盈餘股價比 EPR -1.2606 成長價值比 GVR -0.5583

3-3-2 倒傳遞網路

本小節以倒傳遞網路來建立預測模型並且探討之,下面表 3-4 有九組參數 表示,由隱藏單元數為(3, 5, 10)、學習速率為(0.1, 0.3, 1.0)與學習循環為 1000 而 組成的九組參數。由表3-3 可以觀察出下面兩點:

• 當學習速率為 0.1 時,無論在訓練期間與測試期間,其誤差均方根都在其 相同的隱藏單元數裡表現佳,而變數之間的相關性也高。

• 若在學習速率為 0.1 時,在下面各組的比較,則隱藏單元數為 10 的時候,

無論在訓練與測試期間其誤差均方根為最小,變數之間的相關性也最高。

由上面兩點,當隱藏單元數多與學習速率低的時候,在誤差均方根與相關係數 都表現較佳,然而學習循環數是否也會控制著倒傳遞網路所建立的選股預測模 型。

表3-4 倒傳遞網路

(BPN)

的多年模式結果

參數 誤差均方根 相關係數

編號 隱藏單元數 學習速率 學習循環數 訓練期間 測試期間 訓練期間 測試期間 1 3 0.1 1000 0.27928 0.29183 0.26796 0.10863 2 3 0.3 1000 0.27928 0.29184 0.26777 0.10817 3 3 1 1000 0.27929 0.29186 0.26777 0.10817 4 5 0.1 1000 0.27907 0.29146 0.26944 0.11136

(39)

5 5 0.3 1000 0.27908 0.29149 0.26944 0.11091 6 5 1 1000 0.27891 0.29116 0.27074 0.11358 7 10 0.1 1000 0.27879 0.29089 0.27148 0.11489 8 10 0.3 1000 0.2788 0.29091 0.27148 0.11489 9 10 1 1000 0.27882 0.29098 0.27129 0.11446

本研究將表3-4 的最佳結果(隱藏單元數為 10 個隱藏單元,學習速率為 0.1) 繪製測試期間之散佈圖,其結果如圖 3-8,可以觀察出,美國股票市場在西元 2004~2007 年間經過倒傳遞網路(BPN)最佳參數所跑出來的數據能解釋的比例 為1.32%。

本研究分析表 3-4 這九組預測模型,將每個模型在訓練期間已經趨近最佳 的誤差均方根的學習循環數再做建立模型的測試,如下表3-5 所示。可以發現,

在此表現最佳的也是第七組(隱藏單元數為 10 個隱藏單元,學習速率為 0.1),其 學習循環數為150,表示這組選股預測模型在學習循環數為 150 次時已達收斂,

且其誤差均方根無論在訓練或測試期間都達最低,變數之間的相關性也高。

(40)

表3-5 倒傳遞網路

(BPN)

的多年模式結果

-

訓練期間之最佳學習循環數為主

參數 誤差均方根 相關係數

編號 隱藏單元數 學習速率 學習循環數 訓練期間 測試期間 訓練期間 測試期間 1 3 0.1 60 0.27916 0.29101 0.26758 0.11402 2 3 0.3 40 0.27903 0.29112 0.26907 0.11314 3 3 1 50 0.27903 0.2911 0.26907 0.11314 4 5 0.1 130 0.27891 0.2909 0.27019 0.11489 5 5 0.3 40 0.27891 0.29091 0.27019 0.11446 6 5 1 200 0.27909 0.29151 0.26944 0.11091 7 10 0.1 150 0.27877 0.29061 0.27129 0.11705 8 10 0.3 150 0.27879 0.29074 0.27129 0.11619 9 10 1 180 0.27883 0.29097 0.27129 0.11489

3-3-3 迴歸樹

迴歸樹(RT)有二個重要參數:

„ 樹葉最小樣本數:是指分枝所含訓練範例數的預設門檻值,若分枝所含訓練 範例數目小於此門檻值,則結束此分支。

„ 樹葉最小標準差:是指分枝所含訓練範例因變數標準差的預設門檻值,若分 枝所含訓練範例變數中的標準差小於此預設標準差,則結束此分支。

本章節以樹葉最小樣本樹為300, 500 與 1000 為參數,樹葉最小標準差的參 數設為0.2,共組成三組參數,如表 3-6 所示。由表 3-6 可以看的出來,在訓練 期間的誤差均方根表現比較好的有編號1, 2 這兩組,但在測試期間則是編號 2, 3 這兩組。由此可知,編號 2 也就是樹葉最小樣本數為 500 與樹葉最小標準差為 0.2 這組在此是表現比較優異的,但其實這三個組別的誤差均方根不論是在訓練 期間或是測試期間,表現都相差不遠。因為避免過度學習的問題,所以本研究 選擇參數為樹葉最小樣本數為1000 與樹葉最小標準差為 0.2 繪製迴歸樹,如圖 3-10。

(41)

表3-6 迴歸樹

(RT)

的多年模式結果

在迴歸樹的樹葉中迴歸的平均值大於 0.5 的所有樹葉中,訓練範例樣本多 (至少佔 1/10 訓練範例以上),且其第 t 季報酬率被迴歸的平均值大於 0.5 中最高 者為「最佳樹葉」。從圖3-9 可以得知,第二層最左邊的樹葉最佳,其訓練期間 平均值為0.66,筆數為 754 筆、測試期間的平均值為 0.56,筆數為 700 筆,均 為最佳的平均報酬率,高於訓練範例總筆數的1/10 約 746 筆。

原本的規則:

If 股價 Rank < 0.3 And 股價 Rank < 0.1 簡化後的規則:

If 股價 Rank < 0.1

Then 第 t+3 季報酬率平均值:

訓練期間:0.66 (訓練範例 754 筆) 測試期間:0.56 (測試範例 700 筆)

相同道理,迴歸樹的樹葉中迴歸的平均值小於 0.5 的,訓練範例樣本多(至 少佔訓練範例1/10 以上),而且其第 t 季報酬率被迴歸的平均值小於 0.5 最低值 者為「最差樹葉」。可以由圖3-9 可以得知,最下方最右邊第一個樹葉最差,其 訓練期間的平均值為 0.35、筆數為 289 筆,測試期間的平均值為 0.41、筆數為 327 筆。

參數 誤差均方根

編號 樹葉最小樣本數 樹葉最小標準差 訓練期間 測試期間

1 300 0.2 0.277 0.293

2 500 0.2 0.277 0.292

3 1000 0.2 0.278 0.292

(42)

原本的規則:

If 股價 Rank > 0.3 And 股價 Rank > 0.8

And β 風險因子 Rank < 0.85 And 股價 Rank > 0.95

簡化後的規則:

If 股價 Rank > 0.95

And β 風險因子 Rank < 0.85 Then 第 t+3 季報酬率平均值:

訓練期間:0.35 (訓練範例 289 筆) 測試期間:0.41 (測試範例 327 筆)

圖3-9迴歸樹

(RT)

的多年的樹狀圖

(

樹葉最小樣本數

:1000;

樹葉最小標準差

:0.2)

(43)

圖3-10迴歸樹

(RT)

的多年的散佈圖

由表 3-6 中的最佳結果繪製散佈圖(圖 3-10),由圖得知,美國股票市場在 2004 年至 2007 年中,經由迴歸樹(RT)以最佳參數所建立出來的預測模型,產生 的模型可解釋1.13%的數據變異。

在上述的迴歸樹模型規則中,幾乎是以 X5(股價)控制樹的走向,若將資料 集裡自變數中的X4(市值)與 X5(股價)刪除,在利用迴歸探勘建立迴歸樹選股模 型,使用的參數與上述的參數一樣,結果如表3-7。在訓練期間的誤差均方根表 現比較好的有編號1 這組,但在測試期間則是編號 2, 3 這兩組,因為這兩組中 以第2 組的表現佳,所以選擇編號 2 這組(樹葉最小樣本數為 500 與樹葉最小標 準差為0.2)為探討的模型並繪製迴歸樹,如圖 3-11。

(44)

表3-7迴歸樹

(RT)

的多年模式結果

-

無自變數

X4

X5

因為建立模型所使用的資料變數不同,因此其規則也不同,若以迴歸樹中 表現優異的末梢節點,為左邊樹中右下角的樹葉節點為「樹葉最佳」,訓練期間 的平均值為 0.62。而「樹葉最差」為右邊樹葉最左邊底層,訓練期間的平均值 為0.36。其規則如下:

「樹葉最佳」的規則:

If β 風險因子 Rank < 0.85 And GVR Rank > 0.9 And E/P Rank > 0.95

Then 第 t+3 季報酬率平均值:

訓練期間:0.62 (訓練範例 246 筆) 測試期間:0.51 (測試範例 211 筆)

「樹葉最差」的規則:

If β 風險因子 Rank > 0.85 And BPR Rank < 0.3 And Return(t) Rank < 0.6 Then 第 t+3 季報酬率平均值:

訓練期間:0.36 (訓練範例 179 筆) 測試期間:0.46 (測試範例 154 筆)

參數 誤差均方根

編號 樹葉最小樣本數 樹葉最小標準差 訓練期間 測試期間

1 300 0.2 0.285 0.293

2 500 0.2 0.286 0.292

3 1000 0.2 0.287 0.292

(45)

圖3-11迴歸樹

(RT)

的多年的樹狀圖

(

樹葉最小樣本數

:500;

樹葉最小標準差

:0.2)

由表 3-7 中的最佳結果繪製散佈圖(圖 3-12),由圖得知,美國股票市場在 2004 年至 2007 年中在自變數不同的情況下,經由迴歸樹(RT)以最佳參數所建立 出來的預測模型,產生的模型可解釋0.002%的數據變異。

(46)

圖3-12迴歸樹

(RT)

的多年的散佈圖

-

無自變數

X4

X5 3-3-4 小結

經過上面三個迴歸模型可以得到下面的結論:

• 表現較好的迴歸探勘演算法為倒傳遞網路(BPN),其最佳參數為隱藏單元數 為 10 個隱藏單元,學習速率為 0.1 且學習循環數為 150 個學習循環,BPN 測試範例的誤差均方根為0.29061。

• 剩下兩個迴歸探勘演算法為迴歸分析(Regression Analysis, RA)、迴歸樹 (RT),這兩個演算法的誤差均方根均為 0.292。

在自變數沒有 X4(市值)與 X5(股價)的情況之下,以迴歸樹所建立的預測模 型表現較差,有嚴重的過度學習現象。

(47)

3-4 選股效益比較

為評估迴歸分析、倒傳遞網路與迴歸樹的績效,BPN 與 RT 的參數設定如 下:

• 迴歸樹(RT):樹葉最小樣本數為 1000 與樹葉最小標準差為 0.2。

• 倒傳遞網路(BPN):隱藏單元數為 10,學習速率為 0.1 且學習循環數為 150。

將迴歸分析(RA)、迴歸樹(RT)與倒傳遞網路(BPN)做比較,其累計資金的結 果,如表3-8 與圖 3-13 所示。雖然後面的幾季累計資金是往下掉的,但可以發 現,若忽略第39 與 40 季,表現較好的為各個方法排序最大的 1/5,而較差的則 為排序最小的1/5。由此可知

(1) 使用迴歸探勘可以提高選股的報酬率。倒傳遞網路(BPN)的表現優於迴歸樹 (RT),有此可知,類神經網路的學習所建立的預測模型會比決策樹來的優異。

(2) 依迴歸探勘的報酬 Rank 值預測值排序最大的 1/5 遠比最小的 1/5 有更大的 報酬率,可見迴歸探勘所建立的預測模型可以區隔報酬率高與低的股票。

0 0.5 1 1.5 2 2.5 3

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 季(測試期間)

計資金(元)

RA-小1/5 RA-大1/5 BPN-小1/5 BPN-大1/5 RT-小1/5 RT-大1/5 市場曲線

註: 累計資金由第 24 季季初時投資 1 塊錢開始計算

圖3-13選股效益之累計資金與

RT/BPN

比較

(48)

表3-8 選股效益之累計資金與

RT/BPN

比較

RA BPN RT 最小1/5 最大 1/5 最小 1/5 最大 1/5 最小 1/5 最大 1/5

季編號 (以 t 為準)

實際投資 年季(註)

1 1 1 1 1 1 24 2004/Q3 1.003 1.061 0.999 1.057 0.997 1.063 25 2004/Q4 1.033 1.169 1.043 1.17 1.041 1.168 26 2005/Q1 1.05 1.296 1.06 1.29 1.068 1.278 27 2005/Q2 1.048 1.392 1.062 1.392 1.08 1.368 28 2005/Q3 1.084 1.58 1.099 1.581 1.116 1.544 29 2005/Q4 1.115 1.734 1.159 1.737 1.154 1.683 30 2006/Q1 1.161 1.92 1.208 1.933 1.194 1.855 31 2006/Q2 1.178 2.033 1.218 2.039 1.209 1.945 32 2006/Q3 1.197 2.09 1.232 2.098 1.22 1.985 33 2006/Q4 1.255 2.254 1.301 2.264 1.293 2.146 34 2007/Q1 1.317 2.394 1.376 2.423 1.369 2.28 35 2007/Q2 1.37 2.536 1.431 2.554 1.429 2.426 36 2007/Q3 1.426 2.596 1.482 2.64 1.477 2.492 37 2007/Q4 1.448 2.486 1.499 2.537 1.489 2.4 38 2008/Q1 1.399 2.384 1.439 2.42 1.431 2.3 39 2008/Q2 1.345 2.124 1.367 2.156 1.36 2.027 40 2008/Q3 1.319 1.858 1.206 1.823 1.324 1.773 註: 為報酬計算截止的時間

3-5 結語

本章節所探討的重點有三個:

(1) 單自變數排序之比較。

(2) 單一迴歸模型之比較。

(3) 比較選股效益。

經過上面各節的實驗與分析後,可以發現下面各點結論:

(1) 若以單自變數排序,以報酬率平均值來看,有小市值與低價股的效應。在 Sharpe 指標方面,每個自變數的影響就較明顯,反比者有股價、市值;正比

(49)

者有淨值股價比、盈餘股價比、成長價值報酬率。以報酬率Rank 平均值看 得出來,具有小型股及低價股的效應,此外淨值股價比、成長價值報酬率明 顯成正比,但盈餘股價比的影響不明顯。

(2) 而單一迴歸模型的結果,以倒傳遞網路(BPN)所建立的選股預測模型比其他 兩個迴歸模型表現較佳,誤判均方根比較低。

(3) 而以選股效益的結果,以迴歸探勘所建立的選股模型,可以提高報酬率,其 中以倒傳遞網路(BPN)的表現最佳。

參考文獻

相關文件

An Analysis of the January Effect of the United State, Taiwan and South Korean Stock Market, Asia Pacific Journal of Management, 9,

Wallace (1989), &#34;National price levels, purchasing power parity, and cointegration: a test of four high inflation economics,&#34; Journal of International Money and Finance,

Mendenhall ,(1992), “The relation between the Value Line enigma and post-earnings-announcement drift”, Journal of Financial Economics, Vol. Smaby, (1996),“Market response to analyst

Briefing Session on the Initial Recommendations for the Ultimate Way Forward of the Business, Accounting and Financial Studies (BAFS) Curriculum and Assessment Event Date &amp;

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

Financial Analysis (i) Calculate ratios and comment on a company’s profitability, liquidity, solvency, management efficiency and return on investment: mark-up, inventory

Administrative Science Quarterly Journal of Accountingand Economics Journal of Accounting Research Journal of Applied Psychology Journalof Financial Economics.. Journal of Finance

Sharma (1999), “An Intergrated Machine Vision Based System for Solving the Non-Covex Cutting Stock Problem Using Genetic Algorithms,” Journal of Manufacturing Systems, Vol..