• 沒有找到結果。

單一迴歸模型

在文檔中 中 華 大 學 (頁 30-50)

3-1 前言

本研究使用三種迴歸探勘技術,以基本面的公司財務比率為主要因子,建 立股票報酬率預測模型。本章所使用的三種迴歸演算法之介紹如下:

1. 迴歸分析(Regression Analysis, RA)

是一種基於「最小誤差平方和」原理的迴歸技術。迴歸分析的優點是可以 產生簡明的迴歸公式;缺點是不易處理自變數的非線性效果,以及自變數之間 的交互作用效果。

2. 倒傳遞網路(Back-Propagation Network, BPN)

是一種基於「最小誤差平方和」原理,由生物神經網路所啟發的計算系統。

雖然它與邏輯迴歸的原理相似,但它的架構中具有隱藏層概念,因此它的優點 是可以處理自變數的非線性效果,以及自變數之間的交互作用效果;缺點是不 易產生簡明的分類機率公式。類神經網路是一種計算系統,包括軟體與硬體,

它使用大量簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是 生物神經元的簡單模擬,它從外界環境或者其他人工神經元取得資訊,並加以 非常簡單的運算,並輸出其結果到外界環境或者其他人工神經元。

3. 迴歸樹(Regression Tree, RT)

是一種基於「最小不純度」原理的分類技術。它以樹狀結構來表示分類模 式,其中包含了枝幹(branch)與節點(nodes)。枝幹表示所對應的屬性值。節點分 為內部節點(interior nodes)與末梢節點(terminal nodes),內部節點表示在做分類 時所依據的屬性;末梢節點表示最後分類的類別。分類樹的建構過程是從樹根 (樹根屬於內部節點)開始,對所有內部節點選擇一個能使分類不純度最小化的屬 性做為內部節點,直到分枝內的分類「純化」為止,形成末梢節點。當分類樹 的末端都是末梢節點時即完成分類樹。分類樹的優點是可以產生簡明的分類規

則,可以處理自變數的非線性效果,以及自變數之間的交互作用效果,缺點是 不易考慮次要但仍有影響的因子,因此準確度較差。

本章以下面四個小節來說明與探討:

第 2 節:資料來源。說明資料如何的收集,其來源與期間以及這些收集的 資料如何做前處理,且定義各個自變數與因變數和選擇其變數的原因。

第 3 節:結果。將經過前處理後的資料,以不同的參數運用迴歸分析(RA)、

倒傳遞網路(BPN)、迴歸樹(RT)這三種模型產生預測值,並以各個模型之預測值 產生散佈圖及各季的誤差均方根,且將其結果進行分析、評論,藉以其分析與 評論找出最佳的預測模型。

第 4 節:選股的效益與比較。探討所建的預測模型是否可提高投資績效,

本研究以三種選股策略來評價各選股模型的績效。

第 5 節:結語。本章的總結論及建議。

3-2 資料來源

本研究所使用的資料取自COMPUSTAT 資料庫,而收集資料的規則如下:

• 範圍:美國標準普爾 500 指數成份股(S&P 500)。

• 期間:1998 年至 2007 年,共有 40 季。

• 變數:8 個自變數與 1 個因變數。

本研究將收集來的資料加以整理,因為第一季的變數資料缺值太多,刪除 不用,最後總共有39 季的資料可以使用。訓練範例期間為第 2~23 季,即 1998 年的第三季至2003 年的第四季,共 7459 筆資料數。測試範例期間為 24~40 季,

相當於2004 年第一季至 2007 年第四季,共 6936 筆資料數。

本研究所討論的自變數有 8 個,選取這 8 個變數的原因是參考五類可能影 響報酬率的因子:

z 風險因子:Beta 值(Beta, β)

z 成長價值因子:股東權益報酬率(Return on Equity, ROE)、淨值股價比 (BRP)、成長價值報酬率(GVR)、盈餘股價比(Earnings Yield)

z 規模因子:市值(Market Value, MV) z 流動性因子:股票價格(Price-Close) z 動能因子:第 t 季報酬率

因此自變數X1~X8 定義如下:

X1 (第 t 季報酬率):為個股在股票市場第 t 季的年報酬率。

X2 (ß 風險因子):依據資本資產訂價模型(Sharpe, 1964),ß 值越高,所能獲得的 風險溢酬越高。

X3 (股東權益報酬率):即每股盈餘/每股淨值。又稱為股東權益報酬率(ROE),

代表在某一段時間內,公司利用股東權益為股東所創造的利潤。

X4 (市值):為個股在股票市場的總市值。Fama and French (1993)指出規模小的 公司股票報酬率可能較高。

X5 (股價):為個股在季底的每股收盤價格。

X6 (淨值股價比):即每股淨值/每股股價。Fama and French (1993)指出淨值股價 比越大代表股價相對便宜,潛在的股票報酬率可能較高。

X7 (盈餘股價比):即每股盈餘/每股股價。

X8 (成長價值報酬率, GVR):為葉怡成(2008)提出的一個財務指標。

在美國,公司可公告財務季報的期間原本為45 天,但美國證管( SEC)會因 安隆弊案規定自2006 年 6 月起,公司可公告財務季報期間縮短為 30 天。因為 當第t 季財務報表公告的時間在 t+1 季的第一個月,已經超過可以在 t+1 季投資 的時間點,所以本研究在第t+2 季時開始投資。然而原本在第 t+2 季結束時就可 以計算報酬率,但因為X1 (第 t 季報酬率)自變數之定義計算為 6 個月的報酬率,

為避免先視偏差,本研究設定的持有期為第t+3 季,因此因變數為第 t+3 季之年 報酬率。

圖3-1 因變數計算期間

在本章節,除了上述之資料來源,還將所收集到的資料加以整理排序,將 測試範例以單自變數分季由小而大排序,觀察若以單一自變數排序對於因變數 (t+3 季報酬率)之影響與其重要性。本研究將每季的因變數分為五等份,分別算 出其第t+3 季報酬率平均值、標準差、Sharpe 值,如圖 3-2~3-4。

以報酬率平均值來看(圖 3-2 所示),有明顯的低價股效應、規模效應。其 餘變數的影響並不明顯。而若以報酬率的標準差(圖 3-3 所示)看來,顯然低價股 與高beta 股有很高的風顯。而在 Sharpe 指標方面,每個自變數的影響就較明顯,

反比者有股價、市值;正比者有淨值股價比、盈餘股價比、成長價值報酬率。

0 10 20 30 40 50 60

R et ur n( t) Be ta RO E MV Pr ic e BP R EP R GVR

報酬率平均值

圖3-2 不同因子在五等分下的第

t+3

季報酬率平均值

0 50 100 150 200

Return(t) Beta ROE MV Price BPR EPR GVR

報酬率標準差

圖3-3 不同因子在五等分下的第

t+3

季報酬率標準差

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

Return(t) Beta ROE MV Price BPR EPR GVR

Sharpe指標

圖3-4 不同因子在五等分下的第

t+3

Sharpe

指標

為了避免少數獲利極大或損失極大的季節影響到績效評估的可信度,再將 每季的因變數分為五等份,分別算出其第t+3 季報酬率的 Rank 值的平均值,如 圖 3-5。因為避免原始值太大的差距,可能會因一支巨型股就可以壓倒數支股 票,所以本研究使用Rank 值。而由圖 3-5 可以得知,以報酬率 Rank 平均值看 得出來,具有小型股及低價股的效應,此外淨值股價比、成長價值報酬率明顯 成正比,但盈餘股價比的影響不明顯。

0.4 0.45 0.5 0.55 0.6

Return(t) Beta ROE MV Price BPR EPR GVR

報酬率Rank平均值

圖3-5 不同因子在五等分下的第

t+3

季報酬率平均值

以相關係數與陣(如表 3-1)觀察可得知,淨值股價比(BPR)與股東權益報酬 率(ROE)的相關係數為-0.57,這驗證了若公司 ROE 比較大,市場會給該公司股 票較高的PBR,即較低的 BPR,因此 ROE 與 BPR 成反比。成長價值報酬率(GVR) 是由 ROE 與 BPR 計算得到的數值,與二者均成正比,但因 ROE 與 BPR 成反 比,因此GVR 與 BPR 的相關係數高達 0.83,但與 ROE 的相關係數為-0.14。股 價(Price)與市值(MV)的相關係數達 0.43,因為市值的定義與股價有相關性,若 股價高則市值也會高。

表3-1相關係數矩陣

Return(t) Beta ROE MV Price BPR EPR GVR Rank(Y )

Return(t) 1.00

Beta 0.03 1.00

ROE 0.03 -0.16 1.00

MV 0.03 0.00 0.20 1.00 Price 0.10 -0.17 0.26

0.43

1.00

BPR -0.20 -0.03

-0.57

-0.26 -0.24 1.00 EPR -0.18 -0.24

0.39

-0.04 0.08 0.34 1.00

GVR -0.21 -0.15 -0.14 -0.19 -0.12 0.83

0.67

1

Rank(Y) 0.03 -0.02 -0.02 -0.09 -0.19 0.07 0.03 0.07 1

為了避免各變數的尺度差異太大,因此將所有的變數分季以「排序正規化」

轉成「相對變數」。即每個變數都分季由小至大而排序,該季最大者其排序值 Rank=1;最小者 Rank=0,其餘依此內插。

3-3 結果

3-3-1 迴歸分析

迴歸分析(Regression Analysis, RA)的結果之表現如表 3-2,散佈圖如圖 3-6(訓練期間)、圖 3-7(測試期間),t 統計量如圖 3-8。由結果可以得知,所訓練 出來的模型以測試範例來測試,結果誤差均方根、相關係數均比訓練期間差許 多,這顯示樣本內與樣本外在此模型預測中的差異,這顯示模型有過度配適 (overfitting)現象,其原因可能是隱藏在樣本內資料的模型與隱藏在樣本外資料 的模型可能有相當的差異。以t 統計量觀察而得知,股價(Price)是具有強烈反向 的影響性的,而正比影響性為 ROE 與 BPR 為明顯。因股價的強烈影響性,所 以股價為影響回歸分析模型的重要因素。

3-2 迴歸分析的多年模式結果

誤差均方根 相關係數

訓練期間 測試期間 訓練期間 測試期間 0.278618 0.292145 0.272029 0.1081665

圖3-6 迴歸分析的多年的散佈圖

(

訓練期間

)

圖3-7 迴歸分析的多年的散佈圖

(

測試期間

)

表3-3 迴歸分析的迴歸

t

統計量

自變數 t 統計

報酬率 Return(t) 2.4644 風險因子 Beta -3.5521 股東權益報酬率 ROE 3.7884

市值 MV 0.1615

股票價格 Price -19.0374 淨值股價比 BPR 2.7849 盈餘股價比 EPR -1.2606 成長價值比 GVR -0.5583

3-3-2 倒傳遞網路

本小節以倒傳遞網路來建立預測模型並且探討之,下面表 3-4 有九組參數 表示,由隱藏單元數為(3, 5, 10)、學習速率為(0.1, 0.3, 1.0)與學習循環為 1000 而 組成的九組參數。由表3-3 可以觀察出下面兩點:

• 當學習速率為 0.1 時,無論在訓練期間與測試期間,其誤差均方根都在其 相同的隱藏單元數裡表現佳,而變數之間的相關性也高。

• 若在學習速率為 0.1 時,在下面各組的比較,則隱藏單元數為 10 的時候,

無論在訓練與測試期間其誤差均方根為最小,變數之間的相關性也最高。

由上面兩點,當隱藏單元數多與學習速率低的時候,在誤差均方根與相關係數 都表現較佳,然而學習循環數是否也會控制著倒傳遞網路所建立的選股預測模 型。

表3-4 倒傳遞網路

(BPN)

的多年模式結果

參數 誤差均方根 相關係數

編號 隱藏單元數 學習速率 學習循環數 訓練期間 測試期間 訓練期間 測試期間 1 3 0.1 1000 0.27928 0.29183 0.26796 0.10863 2 3 0.3 1000 0.27928 0.29184 0.26777 0.10817 3 3 1 1000 0.27929 0.29186 0.26777 0.10817 4 5 0.1 1000 0.27907 0.29146 0.26944 0.11136

5 5 0.3 1000 0.27908 0.29149 0.26944 0.11091 6 5 1 1000 0.27891 0.29116 0.27074 0.11358 7 10 0.1 1000 0.27879 0.29089 0.27148 0.11489 8 10 0.3 1000 0.2788 0.29091 0.27148 0.11489 9 10 1 1000 0.27882 0.29098 0.27129 0.11446

本研究將表3-4 的最佳結果(隱藏單元數為 10 個隱藏單元,學習速率為 0.1) 繪製測試期間之散佈圖,其結果如圖 3-8,可以觀察出,美國股票市場在西元 2004~2007 年間經過倒傳遞網路(BPN)最佳參數所跑出來的數據能解釋的比例 為1.32%。

本研究分析表 3-4 這九組預測模型,將每個模型在訓練期間已經趨近最佳 的誤差均方根的學習循環數再做建立模型的測試,如下表3-5 所示。可以發現,

在此表現最佳的也是第七組(隱藏單元數為 10 個隱藏單元,學習速率為 0.1),其 學習循環數為150,表示這組選股預測模型在學習循環數為 150 次時已達收斂,

且其誤差均方根無論在訓練或測試期間都達最低,變數之間的相關性也高。

表3-5 倒傳遞網路

(BPN)

的多年模式結果

-

訓練期間之最佳學習循環數為主

參數 誤差均方根 相關係數

編號 隱藏單元數 學習速率 學習循環數 訓練期間 測試期間 訓練期間 測試期間 1 3 0.1 60 0.27916 0.29101 0.26758 0.11402 2 3 0.3 40 0.27903 0.29112 0.26907 0.11314 3 3 1 50 0.27903 0.2911 0.26907 0.11314 4 5 0.1 130 0.27891 0.2909 0.27019 0.11489 5 5 0.3 40 0.27891 0.29091 0.27019 0.11446 6 5 1 200 0.27909 0.29151 0.26944 0.11091 7 10 0.1 150 0.27877 0.29061 0.27129 0.11705 8 10 0.3 150 0.27879 0.29074 0.27129 0.11619 9 10 1 180 0.27883 0.29097 0.27129 0.11489

3-3-3 迴歸樹

迴歸樹(RT)有二個重要參數:

„ 樹葉最小樣本數:是指分枝所含訓練範例數的預設門檻值,若分枝所含訓練 範例數目小於此門檻值,則結束此分支。

„ 樹葉最小標準差:是指分枝所含訓練範例因變數標準差的預設門檻值,若分 枝所含訓練範例變數中的標準差小於此預設標準差,則結束此分支。

本章節以樹葉最小樣本樹為300, 500 與 1000 為參數,樹葉最小標準差的參 數設為0.2,共組成三組參數,如表 3-6 所示。由表 3-6 可以看的出來,在訓練 期間的誤差均方根表現比較好的有編號1, 2 這兩組,但在測試期間則是編號 2, 3 這兩組。由此可知,編號 2 也就是樹葉最小樣本數為 500 與樹葉最小標準差為 0.2 這組在此是表現比較優異的,但其實這三個組別的誤差均方根不論是在訓練 期間或是測試期間,表現都相差不遠。因為避免過度學習的問題,所以本研究 選擇參數為樹葉最小樣本數為1000 與樹葉最小標準差為 0.2 繪製迴歸樹,如圖 3-10。

表3-6 迴歸樹

(RT)

的多年模式結果

在迴歸樹的樹葉中迴歸的平均值大於 0.5 的所有樹葉中,訓練範例樣本多 (至少佔 1/10 訓練範例以上),且其第 t 季報酬率被迴歸的平均值大於 0.5 中最高 者為「最佳樹葉」。從圖3-9 可以得知,第二層最左邊的樹葉最佳,其訓練期間 平均值為0.66,筆數為 754 筆、測試期間的平均值為 0.56,筆數為 700 筆,均 為最佳的平均報酬率,高於訓練範例總筆數的1/10 約 746 筆。

原本的規則:

If 股價 Rank < 0.3 And 股價 Rank < 0.1 簡化後的規則:

If 股價 Rank < 0.1

Then 第 t+3 季報酬率平均值:

訓練期間:0.66 (訓練範例 754 筆) 測試期間:0.56 (測試範例 700 筆)

相同道理,迴歸樹的樹葉中迴歸的平均值小於 0.5 的,訓練範例樣本多(至 少佔訓練範例1/10 以上),而且其第 t 季報酬率被迴歸的平均值小於 0.5 最低值 者為「最差樹葉」。可以由圖3-9 可以得知,最下方最右邊第一個樹葉最差,其 訓練期間的平均值為 0.35、筆數為 289 筆,測試期間的平均值為 0.41、筆數為 327 筆。

參數 誤差均方根

編號 樹葉最小樣本數 樹葉最小標準差 訓練期間 測試期間

1 300 0.2 0.277 0.293

2 500 0.2 0.277 0.292

3 1000 0.2 0.278 0.292

在文檔中 中 華 大 學 (頁 30-50)

相關文件