• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
73
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:以分類與關聯分析建立選股模型─台灣 股市之實證研究

Building Stock Selection Models Using Classification and Association

Approaches - An Empirical Research on Taiwan Stock Market

系 所 別:資訊管理學系碩士班 學號姓名:M09610006 侯宏孺 指導教授:葉怡成 博士

中 華 民 國 九十八 年 八 月

(2)

摘要

本研究使用分類探勘及關聯探勘兩種方法建立選股模型。模型的自變數為個 股的13 個每季的基本面或市場面指標,包括第 t 季的季報酬率、ß 風險因子、負 債權益比、股東權益報酬率、成交量、周轉率、市值、股價、淨值股價比、每股 淨值、益本比、成長價值報酬率、修正成長價值報酬率,因變數為個股的第t+2 季的季報酬率,以反應上市公司每季財報公佈時間與財報內容時間的約一季的落 差。所採用的資料為台灣股市製造業上市公司1996 年第一季~2007 年第三季共 47 季。以前 24 季共 7638 筆資料為訓練範例,以後 23 季共 9838 筆資料為測試 範例。分類探勘使用邏輯迴歸、倒傳遞網路、分類樹三種演算法;關聯探勘使用 Apriori 演算法。總結如下,以下報酬率以平均值(±標準差)表示:(1) 選股模型績 效最佳的分類演算法為倒傳遞網路,在測試期間季報酬率為6.85% (±20.64%);

(2) 關聯分析的選股模型在測試期間季報酬率為 6.84%(±26.57%);(3)上述兩種選 股模型均優於不採任何選股模型的大盤整體季報酬率4.74%(±22.35%)。

關鍵詞:資料探勘、倒傳遞網路、分類樹、關聯分析、股票、基本面

(3)

Abstract

This study employed two kinds of data mining method and thirteen fundamental and market quarter indicators of stock to build the stock selection model. The data mining methods included classification analysis and association analysis; indicators included the current quarter return rate, ß risk factor, debt to equity ratio (D/E), return on equity (ROE), trade volume, turnover ratio, market value, stock price, book value, book value to market value ratio (B/M), earnings per share to price ratio (E/P), growth-value rate (GVR), and modified GVR. The dependent variable is the t+2 quarter return rate of individual stock. Using the t+2 quarter return rate as the dependent variable is to reflect the one quarter time lag of the quarter finance report of company. Data were collected from the first quarter of 1996 to the third quarter of 2007 (total 47 quarters) for the companies listed in Taiwan stock market. The first 24 quarters (total 7638 data) were used as the training examples, and the latter 23 quarters (total 9838 data) were used as the testing examples. The classification analysis methods included logistic regression, back-propagation network (BPN), and classification tree; the association analysis used the Aporiori algorithm associated with two-segmentation variables. The results showed that the mean (± standard deviation) of quarter return rate of testing period: (1) The best classification algorithm is BPN, obtaining 6.85% ± 20.64% quarter return rate; (2) The association analysis obtained 6.84% ± 26.57% quarter return rate; (3) These two approaches were much better than the market quarter return rate 4.74% ± 22.35%.

Key words: data mining, back-propagation network, classification tree, association analysis, stock, fundamentals.

(4)

誌謝

回顧在研究所的求學期間,首先要感謝我的指導老師 葉怡成教授,一直以 來,老師皆很有耐心與用心地教導我一步步的學習與成長,不論在前期專業知識 上的養成,或者是後期的論文研究上,都給予我很大的幫助、引導與支持,讓我 在完成論文的過程中獲益良多;老師不論在於學識方面或品格方面皆是我最佳的 學習對象,在待人處事方面,老師也時常與我們分享許多故事、生活時事來間接 教導我們許多不同的思考方式、良好的價值觀與正確的態度,所以不論在專業研 究上以及待人處事的觀念,老師不僅是我的良師,更是益友,誠心感謝老師給予 我的教導!

另外也要感謝 彭宗和老師,教導我許多精闢的管理面專業知識之外,更從 老師身上學習到許多獨特的思維與實務技巧,讓我得到許多啟發,還要感謝 高 玉芬老師,感謝您從我大學的求學期間開始的教導、支持與鼓勵,非常感謝兩位 老師的教導。

再來要特別感謝 李堯賢教授與 陳建文專家在百忙之中撥冗細閱,指導我的 論文口試,並給予我許多寶貴的意見,讓我學習到論文寫作中過去所沒有的思考 面向,論文的修改過程中亦因此讓我有所精進,也使我的論文更臻完善。也感謝 中華資管系這個大家庭的所有優秀的老師,在研究所的求學期間裡從老師們那邊 學到了非常多且寶貴的專業知能,使我成長不少,亦讓我對我的未來充滿信心,

無所畏懼。

在此還要感謝逸芸學姐、謹豪學長、兆瑜學長、夏暘學長與萬鈞學長,還有 研究所的同學們宜眞、逸瑋、澄宇、鈞毅以及學弟妹凱鴻、昇岳、學駿、峻維、

佩玲,在求學過程中,因為有你們的幫助與陪伴,使得我的研究所生涯中,可以 順利完成論文之外,更添加許多美好的回憶。

最後感謝我的家人,親愛的爸爸、媽媽以及哥哥、弟弟,因為有你們無私的 付出與全力支持,還要特別感謝我最親愛的綺韻,一路上幫我加油打氣與鼓勵,

陪我度過每個艱難的關卡,讓我時時刻刻充滿著努力的信心,才讓我有機會完成 研究所的學位,非常感謝你們,謹將此論文獻給你們,一起分享我這份得來不易 的榮耀。

(5)

目錄

摘要...i

Abstract ...ii

目錄...iv

圖目錄...vi

表目錄...vii

第一章 前言...1

1-1 研究目的...1

1-2 研究方法...2

1-2-1 分類探勘...3

1-2-2 關聯探勘...4

1-3 研究流程...4

1-4 研究內容...4

第二章 文獻回顧...6

2-1 權益證券投資分析 ...6

2-2 分類探勘 ...8

2-2-1 倒傳遞網路...8

2-2-2 分類樹...9

2-2-3 分類探勘在權益證券投資分析之應用... 11

2-3 關聯探勘 ...13

2-4 多種類資料探勘方法比較 ...16

2-5 結語 ...18

第三章 分類模型...19

3-1 前言 ...19

3-2 方法 ...19

3-2-1 資料來源...19

3-2-2 單變數排序法...22

3-3 結果 ...24

3-3-1 邏輯迴歸(Logistic Regression) ...24

(6)

3-3-2 倒傳遞網路(Back-Propagation Networks)...26

3-3-3 分類樹(Classification Trees)...27

3-3-4 小結...29

3-4 選股效益比較 ...30

3-5 結語 ...31

第四章 關聯模型...34

4-1 前言 ...34

4-2 方法 ...35

4-3 以t+2 季為持有期...36

4-3-1 結果...36

4-3-2 選股效益比較...42

4-4 以t+3 季為持有期...45

4-4-1 結果...45

4-4-2 選股效益比較...48

4-5 結語 ...55

第五章 結論與建議...59

5-1 結論 ...59

5-2 建議 ...61

參考文獻...63

(7)

圖目錄

圖2-1 人工神經元模型 ...9

圖2-2 歸納決策樹 ...10

圖3-1 因變數計算期間 ...20

圖3-2 十三個選股變數(排序正規化)對第+2 季之季報酬率十等分圖 ...23

圖3-3 十三個選股變數(原值)對第+2 季之季報酬率十等分圖 ...24

圖3-4 邏輯迴歸的迴歸係數:十二個自變數 ...25

圖3-5 邏輯迴歸的迴歸係數:四個自變數 ...26

圖3-6 分類樹(CT)的多年模式的分類樹 ...29

圖4-1 二分表現法的資料 ...35

圖4-2 二分表現法之支持度=750 下的關聯圖:於訓練及測試期間皆出現之關聯 ...39

圖4-3 訓練與測試範例YB出現下,十三個自變數左端出現的比率關係...41

圖4-4 訓練期間所產生之選股策略比較 ...45

圖4-5 測試期間所產生之選股策略比較 ...45

圖4-6 訓練範例所產生之選股策略比較 ...53

圖4-7 測試範例所產生之選股策略比較 ...53

(8)

表目錄

表2-1 權益證券投資分析之文獻回顧 ...6

表2-2 分類探勘在權益證券投資分析之文獻回顧 ... 11

表2-3 關聯探勘在權益證券投資分析之文獻回顧 ...15

表2-4 多種類資料探勘方法在權益證券投資分析之文獻回顧 ...17

表3-1 十三個自變數的定義 ...22

表3-2 邏輯迴歸(十二個自變數)的多年的混亂矩陣...25

表3-3 邏輯迴歸(四個自變數)的多年的混亂矩陣...25

表3-4 倒傳遞網路(BPN)的多年模式結果...26

表3-5 神經網路的多年的混亂矩陣(隱藏單元數=2;學習循環=10) ...27

表3-6 分類樹(CT)的多年模式結果 ...28

表3-7 分類樹(CT)的混亂矩陣(最小樣本數=500;最大比例=0.55) ...29

表3-9 各模型 1/10 選股策略在測試期間的評價指標比較 ...31

表3-8(a) 1/10 選股報酬率的平均值比較...32

表3-8(b) 1/10 選股報酬率的標準差比較 ...33

表4-1 資料的表現:二分表現法 ...35

表4-2 以t+2 季為持有期,二分表現法支持度(Support)與關聯規則的關係...37

表4-3 訓練期間關聯規則中各變數間相互影響之關係 ...38

表4-4 測試期間關聯規則中各變數間相互影響之關係 ...38

表4-5 訓練及測試期間皆有出現的關聯規則中各變數間相互影響之關係 ...39

表4-6 以t+2 季為持有期,二分表現法(Support=750)的關聯規則:訓練期間(依 Consequent與Antecedent排序,只列出右側為Y的關聯規則) ...40

表4-7 以t+2 季為持有期,二分表現法(Support=750)的關聯規則:測試期間(依 Consequent與Antecedent排序,只列出右側為Y的關聯規則) ...41

表4-8 以t+2 季為持有期,在訓練範例與測試範例的規則中右端YA或YB出現 下,左端變數出現的次數統計表...42

表4-9 「測試範例」產生的規則在「測試期間」的t+2 季報酬率平均值...43

表4-10 「訓練範例」產生的規則在「測試期間」的t+2 季報酬率平均值...44

表4-11 以t+3 季為持有期,二分表現法支持度(Support)與關聯規則的關係...47

(9)

表4-13 以t+3 季為持有期,二分表現法(Confidence=57.5%, Support=750)的關聯 規則:測試期間(依Consequent與Antecedent排序,只列出右側為Y的關聯規則) ...50 表4-14 以t+3 季為持有期,在訓練範例與測試範例的規則中右端YA或YB出現 下,左端變數出現的次數統計表...51 表4-15 「測試範例」產生的規則在「測試期間」的t+3 季報酬率平均值...52 表4-16 「訓練範例」產生的規則在「測試期間」的t+3 季報酬率平均值...54 表4-17 不同持有期重要選股規則於測試期間報酬率平均值、標準差與Sharpe值 ...58 表5-1 第t+2 季之報酬率高的股票之特徵...61

(10)

第一章 前言

1-1 研究目的

近年來台灣金融市場持續蓬勃發展,加上政府推動各項措施的輔助,各類型 金融商品交易熱絡,但一直以來最為人們所關注與熟悉的投資工具則是「台灣股 票市場」,隨著股票每天的上漲和下跌,也代表者每個股民的資產重新分配。近 年來隨著外資的開放,法人機構與大量的資金投入台灣股票市場的比例越來越 高,相對的散戶投資大眾卻因為資訊不對稱及對各公司財務指標背後所代表的意 義無法透徹了解,以致投資選股績效遠遠低於三大法人。

依據 Fama(1965)所提出效率市場理論主張市場會立即反應新的資訊,調整 至新的價位,因此股價呈隨機走勢取決於隨機出現的新資訊,並且市場上的每個 投資者之行為皆獨立不互相影響。而Fama(1970)更進一步將效率市場分成三個 層級,分別是弱式、半強式與強式效率市場,也分別代表著技術分析無效、基本 分析無效與內線消息無效。而目前學術界對效率市場的看法是趨向肯定弱式效率 而否定強式效率市場;成熟的市場較有效率,不成熟的市場較無效率,一般來說 可以得到這樣一個結論:市場相當有效率,擊敗市場極為困難。

股市的積極投資策略一般來說有擇時和選股二種。本研究主要在發展選股模 型。在選股模型方面,自從1960 年代初期所發展只以股票的 ß 風險因子來評估 股票未來表現的資本資產訂價模型(Sharpe 1964)發表後,學者們開始發展所謂的 因子模型,其中最著名的是Fama and French(1993)所提出之三因子模型,即由原 來的ß 風險因子加上規模效應及價值股效應組成三因子模型,之後更有甚者有學 者提出加上動能效應(Carhart 1997)或加上流動性效應(Brennan, Chordia and Subrahmanyam 1996)等一些對於股票有顯著的影響力的因子來組成各種模型。以 往這些模型均採用迴歸分析來建立預測模型,受限於迴歸分析不易建立非線性模 型,其預測能力有其限制,近年來,資料探勘(Data Mining)的興起為建立預測模 型提供了更豐富多元的工具(丁一賢、陳牧言 2005),除了迴歸分析之外,類神 經網路 (artificial neural network)(葉怡成 2002)、分類樹 (classification tree) (張云 濤、龔玲 2007)等可以建立非線性預測模型。

過去有許多文獻使用分類或迴歸方法來建立股票評價模型,但大多成效不 佳。究其因,這些研究大多企圖建立一個以絕對的特性值為自變數,如本益比、

(11)

股東權益報酬率,以絕對報酬率為因變數的預測模型。但因台灣股票市場波動非 常劇烈,外資持股比例逐年增加,在國際金融市場變動下轉變為空頭市場時,即 使財務報表亮麗的公司,其股票報酬率仍可能是很大的負值。反之,在多頭市場 時,即使財務報表不佳的公司,其報酬率仍可能有相當大的正值。因此,有研究 指出使用「相對變數」的方法將變數的值域不齊一問題、市場波動問題解決,建 立一個不論股市處於多頭市場、空頭市場均適用的預測模型,並探討使用各種資 料探勘方法以數種基本面與技術面指標針對台灣股市上市公司的年資料來建構 選股模型(張萬鈞 2008)。

本研究將依針對台灣股市「年資料」來建構選股模型之研究(張萬鈞 2008) 出發,進一步驗證其結果後,發現使用分類與關聯分析(association analysis)此兩 種資料探勘方法可以建構出較佳的選股模型,故本研究將使用分類與與關聯此兩 種資料探勘技術,進一步針對台灣股市「季資料」來發現隱含在台灣股市歷史資 料中的知識。研究目的包括:

1. 探討使用台灣股票市場上市公司「季資料」來建構選股模型是否能較使用年 資料的方式取得更佳的選股績效。

2. 探討以具有建立非線性之分類模型的人工智慧技術,用「相對變數」方法建 立股票評價模式的績效。

3. 探討以關聯分析建立股票特性間的關聯規則(association rules)。

4. 探討各種資料探勘方法的選股績效有何差異。

1-2 研究方法

本論文的研究方法共有 2 大類,分別為分類探勘及關聯探勘,所採用的季資 料選股變數基礎參考五因子理論與延伸12 種基本面與技術面指標,包含如下:

 風險因子:ß 值、負債權益比(D/B)

 成長價值因子:股東權益報酬率(ROE)、淨值股價比(B/P) 、每股淨值、

益本比(E/P)、成長價值報酬率(GVR)

 規模因子:市值

 流動性因子:周轉率、成交量、股票價格

 動能因子:第 t 季報酬率 因變數則為「第t+2 季報酬率」。

(12)

所採用的資料為1996 到 2007 年台灣股市製造業上市公司每個季度之季資 料,共計17476 筆資料。依兩種資料探勘方法之不同,資料的處理方式如下:

 分類探勘

在作分類探勘時,其中1996~2001 年共 6 年之間 24 個季,總計 7638 筆資料 作為訓練範例,2002~2007 年共 6 年、23 個季,總計 9838 筆資料作為測試範例,

每筆範例包括13 個自變數(選股變數)與一個因變數(第 t+2 季報酬率),需注意的 是設定使用之因變數為第t+2 季報酬率而非第 t+1 季報酬率,以反映每年季報公 佈的時間差。所有變數均以「排序正規化」轉換成「相對變數」,即不論自變數 中的財務報表變數(如本益比、股東權益報酬率等),或因變數(第 t+2 季報酬率) 均以該季的各個股票的值之相對大小由小到大排序,給一個0~1 的值。在建立分 類模型時,因變數尚需以0.5 為界轉化成二元變數{0,1}。最後以分類探勘技術建 立預測模型。

為了探討所建的預測模型是否可提高投資績效,本研究利用第t 季的資料,

評價股票,然後在第t+2 季初進行交易,即買進評價最高的 10%股票,並在第 t+2 季末將最佳及最差的股票報酬率平均並結算。

 關聯分析

在作關聯分析時,將13 個自變數與 1 個因變數,總和 14 個變數使用 2 分法,

產生28 個「項目」,將每一個個股的季資料視為一個「交易」,找出「項目」之 間出現與否的關聯規則並探討其做為選股依據之績效。

1-2-1 分類探勘

本研究的分類探勘共採取三種方法,邏輯迴歸(Logistic Regression)、倒傳遞 網路(Back-Propagation Network) 及分類樹(Classification Tree)。資料集的輸入變 數、輸出變數均進行「排序正規化」,並依照分類探勘所需將輸出變數(第 t+2 季 的報酬率) 「排序正規化」後大於 0.5 者轉換成 1,而小於等於 0.5 者轉換成 0,

以形成二分類:1 代表其第 t+2 季的報酬率大於當季的報酬率中位數,0 代表小 於中位數。

分類探勘的預測模型可以對資料集的樣本預測一個0~1 之間的數值,以 0.5 為門檻可以得到「混亂矩陣」,及訓練和測試範例的分類正確率。

(13)

1-2-2 關聯探勘

關聯探勘則是給予一組資料,每筆資料紀錄一些項目,找到能夠以某些項目 出現與否來預測其它項目出現與否的規則。本研究將13 個第 t 季個股基本面與 技術面指標變數,以及1 個因變數,共 14 個變數,使用 2 分法產生 28 個「項目」, 將每一個個股的季資料視為一個「交易」,找出「項目」之間的關聯規則並探討 其績效。

例如:

IF BPR=高,ROE=高 THEN 隔季報酬率=高 (Support=3606,Confidence=54%) IF BPR=低,ROE=低 THEN 隔季報酬率=低 (Support=3772,Confidence=52%) 其中關聯探勘最重要的控制參數是信賴度(Confidence)和支持度(Support),這兩個 參數影響關聯探勘的成效甚鉅。

1-3 研究流程

本論文及研究架構與流程繪成圖 1-1 所示。

1-4 研究內容

本研究之章節內容共分五章,各章的內容概述如下:

第一章為導論。說明本研究之背景、動機及目的,與研究方法,並且透過研 究流程圖來說明本研究之架構。

第二章為文獻回顧,介紹本文所使用的Data Mining 之技術:分類、關聯,

及這些技術在證券投資分析應用的相關文獻。

第三章為分類探勘在台灣股市選股的應用,使用倒傳遞網路、分類樹、及邏 輯迴歸等三種分類探勘方法,以1996 年到 2001 年等 6 年間的 24 個季的季資料 作訓練範例,2002 到 2007 等 6 年的 23 個季則作測試範例,建立分類預測模型,

並評估各模型的獲利能力。

第四章為關聯探勘在台灣股市選股的應用,使用關聯分析以1996 年到 2001 年等6 年的資料作訓練範例,2002 到 2007 等 6 年作測試範例,建立關聯模型,

發掘可以預測股價的關聯規則,並評估各關聯規則的獲利能力。

第五章為結論與建議。

(14)

文獻探討

資料探勘方法建立選股模型

分 類 探 勘

關 聯 探 勘

邏 輯 迴 歸

類 神 經 網 路

分 類 樹

探討預測值與實際值的關係

發現顯著的選股變數

評估入選股投資組合的績效 (平均值與標準差) 二 分 法

Apriori 演算法

結論及建議 研究背景

圖1-1 研究架構與流程圖

(15)

第二章 文獻回顧

2-1 權益證券投資分析

如何運用統計方法去描述一個有效率的股票市場,股票市場上的股票的表 現受許多因素所影響,可能具有高度的非線性,因此會先採用傳統統計分析中 常用的邏輯迴歸進行迴歸模型的建構。

迴歸探勘是指給予一組資料(訓練集),每筆資料有一組屬性的值,與一個數 值,找出一個能夠以屬性值將資料正確預測的模式。例如根據個人的年齡、性 別、所得等資料,預測其每年的旅遊支出金額。故若使用在股票市場,也就可 以運用在將股票依過去漲跌的記錄預測未來漲跌幅度上。近年來,有許多文獻 利用迴歸探勘技術於證券市場交易決策,這些文獻提供了我們研究方法發展方 向的重要參考,部份文獻整理如表2-1。

表2-1 權益證券投資分析之文獻回顧

文獻 研究內容

顧廣平 (2005)

以台灣股票市場普通股為研究標的,該研究評估多種因子模式在 解 釋 台 灣 股 票 報 酬 變 異 的 適 用 性 , 模 式 包 括 Black, Jensen and Scholes(1972) 的 單 因 子 模 式 、 Fama-French(1993) 的 三 因 子 模 式 和 Carhart(1997)的四因子模式,以及由該研究所建構之三因子模式(市 場、成交量、營收市價比)與四因子模式(市場、成交量、營收市價 比、動能)。結果顯示前三種因子模式似乎不太適用於台灣股市,由 該研究所建構之四因子模式是一個較佳的選擇。

陳榮昌 (2002)

以台灣股票市場普通股為研究標的,以 1997~2000 年為研究期 間,嘗試以Fama-French 三因子模型再加上股票交易週轉率因子及動 能因子等五因子中挑選變數來解釋台灣股票市場的報酬情形。結論 是:市場因素(Beta 值)不論在單變量、Fama-French 三因子模型或多 變量迴歸模式中,均具有顯著的解釋力。從單變量迴歸分析的角度 看:市場因素及週轉率對股票報酬有顯著影響力。從Fama-French 三 因子模式:市場因素及規模效應對股票報酬亦有解釋力的。再以加入

(16)

週轉率因素及動能因素所形成的五因子模式:市場因素、規模效應、

淨值市價比效應及股票交易週轉率因素是有解釋力的。而台灣股票市 場亦存在著規模效應(小規模的公司在該研究平均月報酬率-0.64%,

而中規模為-0.8%,大規模為-0.28%)。

葉承楙 (2005)

以台灣股票市場上市、櫃公司為研究標的,該研究探討不同風格 特性之股票其投資報酬率是否出現顯著差異。利用「淨值市價比」作 為分類價值股與成長股的依據,以兩種財務危機風險評量指O-score 及TCRI 進行區分。實証結果顯示進行股票風格分類時,財務危機指 標採O-score 分類所得結果較 TCRI 為佳,該研究根據「淨值市價比」

及「O-score」分類下,考量公司規模因素對投資績效之影響,發現無 論公司規模,均呈現價值股報酬顯著優於成長股,且財務危機發生機 率大致與投資報酬率呈反向關係。此外,無論公司規模,大部分價值 型投資組合呈現顯著優於市場報酬,而成長型投資組合則呈現顯著劣 於市場報酬之現象。

王源遠 (2005)

以台灣股票市場其中臺灣 50 指數成分股為研究標的,以 1999

~2004 年為研究期間,採用指數加權移動平均法(EWMA)來估計風險 值以及Panel Data 分析方法做實證分析。嘗試以 Fama-French 三因子 模型為基礎、加上風險值因子形成的四因子模型、及及加上風險值因 子、週轉率因子所形成的五因子模型,來解釋台灣股票市場的報酬情 形。從三因子模型觀察:市場因素與股票報酬間沒有存在顯著的關 係,及股價淨值比因素對股票報酬具有顯著的解釋力。從四因子模型 觀察:市場因素、股價淨值比因素及風險值因素均對股票報酬具有顯 著的解釋力,唯規模因素不具顯著性。從五因子模型觀察:週轉率因 素對股票報酬存在正向關係且具有顯著的解釋力,及市場因素、規模 因素與風險值因素亦對股票報酬具有顯著的解釋力,唯股價淨值比因 素不具顯著性。

曾秀珠 (2007)

以台灣股票市場上市公司普通股為研究對象,以1981~2006 年為 研究期間,使用統計與人工智慧中的迴歸方法,以個股的10 個每年 的基本面或技術面指標,建立隔年的年報酬率預測模型。使用的選股

(17)

變數包括年報酬率、ß 風險因子、負債權益比、股東權益報酬率、成 交量、周轉率、市值、股價、淨值股價比、成長價值報酬率。為了探 討所建的預測模型是否可以提高投資績效,利用第t 年的資料來預測 第t+1 年該股的 0~1 之間的報酬率的「相對變數」值,再運用各種交 易策略、選股比率形成投資組合,計算其報酬率的平均值及標準差,

進行績效評估。此外,為了解訓練期間長短的影響,以移動預測法分 別用被測試當年的前1, 3, 5, 10, 19 年為訓練期間。總結如下:(1) 以 測試期間年報酬率為準,神經網路預測模型年報酬率最高32%,其次 為迴歸分析27.5%、迴歸樹 25.6%。(2) 移動預測法顯示,訓練期間 越長,訓練範例的誤判率越高,但測試範例的誤判率越低。(3) 迴歸 分析及迴歸樹預測模型均顯示成長價值報酬率及週轉率是重要選股 變數。

2-2 分類探勘

一個有效率的股票市場出現劇烈的變動是相當常見的,所以股票的評價問 題受到許多因素所影響,可能具有高度的非線性,因此本研究在方法上除了採 用傳統統計分析中常用的邏輯迴歸,還採用具有能夠建立高度的非線性模型的 人工智慧方法,包括:

 倒傳遞網路 (葉怡成 2006 )

 分類樹 (丁一賢、陳牧言 2005,張云濤、龔玲 2007,葉怡成 2008 )

2-2-1 倒傳遞網路

類神經網路是一種基於腦與神經系統研究所啟發的資訊處理技術。類神經 網路較精確的定義為「類神經網路是一種計算系統,包括軟體與硬體,它使用 大量簡單的相連人工神經元來模仿生物神經網路的能力。人工神經元是生物神 經元的簡單模擬,它從外界環境或者其他人工神經元取得資訊,並加以非常簡 單的運算,並輸出其結果到外界環境或者其他人工神經元」(葉怡成 2006)。

神經網路是由許多人工神經元(artificial neuron)所組成,人工神經元又稱 處理單元(processing element)(如圖 2-1 所示)。

(18)

X

i

X2

X1

j

net

j

Y

j

f

X

n

2-1 人工神經元模型

每一個處理單元的輸出,成為許多處理單元的輸入。處理單元其輸出值與輸入值 之間的關係式,一般可用輸入值的加權乘積和之函數來表示 (葉怡成 2006)。

一個神經網路是由許多個人工神經元與其連結所組成,並且可以組成各種 網路模式(network model)。其中以倒傳遞網路(Back-Propagation Network, BPN)

應用最普遍。一個BPN 包含許多層,每一層包含若干個處理單元。輸入層處理 單元用以輸入外在的環境訊息,輸出層處理單元用以輸出訊息給外在環境。此 外,另包含一重要之處理層,稱為隱藏層(hidden layer),隱藏層提供神經網路 各神經元交互作用,與問題的內在結構處理能力。倒傳遞網路的詳細演算法可 參考文獻 (葉怡成 2006)。

2-2-2 分類樹

分類樹是在分類時的決策判斷過程以樹狀結構來表示(如圖2-2),其中包含 了節點(nodes)與枝幹(branch)。節點分為內部節點(interior nodes)與末稍節點 (terminal nodes),而內部節點表示在作決策時所依據的屬性;末稍節點表示最後 分類的類別。枝幹則表示所對應的屬性,依照屬性的不同將資料區分到不同的 枝幹,由上而下一層層的往下將資料分類,最後形成分類樹(丁一賢、陳牧言 2005,張云濤、龔玲2007,葉怡成2008 )。

分類樹的重要基本概念如下(葉怡成2008,文少宣2004):

 屬性(attribute):屬性是影響事物的判斷、分類及預測的特徵。

 屬性值配對(attribute-value pair):一個屬性值配對包括屬性與其一特徵值。

 決策(decision):決策是對事物的判斷、分類或預測。

(19)

 範例(example):一個範例包括一群屬性與其值,以及一個決策值。

 歸納決策樹(inductive decision tree):歸納決策樹(如圖2-2)是一種樹狀 結構,以屬性作為決策樹分枝之節點,以決策值作為決策樹的樹葉。歸納決 策樹從樹根開始,以分枝節點作測試,將事物分成不同的決策值。

 法則(rule):一條IF-THEN法則包含一串條件與一個決策值,每個條件由一個 屬性與其值所構成。

樹根節點

樹枝 樹枝

樹葉節點 分枝節點

樹枝 樹枝

樹葉節點 樹葉節點

圖2-2 歸納決策樹

歸納決策樹學習(inductive decision tree learning)是一種機器學習方式,它 從一群隱含特定知識的範例中導出一個包含普遍知識的決策樹。基本的歸納決 策樹學習演算法如下:

步驟 1.樹根分割法則

從樹根處任意選擇一個屬性,並依此屬性所有可能的值產生不同分枝,每一分枝 含有所有該屬性之值同此分枝之值的訓練範例。

步驟 2.分枝判別法則

判別每一分枝:如果分枝中的所有的範例之決策值相同,則稱此分枝為同質分枝,

否則為非同質分枝。如果分枝為同質分枝,則以目前各分枝中佔有最大比例的決策值 做為此分枝之決策值,並結束此分枝。

(20)

步驟 3.終止法則

如果所有的分枝均已結束,則輸出歸納決策樹並停止;否則至步驟 4。

步驟 4.分枝分割法則

對每一個未結束的分枝,在該分枝下,任意選擇一個該分枝尚未選擇過的屬性,

同步驟 1的方法產生下一層分枝,回到步驟 2。

顯然不同的屬性選擇順序會導出不同的決策樹,但不同的決策樹中,何者 是最佳的決策樹?也就是不同的屬性選擇順序中,何者是最佳的屬性選擇順 序?一般而言,由知識的「準確性」來看,分枝數目較少、分枝深度較淺,但 仍能反應訓練範例中所隱含的分類知識的決策樹對驗證範例有較佳的預測能 力,因此是較佳的決策樹。此外,由知識的「有用性」與「解釋性」來看,一 個較簡單的決策樹優於一個較複雜者。

2-2-3 分類探勘在權益證券投資分析之應用

在類神經網路與分類樹理論與應用的蓬勃發展下,其技術日趨成熟,應用也 日漸廣泛,近年來,已有不少文獻利用分類探勘技術於證券市場交易決策,部份 文獻整理如表2-2。

表2-2 分類探勘在權益證券投資分析之文獻回顧

文獻 研究內容

Qing Cao, Leggio, Schniederjans

(2005)

以中國股票市場與上海證券交易所為研究標的,以1999

~2002 年為研究期間。主要採用類神經網路,以每日收盤價、股 票淨值、成交量、β 風險因子…等因子為輸入變數,來預測 367 家已公開於在上海證券交易所上市之公司的股價變動,並針對 CAPM 資本資產定價模型、Fama- French 三因子模型比較其預測 能力的優劣。該研究發現,類神經網路模型確實提供優於其他線 性迴歸模型的預測能力,且一個較簡單的單因子模型比複雜的多 因子模型更能準確地預測投資報酬率,類神經網路模型對於預測 股票新興市場的股票價格變動是一個有用的工具,但若欲在新興 市場中提昇預測收益的效果,必須再加以完善模型。

(21)

王嘉隆、

詹淑慧 (2005)

以美國SP500 股票市場為研究標的,以 1985~2004 年為研究 期間,研究嘗試透過分類迴歸樹(Classification and Regression Tree, CART)技術,以 KD 技術指標建立一專家系統,並形成一交易準 則的分類樹,再對每一分類以迴歸進行分析, 進而偵測買進及賣 出訊號。實證結果顯示本研究方法對於 S&P 500 指數的預測能 力,較諸於買入持有(buy and hold),及直接以 KD 技術指標做為 交易法則,有較佳的績效表現,其中Buy and hold 策略績效最差,

其年化報酬率為8.17%,KD 技術指標次之,其年化報酬率為 8.25%,而 CART 技術表現最佳,年化報酬率為 18.70%。

林冠宇 (2005)

以台灣股票市場製造業為研究對象,以 2000~2005 年為研究 期間,利用MSCI 成分股與全額交割股之財務報表進入類神經敏 感度分析,以篩選攸關財務體質之財務比率進入決策樹訓練,再 將股東權益報酬率與決策樹形成之準則形成標準化擇股程序的規 則。最後,以灰關聯分析做擇股優先順序,可得到年化報酬率為 34.41%。但該研究似乎未將數據分為訓練期間、測試期間,且其 預測的報酬率是當年而非隔年,這使得研究結果是否真的具有預 測效果存有疑問。

甘堯昌 (2006)

以台灣股票市場為研究標的,以2001~2005年為研究期間,初 步使用華倫.巴菲特投資法篩選股票,之後透過決策樹產生的規 則(ROE =12.3%成為決定股價的一個臨界點,將會依據這臨界點 來篩選出適合的股票,而入選個股要連續3年ROE必須大於等於 12.3%),利用決策樹產生的規則及產生的決策樹相依性網路示意 圖篩選後根據類神經網路的方法選股。而經該研究改善其投資法 則後,確實改善了原先的累增報酬率及年複利率。且可以確定投 資台灣股市個股亦可以達到華倫.巴菲特的年複利率22.37%。該 研究模擬5年期的投資行為後,年化報酬率為24.75%,而同期的大 盤年化報酬率為6.76%。但該研究似乎未將數據分為訓練期間、測 試期間,且其預測的報酬率是當年而非隔年,這使得研究結果是 否真的具有預測效果存有疑問。

(22)

陳文銓 (2007)

以台灣股票市場上市公司普通股為研究對象,以1981~2006 年為研究期間,該研究使用統計與人工智慧方法,以個股的10 個 每年的基本面或技術面指標,建立隔年的年報酬率預測模型。使 用的指標包括年報酬率、ß 風險因子、負債權益比、股東權益報 酬率、成交量、週轉率、市值、股價、淨值股價比、成長價值報 酬率。資料以1981~1999為訓練範例,以 2000~2006為測試範例,

並使用「相對變數」法將各變數均以該年度的各個股票的值之相 對大小由小到大排序,給一個 0~1的值,目的為了消除市場波動 影響,建立一個適用股市處於多頭、空頭的預測模型。建模的方 法除統計的邏輯迴歸(LR)、人工智慧的倒傳遞網路(BPN)、分類樹 (CT)外,還提出結合 BPN與 CT的網樹串行整合法(BPN-CT)、樹 網串行整合法(CT-BPN)。以移動預測法分別用被測試當年的前1, 3, 5, 10, 19 年為訓練期間以了解訓練期間長短的影響。總結如 下:(1) 測試期間誤判率:邏輯迴歸40.79%;倒傳遞網路41.76%;

分類樹 38.90%;網樹串行整合法 38.67%;樹網串行整合法 40.65%。可見各法都優於未選股模型50.00%,其中網樹串行整合 法最佳。(2) 移動預測法顯示,訓練期間越長,訓練範例的誤判 率越高,但測試範例的誤判率越低。

2-3 關聯探勘

關聯探勘的定義如下:「當給予一組記錄時,每一筆的記錄都記載了一些項 目。找出一個能夠在某些項目出現時,其它項目是否也會跟著出現與否的關聯 規則」。以最常使用關聯規則的零售業來舉例,當顧客購買了鐵鎚之後也會購買 鐵釘的機率是80%,則關聯規則便是:{鐵鎚}{鐵釘}信賴度=0.80。

關聯探勘規則(association rules)的目的是要由資料中找出項目(item)之間所 存在的關聯性,而此一關聯性可反應出,當出現某些項目時,則意味著某些其 它項目也將出現(Han and Kamber 2005)。例如在電腦量販店的交易記錄中,「若 顧客購買一台桌上型電腦,則有可能會同時購買一台雷射印表機」的關聯規則 或許會被發掘出來。關聯規則也因此可以輔助管理者了解那些項目是有可能經

(23)

常被同時購買的,這亦有助於行銷策略的規劃(Berry and Linoff 2003, Han and Kamber 2005)。

關聯分析中有三個重要的參數,即支持度(Support)、信賴度(Confidence)與增 益值(Lift)等三數值做為評選的規範。

(1) Support 是指 A 項目在所有交易中發生的頻率,是由 A 項目的交易數除以交 易總數而得;

(2) Confidence 是 A 項目和 B 項目同時出現下,出現 A 項目的頻率,故 Confidence 指的是一條關聯規則「AB」之規則成立的可信度,當 Confidence 愈高時,

則代表該關聯規則愈具可信度;

(3) Lift則是同時考慮了Support與Confidence,是由Confidence除以Support 而得,因為好的關聯規則除了Confidence要高外,也要考慮被關聯的集合之 原來的Support的大小,當Lift愈高時,則代表該關聯規則愈有價值(Han and Kamber2005,葉怡成2008 )。例如,「AB」,「CD」之規則成立的可 信度(Confidence)=0.8;但B的Support=0.8,而D的Support=0.4,則「AB」,

「CD」之規則的Lift分別為1.0與2.0,即「AB」之規則根本沒有提升B 的機率,是無用的規則;而「CD」之規則大幅提升D的機率,是有用的 規則。

Support及Confidence這兩個參數是用來評估所找出的關聯法則是否能滿足 使用者的需求。當支持度高的時候表示這個關聯規則時常出現,而信賴度高的 時候表示這個關聯規則具有可信力。支持度與信賴度越高時,表示關聯規則越 常出現也越可信,但搜索出來的規則數也會越少,在資料量少的時候會是個問 題,因此如何在參數值高與規則數多之間取得平衡,就要依照使用者的需求加 以決定。

關聯分析的詳細演算法可參考文獻(丁一賢、陳牧言 2005,張云濤、龔玲 2007,葉怡成 2008 )。近年來,已有許多文獻利用關聯探勘技術於證券市場交易 決策,部份文獻整理如表2-3。

(24)

表2-3 關聯探勘在權益證券投資分析之文獻回顧

文獻 研究內容

簡宏宇 (2005)

以台灣股票市場個股新聞事件與交易為研究對象,利用中文斷詞 系統為資料庫中的每筆新聞事件標題找出關鍵字詞(Key Item),並 針對每筆資料的關鍵字詞藉由相似度鑑別過濾相近的新聞事件,將所 有漲跌幅度正規化(Normalization)後,利用 K-means 群聚演算法將 漲跌幅度分群聚,使得關聯式規則(Association Rules)在這些群聚 之中找出極大項目集合(Large Itemsets)。藉由支持度(Support)與 信賴度(Confidence)兩判斷條件,可以探勘出個股新聞事件與交易 的隱含關聯規則,以提供使用者在股市交易上一個具有可信度的參考 資訊。

林文盟 (2005)

以台灣股票市場股價漲跌記錄與財經新聞為研究對象,運用關聯 分析技術由股價漲跌記錄與財經新聞去找出關聯規則,並分析所產生 之關聯規則用以預測台灣股市的股價漲跌變化。研究結果顯示,關聯 規則存在於這些資料之中,並且這些規則可以用來繪製產業關聯圖。

此外,從漲跌記錄產生的關聯規則可預測股價漲跌。當漲、跌被定義 為1%的價格變化時,統計結果顯示,這些規則可以預測下跌趨勢。

也就是說,當這些記錄產生關聯規則:「股票A 下跌股票 B 下跌」,

此規則顯示當股票A 股價下跌時,股票 B 有很高的機率在當日下跌。

若股票B 當天股價持平時,股票 B 隔日有很高的機率會下跌。

葉怡成、

林文盟 (2007)

以台灣股票市場之上市、櫃個股股價漲跌資料為研究標的,該研 究利用關聯探勘來進行台灣股市股價漲跌的關聯分析。該研究認為台 灣股票市場之上市、上櫃的公司高達1200 家,投資者如果能在進行 投資決策時,考量到這些公司彼此的影響力,或是藉由其中的產業結 構去找到特殊的影響力,可能可以增加獲利。研究結果發現:(1)分 析關聯規則與產業關聯圖:股價漲跌形成的關聯規則會顯現產業關 聯。(2)關聯規則之統計檢定:經由統計分析結果,導出支持度較強 的假說顯示,依據關聯規則預測當天應下跌而未下跌者,隔天會發生 下跌的機率大於上漲的機率。(3)關聯規則在股價漲跌之預測:研究

(25)

證實從漲跌記錄產生的關聯規則可預測股價漲跌。所產生的關聯規則 可以預測股價的「補跌」現象,即當個股股價依關聯規則被預測為「下 跌」時,有很高的機率會在當日「下跌」,若股價僅為「持平」時,

其隔日有很高的機率會發生「下跌」(即補跌)的情況。

張瑞益、

黃文雄 (2003)

以台灣股票市場股價與專家建議訊息為研究對象,嘗試以台灣大 眾較熟悉的股市專家建議作切入點,利用資料採礦技術來探討專家建 議與股價變化間的關聯性。藉著這些關聯性,除了可以得到容易為一 般民眾接受的建議,更可以衡量比對電腦選股系統的結果,以對其預 測模型做出解釋。該研究以證券公司在網路所公布的研究報告做為研 究的基礎,將券商的研究報告內容予以量化成數值,並將原始股價的 資料改為代表漲跌趨勢的數值。該研究結果發現,券商的研究報告資 訊和股價在某些情況是有關聯性的。例如:券商會參考歷史股價的走 勢,而做成[伺機買進]的評等,當券商評等台積電股票為[伺機買進]

時,其半年及九個月後的股價有明顯的漲勢。但券商的研究報告缺乏 某些長期追踪及修正研究報告的機制,故無法應變突發性的利空消息 或會產生不正確的資訊。

劉柏廷 (2007)

以美國股票市場為研究標的,以2003~2006 年為研究期間,該研 究將提出「相對數值」的比較關係,讓數值型資料的處理方式不只侷 限於等距劃分或等量劃分這種「絕對比較」的資料處理方式。該研究 將以「分類型關聯規則」的方式,對目標欄位進行分類預測,而分類 型關聯規則包括了「規則精簡」與「整體預測」二個步驟,「規則精 簡」將利用子集合的概念從所有的規則之中,篩選出較為一般化的規 則,以對規則進行簡化與整合的動作,並改善關聯規則產生過多的規 則的缺點,最後利用「整體預測」對目標資料進行預測,並利用總合 信心水準門檻的機制來提升預測的準確率。

2-4 多種類資料探勘方法比較

近年來在人工智慧方法資料探勘理論與應用的蓬勃發展,其技術並趨於成熟 下,已有許多文獻利用各種資料探勘技術彼此結合於證券市場交易決策並提供比

(26)

較的成果,部份文獻整理如表2-4。

表2-4 多種類資料探勘方法在權益證券投資分析之文獻回顧

文獻 研究內容

張萬鈞 (2008)

以台灣股票市場製造業上市公司為研究標的,以 1981~2006 年為 研究期間,該研究使用分類、迴歸、聚類及關聯等四種資料探勘方法,

以個股的10 個每年的基本面或技術面指標,包括年報酬率、ß 風險 因子、負債權益比、股東權益報酬率、成交量、周轉率、市值、股價、

淨值股價比、成長價值報酬率,建立選股模型。並以隔年的年報酬率 來評估選股模型。資料取自1981~2006 台灣上市公司資料,以 1981~1999 為訓練範例,以 2000~2006 為測試範例。其中分類及迴歸 的隔年的報酬率使用隔年七月到後年六月的報酬率,以反映年報公佈 的時間差。分類探勘使用邏輯迴歸、倒傳遞網路、分類樹三種演算法;

迴歸探勘使用迴歸分析、倒傳遞網路、迴歸樹三種演算法;聚類探勘 使用自組織映射圖(SOM)演算法;關聯探勘使用 Apriori 演算法。主 要研究結果如下:分類的最佳演算法為倒傳遞網路,測試期間報酬率 為38.6% (±59.1%);迴歸的最佳演算法為倒傳遞網路,測試期間報酬 率為30.1% (±40.8%);關聯的最佳選股模型為二分法,測試期間報酬 率為37.5%(±71.5%);分類與迴歸選股模型比未選股模型報酬率 21.0%(±55.4%)改善很多;聚類與關聯選股模型比未選股模型報酬率 22.9%(±69.6%)改善很多。

謝青皓 (1997)

以台灣股票市場加權股價指數為研究標的,透過對過去相關研究 的實證分析,來探討影響系統績效差異之原因,了解如何建構最佳的 人工智慧預測系統,作為後續研究者的參考。本研究整合了類神經網 路與專家系統,來建構智慧型證券交易決策支援系統,使用技術指標 為輸入資料,並以台灣加權股價指數的資料來做驗證。研究結果顯 示,採用類神經網路與專家系統的整合模式,投資績效優於使用單一 人工智慧技術,且其三年累積的報酬率亦優於買入並持有的策略及同 期間臺灣三大封閉式基金之淨值漲跌幅。

(27)

林宏昌 (2002)

本 研 究 整 合 分 類 迴 歸 樹 (Classification and Regression Tree, CART)、遺傳規劃(Genetic Programming, GP)與類神經網路(Artificial Neural Networks, ANN),建立一個通用型資訊篩選之演算法,透過此 演算法可篩選出重要資訊,減少資訊使用量,達到相同或類似的決策 品質,進而降低資料採勘(Data Mining)的資訊蒐集成本。並以股票 預測為例,以測試本研究所開發出來之演算法的正確性及實用性,並 建構智慧型股票投資決策諮詢服務系統,以提供投資決策之諮詢參 考。

2-5 結語

過去有許多文獻(見前節)使用分類或迴歸方法來建立股票評價模型,但大多 成效不佳。究其因,這些研究大多企圖建立一個以絕對的特性值為自變數,如 本益比、股東權益報酬率,以絕對報酬率為因變數的預測模型。但因股票市場 波動非常劇烈,常會造成於空頭市場期間,即使財報表現佳的公司,仍擺脫不 了股票報酬率最後為負值的現象,反之,多頭市場下,好公司壞公司之股票報 酬率則皆會呈現正值的趨勢,故本研究參考使用「相對變數」將自變數均以該 季度的各個股票的值之相對大小由小到大排序,給一個0~1的值的方法,建構可 同時適用於多頭與空頭市場的預測模型。

近年來已有使用「相對變數」法以消弭值域不齊一和市場波動問題的相關研 究,但這些研究大多使用相對較為落後的資訊源,如一年期年資料來建立預測模 型,但也許股票報酬預測績效不彰的原因正是基於此最原本的資料來源,故本研 究主要的差異在於進一步針對擁有相對較短週期、更及時資訊的台灣股市「季資 料」深入探討,期望建構出更佳的資料探勘選股模型。

此外,由過去文獻發現使用分類、迴歸探勘與關聯分析等資料探勘方法可以 建構出頗佳的選股模型,並排除效果較差的聚類探勘方法,亦考量資料探勘結果 之可讀性,選擇使用輸出結果中可提供類似選股規則資訊的分類探勘與關聯分析 方法,以提供後進研究者或投資大眾方便判讀本研究之成果,故本研究將針對使 用分類與與關聯此兩種資料探勘技術進行探討。

(28)

第三章 分類模型

3-1 前言

股票一直是台灣民眾最喜愛的投資工具之一,隨著市場中每天股票的上漲與 下跌,也代表者每個股民的資產重新分配。一套可信賴的投資模型是眾多投資者 所企盼的。本章將研究如何應用分類探勘的技術結合個股基本面或技術面指標,

來建立選股模型,藉以提高報酬、降低風險。

本章收集台灣經濟新報資料庫中,1996~2007 年 12 年間的台灣股市「季資 料」,將1996~2001 年六年間的 7638 筆資料做為訓練範例,而將 2002~2007 年六 年間的9838 筆資料作為測試範例。選取 13 個第 t 季個股基本面或技術面指標作 為自變數,以第t+2 季個股報酬率做為因變數,分類探勘技術建立選股模型。本 章所使用的三種分類演算法為邏輯迴歸(LR)、倒傳遞網路(BPN)及分類樹(CT)。

本章以下共有四個小節:

第 2 節為方法。說明因變數和自變數的定義、選取的理由、資料收集的來源、

期間及如何將收集來的資料作前處理。

第 3 節為結果。將前處理後的資料經過邏輯迴歸、倒傳遞網路、分類樹三種 模型配合不同的參數產生預測值,並藉由預測值產生混亂矩陣及各年度的誤判 率,並將結果加以分析並評論,藉以找出最佳的預測模型。

第 4 節為選股的效益與比較。為了探討所建的預測模型是否可提高投資績 效,本研究以三種選股策略來評價各選股模型的績效。

第 5 節為結語。闡述本章的總結論及建議。

3-2 方法

3-2-1 資料來源

在本章節所討論的因變數為第t+2 季的季報酬率。參考圖 3-1,採用第 t+2 季而非第t+1 季的報酬率做為因變數是因為考慮到真實的投資情況中,第 t 季的 個股財報通常在第t+1 季結束時才發布,因此以第 t 季的個股財務面指標來預測 第t+1 季報酬率在實務上是不可行的。因此,本研究採用第 t+2 季的季報酬率當 做因變數。

(29)

計算報酬 結束日 季報發布

截止日

計算報酬 起始日 季報結算

截止日

t 季 t+1 季 t+2 季 t+3 季

圖3-1 因變數計算期間

在本章節所討論的自變數共有13 個,選取這 13 個變數的原因是參考三因子 模型(Fama and French 1993)、四因子模型(Carhart 1997),包括:

 風險因子:ß 值、負債權益比(D/B)

 成長價值因子:股東權益報酬率(ROE)、淨值股價比(B/P)、每股淨值、

益本比(E/P)、成長價值報酬率(GVR)

 規模因子:市值

 流動性因子:周轉率、成交量、股票價格

 動能因子:第 t 季報酬率 自變數分述如下:

X1 (第 t 季報酬率):為個股在股票市場各年第 t 季的季報酬率。有文獻(Jegadeesh and Titman 1993)指出股票市場報酬率具慣性效應,故第 t 季報酬率差者,第 t+1 季報酬率也較差。

X2 (ß 風險因子):依據資本資產訂價模型(Sharpe 1964),ß 值越高,所能獲得的 風險溢酬越高。

X3 (負債權益比, D/E):負債權益比(Debt/Equity Ratio)為在某一時點(通常為年 底、季底),公司的負債總額除以股東權益,通常以百分比表示,即負債權 益比=(負債總額/股東權益)*100%。Bhandari(1998)發現負債權益比較高的股 票有較高的平均報酬率。

X4 (股東權益報酬率, ROE):代表在某一段時間內,公司利用股東權益為股東所

(30)

創造的利潤,通常以百分比表示。有文獻(甘堯昌 2006)指出,ROE 這個數 值越大越好。

X5 (成交量):為個股在股票市場的總成交量。有文獻發現(Chordia, et al. 2001),

成交量越小的股票,報酬率可能越高。

X6 (周轉率):為個股在股票市場的周轉比率,即「(個股成交量/個股流通在外股 數)*100%」。有文獻發現(Datar, et al. 1998),周轉率越小的股票,報酬率可 能越高。

X7 (市值):為個股在股票市場的總市值。Fama and French (1993)指出規模小的公 司股票報酬率可能較高。

X8 (股價):為個股在股票市場的收盤價格。有文獻(Bhardwaj and Brooks 1992)指 出低價股股票報酬率可能較高。

X9 (淨值股價比, B/P):即淨值/股價。Fama and French (1993)指出淨值股價比越 大代表股價相對便宜,潛在的股票報酬率可能較高。

X10 (成長價值報酬率, GVR):為葉怡成(2008)提出的一個財務指標。此值越大代 表公司利用股東權益為股東所創造利潤的能力越高,且股價相對便宜,因此 潛在的股票報酬率可能較高。

X11 (每股淨值):為公司淨值除以股數,而淨值=(總資產-總負債)。

X12 (益本比, E/P):為一家公司某一時點,年度每股獲利相對於股價的比值,即 本益比之倒數。

X13 (修正成長價值報酬率):為葉怡成(2008)提出的一個財務指標,它考慮成長 價值報酬率本身再加上個股近七年所屬產業之股價淨值比平均值。

因變數:

因變數為第t+2 季的報酬率大於中位值之二元變數,為 0 或 1 的數值:若為 0 則代表該股票在 t+2 季的報酬率低於全體股票的中位數;若為 1 則代表高於中 位數。

本研究採用的是台灣經濟新報資料庫作為資料來源,研究的範圍是股票代號 11XX~27XX 的台灣製造業的上市公司,而不選取代號 28XX 之後的公司。因為 代號28XX 之後是金融股及一些少數其他類股,金融股有其特殊財務結構,不適 合於本研究;而其他類股數量不多,不影響本模型的準確度;為了資料收集的方

(31)

便性,不予取樣。本研究期間為1996 年 3 月~2007 年 9 月共 12 年總和 47 季。

所選取自台灣經濟新報資料庫的13 個自變數定義如表 3-1。

在作分類模型時,將1996~2001 年共 6 年總計 7638 筆資料作為訓練範例,

2002~2007 年中共 6 年總計 9838 筆資料作為測試範例,每筆範例包括 13 個自變 數(選股變數)與一個因變數(第 t+2 季的報酬率)。所有變數均以「排序正規化」

處理,即將同一季的同一變數由小到大排序,正規化到0~1 的值。在建立分類模 型時,因變數尚需以0.5 為界轉化成二元變數{0,1},最後以分類技術建立預測模 型。

表3-1 十三個自變數的定義

變數名稱 定義

X1 第t 季報酬率

報酬率(%)=Rt= [

x t 1 t

x v t

1 t

S

* A P

) S S 1 (

* P P

]*100%

Rt:個股投資報酬率;Pt:無償配股率;

1

Pt :期初買進價格;Sx:有償配股率;

1

Dt :現金股利;At:有償認股價格。

X2 ß 風險因子 由最小平方法迴歸y=β0 + β1 x +ε

x:大盤報酬率,y:個股報酬率,β1即為beta 值。

X3 負債權益比 負債權益比= (負債總額/總淨值)*100%

X4 股東權益報酬率

股東權益報酬率

=(稅後淨利/加權平均股東權益)*100%

=(經常利益 - 處份固定資產及處分投資利益+

處份固定資產及處分投資損失)/平均淨值

*100%

X5 成交量 個股成交量(百萬股)

X6 周轉率 個股周轉率=(個股成交股數/個股發行股數)*100%

X7 市值 個股市值(百萬元)

X8 股價 個股季底收盤價(元) (未調整,即原始股價) X9 淨值股價比 個股淨值股價比=(每股淨值/每股市價)*100%

X10 成長價值報酬率 個股成長價值報酬率 X11 每股淨值 個股季底淨值(元)

X12 益本比 個股益本比=(每股盈餘/每股市價)*100%

X13 修正成長價值報酬率 考慮股價淨值比七年均值調整的成長價值報酬率

*本表定義根據資料源台灣經濟新報(TEJ)資料庫所提供資訊整理而成 3-2-2 單變數排序法

為了解本章節的十三個選股變數對第t+2 季的季報酬率(排序正規化)的影 響,以十等分圖分析之,若變數對應之圖形明顯與季報酬率成正比;例如某變數

(32)

之圖形若由第一等分之報酬率為最低,第二等分次低,並且報酬率依序遞增,一 直到第十等分報酬率為最高,則表示該變數的選股能力佳,可分類出報酬率高低 之看好與看壞的股票。結果如圖3-2、圖 3-3。可知:

1. 影響最大的變數為 X10, X12, X13,其中

 X10 (成長價值報酬率)明顯成正比,而且是影響力最大的變數,最小的 X10 值有最小的第 t+2 季報酬率;反之最大的 X10 值有最大的第 t+2 季 報酬率。

 X12 (益本比)明顯成正比。

 X13 (修正成長價值報酬率)明顯成正比。

2. 其餘影響次大的變數有 X2, X4, X9,其中

 X2(ß 風險因子)似乎具有非線性,中間偏左的 X2 值有最大的第 t+2 季報 酬率。

 X4(股東權益報酬率)明顯成正比,中間的 X4 值較無明顯趨勢,而最大的 X4 值有最大的第 t+2 季報酬率。

 X9(淨值股價比)明顯成正比,最大的 X9 值有最大的第 t+2 季報酬率,但 最大的X9 值與最小的 X9 值差距無前面幾個重要變數明顯。

0.42 0.44 0.46 0.48 0.5 0.52 0.54 0.56

X1-t季 X2-B風

X3-負權益 X4-淨報酬

X5-成 X6-周

X7-市 X8-股

X9-淨市值 X10-GVR

X11-每 X12-盈股價

X13-GVR(含PBR) 變數

Rank(t+2季報酬率平均值)

圖3-2 十三個選股變數

(

排序正規化

)

對第

+2

季之季報酬率十等分圖

(33)

0%

1%

2%

3%

4%

5%

6%

7%

8%

9%

10%

X1-t季報酬 X2-B風險因

X3-負權益 X4-淨報酬

X5-成 X6-周

X7-市 X8-股

X9-淨市值 X10-GVR

X11-每股淨 X12-盈股價

X13-GVR(含PBR)

變數

t+2季報酬率平均值

圖3-3 十三個選股變數

(

原值

)

對第

+2

季之季報酬率十等分圖

3-3 結果

3-3-1 邏輯迴歸(Logistic Regression)

邏輯迴歸(LR,十二變數)的混亂矩陣如表 3-2,由混亂矩陣可知,本預測模型 對實際高的資料具有最佳的預測能力(訓練範例誤判率為 0.445)。十二個自變數 的迴歸係數比較如圖3-4。由圖可知:

 當季的股價及 GVR-成長價值報酬率越大,第 t+2 季之報酬率越大;

 當季的 ß 風險因子及市值越小,第 t+2 季之報酬率的年報酬率越小。

為了進一步評估自變數於此模型中的影響,再針對自變數中移除其他變數,

只選重要變數建模,最後只留下X2(ß 風險因子)、X7(市值)、X8(股價)、X10(GVR) 此四個自變數,其混亂矩陣如表3-3 所示,四個自變數的迴歸係數比較如圖 3-5。

與前述的十二個自變數的模型相較,測試期間誤判率小幅增加,故刪除其他變 數,只留下上述四個自變數會小幅降低模型的準確度。

由圖3-5 可知,X8(股價)與 X10(GVR)的迴歸係數為正值,顯示當季季底股 價及 GVR 越高,第 t+2 季之季報酬率越高,並且在此模型中 X10(GVR)的迴歸 係數更超越 X8(股價),成最重要的變數,這一點前述的十二個自變數的模型所 看不出來的。

(34)

表3-2 邏輯迴歸

(

十二個自變數

)

的多年的混亂矩陣 實際低 實際高 合計 誤判率 預測低 2128 1683 3811 0.442 預測高 1727 2100 3827 0.451 合計 3855 3783 7638 0.446 訓

練 期

間 誤判率 0.448 0.445

實際低 實際高 合計 誤判率 預測低 2765 2148 4913 0.437 預測高 2391 2534 4925 0.485 合計 5156 4682 9838 0.461 測

試 期

間 誤判率 0.464 0.459

迴歸係數

變數

圖3-4 邏輯迴歸的迴歸係數:十二個自變數

表3-3 邏輯迴歸

(

四個自變數

)

的多年的混亂矩陣 實際低 實際高 合計 誤判率 預測低 2078 1733 3811 0.455 預測高 1700 2127 3827 0.444 合計 3778 3860 7638 0.449 訓

練 期 間

誤判率 0.450 0.449

實際低 實際高 合計 誤判率 預測低 2688 2225 4913 0.453 預測高 2338 2587 4925 0.475 合計 5026 4812 9838 0.464 測

試 期 間

誤判率 0.465 0.462

(35)

迴歸係數

變數

圖3-5 邏輯迴歸的迴歸係數:四個自變數

3-3-2 倒傳遞網路(Back-Propagation Networks)

本研究關於倒傳遞網路(BPN)的參數組合共九組(表 3-4),是由隱藏單元數(2, 5, 10)及學習循環(10, 50, 100)兩個變數所組成的。由表 3-4 可知測試範例誤判率 最低值為0.4794,配合的隱藏單元數為 2 個隱藏單元,學習循環數為 10 個學習 循環。在同樣2 個隱藏單元,學習循環變更為 50 個與 100 個學習循環時,測試 範例誤判率有增加的現象,這表示可能有過度學習的現象,因此不需再增加學習 循環的數目。

表3-4 倒傳遞網路

(BPN)

的多年模式結果

參數 誤判率

編號 隱藏單元數 學習循環 訓練期間 測試期間

1 2 10 0.4756 0.4794 2 2 50 0.4586 0.4826 3 2 100 0.4619 0.4841 4 5 10 0.4918 0.492 5 5 50 0.4933 0.4967 6 5 100 0.4874 0.4947 8 10 10 0.4924 0.4887 7 10 50 0.4954 0.4974 9 10 100 0.4911 0.4959

(36)

表3-5 神經網路的多年的混亂矩陣

(

隱藏單元數

=2

;學習循環

=10)

實際低 實際高 合計 誤判率

預測低 2856 955 3811 0.251 預測高 2678 1149 3827 0.700

合計 5534 2104 7638 0.475 訓

練 期

間 誤判率 0.484 0.454

實際低 實際高 合計 誤判率 預測低 3719 1194 4913 0.243 預測高 3522 1403 4925 0.715 合計 7241 2597 9838 0.479 測

試 期

間 誤判率 0.486 0.460

由表 3-4 的最佳結果(隱藏單元數為 2 個隱藏單元,學習循環數為 10 個學習 循環),來製作混亂矩陣,其結果如表 3-5,由此混亂矩陣可以知道,本預測模型 對實際高的資料具有最佳的預測能力(訓練範例誤判率為 0.454)。

3-3-3 分類樹(Classification Trees)

本研究關於分類樹(CT)的參數組合共九組(表 3-6),是由「樹葉最小樣本數」

及「樹葉最大比例」兩個變數所組成的。

 樹葉最小樣本數:是指分枝所含訓練範例數的預設門檻值,若分枝所含訓練 範例數目小於此門檻值,則結束此分支。

 樹葉最大比例:是指分枝所含訓練範例中佔有最大比例的分類的預設門檻 值,若分枝所含訓練範例中佔有最大比例的決策值之比率大於此門檻值,則 結束此分支。

由表3-7 可知測試範例誤判率最低值為 0.4749,配合的參數有兩個,當分枝 停止條件的最小比例為0.55 時,無論配合的節點數為 100、250、500 或 1000,

都可以得到最佳的決策樹,本研究採用最小節點數為500 及分枝最小比例為 0.55 之參數來繪製分類樹(圖 3-6)。在分類樹的所有樹葉中,需找出其「最佳樹葉」,

在分類樹的被分類為1 的所有樹葉中,訓練範例樣本量足夠(至少佔訓練範例的 1/10 以上),且其第 t 季報酬率分類為 1 的機率最高者為「最佳樹葉」。由圖 3-6 可知,右側第二層的左樹葉最佳,其分類為1 的機率為 63.1%,筆數為 1043 筆,

高於訓練範例總筆數7638 筆的 1/10 約 764 筆資料

(37)

IF 成長價值報酬率(GVR)Rank 值> 0.55 AND t 年 ß 風險因子 Rank 值< 0.3

Then 第 t 季報酬率分類為 1 的機率:訓練範例 0.631 (1043 筆) 測試範例0.580 (1115 筆)

同理,在分類樹的被分類為0 的所有樹葉中,訓練範例樣本量足夠(至少佔 訓練範例的1/10 以上),且其第 t 季報酬率分類為 0 的機率最高者(即分類為 1 的 機率最低者)為「最差樹葉」。由圖 3-6 可知,左側第二層的右樹葉最差,其分類 為0 的機率為 55.9% (即分類為 1 的機率為 44.1%),筆數為 2751 筆,高於訓練範 例總筆數7638 筆的 1/10 約 764 筆資料。

IF 成長價值報酬率(GVR)Rank 值< 0.55 AND 第 t 年 ß 風險因子 Rank 值> 0.35

Then 第 t 季報酬率分類為 0 的機率:訓練範例 0.559 (=1-0.441) (2751 筆) 測試範例0.529 (=1-0.471) (3305 筆)

表3-6 分類樹

(CT)

的多年模式結果

參數 誤判率

編號 最小樣本數 最大比例 訓練期間 測試期間 1 250 0.55 0.4430 0.4749 2 250 0.60 0.4362 0.4757 3 250 0.65 0.4355 0.4782 4 500 0.55 0.4430 0.4749 5 500 0.60 0.4391 0.4775 6 500 0.65 0.4383 0.4801 8 1000 0.55 0.4430 0.4749 7 1000 0.60 0.4391 0.4775 9 1000 0.65 0.4391 0.4775 10 100 0.55 0.4430 0.4749 11 100 0.6 0.4362 0.4757 12 100 0.65 0.4355 0.4782

(38)

表3-7 分類樹

(CT)

的混亂矩陣

(

最小樣本數

=500

;最大比例

=0.55)

實際低 實際高 合計 誤判率

預測低 2180 1753 3933 0.446 預測高 1631 2074 3705 0.440

合計 3811 3827 7638 0.4430 訓

練 期 間

誤判率 0.428 0.458

實際低 實際高 合計 誤判率 預測低 2721 2480 5201 0.477 預測高 2192 2445 4637 0.473

合計 4913 4925 9838 0.4749 測

試 期 間

誤判率 0.446 0.504

圖3-6 分類樹

(CT)

的多年模式的分類樹 3-3-4 小結

經過前述的三個分類模型得到結論如下:

 邏輯迴歸(LR,十二變數)分類探勘演算法是對本研究所收集的台灣股市季資 料中最佳的分類探勘演算法,誤判率為0.461。

 其次為分類樹(CT)分類探勘演算法,其最佳的參數是最小節點數為 100~

1000 及分枝最小比例為 0.55,誤判率為 0.4749。

 最差的是倒傳遞網路(BPN),其最佳的參數是隱藏單元數為 2 個隱藏單元,

學習循環數為10 個學習循環,誤判率為 0.4794。

參考文獻

相關文件

mathematical statistics, statistical methods, regression, survival data analysis, categorical data analysis, multivariate statistical methods, experimental design.

The thesis uses text analysis to elaborately record calculus related contents that are included in textbooks used in universities and to analyze current high school

• To achieve small expected risk, that is good generalization performance ⇒ both the empirical risk and the ratio between VC dimension and the number of data points have to be small..

In our AI term project, all chosen machine learning tools will be use to diagnose cancer Wisconsin dataset.. To be consistent with the literature [1, 2] we removed the 16

• For some non-strongly convex functions, we provide rate analysis of linear convergence for feasible descent methods. • The key idea is to prove an error bound between any point

We try to explore category and association rules of customer questions by applying customer analysis and the combination of data mining and rough set theory.. We use customer

By University students of the Chung Hua University for objects, to make use of the descriptive statistics, the reliability analysis, and the factor analysis, considers the

The information from the questionnaire is analyzed in several statistics methods, such as descriptive statistics, factor analysis approach, reliability and validity