• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
241
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:以分類、迴歸、聚類、關聯四種資料探勘 方法建立選股模型─台灣股市之實證研究

Using Classification, Regression, Clustering and Association Approaches to Build Stock Selection Model─ An Empirical Research on Taiwan Stock Market

系 所 別:資訊管理研究所 學號姓名:M09510026 張萬鈞 指導教授:葉怡成 博士

中華民國 九十七 年 七 月

(2)
(3)
(4)
(5)

摘要 摘要 摘要 摘要

本研究使用分類、迴歸、聚類及關聯等四種資料探勘方法,以個股的 10 個 每年的基本面或技術面指標,包括年報酬率、ß 風險因子、負債權益比、淨值報 酬率、成交量、周轉率、市值、股價、淨值市值比、成長價值報酬率,建立選股 模型。並以隔年的年報酬率來評估選股模型。資料取自 1981~2006 台灣上市公司 資料,以 1981~1999 為訓練範例,以 2000~2006 為測試範例。其中分類及迴歸的 隔年的報酬率使用隔年七月到後年六月的報酬率,以反映年報公佈的時間差。分 類探勘使用邏輯迴歸、倒傳遞網路、分類樹三種演算法;迴歸探勘使用迴歸分析、

倒傳遞網路、迴歸樹三種演算法;聚類探勘使用自組織映射圖(SOM)演算法;關 聯探勘使用 Apriori 演算法。總結如下(以下報酬率以平均值±標準差表示):

(1)分類的最佳演算法為倒傳遞網路,測試期間報酬率為 38.6% (±59.1%);

(2)迴歸的最佳演算法為倒傳遞網路,測試期間報酬率為 30.1% (±40.8%);

(3)聚類的最佳選股模型為 3×3 模型,測試期間報酬率為 37.1% (±62.1%);

(4)關聯的最佳選股模型為二分法,測試期間報酬率為 37.5%(±71.5%);

(5)分類與迴歸選股模型比未選股模型報酬率 21.0%(±55.4%)改善很多;

(6)聚類與關聯選股模型比未選股模型報酬率 22.9%(±69.6%)改善很多。

關鍵詞:資料探勘、倒傳遞網路、分類樹、迴歸樹、自組織映射圖、關聯分析、

股票

(6)

Abstract

This study used four kinds of data mining method and ten each year fundamental or market indicators of individual stock to establishment the stock selection model.

The data mining methods included classification analysis, regression analysis, cluster analysis and association analysis; indicators included the current annual return rate, ß risk factor, debt/equity ratio, return on equity (ROE), trade volume, turnover ratio, market value, stock price, book value to market value ratio (B/M), and growth-value rate (GVR).Data are collected from 1981 to 2006 for each company listed in Taiwan stock market. The 1981~1999 data are the training examples, and the 2000~2006 data are the testing examples. The output variable of classification and regression analysis is the next year annual return rate of individual stock. To reflect the time lag of annual company finance report, the next year annual return rate is based on the period from the July of the next year to the July of the year after next. The classification analysis methods included logistic regression, back-propagation network (BPN), classification tree algorithm; the regression analysis included linear regression analysis, BPN, regression tree algorithm; the clustering analysis used Self-Organizing Map (SOM) associated with 3×3, 7×7, 15×15 output layer; the association analysis used the Aporiori algorithm associated with two-, three-, and five-segmentation data set. The results showed that (the mean ± standard deviation of annual return rate of testing period):

(1) The best classification algorithm is BPN (38.6% ± 59.1%);

(2) The best regression algorithm is BPN (30.1% ± 40.8%);

(3) The best clustering analysis is the one associated with the 3×3 output layer one (37.1% ± 62.1%);

(4) The best association analysis is the one associated with the two-segmentation data set (37.5% ± 71.5%).

Key words: data mining, back-propagation network, classification tree, regression tree, self-organizing map, association analysis, stock.

(7)

誌謝 誌謝 誌謝 誌謝

首先要感謝我的指導老師 葉怡成教授及,在研究所這段期間不厭其煩細心 的指導,不論在專業的知識或生活上待人處事方面,都讓我獲益匪淺,真的非常 感謝老師的教導,也要感謝王素華學務長和邱登裕系主任及系上的老師給我的支 持與鼓勵,中華資管對我來說是最棒的。

此外要特別感謝文盟學長、重志學長、靜婉學姐給予我研究上的協助,也要 感謝韋綸學長、兆瑜學長、謹豪學長、冠呈學長、逸芸學姐、以及我的好同學老 徐、冠傑、龍哥、小安、嘉伶、莉婷和宏孺學弟、立洋學弟、宜真學妹、尹珊學 妹、佳樺學妹、羿君學妹、鉯喬學妹及思賢學弟這段時間陪伴我研究,也讓我留 下許多美好的回憶。

最後感謝我的家人,親愛的爸爸、媽媽及兩個姐姐,還要感謝最愛我的美靜 (敏敏)與明教的朋友們,因為有你們支持與鼓勵,才讓我有機會完成研究所的學 位,非常感謝你們,謹將此論文獻給你們,分享我小小的榮耀。

(8)

目錄 目錄 目錄 目錄

摘要……….……….ii

Abstract..………...………….……….iii

誌謝……….………...……….iv

目錄……….….v

圖目錄……….…...vii

表目錄………...…...…....x

第一章 前言………..1

研究目的……….………..1

研究方法……….………..2

1-2-1 分類探勘……….………7

1-2-2 迴歸探勘……….8

1-2-3 聚類探勘……….8

1-2-4 關聯探勘……….8

1-3 研究流程………..….9

1-4 研究內容…..……….9

第二章 文獻回顧………10

2-1 前言……….10

2-2 分類探勘………..………..……….11

2-2-1 倒傳遞網路………...12

2-2-2 分類樹………...13

2-3 迴歸探勘………..………..……….19

2-4 聚類探勘………..………..……….20

2-5 關聯探勘………..………..……….28

2-6 資料探勘在權益證券投資分析與應用..……..……….29

2-6-1 分類探勘在權益證券投資分析與應用………...29

2-6-2 分類探勘在權益證券投資分析與應用………...31

2-6-3 分類探勘在權益證券投資分析與應用………...33

2-6-4 分類探勘在權益證券投資分析與應用………...35

2-7 結語……….37

第三章 分類探勘在台灣股市選股之應用………38

3-1 前言……….38

3-2 方法……….39

3-3 結果……….42

3-3-1 邏輯迴歸(LR)……….………...42

3-3-2 倒傳遞網路(BPN)………..………...43

3-3-3 分類樹(CT)……….………..46

3-3-4 小結………..……….………..48

3-4 選股效益比較……….48

3-5 結語……….59

第四章 迴歸探勘在台灣股市選股之應用…,,,,………61

4-1 前言……….61

4-2 方法……….61

(9)

4-3 結果……….61

4-3-1 迴歸分析(RA)……….……….…………...61

4-3-2 倒傳遞網路(BPN)……….……….……..……...64

4-3-3 迴歸樹(RT)………...……66

4-3-4 小結………..………...………68

4-4 選股效益比較……….68

4-5 結語……….79

第五章 聚類探勘在台灣股市選股之應用………82

5-1 前言……….82

5-2 方法……….82

5-3 結果與討論……….83

5-3-1 網路輸出層 3×3 下的結果與討論……….………...84

5-3-2 網路輸出層 7×7 下的結果與討論……….………...88

5-3-3 網路輸出層 15×15 下的結果與討論……….………...92

5-3-4 特徵之間的關係...96

5-4 選股效益比較………..…….102

5-4-1 網路輸出層 3×3 下的結果與討論………….………...102

5-4-2 網路輸出層 7×7 下的結果與討論………….………...105

5-4-3 網路輸出層 15×15 下的結果與討論………….………...109

5-4-4 討論……….……….………...114

5-5 結語………..…….122

第六章 關聯探勘在台灣股市選股之應用………..……127

6-1 前言………..……….127

6-2 方法………..……….127

6-3 結果與討論………..……….130

6-3-1 二分表現法的結果與討論…………...……….……..…...130

6-3-2 三分表現法的結果與討論………….………..………..…...138

6-3-3 五分表現法的結果與討論………….………..………..…...148

6-4 分年比較………..…….160

6-5 選股效益比較………..…….169

6-5-1 二分表現法的結果與討論…………...……….……..…...169

6-5-2 三分表現法的結果與討論………….………..………..…...172

6-5-3 五分表現法的結果與討論………….………..………..…...176

6-6 結論………..…179

第七章 結論與建議………..……189

7-1 結論………..…189

7-2 建議………..…192

參考文獻………..194

附錄一 選股變數的基本分析………..197

附錄二 分類探勘選股………..211

附錄三 迴歸探勘選股………..214

附錄四 聚類探勘選股………..217

附錄五 關聯探勘選股………..221

(10)

圖目錄 圖目錄 圖目錄 圖目錄

圖 1-1 研究架構與流程圖………....8

圖 2-1(a) 預言探勘:建構模型………....11

圖 2-1(b) 預言探勘:使用模型………11

圖 2-2 人工神經元模型………...12

圖 2-3 歸納決策樹………16

圖 2-4 不同的不純度函數之函數值比較………...….17

圖 2-5 不同的不純度函數之函數值比較………20

圖 2-6 階層法:分裂法與結合法………..………..22

圖 2-7 自組織映射圖網路架構圖………23

圖 2-8 自組織映射圖網路的「拓撲座標」觀念………28

圖 2-9 自組織映射圖「鄰近區域」的觀念………28

圖 2-10 自組織映射圖網路「鄰近函數」的觀念………..28

圖 3-1 因變數計算期間………...……….39

圖 3-2 邏輯迴歸的迴歸係數:十個自變數……….42

圖 3-3 邏輯迴歸的迴歸係數:六個自變數……….43

圖 3-4 神經網路的敏感性分析(一階敏感度的平均值)……...……….…..46

圖 3-5 分類樹(CT)的多年模式的分類樹………...……….……….48

圖 3-6 倒傳遞網路(BPN)選股模型下,選股策略之比較………...59

圖 3-7 倒傳遞網路(BPN)選股模型下,年報酬率平均值之比較……….….60

圖 3-8 倒傳遞網路(BPN)選股模型下,年報酬率標準差之比較………60

圖 3-9 倒傳遞網路(BPN)選股模型下,夏普指標之比較………60

圖 4-1 迴歸分析的多年的散佈圖:十個自變數……….62

圖 4-2 迴歸分析的迴歸係數:十個自變數……….62

圖 4-3 迴歸分析的多年的散佈圖:六個自變數……….63

圖 4-4 迴歸分析的迴歸係數:六個自變數……….63

圖 4-5 神經網路的多年的散佈圖 (隱藏單元數=5;學習循環=50)………..64

圖 4-6 神經網路的敏感性分析(一階敏感度的平均值)……….………...…..65

圖 4-7 迴歸樹(RT)的多年模式的迴歸樹……….67

圖 4-8 迴歸樹(RT)的多年的散佈圖……….……..………..68

圖 4-9 倒傳遞網路(BPN)選股模型下,選股策略之比較….………...80

圖 4-10 倒傳遞網路(BPN)選股模型下,年報酬率平均值之比較……….80

圖 4-11 倒傳遞網路(BPN)選股模型下,年報酬率標準差之比較…………..……81

圖 4-12 倒傳遞網路(BPN)選股模型下,夏普指標之比較……….…….……81

圖 4-13 分類探勘與迴歸探勘選股策略之比較………….……….…….……81

圖 5-1 SOM 結果折線圖…….………83

圖 5-2 3×3 收斂圖………...85

圖 5-3 3×3 訓練範例泡泡圖………...85

圖 5-4 3×3 測試範例泡泡圖………...85

圖 5-5-1 3×3 聚類中心點為(1,1)的各變數平均值圖形……….………85

圖 5-5-2 3×3 聚類中心點為(1,2)的各變數平均值圖形……….………85

圖 5-5-3 3×3 聚類中心點為(1,3)的各變數平均值圖形………….………86

圖 5-5-4 3×3 聚類中心點為(2,1)的各變數平均值圖形………….………86

(11)

圖 5-5-5 3×3 聚類中心點為(2,2)的各變數平均值圖形……….………86

圖 5-5-6 3×3 聚類中心點為(2,3)的各變數平均值圖形……….…………86

圖 5-5-7 3×3 聚類中心點為(3,1)的各變數平均值圖形……….…………86

圖 5-5-8 3×3 聚類中心點為(3,2)的各變數平均值圖形……….…………86

圖 5-5-9 3×3 聚類中心點為(3,3)的各變數平均值圖形……….………87

圖 5-6 SOM 的輸出層為 3×3 時各單元的特徵……….……..……….……..88

圖 5-7 7×7 收斂圖………89

圖 5-8 7×7 訓練範例泡泡圖….……….………..90

圖 5-9 7×7 測試範例泡泡圖.………...90

圖 5-10-1 3×3 聚類中心點為(4,7)的各變數平均值圖形……...………90

圖 5-10-2 3×3 聚類中心點為(1,6)的各變數平均值圖形……...………90

圖 5-10-3 3×3 聚類中心點為(6,6)的各變數平均值圖形……...………90

圖 5-10-4 3×3 聚類中心點為(7,2)的各變數平均值圖形……...………90

圖 5-10-5 3×3 聚類中心點為(2,1)的各變數平均值圖形……...………91

圖 5-10-6 3×3 聚類中心點為(5,4)的各變數平均值圖形……...………91

圖 5-11 SOM 的輸出層為 7×7 時各單元的特徵………92

圖 5-12 15×15 收斂圖……….93

圖 5-13 15×15 訓練範例泡泡圖……….93

圖 5-14 15×15 測試範例泡泡圖……….93

圖 5-15-1 3×3 聚類中心點為(4,15)的各變數平均值圖形……...….………90

圖 5-15-2 3×3 聚類中心點為(3,10)的各變數平均值圖形……...…….…………94

圖 5-15-3 3×3 聚類中心點為(1,3)的各變數平均值圖形……...………94

圖 5-15-4 3×3 聚類中心點為(7,3)的各變數平均值圖形……...………94

圖 5-15-5 3×3 聚類中心點為(15,2)的各變數平均值圖形…....………94

圖 5-15-6 3×3 聚類中心點為(14,10)的各變數平均值圖形……...………94

圖 5-15-7 3×3 聚類中心點為(9,7)的各變數平均值圖形……...………95

圖 5-16 SOM 的輸出層為 15×15 時各單元的特徵……….…..96

圖 5-17 SOM 的輸出層為 3×3 時各特徵在輸出層的分佈………..…….97

圖 5-18 SOM 的輸出層為 7×7 時各特徵在輸出層的分佈………..…….98

圖 5-19 SOM 的輸出層為 15×15 時各特徵在輸出層的分佈………..…….98

圖 5-20-1a 特徵聚類圖 1………..…….……….99

圖 5-20-1b 特徵聚類圖 1………..…….……….99

圖 5-20-2a 特徵聚類圖 2………..…….……….99

圖 5-20-2b 特徵聚類圖 2………..…….……….99

圖 5-20-3a 特徵聚類圖 3………..…….……….99

圖 5-20-3b 特徵聚類圖 3………..…….……….99

圖 5-20-4a 特徵聚類圖 4……….……….100

圖 5-20-4b 特徵聚類圖 4……….……….100

圖 5-20-5a 特徵聚類圖 5……….……….100

圖 5-20-5b 特徵聚類圖 5……….……….100

圖 5-20-6a 特徵聚類圖 6……….……….100

圖 5-20-6b 特徵聚類圖 6……….……….100

圖 5-20-7a 特徵聚類圖 7……….……….101

圖 5-20-7b 特徵聚類圖 7……….……….101

(12)

圖 5-20-8a 特徵聚類圖 8……….……….101

圖 5-20-8b 特徵聚類圖 8……….……….101

圖 5-20-9a 特徵聚類圖 9……….……….101

圖 5-20-9b 特徵聚類圖 9……….……….101

圖 5-20-10a 特徵聚類圖 10……….……….102

圖 5-20-10b 特徵聚類圖 10……….……….102

圖 5-21(a) 3×3 各輸出單元的報酬率 Rank 的平均值比較:訓練範例…….…104

圖 5-21(b) 3×3 各輸出單元的報酬率 Rank 的平均值比較:測試範例………104

圖 5-22 訓練範例與測試範例之各輸出單元的報酬率的平均值比較……...104

圖 5-23 訓練範例與測試範例之各聚類的報酬率 Rank 的平均值比較…..…..105

圖 5-24(a) 7×7 各輸出單元的報酬率 Rank 的平均值比較:訓練範例…………108

圖 5-24(b) 7×7 各輸出單元的報酬率 Rank 的平均值比較:測試範例…..…….108

圖 5-25 訓練範例與測試範例之各輸出單元的報酬率的平均值比較.……….108

圖 5-26 訓練範例與測試範例之各聚類的報酬率 Rank 的平均值比較……….109

圖 5-27(a) 15×15 各輸出單元的報酬率 Rank 的平均值比較:訓練範例………113

圖 5-27(b) 15×15 各輸出單元的報酬率 Rank 的平均值比較:測試範例…..….113

圖 5-28 訓練範例與測試範例之各輸出單元的報酬率的平均值比較..………113

圖 5-29 訓練範例與測試範例之各聚類的報酬率 Rank 的平均值比較……….114

圖 5-30-1 3×3 各年度的最佳聚類、最差聚類的報酬率 Rank 的平均值…..…..118

圖 5-30-2 7×7 各年度的最佳聚類、最差聚類的報酬率 Rank 的平均值…..…..118

圖 5-30-3 15×15 各年度的最佳聚類、最差聚類的報酬率 Rank 的平均值…....118

圖 5-31 SOM 選股模型下,訓練期間選股策略之比較………..……….……...123

圖 5-32 SOM 選股模型下,測試期間選股策略之比較………..……….……...124

圖 5-33 SOM 選股模型下,訓練期間年報酬率平均值之比較………124

圖 5-34 SOM 選股模型下,訓練期間年報酬率標準差之比較………124

圖 5-35 SOM 選股模型下,訓練期間夏普指標之比較………125

圖 5-36 SOM 選股模型下,測試期間年報酬率平均值之比較………125

圖 5-37 SOM 選股模型下,測試期間年報酬率標準差之比較…….…………125

圖 5-38 SOM 選股模型下,測試期間夏普指標之比較………….………126

圖 6-1 二分表現法的資料與得到的規則………...……….130

圖 6-2 二分表現法之支持度=1000 下的關聯圖:訓練期間……….132

圖 6-3 二分表現法之支持度=1000 下的關聯圖:測試期間……….133

圖 6-4 三分表現法之支持度=500 下的關聯圖:訓練期間………..141

圖 6-5 三分表現法之支持度=500 下的關聯圖:測試期間………..142

圖 6-6 五分表現法之支持度=300 下的關聯圖:訓練期間……….150

圖 6-7 五分表現法之支持度=300 下的關聯圖:測試期間……….150

圖 6-8 各變數在各時期的影響力………..………..167

圖 6-9 各變數的影響力………..………..167

圖 6-10 關聯規則選股模型下,訓練期間選股策略之比較………..171

圖 6-11 關聯規則選股模型下,測試期間選股策略之比較……….…………..172

圖 6-12 關聯規則選股模型下,訓練期間選股策略之比較…………..………..175

圖 6-13 關聯規則選股模型下,測試期間選股策略之比較……….….………..175

圖 6-14 關聯規則選股模型下,訓練期間選股策略之比較……….…….……..178

圖 6-15 關聯規則選股模型下,測試期間選股策略之比較………….….……..179

(13)

圖 6-16 訓練期間 Lift 平均值比較………..……….180

圖 6-17 測試期間 Lift 平均值比較………..……….180

圖 6-18 訓練期間 Rank 平均值比較……….……..……….182

圖 6-19 測試期間 Rank 平均值比較……….……..……….182

圖 6-20 訓練期間報酬平均值比較……..….……..……….183

圖 6-21 測試期間報酬平均值比較..……….……..……….183

圖 6-22 訓練期間夏普指標比較……..….……..……….184

圖 6-23 測試期間夏普指標比較..……….……..……….184

圖 6-24 一個選股規則的年報酬率之分年評估:股數………..187

圖 6-25 一個選股規則的年報酬率之分年評估:平均值...187

圖 6-26 一個選股規則的年報酬率之分年評估:標準差...187

圖 6-27 一個選股規則的年報酬率之分年評估:夏普指標...188

圖 6-28 關聯規則選股模型下,訓練期間選股策略之比較……….………188

圖 6-29 關聯規則選股模型下,測試期間選股策略之比較……….………188

表 表 表 表目錄 目錄 目錄 目錄

表 1-1 Fama and French 在 1992~1996 年間一系列研究的摘要………..…..3

表 2-1 不同的不純度函數之函數值比較………..………15

表 2-2 Warren Buffertt 選股六點法則歸納表……….………..30

表 2-3 陳榮昌(2002)碩士論文中祧選的 8 個變數………32

表 2-4 張陳穎(2006) 碩士論文中所挑選的 10 個財務變數………34

表 2-5 張陳穎(2006) 碩士論文中集群分析組別與特性………..35

表 3-1 十個自變數的定義……….……….41

表 3-2 邏輯迴歸(十個自變數)的多年的混亂矩陣………….……….……..42

表 3-3 邏輯迴歸(六個自變數)的多年的混亂矩陣……….….……….…….43

表 3-4 倒傳遞網路(BPN)的多年模式結果…….…………..…..……….………..44

表 3-5 神經網路的多年的混亂矩陣(隱藏單元數=5;學習循環=50)..…………44

表 3-6 神經網路的敏感性分析………..………45

表 3-7 分類樹(CT)的多年模式結果……….………..47

表 3-8(a) 1/5 選股報酬率的平均值比較………..…………..50

表 3-8(b) 1/5 選股標準差的平均值比較………51

表 3-8(c) 1/5 選股夏普指數的平均值比較………52

表 3-9(a) 1/10 選股報酬率的平均值比較…….……….………..…………..53

表 3-9(b) 1/10 選股標準差的平均值比較…….……….………54

表 3-9(c) 1/10 選股夏普指數的平均值比較…….…….………55

表 3-10(a) 1/20 選股報酬率的平均值比較…….………...…..…………..56

表 3-10(b) 1/20 選股標準差的平均值比較…….…….…………..………57

表 3-10(c) 1/20 選股夏普指數的平均值比較…….….………..……58

表 3-11 倒傳遞網路(BPN)選股模型下,測試期間選股策略之比較…..………..59

表 4-1 迴歸分析的多年模式結果:十個自變數……….………….61

表 4-2 迴歸分析的多年模式結果:六個自變數……….………….63

表 4-3 倒傳遞網路(BPN)的多年模式結果………64

表 4-4 神經網路的敏感性分析……….……….65

(14)

表 4-5 迴歸樹(RT)的多年模式結果………...67

表 4-7(a) 1/5 選股報酬率的平均值比較………..…………..70

表 4-7(b) 1/5 選股標準差的平均值比較………71

表 4-7(c) 1/5 選股夏普指數的平均值比較………72

表 4-8(a) 1/10 選股報酬率的平均值比較…….……….………..…………..73

表 4-8(b) 1/10 選股標準差的平均值比較…….……….………74

表 4-8(c) 1/10 選股夏普指數的平均值比較…….…….………75

表 4-9(a) 1/20 選股報酬率的平均值比較…….…………..……...…..…………..76

表 4-9(b) 1/20 選股標準差的平均值比較…..….…….…………..………77

表 4-9(c) 1/20 選股夏普指數的平均值比較……...….………..……78

表 4-10 倒傳遞網路(BPN)選股模型下,測試期間選股策略之比較…………..79

表 5-1 資料的分割……...……….83

表 5-2 SOM 的結果…………...………..83

表 5-3 3×3 聚類特徵分析……….……..87

表 5-4 7×7 聚類特徵分析……….……..91

表 5-5 15×15 類特徵分析……….……..95

表 5-6 3×3 各輸出單元的樣本數:訓練範例………103

表 5-7 3×3 各輸出單元的報酬率 Rank 的平均值比較:訓練範例…………...103

表 5-8 3×3 各輸出單元的報酬率的平均值比較:訓練範例………103

表 5-9 3×3 各輸出單元的樣本數:測試範例………103

表 5-10 3×3 各輸出單元的報酬率 Rank 的平均值比較:測試範例………….103

表 5-11 3×3 各輸出單元的報酬率的平均值比較:測試範例…….…………..103

表 5-12 7×7 各輸出單元的樣本數:訓練範例………105

表 5-13 7×7 各輸出單元的報酬率 Rank 的平均值比較:訓練範例…………...105

表 5-14 7×7 各輸出單元的報酬率的平均值比較:訓練範例………….………105

表 5-15 7×7 各輸出單元的樣本數:測試範例……….………106

表 5-16 7×7 各輸出單元的報酬率 Rank 的平均值比較:測試範例…….…….106

表 5-17 7×7 各輸出單元的報酬率的平均值比較:測試範例………….……..106

表 5-18 7×7 各輸出單元的樣本數:訓練範例……….………110

表 5-19 15×15 各輸出單元的報酬率 Rank 的平均值比較:訓練範例…..…...110

表 5-20 15×15 各輸出單元的報酬率的平均值比較:訓練範例……….………110

表 5-21 15×15 各輸出單元的樣本數:測試範例…………..…………..………111

表 5-22 15×15 各輸出單元的報酬率 Rank 的平均值比較:測試範例.……….111

表 5-23 15×15 各輸出單元的報酬率的平均值比較:測試範例………….…..111

表 5-24 15×15 各聚類的報酬率 Rank 的平均值比較……….113

表 5-25 選取股數比較………..115

表 5-26(a) 報酬率 Rank 的平均值比較……….………116

表 5-26(b) 報酬率 Rank 的標準差比較………....………117

表 5-27(a) 報酬率的平均值比較………..119

表 5-27(b) 報酬率的標準差比較………..120

表 5-27(c) 報酬率的夏普指標比較………..121

表 5-28 SOM 選股模型下,訓練期間報酬率 Rank 的平均值比較………122

表 5-29 SOM 選股模型下,訓練期間報酬率 Rank 的標準差比較………122

表 5-30 SOM 選股模型下,測試期間報酬率 Rank 的平均值比較………123

(15)

表 5-31 SOM 選股模型下,測試期間報酬率 Rank 的標準差比較………123

表 6-1 資料的表現:二分表現法…..………128

表 6-2 資料的表現:三分表現法………129

表 6-3 資料的表現:五分表現法………129

表 6-4 資料的分割………129

表 6-5 二分表現法之支持度與關聯規則的關係………...….133

表 6-6 二分表現法之支持度=1000 下的關聯規則:訓練期間.………134

表 6-7 二分表現法之支持度=1000 下的關聯規則:測試期間.………134

表 6-8 二分表現法之支持度=500 下的關聯規則:訓練期間.…..………135

表 6-9 二分表現法之支持度=500 下的關聯規則:測試期間.…………..……135

表 6-10 二分表現法之支持度=300 下的關聯規則:訓練期間…………..……136

表 6-11 二分表現法之支持度=300 下的關聯規則:測試期間.…………..……136

表 6-12 三分表現法之支持度與關聯規則的關係………...….140

表 6-13 三分表現法之支持度=500 下的關聯規則:訓練期間.………142

表 6-14 三分表現法之支持度=500 下的關聯規則:測試期間.………144

表 6-15 三分表現法之支持度=300 下的關聯規則:訓練期間.………145

表 6-16 三分表現法之支持度=300 下的關聯規則:測試期間.……..…..……146

表 6-17 三分表現法之支持度=200 下的關聯規則:訓練期間.………146

表 6-18 三分表現法之支持度=200 下的關聯規則:測試期間.……..…..……147

表 6-19 五分表現法之支持度與關聯規則的關係………...….149

表 6-20 五分表現法之支持度=300 下的關聯規則:訓練期間.………151

表 6-21 五分表現法之支持度=300 下的關聯規則:測試期間.………151

表 6-22 五分表現法之支持度=200 下的關聯規則:訓練期間.………152

表 6-23 五分表現法之支持度=200 下的關聯規則:測試期間.……..…..……154

表 6-24 五分表現法之支持度=100 下的關聯規則:訓練期間.………158

表 6-25 五分表現法之支持度=100 下的關聯規則:測試期間.……..…..……159

表 6-26 各時期的資料數與支持度門檻………..160

表 6-27 三分表現法之支持率=10%資料庫下的關聯規則……….162

表 6-28 三分表現法之支持率=10%資料庫下的關聯規則……….163

表 6-29(a) 三分表現法之支持度=6.7%資料庫下的關聯規則………...164

表 6-29(b) 規則的一致性分析………168

表 6-30 二分表現法的規則普遍性評估:低報酬規則………170

表 6-31 二分表現法的規則普遍性評估:高報酬規則………170

表 6-32 二分表現法的規則選股效益評估:低報酬規則………170

表 6-33 二分表現法的規則選股效益評估:高報酬規則………171

表 6-34 三分表現法的規則普遍性評估:低報酬規則………173

表 6-35 三分表現法的規則普遍性評估:高報酬規則………173

表 6-36 三分表現法的規則選股效益評估:低報酬規則………174

表 6-37 三分表現法的規則選股效益評估:高報酬規則………174

表 6-38 五分表現法的規則普遍性評估:低報酬規則………176

表 6-39 五分表現法的規則普遍性評估:高報酬規則………177

表 6-40 五分表現法的規則選股效益評估:低報酬規則………177

表 6-41 五分表現法的規則選股效益評估:高報酬規則………178

表 6-42 關聯規則普遍性評估…………..………179

(16)

表 6-43 關聯規則選股效益評估………..181

表 6-44 一個選股規則的年報酬率之分年評估………....186

表 7-1 隔年七月起一年報酬率高的股票之特徵………191

表 7-2 隔年一月起一年報酬率高的股票之特徵………192

(17)

第一章 第一章

第一章 第一章 前言 前言 前言 前言

1-1 研究目的 研究目的 研究目的 研究目的

股票市場一直是台灣民眾最熟悉的投資工具之一,近年來隨著外資的開放,

越來越多的法人投入台灣股票市場,相對的散戶投資大眾卻因為資訊不對稱及對 各公司財務指標背後所代表的意義無法透徹了解,以致投資選股績效遠遠低於三 大法人。

依據 Fama(1965) 對效率市場理論存在的三個基本假設:

1. 市場將立即反應新的資訊,調整至新的價位。因此價格變化是取決於新資訊 發生,股價呈隨機走勢。

2. 新資訊的出現是呈隨機性,即好、壞資訊是相伴而來的。

3. 市場上許多投資者是理性且追求最大利潤,而且每人對於股票分析是獨立 的,不受相互影響。

Fama 將效率市場分成三個層級(1970):

 弱式效率市場(Weak Form Efficiency)(技術分析無效)

目前股票價格已充分反應過去股票價格所提供各項情報。所以,投資人無法 在運用各種方法對過去股票價格進行分析,在利用分析結果來預測未來股票價 格,意即投資者無法再利用過去資訊來獲得高額報酬。所以,弱勢效率越高,若 以過去價量為基礎的技術分析來進行預測效果將會十分不準確。

 半強式效率市場(Semi-Strong Form Efficiency)(基本分析無效)

目前股票價格已充分反應於所有公開資訊上,所以,投資者無法利用情報分 析結果來進行股票價格預測而獲取高額報酬。因此,半強勢效率越高,依賴公開 的財務報表、經濟情況及政治情勢來進行基本面分析,然後再預測股票價格是徒 勞無功。

 強式效率市場(Strong Form Efficiency) (內線消息無效)

目前股票價格充分反應了所有已公開和未公開之所有情報。雖然情報未公 開,但投資者能利用各種管道來獲得資訊,所以,所謂未公開的消息,實際上是 已公開的資訊且已反應於股票價格上。此種情形下,投資者也無法因擁有某些股 票內幕消息而獲取高額報酬。

目前學術界對效率市場的一般看法是:

(18)

弱式效率傾向肯定;強式效率傾向否定:

 弱式效率市場假說的實證:可能可以肯定

 半強式效率市場假說的實證:可能可以否定

 強式效率市場假說的實證:幾乎可以否定 成熟的市場較有效率,不成熟的市場較無效率。

 已開發國家的市場大多可以達到「半強式」效率市場;

 開發中國家的市場大多可以達到「弱式」效率市場;

 未開發國家的市場大多無法達到效率市場。

原則上,市場相當有效率,擊敗市場極為困難。

股市的積極投資策略一般來說有擇時和選股二種。本研究主要在發展選股模 型。在選股模型方面,自從 1960 年代初期所發展的資本資產訂價模型(Sharpe, 1964)發表後,只以股票的 ß 預測評估股票未來的績效表現已經被新的理論所挑 戰。例如,Fama and French(1993)提出三因子模型,即由原來的 ß 值加上規模效 應及價值股效應組成三因子模型:

it t i

t i

ft Mt i i ft

it

r α β (r r ) β (SMB ) β (HML ) e

r − = +

1

− +

2

+

3

+

(1-1)

r =有價證券 i 在第 t 年的報酬率 it

rft=第 t 年的無風險報酬率

rMt=第 t 年的市場投資組合報酬率

SMB

t=第 t 年小市值公司股票報酬率減去大市值公司股票報酬率

HML

t=第 t 年高價值公司股票報酬率減去低價值公司股票報酬率

α =第 i 個投資組合截距項 i

β1i=第 i 個投資組合之市場因子係數 β2i=第 i 個投資組合之規模因子係數

β3i=第 i 個投資組合之淨值市價比因子係數 eit=有價證券 i 在第 t 期的殘差

(19)

表 1-1 Fama and French

1992~1996

年間一系列研究的摘要

論文名稱與

年代

摘要

The

Cross-Sectio n of Expected Stock

Returns (1992)

兩個容易衡量的變數,規模和淨值市價比,結合以掌握在證券平 均報酬率中的橫斷面變異,包括市場 β 值、規模、槓桿比率、淨 值市價比、盈利-價格比。此外,當測試允許 β 的變異與規模大小 無關時,市場 β 值和平均利潤的關係是平坦的(PS.可能解釋為關 聯性不高),即使市場 β 是唯一的解釋變數。

Common risk factors in the returns on stocks and bonds (1993)

本文指出關於股票和債券報酬率的五種常見的風險因子。有三個 股票市場因子:一個總體市場因子和公司規模與市價淨值比相關 的因子。有兩個債券市場相關的因子:到期日和違約風險。股票 報酬因為股票市場因子而分得風險,經由在債券市場中的分享變 異而連結到債券報酬。除了低等級的公司外,債券市場因子掌握 了在債券報酬中的變異。最重要的是,這五個因子似乎可以解釋 股票和債券的平均報酬。

Size and Book-to-Mar ket Factors in Earnings and Returns (1995)

我們研究是否股票價格,和規模及股票淨值市價比(BE/ME)有 關,反應了盈餘的行為。與合理定價一致,高 BE/ME 訊號表示後 續低盈餘,低 BE/ME 訊號表示後續高盈餘。此外,股價預測在公 司用規模和 BE/ME 排序後之後觀察到的盈餘成長的反轉。最後,

在盈餘中就像在報酬中,有市場、規模、BE/ME 因子。在盈餘中 的市場和規模因子幫助解釋在報酬的同樣因子,但我們發現在 BE/ME 因子與盈餘及報酬沒有關聯。

Multifactor Explanations of Asset Pricing Anomalies (1996)

先前的研究顯示,股票的平均報酬率和公司的特徵有關,例如規 模、盈餘/價格比、現金流量/價格比、淨值市價比、過去銷售成長、

過去長期報酬,過去短期報酬。因為這些在平均報酬中的樣式顯 然無法被 CAPM 理論解釋,他們被稱為異常。我們發現,除了短 期報酬的連續性,這些異常大多在三因子模型下消失。我們的研 究結果和合理的 ICAPM 及 APT 資產定價一致,但我們也考慮到 不合理定價和數據問題為可能的解釋。

The CAPM is Wanted, Dead or Alive (1996)

Kothari, Shanken, and Sloan (1995)宣稱,年報酬率的 β 值,比起月 報酬率的 β 值,產生更強的介於 β 值和平均報酬之間正關聯。他 們也主張,介於淨值市價比(BE/ME)和平均報酬之間的關係被存 活偏差嚴重地誇大了。我們主張,存活偏差不能解釋介於淨值市 價比(BE/ME)和平均報酬之間的關係。我們也顯示年報酬率的 β 值與月報酬率的 β 值,產生關於 β 值風險溢酬的相同推論。然而,

我們在 β 值風險溢酬的主要觀點是更基本的。在 β 值不能單獨解 釋預期報酬之證據下,它不能拯救資本資產定價模型(CAPM)。

(20)

之後有學者 Carhart(1997)提出四因子模型,即由三因子模型再加上動能效應 組成四因子模型:

it t i

t i

t i

ft Mt i i ft

it

r r r SMB HML WML e

r − = α + β

1

( − ) + β

2

( ) + β

3

( ) + β

4

( ) +

(1-2) WML=贏家組合股票報酬率減去輸家組合股票報酬率

i

β

4 =第 i 個投資組合動能因子係數

之後有學者(Brennan,Chordia and Subrahmanyam 1996),以 1977 年到 1989 年 NYSE 之股票報酬為樣本,研究出流動性因子的特性對股票有顯著的影響力,

因此本研究將四因子模型再加上流動性效應組成五因子模型:

it t i

t i

t i

t i

ft Mt i i ft it

e LIQUID

WML HML

SMB r

r r

r

+ +

+ +

+

− +

=

) (

) (

) (

) (

) (

5

4 3

2 1

β

β β

β β

α

(1-3)

LIQUID=低流動性股票報酬率減去高流動性股票報酬率

i

β

5 =第 i 個投資組合流動性因子係數

這些模型均採用迴歸分析來建立預測模型,受限於迴歸分析不易建立非線性 模型,其預測能力有其限制。近年來,資料探勘(Data Mining)的興起為建立預測 模型提供了更豐富多元的工具(丁一賢、陳牧言 2005),除了迴歸分析之外,類 神經網路 (artificial neural network)(葉怡成 2002)、分類樹 (classification tree) (張 云濤、龔玲 2007)等可以建立非線性預測模型。

過去有許多文獻使用分類或迴歸方法來建立股票評價模型,但大多成效不 佳。究其因,這些研究大多企圖建立一個以絕對的特性值為自變數,如本益比、

淨值報酬率,以絕對報酬率為因變數的預測模型。但因股票市場波動非常劇烈,

在空頭市場時,即使財務報表亮麗的公司,其股票報酬率仍可能是很大的負值。

反之,在多頭市場時,即使財務報表不佳的公司,其報酬率仍可能有相當大的正 值。因此,本研究提出「相對變數」,即不論自變數中的財務報表變數(如本益比、

淨值報酬率等),或因變數(股票報酬率)均以該年度的各個股票的值之相對大小由 小到大排序,給一個 0~1 的值。如此,可以把變數的值域不齊一問題、市場波動 問題解決,建立一個不論股市處於多頭市場、空頭市場均適用的預測模型。

此外,資料探勘除了提供分類、迴歸這二種建立預測模型的工具外,也提供 了聚類(clustering),與關聯分析(association analysis)這二類資料分析方法。本研

(21)

究也將用聚類分析探討股票的風格,以關聯分析探討股票的關聯規則。

本研究將使用資料探勘技術,包括分類、迴歸、聚類、關聯四種技術,發現 隱含在台灣股市歷史資料中的知識。研究目的包括:

1. 探討以具有建立非線性分類、迴歸模型的人工智慧技術,用「相對變數」建 立股票評價模式的績效。

2. 探討以聚類分析股票的風格。

3. 探討以關聯分析建立股票特性間的關聯規則(association rules)。

1-2 研究方法 研究方法 研究方法 研究方法

本論文的研究方法共有 4 大類,分別為分類探勘、迴歸探勘、聚類探勘及關 聯探勘,所採用的選股變數參考五因子理論,包括:

風險因子:ß 值、總負債/總淨值(D/B)

成長價值因子:淨值報酬率(ROE)、淨值市值比(B/P)、成長價值報酬率(GVR) 規模因子:市值

流動性因子:周轉率、成交量、股票價格 動能因子:第 t 年報酬率

因變數則為「第 t+1 年報酬率」。

所採用的資料為 1981 到 2006 年台灣上市公司資料,共計 5756 筆資料。依 資料探勘任務之不同,資料的處理方式如下:

分類與迴歸

在作分類與迴歸時,其中 1981~1999 年共 19 年總計 2791 筆資料作為訓練範 例,2000~2006 年中共 7 年總計 2965 筆資料作為測試範例,每筆範例包括 10 個 自變數(選股變數)與一個因變數(第 t+1 年的報酬率),要注意的是分類及迴歸的 t+1 年的報酬率使用 t+1 年七月到 t+2 年六月的報酬率,以反映年報公佈的時間 差。所有變數均以「排序正規化」轉換成「相對變數」,即不論自變數中的財務 報表變數(如本益比、淨值報酬率等),或因變數(第 t+1 年報酬率)均以該年度的 各個股票的值之相對大小由小到大排序,給一個 0~1 的值。在建立分類模型時,

因變數尚需以 0.5 為界轉化成二元變數{0,1}。最後以分類與迴歸技術建立預測模 型。

(22)

為了探討所建的預測模型是否可提高投資績效,本研究利用第 t 年的資料,

評價股票,然後以「市場的隨機策略」在第 t+1 年初進行交易,即買進評價最高 及最差的 20%股票,並在第 t+1 年末將最佳及最差的股票報酬率平均並結算,市 場的隨機策略可以降低市場波動的風險。

聚類分析

在作聚類分析時,則將 10 個選股變數與一個因變數共計 11 個變數作為聚類 分析的資料集。再以聚類分析產生具有明顯群聚現象的聚類,並分析各聚類組成 股票的共同特性,以分析隱含在其中的股票風格。

關聯分析

在作關聯分析時,則將這 11 個變數使用 5 分法、3 分法及 2 分法,產生 55、

33 及 22 個「項目」,將每一個個股的年資料視為一個「交易」,找出「項目」之

間的關聯規則並探討其績效。

1-2-1 分類探勘 分類探勘 分類探勘 分類探勘

本研究的分類探勘共採取三種方法,倒傳遞網路(BPN)、分類樹(Classification

Tree)、及邏輯迴歸(LR)。資料集的輸入變數、輸出變數均進行「排序正規化」,

即將同一年度的各變數分別由小到到大排序的序號除以總數,得到 0~1 之間的數 值。接著因為是作分類探勘,故須將輸出變數(第 t+1 年的報酬率) 「順序正規化」

後大於 0.5 者轉換成 1,而小於等於 0.5 者轉換成 0,以形成二類類:1 代表其第 t+1 年的報酬率大於當年的報酬率中位數,0 代表小於中位數。

分類探勘的預測模型可以對資料集的樣本預測一個 0~1 之間的數值,以 0.5 為門檻可以得到「混亂矩陣」,及訓練和測試範例的分類正確率。

為了評估分類模型的獲利能力,本研究採用「市場的隨機策略」,在每年年 初,買進評價最高及最差的 20%股票,並將其報酬率平均以計算此一交易在年底 的報酬率。

1-2-2 迴歸探勘 迴歸探勘 迴歸探勘 迴歸探勘

本研究的迴歸探勘共採取三種方法,倒傳遞網路(BPN)、迴歸樹(Regression

Tree)、及迴歸分析(RA),資料集的輸入變數、輸出變數均進行「排序正規化」。

迴歸探勘的預測模型可以對資料集的樣本預測一個數值,可以用來計算繪出「提

(23)

升圖」,及訓練和測試範例的判定係數。為了評估分類模型的獲利能力,本研究 採用前述「市場的隨機策略」。

1-2-3 聚類探勘 聚類探勘 聚類探勘 聚類探勘

給予一組資料,每筆資料有一組屬性的值,找出一個能夠以屬性值將資料聚 類的模式,使得屬於同一聚類內的資料的相似性最大化,不同聚類間的資料的相 似性最小化。本研究將上述由 10 個財務報表變數以及 t+1 年報酬率所組成資料 集,以自組織映射圖(self-organizing map, SOM)發掘具有明顯群聚現象的聚類,

並分析各聚類組成股票的共同特性,以分析隱含在其中的股票風格。例如大漲(或 大跌)的股票有多個聚類(風格)嗎?是否各自代表成長股、價值股、或小型股?成 長股應該搭配市值小或大的公司才容易在隔年大漲呢?具有價值股風格的股票 真的隱含高風險嗎?還有其他值得探討的股票風格(聚類)存在嗎?聚類探勘可 能可以為這些問題提供部份的答案,值得深入探討。

1-2-4 關聯探勘 關聯探勘 關聯探勘 關聯探勘

關聯探勘則是給予一組資料,每筆資料紀錄一些項目,找到能夠以某些項目 出現與否來預測其它項目出現與否的規則。本研究將這 11 個變數使用 5 分法、3 分法及 2 分法,產生 55、33 及 22 個「項目」,將每一個個股的年資料視為一個

「交易」,找出「項目」之間的關聯規則並探討其績效。

例如:

IF 風險低,價值高 THEN 隔年漲 (Support=100,Confidence=60%) IF 風險高,ROE 低 THEN 隔年跌 (Support=100,Confidence=60%)

其中關聯探勘最重要的輸入變數是信賴度(Confidence)和支持度(Support),這兩個 變數影響關聯探勘的成效。

1-3 研究流程 研究流程 研究流程 研究流程

本論文及研究架構與流程繪成圖 1-1 所示。

(24)

圖 1-1

研究架構與流程圖

前言

文獻探討

資料探勘方法建立選股模型

分 類 探 勘

迴 歸 探 勘

聚 類 探 勘

關 聯 探 勘

邏 輯 迴 歸

類 神 經 網 路

分 類 樹

迴 歸 分 析

類 神 經 網 路

迴 歸 樹

探討預測值與實際值的關係

發現顯著的選股變數

評估入選股投資組合的績效 (平均值與標準差)

結論及建議 3×3

自組織 映射圖

7×7

自組織 映射圖

15×15

自組織 映射圖

二 分 法

三 分 法 Apriori 演算法

五 分 法 自組織映射圖

(25)

1-4 研究內容 研究內容 研究內容 研究內容

本研究內容共分七章,各章的內容概述如下:

第二章為文獻回顧,介紹 Data Mining 的四種技術:分類、迴歸、聚類、關 聯,及這些技術在證券投資分析應用的相關文獻。其中分類及迴歸探勘在權益證 券投資分析之應用相關的文獻回顧共有 6 篇,聚類探勘在權益證券投資分析之應 用共有 2 篇,關聯探勘在權益證券投資分析之應用則有 3 篇。

第三章為分類探勘在台灣股市選股的應用,使用倒傳遞網路(BPN)、分類樹 (Classificaton Tree)、及邏輯迴歸(LA)等三種分類探勘方法,以 1981 年到 1999 年 等 19 年的資料作訓練範例,2000 到 2006 等 7 年作測試範例,建立分類預測模 型,並以隨機策略評估各模型的獲利能力。

第四章為迴歸探勘在台灣股市選股的應用,使用倒傳遞網路(BPN)、迴歸樹 (Regression Tree)、及迴歸分析(RA)等三種迴歸探勘方法,以 1981 年到 1999 年 等 19 年的資料作訓練範例,2000 到 2006 等 7 年作測試範例,建立迴歸預測模 型,並以隨機策略評估各模型的獲利能力。

第五章為聚類探勘在台灣股市選股的應用,使用自組織映射圖(SOM),以 1981 年到 1999 年等 19 年的資料作訓練範例,2000 到 2006 等 7 年作測試範例,

建立聚類模型,發掘具有明顯群聚現象的聚類,並分析各聚類組成股票的共同特 性,以分析隱含在其中的股票風格。最後以隨機策略評估各模型的獲利能力。

第六章為關聯探勘在台灣股市選股的應用,使用關聯分析,以 1981 年到 1999 年等 19 年的資料作訓練範例,2000 到 2006 等 7 年作測試範例,建立關連模型,

發掘可以預測股價的關聯規則。最後以隨機策略評估各模型的獲利能力。

第七章為結論與建議,討論四種資料探勘應用於台股的優劣之處,並提供臺 灣股市投資大眾具體的建議。

(26)

第二章 第二章

第二章 第二章 文獻回顧 文獻回顧 文獻回顧 文獻回顧

2-1 前言 前言 前言 前言

資料探勘依其任務可分成下列二大類 (Berry and Linoff 2003, Han and Kamber 2005, 丁一賢、陳牧言 2005,張云濤、龔玲 2007,葉怡成 2008 ):

(一) 描述探勘(Descriptive Data Mining)

描述探勘的目的在建立一個具有描述能力的資訊模型,依被描述的資訊分 成二小類:

聚類探勘(clustering):給予一組資料,每筆資料有一組屬性的值,找出一個 能夠以屬性值將資料聚類的模式,使得屬於同一聚類內的資料的相似性最大 化,不同聚類間的資料的相似性最小化。例如根據表示對某項產品(例如休旅 車)有興趣的顧客的年齡、性別、所得等資料,將顧客區隔成幾個有相同特性 的族群,以利市場行銷。又例如將股票依過去漲跌的記錄區隔成不同的類股。

關聯探勘(association):給予一組資料,每筆資料記錄一些項目,找出能夠以 某些項目出現與否來預測其它項目出現與否的規則。例如買了鐵錘、拔釘器 的交易事件中,有 80%買了鐵釘,便是一條「{鐵錘,拔釘器}{鐵釘} 信 賴度=0.80」的關聯規則。又例如修車廠需要零件 A、B 與 C 的修車事件中,

有 60%也需零件 D 與 E,便是一條「{A,B,C}{D,E} 信賴度=0.60」

的關聯規則。

(二) 預言探勘(Predictive Data Mining)

預言探勘的目的在建立一個具有預言能力的知識模型(圖 2-1),依被預測變 數的性質分成二小類:

分類探勘(classification):給予一組資料(訓練集),每筆資料有一組屬性的值,

與一個類別,找出一個能夠以屬性值將資料正確分類的模式。例如根據個人 的年齡、性別、所得等資料,區別是否是某項產品(例如休旅車)的潛在顧客。

又例如將股票依過去漲跌的記錄分成未來會漲或會跌二類。

迴歸探勘(regression):給予一組資料(訓練集),每筆資料有一組屬性的值,

與一個數值,找出一個能夠以屬性值將資料正確預測的模式。例如根據個人 的年齡、性別、所得等資料,預測其每年的旅遊支出金額。又例如將股票依 過去漲跌的記錄預測未來漲跌幅度。

(27)

資料(x,y)



(輸入變數+輸出變數)



資料探勘





知識(f)



(函數)

第 1 組:x11x12x1k y1

第 2 組:x21x22x2k y2

: : : … : :

第 n 組:xn1xn2xnk yn

) ,..., ,

(x1 x2 xk f

y

=

圖 2-1(a)

預言探勘:建構模型

資料(x)



(輸入變數)



知識(f)



(函數)



資料(y)



(輸出變數)

第 1 組:x11x12x1k 第 2 組:x21x22x2k

: : : … :

第 n 組:xn1xn2xnk

) ,..., ,

(x1 x2 xk f

y

=

y

圖 2-1(b)

預言探勘:使用模型

(

葉怡成

2008 )

2-2 分類探勘 分類探勘 分類探勘 分類探勘

由於股票的評價問題可能具有高度的非線性,因此本研究在方法上除了採 用傳統統計分析中常用的邏輯迴歸,還採用具有建立高度的非線性模型的人工 智慧方法,包括

倒傳遞網路 (葉怡成 2006 )

分類樹 (丁一賢、陳牧言 2005,張云濤、龔玲 2007,葉怡成 2008 )

(28)

分述如下各節。

2-2-1 倒傳遞網路 倒傳遞網路 倒傳遞網路 倒傳遞網路

類神經網路是指模仿生物神經網路的資訊處理系統。類神經網路較精確的 定義為「類神經網路是一種計算系統,包括軟體與硬體,它使用大量簡單的相 連人工神經元來模仿生物神經網路的能力。人工神經元是生物神經元的簡單模 擬,它從外界環境或者其他人工神經元取得資訊,並加以非常簡單的運算,並 輸出其結果到外界環境或者其他人工神經元」(葉怡成 2006)。

神經網路是由許多人工神經元(artificial neuron)所組成,人工神經元又稱 處理單元(processing element)(如圖 2-2 所示)。

圖 2-2

人工神經元模型

每一個處理單元的輸出,成為許多處理單元的輸入。處理單元其輸出值與輸入值 之間的關係式,一般可用輸入值的加權乘積和之函數來表示,公式如下(葉怡成 2006):

)

(

=

i

j i ij

j f W X

Y

θ

(2-1)

其中

Y =模仿生物神經元模型的輸出訊號。 j

f =模仿生物神經元模型的轉換訊號。

W =模仿生物神經元模型的神經節強度,又稱加權值。 ij

Xi

X

2

X

1

Xn

θ

j netj

f Yj

(29)

X =模仿生物神經元模型的輸入訊號。 i

θ

j=模仿生物神經元模型的閥值。

介於處理單元間的訊號傳遞路徑稱為連結(connection)。每一個連結上有一 個數值的加權值W ,用以表示第ij i 處理單元對第 j 個處理單元之影響強度。

一個神經網路是由許多個人工神經元與其連結所組成,並且可以組成各種 網路模式(network model)。其中以倒傳遞網路(Back-Propagation Network,BPN)

應用最普遍。一個 BPN 包含許多層,每一層包含若干個處理單元。輸入層處理 單元用以輸入外在的環境訊息,輸出層處理單元用以輸出訊息給外在環境。此 外,另包含一重要之處理層,稱為隱藏層(hidden layer),隱藏層提供神經網路 各神經元交互作用,與問題的內在結構處理能力。

倒傳遞網路的詳細演算法可參考文獻 (葉怡成 2006)。

2-2-2 分類樹 分類樹 分類樹 分類樹

分類樹是在分類時的決策判斷過程以樹狀結構來表示,其中包含了節點 (nodes)與枝幹(branch)。節點分為內部節點(interior nodes)與末稍節點(terminal nodes),而內部節點表示在作決策時所依據的屬性;末稍節點表示最後分類的類 別。枝幹則表示所對應的屬性,依照屬性的不同將資料區分到不同的枝幹,由 上而下一層層的往下將資料分類,最後形成分類樹(丁一賢、陳牧言2005,張云 濤、龔玲2007,葉怡成2008 )。

分類樹的重要基本概念如下(葉怡成2008,文少宣2004):

屬性(attribute):屬性是影響事物的判斷、分類及預測的特徵。

屬性值配對(attribute-value pair):一個屬性值配對包括屬性與其一特徵值。

決策(decision):決策是對事物的判斷、分類或預測。

範例(example):一個範例包括一群屬性與其值,以及一個決策值。

歸納決策樹(inductive decision tree):歸納決策樹(如圖2-3)是一種樹狀 結構,以屬性作為決策樹分枝之節點,以決策值作為決策樹的樹葉。歸納決 策樹從樹根開始,以分枝節點作測試,將事物分成不同的決策值。

法則(rule):一條IF-THEN法則包含一串條件與一個決策值,每個條件由一個 屬性與其值所構成。

(30)

圖2-3

歸納決策樹

歸納決策樹學習(inductive decision tree learning)是一種機器學習方式,它 從一群隱含特定知識的範例中導出一個包含普遍知識的決策樹。基本的歸納決 策樹學習演算法如下:

步驟 1.樹根分割法則

從樹根處任意選擇一個屬性,並依此屬性所有可能的值產生不同分枝,每一分枝 含有所有該屬性之值同此分枝之值的訓練範例。

步驟 2.分枝判別法則

判別每一分枝:如果分枝中的所有的範例之決策值相同,則稱此分枝為同質分枝,

否則為非同質分枝。如果分枝為同質分枝,則以目前各分枝中佔有最大比例的決策值 做為此分枝之決策值,並結束此分枝。

步驟 3.終止法則

如果所有的分枝均已結束,則輸出歸納決策樹並停止;否則至步驟 4。

步驟 4.分枝分割法則

對每一個未結束的分枝,在該分枝下,任意選擇一個該分枝尚未選擇過的屬性,

同步驟 1的方法產生下一層分枝,回到步驟 2。

樹根節點

樹葉節點

樹葉節點

分枝節點

樹枝 樹枝

樹枝 樹枝

樹葉節點

(31)

顯然不同的屬性選擇順序會導出不同的決策樹,但不同的決策樹中,何者 是最佳的決策樹?也就是不同的屬性選擇順序中,何者是最佳的屬性選擇順 序?一般而言,由知識的「準確性」來看,分枝數目較少、分枝深度較淺,但 仍能反應訓練範例中所隱含的分類知識的決策樹對驗證範例有較佳的預測能 力,因此是較佳的決策樹。此外,由知識的「有用性」與「解釋性」來看,一 個較簡單的決策樹優於一個較複雜者。

許多學者提出一些選擇最佳屬性的方法,即使所得決策樹盡量簡化的方 法。Quinlan 在其所提稱為ID3的歸納學習演算法中,採用資訊理論(Information Theory)中的不純度(impurity)大小作為選擇最佳屬性的方法基礎。基本上,

訓練範例可視為一個離散資訊系統,包括多離散的決策資訊。一個離散資訊系 統Y ={Y1,Y2, ... ,Yn}的不純度函數(impurity function)可定義成如下二種函數:

(1) Gini 函數(Gini-Index function)

=

i

Yi

P Y

Gini( ) 1 ( )2 (2-2)

(2) 熵函數(Entropy function)

=

i

i

i P Y

Y P Y

INFO( ) ( )log2 ( ) (2-3)

不純度函數值越小表示此離散資訊系統的分佈情形越純,例如一個離散資 訊系統 Y = {Y1,Y2,Y3},在不同機率分佈狀況下,各種不純度函數值如表2-1與 圖2-4所示。

表2-1

不同的不純度函數之函數值比較

分佈狀況 機率分佈 不純度函數 備註 P(Y1) P(Y2) P(Y3) 熵 Gini

1 0.34 0.33 0.33 1.58 0.67 極為不純 2 0.9 0.1 0.0 0.469 0.18 相當純化 3 1.0 0.0 0.0 0 0 完全純化

(32)

P(Y1) P(Y2) P(Y3)

極為不純

P(Y1) P(Y2) P(Y3)

相當純化

P(Y1) P(Y2) P(Y3)

完全純化 圖2-4

不同的不純度函數之函數值比較

如果訓練範例用某種屬性X的屬值來作分割,即將原訓練範例依屬性的值分 割成許多個小訓練範例,除非在此訓練範例中,決策和屬性X是完全獨立的,否 則屬性X的屬性值將或多或少影響到決策,因而改變訓練範例中決策值分佈情 形,也就是改變這個離散資訊系統的不同度。令:

(1) E(S|X) 表是用屬性 X 的屬性值分割訓練範例集合 S 下,訓練範例系統的 條件不純度函數 (conditional impurity function)。

(2) P(Xi) 表示在訓練範例集合 S 中訓練範例屬性 X 的屬性值為 Xi 的機率。

(3) P(Yj|Xi) 表示在訓練範例集合 S 中,訓練範例之屬性X 的屬性值為 Xi

下,決策值為 Yj 的條件機率。

則條件不純度函數可依前面所述的不純度函數,定義成如下二種函數:

( )

∑ ∑





=

=

i j

i j i

i

i i

X Y P X

P

X S Gini X

P X

S Gini

] )

| ( 1

[ ) (

)

| ( )

( )

| (

2

(2-4)

( )

∑ ∑





=

=

i

i j j

i j i

i

i i

X Y P X

Y P X

P

X S INFO X

P X

S INFO

)]

| 2 ( log )

| ( [ ) (

)

| ( )

( )

| (

(2-5)

在歸納決策樹演算法中,資訊理論不純度函數的觀念被用來做為決策樹分 割過程中選擇屬性的依據。一個具有較小條件不純度函數值(Gini函數、熵函 數),或較大的「資訊增量」或「資訊增量比率」的屬性,對於訓練範例集合有

(33)

較高的分割能力,也就是有較高的使訓練範例集合純化的能力。因此,在決策 樹分割過程中採下列原則之一做為選擇屬性的依據:

)

| (S X Gini

Min (2-6)

)

| (S X INFO

Min (2-7)

每次分割後,形成了新的分枝。每一分枝包含較分割前為小的訓練範例次 集合,再對每一新分枝之所有未使用過的屬性,重新計算不純度函數值,並再 據以選擇新的決策樹節點分割屬性。此一過程反覆執行,直到每一個次集合均 只含一種決策值為止,則一歸納決策樹便產出來。

因此前述基本的歸納決策樹學習演算法的步驟1與步驟4修改如下:

步驟 1.樹根分割法則

從樹根處選擇一個具有最小條件不純度函數值(或最大資訊增量或資訊增量比率) 的屬性,並依此屬性所有可能的值產生不同分枝,每一分枝含有所有該屬性之值同此 分枝之值的訓練範例。

步驟 4.分枝分割法則

對每一個未結束的分枝,選擇一個具有最小條件不純度函數值(或最大資訊增量或 資訊增量比率)的屬性,並依此屬性所有可能的值產生不同分枝,每一分枝含有所有該 屬性之值同此分枝之值的訓練範例。並回到步驟 2。

上述演算法有幾點補充說明:

1. 連續屬性

當用連續屬性分割決策樹時,決策樹在該節點下分割成兩分枝,一支為小 於等於分界點之分枝,一支為大於分界點之分枝。至於分界點的決定,可預設 若干分界點,以具有最佳分割能力,即不純度函數值最低的分界點,做為該屬 性之分界點。例如選擇屬性X分割決策樹時,設其分界點為V,其Gini函數的條 件不純度函數為

)

| ( )

( )

| ( )

( )

|

(S X P X V Gini S X V P X V Gini S X V

Gini

= ≤ • ≤ + > • >

(2-8)

2. 雜訊處理

當訓練範例中含有不正確的範例時,在產生歸納決策樹的過程中,會造成

參考文獻

相關文件

mathematical statistics, statistical methods, regression, survival data analysis, categorical data analysis, multivariate statistical methods, experimental design.

We explicitly saw the dimensional reason for the occurrence of the magnetic catalysis on the basis of the scaling argument. However, the precise form of gap depends

The thesis uses text analysis to elaborately record calculus related contents that are included in textbooks used in universities and to analyze current high school

The study explore the relation between ownership structure, board characteristics and financial distress by Logistic regression analysis.. Overall, this paper

important to not just have intuition (building), but know definition (building block).. More on

For terminating simulations, the initial conditions can affect the output performance measure, so the simulations should be initialized appropriately. Example: Want to

In our AI term project, all chosen machine learning tools will be use to diagnose cancer Wisconsin dataset.. To be consistent with the literature [1, 2] we removed the 16

We try to explore category and association rules of customer questions by applying customer analysis and the combination of data mining and rough set theory.. We use customer