• 沒有找到結果。

關聯模型

在文檔中 中 華 大 學 (頁 43-68)

4-1 前言

前章中應用分類探勘的目的在於建立一個非線性的預測模型,此模型可以依 樣本的自變數的值產生因變數的預測值。在此模型中,許多自變數可能因自變數 之間的共線性而無法將其對因變數的影響顯現在模型中。關聯分析就是在於發現 潛藏於大量資料中眾多項目之間的關聯,即給予一組資料,每筆資料紀錄一些項 目,找到能夠以某些項目出現與否來預測其它項目出現與否的規則。因此關聯分 析方法的目的在於建立一組預測規則,每一個自變數只要對因變數有影響,都會 顯現在這組規則中的部份規則中。本章將研究如何應用關聯探勘技術來建立台灣 股市在1996~2007 年間以季資料為基礎的關聯模型。

研究的目的有二:

(1) 發現台灣股市在 1996~2007 年間季資料中潛藏的關聯規則。

(2) 從關聯規則中發現獲利大風險低的規則,做為選股依據。

本研究將13 個第 t 季個股基本面與技術面指標變數,以及 1 個第 t+2 季報酬 率,共14 個變數,使用 2 分法產生 28 個「項目」。將每一個個股的季資料視為 一個「交易」,找出「項目」之間的關聯規則,例如:

IF BPR=高,ROE=高 THEN 隔季報酬率=高 (Support=3606,Confidence=54%) IF BPR=低,ROE=低 THEN 隔季報酬率=低 (Support=3772,Confidence=52%) 關聯探勘最重要的控制參數是信賴度(Confidence)和支持度(Support),它們影 響關聯探勘的成效甚鉅。

本章以下共有五個小節:第2 節為方法,說明變數的表現方式,和資料分割 的期間和筆數。第3 節與第 4 節為結果和討論,分別討論以 t+2 季、t+3 季為持 有期下「二分表現法」之結果,並歸納關聯規則的發現,再進行選股的效益與比 較。為了探討所建的關聯模型是否可提高投資績效,利用報酬平均值、報酬標準 差和夏普指數等三方面來評估各種模型選股的效益。第5 節為結語,闡述本章的 總結論及建議。

4-2 方法

本章所用的資料同前章,將1996~2001 的六年間 7638 筆資料作為訓練範例,

2002~2007 的六年間 9838 筆資料作為測試範例。不同的是每一個變數(含自變數 與因變數)均須轉換成二個二元變數,例如 X1 以 0.5 為界,產生二個二元變數:

當0≦X1≦0.5,X1A=1,否則 X1A=0;

當0.5<X1≦1.0,X1B=1,否則 X1B=0。

其餘的自變數X2~X13 與因變數 Y 依此類推(表 4-1)。圖 4-1 為二分法的資 料表現方式。

圖4-1 二分表現法的資料

表4-1 資料的表現:二分表現法

變數 0≦X≦1/2 1/2<X≦1

X1 第 t 季報酬率 X1A X1B

X2 ß 風險因子 X2A X2B

X3 負債權益比 X3A X3B

X4 股東權益報酬率 X4A X4B

X5 成交量 X5A X5B

X6 周轉率 X6A X6B

X7 市值 X7A X7B

X8 股價 X8A X8B

X9 淨值股價比 X9A X9B

X10 成長價值報酬率 X10A X10B

X11 每股淨值 X11A X11B

X12 益本比 X12A X12B

X13 成長價值報酬率(考慮股價淨值比) X13A X13B

Y 第t+2 季報酬率 YA YB

4-3 以 t+2 季為持有期

4-3-1 結果

關聯分析中,要產生關聯規則,有兩個很重要的門檻值,即信賴度(Confidence) 及支持度(Support)。二分法的門檻值設定的原則如下:

 信賴度(Confidence)

一規則的信賴度需滿足所設定的最小信賴度,才能成為關聯規則。二分法 原機率=1/2=50%,於每季期間,我們考慮提升 1.1~1.2 倍,故採用 55%~60%信 賴度作為門檻值。

 支持度(Support)

某一項目組出現的頻率相對於所有記錄而言,必須達到某一水準,才會列入 關聯規則探勘的考慮,這種出現的頻率就是支持度。假設關聯規則有二個條件,

再加上一個結論,則有三個項目。在隨機情況下,三個項目在訓練集(7638 筆) 中出現的樣本數=(1/2)*(1/2)*(1/2)*(7638)=950 左右。同理假設關聯規則有三個條 件,再加上一個結論,則有四個項目。在隨機情況下,四個項目在訓練集(7638 筆)中出現的樣本數=(1/2)*(1/2)*(1/2)(1/2)*(7638)=480 左右。也就是說有二個或 三個條件的關聯規則,其包含的樣本數要有950 或 480 以上才大於隨機,才有資 格算是「大項目集」。實際上,變數間出現與否並非隨機,因此「大項目集」的 標準應大於此值,故本小節選擇了500、750、1000、1500 這四個不同的門檻值 作為Support 值。

表4-2 說明了支持度、信賴度多種組合下與關聯規則的關係。由表 4-2 可知,

在Confidence=60%,Support=750 的門檻值下,結果端為 Y 的關聯規則數在訓練 範例只有1 個﹔在 Confidence=58%,Support=750 門檻值下,結果端為 Y 的關聯 規則數共有20 個。各組參數的組合下,根據關聯規則的多寡,電腦執行時間在 一小時至十幾個小時不等。

表4-2 以

t+2

季為持有期,二分表現法支持度

(Support)

與關聯規則的關係

支持度 1500 1000 1000 1000 750 750 750 500 信賴度(%) 58 60 58 55 60 58 55 58 關聯規則數 2115 7631 8449 9643 12534 13815 15841 20985 結果端為Y

的關聯規則數 0 0 4 52 1 20 174 48

電腦執行時間(分鐘) 16 141 41 167 344 247 109 717 關聯規則數 4983 10429 11459 13418 15675 17253 20262 21865 結果端為Y

的關聯規則數 1 0 12 147 4 34 300 78

電腦執行時間(分鐘) 33 114 120 365 278 278 277 865

二分表現法在各組參數的組合下,再進一步篩選後,我們只列出右側為 Y 的關聯規則。例如某關聯規則為「X4A,X8A,X13B  X9B」,右端並沒有出現我 們所關注的 YA 或 YB 變數,這時我們就不納入這條規則,而若關聯規則為

「X13B,X5A,X2AYB」,此規則右端出現我們關注的 YB,此規則也就是一條 會產生YB「高報酬規則」,此時我們就會將之留下﹔反之若某規則右端出現 YA 時,該規則就是一條「低報酬規則」。故依照此方法,各參數組合下最後剩下右 側為Y 的關聯規則數量有 0、1、4、12、20、34、…、174 個不等。我們可以發 現當使用的信賴度參數太低,會有關聯規則過多,導致無法集中分析有用規則的 狀況﹔當信賴度太高,則會有關聯規則過少,甚至右側無 Y 的相關規則,無法 進行分析狀況。故最後挑選訓練範例結果中存在右側為 Y 的關聯規則且數量適 中的參數組合(Confidence=58%,Support=750)來進行分析,因為此參數組合在訓 練範例與測試範例中皆可以得到一定數量可用且不會過多的關聯規則。

在訓練期間中進行關聯分析於Confidence=58%,Support=750 下發現以下的 關聯規則,而綜合在測試期間發現的關聯規則,將同時出現的關聯規則繪製成關 聯規則圖4-2。由關聯規則整理得知,訓練期間中各變數間相互影響如表 4-3,

測試期間中各變數間相互影響如表4-4,兩期間皆有出現的關聯規則中的各變數 間相互影響如表4-5。

在訓練期間其Confidence=58%,Support=750 下,在關聯右側出現 Y 的關聯 規則如表 4-6;在測試期間其 Confidence=58%,Support=750 下,在關聯右側出 現Y 的關聯規則如表 4-7。表中僅列出右側出現 YA-高報酬或 YB-低報酬的關聯

規則。在訓練範例中有 18 條關聯規則右側出現 YB,其關聯左側有出現 X2A、

X5A、X6A、X6A、X7A、X4B、X10B、X12B、X13B 等,其中信賴度最高的是

「X13B,X5A,X2AYB」。而在測試範例中有 28 條關聯規則右側出現 YB,其關 聯左側有出現X2A、X3A、X6A、X1B、X4B、X7B、X10B、X11B、X12B、X13B 等,其中信賴度最高的是「X10B,X11B,X2AYB」。

4-3 訓練期間關聯規則中各變數間相互影響之關係

受影響的變數 正比之關係 反比之關係

X1 X4、X6、X8 X9

X2 X5、X6、X7、X8、X11 X9、X10

X3 NA X4、X12

X4 X1、X7、X8、X10、X11、X12、X13 X3、X9

X5 X2、X6、X7 NA

X6 X1、X2、X5、X7、X8、X11 X9、X10 X7 X2、X4、X5、X6、X8 X9、X11 X8 X1、X2、X4、X6、X7、X11、X12 X9、X10

X9 X10 X1、X2、X4、X6、X7、X8、X11、X12 X10 X4、X9、X12、X13 X2、X6、X8

X11 X2、X4、X6、X7、X8、X12、X13 X9 X12 X4、X8、X10、X11、X13 X3、X9

X13 X4、X10、X11、X12 NA

表4-4 測試期間關聯規則中各變數間相互影響之關係

受影響的變數 正比之關係 反比之關係

X1 X6 NA

X2 X5、X6、X7 NA

X3 NA X11

X4 X7、X8、X10、X11、X12、X13 NA

X5 X2、X6、X7 NA

X6 X1、X2、X5、X7 NA

X7 X2、X4、X5、X6、X8、X11、X12 X9

X8 X4、X7、X11、X12 X9

X9 X10 X4、X7、X8、X11、X12

X10 X4、X9、X12、X13 NA

X11 X4、X7、X8、X12、X13 X3、X9 X12 X4、X7、X8、X10、X11、X13 X9

X13 X4、X10、X11、X12 -

表4-5 訓練及測試期間皆有出現的關聯規則中各變數間相互影響之關係

受影響的變數 正比之關係 反比之關係

X1 X6 NA

X2 X5、X6、X7 NA

X3 NA NA

X4 X7、X8、X10、X11、X12、X13 X9

X5 X2、X6、X7 NA

X6 X1、X2、X5、X7 NA

X7 X2、X4、X5、X6、X8 X9

X8 X4、X7、X11、X12 X9

X9 X10 X4、X7、X8、X11、X12

X10 X4、X9、X12、X13 NA

X11 X4、X7、X8、X12、X13 X9 X12 X4、X8、X10、X11、X13 X9

X13 X4、X10、X11、X12 NA

圖4-2 二分表現法之支持度

=750

下的關聯圖:於訓練及測試期間皆出現之關聯

表4-8 列出在訓練範例與測試範例的規則中右端出現 YA 或 YB 的情況下統 計出的左端變數出現的次數。由表可知,在訓練集的關聯規則中右端出現YB 下,其關聯規則左側出現的變數,以及在測試集的關聯規則中右端出現YB 下,

其關聯規則左側有出現的變數之交集有X2A、X6A、X4B、X10B、X12B、X13B

等,且其中X2A、X6A、X10B、X13B 出現頻率最高。

圖4-3 顯示當關聯規則右端出現 YB 下,十三個自變數在左端出現的比率。

為了呈現變數大小對於高報酬率的正向與反向關係,製圖時將比率做以下調整:

自變數B 組(即 X1B, X2B,…,X13B)出現之比率維持正值不變,變數 A 組(即 X1A, X2A,…,X13A)出現之比率則轉為負值。

由圖可知,B 組方面 X10B(GVR)、X13B(GVR-考慮 PBR)出現比率最高,

X12B(益本比)、X4B(ROE)其次;A 組方面 X2A (ß 風險因子)為最高,X5A (成交 量) 、X6A (周轉率)其次,故剔除因為沒有在測試範例中出現的變數 X5A 之後,

可知X2A(ß 風險因子低)、X6A(周轉率低)、X10B(GVR 高)、X13B(GVR-考慮PBR 高)此四變數是高報酬股票的重要篩選條件。

表4-6 以

t+2

季為持有期,二分表現法

(Support=750)

的關聯規則:訓練期間

(

Consequent

Antecedent

排序,只列出右側為

Y

的關聯規則

)

Rule # Conf. % Antecedent

(a) Consequent

(c) Support

(a) Support

(c) Support (a U c) Lift 13788 0.5809 X2B,X10A,X4A YA 1317 3827 765 1.1593 13778 0.5813 X2B,X13A,X4A YA 1359 3827 790 1.1602 13703 0.5815 X4B,X10B,X5A YB 1417 3811 824 1.1655 13255 0.5939 X4B,X13B,X2A YB 1342 3811 797 1.1903 13619 0.5837 X4B,X13B,X5A YB 1482 3811 865 1.1698 13552 0.5854 X4B,X5A,X2A YB 1341 3811 785 1.1732 13371 0.5909 X6A,X13B,X2A YB 1430 3811 845 1.1843 13627 0.5834 X6A,X13B,X5A YB 1601 3811 934 1.1692 13336 0.5918 X6A,X13B,X7A YB 1274 3811 754 1.1862 13691 0.5818 X10B,X13B,X2A YB 1791 3811 1042 1.166 13436 0.589 X10B,X13B,X5A YB 1798 3811 1059 1.1804 13651 0.5829 X10B,X5A,X2A YB 1688 3811 984 1.1683 13469 0.5882 X12B,X13B,X2A YB 1520 3811 894 1.1788 13719 0.581 X12B,X13B,X5A YB 1635 3811 950 1.1645 13523 0.5862 X12B,X5A,X2A YB 1445 3811 847 1.1748 13682 0.5821 X13B,X2A YB 1950 3811 1135 1.1665 13375 0.5908 X13B,X2A,X7A YB 1398 3811 826 1.1842 13745 0.5801 X13B,X5A YB 2065 3811 1198 1.1627 12748 0.607 X13B,X5A,X2A YB 1496 3811 908 1.2165 13269 0.5935 X13B,X5A,X7A YB 1545 3811 917 1.1895

表4-7 以

t+2

季為持有期,二分表現法

(Support=750)

的關聯規則:測試期間

(

Consequent

Antecedent

排序,只列出右側為

Y

的關聯規則

)

Rule # Conf. % Antecedent

(a) Consequent

(c) Support

(a) Support

(c) Support (a U c) Lift 16839 0.588 X1A,X10A,X8B YA 1364 4925 802 1.1745 17115 0.5829 X1A,X10A,X9A YA 1477 4925 861 1.1645 17093 0.5834 X1A,X12A,X10A YA 2038 4925 1189 1.1654 17068 0.5839 X1A,X2B,X10A YA 1377 4925 804 1.1663 17043 0.5844 X1A,X3B,X10A YA 1345 4925 786 1.1673 17133 0.5827 X1A,X4A,X10A YA 1814 4925 1057 1.164 16619 0.5902 X2A,X12B,X13B YB 1769 4913 1044 1.1818 16267 0.5965 X2A,X12B,X1B YB 1445 4913 862 1.1945 16943 0.5846 X2A,X4B,X13B YB 1613 4913 943 1.1707 17170 0.5805 X2A,X4B,X1B YB 1435 4913 833 1.1624 15650 0.6077 X6A,X10B,X11B YB 1305 4913 793 1.2168 16831 0.5867 X6A,X10B,X12B YB 1880 4913 1103 1.1748 17003 0.5836 X6A,X10B,X13B YB 1782 4913 1040 1.1687 17189 0.5802 X6A,X10B,X2A YB 1865 4913 1082 1.1617 16377 0.5945 X6A,X10B,X3A YB 1445 4913 859 1.1904 16652 0.5898 X6A,X10B,X4B YB 1553 4913 916 1.1811 17072 0.5824 X6A,X11B,X12B YB 1492 4913 869 1.1663 17084 0.5822 X6A,X12B,X13B YB 1709 4913 995 1.1658 16595 0.5906 X6A,X12B,X3A YB 1297 4913 766 1.1826 17035 0.583 X6A,X2A,X13B YB 1470 4913 857 1.1674 16310 0.5957 X6A,X7B,X12B YB 1264 4913 753 1.1929 15647 0.6078 X10B,X11B,X1B YB 1443 4913 877 1.217 15175 0.6163 X10B,X11B,X2A YB 1358 4913 837 1.2342 16770 0.5877 X10B,X12B,X1B YB 2069 4913 1216 1.1769 16910 0.5851 X10B,X1B,X3A YB 1316 4913 770 1.1716 16982 0.5839 X10B,X2A YB 2615 4913 1527 1.1693 16338 0.5952 X10B,X2A,X12B YB 2001 4913 1191 1.1919 16147 0.5986 X10B,X2A,X13B YB 1796 4913 1075 1.1986 15304 0.614 X10B,X2A,X1B YB 1381 4913 848 1.2296 17002 0.5836 X10B,X2A,X3A YB 1405 4913 820 1.1687 16127 0.599 X10B,X2A,X4B YB 1718 4913 1029 1.1994 16683 0.5894 X10B,X4B,X1B YB 1829 4913 1078 1.1802 17178 0.5804 X10B,X4B,X3A YB 1604 4913 931 1.1623 17020 0.5832 X11B,X2A,X12B YB 1598 4913 932 1.1679

-40.00%

-30.00%

-20.00%

-10.00%

0.00%

10.00%

20.00%

30.00%

40.00%

第t季報酬 ß風險因子 負債權益比 ROE 成交量 周轉率 市值 股價 淨值市值比 GVR 每股淨 盈餘股價比 GVR-修正

左端出現

變數

圖4-3 訓練與測試範例

YB

出現下,十三個自變數左端出現的比率關係

表4-8 以

t+2

季為持有期,在訓練範例與測試範例的規則中右端

YA

YB

出現 下,左端變數出現的次數統計表

訓練範例 測試範例

YA 出現 下,左端出

現的次數

YB 出現 下,左端出

現的次數

YB 出現 下,左端出現

的比率

YA 出現 下,左端出

現的次數

YB 出現 下,左端出

現的次數

YB 出現 下,左端出現

的比率

X1A 0 0 0.00% 6 0 0.00%

X2A 0 10 19.23% 0 14 16.87%

X3A 0 0 0.00% 0 5 6.02%

X4A 2 0 0.00% 1 0 0.00%

X5A 0 11 21.15% 0 0 0.00%

X6A 0 3 5.77% 0 11 13.25%

X7A 0 3 5.77% 0 0 0.00%

X8A 0 0 0.00% 0 0 0.00%

X9A 0 0 0.00% 1 0 0.00%

X10A 1 0 0.00% 6 0 0.00%

X11A 0 0 0.00% 0 0 0.00%

X12A 0 0 0.00% 1 0 0.00%

X13A 1 0 0.00% 0 0 0.00%

X1B 0 0 0.00% 0 7 8.43%

X2B 2 0 0.00% 1 0 0.00%

X3B 0 0 0.00% 1 0 0.00%

X4B 0 4 7.69% 0 6 7.23%

X5B 0 0 0.00% 0 0 0.00%

X6B 0 0 0.00% 0 0 0.00%

X7B 0 0 0.00% 0 1 1.20%

X8B 0 0 0.00% 1 0 0.00%

X9B 0 0 0.00% 0 0 0.00%

X10B 0 4 7.69% 0 18 21.69%

X11B 0 0 0.00% 0 5 6.02%

X12B 0 3 5.77% 0 10 12.05%

X13B 0 14 26.92% 0 6 7.23%

合計 6 52 100.00% 18 83 100.00%

4-3-2 選股效益比較

為了解關聯規則作為選股依據的投資績效,本研究進行下列評估:

(1) 將測試範例所產生的關聯規則投入到測試期間來驗證「測試範例」所產生的 規則的獲利能力。結果整理如表 4-9。由表可知,測試期間由關聯規則右端 為 YA 的低報酬規則選出的股票的第 t+2 季報酬率平均值為 1.33%,標準差 的平均值為 26.39%;而右端為 YB 的高報酬規則的季報酬率平均值為 6.81%,標準差的平均值為 23.44%,兩組報酬率差距 5.48%,選股效果明顯。

且YB-高報酬率組較大盤測試期間的整體平均值 4.78%,標準差 26.23%,好 了很多。以Sharp 指標來論,YB-高報酬率組 Sharp 指標值平均值為 0.291,

優於大盤的 0.182。故使用測試期間得到的關聯規則在測試期間本身的表現 相當優異。

表4-9 「測試範例」產生的規則在「測試期間」的

t+2

季報酬率平均值

Rule # Antecedent (a)

Consequent (c)

t+2 季報酬率 平均值u %

t+2 季報酬率 標準差s %

Sharpe 值

=u/s 17068 X1A,X2B,X10A YA 1.19 25.53 0.047 17043 X1A,X3B,X10A YA 1.87 28.46 0.066 17133 X1A,X4A,X10A YA 2.03 27.32 0.074 16839 X1A,X10A,X8B YA 0.78 23.80 0.033 17115 X1A,X10A,X9A YA 0.34 25.12 0.013 17093 X1A,X12A,X10A YA 1.79 28.10 0.064

YA 平均 1.33 26.39 0.051

16619 X2A,X12B,X13B YB 6.48 22.61 0.287 16267 X2A,X12B,X1B YB 6.71 23.17 0.290 16943 X2A,X4B,X13B YB 6.70 24.25 0.276 17170 X2A,X4B,X1B YB 6.16 22.56 0.273 15650 X6A,X10B,X11B YB 6.58 21.73 0.303 16831 X6A,X10B,X12B YB 6.96 23.78 0.293 17003 X6A,X10B,X13B YB 8.10 27.85 0.291 17189 X6A,X10B,X2A YB 6.49 24.85 0.261 16377 X6A,X10B,X3A YB 7.38 23.70 0.311 16652 X6A,X10B,X4B YB 6.92 23.12 0.299 17072 X6A,X11B,X12B YB 5.24 21.08 0.249 17084 X6A,X12B,X13B YB 6.87 24.07 0.285 16595 X6A,X12B,X3A YB 6.05 21.22 0.285 17035 X6A,X2A,X13B YB 6.82 27.66 0.246 16310 X6A,X7B,X12B YB 5.45 20.19 0.270 15647 X10B,X11B,X1B YB 7.74 23.74 0.326 15175 X10B,X11B,X2A YB 6.72 20.99 0.320 16770 X10B,X12B,X1B YB 7.49 24.41 0.307 16910 X10B,X1B,X3A YB 6.86 24.39 0.281 16982 X10B,X2A YB 6.99 25.22 0.277 16338 X10B,X2A,X12B YB 6.69 22.26 0.300 16147 X10B,X2A,X13B YB 7.69 26.61 0.289 15304 X10B,X2A,X1B YB 8.06 25.49 0.316 17002 X10B,X2A,X3A YB 6.61 22.87 0.289 16127 X10B,X2A,X4B YB 6.96 22.23 0.313 16683 X10B,X4B,X1B YB 7.53 23.93 0.315 17178 X10B,X4B,X3A YB 6.98 21.79 0.321 17020 X11B,X2A,X12B YB 5.54 20.65 0.268

YB 平均 6.81 23.44 0.291

整體平均 4.78 26.23 0.182

(2) 將訓練範例所產生的關聯規則投入到測試期間來驗證,如果表現仍然良好,

我們可以更為確信關聯分析的效果。由訓練範例所得依關聯規則左側選股,

右側為 Y 的各關聯規則中,同樣分為 YA-低報酬率組與 YB-高報酬率組兩 組,我們想要得知此兩組訓練範例所產生的關聯規則在測試期間中獲利能力 的差異性,結果整理如表4-10。由表可知,在測試期間中,由訓練範例所產 生的關聯規則右端為YA 的低報酬規則選出的股票的第 t+2 季報酬率平均值 為 2.507%,標準差的平均值為 27.30%,而右端為 YB 的高報酬規則的季報 酬率平均值為6.84%,標準差的平均值為 26.57%,兩組報酬率差距 4.33%,

在文檔中 中 華 大 學 (頁 43-68)

相關文件