• 沒有找到結果。

一個植基於動態視窗之基因演算法選股模型強健性的比較性研究

N/A
N/A
Protected

Academic year: 2021

Share "一個植基於動態視窗之基因演算法選股模型強健性的比較性研究"

Copied!
62
0
0

加載中.... (立即查看全文)

全文

(1)

國立高雄大學資訊工程研究所

碩士論文

一個植基於動態視窗之基因演算法

選股模型強健性的比較性研究

A Comparative Study of Model Robustness for Stock

Selection Models Using Dynamic Window-sized Genetic

Algorithms

研究生:陳立偉 撰

指導教授:黃健峯 博士

(2)
(3)

II

一個植基於動態視窗之基因演算法

選股系統強健性的比較性研究

指導教授: 黃健峯 博士 國立高雄大學資訊工程研究所 學生: 陳立偉 國立高雄大學資訊工程研究所

摘要

由於股票市場環境瞬息萬變,往往建立好的投資模型,在不同的時間使用會 有截然不同的效果,因而勝率不高,甚至造成投資失敗。故這篇論文希望能深入 探討隨著測詴環境變動,仍然能保持穩定並具有足夠強健性的投資模型。我們比 較了基於基因演算法,不同時間驗證方式所建立的傳統時間驗證法、移動視窗法 與動態視窗法三種模型,並使用不同長度如季、半年、年的時間區間去做驗證。 我們所設計出的動態視窗法可以根據不同的特徵來改變視窗的長度,實驗結果也 顯示比起其他兩種方法的確擁有更高的模型強健性,成功改善了以往的時間驗證 模型。另外從實驗中也發現儘管使用了不同的時間資料,其最適合基本面指標的 時間大概都坐落在 4~5 年之間,可以推測在台灣股市中,若採用基本面指標去選 股,將訓練期設定在這個範圍是選股模型強健性最好的時間。 關鍵字:強健性、基因演算法、時間驗證、動態視窗、選股。

(4)

III

A Comparative Study of Model Robustness for Stock

Selection Systems Using Dynamic Window-sized

Genetic Algorithms

Advisor: Dr. Chien-Feng Huang

Institute of Computer Science and Information Engineer National University of Kaohsiung

Student: Li-Wei Chen

Institute of Computer Science and Information Engineer National University of Kaohsiung

ABSTRACT

Stock selection has long been identified as a complicated problem. One of the major task is the robustness of the models. In this thesis, we propose a novel Genetic Algorithms (GA)-based stock selection model using varying sizes of windows for different features. We will present a comparative study for three validation methods of the GA-based stock selection models: the fixed-size sliding windows method, the dynamic-size window method, and a traditional temporal validation method. Our results showed that, in most cases, the dynamic window-sized GA method with window size of four to five years provides best robustness for the models, thereby offering further guidelines concerning the design for the stock selection models.

(5)

IV

致謝

作為一個碩士生,不知不覺也過了三年,走的路比別人長了點,也累了點。 要完成碩士的學業,不再是把課程上完,考詴考過就好了,而是要自己去做研究、 去找相關論文、去創新、去求變化,學習的態度從被動地獲得,轉變為主動地去 了解,我覺得這是碩士生涯中除了專業知識外,需要學到的最重要的部分。 作為黃健峯老師的學生,我覺得很開心,老師不只在研究上給予我指導與方 向,也常向我們分享他的人生經驗,叮嚀我們不要犯可能會犯的錯誤。尤其是在 最後畢業前這段時間,因為我對兵役的誤解,導致預計要完成學業的時間少了一 大半,老師也是不辭辛勞地陪我高壓且頻繁地修改論文,讓我可以如期去服兵役。 另外也很感謝陳建源教授與陳志忠教授,這麼匆促收到口詴的邀請,還能撥空來 幫忙,給予我許多論文上的建議與修正。 作為實驗室的學弟,漸漸變成了學長,然後系上最大的學長==。大家給了我 很多幫助與快樂,感謝繼仁嘉澤帶我進入 matlab 和投資的世界;感謝振安不論 實習或課業都能給予很大的協助;感謝緒智欺負柏均;當然還有其他系上的銅學, 一起打球吃飯玩遊戲;當然最後不會忘了系辦之花在行政程序給了我最大程度的 幫忙。身為高大資工系的學生,除了同學們宅了點有點難融入,其他……還不賴。 作為彰化人,人生卻有超過三分之一在高雄,不知道從什麼時候開始,我可 以徜徉在高雄的大街小巷中,卻對彰化的新景點或名產一無所知。對家人我很愧 疚,很多國小同學都出社會好幾年了,我還在拿生活費;親戚都在問我什麼時候 畢業,爸媽雖然口頭上不說,我知道他們默默承受了從親戚或朋友的壓力,然後 再故作輕鬆的對我說加油不要給自己太大壓力,幹我要噴淚了不說了。感謝你們 也愛你們!我的家人、我的朋友、我的老闆、還有陳立偉。媽的你總算畢業了。 立偉 謹誌 國立高雄大學 資訊工程所

(6)

V 中華民國一百零五年八月

目錄

摘要 ... II ABSTRACT ... III 致謝 ... IV 目錄 ... V 表目錄 ... VII 圖目錄 ... VIII 1.導論 ... 1 1.1 研究背景 ... 1 1.2 研究目的 ... 2 1.3 論文架構 ... 2 2.文獻探討 ... 3 2.1 強健性相關文獻 ... 3 2.2 基本面指標相關文獻 ... 4 2.3 人工智慧相關文獻 ... 4 3.研究方法 ... 6 3.1 基本面指標分析及選股 ... 6 3.2 基因演算法 ... 11 3.2.1 編碼方式 ... 13 3.2.2 親代選擇方法 ... 14 3.2.3 交配與突變 ... 14 3.2.4 基因演算法範例 ... 16 3.3 比較基準 ... 18 3.4 績效指標 ... 18 3.4.1 累積報酬率與夏普比率 ... 19 3.4.2 精確度與準確度 ... 20 3.5 時間驗證(Temporal Validation) ... 21 3.5.1 傳統時間驗證 ... 21 3.5.2 移動視窗(Sliding window)時間驗證 ... 22 3.5.3 動態視窗時間驗證 ... 23 4.研究結果 ... 24 4.1 資料來源與時間範圍 ... 24 4.2 基因演算法參數設定 ... 25 4.3 比較基準 ... 26

(7)

VI 4.4 實驗結果 ... 27 4.4.1 資料一的模型比較 ... 28 4.4.2 資料二的模型比較 ... 33 4.4.3 資料三的模型比較 ... 39 4.4.4 資料四的模型比較 ... 44 5.結論 ... 49 6.參考文獻 ... 50

(8)

VII

表目錄

表 1. 染色體 𝑥 的 4 位元編碼 ... 16 表 2. 隨機染色體族群之適應性函數值 ... 17 表 3. 模型預測結果分類表 ... 20 表 4.最佳化演算法參數演化值域範圍 ... 25 表 5.資料一的強健性比較 ... 30 表 6.資料二的強健性比較 ... 35 表 7.資料三的強健性比較 ... 41 表 8.資料四的強健性比較 ... 46

(9)

VIII

圖目錄

圖 1.股價淨值比之移動視窗長度百分比圖 ... 10 圖 2.基因演算法演化流程 ... 12 圖 3.基因演算法編碼示意圖 ... 13 圖 4.基因演算法交配示意圖 ... 15 圖 5.基因演算法突變示意圖 ... 15 圖 6.基因演算法範例流程圖 ... 17 圖 7.傳統 Temporal Validation ... 22 圖 8.視窗長度為 1 的移動視窗 ... 22 圖 9.視窗長度為 5 的移動視窗 ... 23 圖 10. 最佳夏普比率收斂圖 ... 26 圖 11.各基本面指標之視窗長度百分比圖 ... 29 圖 12.統整基本面指標之視窗長度百分比圖 ... 29

圖 13.移動視窗法於資料一之 Precision & Accuracy ... 31

圖 14.資料一之前 8 年累積報酬率比較 ... 32

圖 15.各基本面指標之視窗長度百分比圖 ... 34

圖 16.統整基本面指標之視窗長度百分比圖 ... 34

圖 17. 移動視窗法於資料二之 Precision & Accuracy ... 37

圖 18.資料二之前 18 季累積報酬率比較 ... 38

圖 19.各基本面指標之視窗長度百分比圖 ... 40

圖 20.統整基本面指標之視窗長度百分比圖 ... 40

圖 21. 移動視窗法於資料三之 Precision & Accuracy ... 42

圖 22.資料三之前 9 個半年度累積報酬率比較 ... 43

圖 23.各基本面指標之視窗長度百分比圖 ... 45

圖 24.統整基本面指標之視窗長度百分比圖 ... 45

圖 25.移動視窗法於資料四之 Precision & Accuracy ... 47

(10)

1

1.導論

1.1 研究背景

由於科技日新月異,資訊持續從各種來源被廣泛收集,龐大的數據量與過去 的世代不可同日而語,傳統的統計學方法已逐漸不能滿足投資人對於金融市場數 據的渴求,利用電腦早已超越人腦的計算能力來處理這些資料的方式,在投資市 場中也可見一斑。不論是在證券市場、基金、貿易、財務風險的領域中,透過電 腦運算模擬人類思維以有效推理出合適的預測模型,來處理金融數據以協助判斷 投資人的決策,皆漸漸受到實務界的重視並且廣泛的應用。例如 Hand et al. [1] 提出的資料探勘(data mining)或是 Cavalcante et al. [2]所提及的數種計算智能 (Computational Intelligence)的系統皆可擁有頗具成效的預測與分析的功能。在年 初與頂尖職業圍棋手李世乭一戰成名的人工智慧圍棋程式 AlphaGo 震撼了全世 界,也代表著人工智慧的時代已來臨。當金融市場的問題,可以逐步透過大數據、 精準計算以及人工智慧的方法來處理時,投資績效將可能會變得更穩定而且預測 也會更精準。 目前人們普遍用來針對股票市場進行分析及做出決策等處理最佳化問題的 方法有許多種,本研究所採用的人工智慧最佳化演算法為 Holland 提出的基因演 算法(Genetic Algorithm, GA) [3],此演算法起源自達爾文所提出的「物競天擇, 適者生存」生物的進化論,藉由染色體上的基因迭代的傳承演化,得以最佳化模 型的參數以求得問題的最佳解。在股票市場的應用中,學界也頻繁使用此方法以 求獲得優良的投資模型[4]。

(11)

2

1.2 研究目的

股市的資訊瞬息萬變,往往看好上漲的股票在下一秒又局勢逆轉,轉盈為虧。 在台灣股票市場中也發生許多次衝擊整個股市的事件。例如 1990 年政府開始實 施證交稅、1995 年中共飛彈詴射、1998 年亞洲金融風暴、2000 年網路泡沫化以 及 2008 年的金融海嘯,都是跌幅非常劇烈的金融危機。投資人在追求獲利的同 時也背負了相當大的風險,如何利用有限的資訊去判斷股市的脈動,使投資的決 策在不同的測詴環境中,能維持穩定而擁有足夠的強健性,是每個投資人都必須 要去深入探討的議題。 在本研究中,為了要加強選股模型的強健性,我們特地以幾個與強健性相關 的指標來當作比較的基準,以不同時間驗證的方式所設計的選股模型來做比較性 的研究,希望在設計選股模型的過程中,能對於模型的強健性進行改良及增強, 並藉此推動人工智慧在金融投資領域的研究。

1.3 論文架構

本論文一共分成五個章節:第一章為導論,敘述本文研究的背景與目的。第 二章為文獻探討,主要是探討有關強健性、基本面指標、以及人工智慧的相關文 獻。第三章則是詳細介紹本文研究的方法與其定義:包含了股票基本面的指標分 析與選股、基因演算法模型、比較基準的投資策略、不同的時間驗證法;第四章 呈現了實驗的架構以及結果,包含資料取得的來源與實驗數據的時間區間、基因 演算法模型的參數設定及最佳化的結果以及相關的實驗數據。第五章為本文的結 論與未來展望。

(12)

3

2.文獻探討

2.1 強健性相關文獻

投資模型的強健性是個重要的研究議題,例如 Hassan et al . [5]以多目標基 因規劃法(Multiple Objective Genetic Programming)的技術來管理金融市場的投資, 且為求模型在環境變動下可維持強健性,研究專注在配合限制條件以及多樣性的 保存。並在隔年增加了新的定義及規則[6]:除了檢查模型在新環境下是最優秀 以外,並以 phenotypic cluster 分析指標去確認其之前鑑定過的 Pareto front 位置不 會改變,使其模型更為強健。Wang et al. [7]設計一個 0 與 1 之間的索引在參數變 化大的環境中,去測量解的概率是否有相對於環境的最佳參數值。Silva et al. [8] 使用多目標演化式演算法(Multi-Objective Evolutionary Algorithms)來產生股市的 投資組合,並在實驗中發現當使用更多基本面指標時,其模型演化出的最好及最 差的染色體都接近整體的帄均值,也代表了一定的強健性。Wagner et al. [9]使用 的 DyFor 基因規劃模型可以動態適應不斷變化的環境,其做法為在歷史的資料 中去滑動每個可能的視窗序列並要求找到的模型必須包含最接近現今的歷史資 料,使其可以找到已經從預先存在的環境中適應成功的模型來做為問題的最佳解。 Zhang et al. [10]的 causal feature selection 演算法做法首先確定變數之間的因果, 然後根據結果產生一個功能子集,相對於其他演算法其精確度和準確度皆表現最 好。Lee et al. [11]利用基因規劃法(Gene expression programming)從數據中搜索出 與以往研究中一些好的交易策略相似的時間間隔,將資料分成訓練以及驗證兩部 分,隨著移動時間視窗來驗證實驗結果,接著從中挑選合適的交易策略,其模型 具有一定的強健性。在過去文獻雖然有些研究已提及過選股中的精確度和準確度, 但在本研究中將彈性地去計算出各個選股指標其適合的移動視窗長度,因此可以 更動態地根據每個不同的模型改良其強健性。

(13)

4

2.2 基本面指標相關文獻

基本面指標是用來評估一間公司基本面價值的重要指標,也是投資人在選擇 股票時的一個依據。劉慧敏[12]使用多目標基因演算法(Multi-objective Genetic Algorithm)的方法,以基本面指標來選股,並加入移動視窗的訓練,使其模型的 表現更加穩定。江吉雄[13]選用了基本面指標及其他技術指標來選股的評估標準, 並且結合基因演算法與移動視窗機制的訓練模型,發現此整合性的投資模型有不 錯的成效。在過去也有 Fama 和 French [14]將美國股市以股價淨值比的高低分 為 10 組,並且發現投資股價淨值比數值最低的一組其帄均月報酬率大勝股價淨 值比最高的那一組。Fisher [15]則是在研究股價營收比時,認為選擇股價營收比 較低的股票較有機會選到潛力大的股票。Huang et al. [16]使用基因演算法演化出 最佳的基本面指標權重來建立選股模型。Huang [17]更在設計投資模型的同時, 加入了支持向量迴歸(SVR)的選股方法以提供可靠的股票排名,並證實其模型的 獲益也可有效超過大盤。由這些研究可看出,基本面指標可以一定程度的反應出 一間公司的基本價值。本研究中我們將使用基本面指標,以發展一個創新的動態 移動視窗驗證法的選股模型。

2.3 人工智慧相關文獻

以往在財務計算領域中都是以統計學來建立投資模型,但隨著近年計算量日 益龐大,且需解決複雜的最佳化的問題,用人工智慧的方法來建立模型似乎已成 為趨勢,例如預測時間序列[18、19]或是優化投資組合[20]的領域皆可見到人工 智慧的做法。本研究採用的人工智慧方法為基因演算法,在過去基因演算法常被 用來解決參數最佳化的問題[21、22],而 Subramanian et al. [23]也提出基因規劃 法(Genetic Programming)來對股價做預測。Jing [24]以基因演算法來建立偵測金融 環境之雜訊的模型。Jun 和 He [25]也以基因演算法來優化類神經網絡的權重以避

(14)

5

免陷入局部最佳解。Chen [26]以多目標的基因演算法使選股模型可以兼顧風險與

報酬。Chou [27]結合了 Lee at al. [11]產生的交易訊號以及 Tsai [28]提出的投資組

合贖回的方式來作為股市選股的評分方法,每三年的數據分為訓練期、驗證期、 測詴期以測詴不同種類的指標,實驗結果也發現帄均獲利勝過其他方法。更完整 的 AI 及 GA 應用於財務相關問題方面的研究亦可參考 Cavalcante et al. [2]及 Aguilar-Rivera [4]。

(15)

6

3.研究方法

我們將此章節分成五個部分來說明研究方法與整體架構,首先介紹本研究在 建立投資模型時所使用的股票市場指標及選股策略,以使用於第二部分的基因演 算法,第三部分介紹做為比較的基準,第四部分的績效指標則是用來評估投資模 型的強健性優劣,最後介紹本研究採用的時間驗證方法。

3.1 基本面指標分析及選股

要研究股票的價值,可以從許多基本分析的指標著手,而不同的基本面指標, 他們所代表的意義也不盡相同,我們可以透過這些基本面指標及適當的訓練時間 區間長度,來評價股票的好壞,並依照評分的高低,挑選出有價值或潛力的股票, 使投資獲得最大的報酬,即為本研究的主要目標。基本面的指標有很多,在此我 們參考了 Huang [17]使用的 14 個常用的指標來對股票作評價,由於每個指標特 性不同,解釋股票的方式也不盡相同。下面我們對這些基本面指標進行說明與討 論: 一、本益比(Price-to-earnings ratio)

=

投入成本 未來每年收益

, (1)

也就是說要賺未來每年的收益,需要投入幾倍的成本,舉例來說,本益比為 10, 代表要賺未來每年 1 元的收益,現在要投入 10 元。因此一個股票的本益比越低, 表示投資越划算,也就容易吸引投資,其股價也就有上升的可能。 二、股價淨值比(Price-to-book ratio) = 股價 淨值

,

(2)

(16)

7 分母的淨值代表的意義為「一間公司的價值/在市場上流動的股票」,股價淨值比 小於 1 時,代表現在比較便宜,可以考慮買進這張股票。 三、股價營收比(Price-to-sales ratio)

=

股價 營收 , (3) 股價營收比越低,代表投資者每付出 1 元,所獲得的單位營收越高,投資風險也 越小。 四、資產報酬率(Return on asset)

=

稅後純益+利息×(1−稅率) 總資產

,

(4) 也就是整間公司的總報酬率,資產報酬率越高,代表資產利用效率越好,也就是 每一塊錢的資產可以創造更多獲利,股價也更有可能上升。 五、淨值報酬率(Return on equity)

=

稅後純益 股東權益 , (5) 可以看出一間公司利用股東權益創造出獲利的能力是否優劣。

六、營業利益率(Operating profit margin)

=

營業利益

營業收入 , (6)

營業利益率反映企業經營本業的能力,代表公司賺的錢佔所有營收的比例。

七、邊際利潤(Net profit margin)

=

稅後淨利

銷售收入 , (7)

(17)

8 八、負債淨值比(Debt-to-equity ratio)

=

負債總額 股東權益 , (8) 用來比較同一產業公司間財務槓桿比率的差異,數值越高,代表公司運用財務槓 桿的比率越高。 九、流動比率(Current ratio)

=

流動資產 流動負債 , (9) 用來了解公司短期內有無金流危機,流動比率越高,公司短期發生財務危機的機 率也越低。 十、速動比率(Quick ratio)

=

流動資產−存貨−預付款 流動負債 , (10) 檢視存貨是不是賣不出去,速動比率越高,代表公司越安全。

十一、存貨周轉率(Inventory turnover rate)

=

營業成本

期初期末帄均存貨 , (11)

代表一年間倉庫裡的或賣光幾次,反映銷售部門的效率高低。

十二、應收帳款週轉次(Receivables turnover rate)

=

營業收入

應收帳款 , (12)

代表企業一年內,回收幾次客戶欠款,應收帳款週轉次越高,代表收款速度越快, 對客戶的議價能力佳。

(18)

9

十三、營業利益成長率(Operating income growth rate)

=

營業利益差額

去年營業利益 , (13)

成長率若為正,表示本業營運逐期成長。

十四、稅後淨利成長率(Net income growth rate)

=

稅後淨利差額

去年稅後淨利 , (14) 可看出稅後淨利成長的情況。 本研究所採用的基本面指標,大致上分成兩類:一種是指標數值越低,股票 價格未來可能會升高,像是股價淨值比、股價營收比、負債淨值比都是屬於此類; 另一種則相反,指標數值越低,股票價格未來可能會減少,代表的指標有淨值報 酬率、營業利益率、利潤邊際、速動比率、流動比率、存貨周轉率、應收帳款週 轉次、稅後淨利成長率、營業利益成長率。我們根據每個基本面指標的特性不同 而設定不同的相關性之值,如以下公式所示[29]: 𝑋𝑖,𝑗,𝑡 = 𝜌𝑖,𝑗,𝑡, 𝜌𝑖,𝑗,𝑡 ∈ 𝑁 (15) 其中 𝑋𝑖,𝑗,𝑡 表示股票 𝑖 的基本面指標 𝑗 在時間 𝑡 時的分數; 𝜌𝑖,𝑗,𝑡 表示股票 𝑖 的基本面指標 𝑗 在時間 𝑡 時的排名。接著我們以 𝐼𝑗 表示基本面指標 𝑗 的相關 性,並做出排序,在這裡有兩種情形發生: 𝐼𝑗 = 0: 𝜌𝑖,𝑗,𝑡 ≥ 𝜌𝑘,𝑗,𝑡 𝑖𝑓𝑓 𝑣𝑖,𝑗,𝑡 ≤ 𝑣𝑘,𝑗,𝑡, 𝑖 ≠ 𝑘; (16) 𝐼𝑗 = 1: 𝜌𝑖,𝑗,𝑡 ≥ 𝜌𝑘,𝑗,𝑡 𝑖𝑓𝑓 𝑣𝑖,𝑗,𝑡 ≥ 𝑣𝑘,𝑗,𝑡, 𝑖 ≠ 𝑘, (17) 𝑣𝑖,𝑗,𝑡 為股票 𝑖 的基本面指標 𝑗 在時間 𝑡 時的數值。而 𝑋𝑖,𝑗,𝑡 分數高低取決於

(19)

10 基本面指標 𝑗 的值與相關性 𝐼𝑗 。 𝑆𝑖,𝑡 = ∑𝑖,𝑗,𝑡𝑊𝑗,𝑡𝑋𝑖,𝑗,𝑡 , (18) 𝑆𝑖,𝑡 即為股票 𝑖 在時間 𝑡 所得之分數,𝑊𝑗,𝑡 為基本面指標 𝑗 在時間 𝑡 時的權 重。在為每支股票算出分數之後,我們即可選出分數最高的前幾名作為我們投資 的股票。 而為了改良選股模型的強健性,本研究設計了不同時間驗證方式的移動視窗 法,並且為了讓基本面指標可以動態去找出適合他們的演化週期,我們在基因演 算法的染色體上再加入移動視窗的參數,再將全部指標的結果統整後,可以找出 模型中最適合的移動視窗長度。以 1987 年至 2009 年資料的股價淨值比為例,在 經過基因演算法(下一節有詳細說明)50 個回合,每個回合進行 50 個世代,每個 世代使用 50 個個體進行演化之後,所得到的每個視窗長度的百分比如圖 1 所示, 在全部 2500 次的結果中,視窗長度為 4 的結果為最高有 610 次,視窗長度為 5 的結果有 414 次,故股價淨值比指標在視窗長度為 4 或 5 時是最適合的移動視窗 長度。我們將在稍後的第四章統整基本面指標的實驗結果並提供更詳細的說明。

圖 1.股價淨值比之移動視窗長度百分比圖

(20)

11

3.2 基因演算法

為了將研究的模型參數調整為最適當的值以達到最佳解,我們採用由 Holland [3]所提出之基因演算法(Genetic Algorithm, GA)來解決這個複雜的最佳 化問題。基因演算法是模仿自然界生物的演化行為,利用物競天擇、適者生存的 概念來解決最佳化問題的演算法。其做法首先將欲演化之參數編碼進染色體中, 藉由篩選親代染色體、經過交配和突變的過程而產生子代,並以適應性函數 (fitness function)評估每支個體(染色體)適應環境的能力來決定是否演化,通過環 境考驗而最終產生出的子代,可視為我們所需問題的最佳解。經由迭代地演化染 色體的作法,也可以將最佳解的品質提升至一定的程度。基因演算法的主要流程 如下: Step 1. 隨機產生一個擁有 𝑛 條染色體 𝐶 的初始族群 𝐺,其中染色體 𝐶 由 𝑚 個位元 𝑏 組成,定義如下: 𝐺 = *𝐶1, 𝐶2, … , 𝐶𝑛+, 𝑛 ∈ 𝑁 ; (19) ∀𝐶 = *𝑏1, 𝑏2, … , 𝑏𝑚+, ∀𝑏 ∈ *0,1+, 𝑚 ∈ 𝑁, (20) Step 2. 藉由適應性函數得到每條染色體的適應值 Step 3. 選擇親代,經由交配、突變直到產生 𝑛 條子代的染色體 Step 4. 將這新產生的 𝑛 條子代染色體取代原有的族群,成為新的族群 Step 5. 重複 Step2 ~ Step4,直到滿足演化的終止條件。

常見的演化終止條件有以下三種方法:

(21)

12 (2) 判斷是否收斂,也就是當子代與親代的差異性低於一定的門檻值時, 即停止演化。 (3) 限制執行時間,當演算法抵達預設之執行時間時,即停止演化。 整體演化流程如下圖 2 所示: 圖 2

.基因演算法演化流程

(22)

13

3.2.1 編碼方式

本研究使用的基因演算法,染色體編碼格式以二進制表示, 𝑏 表示染色體內 的每一個 bit, 𝑛 為基本面指標的個數,我們將編碼分為 14 個基本面指標的特 徵值 𝑓 、相關性 𝑖 、權重值 𝑤 以及移動視窗長度 𝑤𝑠 ,如下圖 3 所示:

𝑏

𝑓1

...

𝑏

𝑓𝑛

𝑏

𝑖 1

...

𝑏

𝑖𝑛

𝑏

𝑤1

𝑏

𝑤𝑛

𝑏

𝑤𝑠1

𝑏

𝑤𝑠𝑛

圖 3.基因演算法編碼示意圖

𝑏𝑓1 𝑏 𝑓𝑛 為基本面指標的特徵值,值為 0 表示此指標不選取,值為 1 表示 此指標選取; 𝑏𝑖1 到 𝑏𝑖𝑛 為基本面指標的相關性,值為 0 表示此指標數值越低, 則股價未來越有可能上漲,值為 1 表示此指標數值越高,則股價未來越有可能上 漲; 𝑏𝑤1𝑏 𝑤𝑛 為基本面指標的權重, 𝑏𝑤𝑠1 到 𝑏𝑤𝑠𝑛 為基本面指標的移動視窗 長度。 在本編碼中,這些代表權重以及移動視窗長度的染色體編碼參數由隱性型態 轉換成顯性型態後,經過比例換算可以得到該參數對應的實際十進制數值,用以 計算個體的適應性函數值,而每個參數的染色體編碼位元數決定該參數的準確度 高低,位元數越大,參數演化的數值準確度越高,定義如下: y = 𝑚𝑖𝑛𝑦+2𝑙𝑑−1× (𝑚𝑎𝑥𝑦− 𝑚𝑖𝑛𝑦), (21) 其中 𝑦 為特定參數對應的顯性型態; 𝑚𝑖𝑛𝑦 和 𝑚𝑎𝑥𝑦 是參數的最小值與最大 值; 𝑑 是對應的十進制數值; 𝑙 則是染色體參數編碼的區塊長度。

(23)

14

3.2.2 親代選擇方法

本 研 究 選 擇 親 代 的 方 法 為 Goldberg and Deb [30] 提 出 的 競 賽 選 擇 法 (Tournament selection),概念為隨機選取一對染色體進行比較,留下較優秀的一 方作為親代,競賽選擇法的演算法流程如下:

Step 1. 從族群中隨機且可重複的選擇兩條染色體比較其適應性函數值,留下較 優秀的一方為親代,直到選出兩個親代

Step 2. 選出的兩個親代進行交配與突變,產生兩個子代 Step 3. 重複 Step 1 與 Step 2 直到子代的數量與親代相同為止

3.2.3 交配與突變

在基因演算法中,使染色體之間互相交換彼此的基因,藉此產生更優良的子 代的做法,即為交配。交配後產生的子代會擁有親代的部分特性,所以親代的優 點與缺點都有可能被繼承下來,而上一小節的競賽選擇法會使染色體在下一次迭 代時將較差勁的子代淘汰掉。本研究使用的交配方法為 De Jong and Spears [31] 提出的單點交配法,其演算法流程如下: Step 1. 有兩條染色體設為 𝐶𝑥 與 𝐶𝑦 ,其定義如下: 𝐶𝑥 = *𝑏1𝑥, 𝑏 2𝑥, … , 𝑏𝑠𝑥+, ∀𝑏𝑗𝑥 ∈ *0,1+, 𝑗 = 1,2, … , 𝑠, 𝑠 ∈ 𝑁; (22) 𝐶𝑦 = {𝑏1𝑦, 𝑏2𝑦, … , 𝑏𝑠𝑦}, ∀𝑏𝑗𝑥 ∈ *0,1+, 𝑗 = 1,2, … , 𝑠, 𝑠 ∈ 𝑁, (23) Step 2. 隨機產生交配點 𝑝 ,兩親代 𝐶𝑥 與 𝐶𝑦 在 𝑝 點位置之後互相交換基

(24)

15 因信息,產生子代 𝐶𝑥′ 與 𝐶𝑦′ ,其定義如下,交配方式如圖 4 所示: 𝐶𝑥′ = {𝑏1𝑥, 𝑏2𝑥, … , 𝑏𝑝−1𝑥 , 𝑏𝑝𝑦, 𝑏𝑝+1𝑦 , … , 𝑏𝑠𝑦}, 𝑖 ∈ 𝑁, 0 < 𝑖 ≤ 𝑠; (24) 𝐶𝑦= *𝑏 1𝑦, 𝑏2𝑦, … , 𝑏𝑝−1𝑦 , 𝑏𝑝𝑥, 𝑏𝑝+1𝑥 , … , 𝑏𝑠𝑥+, 𝑖 ∈ 𝑁, 0 < 𝑖 ≤ 𝑠, (25)

交配點

𝑝

𝐶

𝑥

0

1

1

0

0

1

0

0

𝐶

𝑦

0

0

1

1

1

0

1

1

交配後

𝐶

𝑥

0

1

1

0

1

0

1

1

𝐶

𝑦

0

0

1

1

0

1

0

0

圖 4.基因演算法交配示意圖

Step 3. 在基因演算法中會設定一個突變機率(mutation rate)來決定是否發生突 變,突變會使染色體上的基因採隨機變化,此機制可協助族群跳脫區域 最佳解的搜尋空間,但突變機率若設定過高,會導致基因演算法得到的 解過於隨機,而失去此演算法的精神。染色體上的每個位元依照突變機 率決定突變與否,如下圖 5 所示:

突變點

𝐶

𝑥

0

1

1

0

0

1

0

0

突變後

𝐶

𝑥

0

1

1

0

1

1

0

0

圖 5.基因演算法突變示意圖

(25)

16

3.2.4 基因演算法範例

在此我們將舉一個範例來進行基因演算法的運作流程。本範例需要解決的最 佳化問題為 𝑓(𝑥) = 16𝑥 − 𝑥2,其中染色體 𝑥 的編碼長度為 4 個位元,因此最 多可產生如表 1 的 16 條染色體:

表 1. 染色體

𝑥

的 4 位元編碼

integer

binary code

integer

binary code

0

0000

8

1000

1

0001

9

1001

2

0010

10

1010

3

0011

11

1011

4

0100

12

1100

5

0101

13

1101

6

0110

14

1110

7

0111

15

1111

在此假設一個世代 𝑖 的族群含有六條染色體 𝑥𝑗(𝑖), 𝑗 = 1,2, … ,6,把他們轉 成十進制整數並計算他們的適應性函數值(chromosome fitness)之後有其相對應 的染色體編碼、十進制的整數如表 2;而使用基因演算法來演化這六條染色體的 範例流程如圖 6 表示:

(26)

17

表 2. 隨機染色體族群之適應性函數值

chromosome

label

chromosome

string

decoded

integer

chromosome

fitness

𝑥

1

(𝑖)

0100

4

48

𝑥

2

(𝑖)

0110

6

60

𝑥

3

(𝑖)

1011

11

55

𝑥

4

(𝑖)

0111

7

63

𝑥

5

(𝑖)

0011

3

39

𝑥

6

(𝑖)

1100

12

48

圖 6.基因演算法範例流程圖

(27)

18 在第 𝑖 個世代中,我們利用競賽選擇法從表 2 的染色體族群中選出三對親 代染色體並進行單點交配,第一、二對之交配點為編碼第三位元,故其染色體在 第三位元與第四位元做交換的動作。而第三對親代染色體 𝑥1(𝑖) 與 𝑥6(𝑖) 沒通 過設定的交配機率,因此這兩條染色體不做交配,直接到下一個突變的階段。突 變階段中,僅有第 5 條染色體 𝑥1(𝑖) 的第四個位元有通過設定的突變機率,因 此將 𝑥1(𝑖) 突變成 𝑥1′′(𝑖) ,值也從 0111 改變為 0110。最後這六條染色體成為了 新的族群 𝑖 + 1 世代,並繼續基因演算法往後之演化。

3.3 比較基準

我們以大盤(benchmark)當作本研究提到的三種選股模型的比較基準,而大 盤的投資策略為將資金帄均分配給全部股票,大盤稍後會出現在第四章實驗結果 的累積報酬率圖中與三種選股模型比較。其投資報酬率可如下計算: 𝑅𝑡 =𝐹 ′ 𝐹. (26) 其中 𝑅𝑡 為在第 𝑡 次交易時的報酬率, 𝐹𝑡′ 為在第 𝑡 次交易後的資金,而 𝐹𝑡 為第 𝑡 次交易前的資金。

3.4 績效指標

本研究主要使用之投資績效指標,為由累積報酬率所衍生之業界常用的夏普 比 率 (Sharpe ratio) [30] ,所使用之用來衡量模型強健性之指標則為 精確度 (Precision)與準確度(Accuracy),做為績效指標對模型的投資結果進行評估。

(28)

19

3.4.1 累積報酬率與夏普比率

累積報酬率為模型從投資一開始至最後投資結束的每一次交易的報酬率乘 積,利用此指標可以直觀看出模型成效的優劣,定義如下,其中 𝑅𝑎 為 𝑛 次交 易後所得之總報酬率; 𝑅𝑡 表示交易中第 𝑡 次交易的報酬率。 𝑅𝑎 = ∏𝑛𝑡=1𝑅𝑡, (27) 我們在基因演算法裡設定的適應性函數(fitness)公式為 Sharpe [30]提出的夏 普比率(Sharpe ratio),也就是將年均化報酬率(annualized mean return)除以報酬率 的標準差,其目的在於追求報酬率的同時,也將風險的因素考慮進來,以期望能 排除風險對績效評估的不利影響。適應性函數的公式如下所示: 𝑓𝑖𝑡𝑛𝑒𝑠𝑠

=

𝑛√𝑅𝑎 𝑅𝑆𝑇𝐷, (28) 其中 𝑅𝑎 為總累積報酬率; 𝑛 為交易的年數; 𝑅𝑆𝑇𝐷 為報酬率的標準差,其公 式如下: 𝑅𝑆𝑇𝐷 = √∑ (𝑅𝑡−𝑅) 2 𝑛 𝑡=1 𝑛 , (29) 其中 𝑅𝑡 第 𝑡 次交易的報酬率; 𝑅 為第 1 次至第 𝑡 次交易報酬率的帄均; 𝑛 為交易的年數。

(29)

20

3.4.2 精確度與準確度

精確度(Precision)與準確度(Accuracy)是統計學上的概念,精確度是指各次獨 立實驗數據所得之預測值分布的「集中程度」,若多次預測值彼此之間的差距小, 顯示精確度高;準確度表示預測值與實際值的差異程度,若多次預測的帄均值接 近實際值,我們可以相信模型準確度高。兩種指標皆可證明模型是否具備足夠的 強健性,其定義如下: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃+𝐹𝑃𝑇𝑃 ; (30) 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁𝑇𝑃+𝑇𝑁 , (31) 其中 𝑇𝑃, 𝐹𝑃, 𝑇𝑁, 𝐹𝑁 為模型預測結果與實際情形的關係。我們舉醫生看病的 例子: 𝑇𝑃 為真陽性,醫生診斷患者有染病,實際上患者的確染病; 𝐹𝑃 為偽 陽性,醫生診斷患者有染病,實際上患者卻沒染病; 𝑇𝑁 為真陰性,醫生診斷 患者沒有染病,實際上患者的確沒染病; 𝐹𝑁 為偽陰性,醫生診斷患者沒有染 病,實際上患者卻有染病。定義如表 3:

表 3. 模型預測結果分類表

實際情況

預測結果

True

False

Positive

True Positive

(TP)

False Positive

(FP)

Negative

True Negative

(TN)

False Negative

(FN)

(30)

21 這兩個指標可以幫助驗證我們建立的選股模型是否具有強健性,如果在訓練 期模型可勝過大盤而在測詴期也有一樣的情形時,表示其模型在不同的環境中擁 有一樣的成效,具有足夠的強健性(訓練期與測詴期在下一小節將提到)。

3.5 時間驗證(Temporal Validation)

一般統計研究,會藉由交叉驗證(Cross Validation)檢驗模型的效能,此方法 通常將數據不考慮時間順序地分成兩部分,在訓練期訓練後所得到的模型,套用 在測詴期上,以做驗證。但在財務領域的研究上,實驗的數據具有不可逆的時間 順序,故測詴數據一定要擺在訓練數據之後,使用測詴模型才有意義。因此,在 本研究中,我們採用時間驗證(Temporal Validation, TV)的方式,透過基因演算法 建立出在訓練期中效能優良的投資模型後,將此模型再帶入測詴期作驗證以檢驗 模型的正確性,並改良傳統的時間驗證方式,希望有更好的強健性。

3.5.1 傳統時間驗證

Huang[16、17]提出的時間驗證法,是將 𝑛 年的資料分成 𝑛 − 1 個區間, 如圖 7 所示:模型時間為 1987 年至 2009 年, 23 年的資料分成 22 個區間,第 1 個 TV 將第 1 個區間作為訓練期,之後的區間做為測詴期,第 2 個 TV 將第 1 跟第 2 個區間作為訓練期,之後的區間做為測詴期,依此類推。但傳統時間驗證 法的缺點在於:前段的 TV 因為訓練期過短,故建立的模型在往後的測詴其並無 太大意義;而後段的 TV 則是測詴期太短,因此會導致建立好的模型沒有時間發 揮出效益。

(31)

22

TV\年

1987

1988

2008

2009

1

Training

Testing

2

21

22

圖 7.傳統 Temporal Validation

3.5.2 移動視窗(Sliding window)時間驗證

為了與傳統方法的方法做出區別,本研究使用了不同的時間驗證方式,稱之 為移動視窗法,希望以此方法建立的選股模型能夠擁有更強健的成效。此方法將 訓練期與測詴期固定成兩者前後相鄰,長度皆為 𝑛 個區間的移動視窗。隨著 TV 往後,實驗的區間逐漸向後滑動。以下舉兩個資料皆為 1987 年至 2009 年間的移 動視窗為例:圖 8 為視窗長度為 1 的時間驗證;圖 9 為視窗長度為 5 的時間驗證。

TV\年

1987

1988

1989

2007

2008

2009

1

Training Testing

2

21

22

圖 8.視窗長度為 1 的移動視窗

(32)

23

TV

1987~2009 年

1 1987~1991 1992~1996

2

1988~1992 1993~1997

13

1999~2003 2004~2008

14

2000~2004 2005~2009

圖 9.視窗長度為 5 的移動視窗

3.5.3 動態視窗時間驗證

從第 3.1 節基本面指標的分析討論,我們推測每個基本面指標可能都有適合 其運作的時間區間,因此我們在基因演算法的染色體中設計一個演化參數 𝑤𝑠 , 在訓練期中使模型的 14 個基本面指標可以各自演化出其適合的移動視窗長度, 之後統整所有指標的數據,將出現百分比最高的視窗長度做為本模型測詴期的移 動視窗長度,此方法即可動態地選取最適合的移動視窗長度,使投資模型結果更 為良好。

(33)

24

4.研究結果

此章節分四個部分介紹本研究的實驗架構與結果,首先第一部分說明本研究 使用的資料來源與時間範圍,第二部分為基因演算法在選股模型最佳化的參數設 定,再來為比較模型預測效果優劣的比較基準,最後在第四部分為實驗的結果。

4.1 資料來源與時間範圍

本研究使用台灣股市上市上櫃公司的股票作為研究對象,取市值前 20%的公 司來做實驗,資料來源為 Taiwan Economic Journal (TEJ)資料庫的數據,實驗共 使用四個時間週期,分別為: 資料一、 「1987 年至 2009 年」共 23 年的年度資料(此為 Huang [16、17]所 使用之資料) 資料二、 「2001 年 12 月至 2016 年 3 月」共 58 季的季度資料 資料三、 「2001 年 12 月至 2016 年 3 月」共 29 個半年的半年度資料 資料四、 「2001 年 12 月至 2016 年 3 月」共 15 年的年度資料(此資料與 Huang [16、17]所用不同,以提供使用年資料額外的比較) 使用不同資料的方式是為了測詴實驗模型在不同的時間範圍是否可得出同樣穩 定的研究結果,以證明模型擁有足夠的強健性。資料包含股票公司的股價、投資 報酬率以及投資人常使用的 14 個基本面分析指標[17](本益比、股價淨值比、股 價營收比、資產報酬率、稅後淨值報酬率、營業利益率、利潤邊際、負債淨值比、 流動比率、速動比率、存貨周轉率、應收帳款週轉次、營業利益成長率、稅後淨 利成長率)。

(34)

25

4.2 基因演算法參數設定

本研究在基因演算法的迭代計算參數中,設定演算法會進行 50 個回合的計 算,並在每一個回合進行 50 代的演化,而每一代有 50 支個體(染色體)在進行演 化,演化參數有以下四種: 一、 特徵選取值 𝑓; 二、 相關性 𝑖; 三、 基本面指標的權重 𝑤; 四、 移動視窗長度 𝑤𝑠; 其中染色體演化單點交配的機率為 7× 10−1,每個位元之突變機率為 5× 10−3 各參數的演化值域範圍如表 4 所示。

表 4.最佳化演算法參數演化值域範圍

演化參數名稱

最小值

最大值 參數資料型態

𝑓

1

, 𝑓

2

, … , 𝑓

14

0

1

整數

𝑖

1

, 𝑖

2

, … , 𝑖

14

0

1

整數

𝑤

1

, 𝑤

2

, … , 𝑤

14

0

1

浮點數

𝑤𝑠

1

, 𝑤𝑠

2

, … , 𝑤𝑠

14

(資料一)

1

11

整數

𝑤𝑠

1

, 𝑤𝑠

2

, … , 𝑤𝑠

14

(資料二)

1

29

整數

𝑤𝑠

1

, 𝑤𝑠

2

, … , 𝑤𝑠

14

(資料三)

1

14

整數

𝑤𝑠

1

, 𝑤𝑠

2

, … , 𝑤𝑠

14

(資料四)

1

8

整數

(35)

26

圖 10

圖 10. 最佳夏普比率收斂圖

我們的基因演算法在演化 50 個世代的過程中,會將其出現過最好的適應值 記錄下來,並存於 Best-so-far 這個變數中。我們可以發現隨著世代越往後,適應 值會越難發現更好的值,而漸漸收斂在一個範圍,這也是基因演算法會找到最佳 解的一個證明。

4.3 比較基準

本實驗以一個基於傳統時間驗證的模型,以及基於移動視窗法的所有視窗長 度的模型,也就是列舉移動視窗法的所有結果,來做為基於動態視窗法模型的比 較基準,以比較模型的強健性及績效優劣。

(36)

27

4.4 實驗結果

本研究之實驗結果分別用 4 份資料去比較三種模型的基本面指標視窗長度、 精確度、準確度以及累積報酬率。4.4.1 為資料一「1987 年至 2009 年」共 23 年 的實驗結果;4.4.2 為資料二「2001 年 12 月至 2016 年 3 月」共 58 季的實驗結果; 4.4.3 為資料三「2001 年 12 月至 2016 年 3 月」共 29 個半年的實驗結果;4.4.4 為資料四「2001 年 12 月至 2016 年 3 月」共 15 年的的實驗結果。

(37)

28

4.4.1 資料一的模型比較

圖 10 為各個基本面指標於資料一的移動視窗長度 1 至 11 的百分比圖;圖 11 為統整全部基本面指標後的移動視窗長度 1 至 11 的百分比圖。

(38)

29

圖 11.各基本面指標之視窗長度百分比圖

(39)

30 實驗結果可看出,每個基本面指標都有其適合的移動視窗長度,例如本益比 之移動視窗在全部 2500 次的結果中(50 個回合 50 個個體),視窗長度為 4 的結果 有 808 次,故其長度 4 最適合,而速動比率則在長度 4~8 之間無明顯突出。但大 部分而言呈現兩邊低中間高的鐘形曲線趨勢,並在長度 4 與 5 為最高,說明了資 料一合適的移動視窗長度在長度 4~5,也就是 4 至 5 年。 表 5 為在資料一中, Precision 和 Accuracy 的比較結果。

表 5.資料一的強健性比較

Precision

Accuracy

動態視窗法 size 4

0.7476

0.9050

傳統法

0.6773

0.8427

移動視窗法

size1

0.5709

0.6800

size2

0.5938

0.7560

size3

0.6417

0.7824

size4

0.6725

0.9074

size5

0.7256

0.8750

size6

0.6512

0.8688

size7

0.6379

0.8640

size8

0.6588

0.8225

size9

0.6429

0.8437

size10

0.6125

0.8375

size11

0.6034

0.8413

(40)

31

其中動態視窗法 size 4 為第 3.5.3 節之方法,其 window size 為 4;而傳統法 為第 3.5.1 節之方法。為了更容易看出模型的差異而做比較,我們將移動視窗法 的數據以圖 12 顯示:

圖 13.移動視窗法於資料一之 Precision & Accuracy

首先比較 Precision 的結果,可看出動態視窗法 size 4 的模型精確度高於其他 模型;傳統法方面則勝於 91%的移動視窗法;而移動視窗法在 size 為 5 時精確 度最高,越往兩邊精確度越低。接著在 Accuracy 方面,動態視窗法 size 4 的模 型略輸移動視窗法 size 為 4 的模型,位居所有模型第二;傳統模型則勝於 54.5% 的移動視窗模型;而移動視窗模型在 size 為 4 時最高,size 越小下降幅度較快, size 越大則相差不大,較為穩定。

(41)

32 圖 13 為資料一的前 8 個年度以累積報酬率當指標,三種方法與大盤比較的 實驗結果。可看出動態視窗模型表現最佳,再來為移動視窗模型,但其與傳統模 型相差不大,而這三種模型皆有投資時間越久越與大盤拉開的趨勢,但在 1990 年全部模型的報酬率皆不增反減,推測是與 1990 年台灣開始實施證交稅的政策 有關。

圖 14.資料一之前 8 年累積報酬率比較

(42)

33

4.4.2 資料二的模型比較

圖 14 為各個基本面指標於資料二的移動視窗長度 1 至 29 的百分比圖;圖 15 為統整全部基本面指標後的移動視窗長度 1 至 29 的百分比圖:

(43)

34

圖 15.各基本面指標之視窗長度百分比圖

(44)

35 實驗結果可看出,每個基本面指標趨勢都是在長度 15~25 之間最高,例如營 業利益率之移動視窗以長度 18~20 最適合,而利潤邊際則在長度 18~19 之間最適 合。整體而言呈現右高左低的情形,並在長度 18 為最高,推測可能是前幾季的 數據太少而不能演化,導致長度短的移動視窗沒有好的成效,說明了資料二合適 的移動視窗長度在長度 17~20,也就是 4 至 5 年。 表 6 為資料二中, Precision 和 Accuracy 的比較結果。

表 6.資料二的強健性比較

Precision

Accuracy

動態視窗法 size 18

0.7231

0.8717

傳統法

0.6612

0.8105

移動視窗法

size1

0.4531

0.5649

size2

0.5125

0.6527

size3

0.4976

0.6689

size4

0.5533

0.6813

size5

0.5741

0.6918

size6

0.5934

0.7063

size7

0.6135

0.6956

size8

0.6054

0.7198

size9

0.6289

0.7256

size10

0.6327

0.7231

(45)

36

表 6.資料二的強健性比較(續)

Precision

Accuracy

size11

0.6339

0.7284

size12

0.6439

0.7457

size13

0.6583

0.7742

size14

0.6551

0.7935

size15

0.6754

0.8190

size16

0.6842

0.8259

size17

0.7025

0.8480

size18

0.7167

0.8435

size19

0.7058

0.8595

size20

0.7014

0.8368

size21

0.6957

0.8000

size22

0.7006

0.8067

size23

0.6932

0.8192

size24

0.6877

0.7955

size25

0.6758

0.8167

size26

0.6743

0.8286

size27

0.6676

0.8000

size28

0.6634

0.8000

size29

0.6783

0.8000

為了更容易看出模型的差異而做比較,我們將移動視窗法的數據以圖 16 顯 示:

(46)

37

圖 17

. 移動視窗法於資料二之 Precision & Accuracy

首先比較 Precision 的結果,動態視窗法 size 18 的模型精確度高於其他模型; 傳統法方面則只有勝過 48.3%的移動視窗法;而移動視窗法在 size 為 18 時精確 度最高,但在長度 17~22 之間相差不大。接著在 Accuracy 方面,動態視窗法 size 18 的模型準確度依然高於其他模型;傳統法方面則勝於 69%的移動視窗法;而 移動視窗法在 size 為 17 跟 19 時最高。 圖 17 為資料二的前 18 個季度以累積報酬率當指標,三種方法與大盤比較的 實驗結果。可發現都勝過大盤,並且隨著時間越往後,累積報酬率相差越大。

(47)

38

(48)

39

4.4.3 資料三的模型比較

圖 18 為各個基本面指標於資料三的移動視窗長度 1 至 14 的百分比圖;圖 19 為統整全部基本面指標後的移動視窗長度 1 至 14 的百分比圖。

(49)

40

圖 19.各基本面指標之視窗長度百分比圖

(50)

41 實驗結果可看出,基本面指標趨勢都是在長度 8~11 之間,例如存貨周轉率 之移動視窗以長度 9~11 最適合,而本益比則在長度 9 或 10 最適合。整體而言從 長度 7 左右才開始攀升,並在長度 9 為最高,應該是跟資料二的實驗結果一樣由 於前幾季的數據太少不能演化的原因導致。說明了資料三合適的移動視窗長度在 長度 9~11,也就是 4.5 至 5.5 年。 表 7 為資料三中, Precision 和 Accuracy 的比較結果。

表 7.資料三的強健性比較

Precision

Accuracy

動態視窗法 size 9

0.7421

0.8417

傳統法

0.6823

0.8125

移動視窗法

Size1

0.5234

0.6789

Size2

0.5721

0.6846

Size3

0.623

0.7188

Size4

0.6245

0.7159

Size5

0.6571

0.7200

Size6

0.6643

0.7389

Size7

0.6851

0.7813

Size8

0.6934

0.8219

Size9

0.7315

0.8375

Size10

0.7024

0.8250

Size11

0.6951

0.8125

(51)

42

表 7.資料三的強健性比較(續)

Precision

Accuracy

Size12

0.6734

0.8083

Size13

0.6613

0.7875

Size14

0.6640

0.8000

為了更容易看出模型的差異而做比較,我們將移動視窗法的數據以圖 20 顯 示:

圖 21. 移動視窗法於資料三之 Precision & Accuracy

首先比較 Precision 的結果,動態視窗法 size 9 的模型精確度高於其他模型; 傳統法方面則勝過 64.3%的移動視窗法;而移動視窗法在 size 為 9時精確度最高。

(52)

43 接著在 Accuracy 方面,動態視窗法 size 9 的模型準確度依然高於其他模型;傳 統法方面則勝於 71.4%的移動視窗法;而移動視窗法在 size 為 9 時準確度最高。 圖 21 為資料三的前 9 個半年度以累積報酬率當指標,三種方法與大盤比較 的實驗結果。可發現都勝過大盤,但在第三個半年度之前相差不大,推測可能是 有重大的事件使投資報酬率停滯不前,例如 2003 年 4 月的 SARS。

圖 22.資料三之前 9 個半年度累積報酬率比較

(53)

44

4.4.4 資料四的模型比較

圖 22 為各個基本面指標於資料四的移動視窗長度 1 至 7 的百分比圖;圖 23 為統整全部基本面指標後的移動視窗長度 1 至 7 的百分比圖。

(54)

45

圖 23.各基本面指標之視窗長度百分比圖

(55)

46 實驗結果可看出,基本面指標趨勢都是在長度 4~5 之間,例如淨值報酬率與 流動比率之移動視窗皆以長度 4~5 最適合。說明了資料三合適的移動視窗長度在 長度 4~5,也就是 4 至 5 年,與前三個資料的結果一樣。 表 8 為資料四中, Precision 和 Accuracy 的比較結果。

表 8.資料四的強健性比較

Precision

Accuracy

動態視窗法 size 4

0.7054

0.8389

傳統法

0.6812

0.8200

移動視窗法

Size1

0.5845

0.6967

Size2

0.6357

0.7192

Size3

0.6772

0.7409

Size4

0.7014

0.8278

Size5

0.7087

0.8071

Size6

0.6812

0.7900

Size7

0.6531

0.7500

為了更容易看出模型的差異而做比較,我們將移動視窗法的數據以圖 24 顯 示:

(56)

47

圖 25.移動視窗法於資料四之 Precision & Accuracy

首先比較 Precision 的結果,動態視窗法 size 4 的模型精確度略輸移動視窗法 size 為 4 的模型,位居所有模型第二 ;傳統法方面則勝過 57.1%的移動視窗法; 而移動視窗法在 size 為 4 時精確度最高。接著在 Accuracy 方面,動態視窗法 size 4 的模型準確度依然高於其他模型;傳統法方面則勝於 85.7%的移動視窗法;而 移動視窗法一樣在 size 為 4 時準確度最高。

圖 25 為資料四的前 7 個年度以累積報酬率當指標,三種方法與大盤比較的 實驗結果。可發現都勝過大盤,且移動視窗模型與傳統模型相差不大。

(57)

48

(58)

49

5.結論

本研究建立了一個基於移動視窗與基因演算法的動態視窗選股模型,此模型 分別在 1987 至 2009 的年度資料、2001 年 12 月至 2016 年 3 月的季度資料、2001 年 12 月至 2016 年 3 月的半年度資料、2001 年 12 月至 2016 年 3 月的年度資料 這四種資料中,皆可動態演化出該時間區間最適合的移動視窗長度,來做為基因 演算法的時間驗證方式,在基因演算法中,我們使用了 14 個基本面指標,並以 特徵選取值、相關性、指標權重以及移動視窗長度這 4 個參數來進行演化,以求 出模型的最佳解。建立更具強健性且報酬率更為優良的選股模型。 我們也探討了不同的時間驗證方式所建立的不同模型,包含 「傳統時間驗 證法 」、「移動視窗法」以及「動態視窗法」三種方法來做強健性與成效優劣的 比較。實驗結果顯示出不管是精確度或準確度,動態視窗法幾乎都勝過其他兩種 方法,證明以動態視窗法建立的模型相比之前的模型擁有更高的強健性;而累積 報酬率更可看出動態視窗選股模型的報酬率優於其他兩者與大盤。整體而言動態 視窗法所建立的模型,比起傳統時間驗證與移動視窗法還要有更高的強健性以及 報酬率。移動視窗的實驗結果也發現了視窗長度在 4 至 5 年都是呈現數據最高的 現象,並在 6 年之後雖略微下滑,但跟之前的視窗長度相比卻趨於穩定。因此我 們可以推測出若以股市的基本面投資,將訓練模型之時間設定在 4 至 5 年大多可 以獲利;而越往後越趨於穩定的現象,可能是訓練期夠長,使得模型的強健性能 有一定程度的表現。 在未來研究中,希望可以有更多證據去驗證動態視窗法模型之投資報酬率是 否真的能勝過其他方法;而本文所使用到的基因演算法也可以從單目標進展到多 目標,使選股模型有更全面的表現而更加嚴謹以及準確,降低投資的風險。

(59)

50

6.參考文獻

[1] D. Hand, H. Mannila, and P. Smyth, ―Principles of data mining,‖ MIT Press, Cambridge, MA. ISBN 0-262-08290-X, 2001.

[2] R. C. Cavalcante, R. C. Brasileiro, V. L. F. Souza, J. P. Nobrega, and A. L. I. Oliveira, ―Computational Intelligence and Financial Markets: A Survey and Future Directions,‖ Expert Systems With Applications, vol. 55, 2016, pp. 194-211.

[3] J. H. Holland, Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence. U

Michigan Press, 1975.

[4] R. Aguilar-Rivera, M. Valenzuela-Rendón and J.J. Rodríguez-Ortiz, ―Genetic algorithms and Darwinian approaches in financial applications: A survey,‖ Expert Systems With Applications, vol. 42, 2015, pp. 7684-7697.

[5] G. Hassan, and C. Clack, ―Robustness of multiple objective GP stock-picking in unstable financial markets: real-world applications track,‖ Proceedings of the 11th Annual conference on Genetic and evolutionary computation, 2009.

[6] Hassan, Ghada Nasr Aly, Multiobjective genetic programming for financial

portfolio management in dynamic environments. Diss. UCL (University College

London), 2010.

[7] W. Wang, S. Caro, and F. Bennis, ―Robustness Against Large Variations in Multi-Objective Optimization Problems,‖ ASME 2013 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. American Society of Mechanical Engineers, 2013. [8] A. Silva, R. Neves, and N. Horta, ―A hybrid approach to portfolio composition

based on fundamental and technical indicators,‖ Expert Systems with Applications, vol. 42, 2015, pp. 2036-2048.

[9] N. Wagner, Z. Michalewicz, M. Khouja , R. R. McGregor, ―Time Series Forecasting for Dynamic Environments: The DyFor Genetic Program Model,‖ IEEE Transactions on Evolutionary Computation, vol. 11, no. 4, p.433-452, August 2007

(60)

51

[10] Zhang, X., Hu, Y., Xie, K., Wang, S., Ngai, E. W. T., and Liu, M., ―A causal feature selection algorithm for stock prediction modeling,‖ Neurocomputing, vol. 142, 2014, pp.48-59.

[11] C.-H. Lee, C.-B. Yang, and H.-H. Chen, ―Taiwan stock investment with gene expression programming,‖ Procedia Computer Science, vol. 35, 2014, pp. 137-146.

[12] 劉慧敏, ―多目標遺傳演算法於基本面選股策略之應用,‖ 國立中央大學資訊 管理學系碩士班碩士論文, June 2002.

[13] 江吉雄, ―遺傳演算法於股市選股與擇時策略之研究,‖ 國立中央大學資訊管 理研究所碩士論文, June 2002.

[14] E. F. Fama, and K. R. French, ―Common risk factors in the returns on stocks and bonds,‖ Journal of Financial Eonomics, vol. 33, no. 1, pp. 3-56, 1993.

[15] K. L. Fisher, Super Stocks. Homewood, Illinois: Dow Jones-Irwin, 1984.

[16] C. F. Huang, T. N. Hsieh, B. R. Chang, and C. H. Chang, ―A comparative study of stock scoring using regression and genetic-based linear models,‖ in Proceedings of 2011 IEEE International Conference on Granular Computing,

2011, pp. 268-273.

[17] C.-F. Huang, ―A Hybrid Stock Selection Model using Genetic Algorithms and Support Vector Regression,‖ Applied Soft Computing, vol. 12(2), 2012, pp. 807-818.

[18] K.-J. Kim, and I. Han, ―Genetic algorithms approach to feature discretization in artificial neural networks for the prediction of stock price index,‖ Expert Systems with Applications, vol. 19, no. 2, pp. 125–132, 2000.

[19] Y. Becker, P. Fei, and A. Lester, ―Stock selection—an innovative application of genetic programming methodology,‖ in Genetic Programming Theory and Practice IV, R. Riolo, T. Soule, and B. Worzel, Eds., vol. 5 of Genetic and Evolutionary Computation, chapter 12, pp. 315–334, Springer, Ann Arbor, Mich, USA, 2006.

[20] P. Parracho, R. Neves, N. Horta, ―Trading with optimized uptrend and downtrend pattern templates using a genetic algorithm kernel‖, IEEE congress on

(61)

52

evolutionary computation(CEC), pp. 1895-1901, June, 2011

[21] F. Allen, and R. Karjalainen, ―Using genetic algorithms to find technical trading

rules,‖ Journal of Financial Economics, vol. 51, no. 2, pp. 245-271, 1999

[22] C. H. Cheng, T. L. Chen, and L. Y. Wei, ―A hybrid model based on rough sets

theory and genetic algorithms for stock price forecasting,‖ Information Sciences, vol. 180, no. 9, pp. 1610-1629, 2010.

[23] H. Subramanian, S. Ramamoorthy, P. Stone, and B. J. Kuipers, ―Designing safe, profitable automated stock trading agents using evolutionary algorithms,‖ Proc. of the 8th annual conference on Genetic and evolutionary computation, 2006, pp.

1777-1784.

[24] L. Jing, ―Data modeling for searching abnormal noise in stock market based on genetic algorithm‖, International symposium on computational intelligence and design, vol. 2, pp. 129-131, 2010.

[25] T. Jun, L. He, ―Genetic optimization of BP neural network in the application of suspicious financial transactions pattern recognition,‖ International conference on management of e-commerce and e-government(ICMeCG), pp. 280-284,

October, 2012.

[26] Shin Shou Chen, A Study of Multi-objective Genetic Models for Stock Selection, 2014.

[27] Chan-Yi Chou, Portfolio Investment Based on Gene Expression Programming, 2016.

[28] T. J. Tsai, C. B. Yang, and Y. H. Peng, ―Genetic algorithms for the investment of the mutual fund with global trend indicator,‖ Expert Systems with Applications, vol. 38(3), pp. 1697-1701, 2011.

[29] Huang, C.-F., Chang, B. R., Cheng, D.-W., and Chang, C.-H., ―Feature Selection and Parameter Optimization of a Fuzzy-based Stock Selection Model using Genetic Algorithms,‖ International Journal of Fuzzy Systems, 14(1), pp. 65–75, 2012.

[30] D. E. Goldberg, and K. Deb, ―Comparative analysis of selection schemes used in genetic algorithms,‖ Foundation of Genetic Algorithms, pp. 69-93, 1991.

(62)

53

[31] K. A. De Jong, W. M. Spears and D. A. Gordon, ―Using genetic algorithms for concept learning,‖ Machine Learning, vol. 13, pp. 161-188, 1993.

[32] A. F. Perold, and W. F. Sharpe, ―Dynamic strategies for asset allocation,‖ Financial Analysts Journal, pp. 16-27, 1988.

[33] W. F. Sharpe, ―The sharpe ratio,‖ The Journal of Portfolio Management, vol. 21(1). pp. 49-58, 1994.

參考文獻

相關文件

Unlike the case of optimizing the micro-average F-measure, where cyclic optimization does not help, here the exact match ratio is slightly improved for most data sets.. 5.5

首先,在前言對於為什麼要進行此項研究,動機為何?製程的選擇是基於

本論文之目的,便是以 The Up-to-date Patterns Mining 演算法為基礎以及導 入 WDPA 演算法的平行分散技術,藉由 WDPA

以角色為基礎的存取控制模型給予企業組織管理上很大的彈性,但是無法滿

Sharma (1999), “An Intergrated Machine Vision Based System for Solving the Non-Covex Cutting Stock Problem Using Genetic Algorithms,” Journal of Manufacturing Systems, Vol..

在軟體的使用方面,使用 Simulink 來進行。Simulink 是一種分析與模擬動態

This study aimed to establish the strength models of High-Performance Concrete (HPC) at different ranges of water binder ratio (W/B) using Genetic Operation Trees (GOT),

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用