一個植基於動態視窗之基因演算法選股模型強健性的比較性研究

(1)

國立高雄大學資訊工程研究所

碩士論文

一個植基於動態視窗之基因演算法

選股模型強健性的比較性研究

A Comparative Study of Model Robustness for Stock

Selection Models Using Dynamic Window-sized Genetic

Algorithms

研究生：陳立偉撰

指導教授：黃健峯博士

(2)

(3)

II

一個植基於動態視窗之基因演算法

選股系統強健性的比較性研究

指導教授：黃健峯博士國立高雄大學資訊工程研究所學生：陳立偉國立高雄大學資訊工程研究所

摘要

由於股票市場環境瞬息萬變，往往建立好的投資模型，在不同的時間使用會有截然不同的效果，因而勝率不高，甚至造成投資失敗。故這篇論文希望能深入探討隨著測詴環境變動，仍然能保持穩定並具有足夠強健性的投資模型。我們比較了基於基因演算法，不同時間驗證方式所建立的傳統時間驗證法、移動視窗法與動態視窗法三種模型，並使用不同長度如季、半年、年的時間區間去做驗證。我們所設計出的動態視窗法可以根據不同的特徵來改變視窗的長度，實驗結果也顯示比起其他兩種方法的確擁有更高的模型強健性，成功改善了以往的時間驗證模型。另外從實驗中也發現儘管使用了不同的時間資料，其最適合基本面指標的時間大概都坐落在 4~5 年之間，可以推測在台灣股市中，若採用基本面指標去選股，將訓練期設定在這個範圍是選股模型強健性最好的時間。關鍵字：強健性、基因演算法、時間驗證、動態視窗、選股。

(4)

III

A Comparative Study of Model Robustness for Stock

Selection Systems Using Dynamic Window-sized

Genetic Algorithms

Advisor: Dr. Chien-Feng Huang

Institute of Computer Science and Information Engineer National University of Kaohsiung

Student: Li-Wei Chen

Institute of Computer Science and Information Engineer National University of Kaohsiung

ABSTRACT

Stock selection has long been identified as a complicated problem. One of the major task is the robustness of the models. In this thesis, we propose a novel Genetic Algorithms (GA)-based stock selection model using varying sizes of windows for different features. We will present a comparative study for three validation methods of the GA-based stock selection models: the fixed-size sliding windows method, the dynamic-size window method, and a traditional temporal validation method. Our results showed that, in most cases, the dynamic window-sized GA method with window size of four to five years provides best robustness for the models, thereby offering further guidelines concerning the design for the stock selection models.

(5)

IV

致謝

作為一個碩士生，不知不覺也過了三年，走的路比別人長了點，也累了點。要完成碩士的學業，不再是把課程上完，考詴考過就好了，而是要自己去做研究、去找相關論文、去創新、去求變化，學習的態度從被動地獲得，轉變為主動地去了解，我覺得這是碩士生涯中除了專業知識外，需要學到的最重要的部分。作為黃健峯老師的學生，我覺得很開心，老師不只在研究上給予我指導與方向，也常向我們分享他的人生經驗，叮嚀我們不要犯可能會犯的錯誤。尤其是在最後畢業前這段時間，因為我對兵役的誤解，導致預計要完成學業的時間少了一大半，老師也是不辭辛勞地陪我高壓且頻繁地修改論文，讓我可以如期去服兵役。另外也很感謝陳建源教授與陳志忠教授，這麼匆促收到口詴的邀請，還能撥空來幫忙，給予我許多論文上的建議與修正。作為實驗室的學弟，漸漸變成了學長，然後系上最大的學長==。大家給了我很多幫助與快樂，感謝繼仁嘉澤帶我進入 matlab 和投資的世界；感謝振安不論實習或課業都能給予很大的協助；感謝緒智欺負柏均；當然還有其他系上的銅學，一起打球吃飯玩遊戲；當然最後不會忘了系辦之花在行政程序給了我最大程度的幫忙。身為高大資工系的學生，除了同學們宅了點有點難融入，其他……還不賴。作為彰化人，人生卻有超過三分之一在高雄，不知道從什麼時候開始，我可以徜徉在高雄的大街小巷中，卻對彰化的新景點或名產一無所知。對家人我很愧疚，很多國小同學都出社會好幾年了，我還在拿生活費；親戚都在問我什麼時候畢業，爸媽雖然口頭上不說，我知道他們默默承受了從親戚或朋友的壓力，然後再故作輕鬆的對我說加油不要給自己太大壓力，幹我要噴淚了不說了。感謝你們也愛你們!我的家人、我的朋友、我的老闆、還有陳立偉。媽的你總算畢業了。立偉謹誌國立高雄大學資訊工程所

(6)

V 中華民國一百零五年八月

摘要 ... II ABSTRACT ... III 致謝 ... IV 目錄 ... V 表目錄 ... VII 圖目錄 ... VIII 1.導論 ... 1 1.1 研究背景 ... 1 1.2 研究目的 ... 2 1.3 論文架構 ... 2 2.文獻探討 ... 3 2.1 強健性相關文獻 ... 3 2.2 基本面指標相關文獻 ... 4 2.3 人工智慧相關文獻 ... 4 3.研究方法 ... 6 3.1 基本面指標分析及選股 ... 6 3.2 基因演算法 ... 11 3.2.1 編碼方式 ... 13 3.2.2 親代選擇方法 ... 14 3.2.3 交配與突變 ... 14 3.2.4 基因演算法範例 ... 16 3.3 比較基準 ... 18 3.4 績效指標 ... 18 3.4.1 累積報酬率與夏普比率 ... 19 3.4.2 精確度與準確度 ... 20 3.5 時間驗證(Temporal Validation) ... 21 3.5.1 傳統時間驗證 ... 21 3.5.2 移動視窗(Sliding window)時間驗證 ... 22 3.5.3 動態視窗時間驗證 ... 23 4.研究結果 ... 24 4.1 資料來源與時間範圍 ... 24 4.2 基因演算法參數設定 ... 25 4.3 比較基準 ... 26

(7)

VI 4.4 實驗結果 ... 27 4.4.1 資料一的模型比較 ... 28 4.4.2 資料二的模型比較 ... 33 4.4.3 資料三的模型比較 ... 39 4.4.4 資料四的模型比較 ... 44 5.結論 ... 49 6.參考文獻 ... 50

(8)

VII

表目錄

表 1. 染色體 𝑥 的 4 位元編碼 ... 16 表 2. 隨機染色體族群之適應性函數值 ... 17 表 3. 模型預測結果分類表 ... 20 表 4.最佳化演算法參數演化值域範圍 ... 25 表 5.資料一的強健性比較 ... 30 表 6.資料二的強健性比較 ... 35 表 7.資料三的強健性比較 ... 41 表 8.資料四的強健性比較 ... 46

(9)

VIII

圖目錄

圖 1.股價淨值比之移動視窗長度百分比圖 ... 10 圖 2.基因演算法演化流程 ... 12 圖 3.基因演算法編碼示意圖 ... 13 圖 4.基因演算法交配示意圖 ... 15 圖 5.基因演算法突變示意圖 ... 15 圖 6.基因演算法範例流程圖 ... 17 圖 7.傳統 Temporal Validation ... 22 圖 8.視窗長度為 1 的移動視窗 ... 22 圖 9.視窗長度為 5 的移動視窗 ... 23 圖 10. 最佳夏普比率收斂圖 ... 26 圖 11.各基本面指標之視窗長度百分比圖 ... 29 圖 12.統整基本面指標之視窗長度百分比圖 ... 29

圖 13.移動視窗法於資料一之 Precision & Accuracy ... 31

圖 14.資料一之前 8 年累積報酬率比較 ... 32

圖 15.各基本面指標之視窗長度百分比圖 ... 34

圖 16.統整基本面指標之視窗長度百分比圖 ... 34

圖 17. 移動視窗法於資料二之 Precision & Accuracy ... 37

圖 18.資料二之前 18 季累積報酬率比較 ... 38

圖 21. 移動視窗法於資料三之 Precision & Accuracy ... 42

圖 22.資料三之前 9 個半年度累積報酬率比較 ... 43

圖 25.移動視窗法於資料四之 Precision & Accuracy ... 47

(10)

1

1.導論

1.1 研究背景

由於科技日新月異，資訊持續從各種來源被廣泛收集，龐大的數據量與過去的世代不可同日而語，傳統的統計學方法已逐漸不能滿足投資人對於金融市場數據的渴求，利用電腦早已超越人腦的計算能力來處理這些資料的方式，在投資市場中也可見一斑。不論是在證券市場、基金、貿易、財務風險的領域中，透過電腦運算模擬人類思維以有效推理出合適的預測模型，來處理金融數據以協助判斷 投資人的決策，皆漸漸受到實務界的重視並且廣泛的應用。例如 Hand et al. [1] 提出的資料探勘(data mining)或是 Cavalcante et al. [2]所提及的數種計算智能 (Computational Intelligence)的系統皆可擁有頗具成效的預測與分析的功能。在年初與頂尖職業圍棋手李世乭一戰成名的人工智慧圍棋程式 AlphaGo 震撼了全世界，也代表著人工智慧的時代已來臨。當金融市場的問題，可以逐步透過大數據、精準計算以及人工智慧的方法來處理時，投資績效將可能會變得更穩定而且預測也會更精準。目前人們普遍用來針對股票市場進行分析及做出決策等處理最佳化問題的方法有許多種，本研究所採用的人工智慧最佳化演算法為 Holland 提出的基因演算法(Genetic Algorithm, GA) [3]，此演算法起源自達爾文所提出的「物競天擇，適者生存」生物的進化論，藉由染色體上的基因迭代的傳承演化，得以最佳化模型的參數以求得問題的最佳解。在股票市場的應用中，學界也頻繁使用此方法以求獲得優良的投資模型[4]。

(11)

2

1.2 研究目的

股市的資訊瞬息萬變，往往看好上漲的股票在下一秒又局勢逆轉，轉盈為虧。在台灣股票市場中也發生許多次衝擊整個股市的事件。例如 1990 年政府開始實施證交稅、1995 年中共飛彈詴射、1998 年亞洲金融風暴、2000 年網路泡沫化以及 2008 年的金融海嘯，都是跌幅非常劇烈的金融危機。投資人在追求獲利的同時也背負了相當大的風險，如何利用有限的資訊去判斷股市的脈動，使投資的決策在不同的測詴環境中，能維持穩定而擁有足夠的強健性，是每個投資人都必須要去深入探討的議題。在本研究中，為了要加強選股模型的強健性，我們特地以幾個與強健性相關的指標來當作比較的基準，以不同時間驗證的方式所設計的選股模型來做比較性的研究，希望在設計選股模型的過程中，能對於模型的強健性進行改良及增強，並藉此推動人工智慧在金融投資領域的研究。

1.3 論文架構

本論文一共分成五個章節：第一章為導論，敘述本文研究的背景與目的。第二章為文獻探討，主要是探討有關強健性、基本面指標、以及人工智慧的相關文獻。第三章則是詳細介紹本文研究的方法與其定義：包含了股票基本面的指標分析與選股、基因演算法模型、比較基準的投資策略、不同的時間驗證法；第四章呈現了實驗的架構以及結果，包含資料取得的來源與實驗數據的時間區間、基因演算法模型的參數設定及最佳化的結果以及相關的實驗數據。第五章為本文的結論與未來展望。

(12)

3

2.文獻探討

2.1 強健性相關文獻

投資模型的強健性是個重要的研究議題，例如 Hassan et al . [5]以多目標基 因規劃法(Multiple Objective Genetic Programming)的技術來管理金融市場的投資，且為求模型在環境變動下可維持強健性，研究專注在配合限制條件以及多樣性的保存。並在隔年增加了新的定義及規則[6]：除了檢查模型在新環境下是最優秀以外，並以 phenotypic cluster 分析指標去確認其之前鑑定過的 Pareto front 位置不 會改變，使其模型更為強健。Wang et al. [7]設計一個 0 與 1 之間的索引在參數變 化大的環境中，去測量解的概率是否有相對於環境的最佳參數值。Silva et al. [8] 使用多目標演化式演算法(Multi-Objective Evolutionary Algorithms)來產生股市的投資組合，並在實驗中發現當使用更多基本面指標時，其模型演化出的最好及最 差的染色體都接近整體的帄均值，也代表了一定的強健性。Wagner et al. [9]使用 的 DyFor 基因規劃模型可以動態適應不斷變化的環境，其做法為在歷史的資料中去滑動每個可能的視窗序列並要求找到的模型必須包含最接近現今的歷史資料，使其可以找到已經從預先存在的環境中適應成功的模型來做為問題的最佳解。 Zhang et al. [10]的 causal feature selection 演算法做法首先確定變數之間的因果， 然後根據結果產生一個功能子集，相對於其他演算法其精確度和準確度皆表現最 好。Lee et al. [11]利用基因規劃法(Gene expression programming)從數據中搜索出 與以往研究中一些好的交易策略相似的時間間隔，將資料分成訓練以及驗證兩部分，隨著移動時間視窗來驗證實驗結果，接著從中挑選合適的交易策略，其模型具有一定的強健性。在過去文獻雖然有些研究已提及過選股中的精確度和準確度，但在本研究中將彈性地去計算出各個選股指標其適合的移動視窗長度，因此可以更動態地根據每個不同的模型改良其強健性。

(13)

4

2.2 基本面指標相關文獻

基本面指標是用來評估一間公司基本面價值的重要指標，也是投資人在選擇股票時的一個依據。劉慧敏[12]使用多目標基因演算法(Multi-objective Genetic Algorithm)的方法，以基本面指標來選股，並加入移動視窗的訓練，使其模型的表現更加穩定。江吉雄[13]選用了基本面指標及其他技術指標來選股的評估標準，並且結合基因演算法與移動視窗機制的訓練模型，發現此整合性的投資模型有不錯的成效。在過去也有 Fama 和 French [14]將美國股市以股價淨值比的高低分為 10 組，並且發現投資股價淨值比數值最低的一組其帄均月報酬率大勝股價淨值比最高的那一組。Fisher [15]則是在研究股價營收比時，認為選擇股價營收比 較低的股票較有機會選到潛力大的股票。Huang et al. [16]使用基因演算法演化出 最佳的基本面指標權重來建立選股模型。Huang [17]更在設計投資模型的同時，加入了支持向量迴歸(SVR)的選股方法以提供可靠的股票排名，並證實其模型的獲益也可有效超過大盤。由這些研究可看出，基本面指標可以一定程度的反應出一間公司的基本價值。本研究中我們將使用基本面指標，以發展一個創新的動態移動視窗驗證法的選股模型。

2.3 人工智慧相關文獻

以往在財務計算領域中都是以統計學來建立投資模型，但隨著近年計算量日益龐大，且需解決複雜的最佳化的問題，用人工智慧的方法來建立模型似乎已成為趨勢，例如預測時間序列[18、19]或是優化投資組合[20]的領域皆可見到人工智慧的做法。本研究採用的人工智慧方法為基因演算法，在過去基因演算法常被 用來解決參數最佳化的問題[21、22]，而 Subramanian et al. [23]也提出基因規劃 法(Genetic Programming)來對股價做預測。Jing [24]以基因演算法來建立偵測金融環境之雜訊的模型。Jun 和 He [25]也以基因演算法來優化類神經網絡的權重以避

(14)

5

免陷入局部最佳解。Chen [26]以多目標的基因演算法使選股模型可以兼顧風險與

報酬。Chou [27]結合了 Lee at al. [11]產生的交易訊號以及 Tsai [28]提出的投資組

=

流動資產−存貨−預付款流動負債 , (10) 檢視存貨是不是賣不出去，速動比率越高，代表公司越安全。

十一、存貨周轉率(Inventory turnover rate)

=

營業成本

期初期末帄均存貨 , (11)

代表一年間倉庫裡的或賣光幾次，反映銷售部門的效率高低。

十二、應收帳款週轉次(Receivables turnover rate)

=

營業收入

應收帳款 , (12)

代表企業一年內，回收幾次客戶欠款，應收帳款週轉次越高，代表收款速度越快，對客戶的議價能力佳。

(18)

9

十三、營業利益成長率(Operating income growth rate)

=

營業利益差額

去年營業利益 , (13)

成長率若為正，表示本業營運逐期成長。

十四、稅後淨利成長率(Net income growth rate)

=

稅後淨利差額

去年稅後淨利 , (14) 可看出稅後淨利成長的情況。本研究所採用的基本面指標，大致上分成兩類：一種是指標數值越低，股票價格未來可能會升高，像是股價淨值比、股價營收比、負債淨值比都是屬於此類；另一種則相反，指標數值越低，股票價格未來可能會減少，代表的指標有淨值報酬率、營業利益率、利潤邊際、速動比率、流動比率、存貨周轉率、應收帳款週轉次、稅後淨利成長率、營業利益成長率。我們根據每個基本面指標的特性不同而設定不同的相關性之值，如以下公式所示[29]： 𝑋_{𝑖,𝑗,𝑡} = 𝜌_{𝑖,𝑗,𝑡}, 𝜌_{𝑖,𝑗,𝑡} ∈ 𝑁 (15) 其中 𝑋_{𝑖,𝑗,𝑡} 表示股票 𝑖 的基本面指標 𝑗 在時間 𝑡 時的分數； 𝜌𝑖,𝑗,𝑡 表示股票 𝑖 的基本面指標 𝑗 在時間 𝑡 時的排名。接著我們以 𝐼𝑗 表示基本面指標 𝑗 的相關性，並做出排序，在這裡有兩種情形發生： 𝐼_𝑗 = 0: 𝜌_{𝑖,𝑗,𝑡} ≥ 𝜌_{𝑘,𝑗,𝑡} 𝑖𝑓𝑓 𝑣_{𝑖,𝑗,𝑡} ≤ 𝑣_{𝑘,𝑗,𝑡}, 𝑖 ≠ 𝑘; (16) 𝐼_𝑗 = 1: 𝜌_{𝑖,𝑗,𝑡} ≥ 𝜌_{𝑘,𝑗,𝑡} 𝑖𝑓𝑓 𝑣_{𝑖,𝑗,𝑡} ≥ 𝑣_{𝑘,𝑗,𝑡}, 𝑖 ≠ 𝑘, (17) 𝑣_{𝑖,𝑗,𝑡} 為股票 𝑖 的基本面指標 𝑗 在時間 𝑡 時的數值。而 𝑋_{𝑖,𝑗,𝑡} 分數高低取決於

(19)

10 基本面指標 𝑗 的值與相關性 𝐼_𝑗 。 𝑆𝑖,𝑡 = ∑𝑖,𝑗,𝑡𝑊𝑗,𝑡𝑋𝑖,𝑗,𝑡 , (18) 𝑆𝑖,𝑡 即為股票 𝑖 在時間 𝑡 所得之分數，𝑊𝑗,𝑡 為基本面指標 𝑗 在時間 𝑡 時的權重。在為每支股票算出分數之後，我們即可選出分數最高的前幾名作為我們投資的股票。而為了改良選股模型的強健性，本研究設計了不同時間驗證方式的移動視窗法，並且為了讓基本面指標可以動態去找出適合他們的演化週期，我們在基因演算法的染色體上再加入移動視窗的參數，再將全部指標的結果統整後，可以找出模型中最適合的移動視窗長度。以 1987 年至 2009 年資料的股價淨值比為例，在經過基因演算法(下一節有詳細說明)50 個回合，每個回合進行 50 個世代，每個世代使用 50 個個體進行演化之後，所得到的每個視窗長度的百分比如圖 1 所示，在全部 2500 次的結果中，視窗長度為 4 的結果為最高有 610 次，視窗長度為 5 的結果有 414 次，故股價淨值比指標在視窗長度為 4 或 5 時是最適合的移動視窗長度。我們將在稍後的第四章統整基本面指標的實驗結果並提供更詳細的說明。

圖 1.股價淨值比之移動視窗長度百分比圖

(20)

11

3.2 基因演算法

為了將研究的模型參數調整為最適當的值以達到最佳解，我們採用由 Holland [3]所提出之基因演算法(Genetic Algorithm, GA)來解決這個複雜的最佳化問題。基因演算法是模仿自然界生物的演化行為，利用物競天擇、適者生存的概念來解決最佳化問題的演算法。其做法首先將欲演化之參數編碼進染色體中，藉由篩選親代染色體、經過交配和突變的過程而產生子代，並以適應性函數 (fitness function)評估每支個體(染色體)適應環境的能力來決定是否演化，通過環境考驗而最終產生出的子代，可視為我們所需問題的最佳解。經由迭代地演化染色體的作法，也可以將最佳解的品質提升至一定的程度。基因演算法的主要流程如下： Step 1. 隨機產生一個擁有 𝑛 條染色體 𝐶 的初始族群 𝐺，其中染色體 𝐶 由 𝑚 個位元 𝑏 組成，定義如下： 𝐺 = *𝐶₁, 𝐶₂, … , 𝐶_𝑛+, 𝑛 ∈ 𝑁 ; (19) ∀𝐶 = *𝑏₁, 𝑏₂, … , 𝑏_𝑚+, ∀𝑏 ∈ *0,1+, 𝑚 ∈ 𝑁, (20) Step 2. 藉由適應性函數得到每條染色體的適應值 Step 3. 選擇親代，經由交配、突變直到產生 𝑛 條子代的染色體 Step 4. 將這新產生的 𝑛 條子代染色體取代原有的族群，成為新的族群 Step 5. 重複 Step2 ~ Step4，直到滿足演化的終止條件。

常見的演化終止條件有以下三種方法：

(21)

3.2.2 親代選擇方法

本研究選擇親代的方法為 Goldberg and Deb [30] 提出的競賽選擇法 (Tournament selection)，概念為隨機選取一對染色體進行比較，留下較優秀的一方作為親代，競賽選擇法的演算法流程如下：

Step 1. 從族群中隨機且可重複的選擇兩條染色體比較其適應性函數值，留下較優秀的一方為親代，直到選出兩個親代

Step 2. 選出的兩個親代進行交配與突變，產生兩個子代 Step 3. 重複 Step 1 與 Step 2 直到子代的數量與親代相同為止

3.2.3 交配與突變

在基因演算法中，使染色體之間互相交換彼此的基因，藉此產生更優良的子代的做法，即為交配。交配後產生的子代會擁有親代的部分特性，所以親代的優點與缺點都有可能被繼承下來，而上一小節的競賽選擇法會使染色體在下一次迭代時將較差勁的子代淘汰掉。本研究使用的交配方法為 De Jong and Spears [31] 提出的單點交配法，其演算法流程如下： Step 1. 有兩條染色體設為 𝐶_𝑥 與 𝐶_𝑦 ，其定義如下： 𝐶_𝑥 = *𝑏₁𝑥_{, 𝑏} 2𝑥, … , 𝑏𝑠𝑥+, ∀𝑏𝑗𝑥 ∈ *0,1+, 𝑗 = 1,2, … , 𝑠, 𝑠 ∈ 𝑁; (22) 𝐶_𝑦 = {𝑏₁𝑦, 𝑏₂𝑦, … , 𝑏_𝑠𝑦}, ∀𝑏_𝑗𝑥 _{∈ *0,1+, 𝑗 = 1,2, … , 𝑠, 𝑠 ∈ 𝑁,} ₍₂₃₎ Step 2. 隨機產生交配點 𝑝 ，兩親代 𝐶_𝑥 與 𝐶_𝑦 在 𝑝 點位置之後互相交換基

(24)

₀

₁

₀

₁

𝐶

_𝑦′

₀

₁

₀

₁

₀

圖 4.基因演算法交配示意圖

Step 3. 在基因演算法中會設定一個突變機率(mutation rate)來決定是否發生突變，突變會使染色體上的基因採隨機變化，此機制可協助族群跳脫區域最佳解的搜尋空間，但突變機率若設定過高，會導致基因演算法得到的解過於隨機，而失去此演算法的精神。染色體上的每個位元依照突變機率決定突變與否，如下圖 5 所示：

突變點

𝐶

_𝑥

0

1

0

1

0

0 突變後

𝐶

_𝑥

0

1

0

1

0

0 圖 5.基因演算法突變示意圖

(25)

16

3.2.4 基因演算法範例

在此我們將舉一個範例來進行基因演算法的運作流程。本範例需要解決的最佳化問題為 𝑓(𝑥) = 16𝑥 − 𝑥2_{，其中染色體 𝑥 的編碼長度為 4 個位元，因此最} 多可產生如表 1 的 16 條染色體：

表 1. 染色體

𝑥

的 4 位元編碼

integer

binary code

integer

binary code

0 0000

8 1000

1 0001

9 1001

2 0010

10 1010

3 0011

11 1011

4 0100

12 1100

5 0101

13 1101

6 0110

14 1110

7 0111

15 1111

在此假設一個世代 𝑖 的族群含有六條染色體 𝑥_𝑗(𝑖), 𝑗 = 1,2, … ,6，把他們轉成十進制整數並計算他們的適應性函數值(chromosome fitness)之後有其相對應的染色體編碼、十進制的整數如表 2；而使用基因演算法來演化這六條染色體的範例流程如圖 6 表示：

(26)

17

表 2. 隨機染色體族群之適應性函數值

chromosome

label

chromosome

string

decoded

(𝑖)

1100

12

48 圖 6.基因演算法範例流程圖

(27)

18 在第 𝑖 個世代中，我們利用競賽選擇法從表 2 的染色體族群中選出三對親代染色體並進行單點交配，第一、二對之交配點為編碼第三位元，故其染色體在第三位元與第四位元做交換的動作。而第三對親代染色體 𝑥1(𝑖) 與 𝑥6(𝑖) 沒通過設定的交配機率，因此這兩條染色體不做交配，直接到下一個突變的階段。突變階段中，僅有第 5 條染色體 𝑥1(𝑖) 的第四個位元有通過設定的突變機率，因此將 𝑥₁(𝑖) 突變成 𝑥₁′′(𝑖) ，值也從 0111 改變為 0110。最後這六條染色體成為了新的族群 𝑖 + 1 世代，並繼續基因演算法往後之演化。

3.3 比較基準

我們以大盤(benchmark)當作本研究提到的三種選股模型的比較基準，而大盤的投資策略為將資金帄均分配給全部股票，大盤稍後會出現在第四章實驗結果的累積報酬率圖中與三種選股模型比較。其投資報酬率可如下計算： 𝑅𝑡 =𝐹 ′ 𝐹. (26) 其中 𝑅_𝑡 為在第 𝑡 次交易時的報酬率， 𝐹_𝑡′ 為在第 𝑡 次交易後的資金，而 𝐹_𝑡 為第 𝑡 次交易前的資金。

3.4 績效指標

本研究主要使用之投資績效指標，為由累積報酬率所衍生之業界常用的夏普比率 (Sharpe ratio) [30] ，所使用之用來衡量模型強健性之指標則為精確度 (Precision)與準確度(Accuracy)，做為績效指標對模型的投資結果進行評估。

(28)

19

3.4.1 累積報酬率與夏普比率

累積報酬率為模型從投資一開始至最後投資結束的每一次交易的報酬率乘積，利用此指標可以直觀看出模型成效的優劣，定義如下，其中 𝑅_𝑎 為 𝑛 次交易後所得之總報酬率； 𝑅𝑡 表示交易中第 𝑡 次交易的報酬率。 𝑅𝑎 = ∏𝑛𝑡=1𝑅𝑡, (27) 我們在基因演算法裡設定的適應性函數(fitness)公式為 Sharpe [30]提出的夏普比率(Sharpe ratio)，也就是將年均化報酬率(annualized mean return)除以報酬率的標準差，其目的在於追求報酬率的同時，也將風險的因素考慮進來，以期望能排除風險對績效評估的不利影響。適應性函數的公式如下所示： 𝑓𝑖𝑡𝑛𝑒𝑠𝑠

=

𝑛√𝑅𝑎 𝑅_𝑆𝑇𝐷, (28) 其中 𝑅𝑎 為總累積報酬率； 𝑛 為交易的年數； 𝑅𝑆𝑇𝐷 為報酬率的標準差，其公式如下： 𝑅𝑆𝑇𝐷 = √∑ (𝑅𝑡−𝑅) 2 𝑛 𝑡=1 𝑛 , (29) 其中 𝑅_𝑡 第 𝑡 次交易的報酬率； 𝑅 為第 1 次至第 𝑡 次交易報酬率的帄均； 𝑛 為交易的年數。

(29)

20

3.4.2 精確度與準確度

精確度(Precision)與準確度(Accuracy)是統計學上的概念，精確度是指各次獨立實驗數據所得之預測值分布的「集中程度」，若多次預測值彼此之間的差距小，顯示精確度高；準確度表示預測值與實際值的差異程度，若多次預測的帄均值接近實際值，我們可以相信模型準確度高。兩種指標皆可證明模型是否具備足夠的強健性，其定義如下： 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = _{𝑇𝑃+𝐹𝑃}𝑇𝑃 ; (30) 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =_{𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁}𝑇𝑃+𝑇𝑁 , (31) 其中 𝑇𝑃, 𝐹𝑃, 𝑇𝑁, 𝐹𝑁 為模型預測結果與實際情形的關係。我們舉醫生看病的例子： 𝑇𝑃 為真陽性，醫生診斷患者有染病，實際上患者的確染病； 𝐹𝑃 為偽陽性，醫生診斷患者有染病，實際上患者卻沒染病； 𝑇𝑁 為真陰性，醫生診斷患者沒有染病，實際上患者的確沒染病； 𝐹𝑁 為偽陰性，醫生診斷患者沒有染病，實際上患者卻有染病。定義如表 3：

表 3. 模型預測結果分類表

實際情況

預測結果

True

False

Positive

True Positive

(TP)

False Positive

(FP)

Negative

True Negative

(TN)

False Negative

(FN)

(30)

21 這兩個指標可以幫助驗證我們建立的選股模型是否具有強健性，如果在訓練期模型可勝過大盤而在測詴期也有一樣的情形時，表示其模型在不同的環境中擁有一樣的成效，具有足夠的強健性(訓練期與測詴期在下一小節將提到)。

3.5 時間驗證(Temporal Validation)

一般統計研究，會藉由交叉驗證(Cross Validation)檢驗模型的效能，此方法通常將數據不考慮時間順序地分成兩部分，在訓練期訓練後所得到的模型，套用在測詴期上，以做驗證。但在財務領域的研究上，實驗的數據具有不可逆的時間順序，故測詴數據一定要擺在訓練數據之後，使用測詴模型才有意義。因此，在本研究中，我們採用時間驗證(Temporal Validation, TV)的方式，透過基因演算法建立出在訓練期中效能優良的投資模型後，將此模型再帶入測詴期作驗證以檢驗模型的正確性，並改良傳統的時間驗證方式，希望有更好的強健性。

3.5.1 傳統時間驗證

Huang[16、17]提出的時間驗證法，是將 𝑛 年的資料分成 𝑛 − 1 個區間，如圖 7 所示：模型時間為 1987 年至 2009 年， 23 年的資料分成 22 個區間，第 1 個 TV 將第 1 個區間作為訓練期，之後的區間做為測詴期，第 2 個 TV 將第 1 跟第 2 個區間作為訓練期，之後的區間做為測詴期，依此類推。但傳統時間驗證法的缺點在於：前段的 TV 因為訓練期過短，故建立的模型在往後的測詴其並無太大意義；而後段的 TV 則是測詴期太短，因此會導致建立好的模型沒有時間發揮出效益。

(31)

22

TV\年

1987

1988

…

2008

2009

1 Training

Testing

2 …

…

21

22 圖 7.傳統 Temporal Validation

3.5.2 移動視窗(Sliding window)時間驗證

為了與傳統方法的方法做出區別，本研究使用了不同的時間驗證方式，稱之為移動視窗法，希望以此方法建立的選股模型能夠擁有更強健的成效。此方法將訓練期與測詴期固定成兩者前後相鄰，長度皆為 𝑛 個區間的移動視窗。隨著 TV 往後，實驗的區間逐漸向後滑動。以下舉兩個資料皆為 1987 年至 2009 年間的移動視窗為例：圖 8 為視窗長度為 1 的時間驗證；圖 9 為視窗長度為 5 的時間驗證。

TV\年

1987

1988

1989

…

2007

2008

2009

1 Training Testing

2 …

…

21

22 圖 8.視窗長度為 1 的移動視窗

(32)

23

TV

_{1987~2009 年}

1 1987~1991 1992~1996

2 1988~1992 1993~1997

…

13 1999~2003 2004~2008

14 2000~2004 2005~2009

圖 9.視窗長度為 5 的移動視窗

3.5.3 動態視窗時間驗證

從第 3.1 節基本面指標的分析討論，我們推測每個基本面指標可能都有適合其運作的時間區間，因此我們在基因演算法的染色體中設計一個演化參數 𝑤𝑠 ，在訓練期中使模型的 14 個基本面指標可以各自演化出其適合的移動視窗長度，之後統整所有指標的數據，將出現百分比最高的視窗長度做為本模型測詴期的移動視窗長度，此方法即可動態地選取最適合的移動視窗長度，使投資模型結果更為良好。

(33)

24

4.研究結果

此章節分四個部分介紹本研究的實驗架構與結果，首先第一部分說明本研究使用的資料來源與時間範圍，第二部分為基因演算法在選股模型最佳化的參數設定，再來為比較模型預測效果優劣的比較基準，最後在第四部分為實驗的結果。

4.1 資料來源與時間範圍

本研究使用台灣股市上市上櫃公司的股票作為研究對象，取市值前 20%的公司來做實驗，資料來源為 Taiwan Economic Journal (TEJ)資料庫的數據，實驗共使用四個時間週期，分別為：資料一、「1987 年至 2009 年」共 23 年的年度資料(此為 Huang [16、17]所使用之資料) 資料二、「2001 年 12 月至 2016 年 3 月」共 58 季的季度資料資料三、「2001 年 12 月至 2016 年 3 月」共 29 個半年的半年度資料資料四、「2001 年 12 月至 2016 年 3 月」共 15 年的年度資料(此資料與 Huang [16、17]所用不同，以提供使用年資料額外的比較) 使用不同資料的方式是為了測詴實驗模型在不同的時間範圍是否可得出同樣穩定的研究結果，以證明模型擁有足夠的強健性。資料包含股票公司的股價、投資報酬率以及投資人常使用的 14 個基本面分析指標[17](本益比、股價淨值比、股價營收比、資產報酬率、稅後淨值報酬率、營業利益率、利潤邊際、負債淨值比、流動比率、速動比率、存貨周轉率、應收帳款週轉次、營業利益成長率、稅後淨利成長率)。

(34)

(35)

26

圖 10

圖 10. 最佳夏普比率收斂圖

我們的基因演算法在演化 50 個世代的過程中，會將其出現過最好的適應值記錄下來，並存於 Best-so-far 這個變數中。我們可以發現隨著世代越往後，適應值會越難發現更好的值，而漸漸收斂在一個範圍，這也是基因演算法會找到最佳解的一個證明。

4.3 比較基準

本實驗以一個基於傳統時間驗證的模型，以及基於移動視窗法的所有視窗長度的模型，也就是列舉移動視窗法的所有結果，來做為基於動態視窗法模型的比較基準，以比較模型的強健性及績效優劣。

(36)

27

4.4 實驗結果

本研究之實驗結果分別用 4 份資料去比較三種模型的基本面指標視窗長度、精確度、準確度以及累積報酬率。4.4.1 為資料一「1987 年至 2009 年」共 23 年的實驗結果；4.4.2 為資料二「2001 年 12 月至 2016 年 3 月」共 58 季的實驗結果； 4.4.3 為資料三「2001 年 12 月至 2016 年 3 月」共 29 個半年的實驗結果；4.4.4 為資料四「2001 年 12 月至 2016 年 3 月」共 15 年的的實驗結果。

(37)

28

4.4.1 資料一的模型比較

圖 10 為各個基本面指標於資料一的移動視窗長度 1 至 11 的百分比圖；圖 11 為統整全部基本面指標後的移動視窗長度 1 至 11 的百分比圖。

(38)

29

圖 11.各基本面指標之視窗長度百分比圖

(39)

30 實驗結果可看出，每個基本面指標都有其適合的移動視窗長度，例如本益比之移動視窗在全部 2500 次的結果中(50 個回合 50 個個體)，視窗長度為 4 的結果有 808 次，故其長度 4 最適合，而速動比率則在長度 4~8 之間無明顯突出。但大部分而言呈現兩邊低中間高的鐘形曲線趨勢，並在長度 4 與 5 為最高，說明了資料一合適的移動視窗長度在長度 4~5，也就是 4 至 5 年。表 5 為在資料一中, Precision 和 Accuracy 的比較結果。

表 5.資料一的強健性比較

Precision

Accuracy

動態視窗法 size 4

0.7476

0.9050

傳統法

0.6773

0.8427

移動視窗法

size1

0.5709

0.6800

size2

0.5938

0.7560

size3

0.6417

0.7824

size4

0.6725

0.9074

size5

0.7256

0.8750

size6

0.6512

0.8688

size7

0.6379

0.8640

size8

0.6588

0.8225

size9

0.6429

0.8437

size10

0.6125

0.8375

size11

0.6034

0.8413

(40)

31

其中動態視窗法 size 4 為第 3.5.3 節之方法，其 window size 為 4；而傳統法為第 3.5.1 節之方法。為了更容易看出模型的差異而做比較，我們將移動視窗法的數據以圖 12 顯示：

圖 13.移動視窗法於資料一之 Precision & Accuracy

首先比較 Precision 的結果，可看出動態視窗法 size 4 的模型精確度高於其他模型；傳統法方面則勝於 91%的移動視窗法；而移動視窗法在 size 為 5 時精確度最高，越往兩邊精確度越低。接著在 Accuracy 方面，動態視窗法 size 4 的模型略輸移動視窗法 size 為 4 的模型，位居所有模型第二；傳統模型則勝於 54.5% 的移動視窗模型；而移動視窗模型在 size 為 4 時最高，size 越小下降幅度較快， size 越大則相差不大，較為穩定。

(41)

32 圖 13 為資料一的前 8 個年度以累積報酬率當指標，三種方法與大盤比較的實驗結果。可看出動態視窗模型表現最佳，再來為移動視窗模型，但其與傳統模型相差不大，而這三種模型皆有投資時間越久越與大盤拉開的趨勢，但在 1990 年全部模型的報酬率皆不增反減，推測是與 1990 年台灣開始實施證交稅的政策有關。

圖 14.資料一之前 8 年累積報酬率比較

(42)

33

4.4.2 資料二的模型比較

圖 14 為各個基本面指標於資料二的移動視窗長度 1 至 29 的百分比圖；圖 15 為統整全部基本面指標後的移動視窗長度 1 至 29 的百分比圖：

(43)

34

圖 15.各基本面指標之視窗長度百分比圖

(44)

35 實驗結果可看出，每個基本面指標趨勢都是在長度 15~25 之間最高，例如營業利益率之移動視窗以長度 18~20 最適合，而利潤邊際則在長度 18~19 之間最適合。整體而言呈現右高左低的情形，並在長度 18 為最高，推測可能是前幾季的數據太少而不能演化，導致長度短的移動視窗沒有好的成效，說明了資料二合適的移動視窗長度在長度 17~20，也就是 4 至 5 年。表 6 為資料二中, Precision 和 Accuracy 的比較結果。

表 6.資料二的強健性比較

Precision

Accuracy

動態視窗法 size 18

0.7231

0.8717

傳統法

0.6612

0.8105

移動視窗法

size1

0.4531

0.5649

size2

0.5125

0.6527

size3

0.4976

0.6689

size4

0.5533

0.6813

size5

0.5741

0.6918

size6

0.5934

0.7063

size7

0.6135

0.6956

size8

0.6054

0.7198

size9

0.6289

0.7256

size10

0.6327

0.7231

(45)

36

表 6.資料二的強健性比較(續)

Precision

Accuracy

size11

0.6339

0.7284

size12

0.6439

0.7457

size13

0.6583

0.7742

size14

0.6551

0.7935

size15

0.6754

0.8190

size16

0.6842

0.8259

size17

0.7025

0.8480

size18

0.7167

0.8435

size19

0.7058

0.8595

size20

0.7014

0.8368

size21

0.6957

0.8000

size22

0.7006

0.8067

size23

0.6932

0.8192

size24

0.6877

0.7955

size25

0.6758

0.8167

size26

0.6743

0.8286

size27

0.6676

0.8000

size28

0.6634

0.8000

size29

0.6783

0.8000

為了更容易看出模型的差異而做比較，我們將移動視窗法的數據以圖 16 顯示：

(46)

37

圖 17

. 移動視窗法於資料二之 Precision & Accuracy

首先比較 Precision 的結果，動態視窗法 size 18 的模型精確度高於其他模型；傳統法方面則只有勝過 48.3%的移動視窗法；而移動視窗法在 size 為 18 時精確度最高，但在長度 17~22 之間相差不大。接著在 Accuracy 方面，動態視窗法 size 18 的模型準確度依然高於其他模型；傳統法方面則勝於 69%的移動視窗法；而移動視窗法在 size 為 17 跟 19 時最高。圖 17 為資料二的前 18 個季度以累積報酬率當指標，三種方法與大盤比較的實驗結果。可發現都勝過大盤，並且隨著時間越往後，累積報酬率相差越大。

(47)

38

(48)

39

4.4.3 資料三的模型比較

圖 18 為各個基本面指標於資料三的移動視窗長度 1 至 14 的百分比圖；圖 19 為統整全部基本面指標後的移動視窗長度 1 至 14 的百分比圖。

(49)

40

圖 19.各基本面指標之視窗長度百分比圖

(50)

41 實驗結果可看出，基本面指標趨勢都是在長度 8~11 之間，例如存貨周轉率之移動視窗以長度 9~11 最適合，而本益比則在長度 9 或 10 最適合。整體而言從長度 7 左右才開始攀升，並在長度 9 為最高，應該是跟資料二的實驗結果一樣由於前幾季的數據太少不能演化的原因導致。說明了資料三合適的移動視窗長度在長度 9~11，也就是 4.5 至 5.5 年。表 7 為資料三中, Precision 和 Accuracy 的比較結果。

表 7.資料三的強健性比較

Precision

Accuracy

動態視窗法 size 9

0.7421

0.8417

傳統法

0.6823

0.8125

移動視窗法

Size1

0.5234

0.6789

Size2

0.5721

0.6846

Size3

0.623 0.7188

Size4

0.6245

0.7159

Size5

0.6571

0.7200

Size6

0.6643

0.7389

Size7

0.6851

0.7813

Size8

0.6934

0.8219

Size9

0.7315

0.8375

Size10

0.7024

0.8250

Size11

0.6951

0.8125

(51)

42

表 7.資料三的強健性比較(續)

Precision

Accuracy

Size12

0.6734

0.8083

Size13

0.6613

0.7875

Size14

0.6640

0.8000

圖 21. 移動視窗法於資料三之 Precision & Accuracy

首先比較 Precision 的結果，動態視窗法 size 9 的模型精確度高於其他模型；傳統法方面則勝過 64.3%的移動視窗法；而移動視窗法在 size 為 9時精確度最高。

(52)

43 接著在 Accuracy 方面，動態視窗法 size 9 的模型準確度依然高於其他模型；傳統法方面則勝於 71.4%的移動視窗法；而移動視窗法在 size 為 9 時準確度最高。圖 21 為資料三的前 9 個半年度以累積報酬率當指標，三種方法與大盤比較的實驗結果。可發現都勝過大盤，但在第三個半年度之前相差不大，推測可能是有重大的事件使投資報酬率停滯不前，例如 2003 年 4 月的 SARS。

圖 22.資料三之前 9 個半年度累積報酬率比較

(53)

44

4.4.4 資料四的模型比較

圖 22 為各個基本面指標於資料四的移動視窗長度 1 至 7 的百分比圖；圖 23 為統整全部基本面指標後的移動視窗長度 1 至 7 的百分比圖。

(54)

45

圖 23.各基本面指標之視窗長度百分比圖

(55)

46 實驗結果可看出，基本面指標趨勢都是在長度 4~5 之間，例如淨值報酬率與流動比率之移動視窗皆以長度 4~5 最適合。說明了資料三合適的移動視窗長度在長度 4~5，也就是 4 至 5 年，與前三個資料的結果一樣。表 8 為資料四中, Precision 和 Accuracy 的比較結果。

表 8.資料四的強健性比較

Precision

Accuracy

動態視窗法 size 4

0.7054

0.8389

傳統法

0.6812

0.8200

移動視窗法

Size1

0.5845

0.6967

Size2

0.6357

0.7192

Size3

0.6772

0.7409

Size4

0.7014

0.8278

Size5

0.7087

0.8071

Size6

0.6812

0.7900

Size7

0.6531

0.7500

(56)

47

圖 25.移動視窗法於資料四之 Precision & Accuracy

首先比較 Precision 的結果，動態視窗法 size 4 的模型精確度略輸移動視窗法 size 為 4 的模型，位居所有模型第二；傳統法方面則勝過 57.1%的移動視窗法；而移動視窗法在 size 為 4 時精確度最高。接著在 Accuracy 方面，動態視窗法 size 4 的模型準確度依然高於其他模型；傳統法方面則勝於 85.7%的移動視窗法；而移動視窗法一樣在 size 為 4 時準確度最高。

圖 25 為資料四的前 7 個年度以累積報酬率當指標，三種方法與大盤比較的實驗結果。可發現都勝過大盤，且移動視窗模型與傳統模型相差不大。

(57)

48

(58)

49

5.結論

本研究建立了一個基於移動視窗與基因演算法的動態視窗選股模型，此模型分別在 1987 至 2009 的年度資料、2001 年 12 月至 2016 年 3 月的季度資料、2001 年 12 月至 2016 年 3 月的半年度資料、2001 年 12 月至 2016 年 3 月的年度資料這四種資料中，皆可動態演化出該時間區間最適合的移動視窗長度，來做為基因演算法的時間驗證方式，在基因演算法中，我們使用了 14 個基本面指標，並以特徵選取值、相關性、指標權重以及移動視窗長度這 4 個參數來進行演化，以求出模型的最佳解。建立更具強健性且報酬率更為優良的選股模型。我們也探討了不同的時間驗證方式所建立的不同模型，包含「傳統時間驗證法」、「移動視窗法」以及「動態視窗法」三種方法來做強健性與成效優劣的比較。實驗結果顯示出不管是精確度或準確度，動態視窗法幾乎都勝過其他兩種方法，證明以動態視窗法建立的模型相比之前的模型擁有更高的強健性；而累積報酬率更可看出動態視窗選股模型的報酬率優於其他兩者與大盤。整體而言動態視窗法所建立的模型，比起傳統時間驗證與移動視窗法還要有更高的強健性以及報酬率。移動視窗的實驗結果也發現了視窗長度在 4 至 5 年都是呈現數據最高的現象，並在 6 年之後雖略微下滑，但跟之前的視窗長度相比卻趨於穩定。因此我們可以推測出若以股市的基本面投資，將訓練模型之時間設定在 4 至 5 年大多可以獲利；而越往後越趨於穩定的現象，可能是訓練期夠長，使得模型的強健性能有一定程度的表現。在未來研究中，希望可以有更多證據去驗證動態視窗法模型之投資報酬率是否真的能勝過其他方法；而本文所使用到的基因演算法也可以從單目標進展到多目標，使選股模型有更全面的表現而更加嚴謹以及準確，降低投資的風險。

(59)

50

6.參考文獻

[1] D. Hand, H. Mannila, and P. Smyth, ―Principles of data mining,‖ MIT Press, Cambridge, MA. ISBN 0-262-08290-X, 2001.

[2] R. C. Cavalcante, R. C. Brasileiro, V. L. F. Souza, J. P. Nobrega, and A. L. I. Oliveira, ―Computational Intelligence and Financial Markets: A Survey and Future Directions,‖ Expert Systems With Applications, vol. 55, 2016, pp. 194-211.

[3] J. H. Holland, Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence. U

Michigan Press, 1975.

[4] R. Aguilar-Rivera, M. Valenzuela-Rendón and J.J. Rodríguez-Ortiz, ―Genetic algorithms and Darwinian approaches in financial applications: A survey,‖ Expert Systems With Applications, vol. 42, 2015, pp. 7684-7697.

[5] G. Hassan, and C. Clack, ―Robustness of multiple objective GP stock-picking in unstable financial markets: real-world applications track,‖ Proceedings of the 11th Annual conference on Genetic and evolutionary computation, 2009.

[6] Hassan, Ghada Nasr Aly, Multiobjective genetic programming for financial

portfolio management in dynamic environments. Diss. UCL (University College

London), 2010.

[7] W. Wang, S. Caro, and F. Bennis, ―Robustness Against Large Variations in Multi-Objective Optimization Problems,‖ ASME 2013 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. American Society of Mechanical Engineers, 2013. [8] A. Silva, R. Neves, and N. Horta, ―A hybrid approach to portfolio composition

based on fundamental and technical indicators,‖ Expert Systems with Applications, vol. 42, 2015, pp. 2036-2048.

[9] N. Wagner, Z. Michalewicz, M. Khouja , R. R. McGregor, ―Time Series Forecasting for Dynamic Environments: The DyFor Genetic Program Model,‖ IEEE Transactions on Evolutionary Computation, vol. 11, no. 4, p.433-452, August 2007

(60)

51

[10] Zhang, X., Hu, Y., Xie, K., Wang, S., Ngai, E. W. T., and Liu, M., ―A causal feature selection algorithm for stock prediction modeling,‖ Neurocomputing, vol. 142, 2014, pp.48-59.

[11] C.-H. Lee, C.-B. Yang, and H.-H. Chen, ―Taiwan stock investment with gene expression programming,‖ Procedia Computer Science, vol. 35, 2014, pp. 137-146.

[12] 劉慧敏, ―多目標遺傳演算法於基本面選股策略之應用,‖ 國立中央大學資訊管理學系碩士班碩士論文, June 2002.

[13] 江吉雄, ―遺傳演算法於股市選股與擇時策略之研究,‖ 國立中央大學資訊管理研究所碩士論文, June 2002.

[14] E. F. Fama, and K. R. French, ―Common risk factors in the returns on stocks and bonds,‖ Journal of Financial Eonomics, vol. 33, no. 1, pp. 3-56, 1993.

[15] K. L. Fisher, Super Stocks. Homewood, Illinois: Dow Jones-Irwin, 1984.

[16] C. F. Huang, T. N. Hsieh, B. R. Chang, and C. H. Chang, ―A comparative study of stock scoring using regression and genetic-based linear models,‖ in Proceedings of 2011 IEEE International Conference on Granular Computing,

2011, pp. 268-273.

[17] C.-F. Huang, ―A Hybrid Stock Selection Model using Genetic Algorithms and Support Vector Regression,‖ Applied Soft Computing, vol. 12(2), 2012, pp. 807-818.

[18] K.-J. Kim, and I. Han, ―Genetic algorithms approach to feature discretization in artificial neural networks for the prediction of stock price index,‖ Expert Systems with Applications, vol. 19, no. 2, pp. 125–132, 2000.

[19] Y. Becker, P. Fei, and A. Lester, ―Stock selection—an innovative application of genetic programming methodology,‖ in Genetic Programming Theory and Practice IV, R. Riolo, T. Soule, and B. Worzel, Eds., vol. 5 of Genetic and Evolutionary Computation, chapter 12, pp. 315–334, Springer, Ann Arbor, Mich, USA, 2006.

[20] P. Parracho, R. Neves, N. Horta, ―Trading with optimized uptrend and downtrend pattern templates using a genetic algorithm kernel‖, IEEE congress on

(61)

52

evolutionary computation(CEC), pp. 1895-1901, June, 2011

[21] F. Allen, and R. Karjalainen, ―Using genetic algorithms to find technical trading

rules,‖ Journal of Financial Economics, vol. 51, no. 2, pp. 245-271, 1999

[22] C. H. Cheng, T. L. Chen, and L. Y. Wei, ―A hybrid model based on rough sets

theory and genetic algorithms for stock price forecasting,‖ Information Sciences, vol. 180, no. 9, pp. 1610-1629, 2010.

[23] H. Subramanian, S. Ramamoorthy, P. Stone, and B. J. Kuipers, ―Designing safe, profitable automated stock trading agents using evolutionary algorithms,‖ Proc. of the 8th annual conference on Genetic and evolutionary computation, 2006, pp.

1777-1784.

[24] L. Jing, ―Data modeling for searching abnormal noise in stock market based on genetic algorithm‖, International symposium on computational intelligence and design, vol. 2, pp. 129-131, 2010.

[25] T. Jun, L. He, ―Genetic optimization of BP neural network in the application of suspicious financial transactions pattern recognition,‖ International conference on management of e-commerce and e-government(ICMeCG), pp. 280-284,

October, 2012.

[26] Shin Shou Chen, A Study of Multi-objective Genetic Models for Stock Selection, 2014.

[27] Chan-Yi Chou, Portfolio Investment Based on Gene Expression Programming, 2016.

[28] T. J. Tsai, C. B. Yang, and Y. H. Peng, ―Genetic algorithms for the investment of the mutual fund with global trend indicator,‖ Expert Systems with Applications, vol. 38(3), pp. 1697-1701, 2011.

[29] Huang, C.-F., Chang, B. R., Cheng, D.-W., and Chang, C.-H., ―Feature Selection and Parameter Optimization of a Fuzzy-based Stock Selection Model using Genetic Algorithms,‖ International Journal of Fuzzy Systems, 14(1), pp. 65–75, 2012.

[30] D. E. Goldberg, and K. Deb, ―Comparative analysis of selection schemes used in genetic algorithms,‖ Foundation of Genetic Algorithms, pp. 69-93, 1991.

(62)

53

[31] K. A. De Jong, W. M. Spears and D. A. Gordon, ―Using genetic algorithms for concept learning,‖ Machine Learning, vol. 13, pp. 161-188, 1993.

[32] A. F. Perold, and W. F. Sharpe, ―Dynamic strategies for asset allocation,‖ Financial Analysts Journal, pp. 16-27, 1988.

[33] W. F. Sharpe, ―The sharpe ratio,‖ The Journal of Portfolio Management, vol. 21(1). pp. 49-58, 1994.

一個植基於動態視窗之基因演算法選股模型強健性的比較性研究

國立高雄大學資訊工程研究所

碩士論文

一個植基於動態視窗之基因演算法

選股模型強健性的比較性研究

A Comparative Study of Model Robustness for Stock

Selection Models Using Dynamic Window-sized Genetic

Algorithms

研究生：陳立偉 撰

指導教授：黃健峯 博士

一個植基於動態視窗之基因演算法

選股系統強健性的比較性研究

摘要

A Comparative Study of Model Robustness for Stock

Selection Systems Using Dynamic Window-sized

Genetic Algorithms

ABSTRACT

致謝

目錄

表目錄

圖目錄

1.導論

1.1 研究背景

1.2 研究目的

1.3 論文架構

2.文獻探討

2.1 強健性相關文獻

2.2 基本面指標相關文獻

2.3 人工智慧相關文獻

3.研究方法

3.1 基本面指標分析及選股

=

, (1)

,

=

=

,

=

=

=

=

=

=

=

=

=

=

圖 1.股價淨值比之移動視窗長度百分比圖

3.2 基因演算法

.基因演算法演化流程

3.2.1 編碼方式

𝑏

...

𝑏

𝑏

...

𝑏

𝑏

…

𝑏

𝑏

…

𝑏

圖 3.基因演算法編碼示意圖

3.2.2 親代選擇方法

3.2.3 交配與突變

交配點

𝑝

𝐶

0

1

1

0

0

1

0

0

𝐶

0

0

研究生：陳立偉撰

指導教授：黃健峯博士

_...

_𝑏

_...

_𝑏

₀

₁

₁

₀

₁

₀

₁

₁

₀

₀

₁

₁

₀

₁

₀

₀