一個創新的智慧型交易量驅動之高速股價預測模型

(1)

國立高雄大學資訊工程研究所

碩士論文

一個創新的智慧型交易量驅動之

高速股價預測模型

A Novel Intelligent Volume-driven Forecasting Model

for Stock Price in High-speed Trading

研究生：李緒智撰

指導教授：黃健峯博士

(2)

(3)

I

一個創新的智慧型交易量驅動之

高速股價預測模型

指導教授：黃健峯博士國立高雄大學資訊工程研究所學生：李緒智國立高雄大學資訊工程研究所

摘要

在這篇論文中，我們提出了一個在高速微觀結構下，結合交易量驅動法則及使用遺傳演算法最佳化的創新股價預測模型。我們利用了台灣證券交易所對外揭示的公開觀測資料，並以10 間台灣證券交易所當月交易量高排名的公司為標的，進行價格預測能力上的探討。實驗的結果顯示，我們所提出的人工智慧模型，在預測力上面都比基於線性迴歸、邏輯迴歸及基於成交價法則的模型上有更優秀的表現。說明了我們的模型能夠較有效地解決高速交易環境下的股價預測問題。我們希望未來可以拓展此預測模型的複雜度，提升模型的預測能力以及強健性，以將這些方法及成果來進一步推進金融投資領域的高速交易的相關研究。關鍵字：高速交易、交易量驅動、遺傳演算法、微觀結構市場

(4)

II

A Novel Intelligent Volume-driven High-speed

Trading Model for Stock Investment

Advisor: Dr. Chien-Feng Huang

Institute of Computer Science and Information Engineer National University of Kaohsiung

Student: Hsu-Chih Li

Institute of Computer Science and Information Engineer National University of Kaohsiung

ABSTRACT

In this thesis, we present a novel methodology to develop intelligent volume-driven forecasting models in high-speed trading for stock investment. In order to construct the models, in this study we used the disclosed micro-structure market data for stock price, including strike-price, both the best five bid and ask price quotes, and their volume in the call auction market of Taiwan Stock Exchange. Our results showed that the accuracy of our proposed GA-based model significantly outperformed several other traditional models.We expect this methodology to advance the current state of the study for price forecasting in the call auction market and high speed trading environment for computational finance.

(5)

III

致謝

在為期兩年的碩士就學過程中，很高興自己能夠達到這樣的目標。這段時間內受到很多人的幫忙與指教，我才能更加的深入與學習資訊工程領域的各種知識，並且完成這份學業。感謝指導教授黃健峯老師，在我對金融與人工智慧的知識尚淺時，給予我許多研究上的幫助與建議及實作的機會，還有討論了許多課業以外的人生課題。感謝張志向教授指導了我的論文在金融背景下的不足與修正上的建議。感謝陳志忠教授，百忙中抽空從嘉義至高雄擔任口試委員，並點出我在人工智慧部分的一些缺失及如何改進。我也要感謝實驗室的學長學弟們在這段期間給我的幫忙。感謝學長繼仁，在我剛踏入這個領域時給我的各種建議，感謝振安與基愷跟我一起討論與解決了許多實作上的問題；感謝立偉與柏均幫忙我分擔實驗室的各種事務；感謝良宇大哥給了我業界上的許多經驗；最後特別感謝我的大學教授們還有我的家人，給我在這條路上的支持與鼓勵。因為你們的幫忙，我才能順利完成資訊工程的碩士學位。緒智謹誌國立高雄大學資訊工程所中華民國一百零五年七月

(6)

IV

中文摘要... I 英文摘要... II 致謝... III 目錄... IV 圖目錄... VI 表目錄... VIII 1. 導論 ... 1 1.1 研究背景 ... 1 1.2 研究目的 ... 2 1.3 論文架構 ... 3 2. 文獻探討 ... 4 2.1 高頻交易相關文獻 ... 4 2.2 台灣股票市場相關文獻 ... 5 2.3 人工智慧相關文獻 ... 6 3. 研究方法 ... 8 3.1 模型評估指標 ... 8 3.2 台灣股市集合競價交易機制介紹 ... 9 3.3 交易規則與預測模型 ... 12 3.3 1 成交價與最佳買價及最佳賣價之法則 ... 12 3.3.2 最佳五檔委託量權重 ... 14 3.3.3 最佳交易週期 ... 15 3.3.4 委託量變化週期 ... 18 3.4 遺傳演算法 ... 20 3.4.1 編碼方式 ... 21 3.4.2 親代選擇方法 ... 22 3.4.3 交配與突變 ... 22

(7)

V 3.4.4 遺傳演算法範例 ... 25 4. 研究結果 ... 27 4.1 資料來源與研究區間 ... 27 4.2 時間驗證(Temporal Validation) ... 29 4.3 遺傳演算法參數設定 ... 29 4.4 比較基準 ... 30 4.4.1 成交價法則模型 ... 30 4.4.2 線性迴歸模型 ... 30 4.4.3 邏輯迴歸模型 ... 31 4.5 實驗結果 ... 33 4.5.1 半導體類股準確度(2015/09/24-2015/11/12) ... 34 4.5.2 金融類股準確度(2015/09/24-2015/11/12) ... 44 4.5.3 半導體類股準確度(2015/11/13-2015/12/29) ... 53 4.5.4 金融類股準確度(2015/11/13~2015/12/29) ... 62 5. 結論 ... 71 6. 參考文獻 ... 72

(8)

VI

圖目錄

圖 1 台積電於不同交易週期之準確度變化 ... 15 圖 2 台積電於不同交易週期之準確度變化 ... 16 圖 3 台積電預測上漲之結果變化... 17 圖 4 台積電預測下跌之結果變化... 17 圖 5 遺傳演算法演化流程 ... 21 圖 6 遺傳演算法編碼示意圖 ... 21 圖 7 遺傳演算法交配示意圖 ... 23 圖 8 遺傳演算法突變示意圖 ... 24 圖 9 遺傳演算法範例流程圖... 26 圖 10 Temporal Validation 之圖示 ... 29 圖 11 台灣積體電路之準確度比較(訓練期) ... 36 圖 12 台灣積體電路之準確度比較(測試期) ... 36 圖 13 台灣積體電路平均最佳準確度之best-so-far ... 37 圖 14 友達光電之準確度比較(訓練期) ... 39 圖 15 友達光電之準確度比較(測試期) ... 39 圖 16 矽品精密工業之準確度比較(訓練期) ... 40 圖 17 矽品精密工業之準確度比較(測試期) ... 40 圖 18 日月光半導體之準確度比較(訓練期) ... 41 圖 19 日月光半導體之準確度比較(測試期) ... 41 圖 20 華亞科技之準確度比較(訓練期) ... 42 圖 21 華亞科技之準確度比較(測試期) ... 42 圖 22 元大金融控股之準確度比較(訓練期) ... 46 圖 23 元大金融控股之準確度比較(測試期) ... 46 圖 24 元大金融控股平均最佳準確度之best-so-far ... 47 圖 25 中國信託金融控股準確度之比較(訓練期) ... 48 圖 26 中國信託金融控股準確度之比較(測試期) ... 48 圖 27 國泰金融控股股份有限公司(訓練期) ... 49 圖 28 國泰金融控股股份有限公司(測試期) ... 49 圖 29 玉山金融控股股份有限公司(訓練期) ... 50 圖 30 玉山金融控股股份有限公司(測試期) ... 50 圖 31 富邦金融控股股份有限公司(訓練期) ... 51 圖 32 富邦金融控股股份有限公司(測試期) ... 51 圖 33 台灣積體電路準確度比較(訓練期) ... 55 圖 34 台灣積體電路準確度比較(測試期) ... 55 圖 35 台灣積體電路平均最佳準確度之best-so-far ... 56 圖 36 友達光電準確度比較(訓練期) ... 57

(9)

VII 圖 37 友達光電準確度比較(測試期) ... 57 圖 38 矽品精密工業準確度比較(訓練期) ... 58 圖 39 矽品精密工業準確度比較(測試期) ... 58 圖 40 日月光半導體準確度比較(訓練期) ... 59 圖 41 日月光半導體準確度比較(測試期) ... 59 圖 42 華亞科技準確度比較(訓練期) ... 60 圖 43 華亞科技準確度比較(測試期) ... 60 圖 44 元大金融控股準確度比較(訓練期) ... 64 圖 45 元大金融控股準確度比較(測試期) ... 64 圖 46 元大金融控股平均最佳準確度之best-so-far ... 65 圖 47 中國信託準確度比較(訓練期) ... 66 圖 48 中國信託準確度比較(測試期) ... 66 圖 49 國泰金融控股準確度(訓練期) ... 67 圖 50 國泰金融控股準確度(測試期) ... 67 圖 51 玉山金融控股準確度比較(訓練期) ... 68 圖 52 玉山金融控股準確度比較(測試期) ... 68 圖 53 富邦金融控股準確度比較(訓練期) ... 69 圖 54 富邦金融控股準確度比較(測試期) ... 69

(10)

VIII

表目錄

表 1 模型預測結果分類 ... 9 表 2 實驗預測結果分類 ... 9 表 3 最大成交量範例 ... 10 表 4 集合競價撮合結果範例 ... 11 表 5 成交價為揭示買價之下一盤成交價變化 ... 13 表 6 成交價為揭示賣價之下一盤成交價變化 ... 13 表 7 賣量增加交易盤示意表 ... 18 表 8 染色體 x 之四位元編碼... 25 表 9 隨機染色體族群之適應值... 25 表 10 10 支股票 2015 年 9 月份的個股月成交資訊 ... 28 表 11 最佳化演算法參數演化值域範圍 ... 30 表 12 台灣積體電路實驗結果 ... 34 表 13 半導體類股最佳模型之比較 ... 43 表 14 元大金融控股實驗結果 ... 44 表 15 金融類股最佳模型之比較 ... 52 表 16 台灣積體電路實驗結果 ... 53 表 17 半導體類股最佳模型比較 ... 61 表 18 元大金融控股實驗結果 ... 62 表 19 金融類股最佳模型之比較 ... 70

(11)

1

1. 導論

1.1 研究背景

過去在台灣的股票市場中，有許多足以衝擊整個股市的事件發生。例如1990 年的證交稅實施、2000 年的網路泡沫化、2008 年的金融海嘯，都是跌幅超過 50% 的金融危機。由於劇烈的變動使得投資人的資產均背負著巨大的風險，如何利用有限的資訊正確的判斷股市未來的走向，成為了值得每位投資人深入探討的金融議題。傳統上，這些金融問題大都是使用統計學的方法解決。然而智能計算 (Computational Intelligence)在過去幾年中，已經逐漸的發展出許多比傳統統計學效果更好的解決辦法[1]。除了演算法領域的進步外，日漸提昇的硬體效能使得「速度」對投資者來說也變成交易過程中非常重要的一個環節。這裡所指的不單是只有交易的速度，還包括了投資者從市場上獲得訊息並做出反應的這段時間，速度越快投資者就能發現更多市場上的獲利機會並從中賺取利潤，也因此驅動了演算法交易中的「高頻交易」領域的相關發展。目前的市場內充斥著許多這種高度動態的交易活動，透過機房的地理位置以及對交易所的專屬線路等方法，使得這些交易的頻率僅有幾秒、甚至是幾毫秒的時間間隔，因此傳統的人工交易幾乎不可能跟這些高頻交易者互相競爭[2]。目前國際上重要的金融市場中的主要撮合機制為「逐筆交易」，金融商品的撮合頻率已經來到了毫秒等級。然而台灣證券交易所目前的撮合機制為「集合競價」，其撮合時間所從民國82 年的 120 秒，到 103 年下半改為 5 秒撮合一次，證交所甚至邀請民間的學者投入逐筆交易的相關研究[3][4]，均顯示出台灣未來的股票交易制度將會有與國際接軌的一天，市場的環境將會更有利於高頻交易的實行。

(12)

2

1.2 研究目的

台灣股市從開市以來一直是採取集合競價的交易模式，隨著時間的推進不斷修正了各種交易制度，像是撮合頻率、揭示訊息，檔位價格等等，但更詳盡的委託簿資訊並沒有公開對外展示。我們從國外的高頻交易文獻中可以發現，國外的研究者們可以獲得交易所最原始的委託單資料進行研究。使用原始委託單資料的好處在於，我們可以從委託單的提交、取消、出價、時間頻率等資訊去研判市場上的其他投資者的出價模式或股價在未來更精確的走勢[5]。雖然台灣證券交易所目前在交易期間每五秒對外揭示了前一盤包含成交量、成交價、最佳五檔委託量…等交易訊息，但並未公開提供上述的原始委託單資料，投資人只能從這些被集中對外公佈的資料去推測往後的交易盤狀況。雖然國內有研究者曾使用過台灣證券交易所提供的歷史委託單資料進行研究[6]，然而普通的研究者與投資者若想使用這些資料會有較難克服的缺點，例如這些資料的取得對上述的角色來說相當不容易且成本很高，以及這些資料缺乏即時性而較難應用於變化快速的高速交易市場。除此之外，將人工智慧結合演算法交易的研究與應用在台灣卻不常見，因此我們希望透過這個研究，讓人工智慧學習出具有處理微觀結構的高速交易環境問題的能力，以增進台灣在這個領域的相關研究與應用。

(13)

3

1.3 論文架構

本論文共分五個章節：第一章為導論，描述本文的研究背景與研究目的。第二章為文獻探討，主要探討高頻交易，台灣股票市場，及人工智慧的相關文獻。第三章為詳細介紹本文的研究方法與其定義：包含了做為模型績效的評估指標、利用證交所公開揭示資訊來判斷價格走勢的四種規則、以及用於比較基準的線性迴歸模型，邏輯迴歸模型，以及一個基於成交價法則的模型，尋找擁有最佳預測能力參數的遺傳演算法模型。第四章會呈現本文的實驗架構與實驗結果，包含了資料來源及實驗數據的時間範圍、遺傳演算法模型最佳化參數的設定，檢驗本研究實驗的有效性驗證方法，及實驗結果。最後以第五章的結論與展望作為本文的總結。

(14)

4

2. 文獻探討

2.1 高頻交易相關文獻

現在的金融市場在資訊的收集、回應這些資訊的活動上有很高的進步幅度。相對於人工交易，演算法交易反應市場訊息的能力幾乎快了一百倍左右。當市場處於這種毫秒等級的交易環境下，「速度」儼然成為一項投資者是否能從中獲利的重要的指標，Hasbrouck et al. [5]利用了那斯達克股票交易所(NASDAQ)的公開資料，發展了一套測量高速低延遲交易活動的方法，用來評估高頻交易對市場的影響與衝擊。這些高速交易的資料範圍可分為：固定時間範圍內揭示的股票交易資訊、還有在不規則的時間區間長度下抵達市場的價格資訊。過去幾年，為了因應鉅量提升的金融資訊而衍生出的這些交易策略，使得高頻交易在市場上扮演了相當重要的角色。例如，Swinburn [7]發現歐洲股市有接近 35%的交易量來自高頻交易的活動，Kauffman [8]則是探討了能夠運作高頻交易的金融市場下，所使用的技術、制度、以及市場發展等議題，他們發現高頻交易占了美國股市接近一半的比例，而亞洲地區的金融市場則仍在探索有多少潛力與空間能夠發展這類的活動。由於微觀結構的環境下能夠產生極為龐大的數據量，因此 Aldridge [9]的研究中利用了這些數據找到方法辨識與特徵化這些高頻交易的活動。而 Albert [10]發現了有高頻交易的活動在歐洲股市 Chi-X 與 Euronext 之間扮演了做市商的角色，顯示了高頻交易者在股票市場上並非單純的扮演預測價差的投資者角色。 Allen [11]利用了 NASDAQ 的交易資料，分析了高頻交易者的交易表現、交易成本，以及對市場效率的影響，其結果顯示高頻交易的成本不高，且當高頻交易者提供市場流動性(liquidity)時會導致價格波動變大，且能增進價格效率。

(15)

5

2.2 台灣股票市場相關文獻

不同於國際市場上的連續競價規則，台灣股市現行的交易機制為集合競價。在固定的時間內，以「滿足最大成交量」及「價格優先、時間優先」為條件進行股票交易。除此之外，證交所還會對外揭示部分上一檔成交後的訊息。我們認為這些大量的微觀訊息背後可能隱含了短期內的價格波動程度的意義，比方說市場上暫時性的買賣壓力，進而導致價格的方向跟著改變。由於市場運作的機制，為這些現象背後的重要因素之一，因此本研究試圖利用交易所揭露的委託量訊息，建立一個能夠判斷買賣壓力與價格預測的模型。探討集合競價與最佳五檔的文獻可分為研究市場績效與委託單流向的研究，例如，張美燕[12]以實證研究的方式，探討最佳五檔新制揭示後對台灣股市的成交量、周轉率與股價波動報酬率等市場績效的影響。而陳筑音[13]則是發現從民國 92 年最佳五檔訊息揭露後讓股票市場的波動性減小，是出於資訊透明化及市場效率的提昇。在探討委託失衡與報酬關係的文獻方面，Lee et al. [6]利用了 1996 年九月至 1999 年四月的台灣股市原始委託資料，分析了在市場上主導日內價格壓力的角色，發現台灣股市的委託失衡現象具有持續性，以及大型的台灣投資機構具有最多的資訊優勢。詹場等人[14] 針對不同的股價揭示狀態進行研究，分析歸納並且推論了六種揭示狀態與下一盤成交價的關係，他們使用證券集中市場433 萬盤的日內交易資料驗證推論，其結果顯示每一盤撮合後的揭示狀態，可以用來預測下一盤的成交價。而詹場與胡星陽[15]在 2008 年時以當盤的淨委託量探討上場委託失衡的方向，並驗證了三種利用公開揭示訊息所設計的委託失衡衡量法，能夠即時的衡量台灣股市每一盤交易的委託失衡狀態。

(16)

6

2.3 人工智慧相關文獻

在財務計算的領域中，傳統上都是以基本的統計學、數學來建立投資模型，而近年來面對龐大的計算量與多項參數的最佳化問題，許多研究學者紛紛轉為使用人工智慧的方法來解決參數最佳化的問題，這些問題主要可以分為(1)選股、投資組合優化與風險管理[16-17]，以及(2)時間序列預測[18]的領域。在人工智慧的演化式計算中，可以分為幾個子領域包含了遺傳演算法(GA)、基因規劃法(GP)、智慧型決策系統(LCSs)、多目標遺傳演算法(MOEAs)、協同演化演算法(Co-evolution)，以及強化遺傳演算法(Competent GAs)。使用演化式計算的好處在於，現在的金融市場資料量已經比過去的資料量還要龐大，以致於最佳解的尋找變得越來越困難。再來，電腦的硬體效能與計算能力不斷的在推進，使得這個環境越來越適合進行演化式計算的運作。例如，Gandomi [19]使用了多階段的基因規劃法解決非線性系統的模擬問題，Wager et al. [20]改良了傳統的基因規劃法，以適應性的滑動視窗來選擇最佳的視窗大小，以描述動態的金融市場環境並預測未來的價格。本研究所採用的演化計算方法為遺傳演算法，遺傳演算法由 Holland [21]所提出，主要藉由模擬自然界生物演化的過程中「物競天擇，適者生存」的概念來協助解決複雜的最佳化問題。遺傳演算法至今已經被廣泛的應用在各種不同的領域上，包含了財務計算的領域。從過去的文獻可以看出在人工智慧的方法中，遺傳演算法相當適合用於建立投資交易模型的參數最佳化上[22]。與遺傳演算法相關的研究有Jing [23]以遺傳演算法設計了一個用來偵測金融環境雜訊的模型。Jun [24]以遺傳演算法最佳化用於偵測洗錢活動的類神經網路模型的權重。在套利領域(Arbitrage)方面，Huang et al. [25]以遺傳演算法最佳化配對交易中所使用的投資組合權重、及進出場訊號使用的移動平均線與布林通道參數。在基本面 (Fundamental analysis)的相關研究中，Huang et al. [26, 27]設計了基於遺傳演算法的混合模型對參數進行最佳化，並證明這些方法比大盤及傳統統計的方法更有效。

(17)

7 在金融時間序列數據的預測領域中，Rimcharoen et al. [28]使用遺傳演算法模擬並預測泰國股市的結構，其結果勝過多元迴歸分析的模型。Araújo [29]使用遺傳演算法最佳化金融時間序列預測所需要線性濾波器，其實驗結果勝過基於類神經網路、及隨機漫步的預測模型。Radeerom [30]結合了技術分析指標與遺傳演算法設計了一個交易模型，該系統會在最適合的時刻產生買進或賣出股票的訊號。

(18)

8

3. 研究方法

我們將利用四個章節來介紹本文的研究方法。現今台灣股市的交易制度為集合競價，包含買賣雙方最佳五檔的每一筆成交訊息均揭示給投資人做參考，因此在這篇研究中，我們將利用這些公開揭示的微觀資訊建構我們的高速股價預測模型，對價格走勢進行預測。首先介紹本研究在評估模型預測能力時所使用的指標，再來是介紹台灣股市集合競價的撮合規則，然後依據所揭示的最佳五檔資訊來設計五種不同用於判斷價格走勢的規則；以及用於最佳化遺傳演算法。還有做為比較用途的線性迴歸模型、邏輯迴歸模型，以及一個基於成交價法則的預測模型。

3.1 模型評估指標

本研究以精確度(Accuracy)做為模型預測能力的評估指標。其中，準確度為模型預測值與真實反應的實際值之差距，多次測驗的結果若接近實際值則表示模型具有高準確度。其定義如下：

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =

𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑃+𝐹𝑁+𝑇𝑁

．

( 1 ) TP、FP、TN、FN 分別代表了模型預測結果與實際情況的關係，其定義如表。以本研究為例，TP 為真陽性，例如我們預測價格將會上漲，而之後的價格確實上漲。FP 為偽陽性，例如我們預測價格上漲，但之後的價格沒有上漲。TN 為真陰性，例如我們預測價格下跌，而之後的價格確實下跌。FN 為偽陰性，也就是我們預測價格下跌，但之後的價格沒有下跌。

(19)

9

表 1 模型預測結果分類

預測結果\實際結果 True False

True True Positive (TP)

False Positive (FP) False False Negative

(FN) True Negative (TN) 由於股票的價格變化在市場上只會有三種變化：上漲、下跌、價平。考量到未來模型應於真實世界時，還包含了手續費等額外的成本費用，只要是價平的結果都不被算在預測成功的結果中。也就是說，本研究在計算TP 與 TN 時，僅分別採計上漲與下跌之預測結果。而FP 之預測失敗結果將採計下跌加上價平，FN 之預測失敗結果將採計上漲加上價平。底下以表說明：表 2 實驗預測結果分類預測結果\實際結果上漲下跌上漲上漲 (TP) 下跌+價平 (FP) 下跌上漲+價平 (FN) 下跌 (TN)

3.2 台灣股市集合競價交易機制介紹

台灣股市的交易方式，自證券交易所開業以來即為公開競價，其競價方式為了對應證券市場的發展變遷，在規則上也有數次的更動。例如從初期的口頭報價、專櫃申報，一直到民國82 年實施「電腦自動交易」作業..等等。無論是開盤前 30 分鐘所累積的委託，或是盤中及收盤的撮合機制皆採取集合競價。撮合後則對外揭示成交價格及數量，及未成交的最高買進及最低申報價格與數量。現行對外揭示最佳五檔的時間間隔為5 秒。下一盤撮合將所有未成交買進及賣出之委託，依據價格優先與時間優先的原則做成交。集合競價的價格決定原則如後，滿足最大

(20)

10 成交量成交，高於決定價格之買進申報與低於決定價格之賣出申報須全部滿足。以表3 為例：表 3 最大成交量範例累計買方張數買方張數價格賣方張數累計賣方張數 162 162 107.00 94 311 162 106.50 25 217 185 23 106.00 20 192 195 10 105.50 15 172 195 105.00 46 157 252 57 104.50 55 111 252 104.00 20 56 282 30 103.50 13 36 282 103.00 3 33 381 99 102.50 30 381 102.00 30 403 22 101.50 30 408 5 ~ 30 441 3 93.00 30 30 若成交價為107.0 元，則雙方能滿足的最大成交量為 162 張。若成交價 106.5 元，最大成交量也是162 張。若成交價為 106 元則最大成交量為 185 張。由於之後的最大成交量不會再超過185 張，因此此盤的撮合選擇 106.0 元作為成交價。買價高於 106.0 元，以及賣價低於 106.0 元的委託單全數成交。另外，價格剛好等於106.0 元的委託單中，買方累積為 185 張、賣方為 20 張，依照時間優先原則，將會有下單時間最晚的7 張委託單無法成交，因此撮合後的結果以表4 做表示。

(21)

11 表 4 集合競價撮合結果範例累計買方張數買方張數價格賣方張數累計賣方張數 162 107.00 94 119 162 106.50 25 32 185 106.00 7 7 195 10 105.50 195 105.00 252 57 104.50 252 104.00 282 30 103.50 282 103.00 381 99 102.50 381 102.00 403 22 101.50 408 5 ~ 441 3 93.00

(22)

12

3.3 交易規則與預測模型

前一章節介紹了集合競價的盤中撮合機制，每一盤撮合後的價格與成交量、還有最佳五檔皆會對外公佈給投資者。根據交易的規則，下一盤的成交價將會根據當盤的成交結果加上未知的新進委託單，以及從先前延續下來的買賣力道而產生不同的變化。由於台灣證券交易所的公開觀測資料中，並未對外揭示新進的各種委託單，因此投資人只能依靠上一盤撮合後的揭露訊息，進行價格未來走勢的預測。底下本文將根據這些公開的訊息，設計四種不同的規則作為股票的交易訊號，對價格的走勢進行預測。

3.3 1 成交價與最佳買價及最佳賣價之法則

為了對股價走勢進行預測，詹場、胡星陽等人在 2004 年時研究買賣揭示訊息是否具有未來價格預測的能力進行探討。他們根據台灣證券交易所公佈的 9 款「行情揭示原則」建立假說，推導本盤揭示狀態與下一盤成交價關係，共 8 種法則。並利用比率檢定驗證不同揭示狀態的交易盤，在下一盤的上漲下跌比例是否相同；以及迴歸模型實證上漲下跌的機率分佈。最後他們的實驗結果為，當本盤買價與賣價都揭示且成交價等於揭示買價時，下一盤價格上揚的機率為 0.329，下跌機率為 0.003，而本盤買價賣價都揭示且成交價等於揭示賣價時，下一盤價格下跌的機率為 0.427，上揚機率為 0.002，顯示出這兩項法則都有顯著的正面影響。本研究利用詹場、胡星陽所推導的法則，對 5 秒為揭示週期的高頻資料進行分析，分別得到成交價為揭示買價，及成交價為揭示賣價的結果，如表 5 及表 6：

(23)

13 表 5 成交價為揭示買價之下一盤成交價變化證券名稱上漲機率上漲盤數下跌盤術數價平盤數中國信託 26% 25910 197 70175 元大金控 18% 19520 132 88761 友達光電 22% 25150 1011 87240 日月光半導體 22% 24431 784 82822 台灣積體電路 27% 29427 108 77592 玉山金控 20% 19863 118 78510 矽品 17% 18638 721 85040 國泰金控 25% 23526 673 69902 富邦金控 23% 23711 708 76078 華亞科技 20% 24605 761 93727 表 6 成交價為揭示賣價之下一盤成交價變化證券名稱下跌機率下跌盤數上漲盤術數價平盤數中國信託 25% 25909 136 77500 元大金控 21% 19516 79 71858 友達光電 26% 25139 819 70124 日月光半導體 24% 24428 672 74820 台灣積體電路 28% 29435 92 74832 玉山金控 19% 19951 133 80422 矽品 18% 18673 725 83444 國泰金控 23% 23724 639 78562 富邦金控 24% 23733 502 73289 華亞科技 26% 24554 682 66019 從表中可見，當成交價為揭示買價或是揭示賣價時，下一刻均有顯著的上漲或下

(24)

14 跌現象。因此本研究使用此法則作為預測模型判斷下一盤走勢的第一種規則。

3.3.2 最佳五檔委託量權重

「量先價行」是技術分析中很常使用的概念。作為預測股價未來走勢的一個指標，任何成交價的背後都是由成交量來做驅動。在技術分析中，量先價行的成因，可以從投資人預期心理的角度做解釋，當投資人看好未來市場未來的行情，造成買氣旺盛而放大了交易量。然而成交量的產生建立在買賣雙方都同意的情況之下，因此量先價行如果是反應在股價的高點時，則有可能是股價未來下跌的反指標。而台灣證券交易所的揭示資訊中，除了當盤成交量以外還有上一盤未成交之外，還多了每一盤不同檔位下未成交的數量與價格作為參考。比起傳統上週期較長的成交量，我們認為這些微觀結構下的資訊，應該更充分的反應了投資人對於該證券的價格評估。本文認為這些不同檔位的成交量訊息，可用來作為研判股市買賣壓力的方向。但是不同檔位所擁有的交易量應該代表不同程度的買賣壓力，因此本文給這些不同檔位的交易量一個權重，用來表示它對買賣壓力的影響程度。本文將最佳五檔的買賣力道定義為： 𝐵𝑆(𝑡) = ∑ 𝑢5_𝑖 _𝑖𝑝_𝑖(𝑡)𝑏_𝑖(𝑡)； ( 2 ) 𝐴𝑆(𝑡) = ∑ 𝑣5𝑖 𝑖𝑝′𝑖(𝑡)𝑠𝑖(𝑡)， ( 3 ) 其中𝑝_𝑖(𝑡)與𝑝′𝑖(𝑡)分別代表了第 t 盤的買賣雙方最佳五檔委託價，𝑏𝑖(t)與𝑠𝑖(𝑡)分別代表了第t 盤的買賣雙方的最佳五檔的委託量。𝑢_𝑖與𝑣_𝑖分別代表了這些委託量的權重值。最後我們定義買賣力道的差異為 𝑥(𝑡) = 𝐵𝑆(𝑡) − 𝐴𝑆(𝑡)． ( 4 )

(25)

15 當 x 值為正我們就預測價格會上漲，為負值我們就預測價格會下跌。

3.3.3 最佳交易週期

從台灣股市每五秒揭示的交易資料中可以看到，台灣股票市場的價格有多數的時間沒有在變動。除此之外，根據交易規則 3.3.1 所統計的表 5 與表 6 也可以發現下一個交易盤有非常高的機率呈現價平的狀態。我們認為當偵測到市場上出現了買賣力道不平衡的訊號時，並不會馬上反應在下一盤的成交價中，這股力道可能會延續到更後面的時段才會導致價格發生變動。因此，我們利用上述「成交價等於揭示買價，下一盤傾向上漲」以及「成交價等於揭示賣價，下一盤傾向下跌」的法則，計算了台灣積體電路在一個小時(720 個交易週期)內的準確度變化，並將結果繪製成圖 1、及圖 2 表示：圖 1 台積電於不同交易週期之準確度變化

(26)

16 圖 2 台積電於不同交易週期之準確度變化從圖 1 中我們可以看到隨著交易週期的提昇，預測正確(紅線)的盤數也跟著提昇，預測錯誤(藍線)的盤數數量隨之下降。從圖 2 中可以看見模型預測的準確度在前 100 個週期內從 26%快速的提昇到 40%後漸趨收斂。我們將準確度的資料再細分成「預測上漲」的圖 3，及「預測下跌」的圖 4：

(27)

17

圖 3 台積電預測上漲之結果變化

(28)

18 可見到無論是在預測上漲、或是下跌中，下一個交易盤是價平的盤數都會隨著交易週期的增加而降低。可見得當我們認為價格將產生變化的訊號出現後，適當的交易週期可以有效的提昇模型的預測能力。

3.3.4 委託量變化週期

為了解決買賣力道尚未開始影響成交價的走勢，使得價格長期不變動的問題，本研究以 3.2.3 的規則將交易的時間推遲至數個週期後的交易盤。雖然這段期間內的成交價沒有變化，但是實際上各個檔位的委託量仍然有在流動。實際觀察這些後可以發現，與預測方向相反的買盤或賣盤有委託量增加的情況時，未來就有較高的機率預測失敗，表 7 以台灣積體電路於 2015 年 9 月 16 日上午 9 點 03 分 11 秒至 2015 年 9 月 16 日上午 9 點 03 分 37 秒，共 30 秒 6 個交易週期的時間為例：表 7 賣量增加交易盤示意表從表 7 可見 9 點 03 分 11 秒時的成交價等於揭示買價 128 元，隨著交易週時間 9:03:11 成交價 128 成交量 73 129.5 749 129 1921 128.5 1081 80 128 940 127.5 473 127 時間 9:03:16 成交價 128 成交量 37 129.5 752 129 1927 128.5 1083 54 128 938 127.5 473 127 時間 9:03:21 成交價 128 成交量 28 129.5 753 129 1921 128.5 1086 41 128 941 127.5 475 127 時間 9:03:27 成交價 128 成交量 21 129.5 754 129 1937 128.5 1090 35 128 941 127.5 477 127 時間 9:03:32 成交價 128 成交量 38 129.5 755 129 1939 128.5 1084 128 26 941 127.5 476 127 時間 9:03:37 成交價 127.5 成交量 24 129.5 757 129 1936 128.5 1067 128 48 989 127.5 454 127

(29)

19 期的推進第一檔委賣量的數量也逐漸增加、委買量逐漸減少。到了 9 點 03 分 32 秒時 128 元的委買量盡數賣出、委賣量仍繼續增加。最後於 9 點 03 分 37 秒時以 24 筆的成交量成交在 127.5 元。因此，我們設定一個委託量變化週期的閾值做為遺傳演算法的演化參數，當交易週期內出現了與一開始偵測到的買賣壓訊號相反的力道，且此力道的變化週期超過此閾值時，則這次預測的交易盤成交價於未來可能會有相反的走勢，而不採計其結果。

(30)

20

3.4 遺傳演算法

為了在本研究的模型設計中，選出最適當的權重及各項閾值以提昇預測能力，我們需要對這些參數進行最佳化，故本研究採用由 Holland [21]所提出之遺傳演算法來解決這些最佳化的問題。遺傳演算法是一種透過模仿生物演化的過程，利用物競天擇、適者生存的概念所形成的演算法。遺傳演算法將問題之參數編碼為染色體後，藉由選擇親代染色體彼此交配、突變來產生子代來改善群體對環境的適應性，相當於提昇解答的品質。遺傳演算法使用適應性函數 (fitness function) 來表示自然界中的淘汰過程，能夠通過適應性函數檢驗的個體，可視為一個問題的最佳解。透過迭代的演化這些染色體後，最佳解的品質也會逐漸提升。遺傳演算法的主要流程如下： Step 1. 隨機產生一組初始族群，總共有 𝑥 條染色體，每條染色體以 𝑙 個 bit 表示其基因，定義如下： 𝐺 = {𝐶₁, 𝐶₂, ⋯ , 𝐶_𝑥}, 𝑥 ∈ 𝑁 ( 5 ) 𝐶_𝑖 = {𝑏₁, 𝑏₂, ⋯ , 𝑏_𝑙}, 𝑖 = 1, 2, … , 𝑥, 𝑏_𝑙 ∈ {0,1} ( 6 ) 其中 𝐺 表示由 𝑥 條染色體所組成的族群，𝐶_𝑖 為第 𝑖 條染色體，𝑏_𝑙 為某一條染色體上的其中一個基因編碼，只有1 個 bit 其值為 0 或 1。 Step 2. 藉由適應性函數，計算每條染色體的適應值 Step 3. 演化過程，選擇親代、交配、突變以產生 𝑥 條子代的染色體 Step 4. 將新的 𝑥 條子代染色體取代原有的族群，成為一個新的族群 Step 5. 重複 Step 2，直到滿足終止條件為止。終止條件的判斷依據一般常見為下列三種： (1). 限制演化次數，當演化子代的次數到達演化次數限制即停止。 (2). 設定一個門檻值判斷子代與親代的差異性是否過低，而須停止演化。

(31)

21 整體演化流程如下圖5 所示：圖 5 遺傳演算法演化流程

3.4.1 編碼方式

本研究於遺傳演算法的編碼採用二進制來表示，b 表示染色體內的每一個 bit，l 表示每一條染色體的長度。我們將編碼分為10 個買賣最佳五檔的權重值 𝑤、最佳交易週期數 𝑛 、買賣量變化閾值 m，如下圖 6 所示：圖 6遺傳演算法編碼示意圖

演算法起點

隨機產生初

始化的族群

評估族群內

染色體的適

應性數值

判斷演算法

中止條件

結束演算法

進行演化

• 交配

• 突變

𝑏_𝑤1₁_… _𝑏 𝑤1 𝑙 _… _𝑏 𝑤10 1 _… _𝑏 𝑤𝑙10 𝑏𝑛1 … 𝑏𝑛𝑙 … 𝑏𝑚1 … 𝑏𝑚𝑙

(32)

22 在本編碼方法中，染色體由 genotype 轉換至 phenotype 後經過比例換算得到該參數在演化範圍中對應的實際十進位數值，用以計算個體的適應性函數值，而每一個參數的準確度則由該參數的染色體編碼位元數決定，越高的位元數將使參數演化的數值準確越高，定義如下： 𝑦 = 𝑚𝑖𝑛𝑦+ 𝑑 (2⁄ 𝑠𝑛 − 1) × (𝑚𝑎𝑥𝑦− 𝑚𝑖𝑛𝑦)． ( 7 )

3.4.2 親代選擇方法

本研究的親代染色體採用由Goldberg and Deb [32]提出的競賽選擇法，利用隨機選取染色體進行比較後，留下較優秀的一方做為親代，詳細的演算法流程如下：

Step 1. 從所有染色體中隨機且可重複的選擇 2 條染色體互相比較，並留下較優秀的一方做為親代，直到選出2 個親代

Step 2. 將選出的親代進行交配與突變，產生 2 個子代 Step 3. 重複 Step 1 與 Step 2 直到子代的量與親代相同為止

3.4.3 交配與突變

在遺傳演算法中，交配是遺傳演算法使其染色體之間互相交換彼此信息，藉此試圖產生更優秀的子代的方法，子代會具有親代的部分特性，所以可能會繼承親代的優點與缺點，而競賽選擇法會幫助我們在下一次迭代時篩選掉較差的子代。本研究所使用的交配方法為De Jong and Spears [33]所提出的單點交配法，其詳細演算法流程如下：

(33)

23 Step 1. 有 2 條染色體設為親代個體以 𝐺𝑥 與 𝐺𝑦 表示，定義如下： 𝐺_𝑥 = {𝑏₁𝑥, 𝑏₂𝑥, ⋯ 𝑏_𝑛−1𝑥 , 𝑏_𝑛𝑥_{}, 𝑏} 𝑛𝑥 ∈ {0,1}, 𝑛 ∈ 𝑁 ( 8 ) 𝐺𝑦 = {𝑏1 𝑦 , 𝑏₂𝑦, ⋯ 𝑏_𝑛−1𝑦 , 𝑏_𝑛𝑦}, 𝑏_𝑛𝑦 ∈ {0,1}, 𝑛 ∈ 𝑁 ( 9 ) Step 2. 產生交配點 i，將兩親代 𝐺_𝑥 與 𝐺_𝑦 互相交換基因信息以產生子代 𝐺_𝑥′ 與 𝐺𝑦′，定義公式如下，交配方式如圖7 所示： 𝐺_𝑥′ = {𝑏₁𝑥, 𝑏₂𝑥, ⋯ , 𝑏_𝑖𝑥, 𝑏_𝑖+1𝑦 , … 𝑏_𝑛−1𝑦 , 𝑏_𝑛𝑦} ( 10 ) 𝐺𝑦′ = {𝑏1 𝑦 , 𝑏₂𝑦, ⋯ , 𝑏_𝑖𝑦, 𝑏_𝑖+1𝑥 , … 𝑏_𝑛−1𝑥 , 𝑏𝑛𝑥} ( 11 ) 𝐶_𝑥 0 1 0 1 0 1 1 0 𝐶_𝑦 1 0 0 0 1 1 0 0 交配後 𝐶_𝑥′ ₀ ₁ ₀ ₀ ₁ ₁ ₀ ₀ 𝐶_𝑦′ ₁ ₀ ₀ ₁ ₀ ₁ ₁ ₀ 交配點圖 7 遺傳演算法交配示意圖

Step 3. 遺傳演算法的突變階段，由實驗預設的突變機率(mutation rate)來決定是否發生，突變會使得染色體上的基因隨機變化，使其有機會跳脫出群體的特徵，避免落入區域最佳解的搜尋空間，但突變若發生機率過高，則反而會使得求解過程過於隨機，失去遺傳演算法的意義。突變發生時，若染色體發生突變的基因為1 則變為 0，若為 0 則轉變為 1，示意圖如圖 8 所示：

(34)

24 突變點 𝐶_𝑥 1 0 0 1 0 1 1 0 突變後 𝐶_𝑥 1 0 0 1 0 0 1 0 突變點圖 8 遺傳演算法突變示意圖

(35)

25

3.4.4 遺傳演算法範例

我們將用底下的範例解釋遺傳演算法更詳細的流程。在本範例中，我們將需要最佳化的問題定義為𝑓(𝑥) = 15𝑥 − 𝑥2_{，其中染色體}_{x 的編碼長度為 4 個位元，} 因此最多可產生如表 8 的 15 支染色體：表 8 染色體x 之四位元編碼 Integer Binary code

Integer Binary code Integer Binary code

1 0001 6 0110 11 1011 2 0010 7 0111 12 1100 3 0011 8 1000 13 1101 4 0100 9 1001 14 1110 5 0101 10 1010 15 1111 我們假設某一個世代的族群含六支染色體𝑥₁~𝑥₆，將他們還原成整數並計算他們的適應性數值(chromosome fitness)後如表 9： 表 9 隨機染色體族群之適應值 Chromosome label Chromosome string Decoded integer Chromosome fitness x1 0110 6 50 x2 0001 1 14 x3 1110 14 14 x4 0111 7 56 x5 1000 8 56 x6 1100 12 36 因此，本小節的遺傳演算法範例流程可以用圖 9 表示：

(36)

26 圖 9 遺傳演算法範例流程圖在第i 個世代中，我們利用 3.4.2 所使用的競賽法從表 9 的染色體族群中選 出 3 對親代染色體進行單點交配。其中第三對親代染色體𝑥2_𝑖與𝑥5_𝑖，我們假設他們並未通過預設之交配機率，因此不做交配僅複製雙方的染色體至突變階段。突變階段中，我們假設僅第𝑥1′_𝑖的第三個位元與𝑥2_𝑖的第二個位元有通過突變機率的檢驗，因此將這兩個位元翻轉後形成新的染色體𝑥1′′_𝑖與𝑥2′′_𝑖，最後由這些染色體形成第i+1 個世代的新族群，繼續進行往後之適應性演化。 Generation i 染色體編號染色體數值染色體編碼適應值 6 0110 54 1 0001 14 14 1110 14 7 0111 56 8 1000 56 12 1100 36 親代選擇 Generation i + 1 染色體編號染色體數值染色體編碼適應值 13 1101 26 0 0000 0 6 0110 54 10 1010 50 5 0101 50 8 1000 56 交配前 1100 0001 0110 1000 0001 1000 交配後 1101 0000 0100 1010 0001 1000 突變 1101 1101 0000 0000 0100 0110 1010 1010 0001 0101 1000 1000

(37)

27

4. 研究結果

此章節分成四個部份介紹本研究的實驗架構與實驗結果，第一部份首先說明了本研究使用的資料來源與時間範圍，第二部份介紹驗證本研究實驗有效性的時間驗證，第三部份為用於比較預測模型效果的比較基準。最後在第四部份顯示我們的實驗結果。

4.1 資料來源與研究區間

本研究以臺灣上市公司的股票類股為研究對象，主要研究的股票為台灣證券交易所民國104 年 9 月 16 日份成交量前 20 名證券中的 10 支證券如表 10，主要為半導體類股與金融類股。實驗數據共有兩個週期，分別為「2015 年 9 月 24 日至2015 年 11 月 12 日止」共 30 個交易日，以及「2015 年 11 月 13 日至 2015 年 12 月 29 日」共 30 個交易日。交易時段從上午九點到下午一點半不包含開盤前與收盤後的集合競價，平均一個週期有750,000 筆資料。資料來源為台灣證券交易所的基本市況報導網站(http://mis.twse.com.tw/stock/index.jsp)，資料更新的頻率平均 5 秒為一個週期。

(38)

28 表 10 10 支股票 2015 年 9 月份的個股月成交資訊證券代號證券名稱加權平均價成交筆數成交金額成交股數 2311 日月光半導體 34.97 182,903 20,124,583, 190 575,399,802 2325 矽品精密工業 41.10 170,260 25,804,936, 239 627,728,388 2330 台灣積體電路 127.39 216,780 88,230,392, 080 692,552,450 2409 友達光電 10.41 236,410 15,621,891, 129 1,499,911,8 41 2881 富邦金融控股 52.93 166,859 23,438,419, 558 422,770,353 2882 國泰金融控股 45.60 183,932 23,007,238, 441 504,479,661 2884 玉山金融控股 19.47 101,603 7,264,810,5 33 373,104,752 2885 元大金融控股 12.88 102,138 6,508,158,5 28 505,238,750 2891 中國信託金融 18.23 183,348 15,769,234, 005 864,945,105 3474 華亞科技 22.28 453,074 48,922,512, 806 2,195,469,4 55

(39)

29

4.2 時間驗證(Temporal Validation)

由於財務領域的實驗數據是具有時間性的，因此和一般的交叉驗證(cross validation)不同的地方在於，演算法不能事先知道未來的測試數據，當我們將資料分為訓練期與測試期時，須要遵守訓練期的測試資料的時間軸必須早於測試期的資料。因此，我們採用了時間驗證的方式(Temporal Validation, TV) 做為我們檢驗模型正確性的方法。在Temporal Validation 中，我們將 30 天的歷史資料，以「日」為單位分成 29 個區間，並將此29 個區間分為訓練期與測試期。例如，第 1 個 TV 的訓練期為第1 個區間，第 2 到 29 個區間為測試期；第 n 個 TV 的訓練期為第 1 到第 n 個 區間，測試期為第n+1 到第 29 個區間，如圖 10 所示。更詳盡來說，TV=1 時， 我們以2015 年 9 月 24 日的歷史資料作為訓練期，再以人工智慧的演算法選出較優秀的買賣力道參數，並將模型套用至測試期2015 年 9 月 25 日至 2015 年 11 月 12 日的期間；TV=2 時，訓練期間為 2015 年 9 月 24 日至 25 日，測試期間為 2015 年9 月 26 日至 11 月 12 日，依此類推。 TV\Day 2015/9/24 2015/9/25 … 2015/11/11 2015/11/12 1 2 Training Testing … … 28 29 圖 10 Temporal Validation 之圖示

4.3 遺傳演算法參數設定

在遺傳演算法的迭代計算中，每一個 TV 皆會進行 25 個回合的計算，藉此找出50 個較優秀的交易模型。在遺傳演算法中每一個回合會演化 50 代，而每一

(40)

30 代有50 支個體(染色體)進行演化，因此每回合的目標值被計算(function evaluation) 次數為2500 次。本實驗的演化參數有3 種：一、最佳五檔委託量的權重 𝑤 二、最佳交易週期m 三、委託量變化週期上限n 個體演化中單點交配的機率為7 × 10−1_{，突變機率為每個位元5 × 10}−3_，每一個演化變數的位元數為8 位元，各參數演化的值域範圍如下表 11 所示：演化參數名稱最小值最大值參數資料型態 𝑤₁, 𝑤₂, … , 𝑤_𝑚 0.0 1.0 浮點數 m 1 256 整數 n 1 m 整數表 11 最佳化演算法參數演化值域範圍

4.4 比較基準

本實驗以兩個基於迴歸理論的模型，以及一個基於成交價法則的模型做為基於遺傳演算法模型的比較基準(benchmark)。

4.4.1 成交價法則模型

基於成交價法則的模型設計為「當第t 盤的成交價等於買價時，則第𝑡 + 1盤 的成交價傾向上漲」，「當第t 盤的成交價等於賣價時，則第𝑡 + 1盤的成交價傾向 下跌」。

4.4.2 線性迴歸模型

本研究以線性迴歸模型做為我們的第二個比較基準，其方法為，以第t 時刻 撮合的最佳五檔委託量及委託價乘積X(t)與下一盤第 t+1 時刻的成交價 Y(t)與做

(41)

31 配對做為訓練集，𝛽表示最佳五檔委託量的權重，以及𝜀作為殘差項。因此我們的模型可以表示為： 𝑌(𝑡) = 𝑋(𝑡)𝛽 + 𝜀(𝑡)， ( 12 ) 其中 𝑌(𝑡) = ( 𝑦1(𝑡) 𝑦₂(𝑡) ⋮ 𝑦_𝑛(𝑡) ) , 𝑋(𝑡) = ( 𝑋₁₁(𝑡) ⋯ 𝑋_1𝑝(𝑡) 𝑋₂₁(𝑡) ⋯ 𝑋_2𝑝(𝑡) ⋮ 𝑋_𝑛1(𝑡) ⋯ 𝑋_𝑛𝑝(𝑡) ) , 𝛽 = ( 𝛽_𝑙 ⋮ 𝛽_𝑝 ) , 𝜀(𝑡) = ( 𝜀₁(𝑡) ⋮ 𝜀𝑛(𝑡) )． ( 13 ) 之後將訓練結果的𝛽值帶入測試期的資料計算預測值。

4.4.3 邏輯迴歸模型

除了使用線性迴歸對股票的價格進行擬合外，本研究也使用了基於邏輯迴歸分析(Logistic Regression)的模型，對下一個交易盤的上漲下跌的機率進行預測，和上述兩種方法與遺傳演算法模型進行比較。邏輯迴歸可以視為一種廣義的線性模型(Generalized Linear Model)，它使用了一個或多個獨立變項以及基於邏輯分佈(Logistic Distribution)的函數去預測二元變數的機率值，也就是當自變項增加一個單位時，依變項1 相對於依變項 0 會增加多少個單位。本研究將預測結果 Y(t) 的「預測成功」視為依變項1 及「預測失敗」視為依變項 0，因此邏輯迴歸的訓練模型與線性迴歸相同可以表示為公式(12)與(13)。 我們將邏輯迴歸的訓練結果𝛽代入測試期的資料𝑋′可得到第 t 盤的擬合值𝑢： 𝑢(𝑡) = 𝛽𝑋′(𝑡)， ( 14 )

(42)

32 再使用邏輯函數(logistic Function)去計算𝑢在第 t 盤時傾向 1 或 0 的機率值。其中，Logistic Function 可以表示為： 𝑃(𝑢) = 1 1+ 𝑒−𝑢． ( 15 ) 最後我們設定的機率門檻值為0.5。當第 t 盤的 P 值大於 0.5 時，我們認為他的 下一個交易盤將會上漲，反之將會下跌。

(43)

33

4.5 實驗結果

本研究的實驗結果分為四個部份，4.5.1 與 4.5.2 探討半導體類股與金融類股，於2015 年 9 月 24 日至 2015 年 11 月 12 日的準確度表現，4.5.3 與 4.5.4 探討半導體類股與金融類股，於 2015 年 11 月 13 日至 2015 年 12 月 29 日的準確度表現。

(44)

34

4.5.1 半導體類股準確度(2015/09/24-2015/11/12)

本節將介紹四種模型在預測股價走勢的四種結果。表 12.為台灣積體電路以四種預測模型從2015 年 9 月 24 號至 11 月 12 號經過 30 個時間驗證的訓練期與測試期所得到之準確度結果。表 12 台灣積體電路實驗結果 TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 1 0.00% 43.06% 33.61% 99.54% 28.32% 33.13% 36.44% 60.64% 2 29.92% 39.06% 36.84% 99.69% 28.74% 33.34% 40.11% 57.66% 3 23.69% 35.37% 35.64% 99.47% 28.47% 33.34% 40.10% 53.18% 4 27.64% 34.68% 35.85% 99.52% 28.32% 33.34% 41.47% 51.65% 5 28.75% 33.74% 36.58% 100.00% 28.62% 33.35% 41.31% 38.93% 6 27.29% 33.60% 35.21% 99.67% 28.76% 33.34% 41.52% 50.09% 7 27.01% 33.88% 34.66% 99.56% 28.58% 33.32% 40.51% 61.83% 8 27.78% 34.30% 34.32% 99.60% 28.63% 33.34% 40.26% 39.87% 9 27.75% 34.38% 34.99% 99.64% 28.55% 33.33% 40.22% 82.97% 10 28.03% 34.42% 33.54% 99.61% 28.47% 33.38% 40.63% 92.11% 11 28.22% 33.99% 32.43% 99.57% 28.56% 33.30% 41.97% 63.36% 12 28.11% 33.85% 31.33% 100.00% 29.12% 33.16% 42.31% 92.22% 13 27.41% 33.79% 30.95% 99.61% 28.59% 32.93% 42.63% 67.74% 14 28.14% 33.82% 30.87% 99.67% 28.35% 32.75% 42.58% 84.56% 15 28.41% 33.88% 31.10% 99.53% 28.75% 33.15% 42.17% 92.81% 16 28.05% 34.08% 31.04% 99.59% 28.44% 33.13% 42.39% 57.98%

(45)

35 表 12 台灣積體電路實驗結果(續) TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 17 28.33% 34.09% 30.43% 99.56% 28.34% 32.98% 42.36% 74.45% 18 28.40% 34.07% 30.34% 99.29% 28.97% 33.44% 42.23% 49.66% 19 28.01% 34.09% 31.22% 99.62% 28.63% 33.35% 42.56% 70.79% 20 28.24% 34.17% 31.10% 100.00% 28.89% 33.35% 42.38% 78.57% 21 28.14% 33.91% 30.79% 99.55% 29.19% 33.35% 42.42% 80.37% 22 28.06% 33.91% 30.76% 99.72% 29.46% 33.35% 41.94% 88.57% 23 28.01% 34.03% 31.59% 99.59% 29.25% 33.36% 41.95% 88.64% 24 28.13% 33.96% 31.85% 99.55% 28.73% 33.38% 41.68% 88.64% 25 28.29% 33.93% 31.56% 99.46% 26.40% 33.39% 42.10% 70.32% 26 28.75% 33.88% 31.40% 99.67% 25.74% 33.37% 42.50% 61.34% 27 28.77% 34.03% 31.38% 99.69% 24.44% 33.36% 42.63% 76.92% 28 28.84% 34.12% 30.40% 99.46% 22.20% 33.36% 43.90% 0.00% 29 28.84% 33.93% 30.42% 99.57% 19.20% 33.33% 44.85% 0.00% 為了能更進一步的比較模型與更顯著的看出模型的差異，我們將表 12 的內容以圖11 及圖 12 表示：

(46)

36

圖 11 台灣積體電路之準確度比較(訓練期)

(47)

37 首先比較訓練期的測試結果，我們可以發現在 30 個 TV 中基於成交價法則的模型之 Accuracy 都集中在約 30%左右；基於線性迴歸的模型在訓練期時的 Accuracy 平均在 34%左右；基於邏輯迴歸的模型於訓練期時介於 30%與 35%之間，而基於遺傳演算法模型的準確度平均在99%到 100%之間，預測能力大幅超越前面三種模型。圖13 為台積電的 50 個世代之平均 best-so-far 的結果：圖 13 台灣積體電路平均最佳準確度之best-so-far 從圖中可見平均的最佳準確度在第23 個世代大提昇較明顯，然後於約第 40 個世代開始其 95%信賴區間之範圍逐漸降低，顯示出遺傳演算法所找到的適應值與最佳解趨向一致性。接著我們比較測試期的計算結果，基於成交價法則的模型平均有 30%的預測能力；基於線性迴歸的模型平均有34%，變動幅度相當的平緩；基於邏輯迴歸

(48)

38 的模型則是較訓練時期優秀平均約40%。而遺傳演算法的模型在開頭 5 個 TV 處較不穩定，及結尾兩個TV 沒有找到符合條件的預測結果因此預測值為 0 外，則是平均有64%的準確度，其中有超過一半的時間驗證結果都在 50%之上。從結果可以看出，做為benchmark 的三種比較模型之表現多數比遺傳演算法差，可以推測雖然模型偵測到了上漲或是下跌的訊號，但是價格的變化並不會馬上反應在下一盤的價格中而得到價平的預測結果。而遺傳演算法由於演化了最佳的準確度計算時間以及委託量變化的閾值，使得他有更顯著的實驗結果。我們接著比較其他四間半導體公司的準確度預測結果。

(49)

39

圖 14 友達光電之準確度比較(訓練期)

(50)

40

圖 16 矽品精密工業之準確度比較(訓練期)

(51)

41

圖 18 日月光半導體之準確度比較(訓練期)

(52)

42

圖 20 華亞科技之準確度比較(訓練期)

(53)

43 從上面四間公司的結果中可見，線性迴歸與邏輯迴歸的模型在訓練期的結果非常接近，其表現約超過基於成交價法則的模型約10%，而遺傳演算法在訓練期的表現均超越了其他三種模型，每個TV 的訓練中都能夠找到最準確的模型預測參數。然而到了測試期時，邏輯迴歸的表現均勝過線性迴歸約5%~10%，基於成交價法則的模型則依舊維持在 20%~25%之間。在測試期的結果中友達、矽品、日月光的遺傳演算法準確度趨勢與台積電接近，於首尾五個TV 處皆有叫不穩定的現象發生，較高的準確度則集中在靠中間的 TV 內，而華亞科技則是於前 13 個TV 中穩定的維持在 55%至 60%，後 17 個 TV 則表現較不穩定且震盪的起伏較大。四間公司的遺傳演算法測試期結果，除了日月光半導體外，其餘三間公司的準確度均有一半的TV 數超過 50%。另外，我們也可以從表 11 中看到，遺傳演算法在半導體類股中的平均勝率均超過了 50%，其次是邏輯迴歸模型平均有 32%的 TV 之準確度勝過遺傳演算法。表 13 半導體類股最佳模型之比較公司 Rule 1 model Linear model Logistic model GA model 台灣積體電路 0.00% 0.00% 37.93% 62.07% 友達 0.00% 0.00% 24.14% 75.86% 矽品 0.00% 0.00% 24.14% 75.86% 日月光 0.00% 0.00% 48.28% 51.72% 華亞 0.00% 0.00% 27.59% 72.41%

(54)

44

4.5.2 金融類股準確度(2015/09/24-2015/11/12)

表14 為元大金融控股股份有限公司以四種預測模型從 2015 年 9 月 24 號至 11 月 12 號經過 30 個時間驗證的訓練期與測試期所得到之準確度結果。表 14 元大金融控股實驗結果 TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 1 0.00% 37.12% 0.00% 99.11% 22.22% 31.22% 43.73% 46.68% 2 11.76% 36.86% 26.49% 99.28% 22.33% 30.54% 44.19% 0.00% 3 15.54% 34.76% 26.28% 99.35% 22.36% 33.06% 44.10% 44.79% 4 17.55% 34.71% 27.89% 99.43% 22.72% 33.08% 44.03% 46.16% 5 16.66% 35.26% 23.85% 99.50% 22.88% 32.98% 44.01% 56.90% 6 17.15% 34.82% 24.06% 99.49% 22.93% 33.35% 43.99% 47.14% 7 17.96% 34.98% 26.41% 99.39% 22.97% 33.32% 43.71% 68.07% 8 18.53% 35.38% 25.72% 99.45% 22.67% 33.32% 43.79% 49.42% 9 19.84% 34.34% 25.53% 99.37% 23.06% 33.32% 43.76% 65.52% 10 19.33% 34.07% 24.05% 99.68% 23.05% 33.32% 43.87% 47.11% 11 19.73% 34.23% 22.15% 99.60% 23.14% 33.32% 43.89% 46.81% 12 19.90% 34.24% 23.09% 99.72% 23.11% 33.32% 43.86% 55.84% 13 20.21% 34.12% 22.71% 99.62% 23.38% 33.32% 43.73% 44.01% 14 20.13% 34.11% 22.36% 100.00% 23.62% 33.35% 43.68% 75.21% 15 20.07% 34.11% 23.26% 99.66% 23.45% 32.96% 43.78% 51.70% 16 20.45% 34.26% 21.48% 99.40% 23.46% 33.26% 43.76% 73.67% 17 20.58% 33.80% 23.01% 99.55% 23.24% 32.75% 43.87% 74.61% 18 20.88% 33.88% 23.76% 99.49% 23.37% 32.67% 43.69% 57.56%

(55)

45 表 14 元大金融控股實驗結果(續) TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 19 20.92% 33.93% 22.80% 99.52% 23.63% 32.54% 43.57% 37.76% 20 20.90% 34.16% 23.13% 99.54% 24.33% 32.88% 42.91% 45.65% 21 20.70% 34.15% 21.40% 99.46% 25.13% 32.90% 42.44% 70.03% 22 20.55% 34.17% 19.25% 99.58% 24.38% 32.98% 42.54% 40.32% 23 21.00% 34.24% 19.90% 99.48% 24.20% 33.11% 42.52% 77.46% 24 21.18% 33.99% 22.65% 99.38% 22.73% 32.99% 43.43% 74.29% 25 21.64% 33.72% 22.27% 99.44% 21.75% 32.88% 44.34% 66.67% 26 21.87% 33.78% 22.28% 99.54% 21.17% 32.76% 44.54% 0.00% 27 21.95% 33.90% 22.11% 99.57% 21.67% 32.31% 44.27% 0.00% 28 21.87% 34.01% 23.54% 99.64% 18.76% 31.47% 46.03% 0.00% 29 22.09% 33.82% 23.19% 99.45% 15.45% 26.62% 47.40% 0.00% 我們將元大金融控股的實驗結果繪製為圖 22 與圖 23，進行更詳細的比較：

(56)

46

圖 22 元大金融控股之準確度比較(訓練期)

(57)

47 從元大金融控股的訓練結果中可見，線性迴歸的表現勝過邏輯迴歸以及成交價法則模型，而遺傳演算法依舊能夠找到接近100%的預測參數。圖 24 為元大金融控股的平均準確度之best-so-far。可看到元大金控約在第 25 個世代開始，其平均最佳準確度逐漸收斂且 95%信賴區間之範圍也逐漸降低，顯示出遺傳演算法在較後面的世代時，能夠找到較一致的最佳解。圖 24 元大金融控股平均最佳準確度之 best-so-far 在測試期的實驗結果中，元大金控的前 4 個 TV 與後 4 個 TV 表現較不穩定，這點與我們在半導體類股所看到的實驗結果相同，基於邏輯迴歸模型的準確度平均在 45%，勝過基於線性迴歸模型的 32%及成交價法則模型的 22%。而遺傳演算法的模型則有一半的TV 數超過 50%的準確度，僅最後四個 TV 沒有找到符合條件的交易盤，使得準確度為0%。我們接著比較其他四間金融類股的實驗結果。

(58)

48

圖 25 中國信託金融控股準確度之比較(訓練期)

(59)

49

圖 27 國泰金融控股股份有限公司(訓練期)

(60)

50

圖 29 玉山金融控股股份有限公司(訓練期)

(61)

51

圖 31 富邦金融控股股份有限公司(訓練期)

(62)

52 從圖25 至圖 31 的實驗結果可以見，比較基準模型的預測水準與半導體類股的結果相似，邏輯迴歸模型在測試期時皆勝過線性迴歸模型與成交價法則模型。在遺傳演算法的實驗結果中，表現較差的有中國信託與富邦金控僅11 個與 12 個 TV 的準確度超過 50%，其餘的公司皆有一半的 TV 數準確度超過 50%。但平均而言金融類股的震盪起伏較半導體類股劇烈。其中國泰金控的實驗結果與華亞科技相似，約從第 15 個 TV 開始準確度下降至最後約四個 TV 才恢復較理想的表現。從半導體類股與金融類股的實驗結果中可以看到遺傳演算法在多數的情況下可以比線性迴歸、邏輯迴歸，以及成交價法則模型有更好的預測能力。我們可以注意到遺傳演算法在訓練階段皆能找出相當準確的參數來預測價格走勢。然而遺傳演算法在測試期的結果也出現了一些現象，其一是在前後約五個TV 時的準確度表現較不如中間的 TV，我們可以推測前五個 TV 的表現較差的可能原因為訓練時期的資料不足，後五個TV 的表現較差的原因可能為測試的時間太短；除此之外，遺傳演算法也出現了準確度震盪的現象，使得某些TV 沒辦法用訓練時期的參數找到測試時期的匹配資料，因此我們推測這可能是過度訓練所造成的結果。表15 為金融類股之最佳模型比較，可看見遺傳演算法在這邊仍有約 70%的 TV 數是最佳的預測模型。表 15 金融類股最佳模型之比較公司 Rule 1 model Linear model Logistic model GA model 元大金控 0.00% 0.00% 24.14% 75.86% 中國信託 6.90% 20.69% 0.00% 72.41% 國泰金控 0.00% 6.90% 20.69% 72.41% 玉山融控 0.00% 0.00% 27.59% 72.41% 富邦金控 0.00% 0.00% 34.49% 65.51%

(63)

53

4.5.3 半導體類股準確度(2015/11/13-2015/12/29)

本研究以2015 年 11 月 13 日至 2015 年 12 月 29 日為第二個實驗區間探討我們的實驗結果。表16 為台灣積體電路的 30 個時間驗證的訓練期與測試期之準確度結果。表 16 台灣積體電路實驗結果 TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 1 0.00% 40.58% 0.00% 99.68% 27.32% 33.05% 40.08% 43.46% 2 22.17% 37.63% 39.13% 99.52% 27.08% 32.87% 41.50% 43.78% 3 27.97% 36.16% 34.18% 99.07% 26.65% 32.99% 39.01% 46.37% 4 31.40% 36.68% 28.57% 99.26% 26.51% 33.34% 42.00% 47.63% 5 31.05% 34.74% 32.00% 99.48% 26.49% 33.17% 41.87% 53.05% 6 30.26% 34.42% 31.96% 99.32% 26.63% 33.19% 41.27% 47.11% 7 28.97% 34.65% 31.96% 99.28% 26.56% 32.75% 41.25% 50.44% 8 28.87% 34.87% 31.96% 98.89% 26.67% 32.78% 41.25% 44.56% 9 28.30% 35.11% 31.96% 98.72% 26.67% 32.87% 41.44% 57.20% 10 28.15% 35.22% 31.82% 98.15% 27.42% 33.03% 40.92% 54.23% 11 26.63% 34.83% 30.33% 100.00% 27.15% 33.04% 40.97% 50.06% 12 27.13% 35.11% 30.46% 98.90% 27.09% 32.75% 41.06% 55.47% 13 27.21% 34.93% 31.86% 96.77% 26.55% 33.05% 41.20% 84.30% 14 27.87% 34.88% 32.56% 98.65% 26.72% 33.06% 40.98% 73.88% 15 27.60% 35.16% 32.63% 96.15% 26.96% 33.00% 40.67% 31.46% 16 27.30% 34.92% 33.33% 100.00% 26.84% 33.02% 40.73% 54.39%

(64)

54 表 16 台灣積體電路實驗結果(續) TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 17 27.39% 34.83% 32.33% 98.46% 26.89% 32.96% 40.65% 0.00% 18 27.32% 34.81% 28.39% 76.27% 26.64% 32.34% 40.69% 49.38% 19 27.45% 34.86% 32.27% 99.45% 26.73% 32.36% 40.70% 75.86% 20 27.36% 35.00% 27.70% 96.61% 26.80% 32.41% 40.89% 87.23% 21 27.29% 35.11% 28.47% 97.14% 27.28% 32.45% 40.84% 54.73% 22 27.08% 35.06% 28.41% 97.62% 27.64% 33.39% 40.96% 76.00% 23 26.97% 34.72% 29.10% 99.14% 26.75% 33.34% 41.67% 58.82% 24 27.25% 34.65% 28.44% 99.15% 25.38% 33.34% 42.56% 61.54% 25 27.54% 34.61% 27.24% 99.42% 24.11% 33.34% 42.54% 0.00% 26 27.68% 34.43% 26.83% 99.32% 22.94% 33.34% 42.84% 0.00% 27 27.69% 34.41% 26.25% 100.00% 23.21% 33.34% 43.36% 0.00% 28 27.49% 34.42% 27.17% 99.36% 23.76% 33.36% 43.01% 0.00% 29 27.40% 34.38% 27.50% 99.35% 27.84% 33.37% 41.10% 0.00% 我們將表 16 繪製成圖 33 及圖 34 以進行更詳細的比較與觀察。

(65)

55

圖 33 台灣積體電路準確度比較(訓練期)

(66)

56 從訓練期的結果中，我們可以看到線性迴歸、邏輯迴歸，以及成交價法則模型的表現與第一週期的結果相近，而遺傳演算法只有在第 18 個 TV 的訓練中只獲得 75%的準確度，其餘的準確度都與第一週期相同，接近 99%與 100%之間。接下來我們比較測試期的結果測試期的結果中，我們可以看到邏輯迴歸模型的準確度依然勝過線性迴歸及成交價法則的模型。而遺傳演算法有 16 個 TV 的準確度高於 50%，但在第 16 個與最後 5 個 TV 中無法尋找到匹配的交易盤使得準確度為 0%。圖 35 為台積電的平均最佳準確度收斂圖，圖 35 台灣積體電路平均最佳準確度之best-so-far 從圖 35 中可見，台積電的平均準確度在第 25 個世代產生較大的變化，之後開始網 76%的方向收斂，然而這次實驗結果於後半段的 TV 之 95%信賴區間較第一周期的寬，顯示出不同回合的準確度在超過約 20 個 TV 後所找到的最佳解較不一致。我們接著比較其他四間半導體公司的結果。

(67)

57

圖 36 友達光電準確度比較(訓練期)

(68)

58

圖 38 矽品精密工業準確度比較(訓練期)

(69)

59

圖 40 日月光半導體準確度比較(訓練期)

(70)

60

圖 42 華亞科技準確度比較(訓練期)

(71)

61 從其他四間公司的結果中，可以看到訓練時期的比較基準模型皆與第一週期的結果一致，而遺傳算演算法的訓練結果也相當一致，僅少數幾個週期有震盪的現象。接著我們探討測試時期的結果，邏輯迴歸模型的表現仍然比線性迴歸模型及成交價模型的表現優秀。而遺傳演算法的搜尋結果則是勝過比較基準許多，皆有一半的 TV 之準確度超過 50%，但是中間的 TV 數仍然有震盪的現象產生。表 17 為第二週期的半導體類股最佳模型比較，可以看到遺傳演算法仍然有多數的 TV 之準確度勝過其他比較基準。表 17 半導體類股最佳模型比較公司 Rule 1 model Linear model Logistic model GA model 台灣積體電路 0.00% 0.00% 24.14% 75.86% 友達 0.00% 0.00% 17.24% 82.76% 矽品 0.00% 0.00% 27.59% 72.41% 日月光 0.00% 0.00% 41.38% 58.62% 華亞 0.00% 0.00% 10.34% 89.66%

(72)

62

4.5.4 金融類股準確度(2015/11/13~2015/12/29)

接著我們比較金融類股在第二週期的實驗結果。表 18 為元大金融控股股份有限公司以四種預測模型從 2015 年 11 月 13 號至 12 月 29 號經過 30 個時間驗證的訓練期與測試期所得到之準確度結果：表 18 元大金融控股實驗結果 TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 1 0.00% 34.00% 22.86% 100.00% 17.27% 8.98% 41.41% 34.95% 2 26.30% 36.49% 27.35% 99.59% 17.24% 9.20% 43.92% 32.49% 3 27.69% 35.35% 25.08% 99.61% 16.90% 8.57% 42.59% 24.42% 4 26.89% 34.32% 23.60% 99.62% 16.71% 8.81% 44.62% 23.51% 5 24.84% 34.42% 23.65% 99.63% 16.82% 8.82% 45.16% 18.97% 6 24.26% 33.99% 24.32% 99.60% 17.01% 8.55% 44.37% 19.85% 7 22.78% 34.51% 23.40% 100.00% 16.91% 8.46% 45.03% 28.69% 8 22.57% 35.42% 23.47% 100.00% 17.00% 8.51% 44.85% 34.63% 9 22.40% 35.82% 22.77% 100.00% 17.07% 8.54% 45.00% 18.07% 10 22.17% 35.32% 24.44% 100.00% 17.18% 8.60% 44.97% 89.47% 11 22.34% 34.76% 24.36% 100.00% 16.98% 8.50% 45.00% 15.39% 12 22.51% 34.01% 24.76% 99.32% 16.77% 8.39% 44.92% 91.25% 13 22.85% 35.71% 24.73% 100.00% 16.42% 8.21% 44.85% 9.56% 14 22.53% 36.55% 24.51% 99.63% 16.32% 8.17% 44.88% 24.94% 15 22.34% 35.67% 25.02% 100.00% 16.33% 8.17% 45.05% 14.12% 16 22.40% 34.21% 25.29% 100.00% 16.69% 8.35% 45.01% 89.29%

(73)

63 表 18 元大金融控股實驗結果(續) TV 訓練期 Accuracy 測試期 Accuracy Rule1 model Linear model Logistic model GA model Rule1 model Linear model Logistic model GA model 17 22.07% 34.05% 22.60% 99.44% 16.55% 8.28% 45.31% 2.16% 20 20.90% 34.16% 23.13% 99.54% 24.33% 32.88% 42.91% 45.65% 21 20.70% 34.15% 21.40% 99.46% 25.13% 32.90% 42.44% 70.03% 22 20.55% 34.17% 19.25% 99.58% 24.38% 32.98% 42.54% 40.32% 23 21.00% 34.24% 19.90% 99.48% 24.20% 33.11% 42.52% 77.46% 24 21.18% 33.99% 22.65% 99.38% 22.73% 32.99% 43.43% 74.29% 25 21.64% 33.72% 22.27% 99.44% 21.75% 32.88% 44.34% 66.67% 26 21.87% 33.78% 22.28% 99.54% 21.17% 32.76% 44.54% 0.00% 27 21.95% 33.90% 22.11% 99.57% 21.67% 32.31% 44.27% 0.00% 28 21.87% 34.01% 23.54% 99.64% 18.76% 31.47% 46.03% 0.00% 29 22.09% 33.82% 23.19% 99.45% 15.45% 26.62% 47.40% 0.00%

(74)

64

圖 44 元大金融控股準確度比較(訓練期)

(75)

65 我們首先比較元大金控在訓練期的實驗結果。線性迴歸的模型在訓練階段勝過邏輯迴歸模型與成交價法則模型，而遺傳演算法的訓練準確度接近 99%，勝過其他三種模型。接著我們比較測試期的實驗結果，在測試期的實驗結果中，我們可見到邏輯迴歸模型的實驗結果較線性迴歸模型與成交價模型優秀，而遺傳演算法的準確度，在前 9 個週期都輸給了邏輯迴歸模型，且震盪起伏較大。雖然在中間的 TV 的準確度都相當高，但是整體而言其結果是不如第一週期的實驗結果優秀。圖 46 為元大金控之best-so-far，其準確度在第 20 個 TV 後及開始收斂。我們接著比較另外四支金融類股的準確度表線。圖 46 元大金融控股平均最佳準確度之 best-so-far

(76)

66

圖 47 中國信託準確度比較(訓練期)

一個創新的智慧型交易量驅動之高速股價預測模型

國立高雄大學資訊工程研究所

碩士論文

一個創新的智慧型交易量驅動之

高速股價預測模型

A Novel Intelligent Volume-driven Forecasting Model

for Stock Price in High-speed Trading

研究生：李緒智 撰

指導教授：黃健峯 博士

一個創新的智慧型交易量驅動之

高速股價預測模型

摘要

A Novel Intelligent Volume-driven High-speed

Trading Model for Stock Investment

致謝

目錄

圖目錄

表目錄

1. 導論

1.1 研究背景

1.2 研究目的

1.3 論文架構

2. 文獻探討

2.1 高頻交易相關文獻

2.2 台灣股票市場相關文獻

2.3 人工智慧相關文獻

3. 研究方法

3.1 模型評估指標

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =

．

3.2 台灣股市集合競價交易機制介紹

3.3 交易規則與預測模型

3.3 1 成交價與最佳買價及最佳賣價之法則

3.3.2 最佳五檔委託量權重

3.3.3 最佳交易週期

3.3.4 委託量變化週期

3.4 遺傳演算法

3.4.1 編碼方式

演算法起點

隨機產生初

始化的族群

評估族群內

染色體的適

應性數值

判斷演算法

中止條件

結束演算法

進行演化

• 交配

• 突變

3.4.2 親代選擇方法

3.4.3 交配與突變

3.4.4 遺傳演算法範例

4. 研究結果

4.1 資料來源與研究區間

4.2 時間驗證(Temporal Validation)

4.3 遺傳演算法參數設定

4.4 比較基準

4.4.1 成交價法則模型

4.4.2 線性迴歸模型

4.4.3 邏輯迴歸模型

4.5 實驗結果

4.5.1 半導體類股準確度(2015/09/24-2015/11/12)

4.5.2 金融類股準確度(2015/09/24-2015/11/12)

4.5.3 半導體類股準確度(2015/11/13-2015/12/29)

4.5.4 金融類股準確度(2015/11/13~2015/12/29)

研究生：李緒智撰

指導教授：黃健峯博士