一個使用長短期記憶神經網路模型於高頻交易環境的研究

(1)

國立高雄大學資訊工程研究所

碩士論文

一個使用長短期記憶神經網路模型

於高頻交易環境的研究

A Study of Long Short-Term Memory Neural

Network for Forecasting in High-frequency Trading

研究生：李尚益撰

指導教授：黃健峯博士

(2)

(3)

(4)

III

一個使用長短期記憶神經網路模型

於高頻交易環境的研究

指導教授：黃健峯博士國立高雄大學資訊工程研究所學生：李尚益國立高雄大學資訊工程研究所

摘要

本論文提出一個採用長短期記憶(Long Short-Term Memory, LSTM)的神經網路來建構一個高速股價預測系統。透過台灣股市的盤中即時揭露資訊，並挑選了交易量排名較大的其中10 間公司作為標的，來預測微觀的股票價格變化的方向。另外，由於股市的平盤問題，我們提出了不同的觀測方式以凸顯我們所提出的預測模型在系統性的測試下，其預測效能依然優於以往的方法。實驗結果顯示，我們所採用基於長短期記憶神經網路的模型在高頻交易環境下的預測比起實務界常用的一個法則是更加有效的。我們因此希望此類的深度學習方法能夠促進應用機器學習方法於高頻交易的相關研究。關鍵字：高頻交易、長短期記憶、神經網路、金融科技

(5)

IV

A Study of Long Short-Term Memory Neural

Network for Forecasting in High-frequency Trading

Advisor: Dr. Chien-Feng Huang

Institute of Computer Science and Information Engineer National University of Kaohsiung

Student: Shang-I Li

Institute of Computer Science and Information Engineer National University of Kaohsiung

ABSTRACT

In this thesis, we propose an intelligent model using Long-Short Term Memory (LSTM) neural networks for the construction of a high-speed trading forecasting system. In order to construct the models for the forecasting task of stock price at the microscopic level, we used the disclosed micro-structure data comprised by the stock prices and volumes in the order book for 10 companies of the top trading volume in the Taiwan Stock Exchange. In addition, due to the problem of stationary prices in stock market at the microscopic level, we have proposed different observation timing methods to examine our proposed model systematically. The empirical results show that our proposed LSTM-based model is effective in the prediction for HFT environment than a well-known prediction rule used by the real-world practitioners. We thus expect this deep learning methodology to advance the current state of research and applications for machine learning in high frequency trading.

Keywords: High-frequency trading, Long short-term memory, Neural network, Financial technology

(6)

V

致謝

在就讀碩士的這段期間，從入學新生到能夠完成論文及學業，一路上受到不少人的幫助及開導，在此我想特別感謝我的指導老師黃健峯教授，在我遭遇實驗上的困難所發出的提問，他都會耐心地給予我非常好的建議，雖然有時老師無法給予確定的答案，但他也會不吝告訴我他的想法，提供我一些不同的看法及可行的方向，仔細想想人生的路途上本來很多事情就沒有正確答案，而這也是我就讀研究所的收穫之一。老師對於實驗室的學生沒有成績上的要求，只最重視我們為人處事的態度，一個人看待事情的嚴謹性，以及按部就班的態度，不論是對於研究或者未來社會上工作都是非常重要的，所以我很有幸能夠成為實驗室的一份子。也特別感謝張志向老師以及陳志忠老師，感謝兩位能在百忙之中抽空來擔任我的口試委員，給予我在金融及人工智慧方面的專業建議及指正，使我的論文能更加的完整、完善。另外，感謝我的同儕們，在我受到挫折或情緒低潮時，包容了我的情緒或提供了我解決問題的方向及建議。感謝碩專班的前輩，給予我不論是實作或是處事上的建議及幫助，也感謝學弟們在實驗室的日常生活或學業上幫忙分擔各類大小事。最後要特別感謝我的家人，在我就讀的這段期間，在我背後默默的支持及鼓勵。李尚益謹誌國立高雄大學資訊工程所中華民國一百零八年七月

(7)

VI

摘要 ... III 致謝 ... V 圖目錄 ... VIII 表目錄 ... X 1. 導論 ... 1 1.1 研究背景 ... 1 1.2 研究目的 ... 1 1.3 研究架構圖 ... 2 2. 文獻探討 ... 3 2.1 高頻交易相關文獻 ... 3 2.2 股票價量關係 ... 4 2.3 神經網路及其應用之相關文獻 ... 5 3. 研究方法 ... 7 3.1 台灣股市交易機制 ... 7 3.1.1 集合競價交易範例 ... 7 3.2 股價預測法則 ... 10 3.2.1 成交價與最佳買價及最佳賣價之法則 ... 10 3.2.2 最佳五檔委託量權重法則 ... 11 3.3 神經網路 ... 12 3.3.1 激勵函數 ... 14 3.3.2 損失函數(loss function) ... 17 3.3.3 梯度下降法(Gradient Descent, GD) ... 19 3.3.4 反向傳播法(Backpropagation, BP) ... 21 3.3.5 遞歸神經網絡 ... 24 3.3.7 長短期記憶 ... 27 3.4 實驗參數 ... 29

(8)

VII 3.4.1 時間步長(time step) ... 30 4. 研究結果 ... 32 4.1 資料來源 ... 32 4.2 研究區間 ... 33 4.3 時間驗證法(Temporal Validation, TV) ... 34 4.4 效能指標 ... 35 4.5 觀測方式與比較基準 ... 36 4.6 實驗結果 ... 36 4.6.1 兩種模型於十家公司分別在O1至O10的表現 ... 36 4.7.2 兩種模型的平均值、標準差及獲勝比率 ... 43 5. 結論 ... 46 6. 參考文獻 ... 47

(9)

VIII

圖目錄

圖一、研究架構圖... 2 圖二、單一神經元... 12 圖三、神經網路基本架構 ... 13 圖四、神經網路訓練流程圖 ... 14 圖五、 S 函數範圍 ... 15 圖六、雙曲正切函數範圍 ... 16 圖七、神經網路A ... 21 圖八、神經網路A 內部其一神經元 ... 22 圖九、遞歸神經網路架構圖(Jordan network) ... 25 圖十、遞歸神經網路架構圖(Elman network) ... 26 圖十一、標準的Elman network 內部結構 ... 27 圖十二、長短期記憶內部結構 ... 28 圖十三、實驗模型架構 ... 30 圖十四、成交價第一次變動累積次數之直方圖 ... 31 圖十五、成交價第一次變動累積次數之直方圖 ... 32 圖十六、時間驗證法圖示 ... 34 圖十七、聯電在O₁至O₁₀的預測結果... 38 圖十八、鴻海在O₁至O₁₀的預測結果... 38 圖十九、台積電在O₁至O₁₀的預測結果 ... 39 圖二十、友達在O₁至O₁₀的預測結果... 39 圖二十一、群創在O₁至O₁₀的預測結果... 40 圖二十二、富邦金在O₁至O₁₀的預測結果 ... 40 圖二十三、國泰金在O₁至O₁₀的預測結果 ... 41 圖二十四、玉山金在O₁至O₁₀的預測結果 ... 41

(10)

IX

圖二十五、第一金在O₁至O₁₀的預測結果 ... 42

圖二十六、兆豐金在O₁至O₁₀的預測結果 ... 42

圖二十七、兩種模型使用十家公司在O₁至O₁₀於訓練期之平均值 ... 45

(11)

X

表目錄

表一、最大成交量範例(第 T-1 盤) ... 8 表二、集合競價撮合結果範例(第 T 盤) ... 9 表三、成交價同最佳買一價格之下一盤漲跌變化 ... 10 表四、成交價同最佳賣一價格之下一盤漲跌變化 ... 11 表五、兩種預測模型(Model 1、Model 2)的輸出 ... 18 表六、兩種預測模型(Model 1、Model 2)的輸出 ... 19 表七、台灣上市公司個股研究對象 ... 33 表八、預測結果分類 ... 35 表九、兩種模型在O₁至O₁₀所進行訓練之平均值、標準差及勝率佔比... 43 表十、兩種模型在O₁至O₁₀所進行測試之平均值、標準差及勝率佔比... 44

(12)

1

1. 導論

高頻交易

適應性函數

⚫

Precision

結果

⚫

預測能力

(14)

3

2. 文獻探討

本章節分為三個小節，是依據本研究所需之領域進行探討，第一小節將探討高頻交易領域的相關文獻，以了解其特性及應用，接著再介紹由Huang and Li [4] 的研究中提及價格變化的一些特殊現象，成交價格與最接近成交價格的委託買賣價之間的關係。第二小節將探討股票的價量關係，透過觀察目前已知的文獻，多數皆認為台灣股票市場的成交價漲跌與委託簿中的委託量增減有著明顯的相關性。最後一小節將探討神經網路應用於股價預測或與金融相關之案例，其研究結果顯示使用神經網路做為預測模型能增強預測能力或增加投資組合的報酬率。

2.1 高頻交易相關文獻

本小節我們先探討高頻交易領域的相關文獻，Zhang [6]指出高頻交易的特性—具有自動化交易策略，且交易量非常高、持有期為當日以內的特質。研究發現當高頻交易在市場中的占比增加時，股票價格的波動性也隨之增加，且對於市場基本面的反應也越加強烈。Goldstein et al. [7]觀察自動化快速交易的演變，起初電子化交易於90 年代開始發展，2000 年時高頻交易佔美國股票市場的總交易量不到10%，但於 2012 年時約佔了 50%的總交易量，期間的交易速度也從幾秒內降為毫秒甚至微秒，且有證據顯示高頻交易將擴展到非股票市場。在美國的股票市場中，Brogaard [8]發現高頻交易改變了市場的運作方式，進行交易時將不再由人類所主導，而是以有投資策略為背景的演算法透過電腦進行下單快速買賣股票，交易時間僅僅幾毫秒至幾秒內，且 26 間操作高頻交易的機構每年的利潤約為 30 億美元。除此之外，研究也指出高頻交易會增加交易市

場的流動性，例如：Frino et al. [9]使用澳洲證券交易所(ASX)的交易數據，該資料分類出程式交易、高頻交易及一般交易，發現市場的交易量及交易次數將隨高頻交易的發展程度而提升，且高頻交易者偏好交易量高、市值較大、股價波動性

(15)

4 高及近日所有交易中高頻交易占比較高的股票；但是若當日交易市場股價波動幅度過大且交易總額過高時將停止進場交易。另外，在高頻交易的情形下，買賣價格與成交量之間的互相影響非常顯著。在Huang and Li [4]的研究中提及了價格變化的一些特殊現象，可應用於建構股票價格未來趨勢的預測模型。該研究所使用的資料範圍為台灣股票市場 2015/09/15 至 2016/01/21，頻率為每 5 秒揭露一次的即時數據，且利用遺傳演算法(genetic algorithm, GA)和財務預測方法來建立高頻交易上股票的價格預測模型。其結果顯示利用遺傳演算法所建構的預測模型比線性迴歸(linear regression) 或邏輯迴歸(Logistic Regression)的預測方法具有更好的預測表現，從而建立了將遺傳演算法應用於台灣股市高頻交易的創新研究。

2.2 股票價量關係

因本實驗涉及在微觀架構下股票市場中的量價關係，為此本小節將探討股票價量關係的相關文獻： Karpoff [10]研究了各種關於價量關係的文獻，並提出了幾個重要的結論：(1) 金融市場的結構可以藉由價量關係來了解；(2)使用價量的資料來推導該事件的研究結果時，價量關係往往成為重要的關鍵；(3)理解價量之間的關係對於金融市場方面的研究有明顯的幫助；(4)價量關係在交易市場的價格決定上具有一定的關鍵性。另外，Ying [11]使用變異數分析及交叉光譜分析來研究價格和成交量之間的關係，以標準普爾500 指數(S&P 500)與紐約證券交易所(NYSE)的資料為實驗數據，範圍為1957/01 至 1962/10 之間。其中發現：(1)成交量上升時，股價上漲；(2)成交量激增後，價格隨之上漲；(3)成交量持續增加時，價格將連續數日上漲；(4)成交量減少時，股價下跌；(5)成交量持續減少時，價格將連續數日下跌。由以上結論，我們可以發現價格和成交量之間有明顯相關。

(16)

5

Stickel and Verrecchia [12]對華爾街裡所謂的基本常識「成交量為股票價格的

燃料」一句進行分析，使用了1982 至 1990 年期間那斯達克全國市場系統(National

Market System, NMS)及 1986 至 1990 年紐約證券交易所公開資料中的成交量和成交價，經研究發現當價格明顯上漲伴隨著大量的成交量時，隔日的價格也將再次上漲。另一方面，Lee and Rui [13]觀察了美國、日本及倫敦三個區域的股票市場交易數據，檢驗國內外交易量、收益率和價格波動率之間的因果關係，發現在動態的預測環境下交易量與預測價格、預測報酬率有很大的關聯性，尤其美國身為世界上最大的金融交易市場，其交易量及價格波動率的資訊足以影響日本、英國的金融市場。綜合以上，我們可以發現透過研究股票價格及成交量的變化，將可更了解股票市場。

2.3 神經網路及其應用之相關文獻

機器學習為使電腦透過大量的資料結合統計學、機率論等方法來自動分析，找出其規律以解決自然界的問題，其應用範圍包含電腦視覺(computer vision)、自然語言處理(natural language processing, NLP)、醫療診斷、證券市場分析、手寫辨識等。本研究使用的神經網路(Neural Network, NN)為機器學習的一個分支，是一種數學模型，其靈感來自人類大腦中生物神經網路之間傳遞或處理訊息的方法。神經網路在語音辨識[14,15]、電腦視覺[16]、文本分析[17,18]等領域有許多突破性的發展，引發不少的研究浪潮[19,20]，下面將介紹神經網路應用於金融相關領域的研究。 Kryzanowski et al. [21]使用各公司的年度財務報表、股本回報率等數據作為分析基準，透過神經網路預測其股票一年後的投資報酬率為正或負。其中，以 149 家公司作為測試，正與負的加總整體來到 66.4%的準確率；在早些時間，多數的神經網路模型用於預測每月或每年的未來走勢，因此Chen et al. [22]提出了

(17)

6 一種用於預測高頻數據的新型雙層神經網路模型，結合動態分析不同股票，過濾出數據間的重要資訊，且探索特定技術指標的動量信號，使用標準普爾500 指數的前100 大作為實驗數據，其預測準確率優於其他四種比較模型，為此啟發了我們使用神經網路應用於高頻交易環境的想法。除了使用一般的神經網路之外，另外還有不少的研究嘗試使用不同的神經網路架構應用於金融領域，例如：在Hsieh et al. [23]的研究中使用小波轉換(wavelet transform)作為輸入數據的前處理，透過遞歸神經網路(Recurrent Neural Network, RNN)，不同於一般的神經網路，可處理時間序列上的前後關係，且結合人工蜂群演算法(artificial bee colony algorithm)最佳化該網路，為此提供了一個預測股票價格的整合系統，於道瓊工業平均指數(DJIA)、富時 100 指數(FTSE)、日經平均指數(Nikkei 225)及台灣證券交易所加權股價指數(TAIEX)上皆有不錯的預測結果。Tenti [24]也使用遞歸神經網絡來預測外匯匯率，且提及在時間序列應用上該網路架構優於多層感知器(Multilayer Perceptron, MLP)的預測效果，經實驗結果顯示遞歸神經網路用於預測金融相關領域是有效的。而遞歸神經網路後續也發展出了新型的架構—長短期記憶，Fischer and Krauss [25]使用此種長短期記憶神經網路模型來預測標準普爾 500 指數介於 1992 年至2015 年的未來趨勢，其每日報酬率及預測準確率皆優於深度神經網路(Deep

Neural Network, DNN)及邏輯迴歸分類器(Logistic Regression Classifier)。Chen et al. [26]使用為期固定天數的成交量(volume)、最高價(high)、最低價(low)、開盤價(open)和市場指數等中國股票市場交易資料作為實驗數據，透過長短期記憶神

經網路模型預測投資個股的收益率，相較於隨機預測法，預測準確率從14.3%提

(18)

7

3. 研究方法

本章節分為四個小節，首先第一小節介紹台灣股市的集合競價交易機制，第二小節介紹成交價與最佳買賣價之法則，第三個小節將介紹部分神經網路架構，將由基本的神經網路架構延伸至本實驗所採用的長短期記憶模型之架構，最後一個小節介紹實驗所使用之網路架構及參數。

3.1 台灣股市交易機制

台灣證券交易所採電腦自動交易，其撮合方式為集合競價機制，是以一次可滿足最大成交量為原則[2]，且價格皆為當日漲跌停限定範圍內並依照當時買賣價、買賣量情形產生。為了提升交易效能且與國際制度接軌，股市盤中集合競價頻率於 2013 年 7 月1 日盤中集合競價撮合秒數由 20 秒縮短至 15 秒，2014 年 2 月 24 日由 15 秒縮短至10 秒，2014 年 12 月 29 日縮短至 5 秒，直至至今扔採用以每 5 秒的頻率進行集合競價之撮合方式。

3.1.1 集合競價交易範例

台灣股市的交易方式為集合競價，現行對外揭示最近一盤撮合後最佳五檔未成交買賣價量資訊之間隔時間為5 秒。下一盤撮合將所有未成交買進及賣出之委託，依價格優先與時間優先原則成交。集合競價之成交價格決定原則如下[2]： (一) 滿足最大成交量成交，高於決定價格之買進申報與低於決定價格之賣出申報須全部滿足。 (二) 決定價格之買進申報與賣出申報至少一方須全部滿足。

(19)

8 (三) 合乎前二款原則之價位有二個以上時，採用接近當市最近一次成交價格之價位，如當市尚無成交價格者，採用接近當市開盤競價基準之價位。集合競價之撮合過程將以第T-1 盤開始，代表為上一次的交易盤，第 T 盤為當次的交易盤，即時揭露資訊為撮合完成後公布委託簿中最接近成交價的未成交五檔委託買單的價量及五檔委託賣單的價量，如表一所示：表一、最大成交量範例(第 T-1 盤) 累計買方張數買方張數價格賣方張數累計賣方張數 150 150 105.00 94 312 150 104.50 25 218 170 20 104.00 10 193 200 30 103.50 15 183 200 103.00 47 168 245 45 102.50 55 121 245 102.00 20 66 272 27 101.50 11 46 272 101.00 5 35 373 101 100.50 30 373 100.00 30 391 18 99.50 30 395 4 99.00 30 420 25 98.50 30 30 若成交價為105.0 元，雙方能滿足的最大成交量為 150 張。若成交價 104.0 元，

(20)

9 雙方能滿足的最大成交量為170 張。若成交價為 103.5 元，則雙方能滿足的最大成交量為183 張。因之後雙方能滿足的最大成交量不會再超過 183 張，故此盤的撮合以103.5 元作為成交價，買價高於 103.5 元以及賣價低於 103.5 元的委託單將全數成交。其中，價格剛好等於103.5 元的委託單中，賣方累積為 183 張、買方為30 張，將依照時間優先原則，因此會有下單時間最晚的 17 張委託單無法成交，撮合後的結果以表二做表示。表二、集合競價撮合結果範例(第 T 盤) 累計買方張數買方張數價格賣方張數累計賣方張數 105.00 94 129 104.50 25 35 104.00 10 10 17 17 103.50 17 103.00 62 45 102.50 62 102.00 89 27 101.50 89 101.00 190 101 100.50 190 100.00 208 18 99.50 212 4 99.00 237 25 98.50

(21)

10

3.2 股價預測法則

依據台灣股市的交易規範，每盤所揭露的即時資訊僅包含成交價、成交量與委託簿上的最佳五檔買賣單的價格與委託量，造成投資人交易模型能參考的資訊十分有限，為此本實驗將探討以這些資訊建構我們的神經網路預測模型，並以一個實務界常用的預測規則[4,5]作比較，以下介紹相關法則及神經網路模型。

3.2.1 成交價與最佳買價及最佳賣價之法則

在詹場、胡星陽等人[5]的研究中使用的預測法則可以如下範例說明：當 T 盤成交價等於揭示最佳買一價且買價與賣價都揭示的情況下，T+1 盤成交價上漲機率為32%，成交價下跌機率為 0.3%；然而當 T 盤成交價等於揭示最佳賣一價且買價與賣價都揭示的情況下，T+1 盤成交價下跌機率為 42%，成交價上漲機率為0.2%，故此法則對於價格漲跌預測有明顯相關，於本實驗中定義為 Rule 1 (R₁)。我們將此預測法則套用至本研究的實驗數據其結果如表三及表四所示：表三、成交價同最佳買一價格之下一盤漲跌變化證券名稱上漲機率下跌機率上漲盤數下跌盤數價平盤數聯電 22.1% 0.13% 16695 103 58623 鴻海 27.2% 0.42% 20344 321 54102 台積電 28.6% 0.11% 20330 80 50574 友達 23.5% 1% 17761 805 56922 群創 22.1% 0.5% 16849 441 58698 富邦金 23.9% 0.8% 17696 595 55466 國泰金 25.6% 0.8% 17607 552 50508

(22)

11 玉山金 20.4% 0.13% 14382 98 55927 第一金 16.7% 0.07% 13702 62 67904 兆豐金 18.7% 0.24% 15418 201 66589 表四、成交價同最佳賣一價格之下一盤漲跌變化證券名稱下跌機率上漲機率下跌盤數上漲盤數價平盤數聯電 24% 0.1% 16679 74 52683 鴻海 29.3% 0.31% 20369 217 48751 台積電 27.4% 0.09% 20347 70 53662 友達 26.5% 1.02% 17730 686 48379 群創 25.2% 0.56% 16870 380 49602 富邦金 25.2% 0.56% 17675 391 51796 國泰金 23.9% 0.7% 17799 525 55958 玉山金 19.5% 0.14% 14462 104 59382 第一金 21.5% 0.05% 13678 37 49726 兆豐金 24.4% 0.1% 15288 63 47215 本研究將該盤符合成交價等於揭示最佳買一價的戳記設為 1 來作為模型的輸入；該盤符合成交價等於揭示最佳賣一價設為 0.5；若該盤的成交價既不等於揭示最佳買一價，也不等於揭示最佳賣一價，則將此設為0，意即毫無關聯。

3.2.2 最佳五檔委託量權重法則

Huang and Li [4]運用了台灣股市的公開揭露資訊中最佳買賣五檔之委託量作為買賣雙方拉扯力道的基礎，並假設最佳買賣一檔至五檔的個別影響力道皆不

(23)

12 相同，透過遺傳演算法演化並給予個別的檔位之委託量對應的權重，以計算出買賣雙方對於股票市場的影響力。我們可以藉由此權重法則觀察出最佳五檔委託量對於預測上有一定的幫助，於是我們加入了最佳五檔委託量作為本實驗神經網路預測模型的輸入。

3.3 神經網路

人工神經網路(Artificial Neural Network, ANN)，簡稱神經網路，為一種模仿生物神經網路結構和功能的數學模型。神經網路的基本單元為神經元(neuron)，或稱為節點(node)，會接受來自其他神經元的輸出或外部的輸入合併計算經過非線性函數(non-linear function)並輸出，如圖二及公式 1。圖二、單一神經元 𝑂 = 𝑓(∑𝑛 𝑥_𝑖𝑤_𝑖+ 𝑏 𝑖=1 ), (1) 其中𝑂為輸出，𝑓為激勵函數(activation function)，𝑥為輸入，𝑤為權重(weight)， 𝑏為偏值(bias)。每個輸入節點皆對應一個權重，計算上會將輸入和其權重相乘

𝑥

₁

_𝜔

1

𝑥

₂

…

𝜔

₂

𝑠𝑢𝑚

𝑓

𝑂

𝑥

_𝑛

𝜔

_𝑛

𝑏𝑖𝑎𝑠

(24)

13

後做總和再加上一個偏值，經過激勵函數獲得輸出。加入偏值的目的為使激勵函數的擬合性更加靈活。

神經網路的基本架構[3]分別為：輸入層(input layer)、隱藏層(hidden layer)、輸出層(output layer)，如圖三所示。圖三、神經網路基本架構 ⚫ 輸入層(input layer)：將外部的值引入神經網路，此層的內部節點不進行計算，會將輸入層節點的值傳遞給隱藏層。 ⚫ 隱藏層(hidden layer)：此層不與外部直接聯繫，負責將輸入層節點的值計算後傳輸至輸出層，神經網路可以有零或多個隱藏層。 ⚫ 輸出層(output layer)：接收來自隱藏層節點的值，經計算後傳輸至外部。神經網路訓練終止條件是否滿足可透過以下兩種方法來判斷： (一) 制定世代(epoch)終止條件：設定系統訓練至特定世代便停止訓練。 (二) 判斷是否收斂：設定損失函數(loss function)收斂值門檻，一旦小於門檻範圍即停止訓練。輸入層隱藏層輸出層

(25)

14

圖四、神經網路訓練流程圖

3.3.1 激勵函數

相對於線性(linear)激勵函數，文獻顯示採用非線性函數可以使得神經網路的效能更為強大[3]。以下為本實驗所用之非線性函數：

⚫ S 函數(sigmoid function)：為邏輯函數(logistic function)的一種，該函數會使

得輸出介於1 和 0 之間，如公式 2 所示。

𝑓(𝑥) = 𝜎(𝑥) =

1 1+𝑒−𝑥 . (2) 輸出層輸出結果損失函數計算更新權重及偏值模型訓練完成檢查世代條件是否滿足世代進度+1 反向傳播否是

(26)

15 圖五、 S 函數範圍 ⚫ 雙曲正切函數(tanh function)：該函數會使得輸出介於 -1 和 1 之間，如公式 3 所示。

𝑓(𝑥) = 𝑡𝑎𝑛ℎ(𝑥) =

(𝑒𝑥−𝑒−𝑥) (𝑒𝑥+𝑒−𝑥) . (3)

(27)

16 圖六、雙曲正切函數範圍 ⚫ 歸一化指數函數(softmax function)：為邏輯函數的一種擴展，該函數應用於機率論及其相關領域中，適用於多種分類，會使得個別輸出介於0 和 1 之間且輸出總和為1。例如：假設要辨識手寫字母 A~Z，輸入一張手寫的字母影像再經由該函數，最終將得到該影像屬於 A~Z 的個別機率，且個別機率的總和為1，如公式 4 [3]所示。

𝑓(𝑥)

_𝑖

= 𝜎(𝑥)

_𝑖

=

_∑ 𝑒𝑥𝑖 𝑒𝑥𝑐 𝑛 𝑐=1

, 𝑓𝑜𝑟 𝑖 = 1, … , 𝑛,

(4) 其中𝑛為類別總數。

(28)

17

3.3.2 損失函數(loss function)

損失函數為預測模型上的目標輸出與模型輸出的差值，也是衡量預測模型在預測結果方面表現有多好的指標之一，最小化損失函數的方法為梯度下降法。計算損失函數常用的方法為：

⚫ 用於迴歸(regression)的均方誤差(mean-square error, MSE)：即目標輸出與模型輸出之間差異的平均平方值。而進行誤差計算時需要平方或取絕對值的原因：假設今有兩筆資料的目標輸出分別為𝑦₁= 54 和𝑦₂= -48，且預測模型輸出為𝑦₁𝑝= 4 和𝑦₂𝑝= 2，則兩筆資料的差值為𝑙𝑜𝑠𝑠₁= 𝑦₁-𝑦₁𝑝= 50 及𝑙𝑜𝑠𝑠₂= 𝑦₂-𝑦₂𝑝= -50，兩者差值相加作平均為𝑙𝑜𝑠𝑠1+𝑙𝑜𝑠𝑠2 2 = 0，誤差結果雖然為 0，但事實上此模型並非完美預測。

𝑀𝑆𝐸 =

∑ (𝑦𝑖−𝑦𝑖 𝑝 )2 𝑛 𝑖=1 𝑛

,

(5) 其中𝑦_𝑖為目標輸出，𝑦_𝑖𝑝為模型輸出，𝑛為資料總筆數。

⚫ 用於分類(classification)的交叉熵(cross entropy) [27]：熵(entropy)為接收的所有的訊息中所包含的資訊量，可理解為量測資料的不正確性，當較不可能發生的事情發生時，就會帶來較多的資訊。例如：一個兩面皆相同的硬幣，怎麼擲的結果都為正面，則該事件就很穩定，熵即為0。 𝑐𝑟𝑜𝑠𝑠 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 = − ∑ ∑𝑘 𝑦_𝑖𝑗𝑙𝑜𝑔_𝑒(𝑦_𝑖𝑗𝑝) 𝑗=1 𝑛 𝑖=1 , (6) 其中 n 為類別數，k 為所有的資料筆數，𝑦_𝑖𝑗為目標輸出轉換成 one-hot encode(如：2 轉換為 010)的對應二元指標(binary indicator, 0 or 1)，𝑦_𝑖𝑗𝑝為模型

(29)

18 預測出第j 筆資料屬於第 i 類的機率。

使用cross entropy 作為模型的損失函數，如表五所示，假設有兩預測模

型(Model 1 和 Model 2)，資料總筆數為 4 筆(item 1 ~ item 4)，總類別數為 3 (A、 B、C)，另外為了方便計算此處的 log 皆以 2 為底，在 Model 1 中：A 的 cross entropy = −(1 × log(0.45) + 0 × log(0.3) + 0 × log(0.6) + 1 × log (0.55)) = 2.014，B 的 cross entropy = 1，C 的 cross entropy = 2.736，所以 Model 1 的整體cross entropy 即為三個類別的總和 5.75；在 Model 2 中：A 的 cross entropy = 0.395，B 的 cross entropy = 0.415，C 的 cross entropy =1.152，Model 2 的整體cross entropy 則為 1.962。由上述計算結果可知，Model 2 的 cross entropy

小於Model 1，也代表著 Model 2 的模型預測表現較優。表五、兩種預測模型(Model 1、Model 2)的輸出 Model 1 (output) 個別機率輸出 one-hot encode Label A B C A B C item 1 A 0.45 0.35 0.2 1 0 0 item 2 B 0.3 0.5 0.2 0 1 0 item 3 C 0.6 0.15 0.15 0 0 1 item 4 A 0.55 0.15 0.3 1 0 0 Model 2 (output) 個別機率輸出 one-hot encode Label A B C A B C item 1 A 0.8 0.1 0.1 1 0 0 item 2 B 0.2 0.75 0.5 0 1 0 item 3 C 0.45 0.35 0.2 0 0 1

(30)

19 item 4 A 0.95 0.05 0 1 0 0 不採用一般的分類錯誤率(classification error)來作為作為損失函數的原因：如表六所示，雖然Model 1 和 Model 2 的錯誤率一樣皆為 25%，但是從模型的個別機率輸出可觀察出Model 2 的機率輸出是優於 Model 1 的，所以單純只看分類錯誤率較不容易分辨出模型的好壞差異，且於訓練模型時較無法往正確的學習方向前進。表六、兩種預測模型(Model 1、Model 2)的輸出

Model 1 (output) Model 2 (output)

個別機率輸出

預測

個別機率輸出

預測

Label A B C A B C

item 1 A 0.45 0.35 0.2 A(O) 0.8 0.1 0.1 A(O)

item 2 B 0.3 0.5 0.2 B(O) 0.2 0.75 0.5 B(O)

item 3 C 0.6 0.15 0.15 A(X) 0.45 0.35 0.2 A(X)

item 4 A 0.55 0.15 0.3 A(O) 0.95 0.05 0 A(O)

3.3.3 梯度下降法(Gradient Descent, GD)

為最佳化演算法的其中一種方法，目的為求出一個函數的局部極小值(local minimum)。作法為向函數上當前點之對應梯度的相反方向進行迭代搜索，一般的梯度下降法公式為： 𝜃𝑡+1_{← 𝜃}𝑡_{− 𝜂}𝜕𝐿(𝜃𝑡) 𝜕𝜃 , (7)

(31)

20 利用偏微分的方法找出函數的梯度，𝜃為參數， 𝜂為學習率(Learning rate)，𝜕𝐿(𝜃 𝑡₎ 𝜕𝜃 為迭代次數𝑡的損失函數對參數𝜃的偏微分。以對權重做梯度下降為例，則公式為：

𝑤

𝑡+1

← 𝑤

𝑡

− 𝜂

𝜕𝐿(𝜃𝑡) 𝜕𝑤

,

(8) 其中𝑤為權重， 𝜂為學習率，𝜕𝐿(𝜃t) 𝜕𝑤 為迭代次數𝑡的損失函數對權重𝑤的偏微分。

而梯度下降法的後續擴展—隨機梯度下降法(stochastic gradient descent，SGD) 加上動量(momentum) ，合併簡稱 SGDM ，為本文使用之梯度下降優化器 (optimizer)，其公式[28]為：

𝜃

𝑡+1

← 𝜃

𝑡

− 𝜂

𝜕𝐿(𝜃𝑡) 𝜕𝜃

+ 𝛾(𝜃

𝑡

_{− 𝜃}

𝑡−1

_{) ,}

₍₉₎ 其中𝜃為參數，𝜂為學習率，𝜕𝐿(𝜃 𝑡₎ 𝜕𝜃 為迭代次數𝑡的損失函數對參數𝜃的偏微分。𝛾可視為阻力，通常設為 0.9。(𝜃𝑡_{− 𝜃}𝑡−1_{)為動量的部分，計算當前與上一次的參數} 梯度的更新方向，若此次的梯度方向與上次的梯度方向相同，則動能將越來越大，參數更新的速度會越來越快；相反，若方向相反，則表示梯度變小。 SGDM 在訓練時挑選固定數量的小批量(mini-batch)數據集後，輸入神經網路，取得該批小批量訓練集的誤差後，就進行梯度更新整個神經網路的權重及偏值一次，優點為在訓練時佔用較少的硬體資源，且數據集中通常有部分冗餘的數

(32)

21 據，有避開雜訊的優勢[29]。如果一次以全部的數據集丟入神經網路訓練，才更新一次偏值及權重，除了訓練時梯度下降的收斂速度較慢，也可能導致神經網路在參數更新時往不正確的地方靠攏。而添加動量的目的為考慮每一次的梯度方向，抑制梯度下降時的震盪，以增加學習的穩定性[28]。

3.3.4 反向傳播法(Backpropagation, BP)

在訓練神經網路的過程中，由於有非常多的參數需要進行梯度下降，於是發明出反向傳播法來結合最佳化演算法一起使用，目的為使梯度下降法有效率地更新每個輸入向量的權重及偏值。反向傳播法[30]的主要概念為使用連鎖法則 (chain rule)結合梯度下降法對損失函數求偏導數。

反向傳播法過程分為forward pass 和 backward pass，將誤差對輸出層參數的偏微分求出後，即可逐步反向計算至最前面的隱藏層求得誤差對整體參數的偏微分。假設有一神經網路 A，如圖七，輸入為 𝑥₁、𝑥₂，每個神經元連接之間皆有對應的權重𝑤，𝑏為偏值，𝑓為激勵函數，𝑂_𝑖、𝑂_𝑗為輸出層的輸出。圖七、神經網路A 此神經網路A 的整體誤差(total loss)為： 𝐿(𝜃) = ∑𝑛 𝐶𝑘(𝜃) 𝑘=1 , (10) 𝑥₁ 𝑥₂ 𝑂_𝑖 𝑂_𝑗 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝑏 𝑏 𝑏 𝑏 𝑏 𝑏

(33)

𝜕𝑂_𝑗 𝜕𝑦₄ 𝜕𝐶 𝜕𝑂_𝑗

,

(16)

(35)

24 因𝑂_𝑖 = σ(𝑦₃)，𝑂_𝑗 = σ(𝑦₄)，所以𝜕𝑂𝑖 𝜕𝑦₃是S 函數的微分，為σ ′_(𝑦 3)。 𝜕𝑂_𝑗 𝜕𝑦₄則為σ ′_(𝑦 4)。若此時𝑦₃和𝑦₄不為輸出層，則σ(𝑦₃) = 𝑧3，σ(𝑦4) = 𝑧4。將繼續延伸公式15，展開計算誤差(𝐶)對下一層參數的偏微分。

3.3.5 遞歸神經網絡

一般的神經網路為前饋式神經網路(Feedforward Neural Network)，從輸入層到最後的輸出層，只會單向向前傳遞至下一層，意即每次的輸入彼此獨立，互無關係。由於文本分析、語音分析等應用上的資料皆為時間序列(time series)數據，當次輸入和下一次輸入彼此間有時間點發生的前後關係，因此需要透過序列式的輸入來訓練預測模型，遞歸神經網路不同於標準的前饋式神經網路，除了可接受序列式的資料之外，也可保留近期隱藏層節點的輸出作為下一次隱藏層結點的額外輸入，以對應時間上的前後連結關係[31]。 Tenti [24]於研究中提及多種不同架構的遞歸神經網路，如圖九、圖十，及其公式17、公式 18。由公式可觀察出 Jordan network 的作法是將上一次輸出層的輸出(𝑦_𝑡−1)記憶起來作為此次隱藏層的另一端輸入；Elman network 則是將上次的隱藏層輸出(ℎ_𝑡−1)記憶起來作為此次隱藏層的另一端輸入。而在多數的應用上採

Elman network 的作法，其中包含 TensorFlow、PyTorch 等知名類神經網路開源軟體庫。

(36)

25 ⚫ Jordan network 架構[24]：圖九、遞歸神經網路架構圖(Jordan network) ℎ𝑡= 𝜎ℎ(𝑊ℎ𝑥𝑡+ 𝑅ℎ𝑦𝑡−1+ 𝑏ℎ), 𝑦_𝑡 = 𝜎_𝑦(𝑊_𝑦ℎ_𝑡+ 𝑏_𝑦), (17) 其中ℎ_𝑡為當次(𝑡)的隱藏層輸出，𝑦_𝑡為當次(𝑡)的輸出層輸出，𝑥_𝑡為當次(𝑡)的輸入向量，𝜎為激勵函數，𝑊、𝑅為對應之權重，𝑏為對應之偏值，𝑦_𝑡−1為上一次(t-1)的輸出層輸出。輸入層隱藏層輸出層遞歸層

(37)

26 ⚫ Elman network 架構[24]：圖十、遞歸神經網路架構圖(Elman network) ℎ_𝑡 = 𝜎_ℎ(𝑊_ℎ𝑥_𝑡+ 𝑅_ℎℎ_𝑡−1+ 𝑏_ℎ), 𝑦_𝑡 = 𝜎_𝑦(𝑊_𝑦ℎ_𝑡+ 𝑏_𝑦), (18) 其中ℎ_𝑡為當次(𝑡)的隱藏層輸出，𝑦_𝑡為當次(𝑡)的輸出層輸出，𝑥_𝑡為當次(𝑡)的輸入向量，𝜎為激勵函數，𝑊、𝑅為對應之權重，𝑏為對應之偏值，ℎ_𝑡−1為上一次(𝑡-1)的隱藏層輸出。輸入層隱藏層輸出層遞歸層

(38)

27

3.3.7 長短期記憶

長短期記憶神經網絡由Hochreiter and Schmidhuber [32]於 1997 年發表，為

遞歸神經網絡的一種擴展。由於Elman network 是透過遞迴連接近期的隱藏層輸出來實現短期記憶(short-term memory)，而時間序列的應用上往往需要長期依賴，於是發展出透過緩慢的權重變化來實現長期記憶(long-term memory)的新型遞歸神經網路。長期記憶在許多應用上有潛在的重要意義，例如：語句分析、語音處理。長短期記憶的特殊模型結構可克服反向傳播時誤差信號(error signals)傾向消失或爆炸的問題，適合處理時間序列中間隔時間較長的資料。圖十一為標準的Elman network 內部結構，圖十二為長短期記憶之內部結構。圖十一、標準的Elman network 內部結構 𝑡𝑎𝑛ℎ

ℎ

_𝑡−1

𝑥

_𝑡

ℎ

_𝑡

ℎ

_𝑡

(39)

28 圖十二、長短期記憶內部結構 𝜎為 S 函數，𝑥為輸入，ℎ_𝑡−1為上一次隱藏狀態，𝑊為與輸入對應的權重，𝑅為循環間的權重，𝑏為偏值，初始的細胞狀態及隱藏狀態皆為 0。遺忘閥(forget gate, 𝑓_𝑡)：決定舊的細胞狀態(𝐶_𝑡−1)要遺忘多寡的程度。 𝑓_𝑡 = 𝜎(𝑊_𝑓𝑥_𝑡+ 𝑅_𝑓ℎ_𝑡−1+ 𝑏_𝑓). (19) 輸入閥(input gate, 𝑖_𝑡)：決定新的輸入可以更新細胞狀態(𝐶_𝑡)多寡的程度。 𝑖_𝑡= 𝜎(𝑊_𝑖𝑥_𝑡+ 𝑅_𝑖ℎ_𝑡−1 + 𝑏_𝑖). (20)

細胞狀態(cell state, 𝐶_𝑡)：為長期記憶，分為兩部分，(I)新的輸入會先經過𝑡𝑎𝑛ℎ激

勵函數，加入暫存狀態(𝐶̅ )。(II)結合遺忘閥來遺忘過往所需要被丟棄的值，再結_𝑡

(40)

29

𝐶̅ = 𝑡𝑎𝑛ℎ(𝑊_𝑡 _𝑐̅𝑥_𝑡+ 𝑅_𝑐̅ℎ_𝑡−1+ 𝑏_𝑐̅). (21) 𝐶_𝑡= 𝑓_𝑡∗ 𝐶_𝑡−1+ 𝑖_𝑡∗ 𝐶̅_𝑡. (22)

輸出閥(output gate, 𝑂𝑡)：決定新的細胞狀態(𝐶𝑡)是否可輸出成為新的隱藏狀態。

𝑂_𝑡 = 𝜎(𝑊_𝑜𝑥_𝑡+ 𝑅_𝑜ℎ_𝑡−1+ 𝑏_𝑜). (23)

隱藏狀態(hidden state, ℎ𝑡)：為短期記憶，將輸出作為下一層隱藏層(hidden layer)

的輸入。

ℎ_𝑡 = 𝑂_𝑡∗ 𝑡𝑎𝑛ℎ(𝐶_𝑡). (24)

3.4 實驗參數

本論文實驗使用的環境為 MATLAB 2018b，所使用之長短期記憶神經網路

架構如圖十三所示，訓練世代為400，batch size 為 10，學習率為 0.01，momentum 為0.9。

(41)

30 圖十三、實驗模型架構

3.4.1 時間步長(time step)

由於我們使用的資料為時間序列(time series)類型的數據，所以神經網路模型使用了時間步長的參數，以時間步長為3 來舉例，輸入為第 x 筆資料，則數據輸 入模型時，是以第x 筆開始進入模型，經長短期記憶單元選擇記憶與否後再輸入 第x+1 筆，直至輸入至第 x+2 筆完，目的為藉由長短期記憶單元來達到儲存過往 的重要資訊。在本實驗中，我們將透過長短期記憶單元儲存過往的成交價等於最佳買或賣一價、最佳五檔委託買賣量中的重要訊息，預測未來的股價趨勢。以台積電為例，如圖十四，經統計可觀察出當盤(T)成交價於往後五盤(T+5)內價格第一次發生變化的累積次數佔了全部的成交價於某下一盤產生變化的累積次數達 83.96%，意即在大部分的情形下，未來的五盤內，股價將會有所變動，也可藉由此合理推敲出於五盤內的最佳買賣五檔委託量將有所變動，故將時間步長設置為 5。

…

LSTM Layer Sequence Input Layer Fullyconnect

Layer Output Layer

S of tm ax L ay er 11

100

3

(42)

31

圖十四、成交價第一次變動累積次數之直方圖

如圖十五，在鴻海精密的股票中成交價於往後五盤內價格第一次發生變化的

(43)

32 圖十五、成交價第一次變動累積次數之直方圖

4. 研究結果

本章節共分為六個小節，首先說明本實驗使用的資料來源及應用的時間範圍，接著介紹本實驗所使用的時間驗證法(Temporal Validation, TV)，以及本實驗的比較基準與其預測模型，最後討論本文的實驗結果。

4.1 資料來源

本研究使用之資料源自台灣證券交易所，是以台灣上市公司的股票類股作為研究對象，為了對比本研究與過去實驗結果之間的差異性，故沿用了Huang and Li [4]研究中作為實驗對象的五家公司，且這些公司為台灣證券交易所於民國 104

(44)

33 年9 月之成交量前 20 名的其中五支股票，同時為了進一步驗證本實驗預測模型的有效性，額外加入了同為半導體及金融類股的五支股票作為實驗對象。表七、台灣上市公司個股研究對象 STOCK 證卷名稱 1 聯華電子 2 鴻海精密 3 台灣積體電路 4 友達光電 5 群創光電 6 富邦金 7 國泰金 8 玉山金 9 兆豐金 10 第一金

4.2 研究區間

為了與Huang and Li [4]比較實驗的效能差異，故採用同為「2015 年 9 月 22 日至 2015 年 11 月 10 日」以及「2015 年 12 月 10 日至 2016 年 1 月 19 日」兩個區間共計 56 個交易日進行實驗。其中，第一個區間為大盤加權指數漲幅達170 點；第二區間則為大盤加權指數跌幅達 360 點。交易日資料的時段區間為上午九點至下午一點半，不含開盤前與收盤後的集合競價，平均一個週期有 140,000 筆資料。資料來源為台灣證券交易所的基本市況報導網站 (http://mis.twse.com.tw/stock/index.jsp)，資料更新的頻率以 5 秒為一個週期。

(45)

34

4.3 時間驗證法(Temporal Validation, TV)

由於財務領域的實驗數據具有時間特性，不同於一般的交叉驗證 (cross-validation)，預測模型不能事先知道未來的測試數據，故當資料分為訓練期 (Training)和測試期(Testing)時，必須遵守訓練期資料的時間區間須早於測試期資料，因此本研究採用了如圖十六所示的時間驗證法作為檢驗模型效能的方法。於本研究的時間驗證法中，我們將以「日」為單位，將兩個區間的資料合計分成52 個區間，例如，第一個 TV 的訓練期區間為第 1 日至第 2 日，測試期則為第3 日；第 n 個 TV 的訓練期為第 n 日至第 n+1 日，測試期則為第 n+2 日。更 加詳細來說，當TV=1 時，使用 2015/9/22 至 2015/9/23 為期 2 日的個別日數歷史資料作為訓練資料，經神經網路訓練出2 個預測模型(model A 和 model B)，且以 2015/9/24 的資料作為測試資料，分別在 2 個預測模型上進行測試，再將其 2 個測試結果以投票機制來進行預測，如model A 和 model B 同時預測出在時間 T 盤的股價會上漲，則將測試結果認定為上漲，反之則否。TV=2 時，訓練資料範圍為2015/9/23 至 2015/9/24，測試資料為 2015/9/25，依此類推。 TV\Day 2015/9/22 2015/9/23 2015/9/24 2015/9/25 … 2016/1/15 2016/1/18 2016/1/19 1 2 … … 51 52 圖十六、時間驗證法圖示 Training Testing Training Testing

(46)

35

4.4 效能指標

為了評估實驗模型的預測能力，因此本研究沿用Huang and Li [4]研究中使用之效能指標—精確度(Precision)，其公式如下：

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =

𝑇𝑃 𝑇𝑃+𝐹𝑃

.

(25) 計算時僅將TP、FP 列入考量，意即以預測價格為上漲且實際價格真為上漲作為分子，預測價格上漲為分母，能單純計算出正面預測的比率，該效能指標也常用於工程學、統計學等領域。以下將詳細描述與本研究採用的方法的相關定義:TP (true positive)、TN (true negative)、FP (false positive)、FN (false negative)。

⚫ TP：預測價格為上漲，且真實價格為上漲。 ⚫ FP：預測價格為上漲，但真實價格為未上漲。 ⚫ TN：預測價格為不上漲，且真實價格未上漲。 ⚫ FN：預測價格為不上漲，但真實價格卻上漲。表八、預測結果分類實際結果(Actual outcome) False True 預測結果 (Predicted outcome)

False TN (true negative) FN (false negative) True FP (false positive) TP (true positive)

(47)

36 而Huang and Li [4]於研究中指出在台灣股市的高速交易環境中，股價出現平盤的狀況很多，故本研究將價平的部分也視為預測失敗(FP)。

4.5 觀測方式與比較基準

在陳[33]的研究中，其觀測方法(Observation)為當盤價格產生之後的第一次的價格變化時才計算precision (亦即平盤不列入計算)，由於此法無法準確判斷出於未來的幾盤內將發生價格變化，故本文將Huang and Li [4]實驗中觀測下一盤變化擴展為觀測下一至十盤的價格，例如：設當盤為第一盤(T)，O₁即為觀測下一盤(T+1)價格變化；O₂即為觀測下下一盤(T+2)價格變化，依此類推。本文以Huang and Li [4]研究中所使用的R₁及最佳五檔委託量再結合長短期記憶模型作為預測模型，將其定義為LSTM。

4.6 實驗結果

實驗結果為𝑅₁預測模型與 LSTM 預測模型所進行的比較。首先我們將介紹十家公司於訓練期及測試期分別的結果，圖例將呈現兩種預測模型在觀測方式一 (O₁)至觀測方式十(O₁₀)的勝率，藉此來凸顯 LSTM 的預測能力，最後將比較兩種預測模型在十家公司於十種觀測方式的平均值及標準差。

4.6.1 兩種模型於十家公司分別在𝐎

𝟏

至𝐎

𝟏𝟎

的表現

圖十七的上半部為使用聯華電子的股票應用於兩種模型(R₁、LSTM)在訓練期的預測結果，我們可以看出於訓練階段，LSTM 在O₁至O₁₀的觀測方式下皆勝過R₁；圖十七的下半部為兩種模型的測試期預測效能，結果顯示，LSTM 在O₁至

(48)

37 O₁₀的預測表現皆優於R₁。圖十八為使用鴻海精密工業的股票分別應用於R₁與 LSTM 兩模型在訓練期及測試期的預測結果，我們可以看出不論是訓練期或測試期，LSTM 的表現皆優於R₁。圖十九為使用台積電的實驗結果，圖二十為使用友達的實驗結果，圖二十一為使用群創的實驗結果，圖二十二為使用富邦金的實驗結果，圖二十三為使用國泰金的實驗結果，圖二十四為使用玉山金的實驗結果，圖二十五為使用第一金的實驗結果，圖二十六則為使用兆豐金的實驗結果。在圖十九、二十、二十一、二十二及二十三中實驗結果皆顯示不論是在訓練期或測試期中，LSTM 的表現皆優於R₁。至於使用玉山金融控股(圖二十四)及第一金融控股(圖二十五)的股票雖然於測試期的其中三個觀測方式下 LSTM 沒有優於R₁，但是以整體十個觀測方式來說，還是略優於R₁。從這十張圖我們可以觀察出R₁與 LSTM 的預測效能皆不高，其原因為股價於下幾盤的平盤價格太多，但我們仍可以看到測試階段時LSTM 預測效能在O₁至 O₁₀間於大部分情形勝過了R₁，代表LSTM 模型具有一定的潛力。

(49)

38

圖十七、聯電在O₁至O₁₀的預測結果

(50)

39

圖十九、台積電在O₁至O₁₀的預測結果

(51)

40

圖二十一、群創在O₁至O₁₀的預測結果

(52)

41

圖二十三、國泰金在O₁至O₁₀的預測結果

(53)

42

圖二十五、第一金在O₁至O₁₀的預測結果

(54)

43

4.7.2 兩種模型的平均值、標準差及獲勝比率

在此小節中我們將前面兩種模型於O₁至O₁₀的實驗結果取平均值及標準差後整理如下，為兩種模型分別在訓練期及測試期以 Precision 評估預測能力的統計總表。在表九可以觀察到 LSTM 在訓練時期皆贏過R₁。表十可觀察出於測試階段，LSTM 在大部分的情形下贏過R₁，表示我們提出的 LSTM 預測模型有效改善了實務界常用的「成交價與最佳買價及最佳賣價之法則」的預測效能。表九、兩種模型在O₁至O₁₀所進行訓練之平均值、標準差及勝率佔比 𝐑_𝟏 LSTM LSTM 勝過 𝐑_𝟏比率 Mean Standard deviation Mean Standard deviation 聯電 0.3176 0.0379 0.5192 0.0531 100% 鴻海 0.3448 0.0277 0.627 0.0436 100% 台積電 0.3544 0.0258 0.5646 0.0424 100% 友達 0.3236 0.0347 0.62 0.0448 100% 群創 0.3094 0.0352 0.5431 0.0436 100% 富邦金 0.3196 0.0321 0.6488 0.0434 100% 國泰金 0.3472 0.0367 0.6606 0.041 100% 玉山金 0.339 0.0557 0.548 0.0788 100% 第一金 0.291 0.0515 0.399 0.0836 100% 兆豐金 0.2839 0.0396 0.5056 0.0526 100%

(55)

44 表十、兩種模型在O₁至O₁₀所進行測試之平均值、標準差及勝率佔比 𝐑_𝟏 LSTM LSTM 勝過 𝐑_𝟏比率 Mean Standard deviation Mean Standard deviation 聯電 0.317 0.0391 0.3694 0.0542 100% 鴻海 0.3399 0.0276 0.3911 0.0223 100% 台積電 0.3553 0.0257 0.4163 0.0367 100% 友達 0.3238 0.0357 0.3639 0.0367 100% 群創 0.312 0.0373 0.3875 0.0432 100% 富邦金 0.313 0.032 0.3847 0.0288 100% 國泰金 0.3392 0.0379 0.4038 0.0151 100% 玉山金 0.3378 0.0554 0.3462 0.0472 70% 第一金 0.2935 0.0541 0.3041 0.0677 70% 兆豐金 0.2843 0.0395 0.3203 0.0393 100%

(56)

45

圖二十七、兩種模型使用十家公司在O₁至O₁₀於訓練期之平均值

(57)

46

5. 結論

本論文提供了一個高速交易的預測系統的研究，實驗設計了一個藉由長短期記憶的神經網路結合委託簿上買賣之最佳五檔委託量相關之資訊以建構出應用於高頻交易資料的預測模型。為了測試其效能，我們使用與Huang and Li [4]同時期的台灣股市資料，且從中挑選了兩個區間合計 56 個交易日的盤中即時揭露的資訊，至於比較法則則是使用一個實務界常用的「成交價與最佳買價及最佳賣價之法則」。另外，本研究以Huang and Li [4]所提出的第一種觀測方式(O₁)為原型另外定義了九種不同的觀測方式(O₂、O₃、O₄、O₅、O₆、O₇、O₈、O₉、O₁₀)。實驗方面，將此十種觀測方式套用在R₁及 LSTM 預測模型中，由結果可以發現 LSTM 預測模型在O₁至O₁₀的不同觀察方法下於大部分的情形下勝過了R₁ 的模型，為此我們可以發現LSTM 模型是具有潛力的。我們可以藉由此實驗觀察出「成交價與最佳買價及最佳賣價之法則」及最佳五檔委託量對於預測上來說是有幫助的，但於台灣的股市交易中平盤的次數還是太多，影響了模型判斷漲跌的趨勢，所以我們希望未來可以加入更多的金融預測法則及觀測方式，以更加嚴苛的條件來進行預測。至於實驗模型方面，我們未來預期除了加入更多的輸入特徵，同時也會擴展此預測模型所使用之神經網路的深度，來協助模型加強預測效能。又或者引入卷積神經網路(Convolutional Neural Network, CNN) [34]以辨識圖像的方式將股價走勢圖作為輸入，如：K 線、布林通道等，經卷積神經網路輸出成為我們 LSTM 預測模型的輸入，透過不同類型的神經網路各自對特徵的觀察與處理方式，可能可以發現不同的預測規則，以藉此提升模型的預測效能。

(58)

47

6. 參考文獻

[1]. 台灣證券交易所，「逐筆交易制度介紹—制度介紹」，『盤中全面逐筆交易專區』，2018 (http://www.twse.com.tw/zh/page/trading/information13.html) (2019/6/20)。 [2]. 蔡佩雯，「逐筆交易及縮短撮合循環秒數概述」，『證券暨期貨月刊』，第三十二卷，第十二期，頁14-20，2013。

[3]. S. Haykin, Neural Networks: A Comprehensive Foundation. Upper Saddle River, NJ: Prentice Hall, 1994.

[4]. C.-F. Huang and H.-C. Li, “An evolutionary method for financial forecasting in microscopic high-speed trading environment,” Computational Intelligence

and Neuroscience, vol. 2017, pp. 1-18, 2017.

[5]. 詹場、胡星陽、陳建宏，「台灣證券市場揭示狀態之資訊含量」，『證券市

場發展季刊』，第十五卷，第四期，頁1-36，2003。

[6]. F. Zhang, “High-Frequency Trading, Stock Volatility, and Price Discovery,”

SSRN Electronic Journal, pp. 1-52, 2010.

[7]. M. A. Goldstein, P. K. Kumar and F. C. Graves, “Computerized and High-Frequency Trading,” The Financial Review, vol. 49, no. 2, pp. 1-35, 2014.

[8]. J. A. Brogaard, “High frequency trading and its impact on market quality,” Northwestern University Kellogg School of Management Working Paper, 2010.

[9]. A. Frino, A. Lepone and M. Mistry, “The New Breed of Market Participants: High Frequency Trading: Evidence from the Australian Stock Exchange,” Working Paper, 2011.

(59)

48

[10]. J. M. Karpoff, “The relation between price changes and trading volume: A Survey,” Journal of Financial and Quantitative Analysis, vol. 22, no. 1, pp. 109-126, 1987.

[11]. C. C. Ying, “Stock market prices and volumes of sales,” Econometrica, vol. 34, no. 3, pp. 676-685, 1966.

[12]. S. E. Stickel and R. E. Verrecchia, “Evidence that Trading Volume Sustains Stock Price Changes,” Financial Analysts Journal, vol. 50, no. 6, pp. 57-67, 1994.

[13]. B.-S. Lee and O. M. Rui, “The dynamic relationship between stock returns and trading volume: Domestic and cross-country evidence,” Journal of

Banking & Finance, vol. 26, no. 1, pp. 51-78, 2002.

[14]. A. Graves, A. Mohamed and G. Hinton, “Speech recognition with deep recurrent neural networks,” 2013 IEEE International Conference on Acoustics,

Speech and Signal Processing, Canada, 2013.

[15]. G. Hinton, L. Deng, D. Yu, G. E. Dahi, A. Mohamed, N. Jailty, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath and B. Kingbury, “Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82-97, 2012.

[16]. J. Barhak and A. Ficher, “Parameterization and reconstruction from 3D scattered points based on neural network and PDE techniques,” IEEE

Transactions on Visualization and Computer Graphics, vol. 7, no. 1, pp. 1-16,

2001.

[17]. R. Collobert and J. Weston, “A unified architecture for natural language processing: deep neural networks with multitask learning,” in Proceedings of

(60)

49

the 25th international conference on Machine learning, pp.160-167, 2008.

[18]. Y. Bengio, R. Ducharme, P. Vincent and C. Janvin, “A neural probabilistic language model,” The Journal of Machine Learning Research, vol. 3, pp. 1137-1155, 2003.

[19]. B. K. Wang and Y. Selvi, “Neural network applications in finance: A review and analysis of literature (1990–1996),” Information & Management, vol. 34, no. 3, pp. 129-139, 1998.

[20]. A. Fadlalla and C.-H. Lin, “An Analysis of the Applications of Neural Networks in Finance,” Interfaces, vol. 31, no. 4, pp. 112-122, 2001.

[21]. L. Kryzanowski, M. Galler and D. W. Wright, “Using Artificial Neural Networks to Pick Stocks,” Financial Analysts Journal, vol. 49, no. 4, pp. 21-27, 1993.

[22]. H. Chen, K. Xiao, J. Sun and S. Wu, “A Double-Layer Neural Network Framework for High-Frequency Forecasting,” ACM Transactions on

Management Information Systems (TMIS), vol. 7, no. 11, 2017.

[23]. T.-J. Hsieh, H.-F. Hsiao and W.-C. Yeh, “Forecasting stock markets using wavelet transforms and recurrent neural networks: An integrated system based on artificial bee colony algorithm,” Applied Soft Computing, vol. 11, no. 2, pp. 2510-2525, 2011.

[24]. P. Tenti, “Forecasting foreign exchange rates using recurrent neural networks,”

Applied Artificial Intelligence, vol. 10, no. 6, pp. 567-582, 1996.

[25]. T. Fischer and C. Krauss, “Deep learning with long short-term memory networks for financial market predictions,” European Journal of Operational

Research, vol. 270, no. 2, pp. 654-669, 2018.

(61)

50

prediction: A case study of China stock market,” 2015 IEEE International

Conference on Big Data (Big Data), U.S.A., 2015.

[27]. C. M. Bishop, Pattern recognition and machine learning, Heidelberg. Berlin: Springer, 2006.

[28]. K. P. Murphy, Machine Learning: A Probabilistic Perspective. Cambridge, MA: MIT Press, 2012.

[29]. L. Bottou, F. E. Curtis and J. Nocedal, “Optimization Methods for Large-Scale Machine Learning,” arXiv:1606.04838 [stat.ML], 2018.

[30]. D. E. Rumelhart, G. E. Hinton and R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, pp. 533-536, 1986.

[31]. Z. C. Lipton, “A Critical Review of Recurrent Neural Networks for Sequence Learning,” arXiv:1506.00019 [cs.LG], 2015.

[32]. S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory,” Neural

Computation, vol. 9, no. 8, pp. 1735-1780, 1997.

[33]. 陳柏均，「一個高速交易的自動演化預測系統的研究」，碩士論文，國立

高雄大學資訊工程學系，2019。

[34]. A. Krizhevsky, I. Sutskever and E. H. Geoffery, “ImageNet Classification with Deep Convolutional Neural Networks,” Advances in Neural Information

一個使用長短期記憶神經網路模型於高頻交易環境的研究

國立高雄大學資訊工程研究所

碩士論文

一個使用長短期記憶神經網路模型

於高頻交易環境的研究

A Study of Long Short-Term Memory Neural

Network for Forecasting in High-frequency Trading

研究生：李尚益 撰

指導教授：黃健峯 博士

一個使用長短期記憶神經網路模型

於高頻交易環境的研究

摘要

A Study of Long Short-Term Memory Neural

Network for Forecasting in High-frequency Trading

致謝

目錄

圖目錄

表目錄

1. 導論

1.1 研究背景

1.2 研究目的

1.3 研究架構圖

價量關係

成交價

最佳五檔委託量

最佳買一、 賣一

價格

程式交易

神經網路

高頻交易

適應性函數

Precision

結果

預測能力

2. 文獻探討

2.1 高頻交易相關文獻

2.2 股票價量關係

2.3 神經網路及其應用之相關文獻

3. 研究方法

3.1 台灣股市交易機制

3.1.1 集合競價交易範例

3.2 股價預測法則

3.2.1 成交價與最佳買價及最佳賣價之法則

3.2.2 最佳五檔委託量權重法則

3.3 神經網路

𝑥

𝜔

𝑥

…

…

𝜔

𝑠𝑢𝑚

𝑓

𝑂

𝑥

𝜔

𝑏𝑖𝑎𝑠

3.3.1 激勵函數

𝑓(𝑥) = 𝜎(𝑥) =

𝑓(𝑥) = 𝑡𝑎𝑛ℎ(𝑥) =

𝑓(𝑥)

= 𝜎(𝑥)

=

, 𝑓𝑜𝑟 𝑖 = 1, … , 𝑛,

3.3.2 損失函數(loss function)

𝑀𝑆𝐸 =

,

3.3.3 梯度下降法(Gradient Descent, GD)

𝑤

← 𝑤

− 𝜂

,

𝜃

← 𝜃

− 𝜂

+ 𝛾(𝜃

− 𝜃

) ,

3.3.4 反向傳播法(Backpropagation, BP)

= ∑

研究生：李尚益撰

指導教授：黃健峯博士

最佳買一、賣一

_𝜔

_{− 𝜃}

_{) ,}

_(𝑦