• 沒有找到結果。

一個使用長短期記憶神經網路模型於高頻交易環境的研究

N/A
N/A
Protected

Academic year: 2021

Share "一個使用長短期記憶神經網路模型於高頻交易環境的研究"

Copied!
61
0
0

加載中.... (立即查看全文)

全文

(1)

國立高雄大學資訊工程研究所

碩士論文

一個使用長短期記憶神經網路模型

於高頻交易環境的研究

A Study of Long Short-Term Memory Neural

Network for Forecasting in High-frequency Trading

研究生:李尚益 撰

指導教授:黃健峯 博士

(2)
(3)
(4)

III

一個使用長短期記憶神經網路模型

於高頻交易環境的研究

指導教授:黃健峯 博士 國立高雄大學資訊工程研究所 學生:李尚益 國立高雄大學資訊工程研究所

摘要

本論文提出一個採用長短期記憶(Long Short-Term Memory, LSTM)的神經網 路來建構一個高速股價預測系統。透過台灣股市的盤中即時揭露資訊,並挑選了 交易量排名較大的其中10 間公司作為標的,來預測微觀的股票價格變化的方向。 另外,由於股市的平盤問題,我們提出了不同的觀測方式以凸顯我們所提出的預 測模型在系統性的測試下,其預測效能依然優於以往的方法。實驗結果顯示,我 們所採用基於長短期記憶神經網路的模型在高頻交易環境下的預測比起實務界 常用的一個法則是更加有效的。我們因此希望此類的深度學習方法能夠促進應用 機器學習方法於高頻交易的相關研究。 關鍵字:高頻交易、長短期記憶、神經網路、金融科技

(5)

IV

A Study of Long Short-Term Memory Neural

Network for Forecasting in High-frequency Trading

Advisor: Dr. Chien-Feng Huang

Institute of Computer Science and Information Engineer National University of Kaohsiung

Student: Shang-I Li

Institute of Computer Science and Information Engineer National University of Kaohsiung

ABSTRACT

In this thesis, we propose an intelligent model using Long-Short Term Memory (LSTM) neural networks for the construction of a high-speed trading forecasting system. In order to construct the models for the forecasting task of stock price at the microscopic level, we used the disclosed micro-structure data comprised by the stock prices and volumes in the order book for 10 companies of the top trading volume in the Taiwan Stock Exchange. In addition, due to the problem of stationary prices in stock market at the microscopic level, we have proposed different observation timing methods to examine our proposed model systematically. The empirical results show that our proposed LSTM-based model is effective in the prediction for HFT environment than a well-known prediction rule used by the real-world practitioners. We thus expect this deep learning methodology to advance the current state of research and applications for machine learning in high frequency trading.

Keywords: High-frequency trading, Long short-term memory, Neural network, Financial technology

(6)

V

致謝

在就讀碩士的這段期間,從入學新生到能夠完成論文及學業,一路上受到不 少人的幫助及開導,在此我想特別感謝我的指導老師黃健峯教授,在我遭遇實驗 上的困難所發出的提問,他都會耐心地給予我非常好的建議,雖然有時老師無法 給予確定的答案,但他也會不吝告訴我他的想法,提供我一些不同的看法及可行 的方向,仔細想想人生的路途上本來很多事情就沒有正確答案,而這也是我就讀 研究所的收穫之一。老師對於實驗室的學生沒有成績上的要求,只最重視我們為 人處事的態度,一個人看待事情的嚴謹性,以及按部就班的態度,不論是對於研 究或者未來社會上工作都是非常重要的,所以我很有幸能夠成為實驗室的一份子。 也特別感謝張志向老師以及陳志忠老師,感謝兩位能在百忙之中抽空來擔任我的 口試委員,給予我在金融及人工智慧方面的專業建議及指正,使我的論文能更加 的完整、完善。 另外,感謝我的同儕們,在我受到挫折或情緒低潮時,包容了我的情緒或提 供了我解決問題的方向及建議。感謝碩專班的前輩,給予我不論是實作或是處事 上的建議及幫助,也感謝學弟們在實驗室的日常生活或學業上幫忙分擔各類大小 事。 最後要特別感謝我的家人,在我就讀的這段期間,在我背後默默的支持及鼓 勵。 李尚益 謹誌 國立高雄大學 資訊工程所 中華民國一百零八年七月

(7)

VI

目錄

摘要 ... III 致謝 ... V 圖目錄 ... VIII 表目錄 ... X 1. 導論 ... 1 1.1 研究背景 ... 1 1.2 研究目的 ... 1 1.3 研究架構圖 ... 2 2. 文獻探討 ... 3 2.1 高頻交易相關文獻 ... 3 2.2 股票價量關係 ... 4 2.3 神經網路及其應用之相關文獻 ... 5 3. 研究方法 ... 7 3.1 台灣股市交易機制 ... 7 3.1.1 集合競價交易範例 ... 7 3.2 股價預測法則 ... 10 3.2.1 成交價與最佳買價及最佳賣價之法則 ... 10 3.2.2 最佳五檔委託量權重法則 ... 11 3.3 神經網路 ... 12 3.3.1 激勵函數 ... 14 3.3.2 損失函數(loss function) ... 17 3.3.3 梯度下降法(Gradient Descent, GD) ... 19 3.3.4 反向傳播法(Backpropagation, BP) ... 21 3.3.5 遞歸神經網絡 ... 24 3.3.7 長短期記憶 ... 27 3.4 實驗參數 ... 29

(8)

VII 3.4.1 時間步長(time step) ... 30 4. 研究結果 ... 32 4.1 資料來源 ... 32 4.2 研究區間 ... 33 4.3 時間驗證法(Temporal Validation, TV) ... 34 4.4 效能指標 ... 35 4.5 觀測方式與比較基準 ... 36 4.6 實驗結果 ... 36 4.6.1 兩種模型於十家公司分別在O1至O10的表現 ... 36 4.7.2 兩種模型的平均值、標準差及獲勝比率 ... 43 5. 結論 ... 46 6. 參考文獻 ... 47

(9)

VIII

圖目錄

圖一、 研究架構圖... 2 圖二、 單一神經元... 12 圖三、 神經網路基本架構 ... 13 圖四、 神經網路訓練流程圖 ... 14 圖五、 S 函數範圍 ... 15 圖六、 雙曲正切函數範圍 ... 16 圖七、 神經網路A ... 21 圖八、 神經網路A 內部其一神經元 ... 22 圖九、 遞歸神經網路架構圖(Jordan network) ... 25 圖十、 遞歸神經網路架構圖(Elman network) ... 26 圖十一、 標準的Elman network 內部結構 ... 27 圖十二、 長短期記憶內部結構 ... 28 圖十三、 實驗模型架構 ... 30 圖十四、 成交價第一次變動累積次數之直方圖 ... 31 圖十五、 成交價第一次變動累積次數之直方圖 ... 32 圖十六、 時間驗證法圖示 ... 34 圖十七、 聯電在O1至O10的預測結果... 38 圖十八、 鴻海在O1至O10的預測結果... 38 圖十九、 台積電在O1至O10的預測結果 ... 39 圖二十、 友達在O1至O10的預測結果... 39 圖二十一、 群創在O1至O10的預測結果... 40 圖二十二、 富邦金在O1至O10的預測結果 ... 40 圖二十三、 國泰金在O1至O10的預測結果 ... 41 圖二十四、 玉山金在O1至O10的預測結果 ... 41

(10)

IX

圖二十五、 第一金在O1至O10的預測結果 ... 42

圖二十六、 兆豐金在O1至O10的預測結果 ... 42

圖二十七、 兩種模型使用十家公司在O1至O10於訓練期之平均值 ... 45

(11)

X

表目錄

表一、 最大成交量範例(第 T-1 盤) ... 8 表二、 集合競價撮合結果範例(第 T 盤) ... 9 表三、 成交價同最佳買一價格之下一盤漲跌變化 ... 10 表四、 成交價同最佳賣一價格之下一盤漲跌變化 ... 11 表五、 兩種預測模型(Model 1、Model 2)的輸出 ... 18 表六、 兩種預測模型(Model 1、Model 2)的輸出 ... 19 表七、 台灣上市公司個股研究對象 ... 33 表八、 預測結果分類 ... 35 表九、 兩種模型在O1至O10所進行訓練之平均值、標準差及勝率佔比... 43 表十、 兩種模型在O1至O10所進行測試之平均值、標準差及勝率佔比... 44

(12)

1

1. 導論

1.1 研究背景

近年來,隨著硬體運算能力的提升,機器學習(Machine Learning, ML)於科技 上的應用越發普及,且此類的技術應用在金融市場的預測模型及相關技術也越來 越多,例如「演算法交易」、「高頻交易」…等,而這些技術在國外相當地盛行, 有專家估計在美國的股票交易市場中超過一半的交易都由機器交易員達成。其中 一個原因是國際股票市場主要使用的交易機制為「逐筆交易」,而這項交易機制 也將為未來2020 年台灣證券交易所採用[1]。台灣目前集合競價的撮合頻率雖然 已從 2013 年的每 20 秒縮減至現在的 5 秒[2],但相較於國外隨到隨撮的技術, 仍有一段距離。 為了與國際股票市場接軌,掌握由逐筆交易機制衍生出「高頻交易」的技術 勢必非常重要,因為以人工觀察近期交易的揭露資訊,計算出目前局勢,再至下 單時,其作業加上延遲時間可能早已使獲利時間消失,且如果沒有良好的預測模 型,投資的風險將可能很大,例如:在2018 年 2 月初美國股票市場「閃崩」蒸 發了上兆美元市值,隔日台灣的股票市場下跌了 80 多億美元。股票市場的崩潰 不論對個人或機構投資者都是一個非常重大的問題,所以建立良好的預測模型尤 為重要。

1.2 研究目的

在本研究中我們將建構一個使用成交價與最佳五檔買賣價格資訊的股價趨 勢預測模型。我們主要使用基於神經網路(Neural Network) [3]的方法,透過遞歸 神經網路(Recurrent Neural Network, RNN)的長短期記憶架構以建構此預測模型 (即 Long Short-Term Memory Neural Network, LSTM),並根據 Huang and Li [4]及

(13)

2 詹場、胡星陽等人[5]所提及的預測法則—成交價與最佳買賣價相同之實務上常 用的預測法則作為比較基準,來建構出可於高速交易環境下進行預測未來股價趨 勢的預測模型,我們將會擴展該方法且逐步驗證是否我們的模型可進一步提高其 預測能力。

1.3 研究架構圖

本文的研究架構圖如圖一所示,資料源自於台灣股票市場即時揭露資訊,其 中包含各股的成交價、最佳一檔買賣價格、最佳五檔委託量。藉由成交價與最佳 買賣價相同的法則與量價關係,並結合長短期記憶神經網路建立出於高頻環境下 的預測股價上漲或下跌的預測模型。 圖一、 研究架構圖

價量關係

成交價

最佳五檔委託量

最佳買一、 賣一

價格

程式交易

神經網路

高頻交易

適應性函數

Precision

結果

預測能力

(14)

3

2. 文獻探討

本章節分為三個小節,是依據本研究所需之領域進行探討,第一小節將探討 高頻交易領域的相關文獻,以了解其特性及應用,接著再介紹由Huang and Li [4] 的研究中提及價格變化的一些特殊現象,成交價格與最接近成交價格的委託買賣 價之間的關係。第二小節將探討股票的價量關係,透過觀察目前已知的文獻,多 數皆認為台灣股票市場的成交價漲跌與委託簿中的委託量增減有著明顯的相關 性。最後一小節將探討神經網路應用於股價預測或與金融相關之案例,其研究結 果顯示使用神經網路做為預測模型能增強預測能力或增加投資組合的報酬率。

2.1 高頻交易相關文獻

本小節我們先探討高頻交易領域的相關文獻,Zhang [6]指出高頻交易的特 性—具有自動化交易策略,且交易量非常高、持有期為當日以內的特質。研究發 現當高頻交易在市場中的占比增加時,股票價格的波動性也隨之增加,且對於市 場基本面的反應也越加強烈。Goldstein et al. [7]觀察自動化快速交易的演變,起 初電子化交易於90 年代開始發展,2000 年時高頻交易佔美國股票市場的總交易 量不到10%,但於 2012 年時約佔了 50%的總交易量,期間的交易速度也從幾秒 內降為毫秒甚至微秒,且有證據顯示高頻交易將擴展到非股票市場。 在美國的股票市場中,Brogaard [8]發現高頻交易改變了市場的運作方式, 進行交易時將不再由人類所主導,而是以有投資策略為背景的演算法透過電腦進 行下單快速買賣股票,交易時間僅僅幾毫秒至幾秒內,且 26 間操作高頻交易的 機構每年的利潤約為 30 億美元。除此之外,研究也指出高頻交易會增加交易市

場的流動性,例如:Frino et al. [9]使用澳洲證券交易所(ASX)的交易數據,該資 料分類出程式交易、高頻交易及一般交易,發現市場的交易量及交易次數將隨高 頻交易的發展程度而提升,且高頻交易者偏好交易量高、市值較大、股價波動性

(15)

4 高及近日所有交易中高頻交易占比較高的股票;但是若當日交易市場股價波動幅 度過大且交易總額過高時將停止進場交易。 另外,在高頻交易的情形下,買賣價格與成交量之間的互相影響非常顯著。 在Huang and Li [4]的研究中提及了價格變化的一些特殊現象,可應用於建構股 票 價 格 未 來 趨 勢 的 預 測 模 型 。 該 研 究 所 使 用 的 資 料 範 圍 為 台 灣 股 票 市 場 2015/09/15 至 2016/01/21,頻率為每 5 秒揭露一次的即時數據,且利用遺傳演算 法(genetic algorithm, GA)和財務預測方法來建立高頻交易上股票的價格預測模 型。其結果顯示利用遺傳演算法所建構的預測模型比線性迴歸(linear regression) 或邏輯迴歸(Logistic Regression)的預測方法具有更好的預測表現,從而建立了將 遺傳演算法應用於台灣股市高頻交易的創新研究。

2.2 股票價量關係

因本實驗涉及在微觀架構下股票市場中的量價關係,為此本小節將探討股票 價量關係的相關文獻: Karpoff [10]研究了各種關於價量關係的文獻,並提出了幾個重要的結論:(1) 金融市場的結構可以藉由價量關係來了解;(2)使用價量的資料來推導該事件的 研究結果時,價量關係往往成為重要的關鍵;(3)理解價量之間的關係對於金融 市場方面的研究有明顯的幫助;(4)價量關係在交易市場的價格決定上具有一定 的關鍵性。另外,Ying [11]使用變異數分析及交叉光譜分析來研究價格和成交量 之間的關係,以標準普爾500 指數(S&P 500)與紐約證券交易所(NYSE)的資料為 實驗數據,範圍為1957/01 至 1962/10 之間。其中發現:(1)成交量上升時,股價 上漲;(2)成交量激增後,價格隨之上漲;(3)成交量持續增加時,價格將連續數 日上漲;(4)成交量減少時,股價下跌;(5)成交量持續減少時,價格將連續數日 下跌。由以上結論,我們可以發現價格和成交量之間有明顯相關。

(16)

5

Stickel and Verrecchia [12]對華爾街裡所謂的基本常識「成交量為股票價格的

燃料」一句進行分析,使用了1982 至 1990 年期間那斯達克全國市場系統(National

Market System, NMS)及 1986 至 1990 年紐約證券交易所公開資料中的成交量和成 交價,經研究發現當價格明顯上漲伴隨著大量的成交量時,隔日的價格也將再次 上漲。另一方面,Lee and Rui [13]觀察了美國、日本及倫敦三個區域的股票市場 交易數據,檢驗國內外交易量、收益率和價格波動率之間的因果關係,發現在動 態的預測環境下交易量與預測價格、預測報酬率有很大的關聯性,尤其美國身為 世界上最大的金融交易市場,其交易量及價格波動率的資訊足以影響日本、英國 的金融市場。綜合以上,我們可以發現透過研究股票價格及成交量的變化,將可 更了解股票市場。

2.3 神經網路及其應用之相關文獻

機器學習為使電腦透過大量的資料結合統計學、機率論等方法來自動分析, 找出其規律以解決自然界的問題,其應用範圍包含電腦視覺(computer vision)、 自然語言處理(natural language processing, NLP)、醫療診斷、證券市場分析、手 寫辨識等。本研究使用的神經網路(Neural Network, NN)為機器學習的一個分支, 是一種數學模型,其靈感來自人類大腦中生物神經網路之間傳遞或處理訊息的方 法。神經網路在語音辨識[14,15]、電腦視覺[16]、文本分析[17,18]等領域有許多 突破性的發展,引發不少的研究浪潮[19,20],下面將介紹神經網路應用於金融相 關領域的研究。 Kryzanowski et al. [21]使用各公司的年度財務報表、股本回報率等數據作為 分析基準,透過神經網路預測其股票一年後的投資報酬率為正或負。其中,以 149 家公司作為測試,正與負的加總整體來到 66.4%的準確率;在早些時間,多 數的神經網路模型用於預測每月或每年的未來走勢,因此Chen et al. [22]提出了

(17)

6 一種用於預測高頻數據的新型雙層神經網路模型,結合動態分析不同股票,過濾 出數據間的重要資訊,且探索特定技術指標的動量信號,使用標準普爾500 指數 的前100 大作為實驗數據,其預測準確率優於其他四種比較模型,為此啟發了我 們使用神經網路應用於高頻交易環境的想法。 除了使用一般的神經網路之外,另外還有不少的研究嘗試使用不同的神經網 路架構應用於金融領域,例如:在Hsieh et al. [23]的研究中使用小波轉換(wavelet transform)作為輸入數據的前處理,透過遞歸神經網路(Recurrent Neural Network, RNN),不同於一般的神經網路,可處理時間序列上的前後關係,且結合人工蜂 群演算法(artificial bee colony algorithm)最佳化該網路,為此提供了一個預測股票 價格的整合系統,於道瓊工業平均指數(DJIA)、富時 100 指數(FTSE)、日經平均 指數(Nikkei 225)及台灣證券交易所加權股價指數(TAIEX)上皆有不錯的預測結 果。Tenti [24]也使用遞歸神經網絡來預測外匯匯率,且提及在時間序列應用上該 網路架構優於多層感知器(Multilayer Perceptron, MLP)的預測效果,經實驗結果顯 示遞歸神經網路用於預測金融相關領域是有效的。 而遞歸神經網路後續也發展出了新型的架構—長短期記憶,Fischer and Krauss [25]使用此種長短期記憶神經網路模型來預測標準普爾 500 指數介於 1992 年至2015 年的未來趨勢,其每日報酬率及預測準確率皆優於深度神經網路(Deep

Neural Network, DNN)及邏輯迴歸分類器(Logistic Regression Classifier)。Chen et al. [26]使用為期固定天數的成交量(volume)、最高價(high)、最低價(low)、開盤 價(open)和市場指數等中國股票市場交易資料作為實驗數據,透過長短期記憶神

經網路模型預測投資個股的收益率,相較於隨機預測法,預測準確率從14.3%提

(18)

7

3. 研究方法

本章節分為四個小節,首先第一小節介紹台灣股市的集合競價交易機制,第 二小節介紹成交價與最佳買賣價之法則,第三個小節將介紹部分神經網路架構, 將由基本的神經網路架構延伸至本實驗所採用的長短期記憶模型之架構,最後一 個小節介紹實驗所使用之網路架構及參數。

3.1 台灣股市交易機制

台灣證券交易所採電腦自動交易,其撮合方式為集合競價機制,是以一次可 滿足最大成交量為原則[2],且價格皆為當日漲跌停限定範圍內並依照當時買賣 價、買賣量情形產生。 為了提升交易效能且與國際制度接軌,股市盤中集合競價頻率於 2013 年 7 月1 日盤中集合競價撮合秒數由 20 秒縮短至 15 秒,2014 年 2 月 24 日由 15 秒 縮短至10 秒,2014 年 12 月 29 日縮短至 5 秒,直至至今扔採用以每 5 秒的頻率 進行集合競價之撮合方式。

3.1.1 集合競價交易範例

台灣股市的交易方式為集合競價,現行對外揭示最近一盤撮合後最佳五檔未 成交買賣價量資訊之間隔時間為5 秒。下一盤撮合將所有未成交買進及賣出之委 託,依價格優先與時間優先原則成交。集合競價之成交價格決定原則如下[2]: (一) 滿足最大成交量成交,高於決定價格之買進申報與低於決定價格之賣出 申報須全部滿足。 (二) 決定價格之買進申報與賣出申報至少一方須全部滿足。

(19)

8 (三) 合乎前二款原則之價位有二個以上時,採用接近當市最近一次成交價格 之價位,如當市尚無成交價格者,採用接近當市開盤競價基準之價位。 集合競價之撮合過程將以第T-1 盤開始,代表為上一次的交易盤,第 T 盤為 當次的交易盤,即時揭露資訊為撮合完成後公布委託簿中最接近成交價的未成交 五檔委託買單的價量及五檔委託賣單的價量,如表一所示: 表一、 最大成交量範例(第 T-1 盤) 累計買方張數 買方張數 價格 賣方張數 累計賣方張數 150 150 105.00 94 312 150 104.50 25 218 170 20 104.00 10 193 200 30 103.50 15 183 200 103.00 47 168 245 45 102.50 55 121 245 102.00 20 66 272 27 101.50 11 46 272 101.00 5 35 373 101 100.50 30 373 100.00 30 391 18 99.50 30 395 4 99.00 30 420 25 98.50 30 30 若成交價為105.0 元,雙方能滿足的最大成交量為 150 張。若成交價 104.0 元,

(20)

9 雙方能滿足的最大成交量為170 張。若成交價為 103.5 元,則雙方能滿足的最大 成交量為183 張。因之後雙方能滿足的最大成交量不會再超過 183 張,故此盤的 撮合以103.5 元作為成交價,買價高於 103.5 元以及賣價低於 103.5 元的委託單 將全數成交。其中,價格剛好等於103.5 元的委託單中,賣方累積為 183 張、買 方為30 張,將依照時間優先原則,因此會有下單時間最晚的 17 張委託單無法成 交,撮合後的結果以表二做表示。 表二、 集合競價撮合結果範例(第 T 盤) 累計買方張數 買方張數 價格 賣方張數 累計賣方張數 105.00 94 129 104.50 25 35 104.00 10 10 17 17 103.50 17 103.00 62 45 102.50 62 102.00 89 27 101.50 89 101.00 190 101 100.50 190 100.00 208 18 99.50 212 4 99.00 237 25 98.50

(21)

10

3.2 股價預測法則

依據台灣股市的交易規範,每盤所揭露的即時資訊僅包含成交價、成交量與 委託簿上的最佳五檔買賣單的價格與委託量,造成投資人交易模型能參考的資訊 十分有限,為此本實驗將探討以這些資訊建構我們的神經網路預測模型,並以一 個實務界常用的預測規則[4,5]作比較,以下介紹相關法則及神經網路模型。

3.2.1 成交價與最佳買價及最佳賣價之法則

在詹場、胡星陽等人[5]的研究中使用的預測法則可以如下範例說明:當 T 盤成交價等於揭示最佳買一價且買價與賣價都揭示的情況下,T+1 盤成交價上漲 機率為32%,成交價下跌機率為 0.3%;然而當 T 盤成交價等於揭示最佳賣一價 且買價與賣價都揭示的情況下,T+1 盤成交價下跌機率為 42%,成交價上漲機率 為0.2%,故此法則對於價格漲跌預測有明顯相關,於本實驗中定義為 Rule 1 (R1)。 我們將此預測法則套用至本研究的實驗數據其結果如表三及表四所示: 表三、 成交價同最佳買一價格之下一盤漲跌變化 證券名稱 上漲機率 下跌機率 上漲盤數 下跌盤數 價平盤數 聯電 22.1% 0.13% 16695 103 58623 鴻海 27.2% 0.42% 20344 321 54102 台積電 28.6% 0.11% 20330 80 50574 友達 23.5% 1% 17761 805 56922 群創 22.1% 0.5% 16849 441 58698 富邦金 23.9% 0.8% 17696 595 55466 國泰金 25.6% 0.8% 17607 552 50508

(22)

11 玉山金 20.4% 0.13% 14382 98 55927 第一金 16.7% 0.07% 13702 62 67904 兆豐金 18.7% 0.24% 15418 201 66589 表四、 成交價同最佳賣一價格之下一盤漲跌變化 證券名稱 下跌機率 上漲機率 下跌盤數 上漲盤數 價平盤數 聯電 24% 0.1% 16679 74 52683 鴻海 29.3% 0.31% 20369 217 48751 台積電 27.4% 0.09% 20347 70 53662 友達 26.5% 1.02% 17730 686 48379 群創 25.2% 0.56% 16870 380 49602 富邦金 25.2% 0.56% 17675 391 51796 國泰金 23.9% 0.7% 17799 525 55958 玉山金 19.5% 0.14% 14462 104 59382 第一金 21.5% 0.05% 13678 37 49726 兆豐金 24.4% 0.1% 15288 63 47215 本研究將該盤符合成交價等於揭示最佳買一價的戳記設為 1 來作為模型的 輸入;該盤符合成交價等於揭示最佳賣一價設為 0.5;若該盤的成交價既不等於 揭示最佳買一價,也不等於揭示最佳賣一價,則將此設為0,意即毫無關聯。

3.2.2 最佳五檔委託量權重法則

Huang and Li [4]運用了台灣股市的公開揭露資訊中最佳買賣五檔之委託量 作為買賣雙方拉扯力道的基礎,並假設最佳買賣一檔至五檔的個別影響力道皆不

(23)

12 相同,透過遺傳演算法演化並給予個別的檔位之委託量對應的權重,以計算出買 賣雙方對於股票市場的影響力。我們可以藉由此權重法則觀察出最佳五檔委託量 對於預測上有一定的幫助,於是我們加入了最佳五檔委託量作為本實驗神經網路 預測模型的輸入。

3.3 神經網路

人工神經網路(Artificial Neural Network, ANN),簡稱神經網路,為一種模仿 生物神經網路結構和功能的數學模型。神經網路的基本單元為神經元(neuron), 或稱為節點(node),會接受來自其他神經元的輸出或外部的輸入合併計算經過非 線性函數(non-linear function)並輸出,如圖二及公式 1。 圖二、 單一神經元 𝑂 = 𝑓(∑𝑛 𝑥𝑖𝑤𝑖+ 𝑏 𝑖=1 ), (1) 其中𝑂為輸出,𝑓為激勵函數(activation function),𝑥為輸入,𝑤為權重(weight), 𝑏為偏值(bias)。每個輸入節點皆對應一個權重,計算上會將輸入和其權重相乘

𝑥

1

𝜔

1

𝑥

2

𝜔

2

𝑠𝑢𝑚

𝑓

𝑂

𝑥

𝑛

𝜔

𝑛

𝑏𝑖𝑎𝑠

(24)

13

後做總和再加上一個偏值,經過激勵函數獲得輸出。加入偏值的目的為使激勵 函數的擬合性更加靈活。

神經網路的基本架構[3]分別為:輸入層(input layer)、隱藏層(hidden layer)、 輸出層(output layer),如圖三所示。 圖三、 神經網路基本架構 ⚫ 輸入層(input layer):將外部的值引入神經網路,此層的內部節點不進行計算, 會將輸入層節點的值傳遞給隱藏層。 ⚫ 隱藏層(hidden layer):此層不與外部直接聯繫,負責將輸入層節點的值計算 後傳輸至輸出層,神經網路可以有零或多個隱藏層。 ⚫ 輸出層(output layer):接收來自隱藏層節點的值,經計算後傳輸至外部。 神經網路訓練終止條件是否滿足可透過以下兩種方法來判斷: (一) 制定世代(epoch)終止條件:設定系統訓練至特定世代便停止訓練。 (二) 判斷是否收斂:設定損失函數(loss function)收斂值門檻,一旦小於門檻範圍 即停止訓練。 輸入層 隱藏層 輸出層

(25)

14

圖四、 神經網路訓練流程圖

3.3.1 激勵函數

相對於線性(linear)激勵函數,文獻顯示採用非線性函數可以使得神經網路的 效能更為強大[3]。以下為本實驗所用之非線性函數:

⚫ S 函數(sigmoid function):為邏輯函數(logistic function)的一種,該函數會使

得輸出介於1 和 0 之間,如公式 2 所示。

𝑓(𝑥) = 𝜎(𝑥) =

1 1+𝑒−𝑥 . (2) 輸出層輸出結果 損失函數計算 更新權重及偏值 模型訓練完成 檢查世代條 件是否滿足 世代進度+1 反向傳播 否 是

(26)

15 圖五、 S 函數範圍 ⚫ 雙曲正切函數(tanh function):該函數會使得輸出介於 -1 和 1 之間,如公式 3 所示。

𝑓(𝑥) = 𝑡𝑎𝑛ℎ(𝑥) =

(𝑒𝑥−𝑒−𝑥) (𝑒𝑥+𝑒−𝑥) . (3)

(27)

16 圖六、 雙曲正切函數範圍 ⚫ 歸一化指數函數(softmax function):為邏輯函數的一種擴展,該函數應用於 機率論及其相關領域中,適用於多種分類,會使得個別輸出介於0 和 1 之間 且輸出總和為1。例如:假設要辨識手寫字母 A~Z,輸入一張手寫的字母影 像再經由該函數,最終將得到該影像屬於 A~Z 的個別機率,且個別機率的 總和為1,如公式 4 [3]所示。

𝑓(𝑥)

𝑖

= 𝜎(𝑥)

𝑖

=

𝑒𝑥𝑖 𝑒𝑥𝑐 𝑛 𝑐=1

, 𝑓𝑜𝑟 𝑖 = 1, … , 𝑛,

(4) 其中𝑛為類別總數。

(28)

17

3.3.2 損失函數(loss function)

損失函數為預測模型上的目標輸出與模型輸出的差值,也是衡量預測模型在 預測結果方面表現有多好的指標之一,最小化損失函數的方法為梯度下降法。計 算損失函數常用的方法為:

⚫ 用於迴歸(regression)的均方誤差(mean-square error, MSE):即目標輸出與模 型輸出之間差異的平均平方值。而進行誤差計算時需要平方或取絕對值的原 因:假設今有兩筆資料的目標輸出分別為𝑦1= 54 和𝑦2= -48,且預測模型輸 出為𝑦1𝑝= 4 和𝑦2𝑝= 2,則兩筆資料的差值為𝑙𝑜𝑠𝑠1= 𝑦1-𝑦1𝑝= 50 及𝑙𝑜𝑠𝑠2= 𝑦2-𝑦2𝑝= -50,兩者差值相加作平均為𝑙𝑜𝑠𝑠1+𝑙𝑜𝑠𝑠2 2 = 0,誤差結果雖然為 0,但事實上 此模型並非完美預測。

𝑀𝑆𝐸 =

∑ (𝑦𝑖−𝑦𝑖 𝑝 )2 𝑛 𝑖=1 𝑛

,

(5) 其中𝑦𝑖為目標輸出,𝑦𝑖𝑝為模型輸出,𝑛為資料總筆數。

⚫ 用於分類(classification)的交叉熵(cross entropy) [27]:熵(entropy)為接收的所 有的訊息中所包含的資訊量,可理解為量測資料的不正確性,當較不可能發 生的事情發生時,就會帶來較多的資訊。例如:一個兩面皆相同的硬幣,怎 麼擲的結果都為正面,則該事件就很穩定,熵即為0。 𝑐𝑟𝑜𝑠𝑠 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 = − ∑ ∑𝑘 𝑦𝑖𝑗𝑙𝑜𝑔𝑒(𝑦𝑖𝑗𝑝) 𝑗=1 𝑛 𝑖=1 , (6) 其中 n 為類別數,k 為所有的資料筆數,𝑦𝑖𝑗為目標輸出轉換成 one-hot encode(如:2 轉換為 010)的對應二元指標(binary indicator, 0 or 1),𝑦𝑖𝑗𝑝為模型

(29)

18 預測出第j 筆資料屬於第 i 類的機率。

使用cross entropy 作為模型的損失函數,如表五所示,假設有兩預測模

型(Model 1 和 Model 2),資料總筆數為 4 筆(item 1 ~ item 4),總類別數為 3 (A、 B、C),另外為了方便計算此處的 log 皆以 2 為底,在 Model 1 中:A 的 cross entropy = −(1 × log(0.45) + 0 × log(0.3) + 0 × log(0.6) + 1 × log (0.55)) = 2.014,B 的 cross entropy = 1,C 的 cross entropy = 2.736,所以 Model 1 的整 體cross entropy 即為三個類別的總和 5.75;在 Model 2 中:A 的 cross entropy = 0.395,B 的 cross entropy = 0.415,C 的 cross entropy =1.152,Model 2 的整 體cross entropy 則為 1.962。由上述計算結果可知,Model 2 的 cross entropy

小於Model 1,也代表著 Model 2 的模型預測表現較優。 表五、 兩種預測模型(Model 1、Model 2)的輸出 Model 1 (output) 個別機率輸出 one-hot encode Label A B C A B C item 1 A 0.45 0.35 0.2 1 0 0 item 2 B 0.3 0.5 0.2 0 1 0 item 3 C 0.6 0.15 0.15 0 0 1 item 4 A 0.55 0.15 0.3 1 0 0 Model 2 (output) 個別機率輸出 one-hot encode Label A B C A B C item 1 A 0.8 0.1 0.1 1 0 0 item 2 B 0.2 0.75 0.5 0 1 0 item 3 C 0.45 0.35 0.2 0 0 1

(30)

19 item 4 A 0.95 0.05 0 1 0 0 不採用一般的分類錯誤率(classification error)來作為作為損失函數的原 因:如表六所示,雖然Model 1 和 Model 2 的錯誤率一樣皆為 25%,但是從 模型的個別機率輸出可觀察出Model 2 的機率輸出是優於 Model 1 的,所以 單純只看分類錯誤率較不容易分辨出模型的好壞差異,且於訓練模型時較無 法往正確的學習方向前進。 表六、 兩種預測模型(Model 1、Model 2)的輸出

Model 1 (output) Model 2 (output)

個別機率輸出

預測

個別機率輸出

預測

Label A B C A B C

item 1 A 0.45 0.35 0.2 A(O) 0.8 0.1 0.1 A(O)

item 2 B 0.3 0.5 0.2 B(O) 0.2 0.75 0.5 B(O)

item 3 C 0.6 0.15 0.15 A(X) 0.45 0.35 0.2 A(X)

item 4 A 0.55 0.15 0.3 A(O) 0.95 0.05 0 A(O)

3.3.3 梯度下降法(Gradient Descent, GD)

為最佳化演算法的其中一種方法,目的為求出一個函數的局部極小值(local minimum)。作法為向函數上當前點之對應梯度的相反方向進行迭代搜索,一般 的梯度下降法公式為: 𝜃𝑡+1← 𝜃𝑡− 𝜂𝜕𝐿(𝜃𝑡) 𝜕𝜃 , (7)

(31)

20 利用偏微分的方法找出函數的梯度,𝜃為參數, 𝜂為學習率(Learning rate),𝜕𝐿(𝜃 𝑡) 𝜕𝜃 為迭代次數𝑡的損失函數對參數𝜃的偏微分。 以對權重做梯度下降為例,則公式為:

𝑤

𝑡+1

← 𝑤

𝑡

− 𝜂

𝜕𝐿(𝜃𝑡) 𝜕𝑤

,

(8) 其中𝑤為權重, 𝜂為學習率,𝜕𝐿(𝜃t) 𝜕𝑤 為迭代次數𝑡的損失函數對權重𝑤的偏微分。

而梯度下降法的後續擴展—隨機梯度下降法(stochastic gradient descent,SGD) 加 上 動 量(momentum) , 合 併 簡 稱 SGDM , 為 本 文 使 用 之 梯 度 下 降 優 化 器 (optimizer),其公式[28]為:

𝜃

𝑡+1

← 𝜃

𝑡

− 𝜂

𝜕𝐿(𝜃𝑡) 𝜕𝜃

+ 𝛾(𝜃

𝑡

− 𝜃

𝑡−1

) ,

(9) 其中𝜃為參數,𝜂為學習率,𝜕𝐿(𝜃 𝑡) 𝜕𝜃 為迭代次數𝑡的損失函數對參數𝜃的偏微分。𝛾可 視為阻力,通常設為 0.9。(𝜃𝑡− 𝜃𝑡−1)為動量的部分,計算當前與上一次的參數 梯度的更新方向,若此次的梯度方向與上次的梯度方向相同,則動能將越來越大, 參數更新的速度會越來越快;相反,若方向相反,則表示梯度變小。 SGDM 在訓練時挑選固定數量的小批量(mini-batch)數據集後,輸入神經網 路,取得該批小批量訓練集的誤差後,就進行梯度更新整個神經網路的權重及偏 值一次,優點為在訓練時佔用較少的硬體資源,且數據集中通常有部分冗餘的數

(32)

21 據,有避開雜訊的優勢[29]。如果一次以全部的數據集丟入神經網路訓練,才更 新一次偏值及權重,除了訓練時梯度下降的收斂速度較慢,也可能導致神經網路 在參數更新時往不正確的地方靠攏。而添加動量的目的為考慮每一次的梯度方向, 抑制梯度下降時的震盪,以增加學習的穩定性[28]。

3.3.4 反向傳播法(Backpropagation, BP)

在訓練神經網路的過程中,由於有非常多的參數需要進行梯度下降,於是發 明出反向傳播法來結合最佳化演算法一起使用,目的為使梯度下降法有效率地更 新每個輸入向量的權重及偏值。反向傳播法[30]的主要概念為使用連鎖法則 (chain rule)結合梯度下降法對損失函數求偏導數。

反向傳播法過程分為forward pass 和 backward pass,將誤差對輸出層參數的 偏微分求出後,即可逐步反向計算至最前面的隱藏層求得誤差對整體參數的偏微 分。假設有一神經網路 A,如圖七,輸入為 𝑥1、𝑥2,每個神經元連接之間皆有 對應的權重𝑤,𝑏為偏值,𝑓為激勵函數,𝑂𝑖、𝑂𝑗為輸出層的輸出。 圖七、 神經網路A 此神經網路A 的整體誤差(total loss)為: 𝐿(𝜃) = ∑𝑛 𝐶𝑘(𝜃) 𝑘=1 , (10) 𝑥1 𝑥2 𝑂𝑖 𝑂𝑗 𝑓 𝑓 𝑓 𝑓 𝑓 𝑓 𝑏 𝑏 𝑏 𝑏 𝑏 𝑏

(33)

22 其中𝜃為參數,𝐶𝑘為第𝑘筆資料進入神經網路後輸出得到的誤差。 接著整體誤差對權重的偏微分為: 𝜕𝐿(𝜃) 𝜕𝑤

= ∑

𝜕𝐶𝑘(𝜃) 𝜕𝑤 𝑛 𝑘=1

.

(11) 以考慮神經網路A 中第一個隱藏層內上方的神經元為例,如圖八、公式 12 所示: 圖八、 神經網路A 內部其一神經元 𝑦1 = 𝑥1𝑤1+ 𝑥2𝑤2+ 𝑏. (12) 利用連鎖法則,求出誤差(𝐶)對權重的偏微分: 𝜕𝐶 𝜕𝑤

=

𝜕𝑦 𝜕𝑤 𝜕𝐶 𝜕𝑦

,

(13) 我們將計算 𝜕𝑦 𝜕𝑤 這部分稱為forward pass,後面的 𝜕𝐶 𝜕𝑦 則為 backward pass。 𝑥1 𝑥2 𝑓 𝑏 𝑥1 𝑥2 𝑓 𝑏 + 𝑤2 𝑤1 𝑦1 + 𝑏 𝑦2 𝑓

(34)

23 而 𝜕𝑦1 𝜕𝑤1

= 𝑥

1 ,𝜕𝑦1 𝜕𝑤2

= 𝑥

2 。 Backward pass 的部分,假設激勵函數𝑓為 S 函數(σ),則σ(𝑦1) = 𝑧1,σ(𝑦2) = 𝑧2, 而𝑧1和𝑧2會作為第二個隱藏層的輸入乘上其對應權重(𝑤3、𝑤4)加上偏值變成𝑦3。 此時,𝜕𝐶 𝜕𝑦可以拆解為: 𝜕𝐶 𝜕𝑦

=

𝜕𝑧 𝜕𝑦 𝜕𝐶 𝜕𝑧

,

(14) 其中𝜕𝑧 𝜕𝑦等於S 函數的微分,為σ ′(𝑦 1)。又𝑧1會影響後來的𝑦3,𝑦3會影響誤差,𝑧1也 會影響後面的𝑦4,𝑦4影響誤差,所以𝑧1透過𝑦3、𝑦4影響誤差。則: 𝜕𝐶 𝜕𝑧1

=

𝜕𝑦3 𝜕𝑧1 𝜕𝐶 𝜕𝑦3

+

𝜕𝑦4 𝜕𝑧1 𝜕𝐶 𝜕𝑦4

,

其中𝜕𝑦3 𝜕𝑧1 為𝑤3,𝜕𝑦4 𝜕𝑧1 為𝑤4。最後得出: 𝜕𝐶 𝜕𝑦1

= 𝜎

(𝑦

1

)[𝑤

3 𝜕𝐶 𝜕𝑦3

+ 𝑤

4 𝜕𝐶 𝜕𝑦4

] .

(15) 若此時𝑦3和𝑦4為輸出層經激勵函數成為神經網路的輸出(𝑂𝑖、𝑂𝑗),則: 𝜕𝐶 𝜕𝑦3

=

𝜕𝑂𝑖 𝜕𝑦3 𝜕𝐶 𝜕𝑂𝑖

,

𝜕𝐶 𝜕𝑦4

=

𝜕𝑂𝑗 𝜕𝑦4 𝜕𝐶 𝜕𝑂𝑗

,

(16)

(35)

24 因𝑂𝑖 = σ(𝑦3),𝑂𝑗 = σ(𝑦4),所以𝜕𝑂𝑖 𝜕𝑦3是S 函數的微分,為σ ′(𝑦 3)。 𝜕𝑂𝑗 𝜕𝑦4則為σ ′(𝑦 4)。 若此時𝑦3和𝑦4不為輸出層,則σ(𝑦3) = 𝑧3,σ(𝑦4) = 𝑧4。將繼續延伸公式15, 展開計算誤差(𝐶)對下一層參數的偏微分。

3.3.5 遞歸神經網絡

一般的神經網路為前饋式神經網路(Feedforward Neural Network),從輸入層 到最後的輸出層,只會單向向前傳遞至下一層,意即每次的輸入彼此獨立,互無 關係。由於文本分析、語音分析等應用上的資料皆為時間序列(time series)數據, 當次輸入和下一次輸入彼此間有時間點發生的前後關係,因此需要透過序列式的 輸入來訓練預測模型,遞歸神經網路不同於標準的前饋式神經網路,除了可接受 序列式的資料之外,也可保留近期隱藏層節點的輸出作為下一次隱藏層結點的額 外輸入,以對應時間上的前後連結關係[31]。 Tenti [24]於研究中提及多種不同架構的遞歸神經網路,如圖九、圖十,及其 公式17、公式 18。由公式可觀察出 Jordan network 的作法是將上一次輸出層的 輸出(𝑦𝑡−1)記憶起來作為此次隱藏層的另一端輸入;Elman network 則是將上次的 隱藏層輸出(ℎ𝑡−1)記憶起來作為此次隱藏層的另一端輸入。而在多數的應用上採

Elman network 的作法,其中包含 TensorFlow、PyTorch 等知名類神經網路開源軟 體庫。

(36)

25 ⚫ Jordan network 架構[24]: 圖九、 遞歸神經網路架構圖(Jordan network) ℎ𝑡= 𝜎ℎ(𝑊ℎ𝑥𝑡+ 𝑅ℎ𝑦𝑡−1+ 𝑏ℎ), 𝑦𝑡 = 𝜎𝑦(𝑊𝑦𝑡+ 𝑏𝑦), (17) 其中ℎ𝑡為當次(𝑡)的隱藏層輸出,𝑦𝑡為當次(𝑡)的輸出層輸出,𝑥𝑡為當次(𝑡)的輸入向 量,𝜎為激勵函數,𝑊、𝑅為對應之權重,𝑏為對應之偏值,𝑦𝑡−1為上一次(t-1)的 輸出層輸出。 輸入層 隱藏層 輸出層 遞歸層

(37)

26 ⚫ Elman network 架構[24]: 圖十、 遞歸神經網路架構圖(Elman network) ℎ𝑡 = 𝜎(𝑊𝑥𝑡+ 𝑅𝑡−1+ 𝑏), 𝑦𝑡 = 𝜎𝑦(𝑊𝑦𝑡+ 𝑏𝑦), (18) 其中ℎ𝑡為當次(𝑡)的隱藏層輸出,𝑦𝑡為當次(𝑡)的輸出層輸出,𝑥𝑡為當次(𝑡)的輸入向 量,𝜎為激勵函數,𝑊、𝑅為對應之權重,𝑏為對應之偏值,ℎ𝑡−1為上一次(𝑡-1)的 隱藏層輸出。 輸入層 隱藏層 輸出層 遞歸層

(38)

27

3.3.7 長短期記憶

長短期記憶神經網絡由Hochreiter and Schmidhuber [32]於 1997 年發表,為

遞歸神經網絡的一種擴展。由於Elman network 是透過遞迴連接近期的隱藏層輸 出來實現短期記憶(short-term memory),而時間序列的應用上往往需要長期依賴, 於是發展出透過緩慢的權重變化來實現長期記憶(long-term memory)的新型遞歸 神經網路。 長期記憶在許多應用上有潛在的重要意義,例如:語句分析、語音處理。長 短期記憶的特殊模型結構可克服反向傳播時誤差信號(error signals)傾向消失或 爆炸的問題,適合處理時間序列中間隔時間較長的資料。圖十一為標準的Elman network 內部結構,圖十二為長短期記憶之內部結構。 圖十一、標準的Elman network 內部結構 𝑡𝑎𝑛ℎ

𝑡−1

𝑥

𝑡

𝑡

𝑡

(39)

28 圖十二、長短期記憶內部結構 𝜎為 S 函數,𝑥為輸入,ℎ𝑡−1為上一次隱藏狀態,𝑊為與輸入對應的權重,𝑅為循 環間的權重,𝑏為偏值,初始的細胞狀態及隱藏狀態皆為 0。 遺忘閥(forget gate, 𝑓𝑡):決定舊的細胞狀態(𝐶𝑡−1)要遺忘多寡的程度。 𝑓𝑡 = 𝜎(𝑊𝑓𝑥𝑡+ 𝑅𝑓𝑡−1+ 𝑏𝑓). (19) 輸入閥(input gate, 𝑖𝑡):決定新的輸入可以更新細胞狀態(𝐶𝑡)多寡的程度。 𝑖𝑡= 𝜎(𝑊𝑖𝑥𝑡+ 𝑅𝑖𝑡−1 + 𝑏𝑖). (20)

細胞狀態(cell state, 𝐶𝑡):為長期記憶,分為兩部分,(I)新的輸入會先經過𝑡𝑎𝑛ℎ激

勵函數,加入暫存狀態(𝐶̅ )。(II)結合遺忘閥來遺忘過往所需要被丟棄的值,再結𝑡

(40)

29

𝐶̅ = 𝑡𝑎𝑛ℎ(𝑊𝑡 𝑐̅𝑥𝑡+ 𝑅𝑐̅𝑡−1+ 𝑏𝑐̅). (21) 𝐶𝑡= 𝑓𝑡∗ 𝐶𝑡−1+ 𝑖𝑡∗ 𝐶̅𝑡. (22)

輸出閥(output gate, 𝑂𝑡):決定新的細胞狀態(𝐶𝑡)是否可輸出成為新的隱藏狀態。

𝑂𝑡 = 𝜎(𝑊𝑜𝑥𝑡+ 𝑅𝑜𝑡−1+ 𝑏𝑜). (23)

隱藏狀態(hidden state, ℎ𝑡):為短期記憶,將輸出作為下一層隱藏層(hidden layer)

的輸入。

𝑡 = 𝑂𝑡∗ 𝑡𝑎𝑛ℎ(𝐶𝑡). (24)

3.4 實驗參數

本論文實驗使用的環境為 MATLAB 2018b,所使用之長短期記憶神經網路

架構如圖十三所示,訓練世代為400,batch size 為 10,學習率為 0.01,momentum 為0.9。

(41)

30 圖十三、實驗模型架構

3.4.1 時間步長(time step)

由於我們使用的資料為時間序列(time series)類型的數據,所以神經網路模型 使用了時間步長的參數,以時間步長為3 來舉例,輸入為第 x 筆資料,則數據輸 入模型時,是以第x 筆開始進入模型,經長短期記憶單元選擇記憶與否後再輸入x+1 筆,直至輸入至第 x+2 筆完,目的為藉由長短期記憶單元來達到儲存過往 的重要資訊。在本實驗中,我們將透過長短期記憶單元儲存過往的成交價等於最 佳買或賣一價、最佳五檔委託買賣量中的重要訊息,預測未來的股價趨勢。以台 積電為例,如圖十四,經統計可觀察出當盤(T)成交價於往後五盤(T+5)內價格第 一次發生變化的累積次數佔了全部的成交價於某下一盤產生變化的累積次數達 83.96%,意即在大部分的情形下,未來的五盤內,股價將會有所變動,也可藉由 此合理推敲出於五盤內的最佳買賣五檔委託量將有所變動,故將時間步長設置為 5。

LSTM Layer Sequence Input Layer Fullyconnect

Layer Output Layer

S of tm ax L ay er 11

100

3

3

(42)

31

圖十四、成交價第一次變動累積次數之直方圖

如圖十五,在鴻海精密的股票中成交價於往後五盤內價格第一次發生變化的

(43)

32 圖十五、成交價第一次變動累積次數之直方圖

4. 研究結果

本章節共分為六個小節,首先說明本實驗使用的資料來源及應用的時間範圍, 接著介紹本實驗所使用的時間驗證法(Temporal Validation, TV),以及本實驗的比 較基準與其預測模型,最後討論本文的實驗結果。

4.1 資料來源

本研究使用之資料源自台灣證券交易所,是以台灣上市公司的股票類股作為 研究對象,為了對比本研究與過去實驗結果之間的差異性,故沿用了Huang and Li [4]研究中作為實驗對象的五家公司,且這些公司為台灣證券交易所於民國 104

(44)

33 年9 月之成交量前 20 名的其中五支股票,同時為了進一步驗證本實驗預測模型 的有效性,額外加入了同為半導體及金融類股的五支股票作為實驗對象。 表七、 台灣上市公司個股研究對象 STOCK 證卷名稱 1 聯華電子 2 鴻海精密 3 台灣積體電路 4 友達光電 5 群創光電 6 富邦金 7 國泰金 8 玉山金 9 兆豐金 10 第一金

4.2 研究區間

為了與Huang and Li [4]比較實驗的效能差異,故採用同為「2015 年 9 月 22 日至 2015 年 11 月 10 日」以及「2015 年 12 月 10 日至 2016 年 1 月 19 日」 兩個區間共計 56 個交易日進行實驗。其中,第一個區間為大盤加權指數漲幅 達170 點;第二區間則為大盤加權指數跌幅達 360 點。交易日資料的時段區間 為上午九點至下午一點半,不含開盤前與收盤後的集合競價,平均一個週期有 140,000 筆 資 料 。 資 料 來 源 為 台 灣 證 券 交 易 所 的 基 本 市 況 報 導 網 站 (http://mis.twse.com.tw/stock/index.jsp),資料更新的頻率以 5 秒為一個週期。

(45)

34

4.3 時間驗證法(Temporal Validation, TV)

由 於 財 務 領 域 的 實 驗 數 據 具 有 時 間 特 性 , 不 同 於 一 般 的 交 叉 驗 證 (cross-validation),預測模型不能事先知道未來的測試數據,故當資料分為訓練期 (Training)和測試期(Testing)時,必須遵守訓練期資料的時間區間須早於測試期資 料,因此本研究採用了如圖十六所示的時間驗證法作為檢驗模型效能的方法。 於本研究的時間驗證法中,我們將以「日」為單位,將兩個區間的資料合計 分成52 個區間,例如,第一個 TV 的訓練期區間為第 1 日至第 2 日,測試期則 為第3 日;第 n 個 TV 的訓練期為第 n 日至第 n+1 日,測試期則為第 n+2 日。更 加詳細來說,當TV=1 時,使用 2015/9/22 至 2015/9/23 為期 2 日的個別日數歷史 資料作為訓練資料,經神經網路訓練出2 個預測模型(model A 和 model B),且以 2015/9/24 的資料作為測試資料,分別在 2 個預測模型上進行測試,再將其 2 個 測試結果以投票機制來進行預測,如model A 和 model B 同時預測出在時間 T 盤 的股價會上漲,則將測試結果認定為上漲,反之則否。TV=2 時,訓練資料範圍 為2015/9/23 至 2015/9/24,測試資料為 2015/9/25,依此類推。 TV\Day 2015/9/22 2015/9/23 2015/9/24 2015/9/25 … 2016/1/15 2016/1/18 2016/1/19 1 2 … … 51 52 圖十六、時間驗證法圖示 Training Testing Training Testing

(46)

35

4.4 效能指標

為了評估實驗模型的預測能力,因此本研究沿用Huang and Li [4]研究中使 用之效能指標—精確度(Precision),其公式如下:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =

𝑇𝑃 𝑇𝑃+𝐹𝑃

.

(25) 計算時僅將TP、FP 列入考量,意即以預測價格為上漲且實際價格真為上漲 作為分子,預測價格上漲為分母,能單純計算出正面預測的比率,該效能指標也 常用於工程學、統計學等領域。以下將詳細描述與本研究採用的方法的相關定 義:TP (true positive)、TN (true negative)、FP (false positive)、FN (false negative)。

⚫ TP:預測價格為上漲,且真實價格為上漲。 ⚫ FP:預測價格為上漲,但真實價格為未上漲。 ⚫ TN:預測價格為不上漲,且真實價格未上漲。 ⚫ FN:預測價格為不上漲,但真實價格卻上漲。 表八、 預測結果分類 實際結果(Actual outcome) False True 預測結果 (Predicted outcome)

False TN (true negative) FN (false negative) True FP (false positive) TP (true positive)

(47)

36 而Huang and Li [4]於研究中指出在台灣股市的高速交易環境中,股價出現 平盤的狀況很多,故本研究將價平的部分也視為預測失敗(FP)。

4.5 觀測方式與比較基準

在陳[33]的研究中,其觀測方法(Observation)為當盤價格產生之後的第一次 的價格變化時才計算precision (亦即平盤不列入計算),由於此法無法準確判斷出 於未來的幾盤內將發生價格變化,故本文將Huang and Li [4]實驗中觀測下一盤 變化擴展為觀測下一至十盤的價格,例如:設當盤為第一盤(T),O1即為觀測下 一盤(T+1)價格變化;O2即為觀測下下一盤(T+2)價格變化,依此類推。 本文以Huang and Li [4]研究中所使用的R1及最佳五檔委託量再結合長短期 記憶模型作為預測模型,將其定義為LSTM。

4.6 實驗結果

實驗結果為𝑅1預測模型與 LSTM 預測模型所進行的比較。首先我們將介紹 十家公司於訓練期及測試期分別的結果,圖例將呈現兩種預測模型在觀測方式一 (O1)至觀測方式十(O10)的勝率,藉此來凸顯 LSTM 的預測能力,最後將比較兩 種預測模型在十家公司於十種觀測方式的平均值及標準差。

4.6.1 兩種模型於十家公司分別在𝐎

𝟏

至𝐎

𝟏𝟎

的表現

圖十七的上半部為使用聯華電子的股票應用於兩種模型(R1、LSTM)在訓練 期的預測結果,我們可以看出於訓練階段,LSTM 在O1至O10的觀測方式下皆勝 過R1;圖十七的下半部為兩種模型的測試期預測效能,結果顯示,LSTM 在O1

(48)

37 O10的預測表現皆優於R1。 圖十八為使用鴻海精密工業的股票分別應用於R1與 LSTM 兩模型在訓練期 及測試期的預測結果,我們可以看出不論是訓練期或測試期,LSTM 的表現皆優 於R1。圖十九為使用台積電的實驗結果,圖二十為使用友達的實驗結果,圖二 十一為使用群創的實驗結果,圖二十二為使用富邦金的實驗結果,圖二十三為使 用國泰金的實驗結果,圖二十四為使用玉山金的實驗結果,圖二十五為使用第一 金的實驗結果,圖二十六則為使用兆豐金的實驗結果。 在圖十九、二十、二十一、二十二及二十三中實驗結果皆顯示不論是在訓練 期或測試期中,LSTM 的表現皆優於R1。至於使用玉山金融控股(圖二十四)及第 一金融控股(圖二十五)的股票雖然於測試期的其中三個觀測方式下 LSTM 沒有優 於R1,但是以整體十個觀測方式來說,還是略優於R1。 從這十張圖我們可以觀察出R1與 LSTM 的預測效能皆不高,其原因為股價 於下幾盤的平盤價格太多,但我們仍可以看到測試階段時LSTM 預測效能在O1至 O10間於大部分情形勝過了R1,代表LSTM 模型具有一定的潛力。

(49)

38

圖十七、聯電在O1至O10的預測結果

(50)

39

圖十九、台積電在O1至O10的預測結果

(51)

40

圖二十一、 群創在O1至O10的預測結果

(52)

41

圖二十三、 國泰金在O1至O10的預測結果

(53)

42

圖二十五、 第一金在O1至O10的預測結果

(54)

43

4.7.2

兩種模型的平均值、標準差及獲勝比率

在此小節中我們將前面兩種模型於O1至O10的實驗結果取平均值及標準差 後整理如下,為兩種模型分別在訓練期及測試期以 Precision 評估預測能力的統 計總表。在表九可以觀察到 LSTM 在訓練時期皆贏過R1。表十可觀察出於測試 階段,LSTM 在大部分的情形下贏過R1,表示我們提出的 LSTM 預測模型有效 改善了實務界常用的「成交價與最佳買價及最佳賣價之法則」的預測效能。 表九、 兩種模型在O1至O10所進行訓練之平均值、標準差及勝率佔比 𝐑𝟏 LSTM LSTM 勝過 𝐑𝟏比率 Mean Standard deviation Mean Standard deviation 聯電 0.3176 0.0379 0.5192 0.0531 100% 鴻海 0.3448 0.0277 0.627 0.0436 100% 台積電 0.3544 0.0258 0.5646 0.0424 100% 友達 0.3236 0.0347 0.62 0.0448 100% 群創 0.3094 0.0352 0.5431 0.0436 100% 富邦金 0.3196 0.0321 0.6488 0.0434 100% 國泰金 0.3472 0.0367 0.6606 0.041 100% 玉山金 0.339 0.0557 0.548 0.0788 100% 第一金 0.291 0.0515 0.399 0.0836 100% 兆豐金 0.2839 0.0396 0.5056 0.0526 100%

(55)

44 表十、 兩種模型在O1至O10所進行測試之平均值、標準差及勝率佔比 𝐑𝟏 LSTM LSTM 勝過 𝐑𝟏比率 Mean Standard deviation Mean Standard deviation 聯電 0.317 0.0391 0.3694 0.0542 100% 鴻海 0.3399 0.0276 0.3911 0.0223 100% 台積電 0.3553 0.0257 0.4163 0.0367 100% 友達 0.3238 0.0357 0.3639 0.0367 100% 群創 0.312 0.0373 0.3875 0.0432 100% 富邦金 0.313 0.032 0.3847 0.0288 100% 國泰金 0.3392 0.0379 0.4038 0.0151 100% 玉山金 0.3378 0.0554 0.3462 0.0472 70% 第一金 0.2935 0.0541 0.3041 0.0677 70% 兆豐金 0.2843 0.0395 0.3203 0.0393 100%

(56)

45

圖二十七、 兩種模型使用十家公司在O1至O10於訓練期之平均值

(57)

46

5. 結論

本論文提供了一個高速交易的預測系統的研究,實驗設計了一個藉由長短期 記憶的神經網路結合委託簿上買賣之最佳五檔委託量相關之資訊以建構出應用 於高頻交易資料的預測模型。為了測試其效能,我們使用與Huang and Li [4]同 時期的台灣股市資料,且從中挑選了兩個區間合計 56 個交易日的盤中即時揭露 的資訊,至於比較法則則是使用一個實務界常用的「成交價與最佳買價及最佳賣 價之法則」。另外,本研究以Huang and Li [4]所提出的第一種觀測方式(O1)為原 型另外定義了九種不同的觀測方式(O2、O3、O4、O5、O6、O7、O8、O9、O10)。 實驗方面,將此十種觀測方式套用在R1及 LSTM 預測模型中,由結果可以 發現 LSTM 預測模型在O1至O10的不同觀察方法下於大部分的情形下勝過了R1 的模型,為此我們可以發現LSTM 模型是具有潛力的。 我們可以藉由此實驗觀察出「成交價與最佳買價及最佳賣價之法則」及最佳 五檔委託量對於預測上來說是有幫助的,但於台灣的股市交易中平盤的次數還是 太多,影響了模型判斷漲跌的趨勢,所以我們希望未來可以加入更多的金融預測 法則及觀測方式,以更加嚴苛的條件來進行預測。至於實驗模型方面,我們未來 預期除了加入更多的輸入特徵,同時也會擴展此預測模型所使用之神經網路的深 度,來協助模型加強預測效能。又或者引入卷積神經網路(Convolutional Neural Network, CNN) [34]以辨識圖像的方式將股價走勢圖作為輸入,如:K 線、布林 通道等,經卷積神經網路輸出成為我們 LSTM 預測模型的輸入,透過不同類型 的神經網路各自對特徵的觀察與處理方式,可能可以發現不同的預測規則,以藉 此提升模型的預測效能。

(58)

47

6. 參考文獻

[1]. 台灣證券交易所,「逐筆交易制度介紹—制度介紹」,『盤中全面逐筆交易 專 區 』,2018 (http://www.twse.com.tw/zh/page/trading/information13.html) (2019/6/20)。 [2]. 蔡佩雯,「逐筆交易及縮短撮合循環秒數概述」,『證券暨期貨月刊』,第三 十二卷,第十二期,頁14-20,2013。

[3]. S. Haykin, Neural Networks: A Comprehensive Foundation. Upper Saddle River, NJ: Prentice Hall, 1994.

[4]. C.-F. Huang and H.-C. Li, “An evolutionary method for financial forecasting in microscopic high-speed trading environment,” Computational Intelligence

and Neuroscience, vol. 2017, pp. 1-18, 2017.

[5]. 詹場、胡星陽、陳建宏,「台灣證券市場揭示狀態之資訊含量」,『證券市

場發展季刊』,第十五卷,第四期,頁1-36,2003。

[6]. F. Zhang, “High-Frequency Trading, Stock Volatility, and Price Discovery,”

SSRN Electronic Journal, pp. 1-52, 2010.

[7]. M. A. Goldstein, P. K. Kumar and F. C. Graves, “Computerized and High-Frequency Trading,” The Financial Review, vol. 49, no. 2, pp. 1-35, 2014.

[8]. J. A. Brogaard, “High frequency trading and its impact on market quality,” Northwestern University Kellogg School of Management Working Paper, 2010.

[9]. A. Frino, A. Lepone and M. Mistry, “The New Breed of Market Participants: High Frequency Trading: Evidence from the Australian Stock Exchange,” Working Paper, 2011.

(59)

48

[10]. J. M. Karpoff, “The relation between price changes and trading volume: A Survey,” Journal of Financial and Quantitative Analysis, vol. 22, no. 1, pp. 109-126, 1987.

[11]. C. C. Ying, “Stock market prices and volumes of sales,” Econometrica, vol. 34, no. 3, pp. 676-685, 1966.

[12]. S. E. Stickel and R. E. Verrecchia, “Evidence that Trading Volume Sustains Stock Price Changes,” Financial Analysts Journal, vol. 50, no. 6, pp. 57-67, 1994.

[13]. B.-S. Lee and O. M. Rui, “The dynamic relationship between stock returns and trading volume: Domestic and cross-country evidence,” Journal of

Banking & Finance, vol. 26, no. 1, pp. 51-78, 2002.

[14]. A. Graves, A. Mohamed and G. Hinton, “Speech recognition with deep recurrent neural networks,” 2013 IEEE International Conference on Acoustics,

Speech and Signal Processing, Canada, 2013.

[15]. G. Hinton, L. Deng, D. Yu, G. E. Dahi, A. Mohamed, N. Jailty, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath and B. Kingbury, “Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82-97, 2012.

[16]. J. Barhak and A. Ficher, “Parameterization and reconstruction from 3D scattered points based on neural network and PDE techniques,” IEEE

Transactions on Visualization and Computer Graphics, vol. 7, no. 1, pp. 1-16,

2001.

[17]. R. Collobert and J. Weston, “A unified architecture for natural language processing: deep neural networks with multitask learning,” in Proceedings of

(60)

49

the 25th international conference on Machine learning, pp.160-167, 2008.

[18]. Y. Bengio, R. Ducharme, P. Vincent and C. Janvin, “A neural probabilistic language model,” The Journal of Machine Learning Research, vol. 3, pp. 1137-1155, 2003.

[19]. B. K. Wang and Y. Selvi, “Neural network applications in finance: A review and analysis of literature (1990–1996),” Information & Management, vol. 34, no. 3, pp. 129-139, 1998.

[20]. A. Fadlalla and C.-H. Lin, “An Analysis of the Applications of Neural Networks in Finance,” Interfaces, vol. 31, no. 4, pp. 112-122, 2001.

[21]. L. Kryzanowski, M. Galler and D. W. Wright, “Using Artificial Neural Networks to Pick Stocks,” Financial Analysts Journal, vol. 49, no. 4, pp. 21-27, 1993.

[22]. H. Chen, K. Xiao, J. Sun and S. Wu, “A Double-Layer Neural Network Framework for High-Frequency Forecasting,” ACM Transactions on

Management Information Systems (TMIS), vol. 7, no. 11, 2017.

[23]. T.-J. Hsieh, H.-F. Hsiao and W.-C. Yeh, “Forecasting stock markets using wavelet transforms and recurrent neural networks: An integrated system based on artificial bee colony algorithm,” Applied Soft Computing, vol. 11, no. 2, pp. 2510-2525, 2011.

[24]. P. Tenti, “Forecasting foreign exchange rates using recurrent neural networks,”

Applied Artificial Intelligence, vol. 10, no. 6, pp. 567-582, 1996.

[25]. T. Fischer and C. Krauss, “Deep learning with long short-term memory networks for financial market predictions,” European Journal of Operational

Research, vol. 270, no. 2, pp. 654-669, 2018.

(61)

50

prediction: A case study of China stock market,” 2015 IEEE International

Conference on Big Data (Big Data), U.S.A., 2015.

[27]. C. M. Bishop, Pattern recognition and machine learning, Heidelberg. Berlin: Springer, 2006.

[28]. K. P. Murphy, Machine Learning: A Probabilistic Perspective. Cambridge, MA: MIT Press, 2012.

[29]. L. Bottou, F. E. Curtis and J. Nocedal, “Optimization Methods for Large-Scale Machine Learning,” arXiv:1606.04838 [stat.ML], 2018.

[30]. D. E. Rumelhart, G. E. Hinton and R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, pp. 533-536, 1986.

[31]. Z. C. Lipton, “A Critical Review of Recurrent Neural Networks for Sequence Learning,” arXiv:1506.00019 [cs.LG], 2015.

[32]. S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory,” Neural

Computation, vol. 9, no. 8, pp. 1735-1780, 1997.

[33]. 陳柏均,「一個高速交易的自動演化預測系統的研究」,碩士論文,國立

高雄大學資訊工程學系,2019。

[34]. A. Krizhevsky, I. Sutskever and E. H. Geoffery, “ImageNet Classification with Deep Convolutional Neural Networks,” Advances in Neural Information

參考文獻

相關文件

Ongoing Projects in Image/Video Analytics with Deep Convolutional Neural Networks. § Goal – Devise effective and efficient learning methods for scalable visual analytic

Sergey Ioffe, Christian Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, 2015... Batch normalization

They are suitable for different types of problems While deep learning is hot, it’s not always better than other learning methods.. For example, fully-connected

Attack is easy in both black-box and white-box settings back-door attack, one-pixel attack, · · ·. Defense

Administrative Science Quarterly Journal of Accountingand Economics Journal of Accounting Research Journal of Applied Psychology Journalof Financial Economics.. Journal of Finance

蔣松原,1998,應用 應用 應用 應用模糊理論 模糊理論 模糊理論

Veltman, “A hybrid heuristic ordering and variable neighbourhood search for the nurse rostering problem”, European Journal of Operational Research 188 (2008) pp.

Organizational resources (quality control systems, short-term cash management systems, school financial