第三章 研究方法
3.2 研究資料
3.2.1 資料蒐集
本研究所需的資料為台灣指數期貨,來源為台灣期貨交易所。資料蒐集期間 自 2000 年 1 月 4 日至 2009 年 12 月 22 日,共計有 2489 筆日交易資料。根據 Kearns[16]的實證結果,實驗資料要進行分割時,訓練期資料和測試期資料的最 佳比例為 8 :2。故本研究擬定自 2000 年 1 月 4 日至 2007 年 12 月 24 日,共 1991 筆資料為訓練期資料;測試期資料則從 2007 年 12 月 25 日至 2009 年 12 月 22 日,共計有 498 筆。
3.2.2 輸入變數
如前所述,本研究使用兩個倒傳遞類神經網路,分別用日資料和周資料進行 學習預測 3 日後、5 日後、7 日後的漲跌幅,再用兩個倒傳遞類神經網路的輸出 當成多重主網路的輸入變數,預測 3 日後、5 日後、7 日後的漲跌幅,本節將說 明子網路所使用的輸入變數。
綜合前一章技術分析相關的文獻,本研究用三個技術指標,分別是隨機指標 /K-D 指標、指數平滑異同移動平均/MACD 指標、移動平均/MA 指標,再加上不 同天期的變化率。輸入的指標多強調其變動程度,就是考慮物理行為的變化,即 每期指標間的變動率。另外也再用各原始值當成輸入變數。
綜合上述,茲將本研究不同子網路所應用到的輸入變數分別整理如下列表 格,分別有用日資料預測 3 日後漲跌幅的單一網路輸入變數(表 5)、日資料預測 5 日後漲跌幅的單一網路輸入變數(表 6)、日資料預測 7 日後漲跌幅的單一網路 輸入變數(表 7)、周資料預測 5 日後漲跌幅的單一網路輸入變數(表 8)、周資料 預測 10 日後漲跌幅的單一網路輸入變數(表 9)。
表 5 日資料預測 3 日後漲跌幅之單一網路輸入變數
技術指標 輸入變數
隨機指標/K-D 指標
原始值:K9、D9、RSV9 一階變量:K9、D9、RSV9 二階變量:K9、D9、RSV9
26
27
28
二階變量:MACD、DIF26、EMA9、EMA12
移動平均/MA 指標
原始值:CMA10、CMA20 一階變量:CMA10、CMA20 二階變量:CMA10、CMA20
成交量
原始值:成交量 一階變量:成交量 二階變量:成交量 台灣指數期貨變動率 10 日變動率
運用周資料預測 5 日後、10 日後的漲跌幅之單一子網路的輸入變數有 31 個,而技術指標取樣期間則依照陳安斌[39]所述常用之默認值而定。
3.2.3 資料前處理
3.2.3.1 一階變量處理
為了增加類神經網路學習之可靠性,除了輸入指標本身外,尚頇考慮指標的 物理行為變化,也就是每個指標之變動量。因此本實驗在輸入變數皆加入了一階 變量值,以表現指標在每個計算期間之趨勢變化。計算公式如下:
其中,
:t 時間點之輸入變數一階變量值
:t 時間點之輸入變數
:t-1 時間點之輸入變數
3.2.3.2 二階變量處理
為了提高類神經網路學習之可靠性,除了輸入指標本身和一階變量外,每個 指標的趨勢變化之增減幅度,即指標趨勢變化的差值,也就是每個指標之變動量 亦需要被考慮到。因此本實驗在輸入變數皆加入了二階變量值,以表現指標在每 個計算期間之趨勢變化的持續動能變化。計算公式如下:
= -其中,
29
:t 時間點之輸入變數二階變量值
:t 時間點之輸入變數一階變量值
:t-1 時間點之輸入變數一階變量值
3.2.3.3 一階正規化
由於各輸入值的範圍不盡相同,單靠調整權重是無法消除大值的影響,故本 實驗的倒傳遞類神經網路中,所接受的的資料必頇在 0 到 1 之間的數值,每個輸 入變數在輸入子網路前都要先經過正規化動作,讓資料範圍都介於 0 和 1 之間,
正規化的計算方法如下:
其中,
:一階正規化後的值
:第 i 個輸入變數的原始值
:i 個輸入變數裡的最大值
:i 個輸入變數裡的最小值
3.2.3.4 二階正規化
經過一次正規化後再將輸入資料取二次正規化,由於經由一次正規化的資料 值,出現了因為分母過大而造成極值,使正規化後之值大部份群聚在某一區間 內,資料過度的集中,在小數點後幾位才有差異,無法突顯資料有何顯著性不同,
類神經學習效果不佳,因此將一次正規化後的資料,排序後分成 1000 等分,分 別將之映射至每個等分,使資料能平均分配,加強類神經網路學習成效。
其中,
:二次正規化後的值
:所有 的個數
:一次正規化後的值
30
:將 由小到大排序後,