研究資料

第三章研究方法

3.2 研究資料

3.2.1 資料蒐集

本研究所需的資料為台灣指數期貨，來源為台灣期貨交易所。資料蒐集期間自 2000 年 1 月 4 日至 2009 年 12 月 22 日，共計有 2489 筆日交易資料。根據 Kearns[16]的實證結果，實驗資料要進行分割時，訓練期資料和測試期資料的最佳比例為 8 ：2。故本研究擬定自 2000 年 1 月 4 日至 2007 年 12 月 24 日，共 1991 筆資料為訓練期資料；測試期資料則從 2007 年 12 月 25 日至 2009 年 12 月 22 日，共計有 498 筆。

3.2.2 輸入變數

如前所述，本研究使用兩個倒傳遞類神經網路，分別用日資料和周資料進行學習預測 3 日後、5 日後、7 日後的漲跌幅，再用兩個倒傳遞類神經網路的輸出當成多重主網路的輸入變數，預測 3 日後、5 日後、7 日後的漲跌幅，本節將說明子網路所使用的輸入變數。

綜合前一章技術分析相關的文獻，本研究用三個技術指標，分別是隨機指標 /K-D 指標、指數平滑異同移動平均/MACD 指標、移動平均/MA 指標，再加上不同天期的變化率。輸入的指標多強調其變動程度，就是考慮物理行為的變化，即每期指標間的變動率。另外也再用各原始值當成輸入變數。

綜合上述，茲將本研究不同子網路所應用到的輸入變數分別整理如下列表格，分別有用日資料預測 3 日後漲跌幅的單一網路輸入變數(表 5)、日資料預測 5 日後漲跌幅的單一網路輸入變數(表 6)、日資料預測 7 日後漲跌幅的單一網路輸入變數(表 7)、周資料預測 5 日後漲跌幅的單一網路輸入變數(表 8)、周資料預測 10 日後漲跌幅的單一網路輸入變數(表 9)。

表 5 日資料預測 3 日後漲跌幅之單一網路輸入變數

技術指標輸入變數

隨機指標/K-D 指標

原始值：K9、D9、RSV9 一階變量：K9、D9、RSV9 二階變量：K9、D9、RSV9

二階變量：MACD、DIF26、EMA9、EMA12

移動平均/MA 指標

原始值：CMA10、CMA20 一階變量：CMA10、CMA20 二階變量：CMA10、CMA20

成交量

原始值：成交量一階變量：成交量二階變量：成交量台灣指數期貨變動率 10 日變動率

運用周資料預測 5 日後、10 日後的漲跌幅之單一子網路的輸入變數有 31 個，而技術指標取樣期間則依照陳安斌[39]所述常用之默認值而定。

3.2.3 資料前處理

3.2.3.1 一階變量處理

為了增加類神經網路學習之可靠性，除了輸入指標本身外，尚頇考慮指標的物理行為變化，也就是每個指標之變動量。因此本實驗在輸入變數皆加入了一階變量值，以表現指標在每個計算期間之趨勢變化。計算公式如下：

其中，

：t 時間點之輸入變數一階變量值

：t 時間點之輸入變數

：t-1 時間點之輸入變數

3.2.3.2 二階變量處理

為了提高類神經網路學習之可靠性，除了輸入指標本身和一階變量外，每個指標的趨勢變化之增減幅度，即指標趨勢變化的差值，也就是每個指標之變動量亦需要被考慮到。因此本實驗在輸入變數皆加入了二階變量值，以表現指標在每個計算期間之趨勢變化的持續動能變化。計算公式如下：

= -其中，

：t 時間點之輸入變數二階變量值

：t 時間點之輸入變數一階變量值

：t-1 時間點之輸入變數一階變量值

3.2.3.3 一階正規化

由於各輸入值的範圍不盡相同，單靠調整權重是無法消除大值的影響，故本實驗的倒傳遞類神經網路中，所接受的的資料必頇在 0 到 1 之間的數值，每個輸入變數在輸入子網路前都要先經過正規化動作，讓資料範圍都介於 0 和 1 之間，

正規化的計算方法如下：

其中，

：一階正規化後的值

：第 i 個輸入變數的原始值

：i 個輸入變數裡的最大值

：i 個輸入變數裡的最小值

3.2.3.4 二階正規化

經過一次正規化後再將輸入資料取二次正規化，由於經由一次正規化的資料值，出現了因為分母過大而造成極值，使正規化後之值大部份群聚在某一區間內，資料過度的集中，在小數點後幾位才有差異，無法突顯資料有何顯著性不同，

類神經學習效果不佳，因此將一次正規化後的資料，排序後分成 1000 等分，分別將之映射至每個等分，使資料能平均分配，加強類神經網路學習成效。

其中，

：二次正規化後的值

：所有的個數

：一次正規化後的值

：將由小到大排序後，

在文檔中應用多重類神經網路進行台灣指數期貨跨日走勢行為研究 (頁 34-39)

第三章 研究方法

3.2 研究資料

第三章研究方法