建構在支援向量機上的選股模型其精準度取決於輸入的學習資料及模型的相關參 數,因此本論文以最佳化各項模型參數與特徵選取來強化此模型之有效性,透過遺傳演 算法同步進行上述問題的最佳化。
對於輸入的學習資料進行特徵選取相當重要,藉由特徵選取可挑選出能夠代表市 場價值的基本分析指標,從中篩選出重要的資訊加以保留,刪除不必要的重複資訊與可 能導致判斷失誤的錯誤雜訊。
在特徵選取的方法上,主要分為 filter 與 wrapper 兩大類。第一類型 filter 方法 [66,67]
以訊息原理進行計算,根據屬性間的訊息量及相依性對特徵輸入參數進行篩選動作,由 於不與建構模型的演算法產生關聯,在特徵選取時間花費上相對較少。本論文採用 wrapper 方法 [68,69],將機器學習嵌入特徵選取的機制當中,藉由觀察其運作結果的優 劣來篩選參考的特徵值。相較於利用訊息原理計算屬性間資訊量或關連性來達成的 filter 方法,相關的研究認為 wrapper 方法雖然需要較多的運作時間,但運算結果也較為正確 [27, 28 ,68-70]。
本論文建構的分析模型需要藉由兩種不同類型參數來調整其預測精準度,分別是用 以調整各項基本分析指標的模糊參數與用來建構支援向量機的 kernel 參數。透過模糊理 論來調整基本分析指標的數值關係需先建構合適的模糊函數,由於各項基本分析指標所 代表的意義皆不相同,因此本論文分別對單一的基本分析指標建構獨立的模糊函數。常 見的模糊函數有三角形、梯形及高斯模糊函數,本論文實驗結果顯示三角形與梯形的調 整效果非常類似且皆優於高斯模糊函數,可能的主因為高斯函數長寬比例較為固定,缺 乏調整彈性。而其中又以三角模糊函數的調整效果最為顯著,因此選擇以三角形模糊函 數調整基本分析指標之數值。三角形模糊函數需先定義三角形的起始點,制高點及終點 來建構對應的模糊函數,運用遺傳演算法最佳化模糊函數的三角定點找出最合適的調整 方法。正規化後各項基本分析指標的數值皆落在[-1,1]區間,遺傳演算法將演化出最合 適的調整函數,找出位在數值範圍中模糊函數的起始點、制高點與終點。藉由模糊函數
的調整機制,使各項基本分析指標能夠更合適的反應其市場真實價值,用以建構精準度 更高的預測分析模型。
能夠影響支援向量機分類能力的參數眾多,本論文選擇支援向量機用以進行誤差處 理相關的懲罰係數C 與 kernel point 做為調整參數,藉由遺傳演算法找出最合適的數值 作為支援向量機建構模型之依據。透過遺傳演算法的演化,支援向量機所建構的模型將 更符合選股問題需求,以完成更準確的預測分析。
本論文以遺傳演算法同步對選股模型進行特徵選取與參數最佳化,將設定的選股問 題進行編碼,透過染色體的演化完成最佳化步驟。染色體的編碼主要分成四個區塊;第 一區塊進行特徵選取,二進制編碼方式將被選取的特徵值以編碼 1 表示,反之編碼為 0 即表示未被選為建構模型之特徵值。第二區塊對支援向量機的懲罰係數C進行編碼,從
到 共n
1
b
Cb
CnC C個位元將二進制表示的染色體轉換到其對應的搜尋範圍,如下列轉換公式 所示:) min 1 (max
min
y2
ld
y yy × −
+ −
=
(26) 其中y為轉換後對應的參數結果,miny與maxy則分別表示對應參數的範圍,d為對應該區 段編碼的十進制數值,l為編碼區塊的長度。藉由這樣的編碼方式可推導出對應的參數。第三區塊如同第二區塊的方式對kernel point進行編碼。第四區塊則為模糊參數做編碼的 動作,以第二區塊相同的方式進行編碼,各項單獨的基本分析指標皆需三個參數才能建 構模糊函數,因此對於十五筆基本分析指標總共需要建構十五組獨立的模糊函數。
藉由以上的編碼方法,可將本論文所關注的選股問題完整表達,並且透過轉換結果 可建構出屬於該基因組成所代表的選股模型,經歷一連串的演化機制後便可找出適合的 選股模型加以驗證。
為評估上述編碼方式所建構的選股模型是否具備分析市場能力,本論文以年均化收 益(annualized return)作為遺傳演算法的適應函數。遺傳演算法以適應函數做為基準挑 選適應能力較佳的染色體繁衍後代,藉由這樣的篩選機制可將優秀的個體特徵延續至後 代達到最佳化目的。因此適應函數需正確反映所設定問題的真實需求,透過此方式來判
22
斷染色體的環境適應能力。
年均化收益是計算各模型在設定的交易期間之整體平均收益表現,對先前所計算出 的累計總收益 Eq.(25)進行年均化的動作,計算出平均每年的成長報酬率,計算方法如 下:
n
R
cfitness =
(27) 其中,Rc代表累計總收益的比現,n 為該模型在市場的交易總年數。遺傳演算法藉由編碼將問題轉換到相對應的染色體表現上,本論文透過編碼方式將 特徵選取與參數最佳化問題進行編碼,如圖 9 所示。並以年均化收益做為適應函數找出 最適合的選股模型,完成最佳化問題。接著將以真實世界的股市交易情況進行驗證,以 所設計的實驗方法證明此選股模型之有效性與可行性。
圖 9. 染色體編碼
23
24