一個基植於遺傳演算法與模糊理論最佳化之支援向量機選股模型

全文

(1)國立高雄大學資訊工程研究所碩士論文. 一個基植於遺傳演算法與模糊理論最佳化之支援向量機選股模型. A HYBRID STOCK SELECTION MODEL USING GENETIC ALGORITHMS, FUZZY THEORY AND SUPPORT VECTOR REGRESSION. 研究生：鄭敦維撰指導教授：黃健峯博士. 中華民國 100 年 7 月.

(2) 一個基植於遺傳演算法與模糊理論最佳化之支援向量機選股模型指導教授：黃健峯博士國立高雄大學資訊工程所學生：鄭敦維國立高雄大學資訊工程所. 摘要本論文提出一個植基於模糊理論之支援向量機選股模型並經由遺傳演算法實現模型之最佳化。選股問題在財務研究與投資領域中向來是極具挑戰性的關鍵問題，在人工智慧及軟式計算的輔助下這類問題得到有效的解決。因此，本論文運用模糊理論與支援向量機對股市進行分析，篩選具有成長潛力的公司做為投資標的。並且以遺傳演算法同時對選股模型作特徵選取與參數最佳化，建構可精確分析的選股模型。藉由統計測試證實本選股策略在獲利表現上遠超越大盤所能帶來的資產成長，實驗結果顯示在實際投資環境下選股模型可提供具備穩健性與可行性的投資策略。. 關鍵字：選股問題、模糊理論、支援向量機、遺傳演算法. I.

(3) A HYBRID STOCK SELECTION MODEL USING GENETIC ALGORITHMS, FUZZY THEORY AND SUPPORT VECTOR REGRESSION Advisor(s): Dr. Chien-Feng Huang Institute of Computer Science and Information Engineer National University of Kaohsiung Student: Dun-Wei Cheng Institute of Computer Science and Information Engineer National University of Kaohsiung ABSTRACT In this thesis I will present a study of a hybrid AI-based methodology for stock selection, which has long been a challenging task in investment and finance. Recent advances in artificial intelligence and soft computing have led to significant opportunities to solve these problems more effectively. Therefore, in this study, the fuzzy theory and support vector machines are employed to rank a set of stocks; and top-ranked stocks are then selected to construct a portfolio. In addition, genetic algorithms were used to optimize the model parameters and perform feature selection simultaneously. Based on several statistical tests, I will show that the portfolios constructed using the proposed method shall outperform the benchmark significantly. The results thus show that the proposed investment approach is effective and robust for stock selection in practice. Keywords: stock selection, fuzzy theory, support vector machines, genetic algorithms. II.

(4) 誌謝此論文的完成要非常感謝在碩士班兩年中細心教導的指導老師黃健峯老師。感謝老師的原創想法及指導實驗方法的設計才有本論文的產生，並且提供許多研究上的經驗使論文能夠順利完成。在兩年的碩士班期間承蒙老師的教誨，在過程中學習許多重要知識與做人處事的道理，也啟發我想繼續朝向更專業的領域深造的想法。感謝高雄大學各位老師在學習上的幫助，讓我在碩士班期間獲益良多，也要謝謝義守大學的老師們為我奠定良好的學習基礎。更要感謝口試委員曾新穆老師與張志向老師對於本論文所提出的指導使本論文能夠更加完善，也對兩位老師感到不好意思，因為是研究室中第一位畢業的學生在許多地方都做得不夠周到，感謝老師們的包容讓論文口試能夠順利進行。特別要感謝張老師提供本論文使用的財務資料以及許多財務領域的相關知識。再來也要謝謝鈺峰學長、佑恩學長與 Jerry 學長如同對待自己實驗室的學弟一般不吝嗇的教導，能夠受到學長們的幫助真的非常感謝。謝謝兩年中一起學習成長的碩班同學們，在一起解決學習問題的過程中都為彼此帶來許多收穫也奠定良好的情誼，謝謝實驗室所有學弟學妹的幫助讓我在碩士班的生活過得相當豐富，也要感謝系辦的大家在許多行政事情上的幫忙。能夠在高雄大學完成我的碩士論文真的非常開心，也期許以後學弟妹們可以繼續把實驗室的研究做的更好。最後要感謝一直在背後支持我的家人與朋友們，真的非常謝謝大家。. 敦維謹誌國立高雄大學資訊工程所中華民國一百年七月. III.

(5) 目錄中文摘要. …………………………………………………………………. 英文摘要. ……………………………………………………………….… II. I. 誌謝. ……………………………………………………………………..... III. 目錄. ………………………………………………………………………. IV. 表目錄. ...…………………………………………………………………. V. 圖目錄. ………………………………………………………………….... VI. 第一章 : 緒論 1. 研究背景. ………………………………………………….... 1. 2. 研究目的. ………………………………………………….... 2. …………………………………………………….... 3. 第二章 : 文獻探討第三章 : 研究方法. 1. 支援向量機(Support Vector Machine, SVM). ………………. 7. 2. 模糊理論(Fuzzy Theory) ………………………………….... 11. 3. 遺傳演算法(Genetic Algorithm, GA). …………………….... 14. 1. 實驗對象. ……………………………………………………. 17. 2. 實驗架構. ……………………………………………………. 19. 第四章 : 實驗方法. 3. 模型最佳化第五章 : 實驗結果. ………………………………………………………. 24. ……………………………………………………………. 36. …………………………………………………………………. 37. 第六章 : 結論參考文獻. ………………………………………………… 21. IV.

(6) 表目錄表 1. 十五項基本分析指標. …………………………………………….... 18. 表 2. 大盤與 SVM-GA 選股策略(選擇前 10 股)統計結果. …………….. 31. 表 3. 大盤與 SVM-GA 選股策略(選擇前 20 股)統計結果. …………….. 32. 表 4. 大盤與 SVM-GA 選股策略(選擇前 30 股)統計結果. …………….. 32. 表 5. 大盤與 Fuzzy-SVM-GA 選股策略(選擇前 10 股)統計結果. …….... 33. 表 6. 大盤與 Fuzzy-SVM-GA 選股策略(選擇前 20 股)統計結果. ……... 34. 表 7. 大盤與 Fuzzy-SVM-GA 選股策略(選擇前 30 股)統計結果. ……... 34. V.

(7) 圖目錄圖 1. 二維 SVM 範例. …………………………………………………….... 7. 圖 2. 三角模糊函數. ……………………………………………………... 11. 圖 3. 梯形模糊函數. ……………………………………………………... 12. 圖 4. 高斯模糊函數. ……………………………………………………... 12. 圖 5. 遺傳演算法流程圖. ………………………………………………... 15. 圖 6. Crossover 示意圖 ………………………………………………….... 15. 圖 7. Mutation 示意圖. …………………………………………………… 16. 圖 8. 遺傳演算法步驟. …………………………………………………... 16. 圖 9. 染色體編碼. ……………………………………………………….... 23. 圖 10. 大盤與選股策略累計收益比較(C, kernel point) = (100, 25) ….... 25. 圖 11. 大盤與選股策略累計收益比較(C, kernel point) = (25, 100) …..... 25. 圖 12. 大盤與選股策略累計收益比較(C, kernel point) = (8987, 2707) …. 26 圖 13. 大盤與選股策略累計收益比較(C, kernel point) = (25, 100)，對輸入變數進行特徵選取. …………………………………….... 27. 圖 14. 演化五十代的 Best-so-far 曲線 …………………………………... 28 圖 15. 大盤與選股策略累計收益比較(C, kernel point) = (6951, 790)，對輸入變數進行特徵選取. ……………………………………… 29. 圖 16. 實驗設計模型，白色為訓練期，深藍色為測試期. ……………….. 30. 圖 17. Boxplot ……………………………………………………………. 35. VI.

(8) 一、. 緒論. 1. 研究背景人工智慧（Artificial Intelligence, AI），泛指人造系統透過計算機實現所表現出的智慧能力，在機器人，經濟政治決策，控制系統，模擬系統中皆得到廣泛應用。細分人工智慧研究範疇包含機器學習、軟式計算、資料探勘、模糊控制、類神經網路及遺傳演算法等。透過人工智慧幫助下，許多困難的問題都得到進一步的解決。財務相關研究時常以分析各類型財務訊息做為投資決策之依據，而可被用於分析研究的財務資訊龐大且具多樣性，因此藉由資訊領域的運算整合能力將可嚴謹地對投資決策進行全面性分析。透過人工智慧協助投資決策已是現今財務分析趨勢，包括股票選擇、貨幣交易、信用評估以及投資組合與避險等問題，人工智慧皆可提供有效且即時的分析。資料探勘技術興起，從歷史資料中挖掘有意義的規則對於財務分析領域有莫大的助益。還有許多不同的軟式計算方法也被成功應用於解決複雜問題之最佳化處理，建構非線性模型及財務時間序列預測分析等。不論就股票與貨幣市場進行預測、貿易、投資組合管理、信用評分、甚至財務困境預警等，財務軟體均提供相當優秀的分析能力。分析股市動態變化早期學界曾發展出時間序列方法、統計迴歸模式等，目前則是研究包括碎形波浪、類神經網路、遺傳演算法、專家系統等。透過電腦運算能力，並應用財務分析與軟式運算等方法協助研判投資決策獲利方式。選股問題一直是投資決策中相當重要的研究挑戰，正確選擇投資標的將可達成分散風險及獲得最佳期望報酬等目標。本論文運用人工智慧方法建構選股分析模型，分析市場潛力以找出合適的投資組合做為交易策略。. 1.

(9) 2. 研究目的軟式計算藉由軟體設計，嘗試模仿人類思維能力，藉以有效運用推理模式設定合適的推估模型。學界已普遍認為人工智慧（Artificial Intelligence）系統的研究對於解決投資決策問題具莫大助益 [1]。Zadeh （1994）界定人工智慧的技術包括有模糊理論、類神經網路理論、概率推理。模糊理論指從傳統邏輯推理一個近似而非精確的推斷。類神經網路模仿生物性質的神經網路處理訊息。概率推理為組合機率論處理不確定性的推理，例如貝氏理論（Bayes theory）、遺傳演算法（Genetic Algorithms, Holland [2]）等皆為著名的代表。眾多預測股市變化及決定投資策略方法中遺傳演算法為其中具有代表性的方法之一。遺傳演算法以達爾文所提出的進化論做為基礎，藉由「物競天擇，適者生存」來搜尋給定問題之最佳解。模擬自然界生物演化運作機制，在本論文中針對財務研究將嘗試以此方法獲得最佳交易策略。資料探勘（data mining）是從大量資料中採掘（extracting）或探勘（mining）出有用的資訊或知識。依據目的不同分為預測（prediction），分類（classification），時間序列樣式（sequential pattern）及分群（clustering）等。近來熱門的資料探勘技術─支援向量機被廣泛應用於各領域解決複雜的分析問題。依據統計學習理論為基礎，運用結構化風險最小誤差法原理的學習演算法，由於具有全域最佳解及考慮結構化風險等特性，近來越來越受到重視。然而過去財務領域多以支援向量機研究時間序列預測問題，選股問題的討論相對較少，只有部分研究以支援向量機對股市進行分類，粗略將目標分成勝利組與失敗組兩大類。不同於以分類來解決選股問題，本論文以支援向量機對股市進行回歸分析，找出較具成長潛力的投資標的。運用基本分析做出正確的投資組合向來是投資決策研究的關鍵，傳統方法需具備足量財務領域知識才能迅速解讀財務報表所隱含的資訊。本論文希望藉由資訊運算的能力以了解各家公司的財務狀況，找出適當的投資組合建立選股模型。. 2.

(10) 二、. 文獻探討. 自 1966 年 Beaver [3] 以統計模型檢視成功與失敗公司之間的關連性，各種財務相關的預測模型研究成為許多學者關心的議題。Altman and Ohlson [4] 提出以預測公式計算公司可能發生危機的機率，但這樣的計算公式受限於只能解釋公司的靜態狀況。 Balcaen and Oogheu [5] 也提到傳統的統計預測模型存在過度應用導向及缺乏觀察失敗演變等問題。因此，現代計算科學與資料探勘技術的成長，為解決預測模型問題帶來新的研究方向。選股問題與市場分析預測收益表現有相當密切的關聯性，許多研究記載，軟式計算應用於財務領域的相關研究，包含時間序列問題，多面向最佳化投資收益與風險管理問題，以及依據財務歷史資料選擇投資目標的資產管理問題都有相當重要的貢獻 [6] [7] [8] 。各種機器學習的方法已經被應用在分析投資市場與解決選股問題，包含模糊理論，類神經網絡，演化式計算以及支援向量機等。Quah and Srinivasan [9] 的研究以類神經網絡做為選股系統，選出優秀績效表現的股票，此研究顯示這樣的選股模型在真實交易狀況下可以出現勝過大盤的機會；Chapados and Bengio [10] 也以訓練後得到的類神經網絡系統，用以評估及預測市場行為，判斷合適的資產配置決策，然而這類型的研究都受限於過度演化（overfitting）與區域最佳解（local optimization）等問題。Armano et al. [11] 則以混合遺傳演算法與類神經網路對股票市場建構預測模型加以分析； Matilla-Garcia et al. [12] 同樣以這兩種方法對西班牙的股市獲利進行研究，透過搭配遺傳演算法對問題進行全域式的搜索將可減緩過度演化與區域最佳解發生的可能性。由於股票市場的資料複雜且充滿雜訊，導致許多預測方法無法持續有效的對市場做出正確判斷[13]。這樣的情形主因為股市資料屬於較難預測的非線性系統，其潛在的關連性與時間複雜性不易產生合適的預測模型。Black and Mcmillan [14] 的研究證實股市的走向並非全然是隨機式的發展，而是屬於複雜且多變的非線性規則。因此，採用進階的機器學習方法，由 Vapnik [15] 所提出的支援向量機建造預測模型，其廣為人知的線性分析技術已被應用在許多複雜的時間問題上。不同於傳統類神經網絡，以最小化訓 3.

(11) 練期間所產生的錯誤做為降低風險的準則，支援向量機採用"結構化風險最小誤差法原理"的學習演算法來避免過分演化的情形發生。一般來說，支援向量機所產生的最佳解較具全域性；反之，類神經網絡產生的最佳解較易陷入區域最佳解的問題。相關的研究也證實，支援向量機具備非線性的預測能力，是目前經常被使用來解決非線性預測問題的方法之一 [16-18] 。即便支援向量機已被廣泛應用在財務研究領域，大部分仍專注於預測股市的未來走向與單一股票各自獨立的預測 [18-24] 。Yu, Wang, and Lai [25] 以遺傳演算法搭配支援向量機動態挑選 18 項技術指標預測股市動向；Cristianini and Taylor [26] 也以支援向量機探究下一階段的市場動態；相對於各自的財務時間序列預測結果，本論文採用支援向量機做為整體的選股工具。藉由支援向量機對股市收益進行回歸計算，依據各家公司的相關財務資訊分析出相對的可能收益表現排序方法，透過排序結果找出合適的投資策略建構選股模型。儘管支援向量機與支援向量回歸在分類與回歸分析上都有卓越的成果，成功的模型建立仍與輸入的資料有高度的關連。Yang and Honavar [27] 的研究指出，許多分類問題都仰賴建造模型時所選擇的特徵輸入變數（features），分類器的精準度取決於訓練期的分類函數，所挑選的訓練樣本以及訓練成本。特徵選取（feature selection）的主要目標是希望能夠準確找出足以代表整體訓練樣本必要資訊的特徵輸入變數，在資料挖掘與機器學習方法中是非常重要的關鍵。若能有效去除不必要的輸入變數，便可減少錯誤資料帶來的雜訊及過多重複資料導致訓練成本提高等問題。此外kernel parameters的設定同樣也影響支援向量機的效能表現，一個好的模型應該同時考量特徵選取與參數設定的問題。Fröhlich and Chapelle [28] 是最先以遺傳演算法對特徵選取做最佳化的研究。Huang and Wang [29] 則提出應該同時最佳化特徵選取與kernel parameters的設定問題，這樣的方法在 [30] 的相關研究中證實其精準度將會出現顯著的進步。在Davis [31] 的研究中也提到以遺傳演算法最佳化財務問題，減少輸入的特徵維度以及挑選合適的模型參數。參考以上研究結果，本論文也採用同時考量特徵選取與kernel parameters設定的最佳化問題。 4.

(12) 對於投資組合最佳化的問題，Kim and Han [32] 建議以遺傳演算法的演化能力做為解決類神經預測模型中特徵篩選與相對權重問題的解決方法。其中提到他們的方法可以有效減少特徵選取的數目與強化預測能力。Hoklie et al. [33] 根據Markowitz (1952) 的投資組合理論以遺傳演算法尋找投資組合最佳化之方法，該方法將資產分散，並用遺傳演算法評估每項投資比例，運用報酬率和風險作為判斷依據尋找最高風險及最低報酬的投資策略。此外，Caplan and Becker [34] 採用genetic programming (GP)來發展一套針對美國高科技產業公司股票的排序模型。近期，Becker et al. [35] 研究各種單一目標的適應函數，其中特別針對風險問題以GP方法建構出特別的選股方法。整體來說，這類型的演化式模型都會產生可以建立出由高至低排序結果的目標函數。許多模糊系統方法也被應用於財務分析領域，例如 Chu et al. [36] 運用模糊理論在多特徵決策分析方法下建構資產配置的選股方法；Jilani and Burney [37] 為股市預測重新定義一個新的模糊時間序列模型；Zargham and Sayeh [38] 運用模糊規則系統評估股票；Wang [39] 以模糊約略集合系統探勘股價等。此外學習式演算法也被廣泛應用於模糊理論相關研究使得所建構的分析模型更為精確，如 Chiu and Chen [22] 以模糊理論分析各項技術指標對於市場影響週期及影響強度進行調整；Feng [40] 以粒子群聚演算法最佳化模糊模型的系統設；Wong and Wang [41] 運用模糊類神經網絡設計選股策略；以及 Huang et al. [42] 藉由模糊函數重新挑選排序過後的投資標的。在財務研究中模糊理論經常被用於調整數據資料，藉以呈現資料的真實含意，模糊函數的調整可增強研究分析的精準度。藉由機器學習的能力調整模糊函數，分析模型將更符合問題需求，且針對不同的環境資料對參數設定進行修正，找出最合適的分析選股模型。從上述的研究皆證實模糊理論有助於精確分析並為財務研究領域帶來不同於傳統方法的思考觀點。有鑑於過去人工智慧應用在財務領域研究的貢獻，以及在過程中出現的問題與可能的阻礙，本論文將運用模糊理論重新調整基本分析指標，使各項指標數值更完整反映市場結構，採用支援量量機對各家公司的基本分析指標進行回歸分析，並同時考量特徵選取與參數最佳化問題，建構出合適的選股模型。 5.

(13) 此外，借重遺傳演算法的演化能力對於可能的最佳解作全域式搜尋，找出最佳化的選股模型分析各家公司在未來收益表現上的成長潛力。以人工智慧與軟式計算方法對財務研究中的選股問題提出更深入的分析討論，並且設計針對現實投資環境下符合市場情況的實驗方法，以驗證在本論文所提出的選股模型分析之下，其投資策略的可行性與穩健性是否能夠有效打敗大盤帶來獲益。. 6.

(14) 三、研究方法 1. 支援向量機(Support Vector Machine, SVM) 支援向量機被視為是目前最具成效的監督式學習方法之一，由 Vapnilk 根據統計學習理論所提出，廣泛被使用來處理統計分類及回歸分析。支援向量機適合應用於解決具有較小範圍、非線性及高維度等特性的問題，如人臉辨識、手寫辨識及建立預測分析模型。從有限的訓練樣本中學習得到決策規則，對獨立的測試集合仍能夠得到較小的預測誤差。支援向量機將資料映射至高維空間當中，希望從映射過後的結果找出一個可將資料分隔成兩組不同集合的超平面（hyperplane）。透過此超平面分類方法對資料進行分類，區分出互不重疊的分類集合。二維方式舉例說明，以支援向量機從二維空間中找出一條分隔線區分兩種類型資料，且此分隔線與兩集合之距離越大越好，藉由此分隔線對資料進行分類。圖 1 說明在二維空間中以分隔線（H0）將資料分隔成兩組不互相重疊之集合，並可找出集合中最鄰近分隔線且各自平行於分隔線的兩條平行線H1及H2。. 圖1. 二維SVM範例. 7.

(15) 假設資料集合為{ xi , yi }， i = 1,…,l，xi ∈ Rd， yi ∈ { -1 , +1 }，若能找出一條分隔線：. f ( x) = wT x − b. (1). 使所有yi = -1的點都落在f (x) < 0的區塊，且使所有yi = +1的點都落在f (x) > 0的另一區塊，便可依據f(x)的正負來區分x的類別。這條距離兩集合最大的分隔線就稱為optimal separating hyperplane (OSH)。而與optimal separating hyperplane平行且最靠近兩集合的超平面就稱為support hyperplane :. wT x = b + δ. (2). wT x = b − δ 利用常數將 w、b 與 δ 可以把上式重新寫成：. wT xi + b ≥ +1 for yi = +1. (3). wT xi + b ≤ −1 for yi = −1. (4). y i ( xi ⋅ w + b) − 1 ≥ 0 ∀i. (5). 進一步可改寫為 :. 為了要找出 optimal separating hyperplane ，定義 separating hyperplane 與兩個 support hyperplane的距離為d :. d = ( b −1 − b ) / w = 1/ w. if. b ∉ (−1,0). (6). d = ( b +1 + b ) / w = 1/ w. if. b ∈ (−1,0). (7). 因此，兩個support hyperplane彼此間的距離為 2d = hyperplane需要maximize. 2 ，而要找到optimal separating w. w 2 ，亦即：Minimize 。 w 2. 8.

(16) 總結以上內容得到目標函式為 :. 1 min wT w 2. (8). subject to yi (xi ⋅ w + b) −1 ≥ 0 ∀i 利用Lagrange Multiplier Method將上式轉換成一個二次方程式，找出使L成為最小值的 w, b, αi（αi就是Lagrange Multiplier）。. L(w, b, a) =. 1 2 l w − ∑ ai [ yi ( xi ⋅ w + b) − 1] 2 i =1. (9). 求解L的最小值，所以分別對w及對b偏微，代回Lagrangian目標函式得到 :. L( w, b, a) =. 1 2 l w − ∑ ai [ yi ( xi ⋅ w + b) − 1] 2 i =1. =. l l 1 l y y a a x x y y a a x x ai ( ⋅ ) − ( ⋅ ) + ∑ i j i j i j i∑ ∑ i j i j i j 2 i , j =1 i =1 , j =1 l. =∑ ai − i =1. 1 l ∑ yi y j ai a j ( xi ⋅ x j ) 2 i , j =1. (10). 要符合上述的運算必須滿足下列條件，也稱做 KKT 條件（ Karush-Kuhn-Tucker. conditions）： l. w − ∑α i yi xi = 0. ∂ wL = 0 →. (11). i =1. l. ∑α y. ∂bL = 0 →. i =1. i. i. =0. yi ( xi ⋅ w + b) −1 ≥ 0 . (12) (13). Lagrange multiplier condition. αi ≥ 0. Complementary slackness. αi [ yi (wT xi − b) − 1] = 0 (15). (14). 而訓練資料中有部分符合KKT條件，且剛好落在support hyperplane，即被稱為support. vectors，求得support vectors後，便可用來判斷新輸入的資料是屬於那一邊的集合，藉由這樣的方法來對資料進行分類。. 9.

(17) 在1995年, Corinna Cortes與Vapnik [43] 提出了一種改進方法可以處理標記錯誤的樣本。當資料在邊界出現重疊導致無法產生optimal separating hyperplane，處理邊界重疊的情形必須導入誤差項ξ。誤差項ξ的範圍愈小愈好，因此給有誤差的資料懲罰係數，C 是決定懲罰的權重。. L(w, b, ξ , α , μ ) =. l l 1 2 w + C ∑ ξi − ∑α i [ yi (wT xi − b) − 1 + ξi ] − ∑ μiξi 2 i i =1 i =1. (16). Drucker et al. [44] 以支援向量機為基礎發展支援向量回歸（ Support Vector Regression, SVR），利用已知資料對於未知的訊息進行分析預測，支援向量回歸針對問題處理特性不同又分為線性支援向量回歸（Linear Support Vector Regression）與非線性支援向量回歸（Non-Linear Support Vector Regression）。本論文將針對非線性函數問題對於財務資訊進行迴歸分析。Vapnik 與 Schölkopf [15] 在非線性支援向量機的研究中把原始資料透過非線性函數 φ 將資料投射至更高維度的空間或是特徵空間（ feature. space）中， φ 把 x 映射到特徵空間， xi T x j → φ ( xi )T φ ( x j ) ，在特徵空間中使用支援向量回歸進行分析。將映射函數做內積得到的函數在支援向量回歸中以核心函數表示（kernel. function）。本論文採用放射型核心函數（radial basis function）作為核心函數用以分析高維度的資料內容 [43]，在放射型核心函數中提供兩項參數 C 與 kernel point 對模型進行調整。透過調整上述兩項 kernel 參數將可建構出合適的模型，當新的資料輸入便可依據此模型進行回歸分析，在本論文所提出的選股策略將以遺傳演算法同時對特徵選取以及模型參數做最佳化，並以基本分析指標作為輸入資料建構符合市場收益的迴歸分析模型。藉由此模型的迴歸分析能力，本論文應用於財務選股的問題之中，將下一年度的財務資料輸入所建構的模型進行迴歸分析，對分析結果進行排序挑選出具備成長潛力的投資目標作為投資選股策略。. 10.

(18) 2. 模糊理論(Fuzzy Theory) 模糊邏輯可視為是傳統集合理論的推廣，由 Zadeh 教授於 1965 年提出 [45]。傳統集合論中元素與集合之關係是明確且單一，其關係若非”屬於”便是”不屬於”這兩類；而模糊集合是傳統明確集合的一種推廣，將集合中的元素對此集合之歸屬程度定義為介於. 0 到 1 之間的任意值。此方法使模糊集合可以產生無限多種的歸屬函數，模糊系統便可依據不同的變異環境調整其歸屬函數。模糊集合中元素對於集合之關係不再是二元的，而是依照類似程度給其予歸屬程度值。給定一論域 U，在論域中的模糊集合 A 為. A = {(x, μ A ), x ∈ U}. (17). μA為從U映射到單位區間[0,1]的一個歸屬函數，代表元素x對模糊集合A的歸屬程度。常見的歸屬函數有三角形，梯形，高斯函數歸屬函數。. (1) 三角模糊函數：需先定義函數中的三個必要參數a、b以及c，透過這三個參數來建構模糊函數μA。. ,x ≤ a. ⎧ 0 ⎪x −a ⎪⎪ μ A ( x) = ⎨ b − a c−x ⎪ ⎪c −b ⎪⎩ 0. ,a < x ≤ b ,b < x ≤ c ,c < x. 圖 2. 三角模糊函數 11. (18).

(19) (2) 梯形模糊函數：需先定義函數中的四個必要參數a、b、c以及d，透過這四個參數來建構模糊函數μA。. μ. A. ⎧ ⎪ ⎪ ⎪ = ⎨ ⎪ ⎪ ⎪ ⎩. 0, x x − a ,a b − a 1, b d − x ,c d − c 0,d. ≤ a < x ≤ b < x ≤ c. (19). < x ≤ d < x. 圖 3. 梯形模糊函數. (3) 高斯模糊函數：需先定義函數中的兩個必要參數σ與m，透過這兩個參數模糊函數μA，其中m代表中間點，σ代表其寬度。 ⎛ − ( x − m) 2 ⎞ ⎟⎟ 2 ⎝ 2σ ⎠. μ A ( x) = exp⎜⎜. 圖 4. 高斯模糊函數 12. 來建構. (20).

(20) 藉由模糊理論的定義重新調整原先單一資料數值，增加模型彈性使分析結果更加精確。在原先的數值資料中所有訊息皆為單一且固定，透過模糊函數調整將最合適的函數範圍強化，並去除不合適的區段，使資料完整呈現所代表的真實意義。原始資料為d，經由模糊函數μA進行調整重新獲得更加符合真實含意的相對代表數值r：. r = d * μA. (21). 近期在財務領域的相關研究中，模糊理論常以學習式演算法則輔助建構模糊函數，透過學習過程設定符合問題需求的模糊函數以發揮最大效益。如 Chang [46] 提出相關的研究應用混合式的類神經-模糊推理方法來處理財務時間序列預測問題，研究結果顯示，混合型的預測模型可有效的應用在財務領域中，改良預測模型的精準度，且可應付不規則的短期時間序列問題；Chiu and Chen [22] 則以遺傳演算法針對各項技術指標對於影響力的時間持續性建構模糊函數，藉以動態調整各項指標對於市場的分析能力。因此本論文將以遺傳演算法改良模糊理論，藉由演化機制找出最符合資料建構模型的模糊函數，並以該函數重新調整輸入資料強化重要的數值區間，使分析模型符合資料的真實意義，得到更精確的分析成果。. 13.

(21) 3. 遺傳演算法(Genetic Algorithm, GA) 人工智慧領域中，遺傳演算法被認為是相當重要的一項研究。在 1975 年由密西根大學的 Holland 所提出，依據達爾文進化論中「物競天擇，適者生存」理論而來。遺傳演算法借鑑生物演化的規則，模擬自然界演化過程所建立之計算模式。演化的過程可細分為：選擇（selection）、交配（crossover）與突變（mutation）三項主軸來完成（Bäck, Fogel. & Michalewicz [47-48]; De Jong [49]; Goldberg [50]; Mitchell [51]; Srinivas & Patnaik [52] ）。遺傳演算法適合用於有效地解決最佳化問題，透過將問題的可能解答編碼表示成為染色體，產生一定數量的候選解族群（population of candidate solutions）進行演化。. Pereira [53]指出，財務領域研究中，染色體由二進制表示法組成效果會優於其他表示方法，透過連續數代的演化過程將不適應的因素淘汰，保留較佳的基因組成延續至後代。對每一代產生的候選解評估個體的環境適應值，在當前的候選解中隨機挑選產生可能的最佳解，經過評估與演化產生新的子代完成演化目的。遺傳演算法的演化方式眾多，本論文依據過去相關文獻之成果設定演化步驟。首先，以隨機方法產生一組可能的候選解，將根據最佳化問題定義之適應函數（fitness. function）計算出每組個體的適應值。選擇較為優秀的候選解作為演化親代有利於複製良好基因以找出最佳解。常見的選擇方法有輪盤法 [50]（roulette wheel）及競賽法 [51] （tournament）兩種，本論文以競賽法選擇演化親代，隨機挑選兩組染色體進行評估，保留適應值較佳的染色體作為演化親代。兩組親代透過交配及突變的演化過程產生新的子代，當所產生之子代數目與親代相同時，一個世代的演化完成。再經由定義的判斷準則決定是否繼續進行演化過程或終止演化。演化流程如圖 5 所示：. 14.

(22) 圖 5. 遺傳演算法流程圖其中，交配為演化過程中相當重要的關鍵之一，如以單點交配（ one point 、雙點交配（two point crossover）或均勻交配（uniform crossover）方法 [51]， crossover）對篩選出較優秀的兩組親代進行交配。本論文設定交配機率（crossover rate）為 70%，使用單點交配進行演化。單點交配的方法如圖 6 所示，隨機產生基因中的交配位置，當符合交配條件的情況出現，將兩組基因組成對調，產生新一代具有可能是優秀條件基因之個體。當演化結果漸趨收斂，可以預見所產生個體之基因組成將非常相似，因此透過此交配方式同樣能夠保留優秀的基因組成傳遞至新一代個體，維持良好的適應成果。. 圖 6. Crossover 示意圖. 15.

(23) 為避免因初始值設定為隨機產生候選解進行演化，其演化結果受初始值內在特性影響導致缺乏完整代表性，遺傳演算法採用模擬生物突變機制解決可能出現的區域最佳解問題及增加染色體之多樣性。當符合突變條件之下，對子代的基因進行突變。本論文設定的突變機率（mutation rate）為 5%，二進制編碼的突變機制採取 0/1 互換方法，藉由突變機制改變其基因表現。如圖 7 所示，原本基因表現為 1 的基因單元，經由突變機制使其基因表現反轉為 0，反之亦然。. 圖 7. Mutation 示意圖. 藉由上述演化過程，遺傳演算法便能夠有效率的找出特定條件下符合整體情況的近似最佳解。然而，演化的終止條件如何定義也是十分重要的環節之一，傳統上依照個體間的收斂情形來判定演化是否完成，當群體收斂至某種程度下便可認定已達成演化目的。但基於計算的複雜度考量，本論文以統計實驗結果決定演化的終止世代數目作為終止條件。從實驗的觀察可以發現，絕大多數候選解在設定的終止條件下皆趨近收斂。圖. 8 為遺傳演算法的完整步驟。. 步驟 1. 隨機產生一組有l 個個體的初始族群，每個個體各自存在n-bits 的遺傳型基因(染色體)。步驟 2. 評估每個個體的適應性強度。步驟 3. 重複如下運算直到有l 個後代子孫被產生: i. 選擇一對雙親來交配。 ii. 採取變異的操作(包含基因突變與重組)。步驟 4. 以此l 個新產生的子孫取代原有l 個個體的初始族群，成為一個新的族群。步驟 5. 回到第二步驟，直到終止條件結束。. 圖 8. 遺傳演算法步驟. 16.

(24) 四、實驗方法 1. 實驗對象本論文以 1995 年到 2009 年的台灣股市作為研究目標，設定每年台灣證券交易所（Taiwan Stock Exchange）中市值最高的前兩百家企業做為研究對象。資料來源為TEJ （Taiwan Economic Journal Co. Ltd., http://www.tej.com.tw/）資料庫公佈的每股財務狀況資訊與營收資料進行分析比較。在財務領域中用以分析公司潛力的資訊非常多元，在此以基本分析指標（fundamental. variables）作為分析個股市場價值的財務資料。各項基本分析指標可以代表該公司股價在市場的合理性（rationality）、成長潛力（growth）、收益性（profitability）、流動性（liquidity）、效率性（efficiency）及槓桿作用（leverage）。本論文從中挑選十五項基本分析指標作為分析資訊，其中包含代表股價合理性的本益比（price-to-earnings ratio）、股價淨值比（price-to-book ratio）、股價營收比（price-to-sales ratio），代表成長潛力的營業利益成長率（operating income growth rate）、稅後淨利成長率（net income growth. rate），代表收益性的稅後淨值報酬率（return on equity）、資產報酬率（return on asset）、營業利益率（operating profit margin）、利潤邊際（net profit margin），代表流動性的流動比率（current ratio）、速動比率（quick ratio）、現金流量比（cash flow ratio），代表效率性的存貨周轉率（inventory turnover rate）、應收帳款周轉率（receivables turnover. rate）以及代表槓桿作用的負債淨值比（debt-to-equity ratio）。過去已有相當多研究運用基本分析指標進行市場分析，其中包含 Lewellen [57],. Fama and French [58], Hjalmarsson [59], Omran[60], Bauer et al. [61], Soliman [62], Carnes [63], Ikenberry and Lakonishok [64]，以及 Sadka [65] 等研究皆證實基本分析指標與股價間的報酬有密不可分的關係。根據上述研究整理出表 1 分別說明股市的六項特徵，及十五項基本分析指標的計算公式及完整敘述。. 17.

(25) 表 1. 十五項基本分析指標 Attribute. Ratios. Description. Ref.. 本益比 Price-to-earnings ratio = share price / earnings per share. [54, 56-57, 59]. Price-to-book ratio = share price / book value per share. [54-58]. Price-to-sales ratio = share price / sales per share. [54]. Return on equity (after tax) = net income after tax / shareholders’ equity. [60-61]. Return on asset (after tax) = net income after tax / total assets. [60]. Operating profit margin = operating income / net sales. [62]. Net profit margin = net income after tax / net sales. [61]. Debt-to-equity ratio = total liabilities / shareholders’ equity. [60]. Current ratio = current assets / current liabilities. [60]. Quick ratio = quick assets / current liabilities. [60]. Cash flow ratio = net cash flow from operating activity / current liabilities. [60]. Inventory turnover rate = cost of goods sold / average inventory. [60]. Receivables turnover rate = net credit sales / average accounts receivable. [63]. (PE ratio) 合理性. 股價淨值比. (Rationality). (PB ratio) 股價營收比 (PS Ratio) 稅後淨值報酬率 (ROE) 資產報酬率. 收益性 (ROA) (Profitability) 營業利益率 (OPM) 利潤邊際 (NPM) 槓桿作用. 負債淨值比. (Leverage). (DE ratio) 流動比率 (CR). 流動性. 速動比率. (Liquidity). (QR) 現金流量比 (CF ratio) 存貨周轉率 (ITR). 效率性應收帳款 (Efficiency) 周轉率 (RTR) 營業利潤 Operating income growth rate = (operating income at the current year – 成長率. [64] operating income at the previous year) / operating income at the previous year. 成長潛力. (OIG). (Growth). 稅後淨利 Net income growth rate = (net income after tax at the current year – net income 成長率. [65] after tax at the previous year) / net income after tax at the previous year. (NIG). 18.

(26) 2. 實驗架構透過所選出的十五項基本分析指標作為特徵輸入變數，將運用支援向量機的學習能力建構出一套選股模型。首先針對基本分析指標的數值進行標準化（standardization），使各項指標的數值範圍皆落在[-1,1]之間。標準化的標準做法是減去該指標範圍的平均數，再除以其標準差。藉由這樣的方式可以消彌各指標間的差距，預防因指標原始數值差距過大所導致的錯誤判斷，標準化計算公式如下： z=. x−μ. σ. (22). 其中 z 為藉由標準化調整過後的數值，x 為原始數值，μ為指標範圍的平均數而σ則為指標範圍的標準差。運用模糊理論所建構的函數重新調整各指標內部數值。由於各項基本分析指標所代表股市的意義都不盡相同，因此本論文將對十五組基本分析指標分別建構獨立的模糊函數，根據模糊函數的定義重新調整指標，找出最具潛力的指標範圍並加強其影響力，透過這樣重新調整的方法強化選股模型的精準度，從實驗結果也可證實運用模糊函數重新調整過的資料會比沒有用模糊函數的原始資料更容易找出合適的選股模型進行分析。在先前的內容中提到，模糊系統的運用需要搭配學習式方法加以改良，因此本論文將以遺傳演算法來定義模糊函數的建構，藉由訓練期間學習的資訊找出合適的模糊函數用以調整資料。經由上述兩項調整機制後，將調整過的十五項基本分析指標作為特徵變數輸入支援向量機模型進行分析。支援向量機除了在分類問題上有顯著的成效，其所建構之模型更延伸至用以評估、衡量及預測問題。包含由 Drucker et al. [44] 所提出的另一項支援向量機版本，支援向量回歸 SVR （support vector regression）。支援向量回歸的目標是找出一套函數，使其最接近所提供的訓練資料，藉由此方法降低預測錯誤，當預測錯誤降低可同時減少過度演化之風險。本論文主要將選股重點擺在分析未來各股之間的相對收益能力，藉由支援向量回歸所建構的模型與輸入的特徵資料分析比較，輸入可代表股市 19.

(27) 六大面向的基本分析指標預測各股在未來可能的獲利情形，以預測結果對研究目標做相對的排序決定，挑選相對優秀的股票做為未來的投資標的。更詳細的說明本論文的選股方法，運用支援向量回歸來預估i股在時間t時的資產收益為yi, t (V, λ) ∈R， for i = 1,….,n，其中V與λ分別代表輸入的特徵以及支援向量機的. kernel參數。由於選股問題並不需要精確的預測各股未來收益，因此本論文以預估計算代表該股未來的可能收益，挑選較具成長潛力的股票做為投資標的。以下定義藉由所建構的模型預估該股收益之排序方法:. αi, t (V, λ) = ρ(yi, t (V, λ)),. (23). 其中，αi, t ∈ N代表i股在時間t時之排序結果，若yi, t ≥ yj, t則αi, t ≥ αj, t。藉由上述的排序方法便可挑選較為優秀的前 m 支股票做為投資標的，在此以平均收益（average return）作為衡量該投資組合獲利成效之標準。平均收益的計算方法是加總所選各股的真實收益表現再除以所挑選之股票總數，其定義如下:. Rt =. 1 m. m. ∑ R (s t. i ,t. ). i =1. (24). 其中，si, t代表在時間t時排名在第i名的股票；Rt(⋅)則說明該股在時間t時的真實收益表現以及 R t 為在時間t時挑選前m支股票的平均收益表現。本論文以累計總收益（cumulative total return）評估選股模型，Rc代表該選股模型在歷經連續數年後其資產總成長倍數，透過計算各年度的平均收益 R t 相乘即為該模型經過n年後的資產累計成長收益，累計總收益的計算方法如下: n. Rc = ∏ Rt t =1. (25). 本論文運用支援向量迴歸分析各股未來收益表現，以正規化方法及模糊理論重新調整用以建構模型之參考特徵，計算出代表各股將來收益的預估值。排序過後挑選出優秀的組合做為該模型之投資標的，並透過累計總收益來衡量該模型之選股成效與其投資的整體收益表現。. 20.

(28) 3. 模型最佳化建構在支援向量機上的選股模型其精準度取決於輸入的學習資料及模型的相關參數，因此本論文以最佳化各項模型參數與特徵選取來強化此模型之有效性，透過遺傳演算法同步進行上述問題的最佳化。對於輸入的學習資料進行特徵選取相當重要，藉由特徵選取可挑選出能夠代表市場價值的基本分析指標，從中篩選出重要的資訊加以保留，刪除不必要的重複資訊與可能導致判斷失誤的錯誤雜訊。在特徵選取的方法上，主要分為 filter 與 wrapper 兩大類。第一類型 filter 方法 [66,67] 以訊息原理進行計算，根據屬性間的訊息量及相依性對特徵輸入參數進行篩選動作，由於不與建構模型的演算法產生關聯，在特徵選取時間花費上相對較少。本論文採用. wrapper 方法 [68,69]，將機器學習嵌入特徵選取的機制當中，藉由觀察其運作結果的優劣來篩選參考的特徵值。相較於利用訊息原理計算屬性間資訊量或關連性來達成的 filter 方法，相關的研究認為 wrapper 方法雖然需要較多的運作時間，但運算結果也較為正確. [27, 28 ,68-70]。本論文建構的分析模型需要藉由兩種不同類型參數來調整其預測精準度，分別是用以調整各項基本分析指標的模糊參數與用來建構支援向量機的 kernel 參數。透過模糊理論來調整基本分析指標的數值關係需先建構合適的模糊函數，由於各項基本分析指標所代表的意義皆不相同，因此本論文分別對單一的基本分析指標建構獨立的模糊函數。常見的模糊函數有三角形、梯形及高斯模糊函數，本論文實驗結果顯示三角形與梯形的調整效果非常類似且皆優於高斯模糊函數，可能的主因為高斯函數長寬比例較為固定，缺乏調整彈性。而其中又以三角模糊函數的調整效果最為顯著，因此選擇以三角形模糊函數調整基本分析指標之數值。三角形模糊函數需先定義三角形的起始點，制高點及終點來建構對應的模糊函數，運用遺傳演算法最佳化模糊函數的三角定點找出最合適的調整方法。正規化後各項基本分析指標的數值皆落在[-1,1]區間，遺傳演算法將演化出最合適的調整函數，找出位在數值範圍中模糊函數的起始點、制高點與終點。藉由模糊函數 21.

(29) 的調整機制，使各項基本分析指標能夠更合適的反應其市場真實價值，用以建構精準度更高的預測分析模型。能夠影響支援向量機分類能力的參數眾多，本論文選擇支援向量機用以進行誤差處理相關的懲罰係數 C 與 kernel point 做為調整參數，藉由遺傳演算法找出最合適的數值作為支援向量機建構模型之依據。透過遺傳演算法的演化，支援向量機所建構的模型將更符合選股問題需求，以完成更準確的預測分析。本論文以遺傳演算法同步對選股模型進行特徵選取與參數最佳化，將設定的選股問題進行編碼，透過染色體的演化完成最佳化步驟。染色體的編碼主要分成四個區塊；第一區塊進行特徵選取，二進制編碼方式將被選取的特徵值以編碼 1 表示，反之編碼為 0 即表示未被選為建構模型之特徵值。第二區塊對支援向量機的懲罰係數C進行編碼，從 n. bC1 到 bCC 共nC個位元將二進制表示的染色體轉換到其對應的搜尋範圍，如下列轉換公式所示：. y = min y +. d × (maxy − min y ) 2l − 1. (26). 其中y為轉換後對應的參數結果，miny與maxy則分別表示對應參數的範圍，d為對應該區段編碼的十進制數值，l為編碼區塊的長度。藉由這樣的編碼方式可推導出對應的參數。第三區塊如同第二區塊的方式對kernel point進行編碼。第四區塊則為模糊參數做編碼的動作，以第二區塊相同的方式進行編碼，各項單獨的基本分析指標皆需三個參數才能建構模糊函數，因此對於十五筆基本分析指標總共需要建構十五組獨立的模糊函數。藉由以上的編碼方法，可將本論文所關注的選股問題完整表達，並且透過轉換結果可建構出屬於該基因組成所代表的選股模型，經歷一連串的演化機制後便可找出適合的選股模型加以驗證。為評估上述編碼方式所建構的選股模型是否具備分析市場能力，本論文以年均化收益（annualized return）作為遺傳演算法的適應函數。遺傳演算法以適應函數做為基準挑選適應能力較佳的染色體繁衍後代，藉由這樣的篩選機制可將優秀的個體特徵延續至後代達到最佳化目的。因此適應函數需正確反映所設定問題的真實需求，透過此方式來判 22.

(30) 斷染色體的環境適應能力。年均化收益是計算各模型在設定的交易期間之整體平均收益表現，對先前所計算出的累計總收益 Eq.(25)進行年均化的動作，計算出平均每年的成長報酬率，計算方法如下:. fitness = n Rc. (27). 其中，Rc 代表累計總收益的比現，n 為該模型在市場的交易總年數。遺傳演算法藉由編碼將問題轉換到相對應的染色體表現上，本論文透過編碼方式將特徵選取與參數最佳化問題進行編碼，如圖 9 所示。並以年均化收益做為適應函數找出最適合的選股模型，完成最佳化問題。接著將以真實世界的股市交易情況進行驗證，以所設計的實驗方法證明此選股模型之有效性與可行性。. 圖 9. 染色體編碼. 23.

(31) 4. 實驗結果本論文使用前一年台股市值前兩百家公司的基本分析指標作為財務資料，以支援向量機建構訓練模型，並以訓練所得之模型對這兩百家公司在該年度收益表現進行分析，藉由分析結果判斷最有潛力的公司做為投資標的。此外以兩百家公司的平均收益作為比較基準，找出可優於大盤績效表現的選股模型。首先針對模型最佳化問題進行驗證，此部分將分成四種不同情況，分別就特徵選取與支援向量機的 kernel 參數最佳化之必要性設計實驗：(1)以固定的 kernel 參數搭配所有的特徵資料建構選股模型；(2)以遺傳演算法最佳化 kernel 參數搭配所有的特徵資料建構選股模型；(3)以遺傳演算法進行特徵選取並搭配固定的 kernel 參數建構選股模型；. (4)以遺傳演算法對選股模型進行特徵選取與 kernel 參數的最佳化；藉由上述的方法將可證明選股模型最佳化之重要性。. (1) 以固定的 kernel 參數搭配所有的特徵資料建構選股模型這部分採用先前支援向量機相關研究所提出的建議設定，以高斯函數建構選股模型，並嘗試不同的建議參數找出較為合適的比較模型。其中驗證的參數組合包含 (C,. kernel point) = (100, 25), (25, 100)所建構的支援向量機模型。圖 10 為 kernel 參數(100, 25) 以及所有特徵資料建立的選股模型自 1996 年到 2010 年期間分別以選股策略中前十股、前二十股以及前三十股做為投資標的之累計交易情形，與大盤進行比較可發現交易期間結束後選擇前二十股及前三十股的投資策略可優於大盤的累計獲利；圖 11 表示 kernel 參數為(25, 100)的選股模型累計收益情形，圖中顯示選擇十股、二十股及三十股的交易策略皆可優於大盤。從以上的實驗可證實支援向量機的確可用以建構適當的選股模型，在接下來的研究中將以 kernel 參數(25, 100)作為預設組合與其他方法進行比較。. 24.

(32) 圖 10.. 大盤與選股策略累計收益比較(C, kernel point) = (100, 25). 圖 11.. 大盤與選股策略累計收益比較(C, kernel point) = (25, 100) 25.

(33) (2) 最佳化 kernel 參數搭配所有的特徵資料建構選股模型如同先前提到的最佳化需求，第二部分將要驗證對於 kernel 參數的最佳化是否能夠強化所建構的選股模型分析效能，在此以遺傳演算法最佳化 C 與 kernel point 兩項 kernel 參數，兩項參數的搜尋範圍皆為 1 到 10000，從中找出合適的參數組合建構選股模型。這部分本論文總共實做五十次實驗，每次實驗皆以終止條件設定為五十代的遺傳演算法來最佳化選股模型，在每次實驗中挑選出該世代最好的收益表現（best-so-far）代表選股模型之績效。圖 12 為五十組最佳化選股模型中的一組實例，在 1996 年到 2010 年期間該選股模型在市場交易的累計收益表現，其 kernel 參數組合為(C, kernel point) = (8987,. 2707)。結果顯示藉由遺傳演算法最佳化 kernel 參數的選股模型不僅在三種選股策略皆優於大盤的收益表現，且最佳化 kernel 參數的方法也可打敗以固定 kernel 參數所建構的選股模型，達到最佳化選股模型的目標。. 圖 12. 大盤與選股策略累計收益比較(C, kernel point) = (8987, 2707). 26.

(34) (3) 以特徵選取並搭配固定的 kernel 參數建構選股模型第三部分要以遺傳演算法對選股模型的特徵做篩選，搭配第一部分所得到最佳的. kernel 參數組合(C, kernel point) = (25, 100)，驗證特徵選取的重要性。這部分本論文總共實做五十次實驗，每次實驗皆以終止條件設定為五十代的遺傳演算法來最佳化選股模型，在每次實驗中挑選出該世代最好的收益表現（best-so-far）。圖 13 為五十組最佳化選股模型中的一組實例，在 1996 年到 2010 年期間該選股模型在市場交易的累計收益表現。結果顯示藉由遺傳演算法對選股模型進行特徵選取所帶來的幫助遠超過對 kernel 參數進行最佳化的結果。從圖中可明顯觀察到以特徵選取最佳化的選股模型對其效能有十分顯著的成長，與第二組實驗結果進行比較，單做 kernel 參數最佳化的選股模型在選擇前十股做為投資目標的收益表現在實驗結束時大約成長 3.5 倍，然而以特徵選取搭配固定的 kernel 參數實驗中選擇前十股的收益在實驗結束可成長至 20 倍的報酬。. 圖 13. 大盤與選股策略累計收益比較(C, kernel point) = (25, 100)，對輸入變數進行特徵選取 27.

(35) (4) 以遺傳演算法對選股模型進行特徵選取與 kernel 參數的最佳化透過以上兩個實驗證實遺傳演算法分別對選股模型進行特徵選取與 kernel 參數的最佳化都可為投資策略帶來相當程度的輔助，其中又以特徵選取的效果最為明顯。因此在最後這個部份將測試同時對選股模型進行參數最佳化與特徵選取是否也會如同先前實驗結果一般有效提升選股模型的效能。. 這部分的實驗同樣實做五十次，每次皆以終止條件五十代的遺傳演算法最佳化選股模型，圖 14 將呈現每一世代五十次實驗的平均收益表現成果；其中垂直的線段代表. 95-percent 的信任區間，從圖中可得知同時對模型進行特徵選取與參數最佳化可快速模型找出最合適選股方式。圖 15 為五十組最佳化選股模型中的一組實例，在 1996 年到. 2010 年期間該選股模型在市場交易的累計收益表現其 kernel 參數組合為(C, kernel point) = (6951, 790)。藉由這個例子可證明此方法具備找出相當優秀選股模型的能力，其所能夠帶來的資產成長相當可觀。. 圖 14. 演化五十代的 Best-so-far 曲線 28.

(36) 圖 15. 大盤與選股策略累計收益比較(C, kernel point) = (6951, 790)，對輸入變數進行特徵選取藉由以上四組實驗證實遺傳演算法能夠達到最佳化選股模型目標，為驗證選股策略的實用性，本論文將修改驗證方法 cross validation 加入時間順序的觀念，設計一套更符合真實財務情況的實驗系統。上述的選股模型皆是以 1995 年到 2009 年的財務資訊進行訓練，從中找出符合全部訓練期間的選股模型，再以該模型分析後一年各家股票的成長潛力，挑選優秀的企業做為投資標的。有別於傳統 cross validation 以隨機將資料分成訓練期及測試期的方法，本論文參考時間連續性的觀念，將時間序列上過去的資料做為訓練期用以建構選股模型，再以接下來的時間做為測試期驗證該模型的可行性。這樣設計目的在於以測試期間的資訊來驗證所訓練的選股模型之實用性，透過測試期間收益表現用以判斷該選股模型的分析效能。圖 16 說明本實驗設計的驗證方法，其中白色部分代表用以建構選股模型的訓練期，藍色部分則為驗證的測試期。舉例說明，在個案 1 中以. 1996 年的財務資訊建構選股模型，再以該模型分析 1997 年到 2009 年各家公司資料，選擇投資組合驗證該模型的收益表現。 29.

(37) Years. Case Index.. 1. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 2. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 3. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 4. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 5. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 6. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 7. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 8. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 9. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 10. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 11. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 12. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 13. 96. 97. 98. 99. 00. 01. 02. 03. 04. 05. 06. 07. 08. 09. 圖 16. 實驗設計模型，白色為訓練期，深藍色為測試期. 圖 16 設計十三組不同訓練組合驗證本論文所提出的選股策略在真實投資環境中是否具備可行性，在現實情況下只能參考過去資料，並套用所訓練的模型進行獲利分析，驗證模型在下一階段時間的實用性。本論文針對這部份實驗再分成兩種不同情況進行比較：(1) 使用原始財務資料建構選股模型；(2) 運用模糊理論重新調整財務資料建構選股模型；驗證模糊理論對所建構模型之精確度是否具備提升效果。分別以兩種資訊建構選股模型，再細分成以前十股、前二十股及前三十股做為投資組合目標，以三種不同目標建構選股模型，並以改良後的實驗系統驗證本論文所提出的選股模型是否具備應付真實世界投資環境的可行性。. 30.

(38) (1) 使用原始財務資料建構選股模型使用訓練時期各家公司原始的基本分析指標資料進行標準化，再輸入支援向量機建構選股模型，並將選股模型帶入測試期驗證模型績效。表 2 為以最具潛力的前十股做為投資標的，在十三組實驗中分別建構五十組模型進行分析比較的統計結果，其中包含五十組模型的年均化收益平均值與變異數在訓練期間與測試期間的收益表現，在訓練期所有實驗皆可找出平均優於大盤的選股模型。在測試期間十三組實驗中有六組的實驗平均收益可打敗大盤，但由於只挑選分析結果的前十支股票做為投資標的，所蘊含的風險仍然偏高。表 3 及表 4 分別為以前二十股與前三十股作為投資組合的驗證結果，選擇前二十股作為投資標的實驗中有八組實驗可以打敗大盤。選擇前三十股作為投資標的實驗中同樣也是九組實驗可優於大盤的平均收益表現。當選擇投資標的數目增加時，選股模型的變異數隨之遞減，代表選擇較多的投資目標將有助於分散錯誤風險。. 表 2. 大盤與 SVM-GA 選股策略(選擇前 10 股)統計結果 Case Index. 訓練期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 測試期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 1. 1996. 1.272615. 1.533070. 0.005956. 1997-2009. 1.030998. 1.042006. 0.001042. 2. 1996-1997. 1.501712. 1.743054. 0.033821. 1998-2009. 0.985499. 1.013631. 0.001439. 3. 1996-1998. 1.203519. 1.335845. 0.007963. 1999-2009. 1.007499. 1.058239. 0.001568. 4. 1996-1999. 1.152308. 1.326968. 0.004982. 2000-2009. 1.007112. 1.053569. 0.001739. 5. 1996-2000. 1.075984. 1.213870. 0.003960. 2001-2009. 1.030655. 1.069195. 0.002387. 6. 1996-2001. 0.979111. 1.128301. 0.001269. 2002-2009. 1.100290. 1.137858. 0.001679. 7. 1996-2002. 1.011956. 1.182605. 0.000831. 2003-2009. 1.082473. 1.071756. 0.002256. 8. 1996-2003. 1.032321. 1.205808. 0.001408. 2004-2009. 1.065995. 1.053051. 0.002021. 9. 1996-2004. 1.028885. 1.219243. 0.001737. 2005-2009. 1.079320. 1.034641. 0.000922. 10. 1996-2005. 1.033265. 1.211333. 0.001388. 2006-2009. 1.080770. 1.009633. 0.001054. 11. 1996-2006. 1.044655. 1.230217. 0.001161. 2007-2009. 1.053859. 0.902424. 0.000847. 12. 1996-2007. 1.074861. 1.220507. 0.000692. 2008-2009. 0.892096. 0.842929. 0.000930. 13. 1996-2008. 1.044458. 1.166711. 0.000542. 2009. 1.075146. 0.989523. 0.004252. 31.

(39) 表 3. 大盤與 SVM-GA 選股策略(選擇前 20 股)統計結果 Case Index. 訓練期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 測試期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 1. 1996. 1.272615. 1.451544. 0.001206. 1997-2009. 1.030998. 1.064942. 0.001189. 2. 1996-1997. 1.501712. 1.827545. 0.019570. 1998-2009. 0.985499. 1.038424. 0.000639. 3. 1996-1998. 1.203519. 1.363017. 0.003801. 1999-2009. 1.007499. 1.065379. 0.000900. 4. 1996-1999. 1.152308. 1.371220. 0.001677. 2000-2009. 1.007112. 1.062986. 0.000890. 5. 1996-2000. 1.075984. 1.249054. 0.000483. 2001-2009. 1.030655. 1.082074. 0.001089. 6. 1996-2001. 0.979111. 1.145359. 0.000593. 2002-2009. 1.100290. 1.136017. 0.001486. 7. 1996-2002. 1.011956. 1.177289. 0.000552. 2003-2009. 1.082473. 1.112375. 0.001565. 8. 1996-2003. 1.032321. 1.201993. 0.000396. 2004-2009. 1.065995. 1.092341. 0.000524. 9. 1996-2004. 1.028885. 1.201831. 0.000935. 2005-2009. 1.079320. 1.077192. 0.000637. 10. 1996-2005. 1.033265. 1.197368. 0.000790. 2006-2009. 1.080770. 1.056203. 0.000657. 11. 1996-2006. 1.044655. 1.216109. 0.000564. 2007-2009. 1.053859. 0.970190. 0.000615. 12. 1996-2007. 1.074861. 1.212540. 0.000273. 2008-2009. 0.892096. 0.878181. 0.001121. 13. 1996-2008. 1.044458. 1.166708. 0.000323. 2009. 1.075146. 1.037623. 0.004451. 表 4. 大盤與 SVM-GA 選股策略(選擇前 30 股)統計結果 Case Index. 訓練期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 測試期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 1. 1996. 1.272615. 1.392566. 0.001387. 1997-2009. 1.030998. 1.074815. 0.000387. 2. 1996-1997. 1.501712. 1.817002. 0.017011. 1998-2009. 0.985499. 1.045235. 0.000250. 3. 1996-1998. 1.203519. 1.369032. 0.003591. 1999-2009. 1.007499. 1.069122. 0.000564. 4. 1996-1999. 1.152308. 1.359654. 0.001960. 2000-2009. 1.007112. 1.056321. 0.000536. 5. 1996-2000. 1.075984. 1.235796. 0.000678. 2001-2009. 1.030655. 1.080895. 0.000617. 6. 1996-2001. 0.979111. 1.133677. 0.000416. 2002-2009. 1.100290. 1.135284. 0.000788. 7. 1996-2002. 1.011956. 1.163003. 0.000551. 2003-2009. 1.082473. 1.116887. 0.000907. 8. 1996-2003. 1.032321. 1.187849. 0.000383. 2004-2009. 1.065995. 1.093035. 0.000553. 9. 1996-2004. 1.028885. 1.187777. 0.000664. 2005-2009. 1.079320. 1.074548. 0.000331. 10. 1996-2005. 1.033265. 1.182146. 0.000312. 2006-2009. 1.080770. 1.067056. 0.000549. 11. 1996-2006. 1.044655. 1.197381. 0.000271. 2007-2009. 1.053859. 0.998326. 0.000807. 12. 1996-2007. 1.074861. 1.193889. 0.000176. 2008-2009. 0.892096. 0.897341. 0.000580. 13. 1996-2008. 1.044458. 1.150045. 0.000227. 2009. 1.075146. 1.068356. 0.004290. 32.

(40) (2) 運用模糊理論重新調整財務資料建構選股模型這部份以經由模糊理論從新調整的資料數據進行分析，將調整過後的數據輸入支援向量機，再以本論文所提出的最佳化方法建構完整選股模型，藉由與前一部份未經模糊理論調整的實驗結果比較，驗證模糊理論為選股模型帶來更精確的分析效能。表 5 為本論文所提出的選股模型以選擇最具潛力前十家公司做為投資組合的實驗結果。在十三項實驗中有七次皆可優於大盤的收益表現，高於先前未經模糊理論調整之選股策略，並且有八次的收益表現優於前一部份的實驗結果。從中可證明模糊理論可提升選股模型的精準度，找出更合適的投資組合做為目標，所帶來的收益表現同樣優於其他方法。表 6 為選擇前二十股做為投資標的實驗結果，在十三次實驗中十一次優於大盤，並且有八次的收益表現會優於未經模糊函數調整之結果。表 7 為選擇前三十股實驗結果，有十次收益表現優於大盤，與未經模糊函數調整的方法比較有七次可打敗先前的選股策略。表 5. 大盤與 Fuzzy-SVM-GA 選股策略(選擇前 10 股)統計結果 Case Index. 訓練期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 測試期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 1. 1996. 1.272615. 1.687435. 0.006655. 1997-2009. 1.030998. 1.030002. 0.002957. 2. 1996-1997. 1.501712. 2.249706. 0.117711. 1998-2009. 0.985499. 1.036011. 0.001985. 3. 1996-1998. 1.203519. 1.603009. 0.031082. 1999-2009. 1.007499. 1.046092. 0.003125. 4. 1996-1999. 1.152308. 1.559214. 0.021467. 2000-2009. 1.007112. 1.043269. 0.001598. 5. 1996-2000. 1.075984. 1.390452. 0.008505. 2001-2009. 1.030655. 1.069848. 0.003598. 6. 1996-2001. 0.979111. 1.252544. 0.004547. 2002-2009. 1.100290. 1.124959. 0.004115. 7. 1996-2002. 1.011956. 1.293485. 0.005124. 2003-2009. 1.082473. 1.094058. 0.004762. 8. 1996-2003. 1.032321. 1.318391. 0.005833. 2004-2009. 1.065995. 1.082704. 0.002884. 9. 1996-2004. 1.028885. 1.355652. 0.005425. 2005-2009. 1.079320. 1.072467. 0.002260. 10. 1996-2005. 1.033265. 1.343936. 0.007785. 2006-2009. 1.080770. 1.045561. 0.003158. 11. 1996-2006. 1.044655. 1.360265. 0.004852. 2007-2009. 1.053859. 0.922324. 0.001842. 12. 1996-2007. 1.074861. 1.309132. 0.004194. 2008-2009. 0.892096. 0.873215. 0.002166. 13. 1996-2008. 1.044458. 1.261718. 0.001909. 2009. 1.075146. 1.068136. 0.010628. 33.

(41) 表 6. 大盤與 Fuzzy-SVM-GA 選股策略(選擇前 20 股)統計結果 Case Index. 訓練期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 測試期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 1. 1996. 1.272615. 1.554720. 0.001908. 1997-2009. 1.030998. 1.042500. 0.001668. 2. 1996-1997. 1.501712. 2.108629. 0.055287. 1998-2009. 0.985499. 1.046589. 0.001759. 3. 1996-1998. 1.203519. 1.528479. 0.012720. 1999-2009. 1.007499. 1.070417. 0.002519. 4. 1996-1999. 1.152308. 1.471036. 0.006447. 2000-2009. 1.007112. 1.054357. 0.001496. 5. 1996-2000. 1.075984. 1.358964. 0.005793. 2001-2009. 1.030655. 1.072785. 0.001633. 6. 1996-2001. 0.979111. 1.210635. 0.001863. 2002-2009. 1.100290. 1.136346. 0.003485. 7. 1996-2002. 1.011956. 1.252214. 0.002449. 2003-2009. 1.082473. 1.114300. 0.002644. 8. 1996-2003. 1.032321. 1.266317. 0.003408. 2004-2009. 1.065995. 1.097808. 0.001733. 9. 1996-2004. 1.028885. 1.296451. 0.003172. 2005-2009. 1.079320. 1.087529. 0.001180. 10. 1996-2005. 1.033265. 1.298126. 0.002415. 2006-2009. 1.080770. 1.050412. 0.001006. 11. 1996-2006. 1.044655. 1.308053. 0.002517. 2007-2009. 1.053859. 0.956178. 0.001760. 12. 1996-2007. 1.074861. 1.276751. 0.002265. 2008-2009. 0.892096. 0.899116. 0.000942. 13. 1996-2008. 1.044458. 1.228933. 0.001600. 2009. 1.075146. 1.083443. 0.002318. 表 7. 大盤與 Fuzzy-SVM-GA 選股策略(選擇前 30 股)統計結果 Case Index. 訓練期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 測試期間. 大盤年均化收益. 選股策略年均化收益平均值. 選股策略年均化收益變異數. 1. 1996. 1.272615. 1.484672. 0.001476. 1997-2009. 1.030998. 1.061143. 0.002299. 2. 1996-1997. 1.501712. 2.035834. 0.017419. 1998-2009. 0.985499. 1.047062. 0.001199. 3. 1996-1998. 1.203519. 1.499685. 0.006300. 1999-2009. 1.007499. 1.066879. 0.001160. 4. 1996-1999. 1.152308. 1.444746. 0.006766. 2000-2009. 1.007112. 1.056372. 0.000963. 5. 1996-2000. 1.075984. 1.321734. 0.002294. 2001-2009. 1.030655. 1.081631. 0.001521. 6. 1996-2001. 0.979111. 1.181165. 0.001143. 2002-2009. 1.100290. 1.152027. 0.001652. 7. 1996-2002. 1.011956. 1.212785. 0.001874. 2003-2009. 1.082473. 1.126180. 0.001493. 8. 1996-2003. 1.032321. 1.252070. 0.002250. 2004-2009. 1.065995. 1.095831. 0.000681. 9. 1996-2004. 1.028885. 1.266070. 0.002804. 2005-2009. 1.079320. 1.071705. 0.000647. 10. 1996-2005. 1.033265. 1.252699. 0.001490. 2006-2009. 1.080770. 1.056733. 0.000619. 11. 1996-2006. 1.044655. 1.270802. 0.001308. 2007-2009. 1.053859. 0.972073. 0.000410. 12. 1996-2007. 1.074861. 1.255631. 0.001077. 2008-2009. 0.892096. 0.897166. 0.000477. 13. 1996-2008. 1.044458. 1.197652. 0.001062. 2009. 1.075146. 1.090510. 0.002344. 34.

(42) 藉由以上實驗方法驗證本論文所提出的最佳化選股模型可透過基本分析指標挑選投資標的帶來相當可觀的資產成長；在實用性的論證上，本論文的選股方法同樣可在大部份的情況下打敗大盤挑選合適的投資目標。圖 18 為本論文選股方法的三種投資策略以 boxplot 作統計比較，圖中顯示選擇較少的投資標的做為選股策略其結果分佈範圍較廣，代表該交易策略收益表現不夠穩定，可能承受較高的投資風險；反之，選擇較多投資標的策略將有助於降低投資風險，獲得更穩定的投資收益。此外在選擇前十股的投資策略在實驗中皆出現較高的最大值，說明在承受高風險的危機之下，交易策略也同時具備可能出現較高投資獲利的選股模型。. 圖 17. Boxplot. 35.

(43) 5. 結論本論文運用人工智慧方法處理財務領域中相當重要的課題─選股問題。運用支援向量機的學習能力作為主軸，分析台灣股市每年前兩百家公司的十五項基本分析指標。藉由模糊理論重新調整各項基本分析指標，使其充分發揮真實含意，並針對支援向量機的輸入訊息進行特徵選取與調整其 kernel 參數建構合適的選股模型。將下一年度的資訊帶入所建構之模型進行分析，從中挑選出相對優秀的公司作為投資標的。透過遺傳演算法同時對於模糊函數的建構、特徵選取以及 kernel 參數的挑選進行最佳化，藉由演化能力對可能的最佳解進行全域式搜索。由實驗結果證實本論文所提出的選股策略可有效地找出在收益表現上相當傑出的選股模型，在實用性的驗證上此方法也可在大部分的情形下超越大盤帶來更好的投資獲利。然而仍有少部份情形在實用性驗證中無法對資訊做出正確的分析，其可能原因在於本論文尚未考量市場趨勢，將股市資料視為單一趨勢會受到整體市場走向影響導致分析出現錯誤。若加入模型訓練期的篩選可能有助於解決分析錯誤的情形發生。此外，可用以分析財務市場的資訊眾多，假使運用更多項的分析資訊與不同的演算法進行比較將可建構出更符合市場情形的分析模型。本論文實證人工智慧應用於財務分析領域，並提出一組建構分析模型的選股策略。希望藉由這樣的研究同時對於財務領域與資訊領域提供更多的思考觀點與應用。. 36.