• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
44
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:利用支持向量機來預測股市

系 所 別:資訊管理學系

學號姓名:E09310006 池庭志 指導教授:吳玫瑩、徐聖訓博士

中華民國 97 年 1 月

(2)

利用支持向量機來預測股市

學生 : 池庭志 指導教授:吳玫瑩、徐聖訓博士

摘要

投資股票市場一直是吸引許多人爭相投入的經濟活動,不論是主力或 是散戶在投資時都不斷努力的擷取各種資訊、做出各種的分析;就只為希 望能預測出最適當的投資標的,以期能在股票市場中獲得最大的利潤。

在國內外已有許多學者投入股市預測的研究,過去股市預測的研究多 用時間序列或是多變量數值分析的方法,近來由於人工智慧的進展,已經 有越來越多的研究嘗試用不同的人工智慧方法來預測股市,例如以支持向 量機來進行股市的預測。

在本研究中以結合支持向量機及自我組織映射圖之股市預測方法進 行股市預測;並以七個股市指標資料進行實證,得到優於單純只使用支持 向量機所得到的預測結果。

關鍵詞:支持向量機、股市預測

(3)

誌謝

踏入職場多年以來;心中一直期望能有機會再回學校進修,感謝中華 大學資管學系增開了研究所的在職專班,讓我有這個機會能重回校園受 教,三年多的時光中要感謝系上的各位老師在課業上的各種指導、也要感 謝老師們對我們這些在職生給予更多的包容和體諒;才讓我能順利的完成 學業。

特別要感謝指導教授 徐聖訓老師;給予的指導與幫助,在我的研究 歷程中詳加指導;帶領著我完成研究,卓實讓我成長了不少,讓這三年多 的學習歷程充實而豐富,另本論文承蒙二位審查委員:吳玫瑩老師及薛榮 棠老師對於論文的內容悉心指正且提供學生寶貴的建議,在此謹致上深深 的謝意。

同時也要感謝鈺芳、鍾淵、玉娟、柏仰、建煌、惟成,這些來自各個 不同產業領域的好同學,讓我的眼界增長;也給予我許多的幫助,謝謝你 們。

也要感謝父母的支持和體諒,還有所有我工作上的長官,感謝你們在 工作上的包容和協助讓我可以順利完成這份論文,謝謝大家。

池庭志 謹誌於中華資管研究所 中華民國 97 年 1 月

(4)

目錄

摘要 ……… I 誌謝 ……… II 目錄 ……… III 圖目錄與表目錄 ……… V

第一章 緒論 ……… 1

1.1 研究背景與動機 ……… 1

1.2 研究目的 ……… 2

第二章 股市預測相關文獻探討 ……… 3

2.1、人工智慧方法預測股價 ……… 3

2.2、股價走勢預測的相關學說 ……… 7

2.2.1、基本分析 ……… 7

2.2.2、隨機漫步理論 ……… 8

2.2.3、技術分析 ……… 8

2.3、移動平均線(Moving Average) ……… 9

2.4 自我組織映射圖 ……… 10

2.5 支持向量機 ……… 13

2.6 支持向量迴歸 ……… 13

第三章 實驗設計 ……… 17

3.1 資料集 ……… 17

3.2 資料前處理 ……… 22

(5)

3.3 實驗流程 ……… 23

3.4 實驗分析 ……… 26

第四章 實驗結果 ……… 28

第五章 結論及未來研究方向 ……… 33

5.1 結論 ……… 33

5.2 未來研究方向 ……… 33

參考文獻 ……… 35

(6)

圖目錄與表目錄

圖1、SOM網路連結圖 ……… 11

圖2、SOM演算法 ……… 12

圖3、近似函數 ……… 14

圖4、LIBSVM實驗流程圖 ……… 23

圖5、LIBSVM + GHSOM實驗流程圖 ……… 25

圖6、NMSE統計量折線圖 ……… 29

圖7、MAE統計量折線圖 ……… 30

圖8、DS 統計量折線圖 ……… 31

圖9、WDS統計量折線圖 ……… 32

表1、人工智慧相關股價預測文獻整理 ……… 4

表2、移動平均線相關文獻 ……… 9

表3、GICS 產業分類系統 ……… 17

表4、各國股市資料取樣區間及資料筆數 ……… 21

表5、自變數和應變數的定義 ……… 22

表6、GHSOM參數 ……… 24

表7、模型評估的統計量 ……… 26

表8、SVM 與SOM + SVM 之預測結果比較 ……… 28

(7)

第一章 緒論

1.1 研究背景與動機

股票投資一直都是國人相當重要的理財選擇,從民國51年證交所開業、民國 77年開放證券商設立申請,證券市場的成長是非常快速的;不論是大盤或是散戶 都非常熱絡的相繼投入股市,造成股市的量與值皆屢創新高。

在股票投資已成全民運動的同時,有人提出「股市二八定律」,即所有投資 人中,只有二成的人賺錢,而八成的人都是賠錢的。也有人說投資市場的定律,

只有5%的人是贏家,至多了不起10%的人能夠順利的把別人口袋裡的錢變到自 己口袋裡。在股票投資市場裡投資失敗的例子屢見不顯,因此人們開始分析、研 究股市場,希望能預測股票價格的漲跌趨勢以選擇買賣股票的適當時機才能在股 票市場中獲利。

股票市場瞬息萬變,相關資訊流通速度快速令人望其項背,投資者如何在這 難以預測的市場中取得良好的績效,獲得較佳的報酬,是投資大眾所殷切盼望的。

(Malkiel,1997)研究將股市之所以難以預測歸咎於下列四因素:(1)隨機事件的 影響、(2)「有創意」的會計程序、(3)分析師本身能力不足、(4)最佳的分析師 職位變動很快。李政芳(民85)研究將影響因素分為政治面、金融財稅面、經貿面、

國際面、消息面、和技術面等六構面。

Business Week 指出"隨著電腦的一日千里,我們將演化到不同的世界",

這一句話意義深遠,Burton G. Malkiel 早期研究曾經利用觀察太陽黑子、數算 聖安第列斯斷層的震動,以及時間序列方法、迴歸模式等方式來預測股票市場。

但隨著人工智慧的進步,類神經網路、基因演算法、混沌理論、碎形波浪理論、

專家系統等等,新興的股市預測方式問世,預期將會為華爾街開創新局勢。

所以本研究針對股票交易這種具有時間序列及複雜特質的金融交易資料;提 出結合支持向量機及自我組織映射的預測方法,預測每日大盤的收盤股價加權指 數之漲跌。

(8)

1.2 研究目的與方法

Cao(2001)提出以結合支持向量機與自我組織映射圖的方法來進行時間序列 的資料之預測、例如太陽黑子及匯率的變化。同樣的股市資料也是屬於時間序列 的金融資料,那麼股市資料到底是否同樣適合以結合支持向量機與自我組織映射 圖的方法來進行預測呢?而且若是單純只使用支持向量機來做預測時其結果是 否會較差於結合支持向量機與自我組織映射圖的方法呢?

自我組織映射圖的方法重點在於將一群資料分為數個子集合;而且同一子集 合內的資料之間具有較高的相似性。股市的漲跌可能會受到各種事件、季節、政 策或其他種種因素的影響。為此,所以我們採用自我組織映射圖的方法將資料先 分成數個子集合;而每個子集合內的資料彼此之間具有相似的特性,以藉此反映 出股市的大盤指數受各種因素影響的結果。支持向量機在於數值預測問題上的應 用;已有許多的研究中都有採用,故而本研究結合向量機與自我組織映射圖的方 法來驗證我們的假設;亦即將資料事先經由自我組織映射圖分組之後;由於各組 內的資料之間具有較高的相似性,從而再對各組資料進行支持向量機預測,預期 會得到較高的預測準確性。

為此我們選定7個股市指標,分別是澳洲 S&P、美國 Dow Jones、香港恆生 HSI、韓國 KOSPI、日經 NIKKEI225、新加坡 STI 及 台灣的TAIEX,收集每日收 盤價整理為資料集,以結合支持向量機與自我組織映射圖的方法來進行預測其漲 跌之機率以證明此方法優於單純只使用支持向量機的預測方法。

(9)

第二章 股市預測相關文獻探討

2.1、人工智慧方法預測股價

黃永成(民 86)研究引入非量化因素,將外在環境影響因素歸納六構面:(1) 政治面、(2)金融財稅面、(3)經貿面、(4)國際面、(5)消息面、(6)技術面,並量化 技術指標以建構智慧型網路股票預測系統,對於非量化因素是以模糊德菲爾法所 作之專家問卷之原始資料,建構模糊 IF-THEN 規則與規則內模糊數,再利用基 因演算法和模糊神經網路形成,並結合技術指標之類神經網路形成一量化智慧型 預測系統兩者形成智慧型網路股票預測系統,研究發現此智慧型網路股票預測系 統的確能帶來超額報酬。

吳孟儒(民 89),利用類神經網路預測,除透過 29 種技術指標為量化因素外,

並加入投資人心理認知為非量化因素作為輸入值,以提升預測準確性。

林耀堂(民 90)研究發現基因演算法由於缺乏彈性的字串結構框架,無法跳脫 最佳區域解之窘況,故利用基因規劃法的強大彈性並採用移動視窗的搜尋最佳交 易法則,在交易法則方面,利用適應值函數將交易法則分為獲利追求導向及風險 趨避導向兩類,研究發現風險趨避導向在獲利能力優於大盤之餘並能兼顧風險考 量。

林建成(民 90)研究考慮難以設定倒傳遞類神經網路的整體架構,故利用基因 演算法求最佳參數設定。並建立一多元迴歸估計預測模式,以便作績效比較。研 究發現加入技術指標的倒傳遞類神經網路為研究中最具預測能力的模式。

周慶華(民 90)利用基因演算法與類神經網路,建構最佳化整合網路,預測摩 根台股現貨開盤指數,實證發現預測開盤漲跌正確率達 80.46%。

Kimoto & Asakawa(1990)研究利用倒傳遞類神經網路,搭配技術與經濟指標 來預測日經 TOPEX 之漲跌與買賣時機,共獲利 98%,與買入持有相較可提高 46%的投資效益。

Allen & Karjainen (1999)研究亦採用基因規劃法搜尋最佳交易法則並建議此 方法可推展到其他經濟方面或微經濟之領域,利用基因規劃法所產生的買進或賣

(10)

出的訊號進行交易,其研究結果發現不如買進並持有法則。

Kim & Han (2000)在類神經網路中可加入基因演算法,不但可改進類神經網 路學習的速度且可以減低特徵空間的複雜度,並可排除非相關的因素。研究結果 為加入特徵調整的類神經基因網路(GAFD)較倒傳遞網路(BPLT)及未加入特徵調 整的類神經基因網路(GALT)的預測準確率高 10 ~11%。

Phua et al.(2001)認為預測大盤指數能有效幫助預測個股,且倒傳遞類神經網 路能有效預測大盤,但難以設定相關參數,故可用基因演算法加以改進,其預測 準確度達 81%。

有關人工智慧相關股價預測文獻整理如表 1 所示

表 1:人工智慧相關股價預測文獻整理

年份 論文作者 研究方法 標的、輸入變數、期間 實證研究與結論

民 86 黃永成 模糊德菲 爾法,類 神經網 路,基因 演算法。

台股加權指數為標 的,利用非量化因素(6 個構面)以及量化因素 (25 個技術指標)為輸 入,從 80 年至 85 年作 為學習期跟實證期。

1、買賣績效為賺 8035 點,較大盤賺 3759 為 佳,

2、加入量化因素的確 能增加預測能力

民 89 吳孟儒 類神經網 路

台股加權指數為標 的,輸入變數為 29 種 技術指標以及十項投 資人原始知覺因素。以 89 年 10 月 1 日至 90 年 3 月之資料測試。

1、加入投資人心理認 知的非量化因素,有 效提升預測能力。

2、能有效預測大盤。

(11)

民 90 林耀堂 基因規劃 法

台積電(TSMC) 為標的 股,加入 20 個技術指 標。在民國 87 年 10 月 至 88 年 4 月作為其測 試期與實證期。

1、利追求導向的報酬 為 56.98%,風險趨避 導向為 55.62%。

2、實證結果多略高或 貼近大盤表現,但風 險趨避導向在獲利之 餘並能兼固風險考 量。

民 90 林建成 倒傳遞類 神經網路 搭配基因 演算法,

多元迴歸 估計預測 模式

加權指數 DI 值為標 的,加入 9 個常用技術 指標。在民國 86 年 1 月至 90 年 6 月, 作為 學習期與實證期。

1、加入技術指標倒傳 遞類神經網路後,較 原倒傳遞類神經網路 佳,且預測能力較多 元迴歸估計預測模式 佳。

民 90 周慶華 倒傳遞類 神經網路 搭配基因 演算法

摩根台股現貨開盤指 數為標的,輸入變數為 領先現貨開盤的期貨 指數以及前一日現貨 與期貨之收盤指數。以 87 年 10 月至 89 年 12 月之日資料測試。

1. 倒傳遞類神經網路 搭配基因演算法較單 純傳遞類神經網路之 預測模式及隨機漫步 模式有較好之預測能 力,

2. 且預測開盤漲跌正 確率達 80.46%。

(12)

1990 Kimoto &

Asakawa

倒傳遞類 神經網路

日經 TOPEX 為標的,

以技術與經濟指標,

1987 年 1 月到 1989 年 9 月作為其測試期與實 證期。

1、傳遞類神經網路共 獲利 98%, 與買入持 有相較可提高 46%的 績效。

1999 Allen &

Karjainen

基因規劃 法

標準 500 普爾指數 (SP500)為標的,以移動 平均線、最高價、最低 價以及成交量為指 標,1928 至 1998 年作 為其測試期與實證期。

1、考慮 0.25% 為其 交易成本,其整體績 效不如買進並持有策 略。

2、指標的選擇上可再 選擇不同的技術指 標。

2000 Kim& Han 倒傳遞類 神經網路 搭配基因 演算法

以韓國股票指數 (KOSPI)為標的,利用 13 個技術指標作為指 標,從 1989 年 1 月至 1998 年 12 月作為其測 試期與實證期。

1、加入特徵調整的類 神經基因網路

(GAFD)較倒傳遞網 路(BPLT) 及未加入 特徵調整的類神經基 因網路(GALT) 的預 測準確率高 10

~11% 。

2001 Phua et al. 倒傳遞類 神經網路 搭配基因 演算法

新加波海峽指數(STI) 為標的,以開盤價、收 盤價、最高價、最低 價、成交量以及國外其 他市場大盤指數等指 標,從 1998 年 9 月至

1、研究預測隔天股市 上漲或下跌,其準確 率高達 81%。

(13)

2000 年 1 月作為學習期 與實證期。

2.2、股價走勢預測的相關學說

學術上有關股價走勢的預測,有三種不同的理論學派:(1)基本分析學派、(2) 隨機漫步理論學派以及(3)技術分析學派。

2.2.1、基本分析

基本分析是假設股票具有其真實價值。股票會隨著未來整體經濟狀況、產業 相關動態及公司產業業績表現等因素,進而決定其真實價值(Fama,1965)。其價 格最終必會趨向其真實價值,所以當市場價值低於真實價值時,投資者買進其股 票,反之則賣出股票。但是由於真實價值包含著未來預期成長部份,無法準確評 估以及衡量,因此產生許多的爭議及批評。Edward & Magee(1966)研究對基本分 析提出幾點不同意見:(1)股價走勢由市場供需所決定,較上述之真實價值並無 太大關連、(2)基本分析只是市場供需的部份因素,並非整體因素、(3)股票是反 應未來以及平衡投資的觀點。而且基本分析所使用的只是過去大量的統計資料,

邏輯上有背離情形。

基本分析對未來股價預測的有效性,也引起相當多的爭議與批評,1929 年 美國經濟大恐慌,造成股市崩盤,更是對基本分析學派的重大打擊,因為基本分 析學派持有真實價值的中心思想,遭到挑戰。此外由於基本分析往往透過公司財 務報表來評估公司現況以及未來的營運,但是財務報表的公正性以及完整性常是 令人質疑的(Levy,1967) ,例如知名的安隆案以及世界通訊等弊案也讓基本分析 對於股價預測的效果大打折扣,並造成負面的評價。

(14)

2.2.2、隨機漫步理論

隨機漫步理論最早是由 Kendall(1953)所提出,Cootner(1964)將此觀點出版成 書,廣泛被華爾街所接受,Fama(1965) 更將隨機漫步理論的中心思想即效率市 場假說提出更嚴謹的定義。效率市場假說乃是假設整個市場具備高度效率,所有 已公開或未公開的資訊都已充分反應在股票價格上,意即無法透過基本分析或技 術分析達到預測價格之目的。後來 Fama 再以效率市場假說分為三種層次:(1) 弱式:歷史股價之技術分析是無效用的,(2)半強式:所有已公開之資料(基本分 析) 亦無效用,(3)強式:所有未公開之資料(內線消息)也是毫無效果的。因為所 有能影響股價的因素都已經反映了,股價於是呈現隨機漫步的狀態。

2.2.3、技術分析

技術分析學派認為股價是由市場供需所決定的,而所有供需之間的狀態以及 關係,可從技術分析圖表中研判,藉此來預測股價的走勢。在股價的走勢中會有 三個波動:(1)主要趨勢、(2) 次級趨勢、(3) 短期波動等,這三種波動同時進行 運作,並且相互影響,在趨勢的反轉以及形成必定會出現特定的訊號,供投資大 眾或技術分析師研判未來趨勢走向。

常見的技術指標有濾嘴法則、道氏理論、相對強勢策略、價量關係等。濾嘴 法則在美國道瓊工業指數以及標準普爾有相關的實證研究(Alexander,1961, 1964;Fama,1965;Sweeny,1988),其實證結果並未有一致性結果,在臺灣股票 市場研究方面,發現以特定比率的濾嘴法則進行交易,其績效會優於買進並持有 策略(林宗永(民 88);黃怡芳(民 90);蔡瀚賢(民 90);鄭淑貞(民 83)。道氏理論方 面,Cowles(1934)研究利用道氏理論來驗證美國道瓊工業指數,其結果劣於買進 並持有策略,Glickstein & Wubbels (1983)研究實證紐約證券指數,其預測結果具 有相當好的績效並且優於買進並且持有策略。相對的強勢策略乃透過 RSI 指標、

KD 指標等,價量關係等進行分析。

利用技術分析預測股價走勢,是否能提供超額報酬或是徒勞無功,並無定 論,但可確定的是技術分析的確能提供投資人在作買賣股票決策時的參考依據。

(15)

2.3、移動平均線(Moving Average)

移動平均線可說是道氏理論之應用。移動平均線是利用統計學上平均值移動的 原理(杜金龍,民 91)。移動平均線代表不同時期投資人持有股票的平均成本,投 資人可利用移動平均線的走勢來判斷或預測股價未來的走勢及發展,做為買賣股 票時機的參考依據。(吳宗正,民 87;杜金龍,民 91)通常移動平均線常和其他 分析工具如乖離率(Bias)、隨機指標(KD)等搭配使用。一般而言,移動平均線有 兩種類型,一為普通移動平均線,另一為指數平滑移動平均線(Exponential Smoothing Moving Average,EMA)。

陳照憲(民 87)利用移動平均線單一指標形成基因演算交易法則實證台灣股 市,發現移動平均線單一指標在多頭(民 73~78)、空頭(民 79~82) 及盤整時期(民 80~85)之市場表現皆優於加權指數得累積報酬。不同時期的移動平均線經常會出 現交叉的現象,此時便出現所謂的”黃金交叉”跟”死亡交叉”,黃金(死亡)交叉出 現的必要條件為:(一)較短天期的移動平均線由下(上)而上(下)穿越較長天期的移 動平均線、(二)且兩條移動平均線皆呈現上揚(下跌)的趨勢。關於移動平均線是 否能有效預測股市之研究,其績效會隨著所選擇移動平均線代表的天數而所差 異,若能得知移動平均線最佳之天數,就能產生較成功之決策。

表2:移動平均線相關文獻

年份 研究者 研究內容 研究結果

1992 Brock 美國道瓊工業指數,研究範圍從 1897 年至 1986 年。2、MA 交叉且股價穿越 MA。

優於買進並持有。

民 83 翁龍祥 日本、美國、韓國等十個國家等日資料,

研究範圍從 1975 至 1993 年。2、當股價 超越 10、30 日 MA 進行交易。

考慮交易成本後,優 於買進並持有

(16)

民 84 董茲莉 台灣股市 157 支股票等日資料, 研究範 圍從 79 至 83 年。2、當股價超越 10、

30 日 MA 進行交易

考慮交易成本後,並 未優於買進並持有

民 86 洪美慧 台灣股市 90 支股票等日資料,研究範圍 從 74 至 85 年 2、當股價超越 10 日 MA 則 進行交易。

考慮交易成本後,並 未優於買進並持有

民 89 蔡尚儒 台灣股市上櫃 55 支股票日資料,研究範 圍從 86 至 88 年 2、採用當 1、3、6、12、

15、24、30、72 日 MA 交叉,則進行 交易。

在考慮交易成本 後,優於買進並持有

民 89 楊家維 台股成交量大之 30 支股票,研究範圍從 89 年 2 月 10 日至 3 月 22 日 2、採用當 12、24、36、72、96、144 等 MA 交叉 且股價股票穿越時,進行當沖交易。

考慮交易成本後,優 於買進並持有

民 91 年 杜金龍 台灣加權指數研究範圍,從民國 51 年至 91 年 2、MA 轉折現象及股價突破或跌 破之交易法則 3、濾嘴法則 4、長、短期 MA 線交叉點之交易法則

考慮交易成本後,並 未優於買進並持有

2.4 自我組織映射圖

自我組織映射圖(Self-Organizing Map, SOM)是在 1980 年由 Kohonen(1995) 所提出,它是一種無監督式學習網路模式。自我組織映射圖最大的目的,就是要 將高維度的特徵,映射至一維或二維的輸出神經元陣列。換句話說,當特徵之間 存在某種測量或拓撲上的關係,即使在高維度,我們希望透過權鍵值 (weights)

(17)

的學習,使得輸出神經單元之間保持一種拓撲上的關係,而這種陣列的拓撲關 係,可以用來了解特徵之間的關係。SOM 為兩層式且完全連接的類神經網路,

如圖 1,透過神經單元分佈的自我組織過程 (self-organizing process),可以將相 似的神經單元分在同一類。其主要優點為將高維度資訊視覺化呈現於二維度上,

它將相似的資料聚集在最接近它節點群上 (node),用來分類多維度的資料。

圖 1:SOM 網路連結圖

SOM 的基本精神為,輸出層在與輸入資料比對之後,除了最贏向量(winner vector)會調整外,其附近之向量也會隨之調整,如此便能讓鄰近集群相似,這是 與其它群集演算法最大的不同處。使用 SOM 演算法後,越相近的分群將會越來 越接近,最後,所呈現的分群結果會變成越相近的分群會排的越鄰近 (Kohonen et al. 2000; Merkl and Rauber 1999),因此,SOM 是發展資料探勘技術的良好工具。

它能夠將高維度的輸入資料轉換成一個有規則的低維度矩陣方格。詳細的演算法 如圖 2。主要參數有學習速率(learning rate)、鄰近距離(neighborhood)與地圖大小 (map size)。學習速率是用來控制權重調整的參數,鄰近距離指的是最贏向量影 響範圍,本研究使用 Growing Hierarchical Self-Organizing Map (GHSOM) (Dittenbach et al. 2002; Rauber 1999),其地圖大小可以自動調整。

輸入層節點(N個) 輸出層節點(二維度)

Kohonen層

(18)

圖 2:SOM 演算法

相較於傳統的 SOM,GHSOM 加強了三個部份。

一、地圖的大小可以由演算法自行決定,而不需要事先指定。

二、傳統 SOM 的地圖是單層平面,而 GHSOM 可以由演算法決定階層式的地圖 深度。這是一個兩階段的分群方式,首先產生一個雛形 (prototype)來當作下 一階段分類的資料。除了呈現上能有階層效果,並可減少運算時間及視覺負 擔 (visual load) (Yang et al. 2003)。

三、在標記上,傳統的 SOM 對每一群集都只標記一個特徵值,但如果這個特徵 值意義不大,那就無法了解這集群所代表的意義。而 GHSOM 可以選出多 個具代表性的特徵值以幫助使用者解讀群集的意義。傳統的 SOM 雖然有視 覺化的功能,但卻無法自動偵測出各群集之間的界限,因此自動標記 (automatic labeling)的目的就是找出具代表性的特徵屬性,將分群後的集群標 記出主要的特徵屬性。LabelSOM (Rauber 1999)的概念如下:

, 1,...,

j i

ik ik jk

x C

q m x k n

=

− =

Begin

Set neighborhood parameters Set learning rate parameters

Initialize weights While

For each input factor xk =[

x

k1,

x

k2,...,

x

km]T For each node, compute the distance:

x w , 1, 2,...,

j k j

d

← −

j

=

n

Find index

j such that d is a minimum

j

For unit j and its neighborhoods, updates according to

2 2

exp(

R

/ 2 ) ς ← − σ

wj ←wj+ × ×ς η (xk−w )j

Reduce learning rateη and radius of R of neighborhood Until (Convergence or maximum no. of iterations is exceeded) End

(19)

q 表示節點 i 在第 k 個屬性的量化誤差向量(quantization error vector)值。

ik

C

i 是所有輸入樣本 xj對應到節點 i 的集合,mik表示權重向量(weight vector)的 第 k 個屬性值,xjk則為輸入向量的第 k 個屬性值。利用此公式來計算權重向 量與輸入向量各特徵的距離,距離越小顯示該特徵與群集越接近,越能夠表 現出此群集的特徵,藉由此算法,可挑出數個具代表性的特徵值。

2.5 支持向量機

支持向量機(SVM ﹕Support Vector Machines)最近被引進用來解決許多學 習、分類和預測的問題。支持向量機是起源於 Vapnik 所提出的結構風險最小化 (Structural risk minimization)原則(Vapnik, 1995)。最基本的概念是利用核心函數 (kernel function)將輸入資料映射至高維度。在高維度特徵空間中,支持向量機可 以建立一個超平面來做線性分割。這個高維度超平面就相當於低維度空間中的一 個曲線表面。因此,在支持向量機中核心函數扮演很重要的角色。目前有很多核 心函數可以被使用,像線性函數、多項式、高斯函數等。

2.6 支持向量迴歸

支持向量機的發展最先被運用在模式識別領域,然而隨著ε-不敏感損失函 數(ε-insensitive loss function)的導入,支持向量機已經被擴展到解決非線性迴歸 估計的問題上,此類技術稱為支持向量迴歸。

支持向量迴歸的原理與支持向量機的分類法相當類似,Vapnik (1995)提出了 不敏感區間。若訓練向量(Training vectors)落於在不敏感區間中則被視為是正確 的,而訓練向量落在於區域之外則被認為是錯誤,增加其錯誤誤差值。而這些被 視為不正確的向量就是支持向量(support vectors)如圖 3。

(20)

x

x

x

x

x x

x x

x

ε ξ

x

x

x

x

x x

x x

x

ε ξ

圖 3:近似函數(用實線表示)的ε-不敏感區間(圖中虛線間的區域)。落在虛線上 和外面的都是支持向量

最基本的支持向量迴歸模型就是在特徵空間中的一個線性迴歸,雖然它是最 簡單的演算法且在真實世界的狀態下不是非常有用,但它有助於理解複雜的支持 向量迴歸。支持向量機試著去建構出一個讓訓練點都落在ε-不敏感區間中的線 性函數。假設我們有一個訓練資料的集合

{

( ,x y1 1),...,

(

x yl, l

) }

⊂ ×X R,X 表示輸 入空間。我們的目標是找到函數 ( )

f x ,使所有的 y 落在ε-不敏感區間中的線性

i 函數,同時也希望該函數能儘可能平坦:

( ) T with ,

f x

=

w x b

+

w

X b

∈ (1)

R

( )

f x 的平坦度即表示歐幾里得距離的(Euclidean norm)最小化,如

w 。因 此,這個問題可用公式表示為:

1 2

min 2 . .

T

i i

T

i i

w

y w x b s t

w x b y

ε ε

⎧ − − ≤

⎪⎨

+ − ≤

⎪⎩

(2)

然而真實世界下的問題並不是這麼完美能夠線性分離。為了處理這個問題,

非負寬鬆變數(non-negative slack variables) ξ ξi, i*則被採用來解決此問題:

(21)

( )

2 *

1

*

*

min 1 2

. .

, 0

l

i i

i T

i i i

T

i i i

i i

w C

y w x b s t w x b y

ξ ξ ε ξ ε ξ ξ ξ

=

+ +

⎧ − − ≤ +

⎪ + − ≤ +

⎨⎪ ≥

(3)

C 值由使用者來選擇。藉由 Lagrange 轉換公式(3)如下:

( ) ( )

( ) ( )

2 *

1 1

* * * *

1 1

1 2

l l

T

i i i i i i

i i

l l

T

i i i i i i i i

i i

L w C y w x b

y w x b

ξ ξ α ε ξ

α ε ξ η ξ η ξ

= =

= =

= + + − + − + + −

+ + − − − +

∑ ∑

∑ ∑

(4)

在方程式(4)中,α α η ηi, i*, ,i i*為拉氏乘數(Lagrange Multipliers)。將公式(4)中 的問題最佳化如下:

( ) ( )

( )

* * * *

, 1 1 1

*

1

*

maximize: (1 )( ) 2

. . 0

, [0, ]

l l l

T

i i j j i j i i i i i

i j i i

l

i i

i

i i

x x y

s t

C

α α α α ε α α α α

α α α α

= = =

=

− − − − + + −

⎧ − =

⎪⎨

⎪ ∈

∑ ∑ ∑

(5)

公式(1)可被改寫為:

(

*

) (

*

)

1 1

and therefore ( )

l l

T

i i i i i i

i i

w

α α

x f x

α α

x x b

= =

=

− =

− + (6)

w 完全由某些訓練樣本 x 所決定,而這些

i

x 就稱為支持向量。從另一個觀點

i 來看,支持向量迴歸的複雜度並不受到輸入資料維度的影響,而僅與支持向量的 數量相關。另一個處理非線性的技術就是利用核心函數將資料映射至高維度(特 徵空間),利用高維度空間中能夠建立超平面來做線性分割。以下表示映射至特 徵空間 F:

: ,

( ),

n

F

x x

Φ ℜ → aΦ 最佳化的問題 (5) 可以被寫成如下:

(22)

( ) ( )

( )

* * * *

, 1 1 1

*

1

*

maximize: (1 )( ) ( ) ( ) 2

. . 0

, [0, ]

l l l

T

i i j j i j i i i i i

i j i i

l

i i

i

i i

x x y

s t

C

α α α α ε α α α α

α α α α

= = =

=

− − − Φ Φ − + + −

⎧ − =

⎪⎨

⎪ ∈

∑ ∑ ∑

(7)

我們可以發現,決策函數可以利用內積Φ(x)TΦ(x )i 就能算得,而不用真正映 射至高維度,省去許多計算上的麻煩。而核心函數就是

K x z

( , )≡ Φ( )

x

TΦ( )

z

(23)

第三章 實驗設計

3.1 資料集

在本研究中資料取樣自七個不同的股票市場;簡介如下 :

S&P/ASX 200 是依據澳洲證券交易所公佈的市場規模前 200 大公司所編製的 市值加權平均指數,該指數產業分類係採用新的 GICS 產業分類系統。

表 3:GICS 產業分類系統

名稱 比重(%)

S&P/ASX 200 FINANC INDEX 43.431

S&P/ASX 200 MATERIALS IX 19.094

S&P/ASX 200 CONS DISC IX 9.565

S&P/ASX 200 INDUSTR INDX 8.381

S&P/ASX 200 CONS STAP IX 6.945

S&P/ASX 200 TELECOM INDX 4.665

S&P/ASX 200 ENERGY INDEX 3.212

S&P/ASX 200 HEALTH INDEX 2.814

S&P/ASX 200 UTILITIES IX 1.380

S&P/ASX 200 INF TECH IDX 0.513

(24)

S&P/ASX 200 是由 S&P Australian Index Committee 所負責維護,S&P Australian Index Committee 是 Australian Stock Exchange and Standard &

Poor's 的代理單位。 遵從澳洲政府頒布的政策規定及透明化的計算方法來維護 S&P/ASX 200 指標。

恒生指數以1964 年 7 月 31 日為基數日,基數點 100 點,並選出 30 間上市 公司股票為成分股,僅供恒生銀行內部參閱,直至1969 年 11 月 24 日才正式向 外發報,開始點數是 150 點。

1984 年 1 月 2 日,恒生指數增加 4 支分類指數,把 33 支成份股以行業分為 4 個

分類:

恒生金融分類指數 恒生公用事業分類指數 恒生地產分類指數 恒生工商分類指數

今日恒生指數的計算公式:

Current Index =

[ ( ) ] [ ( ) ]

∑ ∑

×

×

×

×

×

×

CF FAF IS t

P

CF FAF IS t P

1 × Closing Index Current Index:現時指數

Closing Index:收市指數 P(t):現時股價

P(t-1):上一日收巿股價 IS:已發行股票數量 FAF:流通系數 CF:比重上限系數

(25)

四個分類指數的計算方法及公式與恆生指數相同,根據其分類,以 100 作計算單 位。

2006 年 6 月 30 日恒指服務有限公司宣佈更改恆生指數加入 H 股後的計算方法及

對現有成份股的數目及影嚮。

韓國股市(KOSPI)為依據所有在韓國股票交易所掛牌之普通股所編制的市值 加權平均指數。

KOSPI 目前共有包括電子、銀行、通訊、汽車等19種類股、702支股票,總 市值約6百4拾4兆韓圜,平均成交值約為 3400 億韓圜。

KOSPI 以基值 100,1980 年 1 月 4 日起開始交易計算。

日經 225(NIKKEI225)平均股價指數是代表日本股票市場的股價指數,由日 本經濟新聞社每天公布數據。為各股價指數中歷史最悠久(基期為 1947 年),且 為國內外投資人及股市相關者最熟悉的指數。

日經平均股價,在東證一部上市股票中,以成交量最活躍、市場流通性最高 的 225 支股票的股價為基礎,以「修正式算術平均」計算出來的。日經 225 指數 選取的股票雖只占東京證券交易所第一類股中 20%的股數,但該股價指數卻代表 第一類股中近 60%的交易量,以及近 50%的總市值。具體而言,是從業種分類中,

選擇技術、金融、運輸、公共、資本財及其他、消費、素材中,具高流通性的股 票。

自 1991 年 10 月起,將每年流通性較低的股票以流通性高的股票替代,以重 新檢視構成股票。為使市場的流通性及產業結構的變化能進一步反映到股價上,

於 2000 年 4 月 24 日訂出新的股票構成選定標準,更換了 30 種股票。現在構成 股票包括松下電工、日產汽車、豐田汽車、野村證券、資生堂、花王等知名企業。

另外還有以發行量加重平均方式來計算的日經股價指數 300(日經 300),以 股價修正式算術平均方式來計算的日經 500 種平均股價指數(日經 500),以發行 量加重平均方式來計算的日經綜合股價指數(日經綜合),但在實際使用上皆不及 日經 225 來得廣泛。

(26)

新加坡海峽時報指數(STI)為新加坡海峽時報所彙整的市值加權平均指數,

主要涵蓋在新加坡證交所掛牌的最重要及最活躍的個股。STI 指數共包括50支 股 票,總市值約為3千3百億新幣,平均成交值約2.6億新幣。STI 以基值 885.26,1998 年 8 月 28 日起開始交易計算。

道瓊工業平均指數(DOW_JONES)是由在紐約證券交易所(New York Stock Exchange, NYSE)交易的 30 支藍籌股(blue chip stocks)之收盤價格加權平均而 得;雖然僅有 30 支股票組成,這些成分股都是一些體質良好之績優股,且以工 業股票為主。道瓊工業平均指數(Dow Jones Industrial Average,簡稱 DJIA)

這是世界上最有名的股價指數,至今已有 104 年的歷史了。

基本上,通常您聽到美國股市的漲跌,就是指道瓊工業指數的漲跌。雖然道 瓊工業指數包含的股數只有三十支,但卻都是各個產業最具有代表性的公司,只 要大略看一下此支股票的漲跌及消息,大概就能對其所代表產業最新的狀況略知 一二,可以說是一個相當具有公信力的指數。

歷史悠久的道瓊工業指數,也就是因為它的 30 支股票皆是聲名大噪,其中 如賣電視電冰箱的奇異電器 General Electric、製造飛機的波音公司 Boeing、

賣電腦的國際商業機器 International Business Machines、花旗銀行

Citigroup、可口可樂 Coca-Cola、麥當勞 McDonald's 和華德迪斯奈樂園 Walt Disney 都是道瓊工業指數的成員。

臺灣加權股價指數(TAIEX)包括「臺灣證券交易所發行量加權股價指數」、「臺 灣證券交易所未含金融保險股發行量加權股價指數」、「臺灣證券交易所未含電子 股發行量加權股價 指數」、「臺灣證券交易所未含金融電子股發行量加權股價指 數」、「臺灣證券交易所 XX 類發行量加權股價指數」等均以發行股數加權來計算。

(一)臺灣證券交易所發行量加權股價指數

樣本:納入採樣樣本為所有掛牌交易的普通股 (二)未含金融保險股發行量加權股價指數

樣本:除了金融保險類外之股票,採樣標準與發行量加權股價指數相同。

(三)未含電子股發行量加權股價指數

(27)

樣本:除了電子類外之股票,採樣標準與發行量加權股價指數相同。

(四)產業分類股價指數

樣本:採樣標準與發行量加權股價指數相同,分類方式除水泥窯製類包括水 泥工業和玻璃陶瓷業;塑膠化工類包含塑膠工業、化學工業、橡膠工業;機 電類包含電機機械業、電器電纜業、電子工業,其餘產業分類股價指數均按 臺灣證券交易所之上市產業分類。

我們選用的指標為當日大盤之收盤價,同時我們所選用的時間區間為 1997/07/01 至 2002/05/31;這段時間正好經過亞洲金融風暴,不管是亞洲股市 及國際股市皆受到衝擊而有明顯的波動;希望在這樣的資料條件下支持向量機仍 能發揮預測能力。

因為各國的假日及其它影響股市是否開盤的因素不同,故而在選定的時間區 間中各股票市場的交易天數略有不同;所以取樣的資料筆數因此也有不同,同時 在實驗中我們選定在支持向量機中訓練資料集與測試資料集的比率為 80:20。

各股市之名稱、取樣之時間區間及資料筆數如表 4。

表 4:各國股市資料取樣區間及資料筆數

資料筆數

各國股市 時間區間

訓練資料 測試資料 澳洲 S&P 1997/07/01 ~ 2002/05/31 993 248 香港 恆生 1997/07/03 ~ 2002/05/31 968 241 韓國 KOSPI 1997/07/01 ~ 2002/05/31 958 239 日本 NIKKEI225 1997/07/01 ~ 2002/05/31 966 241 新加坡 STI 1997/07/01 ~ 2002/05/31 980 245 美國 DOW JONES 1997/07/01 ~ 2002/05/31 985 246 台灣 TAIEX 1997/07/02 ~ 2002/05/31 952 238

(28)

3.2 資料前處理

對於所有收集來的資料集我們要先進行資料前處理;我們將原始之股市收盤 指數轉換為五個相對差異之價格百分比資料(RDP),根據 Thomason(1999)指出 這樣的轉換資料有四個主要的好處;最主要的在於轉換過的資料之分布情況會更 一致性的趨於常態分布,這樣趨勢能增進類神經網路的預測能力所以將資料轉換 為 RDP-5、RDP-10、RDP-15、RDP-20 及 EMA15。

利用支持向量迴歸模型進行預測的前提是某一應變數與某些自變數之間存 在著某種函數關係。對本研究而言,所考量的自變數有收盤價扣除 15 天的移動 平均值(EMA15)、以五天為間距的收盤價的差額比率(RDP-5、RDP-10、RDP-15、

RDP-20),應變數為(RDP+5) ,本實驗的自變數和應變數的定義如表 5。我們利 用自變數所組成的每一組輸入資料,透過支持向量迴歸的訓練,來預測 RDP+5 的值。

表 5:自變數和應變數的定義

自變數 計算公式

EMA15

P

(i)-

EMA

15 i()

RDP-5 (

p

(

i

)−

p

(

i

−5))/

p

(

i

−5)*100

RDP-10 (

p

(

i

)−

p

(

i

−10))/

p

(

i

−10)*100

RDP-15 (

p

(

i

)−

p

(

i

−15))/

p

(

i

−15)*100

RDP-20 (

p

(

i

)−

p

(

i

−20))/

p

(

i

−20)*100

應變數 計算公式

RDP+5 (

p

(

i

+5)−

p

(

i

))/

p

(

i

)*100

註:*

EMAn

(

i

)是第 i 天的n天指數移動平均值,

p

(i)為第 i 天的收盤價。

(29)

為了避免在資料常態分布的兩端我們視為 outlier 的資料造成支持向量機 有困難或是需耗費過多的時間卻無法得到有效的結果;所以我們將大於兩個標準 差及小於兩個標準差的資料皆替換為最接近的邊界值。在實驗中所有變數的值,

會經過 Scaling 將變數之數值區間侷限於(0.9,-0.9)。

3.3 實驗流程

在本實驗中我們採用 LIBSVM 及 GHSOM 兩套工具軟體,分別計算單純使用 LIBSVM 及使用結合 LIBSVM 與 GHSOM 兩種方式所得之股市收盤價預測結果加以 比較。

圖 4 中所示為只使用 LIBSVM 工具進行預測,其步驟為:

1. 將資料集分為訓練資料集與測試料集。

2. 將訓練資料集導入 LIBSVM,產生預測模型。

3. 將測試資料集導入模型,產生預測結果。

4. 將預測結果與原始資料做比對即得預測模型之準確率。

圖 4:LIBSVM 實驗流程圖 Training Data

SVM Format Source Data

Testing Data

Forecast Result Model Training

(30)

圖 5 中所示為使用 GHSOM 工具加上 LIBSVM 工具進行預測,其步驟為:

1. 將資料集導入 GHSOM 工具進行資料分群。

2. 將各分群之資料分為訓練資料集與測試料集。

3. 將各訓練資料集分別導入 LIBSVM,產生個別預測模型。

4. 將各測試資料集分別導入模型,產生個別預測結果。

5. 將各分群預測結果與分群原始資料做比對即知各分群預測模型之準確率。

在實驗中使用 LIBSVM 工具時是選用 RBF Kernel,同時在相關參數選定是使 用工具軟體所內附之計算工具(grid.py)以 cross validation 方法對每個分群計 算所得出之建議 gamma 與 C 値。

在實驗中關於 GHSOM 選定為二維矩陣;同時對於分群後之資料集中如果所含 之資料數目若小於 30 則將之與其相鄰之分群合併,其他相關參數簡述如表 6。

表 6 ﹕GHSOM 參數

參數名稱 數值範圍 參數說明 實驗值

EXPAND_CYCLES >=1 是設定要經過多少次的循環學習之後 才決定 SOM 的擴張。

100

TAU_1 0-1 水平成長控制參數。值越小,地圖越

大。

0.05

TAU_2 0-1 垂直成長控制參數。值越小,地圖越扁

平。

1

INITIAL_LEARNRATE 0-1 初始學習參數。 0.8

INITIAL_X_SIZE >=1 決定初始 SOM 在 X 軸方向擴展的幅度。 2

INITIAL_Y_SIZE >=1 決定初始 SOM 在 X 軸方向擴展的幅度。 2

(31)

圖 5: LIBSVM + GHSOM 實驗流程圖

Stock Market Data

SVM-train

GHSOM

Group1 Group2 GroupN

80% Data set 20% Data set

Model

Result1

80% Data set 20% Data set

SVM-train

Model

Result2

......

80% Data set 20% Data set

SVM-train

Model

ResultN

( Result1 + Result2 + ... +ResultN )

(32)

3.4 實驗分析

使用 LIBSVM 的軟體來進行支持向量迴歸模型之預測,並以 NMSE(normalized mean squared error)、MAE(mean absolute error)、DS(directional symmetry)、

WDS(weighted directional symmetry)等指標來評估預測結果,這些指標的定義 如表 7。NMSE 和 MAE 可用來衡量實際值和預測值之間的差異程度,當 NMSE 和 MAE 越小時,代表所預測的時間序列值會相當接近真實值。DS 以百分比的形式呈現,

表示被預測值的正確性,當百分比的數值越大時,則預測的結果是較好的。而 WDS 是用來表示預測誤差和方向的大小。當 WDS 的值的值越小時,就大小和方向 而言是較準確的預測表示。

表 7 ﹕模型評估的統計量

統計量 定義

NMSE

δ /

=1

NMSE 2 n* ( )

1

a

i

p

i

i

n

= 2 δ 2 =1/(n-1)* ( )

1

a a i

n

i

= 2 MAE

i

i

p

i a n n

MAE

=1/ *

=1 DS

d

i

i n n

DS

=100/ *

=1

⎩⎨

⎧ − −

=

otherwise p p a

di a

i i i i :

0

0 (

:

1 1)( 1)

WDS

i i i i

i

i

d a p

i p n a i d

WDS n

− =

=

=1 /

1 '

⎩⎨

⎧ − −

=

otherwise p p a

di a

i i i i :

1

0 (

:

0 1)( 1)

(33)

⎩⎨

⎧ − −

=

otherwise p p a

di a

i i i i :

0

0 (

:

' 1 1)( 1)

註:ai 和 pi 分別代表真實值和預測值

(34)

第四章 實驗結果

表 8 是我們將兩種方法的預測結果所整理出來的比較表,在使用 SOM+SVM 方法計算各國的預測準確率時;是將各 SOM 分組之預測準確率乘上分組的資料所 佔全體資料的比例再將各組之結果相加(此即分組權重),我們可以看到使用 SOM 方法將實驗數據先進行分組之後;再以 SVM 方法進行預測所得出的預測準確率 在根據 NMSE、MAE、DS 及 WDS 四項指標的定義比較之後;可以明顯的看出以 SOM+SVM 方法所得出之預測結果較好(NMSE﹕SOM+SVM<SVM,MAE﹕SOM+SVM<

SVM,DS﹕SOM+SVM>SVM,WDS﹕SOM+SVM<SVM),同時七個國家的預測結果皆是 SVM+SOM 優於 SVM。

表 8:SVM 與 SOM + SVM 之預測結果比較

NMSE MAE DS WDS

SVM SOM+SVM SVM SOM+SVM SVM SOM+SVM SVM SOM+SVM

澳洲 1.0907 1.0785 0.1424 0.1324 50.8462 53.3599 0.8988 0.84987

香港 0.9629 0.9134 0.1173 0.1008 37.5 59.0703 1.6531 0.8054

韓國 1.0317 1.0133 0.1568 0.1429 40.5983 53.5334 1.5065 1.0946

日本 1.2834 1.1654 0.2416 0.2156 50.8333 55.8049 0.8934 0.8469

新加坡 1.0528 0.9489 0.0958 0.0826 34.9794 54.9407 1.6208 1.0018

美國 1.1861 1.0548 0.1597 0.1378 47.3469 50.6304 1.0876 1.006

台灣 1.4344 1.0061 0.2387 0.1559 48.3051 51.35 1.2226 0.9575

註:在本實驗中我們取實驗結果數據至小數點以下四位數並四捨五入。

我們將實驗結果整理如下圖 6、圖 7、圖 8 及圖 9。

(35)

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

澳洲 S&P 香港 恆生 韓國 KOSPI 日本 NIKKEI225

新加玻 STI 美國 DOW JONES

台灣 TAIEX

各國股市指標

NMSE

SVM

SOM+SVM+分組權重

圖 6:NMSE 統計量折線圖

從圖 6 中我們可以明顯的看出 SOM+SVM 方法所得出的結果曲線所在各點皆低 於以 SVM 方法所得出之結果曲線各點,根據 NMSE 指標的定義(數值越小越佳);

說明了 SOM+SVM 方法較佳。

(36)

0 0.05 0.1 0.15 0.2 0.25 0.3

澳洲 S&P 香港 恆生 韓國 KOSPI 日本 NIKKEI225

新加玻 STI 美國 DOW JONES

台灣 TAIEX

各國股市指標

MAE

SVM

SOM+SVM+分組權重

圖 7:MAE 統計量折線圖

從圖 7 中我們可以明顯的看出 SOM+SVM 方法所得出的結果曲線所在各點皆低 於以 SVM 方法所得出之結果曲線各點,根據 MAE 指標的定義(數值越小越佳); 說明了 SOM+SVM 方法較佳。

(37)

0 10 20 30 40 50 60 70

澳洲 S&P 香港 恆生 韓國 KOSPI 日本 NIKKEI225

新加玻 STI 美國 DOW JONES

台灣 TAIEX

各國股市指標

DS

SVM

SOM+SVM+分組權重

圖 8:DS 統計量折線圖

從圖 8 中我們可以明顯的看出 SOM+SVM 方法所得出的結果曲線所在各點皆高 於以 SVM 方法所得出之結果曲線各點,根據 DS 指標的定義(數值越大越佳);說 明了 SOM+SVM 方法較佳。

(38)

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8

澳洲 S&P 香港 恆生 韓國 KOSPI 日本 NIKKEI225

新加玻 STI 美國 DOW JONES

台灣 TAIEX

各國股市指標

WDS

SVM

SOM+SVM+分組權重

圖 9:WDS 統計量折線圖

從圖 9 中我們可以明顯的看出 SOM+SVM 方法所得出的結果曲線所在各點皆低 於以 SVM 方法所得出之結果曲線各點,根據 WDS 指標的定義(數值越小越佳); 說明了 SOM+SVM 方法較佳。

(39)

第五章 結論及未來研究方向

5.1 結論

在本實驗中使用了兩階段式的類神經網路架構(結合支持向量機與自 我組織映射圖),原始資料集經過自我組織映射圖的分群之後;我們得到 了在各群內為性質相近資料之分群,每一個獨立分群的資料集再經過支持 向量機的訓練,因為支持向量迴歸的複雜度並不受到輸入資料維度的影 響,而僅與支持向量的數量相關;所以支持向量機的收斂速度也有了明顯 的提升。

透過實驗結果數據的分析比對我們發現對於實驗中所選用的各國股 市資料,其預測結果皆為使用兩階段式的類神經網路架構明顯優於單純只 使用支持向量機的股市預測方式。

5.2 未來研究方向

在本研究中仍也有值得將來繼續努力的方向

1. 將這套實驗方法完整的系統化;包括資料的前處理及資料的分群以至最 後的預測,希望將來都能在一套完整的系統中完成。

2. 雖然結合支持向量機與自我組織映射圖的預測方法明顯的優於單純只 使用支持向量機方法的預測結果,但是其最高預測準確率仍未高於 60%;仍未能達到實用化的階段,未來或可針對特定類型的產業分類股 價變化進行預測;例如以台股為例可將電子股與傳產股分開預測,因為 不同類型的產業其淡旺季的期間不盡相同;所以將各不同產業獨立並以 自我組織映射圖進行分群,或可得到更好的分群效果進而提高預測的準 確率。

3. 對於 LIBSVM 及 GHSOM 工具的相關設定參數作更進ㄧ步的優化以期使預

(40)

測準確率能夠提升。

4. 或許可嘗試結合其他股市預測方法以其求得更高的預測準確率

(41)

參考文獻

中文部分

1. 翁龍翔,各國股市技術分析的有效性,台灣大學財務金融研究所碩士論文,

民國83年。

2. 周怡芳,以KD 線投資策略分析台灣股市,成功大學統計研究所碩士論文,民 國83年。

3. 高梓森,台灣股市技術分析之實證研究,國立台灣大學財務金融研究所碩士 論文,民國83年。

4. 鄭淑貞,台灣股票市場弱式效率性實證研究─過濾法則之應用,台灣工業技 術學院管理技術研究所企業管理技術學程碩士論文,民國83年。

5. 董茲莉,由技術分析效果驗證我國股市效率性,中山大學企業管理研究所碩 士論文,民國84年。

6. 李政芳,應用類神經網路與模糊德菲法於股票預測模式建立之研究,高雄工 學院管科所碩士論文,民85年。

7. 陳明杰,基因演算擇時策略在台灣股市的實證研究,雲林科技大學企業管理 研究所碩士論文,民國86年。

8. 黃永成,應用遺傳演算法與模糊神經網路於股票預測模式之研究,高雄工學 院管理科學研究碩士論文,民國86年。

9. 洪美慧,技術分析應用於台灣股市之研究—移動平均線、乖離率指標與相對 強弱指標之評估,東海大學管理究所碩士論文,民國86年。

10.賴宏祺,技術分析有效性之研究,中興大學企業管理研究所碩士論文,民國 86年。

11.吳宗正,技資技術分析,華泰文化事業股份有限公司,民國87年。

12.陳照憲,基因演算法技術交易法則-臺灣股市實證研究,雲林科技大學財金 所碩士論文,民國87年。

13.陳建全,台灣股市技術分析之實證研究,國立台灣大學商學研究所碩士論文,

民國87年。

14.林宗永,證券投資技術分析指標獲利性之實證研究,國立政治大學企業管理 研究所碩士論文,民88年。

15.林維垣, 有關對調適與演化機制的再審思--在財務時間序列資料中應用的統 計分析,國立政治大學經濟學系博士論文,民國89年

16.吳孟儒,以輸入資訊內涵觀點構建台灣股價指數類神經網路預測模式之研 究,義守大學管理科學研究所碩士論文,民國89年。

17.蔡尚儒,台灣店頭市場技術分析的實證研究,中正大學財務金融所碩士論文,

民國89年。

18.楊家維,技術分析用於當沖之有效性研究—台灣股市之實證分析,台北大學

(42)

經濟研究所碩士論文,民國89年。

19.林耀堂,遺傳程式規劃於股市擇時交易策略之應用,中央大學資訊管理研究 所碩士論文,民國90年。

20.周慶華,整合基因演算法及類神經網路於現貨開盤指數之預測-以新加坡交易 所摩根台股指數期貨為例,輔仁大學金融研究所碩士論文,民國90年。

21.黃怡芬,道氏理論、濾嘴法則與買入持有策略在台灣股市投資績效之比較,

成功大學企業管理研究所碩士論文,民國90年。

22.蔡瀚賢,成交量放大訊號及技術指標綜合策略在台灣股市之實證研究,成功 大學企業管理學系碩士論文,民國90年。

23.杜金龍,技術指標在台灣股市應用的訣竅,財訊,民國91年。

24.李惠妍,類神經網路與迴歸模式在台股指數期貨預測之研究,國立成功大學 企業管理學系(EMBA)專班 民國92年

25.廖高賢,使用基因程式規劃預測股票買賣時機,國立中正大學資訊管理學系 民國93年

26.陳志龍,運用類神經網路與技術指標預測股票型基金漲跌及交易時機之研究

-以臺灣50指數股票型基金為例 朝陽科技大學資訊管理系碩士班 民國95 年

英文部分

1. Cowles, A., 1934, “Can stock market forecasters forecast?”, Econometrica,1(3),309-324.

2. Alexander, S. S., 1962, “Price Movements in Speculative Markets: Trend or Random Walks”, Industrial Management Review, 2, 7-26.

3. Graham B., Dodd D. L. and Cottle S., 1962, “Security Analysis : Principles and Techniques”, McGraw-Hill, New York.

4. Alexander, S. S., 1964, ”Price Movements in Speculative Markets: Trend or Random Walks“, Industrial Management Review, 5, .25-46.

5. Cootner, P.H., 1964, “The Random Character of Stock Market Prices”, MIT Press, Cambridge.

6. Fama, E. F., 1965, ”The Behavior of Stock Market Prices”, Journal of Business, 38, 34-105.

7. Edwards, R.D. and J. Magee, Jr., 1966, “Technical Analysis of Stock Trends“, 5th rev. ed., Springfield, Mass.

8. Levy, R.A., 1967, “Relative Strength as a Criterion for Investment Selection”, Journal of Finance, 22, .595-610.

9. Holland, J.H., 1975, “Adaptation in Natural and Artificial System“, University of Michigan Press.

(43)

10. Glickstein, D. A. and Wubbels, R.E., 1983., “Dow Theory is Alive and Well”, Journal of Portfolio Management, .28-32.

11. Sweeny, R. J, 1988, “Some New Filter Rule Test: Methods and Results”, Journal of Financial and Quantitative Analysis, 23,.285-300.

12. Glodberg, D.E., 1989, “Genetic Algorithm in Search, Optimization and Machine Learning”, Addison Wesley, Reading.

13. Kimoto, T. and Asakwa, K., 1990, ”Stock Market Predication System with Modular Networks”, IJCNN-90-Wash, I, 1-6.

14. Sweeny, R. J., 1990, “Evidence on Short-term Trading Strategies”Journal of Portfolio Management, 20-26.

15. Bauer, R.J, 1994, “Genetic Algorithms and Investment Strategies”, John Wiley &

Sons, NY.

16. V.N. Vapnik, 1995, “The Nature of Statistical Learning Theory”, New York, Springer-Verlag.

17. Kendall, M.G. , 1996 , “The Analysis of Economic Time Series, Part I: Prices.”, Journal of the Royal Statistical Society, 11-25.

18. Kuo R. J., Chen, C. H. and Hwang Y.C.,1998, ” An intelligent stock trading decision support system through integration of genetic algorithm based fuzzy neural network and artificial neural network”, Fuzzy Sets and Systems ,21-45.

19. Allen, F., and Karjalainen, 1999, R., ”Using Genetic Algorithms to Find technical Trading Rules”, Journal of Finance Economics, 51, .245-271.

20. M. Thomason, 1999, ”The practitioner methods and tool”, Journal of Computational Intelligence in Finance,Vol. 7,No.3,pp. 36-45.

21. Shazly E., Mona R. and Hassan E., 1999, “Forecasting currency prices using a genetically evolved neural network architecture“, International Review of Financial-Analysis, 8(1), 67.

22. Kim K., and Han I., 2000, “Genetic algorithms approach to feature discretization in artificial neural networks for the prediction of stock price index”, Expert Systems with Applications,19,125-132.

23. Malkiel, B. G.., 2000, “A Random Walk Down Wall Street-Including A Life-cycle To Personal Investing”, W.W. Norton & Company, NY

24. Francis Eng Hock Tay and Li Juan Cao, 2001, ”Improved financial time series forecasting by combining Support Vector Machines with self-organizing feature map”, Intelligent Data Analysis 5 339-354.

25. Lam K.C., THMAS T. H., YUEN R.K., LO S.M. & CONRAD T.C.W., 2001,

“Using an adaptive genetic algorithms to improve construction finance decisions”, Engineering, Construction and Architectural Management, 8(1), 31-45.

26. Phua, Hoh P. K., Ming Daohua, Lin Weidon, 2001, “Neural Network With

(44)

Genetically Evolution Algorithms for Stocks Prediction”, Asia-Pacific Journal of Operation Research, 18(1) 103-108.

27. Nam, K., Pyun, C. S., and Avard, S. L., 2001, “Asymmetric Reverting Behavior of Short-Horizon Stock Returns: An Evidence of Stock Market Overreaction”,

Journal of Banking and Finance, Vol. 25, pp. 807-824.

28. Yoshio, I., Hideaki, K. K., and Toshifumi, T., 2004, “The winner–loser effect in Japanese stock returns”, Japan and the World Economy, Vol.16, Issue 4, pp. 471-4.

29. Jobman, D., 2006, “Has Technical Analysis Kept up with the (Dow) Jones?”, Futures, 35(3), 50-53.

參考文獻

相關文件

In the work of Qian and Sejnowski a window of 13 secondary structure predictions is used as input to a fully connected structure-structure network with 40 hidden units.. Thus,

CAST: Using neural networks to improve trading systems based on technical analysis by means of the RSI financial indicator. Performance of technical analysis in growth and small

CAST: Using neural networks to improve trading systems based on technical analysis by means of the RSI financial indicator. Performance of technical analysis in growth and small

Moreover, this chapter also presents the basic of the Taguchi method, artificial neural network, genetic algorithm, particle swarm optimization, soft computing and

(2007), “Selecting Knowledge Management Strategies by Using the Analytic Network Process,” Expert Systems with Applications, Vol. (2004), “A Practical Approach to Fuzzy Utilities

Sharma (1999), “An Intergrated Machine Vision Based System for Solving the Non-Covex Cutting Stock Problem Using Genetic Algorithms,” Journal of Manufacturing Systems, Vol..

Keywords: light guide plate, stamper, etching process, Taguchi orthogonal array, back-propagation neural networks, genetic algorithms, analysis of variance, particle

Kuo, R.J., Chen, C.H., Hwang, Y.C., 2001, “An intelligent stock trading decision support system through integration of genetic algorithm based fuzzy neural network and