EPSO-GHSOM股票巨量資料選擇交易策略 - 政大學術集成
全文
(2) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.
(3) 誌. 謝. 「咬牙苦撐最後陪伴我的只剩下-勇敢」,是我九年博士生涯的寫照。學會 不斷自我鼓勵堅持到底、樂觀進取,感恩生命中所遭遇的,相信一切都是-上帝 最好的安排。 首先,我要感謝我的恩師劉文卿老師,給予我十二年(含碩士)的教導及最 大揮灑的研究空間,讓我漸漸學會獨立思考、解決問題的能力。老師常以身教示 人,教導我們要紮紮實實做研究,老老實實盡學生本份,學習團隊合作並感謝欣. 治 政 大 賞每個團隊成員的貢獻。接下來,非常感謝口試委員邱教授光輝、王教授有禮、 立 ‧ 國. 學. 蔡教授瑞煌、林教授我聰,給予寶貴的指導與建議,讓論文的研究架構理念能夠 更加完整體現。. ‧. 感謝博士班研讀過程影響我研究深遠的老師們-趙玉老師(Petri Net)、陳. Nat. sit. y. 春龍老師(人工智慧)、陳樹衡老師(人工智慧經濟學、模擬)、吳瑞堯老師(影. n. al. er. io. 像處理)、楊建民老師(文獻計量學)、姜國輝老師(研究方法、知識管理與發. Ch. i n U. v. 掘);因您們專業學術的薰陶,對於論文內容的形塑影響至深,婷妤在此由衷感 激。. engchi. 謝謝實驗室學弟柏威給予實驗上的協助,使得論文更加順利進行,也感謝實 驗室學長姐、學弟妺們的加油,讓我勇氣加倍。我的博班同班同學,泉錫大哥、 凱康大哥、學隆、耀中、馨瑩、立人,謝謝同學們一路上相互鼓勵與扶持,方能 走完最後的一哩路。感謝俊廷學長、逸寧學姐、宗憲學弟、建良學弟、榮州、趙 老師(趙玉老師的妹妹)的協助與鼓勵,使得論文發表能夠更為順暢。. i.
(4) 由衷感謝服務機關(行政院主計總處)的長官潘處長城武、尹副處長慧珍、 鈴玉督導高分、淑玲督導高分、志良科長、慧萍科長、采蓉科長、宏達科長、桂 英科長,在我就讀博士班期間給予我最寬容的方便,讓我論文撰寫得以一氣呵成。 也謝謝我的同事們-瑞鴻、威逸、閔傑、倩婷、興娟、錫昌大哥、理俊大哥、雪 鉼、秀蘭、傳龍,在我請假期間代理我的工作,讓我無後顧之憂。 另外,心存感激九年來一路相伴的家人-我的母親陳張含笑女士、我的最佳 夥伴順卿、妹妹婉秀、我兒志中,謝謝您們幫我分擔所有的家務,讓我能夠專心 於學業研究;以及我生命中不可多得摯友-美勤姐、淑芬、淑玲、耿邦、謄宇、. 政 治 大 Sara、志華、曉霜、Ivy、John、蘭芳,謝謝您們在我灰心喪志的時候,總是給予 立. ‧ 國. 學. 我十二萬分的讚美,告訴我別急慢慢來,成功的黎明終將來臨。每在夜深人靜時, 我總暗暗地感謝老天,我何期榮幸,擁有您們,謝謝您們來到我的生命裡。. ‧. 於此,再次謝謝一路上關心幫助我的人,婷妤未來將會以所學回饋貢獻於社. io. sit. y. Nat. 會。. er. 最後,謹將此份論文獻給已在天上的父母-陳隆明先生、陳張含笑女士,視. al. n. v i n 我如己出的公婆-沈農山先生C 、沈吳勺女士,養我鞠我的外祖父母-張春來先生、 hengchi U 張劉串仔女士。. ii.
(5) 目. 錄. 1.研究目的.................................................................................................. 1 2.文獻探討.................................................................................................. 9 2.1 股票策略領域知識............................................................................ 9 2.1.1 股票策略文獻探討......................................................................9 2.1.2 股票投資決策 ............................................................................15 2.1.2.1 基本分析 ..............................................................................16 2.1.2.2 技術分析 ..............................................................................20 2.2 巨量資料分析(Big Data Analytics) ........................................... 21 2.2.1 巨量資料分析文獻探討............................................................21 2.2.2 結構化資料分析方法................................................................26 2.2.2.1 PSO 演算法..........................................................................27 2.2.2.2 GHSOM 演算法 ..................................................................28 2.2.3 非結構化資料分析方法............................................................32 2.3 本章小結.......................................................................................... 33 3. 研究方法.............................................................................................. 34 3.1 研究架構.......................................................................................... 34 3.2 建構階段.......................................................................................... 40 3.2.1 股票交易策略模型....................................................................40 3.2.2 股票選擇策略模型....................................................................48 3.3 平台系統架構階段.......................................................................... 53 al v 3.4 訓練測試階段.................................................................................. 55 i n C 3.4.1 股票交易策略模型.................................................................... 55 hengchi U 3.4.2 股票選擇策略模型....................................................................57 3.4.2.1 EPSO-GHSOM 股票選擇策略模型 ...................................57 3.4.2.2 網路探勘暨情緒分析股票選擇策略模型..........................58 3.5 分析塑模階段.................................................................................. 59 3.5.1 股票交易策略模型....................................................................59 3.5.2 股票選擇策略模型....................................................................60 3.5.2.1 EPSO-GHSOM 股票選擇策略模型 ...................................60 3.5.2.2 網路探勘暨情緒分析股票選擇策略模型..........................61 3.6 決策支援階段.................................................................................. 61 4. 實驗結果分析 ..................................................................................... 64 4.1 實驗背景......................................................................................... 64 4.1.1 股票交易策略 ............................................................................64. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. iii.
(6) 4.1.2 股票選擇策略 ............................................................................66 4.1.2.1EPSO-GHSOM 股票選擇策略 ............................................66 4.1.2.2 網路探勘暨情緒分析股票選擇策略 ..................................67 4.2 EPSO 股票交易策略 ....................................................................... 68 4.2.1 ROI 績效探討 ...........................................................................68 4.2.2 交易決策準則探討....................................................................74 4.2.3 個股 ROI 績效探討 ...................................................................76 4.2.4 演算法探討 ................................................................................83 4.3 EPSO-GHSOM 股票選擇策略 ....................................................... 85 4.3.1 分群後呈現態樣探討................................................................85 4.3.2 財務指標區別能力探討............................................................91 4.3.3 特徵萃取塑模與探討................................................................91 4.4 網路探勘暨情緒分析股票選擇策略 ............................................. 94 4.5 整體策略綜效.................................................................................. 98 5.與其他方法比較 ................................................................................. 100 5.1 k-Nearest Neighbors Algorithm..................................................... 100 5.2 GRNN-Fuzzy-GA Algorithm ........................................................ 101 5.3 Trading Decision Machenism ........................................................ 103 5.4 PLR-GMKL Model ........................................................................ 105 5.5 Kansei SOM Algorithm ................................................................. 107 5.6 比較分析........................................................................................ 109 6.討論、意涵與限制 ............................................................................. 112 6.1 研究結果與發現............................................................................ 115 6.2 實務意涵........................................................................................ 119 al v i 6.3 研究限制........................................................................................ 121 n C hengchi U 7.結論與建議.......................................................................................... 123 參考文獻 ............................................................................................... 127. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. iv.
(7) 表目錄 表 2-1:股票選擇交易策略文獻 .........................................................11 表 2-2:價值投資文獻財務指標比較表.............................................18 表 3-1:建構步驟(The Constructing Phase) ..................................40 表 3-2:財務指標公式表 .....................................................................50 表 3-3:平台系統建構步驟(The Platform and Application Constructing Phase) ..............................................................53 表 3-4:訓練測試階段(The Training and Testing Phase) .............55 表 3-5:分析塑模步驟(The Analyzing and Modeling Phase) .......59 表 3-6:決策支援步驟(The Decision Support Phase) ...................62 表 4-1:EPSO、MMPSO、Kennedy PSO 演算法 ROI 獲利比較表 (by 個股) ............................................................................69 表 4-2:EPSO、MMPSO、Kennedy PSO 演算法 ROI 獲利比較表 (by 家數) ............................................................................72 表 4-3:EPSO 買賣子策略決策準則型態表 ......................................75 表 4-4:MMPSO 買賣子策略決策準則型態表 .................................75 表 4-5:Kennedy PSO 買賣子策略決策準則型態表 .........................75 表 4-6:買賣策略決策準則 SMA 天數型態表 ..................................76 表 4-7:GHSOM 分群後之財務指標平均值與斜率表 .....................85 表 4-8:EPSO-GHSOM 分群樹之各樹葉節點表 ..............................86 表 4-9:列舉股票之財務指標 .............................................................92 表 4-10:正負向情緒關鍵字表 ...........................................................94 al v 表 4-11:公司名稱出現次數與情緒積分表 ....................................... 95 i n C 表 4-12:EPSO-GHSOM 整體策略篩選推薦股票清單 ....................98 hengchi U 表 5-1:KNN 演算法 .........................................................................100 表 5-2:GRNN-Fuzzy-GA 演算法 ....................................................101 表 5-3:Trading Decision Machenism 演算法 ..................................103 表 5-4:WNMS 演算法 ....................................................................105 表 5-5:Kansei SOM 演算法 .............................................................107 表 5-6:選擇交易文獻比較表 ...........................................................110. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. v.
(8) 圖目錄 圖 2-1:巨量資料分析框架(Wu et al., 2014) ................................23 圖 2-2:巨量資料分析運算平台(Chen and Zhang, 2014) ............24 圖 2-3:SOM 拓樸架構圖 ...................................................................28 圖 2-4:GHSOM 拓樸架構圖(Dittenbach et al., 2002) .................29 圖 2-5:GHSOM 神經元生長圖(Dittenbach et al., 2002).............31 圖 3-1:本研究之研究架構圖 .............................................................37 圖 3-2:本研究系統架構圖 .................................................................39 圖 3-3:SMA 黃金死亡交叉圖 ...........................................................42 圖 4-1:EPSO ROI 績效排行前十名 ..................................................73 圖 4-2:EPSO ROI 績效排行末十名 ..................................................73 圖 4-3:EPSO ROI 績效、買賣高低價差與賣出次數比較 ..............73 圖 4-4:Xit 粒子位置分佈圖(The Position of Particles) ................84 圖 4-5:EPSO-GHSOM 分群樹 ..........................................................86 圖 4-6:列舉股票之財務指標態樣圖.................................................93 圖 4-7:公司名稱出現次數與 EPS 相關性 ........................................96 圖 4-8:公司名稱出現次數與稅後淨利相關性.................................97 圖 4-9:公司名稱出現次數與與 ROE 相關性...................................97 圖 4-10:情緒積分與 EPS 相關性 ......................................................97 圖 4-11:情緒積分與稅後淨利相關性...............................................97 圖 4-12:情緒積分與 ROE 相關性.....................................................98 圖 5-1:A proposd hybrid intelligent system of the VAMA .............102 al v i 圖 5-2:The architecture of TDM ...................................................... 104 n Ch U i e n g c hprediction 圖 5-3:The framework of PLR-GMKL system...............106 圖 5-4:An overview of Hybird Kansi-SOM model ..........................108. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. vi.
(9) 摘. 要. 巨量資料分析(Big Data Analytics)是以資料觀點來進行分析研究、探討問 題,找出未發現的知識與態樣。巨量資料分析包括三個部份,分别為資料存取運 算、資料隱私與領域知識、巨量資料探勘。資料存取運算部份為處理巨量資料與 分析的分散式平台與技術(technology),資料隱私及領域知識部份為解決問題 的專業領域知識(domain);巨量資料探勘部份則為分析巨量資料所引用的方法 (technique)等。巨量資料分析的特點,在平台架構部份,使用分散式運算處理 儲存架構,鬆綁了電腦資源的限制;而在分析部份,巨量的歷史執行資料常常蘊. 治 政 大 忠實客觀呈現問題或事實真象,對於問題獲得解決及知識發現將帶來重要的助益。 立 因此,本研究提出一個基於巨量資料分析的觀點為主軸之創新的 EPSO含著大量有價值的潛存資訊和知識,讓資料說話之新思維的解決問題方法,能夠. ‧ 國. 學. GHSOM 股票選擇交易策略。在資料存取運算部份,本研究採 Hadoop 分散式運 算架構、HBase 分散儲存資料庫、Elastic Search 技術,以及撰寫資料分析應用程. ‧. 式,建構股票選擇交易策略分散式運算平台;在資料隱私及領域知識部份,則以. sit. y. Nat. 基本分析之價值投資理論、變動天數移動平均線技術指標與其黃金死亡交叉決策. io. er. 準則,作為鑑別股票優劣與買賣交易點的領域知識探討核心;分析資料來源部份, 以股票交易資料、公司財務報告重要資訊、網頁財經新聞訊息等各類來源資料作. n. al. Ch. i n U. v. 為分析標的;在巨量資料探勘部份,本研究提出改良 PSO 演算法之 EPSO(Elite. engchi. Particle Swarm Optimization)最佳化演算法,以及資料驅動點概念,並運用增長 層級式自我組織映射圖(Growing Hierarchical Self-Organizing Map,簡稱 GHSOM) 演算法及網路探勘暨情緒分析(Web Mining with Sentiment Analysis)等方法,處 理結構化與非結構化資料,作為資料探勘與知識發掘的分析核心,建構由來源資 料自動探索並決定的股票選擇交易策略模型,從中進行知識挖掘,透過資料的角 度發現股票選擇交易策略態樣、準則存在,提供以資料觀點的新方法給予投資人 進行股票選擇交易決策建議。更明確地說,整體 EPSO-GHSOM 股票選擇交易策 略,先經由股票選擇策略後挑選出優質的股票,再依股票交易策略決定最佳的買 賣點提供給投資人進行決策。. vii.
(10) 本研究依所提方法進行實證結果發現,(1)在投資報酬表現部份,績效優 於長期持有交易策略、MMPSO 策略、KennedyPSO 策略。(2)在股票選擇策 略部份發現,屬量分析以稅後淨利、股東權益報酬率、每股盈餘等指標鑑別公 司經營獲利能力最強,而且從 5 年財務指標趨勢發現有優質成長明星股 (straight up)、經營不善之地雷股(straight down)及混合型股(U- or Wshaped)等三種型態,由於混合型股仍包含獲利能力好及表現不佳之公司,針 對混合型股分群結果特徵分析後建立 filter 過濾股票規則,有效提升股票鑑別 力。而在屬質之網路財經新聞資料情緒分析部份,發現實驗來源媒體報導多以 每股盈餘、稅後淨利等財務指標作為評價依據,與屬量分析的分析結果相依性 高,並考慮網路財經新聞資料情緒積分高低,篩選出情緒積分表現高之股票,. 政 治 大 移動平均線 SMA 技術指標的黃金死亡交叉決策準則,而且實驗所得最佳決策 立. 更強化股票選擇策略能力。(3)在股票交易策略部份發現,多數的股票不符合. ‧ 國. 學. 之 SMA 天數型態多屬中長期天數。另外,ROI 績效受買賣高低價的影響,當 價差愈大,ROI 獲利或損失則愈大。(4)本研究與其他研究比較,測試期間. 泛。. ‧. ROI 獲利表現較於其他方法相對偏高,整體策略考量涵蓋層面較其他方法廣. y. Nat. sit. 由於 Big Data Analytics 屬於近年來新興發展學科,實際研究案例尚少,本. n. al. er. io. 研究所提出之整體研究方法、系統架構與建置步驟,除能作為股票選擇交易決. v. 策的參考外,並可套用至其他巨量資料分析研究案例進行建構,及以本研究為. Ch. engchi. 基礎發展理財智慧代理人等輔助決策模型。. i n U. 關鍵詞: 粒子群最佳化演算法;增長層級式自我組織映射圖演算法;網路探勘 暨情緒分析;股票策略;巨量資料分析. viii.
(11) Abstract Big data analytics is the process of analyzing data, examining problems, and identifying unknown correlations and patterns. It can be categorized into three parts: data accessing and computing, data privacy and domain knowledge, and big data mining algorithms. Data accessing and computing refer to decentralized platforms and technologies that handle big data and analysis and can be further sub-categorized into real-time and batch-processing platform/technology frameworks. Data privacy and domain knowledge refer to the specialized domain knowledge required to resolve problems. Big data mining algorithms refer to techniques used in analyzing big data. In terms of a platform framework, the application of decentralized processing and storage platforms in big data analytics alleviates restrictions on computer resources. In terms. 政 治 大 information and knowledge. The novel problem-solving method of data narration 立 provides a realistic and objective overview of situations and problems, which facilitates of analysis, historical big data often contain large amounts of valuable hidden. ‧ 國. 學. the resolution of problems and discovery of knowledge.. Hence, this study proposed an innovative elite particle swarm optimization. ‧. (EPSO)–growing hierarchical self-organizing map (GHSOM) stock selection and trading strategy that is based on big data analytics. In terms of data accessing and. y. Nat. sit. computing technology, this study used the Hadoop decentralized computing framework,. er. io. Hbase decentralized storage database, Elasticsearch technology, and data analysis software to construct a decentralized computing platform for the stock selection and. n. al. Ch. i n U. v. trading strategy. In terms of data privacy and domain knowledge, value investment. engchi. theory, variable length moving averages (VLMA), and golden cross and death cross decision rules were adopted as a basis for analysis to investigate the core domain knowledge of distinguishing between the pros and cons of shares and share trading. Data from the stock market, company financial reports, financial news from websites, and other data were collected as sources for the analysis. In terms of big data mining algorithms, this study proposed an improved particle swarming optimization (PSO) method called EPSO and used the concept of data-driven points, GHSOM, and web data mining with sentiment analysis to process structured and non-structured data, form core data mining and knowledge discovery data for analysis, and establish a model that automatically explores source information exploration and selects decision-making strategies. The model uncovers knowledge from data and identifies stock selection and trading strategies, patterns, and rules from a data perspective. This provides investors ix.
(12) with a novel data analysis method and facilitates them in making decisions regarding the trading of stocks. Specifically, the EPSO–GHSOM stock selection and trading strategy first selects quality stocks using the stock selection strategy, and then, the stock trading strategy decides the optimal buy and sell points, providing investors with information for making decisions. Using our proposed method, we found that(1)in terms of investment return performance, the results are superior to the investment return rates of buy-and-hold, MMPSO, and Kennedy PSO strategies.(2)In terms of stock selection strategy of quantitative analysis, we found the net profit, ROE, and EPS demonstrated the strongest ability to distinguish among company profitability indicators. The financial index trend over five years also presented straight up, straight down, and U- or W-shaped patterns.. 治 政 profitability indicators, the application of a filter for 大U- or W-shaped clustering 立 increases the ability to distinguish among stocks. characteristic analysis effectively Because U- or W-shaped trends contain companies of both good and suboptimal. ‧ 國. 學. Using sentiment analysis on the qualitative online financial news information, we found that the media reports mainly used ROE, EPS, and other similar financial indicators as. ‧. tools for evaluation, similar to the quantitative analysis results.(3)In terms of the stock trading strategy, most stocks failed to follow the golden cross and death cross decision. sit. y. Nat. rules of the SMA. Optimal SMA parameter days for decision making were largely midterm to long term. Furthermore, ROI results were affected by high and low trading. io. er. prices, increased price margins, and increased profit–loss margins. (4)The ROI. al. n. v i n C h considerationsUfor the strategy cover a wider domain knowledge analysis methods, engchi performance was relatively better when compared with previous studies. In terms of range of areas than other methods.. In recent years, big data analytics has been an emerging science, and thus, practical study cases are scarce. The study method, system framework, and procedures proposed in this study can be applied to other areas of big data analysis in addition to being a reference for stock selection and trading strategy. The results obtained in this study can also form the basis for decision assistance models, such as an intelligent financial management agent. Keywords:. Particle Swarm Optimization; Growing Hierarchical Self-Organizing. Map; Web Mining with Sentiment Analysis; Stock Strategy; Big Data Analytics.. x.
(13) 1.研究目的. 股票交易是一錯綜複雜的動態系統,影響投資人選擇標的及買賣交易因素眾 多,大至全球總體經濟環境、產業發展趨勢、;個體經濟環境(公司經營與競爭者 發展)、市場浮游資金多寡、重大事件發生,小至投資人的決策行為、從眾心理 (Alfarano, 2009)等,因素彼此間關係錯綜複雜,更增加股票標的選擇與交易決 策的複雜度,因此,一直以來很多學者關注股票選擇或交易議題研究。. 政 治 大. 然如此複雜動態的股票交易背後,隱藏著一隻看不見的手(股票市場機制). 立. 的運行與支撐,學者對於股票市場運作情形看法分歧,持股票市場運作有無效率. ‧ 國. 學. 之不同見解(Teixeira et al., 2010)。Fama(1970)提出效率市場理論(Effect Market. ‧. Theory),認為股票市場資訊不論好壞皆是隨機產生,任何投資人皆可公平獲取. sit. y. Nat. 資訊,投資人的投資行為各自獨立互不影響。換言之,當一新資訊產生時立刻反. io. n. al. er. 應於股價,無人能夠單獨影響市場從中獲取超額利潤。若 Fama 之效率市場存在,. v. 則表示股價將隨機波動而無法進行預測,此時最佳股票投資策略即是長期持有策. Ch. engchi. i n U. 略(buy-and-hold strategy)(Teixeira et al., 2010)。. 而另一些學者(Haugen, 1999;Los, 1998)持股票市場運作無效率的看法, 其立論觀點是因在真實股票市場運作環境中,投資人是無法公平機會取得決策資 訊,例如政府官員、民意代表、公司董事與內部人員及證券分析師較容易獲得資 訊,且獲得資訊品質較為精確清晰,而一般投資人只能從公開資訊中取得。在投 資資訊不對稱的前提下,持股票市場運作無效率之學者們認為歷史將會不斷重演,. 1.
(14) 投資人當遇到與過去經歷相似之投資時空背景時,將會採取相同投資決策來影響 股市。因此,這些學者抱持股票市場趨勢存在且可以預測。. 假設股票市場運作是無效率,表示股票市場漲跌趨勢與價格波動將受市場決 策資訊影響。然而,一般股票投資人取得股票市場決策資訊大多從基本面、技術 面資訊來評估股票價值進行投資決策,依其獲得資料屬性之股票投資決策分析方 法,可分為基本分析與技術分析。. 政 治 大 其他非財務相關資訊(如商品需求預測、政府政策或新制度影響分析、人口或其 立. 基本分析(Frankel, 1986)是運用經濟學觀點(總經、個經)及公司財務或. ‧ 國. 學. 結構改變、新科技發明等等)來評估企業價值及未來表現。由於其他非財務資訊 取得門檻較高,多半投資人是以企業所公開之財務報表進行分析。技術分析. ‧. (Murphy, 1999)則是運用過去歷史股價資料轉化為統計量(指標)及圖表來進. y. Nat. er. io. sit. 行股票市場未來趨勢預測與買賣點決策判斷。技術分析的有效性與否,學者看法 兩歧。部份研究(Fama, 1970;Malkiel, 1999)顯示技術分析無法有效應用於股票. al. n. v i n C2000;Neely 市場預測,而部份研究(Osler, Weller, 2001)則顯示存在著支持 h e n g cand hi U 技術分析可有效預測趨勢與買賣決策的証據。. 從過去股票相關文獻研究以解決問題(Atsalakis and Valavanis, 2009)角度探 討,可分為預測指數趨勢方向及波動變化(index fluctuation、trendy direction;Sun et al., 2015;Karimi et al., 2014)、股價預測正確性研究(stock price accuracy、 deviation、correctness;Rostami et al., 2013;Chittineni et al., 2011)、股價變動預 測(price movement;Petchame et al., 2012;Li et al., 2012)、股票績效(predicting stock performance;Boonpeng and Jeatrakul, 2014;Saha, 2013)、股票投資組合選 2.
(15) 擇(classification of stock;Arik et al., 2014;Gupta et al., 2014)、股票交易策略 (stock trading strategy;Kwon et al., 2007;Hsu et al., 2011)。. 就解決問題的方法角度探討,人工智慧或機器學習方法為最多學者引用,探 勘技術(Mining)次之,包含資料(data)、文字(text)、網路(web)等,統 計模型為第三,其他如質化分析、影像壓縮處理演算法(Wavelet)、灰階理論 (Grey Theory)等方法,亦有學者使用。. 政 治 大 技術指標產生策略,如基因規劃法(Genetic Programming,簡稱 GP;Ohkawa et 立. 再深入探討股票選擇或交易策略研究文獻,發現過去研究多以人工智慧結合. ‧ 國. 學. al., 2008) 、K 最近鄰居演算法(k-Nearest Neighbors Algorithm,簡稱 KNN;Teixeira et al., 2010)、類神經網路(neural network,簡稱 NN;Kwon et al., 2007;Rodríguez-. ‧. González et al., 2011;Wang and Gupta, 2013)、基因演算法(Genetic Algorithms,. y. Nat. er. io. sit. 簡稱 GA;Chien and Chen, 2010)、粒子群演算法(Particle Swarm Optimization, 簡稱 PSO;Hsu et al., 2011)等人工智慧方法結合技術指標,進行買賣交易點訊. al. n. v i n Ch 號(signal)、股票市場動能趨勢辨識偵測,以及交易決策準則產生。另亦有運用 engchi U. 模糊邏輯(Fuzzy Logic)與自我組織映射圖(Self-Organizing Maps/Kohonen map, 簡稱 SOM)結合調查統計方法、財務指標,建立風險與價值評價後,作為選擇 股票標的決策參考(Pham et al., 2014);使用分段線性表示法(Piecewise Linear Representation Methods,簡稱 PLR)結合網路新聞媒體情緒指標(Web News Media Sentiments)找出股票市場趨勢轉折點(Lin et al., 2014);以模式識別法(Pattern Recognition)偵測買賣訊號與市場趨勢(Wang and Chan, 2007)等。. 3.
(16) 上述股票選擇或交易文獻大都以尋找好的交易決策準則、辨識最佳買賣點、 識別趨勢態樣、選擇股票標的等為研究目的,皆有一些重要及有趣的發現,可是 礙於電腦運算資源的限制(Kwon et al., 2007;Ohkawa et al., 2008;Teixeira et al., 2010),研究方法較無法同時多方考量如基本面、技術面等因素,而且在實驗股 票家數、實驗期間資料量及設計選擇亦有所取捨,方能因應運算資源不足的問題。 此外,上述文獻多以提供短期的股票選擇或交易策略為目標,並且較少以基本面 (財務指標)因素加入決策考量,然基本面分析對於股票選擇交易策略是非常重 要的關鍵因素,透過基本面分析萃取態樣(pattern)、特徵(feature),能有效. 政 治 大 提高股票選擇交易策略之鑑別力。 立. ‧ 國. 學. 由於股票選擇或交易決策問題複雜,相對之解決方法需考量因素繁多且細微,. ‧. Negnevitsky(2005)指出需建立具有常識判斷(accommodate common sense)、. sit. y. Nat. 可從原始資料萃取知識(extract knowledge from raw data)、能模仿人類推理機. n. al. er. io. 制,可處理不確定性及不精確性、具學習力等綜效(synergy)之混合式研究模型。. i n U. v. Debashish et al.(2013)針對使用資料探勘(Data Mining)與類神經網路(Neural. Ch. engchi. Network)技術於股票市場預測文獻的研究方法進行完整的評論(review),並指 出有必要發展具自動彙整大量的資料分析、解釋資料能力及萃取知識態樣,以供 決策的工具(a prevailing tool)。同時,宜考慮實驗股票標的之家數與資料量增 加,以提升決策正確性,並有助於穩定獲利(Kwon et al., 2007)。此外,對於股 票投資風險之不確定因素處理,Lin et al.(2014)認為網路新聞媒體情緒指標(Web News Media Sentiments)能進行股票買賣訊號偵測。Pham et al.(2012)則認為基 本 分 析 的 標 的 包 含 財 務 衡 量 方 法 ( financial weights ) 、 總 體 經 濟 面 (macroeconomics) 、財務指標(financial proportions)及股票市場消息(stockmarket 4.
(17) news)。因此,若能提供一足夠資源支持資料量大的運算,並且兼顧基本面及技 術面等因素之股票選擇交易策略與系統架構,將能大幅增進股票選擇交易決策能 力,提高投資獲利報酬、降低投資的風險。. 另一方面,近年來由於巨量資料分析(Big Data Analytics)興起,強調以資 料觀點進行分析,找出未發現的知識與態樣(pattern)。在平台部份,使用分散 式運算處理與儲存架構,鬆綁了電腦資源的限制;而在分析部份,則認為巨量的 歷史執行資料常常蘊含著大量有價值的潛存資訊和知識,讓資料說話之新思維的. 政 治 大. 解決問題方法,也帶來耳目一新的機會。因此,若能借助巨量資料分析之匯聚多. 立. 樣資料及處理大量資料運算能力特性,並設計輔以資料驅動導向之分析方法,發. ‧ 國. 學. 展透過資料角度大量探索並具學習力之股票選擇交易決策及工具,非以人為經驗. ‧. 知識干預判斷,將可使投資決策更加全面客觀,有效提升投資獲利。. y. Nat. er. io. sit. 巨量資料分析其內涵包括三個部份,分别為資料存取運算(Data accessing and computing)、資料隱私及領域知識(Data privacy and domain knowledge)及巨量. al. n. v i n Ch 資料探勘(Big data mining algorithm)三部份(Wu e n g c h i Uet al., 2014)。資料存取運算. 部份代表的是處理巨量資料與分析的分散式平台與技術(technology);資料隱 私及領域知識部份代表的是欲解決問題的領域知識(domain);巨量資料探勘部 份,則為分析巨量資料所引用的方法(technique),三大部份需融合一體相互呼 應,方能建構出一完整解決方案。. 巨量資料分析(Big Data Analytics)確實帶來一些新的觀點、技術與機會, 但如何將領域知識、欲解決問題適切融入巨量資料分析(Big Data Analytics)的 資料觀點與技術中,將是一件相當具有挑戰的課題。由於過去鮮有學者以巨量資 5.
(18) 料分析(Big Data Analytics)進行股票選擇或交易策略研究,因此,本研究運用 巨量資料分析(Big Data Analytics)的觀點,綜理領域知識、基本面、技術面來 源資料、分散式運算平台技術、資料分析與知識發掘方法,提出較完整考量多方 因素之 EPSO-GHSOM 股票巨量資料選擇交易策略。. 本研究所提出之 EPSO-GHSOM 股票巨量資料選擇交易策略,在資料存取運 算部份(technology),採 Hadoop 分散式運算架構、HBase 分散儲存資料庫、 Elastic Search 技術,以及資料分析應用程式,建構股票選擇與交易策略分散式運. 政 治 大. 算平台;在資料隱私及領域知識部份,以基本分析之價值投資理論、變動天數移. 立. 動平均線(VLMA, variable length moving averages;Gunasekarage and Power, 2001). ‧ 國. 學. 技術指標與其黃金死亡交叉決策準則,作為鑑別股票優劣與買賣交易點的領域知. ‧. 識探討核心;在分析資料來源部份,則以股票交易資料、公司財務報告重要資訊、. sit. y. Nat. 網頁財經新聞訊息等各類來源資料作為分析標的;在巨量資料探勘部份,本研究. n. al. er. io. 提出 EPSO(Elite Particle Swarm Optimization)最佳化演算法,結合並運用增長. i n U. v. 層級式自我組織映射圖(Growing Hierarchical Self-Organizing Map,簡稱 GHSOM;. Ch. engchi. Dittenbach et al., 2002)演算法,以及網路探勘暨情緒分析(Web Mining with Sentiment Analysis)方法等,處理結構化與非結構化之基本面及技術面資料,找 出資料驅動點,建構由來源資料自動探索並決定的股票選擇交易策略模型,作為 資料探勘與知識發掘的分析工具,從中進行知識挖掘,透過資料的角度發現股票 選擇交易策略態樣、準則存在,提供以資料觀點的新方法給予投資人進行股票交 易決策建議,另藉由分散式運算平台與架構,大幅提高系統運算能力。. 6.
(19) 本研究與過去各研究文獻的差異,在資料分析部份,除 TDM(Peng et al., 2005)採自創判斷準則外,其餘文獻多採用人工智慧、機器學習及網路探勘暨 情緒分析方法。另本研究採巨量資料分析(Big Data analytics)方法建構,綜理 PSO 最佳化演算法、GHSOM 非監督式演算法及網路探勘暨情緒分析等進行資 料分析。除 GHSOM 非監督式演算法本身具有資料驅動特性外,在本研究其他 資料分析方法亦加入資料驅動點概念設計,使其能由資料來源產生決策準則。. 此外,本研究方法亦考量基本面及技術面各方因素進行分析,實驗資料來. 政 治 大. 源包含結構化與非結構化資料,實驗資料期間在交易策略部份更參採自各股股. 立. 票開始上市日至實驗日期止之資料為訓練對象,實驗股票標的達 84 家。再者,. ‧ 國. 學. 本研究同時提供選擇與交易兩種策略,是與過去文獻採單一策略不同。由於實. ‧. 驗資料期間涵蓋長而完整需耗大量運算資源(實驗運算量達 30 億次以上),故. 綜此,本研究目的包含以下四項目標:. n. al. Ch. engchi. er. io. sit. y. Nat. 本研究採分散式運算平台架構與系統設計,更突破了運算資源的限制。. i n U. v. 1. 發展以巨量資料分析(Big Data Analytics)方法為主軸之股票選擇交易策 略,本研究策略綜理(1)提出 EPSO 最佳化演算法結合技術面資料,產生 交易決策準則,識別最佳買賣交易點。(2)運用 GHSOM 演算法結合基本 面資料,產生最佳分群分類規則,萃取分群分類態樣與特徵,挑選出優質安 全股票名單。(3)運用網路探勘暨情緒分析方法,結合網路財經新聞等資 料,產生股票評價分數,精煉 GHSOM 所挑選之候選股票名單。(4)由實 驗結果挖掘過去未發現之知識,並發展決策準則提供投資人進行股票選擇交 易決策。 7.
(20) 2. 提出一整體研究方法、系統架構、建置步驟與案例,作為其他領域之巨量資 料分析研究建構的範本案例(practices)。. 3. 比較本研究與其他研究方法之選擇交易策略差異與投資報酬績效優劣。. 4. 提供股票選擇交易策略之實務意涵與研究限制,作為未來研究的參考依據。. 本研究章節說明如后,第二章為文獻探討,分別描述股票領域知識、巨量 資料分析,以及粒子群演算法(PSO)、增長層級式自我組織映射圖. 政 治 大. (GHSOM)、網路探勘暨情緒分析(Web Mining with Sentiment Analysis)等. 立. 資料分析方法相關文獻研究,第三章提出本研究方法,第四章饋入台灣股票市. ‧ 國. 學. 場資料進行實驗,並分析探討實驗結果,第五章與其他研究文獻進行比較探. Nat. n. al. er. io. sit. y. ‧. 討,第六章為討論、意涵與限制,第七章為結論與建議。. Ch. engchi. 8. i n U. v.
(21) 2.文獻探討. 2.1 股票策略領域知識 2.1.1 股票策略文獻探討 股票領域策略有相當多學者投入研究,眾多文獻中如以解決方法論 (methodology)來區分,則人工智慧被最多學者引用,探勘技術(Mining)次 之,包含資料(data)、文字(text)、網路(web)等,統計模型為第三,其. 政 治 大. 他如質化分析、影像壓縮處理演算法(Wavelet)、灰階理論(Grey Theory)等 方法,亦有學者使用。. 立. ‧ 國. 學. 在人工智慧研究方法文獻部份,使用的方法大致有類神經網路(Neural. ‧. Network,簡稱 NN)(Das and Uddin, 2013;Jahnavi and Katyayani, 2014)、模. y. Nat. er. io. sit. 糊理論(Fuzzy Theory)、支持向量機(Support Vector Machine,簡稱 SVM)、粒子群演算法(Particle Swarm Optimization,簡稱 PSO)、基因演算. al. n. v i n 法(Genetic Algorithm,簡稱 C GA)、模擬(Agent-based h e n g c h i U or Simulation)、混沌 理論(Chao Theory)、略集合理論(Rough Set Theory,簡稱 RST)、隱藏馬 可夫模型(Hidden Markov Model,簡稱 HMM)、蟻群演算法(Ant Colony Optimization,簡稱 ACO)、差分演化演算法(Differential Evolution,簡稱 DE)、細菌覓食最佳化演算法(Bacterial Foraging optimization,簡稱 BFO; Mohapatra and Das, 2013)等。. 探勘技術方法,包含資料探勘、文字探勘、網路或社群媒體的文字探勘。 資料探勘(Fidan and Ozkok, 2013)研究引用的方法有決策樹(Decision 9.
(22) Tree)、分類(Classify)、關聯式規則(Associate Rule)、聚類(Cluster) 等,結合技術分析指標或基本分析指標資料一併探討。另外,由於社群媒體及 網路的普遍使用,有不少學者進行文字探勘、網路或社群媒體文字探勘等研究 (Porshnev and Redkin, 2014;Si et al., 2013;Liu et al., 2013;Hagenau et al., 2013),此類研究多半與股票情緒(sentiment)及意見(opion)結合,將情緒 或網路意見等文字作為探勘的主要對象,針對這些文字出現的次數予以正負向 情緒量化,再評估對股票市場趨勢的影響,此類研究為巨量資料分析處理非結 構資料的重要方式。. 立. 政 治 大. 有關統計模型部份使用的方法有時間序列(Time Series,包含 ARIMA. ‧ 國. 學. GARCH 等 model)、馬可夫鏈(Marco Chain)、迴歸分析(Regression)、分. ‧. 型理論(Fractal Theory)、多階層模型(Hierarchy Model)、非參數估計. er. io. sit. y. Nat. (Non-parameter)等。統計模型運用以時間序列為最多,馬可夫鏈次之。. 股票領域策略研究以資料來源之自變數分類(Atsalakis and Valavanis,. al. n. v i n Ch 2009)區分,大致可分為技術指標、每日交易資料(價量)、股票指數、經濟 engchi U 指標、財務指標等類別,以技術指標及每日交易資料作為資料來源為最多,而 股票指數及經濟指標次之,財務指標則最少。近年來,由於網路社群媒體興 起,有一些學者之資料來源,以半結構化及非結構化資料作為分析重點,慢慢 形成一分析主流,是不容忽視的研究領域。. 股票領域策略研究文獻從解決問題(Atsalakis and Valavanis, 2009)來看,有 預測指數趨勢方向及波動變化(index fluctuation、trendy direction;Sun et al., 2015; Karimi et al., 2014)、股價預測正確性研究(stock price accuracy、deviation、 10.
(23) correctness;Rostami et al., 2013;Karimi et al., 2014;Chittineni et al., 2011)、股 價變動預測(price movement;Petchamé et al., 2012; Li et al., 2012)、股票績效 (predicting stock performance;Boonpeng and Jeatrakul, 2014;Saha, 2013)、股票 投資組合選擇(classification of stock;Arik et al., 2014;Gupta and Sharma, 2014)、 股票選擇或交易策略(stock selecting or trading strategy,如表 2-1),有關股票選 擇或交易策略文獻分別從找尋好的交易決策準則、識別買賣訊號及趨勢態樣、股 票標的選擇等解決問題的觀點,以及使用解決方法、決策準則、輸入自變數及樣 本、研究發現等角度彙整理如表 2-1 所示。. 政 治 大. 決策準則 (Trading rule). n. al. 3. ensemble(整 體學習演算法). Hsu et al. (2011). PSO(Particle Swarm Optimization). Butler and Kazakov (2010). PSO(Particle Swarm Optimization). Ch. 1.變數:75 種 技術指標, 如 Stock price、MA、 RSI、 MACD、KD 等 2.樣本: NASDAQ (19922004). engchi. i n U. v. 變數:SMA 樣本: Taiwan Mutual Fund Market (20002009) Bollinger bands. 11. 1.提出將複雜的神經網 絡(隱藏層)weight 2D 矩陣資訊轉換為較單純 表達狀態的 ensemble model 方法,並且運用 GA 演算法,找出最好 的交易準則,其績效顯 著高於長期持有交易策 略。 2.本研究方適合預測 1 年內短期策略 3.使用大量運算資源投 入(46cpu cluster system 執行 75 個技術指標), 其效能比其原來未投入 資源前提升 39 倍。. sit. io. 2.Genetic Algorithm (GA). 1.首先建立表側為 NN 隱藏層的節點,而表 頭為 NN 輸入層、隱 藏層及輸出層節點之 2D chromesome,而 2D 內之資料為 NN weight,每一個 row 作 為 chromesome。 2.將 NN weights 轉換 成 ensemble model 狀 態(將複雜的狀態整 合在用一個很單純狀 態表示),再將轉換 後 ensemble chromosome 透過 GA 演化最佳 ensemble 機 制決定買賣策略。 黃金死亡交叉決策準 則(golden-cross and death-cross rule). er. 1.Neural Network (NN). Nat. Kwon et al. (2007). ‧. 一、解決問題:找尋好的交易決策準則. 研究發現 (Finding). y. 方法 (Methodology). 輸入自變數 (Variable) 及 樣本 (Sample). 學. 作者 (Author). ‧ 國. 立表 2-1:股票選擇交易策略文獻. 運用變動天數移動平均 線及 PSO 演算法識別買 賣點與決策準則,以進 行決策。. 以 PSO 演 算 法 找 尋 Bollinger bands 最 佳 買 賣交易決策準則。.
(24) 作者 (Author). 方法 (Methodology). 決策準則 (Trading rule). RodríguezGonzález et al. (2011). Neural Network. 使用不同天數的 RSI 決策準則(如 9 天、 14 天、30 天及 option). Chien and Chen (2010). GA. 由技術指標的關聯規 則(association rule),如 RSI>70%買 入股票等,視為一 chromesome,由 GA 演化找出最佳規則。. 輸入自變數 (Variable) 及 樣本 (Sample) 1.變數:RSI 2.樣本: Spanish IBEX stock market (19952010) 1.變數: Stock price、 volume、 MA、KD。 2.樣本: S&P500 (20052008). 政 治 大. 研究發現 (Finding) 提出 NN 結合 RSI 指標 決策準則,並且找出最 好的 RSI 規則之股票交 易方法。. 提出以 GA-ACR 為基底 之數值關係表示方法 (relation representation of numerical data)來表 達技術指標的關聯規 則,並找出好的關聯分 類規則(associative classification),以改進 處理關聯分類問題的能 力。. 二、解決問題:識別買賣訊號(signal)及趨勢態樣(trend pattern). 立. n. er. io. sit. y. Nat. al. Teixeira et al. (2010). K 最近鄰居法 (k-Nearest Neighbors algorithm, KNN). Chavarnakul and Enke (2009). 1.Neuro Network 2.Fuzzy Logic 3.Genetic Algorithm. 1.運用盒形圖前後兩個 交易日之 window 態樣 產生買賣訊號,而利用 Control Node 來代表一 組買賣交易策略,其中 包含 Judget Node 用來判 斷盒形圖態樣是否有買 或賣訊號,Process Node 則根據 Judge Node 回傳 的訊號進行買或賣交 易。 2.運用 GNP 方法演化, 取得最好的 Control Node 交易策略。 3.本研究可產生買股票 的投資組合比例及適合 短期交易策略。 1.提出以每日收盤價、 交易量為核心之技術指 標,並結合停損、停 利、RSI 等之 K-NN 樣 本比對方法。獲利優於 長期持有交易策略,並 適用於預測實際短期股 指走勢。 2.專家識別樣本選擇是 本研究方法準確的關 鍵。 1.此方法運用量移動平 均線、NN、Fuzzy 建立 買賣決策,即使交易量 少期間仍可有效識別股 票交易買賣決策。 2.fuzzy 有助於不確定訊 號的處理,GA 演算法. ‧. 2.模擬 (Simulation). 1.變數:盒型 圖 2.樣本:First Section of the Tokyo Exchange market (20012004). 學. 盒形圖(candle stick) 前後兩個交易日之 window pattern 來決定 買或賣的訊號. 1.基因網路規劃 (Genetic Network Programming with control nodes, GNPcn). ‧ 國. Ohkawa et al. (2008). Ch. i n U. v. e n g c h i1.變數:. 1.專家識別過去歷史資 料技術指標買賣點之 態樣。 2.訓練歷史資料買賣點 以 KNN 方法與專家識 別樣本進行樣本比 對,即 K 鄰居之買賣 點數比較,若買比例 多,則進行買的策 略,反之則賣的策 略。 1.使用 VAMA(量的 移動平均線5,13,21,55,63 天) 結 合 NN,產生二個預測 Function,分別為 GRNN1(預測明日 量)與 GRNN2(預測 明日收盤價)。. 12. SMA、RSI、 KD、 Bollinger band。 2.樣本:Sao Paulo Stock Exchange (Bovespa) (19982009) 1.變數: 等量 圖 (equivolume charting)及 量移動平均 線 ( VAMA).
(25) 決策準則 (Trading rule) 2.GRNN1、GRNN2 作 為 Fuzzy 及 GA 模組 的 Input 來決定買賣訊 號。 1. Wavelet 演算法主要 是處理 missing data。 2. NN(feed forward back propatation)結合 近期股票交易資料 (gradual data sub sample),預測未來 的股票價格,並以交 易角度為主,每日偵 測買賣訊號。 3.買賣訊號偵測交易決 策原則: (1)Sell: predict price < today’s price (2)Buy: predict price > today’s price 1.將 technical indicator charting pattern、price bull flag 等先轉變為運 用於圖形表達的值, 如 0,1,0.5,-1 等,對於 買賣訊號的圖形狀態 予以表達。 2.再運用圖形比對技術 Pattern Recognition 進 行買賣訊號偵測。. 1.Neural Networks 2.Wavelet. 政 治 大. io. n. Ch. engchi. Peng et al. (2005). 自行開發一 TDM 股票交易 機制 (TDM:Trading Decision Machenism). 運用台股加權指數線 及 TDM 系統,進行股 市趨勢轉折點進行辨 識,以提供買賣決 策。. Chang et al. (2009). 1.Piecewise Linear Representation Method. 1.根據 PLR(線段切 割法)將歷史資料按 期間劃分為若干區段 (segment),結合 MACD、KD 等指標依 每區段進行轉折點 Pattern matching,再將 比對資訊運用 NN 產 生買賣訊號進行交 易。. 2.Backpropagatio n neural network (BPN) 3. Genetic Algorithm. 1.變數: Stock index 2.樣本: Nasdaq Composite Index (NASDAQ ) and Taiwan Weighted Index (TWI) (19712004) 1.變數:台股 加權指數 2.樣本: Taiwan Stock Exchange Capitalization Weighted Index (20012003). 1.變數: Stock price、 RSI、MA、 MACD、 KD、威廉指 標、交易量 2.樣本: S&P500 (20002005). 針對 NASDAQ 及 TWI 兩股票市場之牛市趨勢 變化,提出以圖形辨識 樣本比對方法,辨識牛 市之技術指標股票買賣 訊號,並且同時解決辨 識誤差,減小資料挖泥 (data snooping)情形發 生。. ‧. Nat. al. 1.使用 wavelet de-noise 訊息,將有助於預測正 確率的提升。 2.NN 結合近期股票交易 資料(gradual data), 而不是使用過去的資 料,對於短期投資較能 精準預測。. er. Pattern Recognition. 則提升買賣交易信號偵 測的能力。. 學. Wang and Chan (2007). ‧ 國. 立. 1.變數: Stock Index 2.樣本: NASDAQ 100 and S&P 500 (19502010). 研究發現 (Finding). y. Wang and Gupta (2013). 方法 (Methodology). sit. 作者 (Author). 輸入自變數 (Variable) 及 樣本 (Sample) 2.樣本:S&P 500 (19972003). 13. i n U. v. 提出股價轉折點與趨勢 識別系統. 提出結合 PLR、NN (BPN)及 GA 方法辨 識趨勢上升、趨勢下降 及持平等狀況,且均有 顯著獲利。.
(26) 2.GMKL(自行 設計技術分析結 合機器學習系 統) 3.Genetic Algorithm. Butler and Kazakov (2012). 1. 6 種監督式學 習演算法 (1) Multilayer Perceptron (MLP) 2) Support Vector Machine (SVM) 3) Artificial Immune System (AIS) 4) J48 Decision Tree (J48) 5) k-Nearest Neighbour (kNN) 6) Na¨ıve Bayes). ‧ 國. 立. Nat. io. n. al. 政 治 大. Ch. 1.變數: Stock price 2.樣本:S&P 500 (20032005). 本研究創新的部份為加 入網絡新聞媒體情緒指 標作為景氣指標的判 斷,將助於股票預測精 確度提升。另外偵測買 賣訊號部份,其方法股 票有比較性設計,將有 助於選擇好的股票投資 組合。. 提出 price series transformation 結合 Echo State Network 建置股票 交易系統,模擬牛市與 熊市市場其獲利均優於 長期持有交易策略。. ‧. Echo State Network (RNN,NN). 1.變數:技術 指標、Web news media sentiment indicators 2.樣本: Shanghai and Shenzhen Stock Exchange (20102012). 學. Lin et al. (2011). 2.GA 則用來強化 PLR 方法。 1.根據 PLR 將歷史資 料按期間劃分為若干 區段(segment),提 出 GMKL 結合技術指 標和網絡新聞媒體情 緒指標(Web news media sentiment indicators , WNMS), 將 PLR 與買賣訊號整 合,進行轉折點之 Pattern matching。 2.GA 則用來強化 PLR 及技術分析訊息方 法。 提出 price series transformation 將 Stock price 轉換成-1 到 1 之 間的值,以清楚顯示 趨勢轉折點(trend changes or reversal points),當值為 1 時 為賣出訊號,-1 為買 入訊號。 1. 使用 6 種監督式學 習方法與 sliding window 方式模擬 GARCH 過程,檢測時 間序列模型之非線性 變數關係相依性。 2.買賣訊號由 Stock price 與 Bollinger band 上下界比較決定. 研究發現 (Finding). 1.變數: Stock price, Bollinger band 2.樣本: 2001-2010. 1.提出 6 種監督式學習 方法與 sliding window 方式模擬 GARCH 過 程,可檢測時間序列模 型之非線性變數關係相 依性,提高預測股票趨 勢準確度,並且可以觀 察出是否有 overfitting 的情形。 2.PSO 演算法運用於 Bollinger band 上下界優 化。. y. 1.Piecewise Linear Representation Method. 決策準則 (Trading rule). sit. Lin et al. (2014). 方法 (Methodology). er. 作者 (Author). 輸入自變數 (Variable) 及 樣本 (Sample). engchi. i n U. v. 2.GARCH process 3.Particle Swarm Optimaization 三、解決問題:股票標的選擇 Pham et al. (2014). 1.問卷調查法 (Questionnaire ). 1.使用問卷調查法,調 查內容建立正負向情 緒關鍵字(稱為 Kansei evaluation),. 2.Fuzzy. 14. 1.變數: (1)問卷調 查設計,以 15 個受試者. 1.提出運用問卷調查法 及 Kansei Engineering 衡 量評價專家與受訪者對 股票的喜好,再透過.
(27) 作者 (Author). 方法 (Methodology). 衡量受訪者對於股票 的喜好。 2.運用 Fuzzy 將 Kansei evaluation 評價結果與 專家對股票評價結合 經由 SOM 建立分類分 群規則,並衡量股票 風險與價值,再依分 析結果選擇股票。. 3.SOM(SelfOrganizing Map). 2.1.2 股票投資決策. 決策準則 (Trading rule). 立. 輸入自變數 (Variable) 及 樣本 (Sample) 對其問卷股 票標的,依 個人喜好衡 量股票風險 及價值。 (2)專家評 價 2.樣本: HOSE, HNX (Vietnam), NYSE,NASD AQ (US) stock markets (20092010). 研究發現 (Finding) Fuzzy 產生一積分,運 用 SOM 建立分類分群 規則,以識別股票風險 與好壞問卷調查衡量股 票風險及價值。 2.調查股票標的包含越 南及美國股市,以比較 開發中國家與已開發國 家股市情形,目前此種 方法運用於虛擬交易系 統。. 政 治 大. ‧ 國. 學. 在股票市場趨勢存在且股票價格可以預測之假設下,投資人評估股票價值. ‧. 進行投資決策之方式,大致可分為基本面與技術面兩種方法。基本分析. y. Nat. er. io. sit. (Frankel, 1986),是運用經濟學觀點(總經、個經)及公司財務或其他非財務 相關資訊(如商品需求預測、政府政策或新制度影響分析、人口或其結構改. al. n. v i n Ch 變、新科技發明等等)來評估企業價值及未來表現。由於其他非財務資訊取得 engchi U 門檻較高,多半投資人是以企業所公開之財務報表進行分析。. 技術分析(Murphy, 1999)則是運用過去歷史股價資料轉化為統計量(指 標)及圖表來進行股票市場未來趨勢預測與買賣點決策判斷。技術分析的有效 性與否,學者看法兩歧。部份研究(Fama, 1970;Malkiel, 1999)顯示技術分析 無法有效應用於股票市場預測,而部份研究(Osler, 2000;Neely and Weller, 2001)則顯示存在著支持技術分析可有效預測趨勢與買賣決策的証據。有關基 本分析與技術分析文獻探討,將分節討論說明。 15.
(28) 2.1.2.1 基本分析. 一般投資人在股票價值衡量上,常用淨值市價比率、盈餘市價比率、股利 殖利比率等三個財務指標來評估,具有高淨值市價比率、高盈餘市價比率、高 股利殖利比率特性之股票,稱為價值股(value stock),而低淨值市價比率、低 盈餘市價比率、低股利殖利比率特性之股票,稱為成長股(growth stock)或是 魅力股(glamour stock)。. 政 治 大 比任何財務衡量指標,更有能力預測評估股票是否具有持有價值。換言之,淨 立 Fama and Kenneth(1992)提出淨值市價比率效應(book-to-market ratio). ‧ 國. 學. 值市價比率愈高的股票,其投資獲利愈高,即使考慮投資風險此效應仍然存 在。Fama and Kenneth(1995)指出根據淨值市價比率效應之投資組合(book-. ‧. to-market ratio portfolios)與公司未來獲利能力(future earnings)、公司未來成. y. Nat. er. io. sit. 長率(future growth rates)呈負相關之關係。Piotroski and Eric(2012)指出眾 多文獻證明在投資價值股、成長股或魅力股與大盤績效比較,價值股比成長股. al. n. v i n Ch 或魅力股之績效好,其收益差異的根源,目前仍是相當大的爭議話題,有些人 engchi U 認為是投資賠償風險所致,但亦有人認為是對股票的錯誤評價(mispricing)。 由此可知,股票價值衡量為股票選擇與投資獲利的重要關鍵。. 在股票價值評估選擇文獻上,以 Graham & David(1934)首先提出價值投 資法(value investing),透過股息收益率、市盈率(P/E,股價/每股淨利潤) 等財務指標,計算內在價值(intrinsic value)以衡量股票真正價值,再依淨值 市價比率(P/B,股價/每股淨資產)評斷是否股票價值被市場低估,若低估該 標的則便宜買入。Graham 所提出之內在價值有別於代表以財務報表內之股東權 16.
(29) 益計算而得之每股帳面價值(book value),並依公平價值(fair-value)概念評 估股價,逢低買進股票。. 巴菲特價值投資理論(Buffett and Carol, 2001;Hagstrom, 1997)師承 Graham 及 Fisher(鍾華, 2011)影響,改進 Graham 價值投資理論並提出結合定 性與定量分析衡量方法,依公司業務特性、經營管理能力、財務健全與否、股 票內在價值與市場價格評估四大面向,進行檢視投資標的,公司業務特性及經 營管理能力面向偏定性分析,而財務健全與否、股票內在價值與市場價格評估. 政 治 大. 屬定量分析。公司業務特性之評斷準則以選擇市佔率高、業務簡單明瞭、獲利. 立. 穩定之公司。經營管理能力評斷準則以經營團隊人才優質,並具有資本配置決. ‧ 國. 學. 策權力,理性且誠實經營等加以評估。財務健全與否之評斷準則,則以股東權. ‧. 益報酬率(ROE)、每股獲利(EPS)、本業純益率、股東盈餘(Owner. sit. y. Nat. earnings)等財務指標衡量。股票內在價值與市場價格評估之評斷準則,其股票. n. al. 標結合安全邊際原則,進行股票買賣決策。. Ch. engchi. er. io. 內在價值以股東盈餘衡量,市場價格評估則依市價淨值比率評估,兩者財務指. i n U. v. 此外,另有一派學者提供選股指標作為股票選擇評價依據,首先是 Piotroski(2000)提供價值股評等績效準則 F_SCORE 來評估股票價值,該評估 方法是先依公司獲利能力、資金來源及營運效率之九種基本面財務指標篩選出 好的股票投資標的後,再考量市價淨值比率來評估是否買入,其主要貢獻在於 提供簡單財務指標資訊及準則,作為識別股票優劣與買賣時機的決策。. Mohanram(2005)提供價值股評等績效準則 G_SCORE 來評估股票價值, 該評估方法綜合行為財務學及傳統基本分析,提出涵蓋四個面向之八大指標, 17.
(30) 作為衡量股票價值的參考,並且指出傳統基本分析適合衡量價值股,成長趨勢 分析適合成長股或魅力股的衡量。. 價值投資的投資哲學,是讓投資人審視公司(股票)真正的內在價值,關 注股票背後公司經營獲利能力,而非價格上的追逐(投機)。而公司經營獲利 能力端賴基本分析之重要財務指標與一些定性方法來衡量公司的內在價值。找 到股票內在價值後,方能與淨值市價比率比較評斷股票是否可以購入的時機, 以便宜的買價買入,才是投資獲利的關鍵。以下就各重要學者立論之基本分析. 政 治 大. 財務指標及貢獻整理如表 2-2 所示。. ‧. Investing). y. 1.股息收益率. 用簡單財務指標計算股票. er. sit. 首先提出價值投資法,運. 內外價值及安全邊際準. 2.市盈率. al v則,便於挑選優質低價且 i 3.股票內在價值 n Ch 二、尋找好價格之評估指標 e n g c h i U 安全的股票。 n. 價值投資法(Value. 研究貢獻. 一、尋找好公司之評估指標. io. (1934). 財務指標. Nat. Graham & Dodd. 表 2-2:價值投資文獻財務指標比較表. 學. 文獻. ‧ 國. 立. 淨值市價比率與股票內在價值比較 Buffet(Buffett and. 一、尋找好公司之評估指標. 增加定性分析及集中投. Carol, 2001;. 1.定性分析. 資,以及提供更嚴謹財務. Hagstrom, 1997). (1)公司業務特性. 觀點檢視股票標的,修正. 價值投資法(Value. (2)經營團隊能力. Graham 價值投資法,並運. Investing). 2.定量分析:財務健全與否. 用簡單財務指標計算內外. (1)股東權益報酬率(ROE). 價值及安全邊際,便於挑. (2)每股獲利(EPS). 選優質低價且安全的股. (3)本業純益率. 票。. (4)股東盈餘(Owner earnings),用 以衡量股票內在價值。 二、尋找好價格之評估指標. 18.
(31) 文獻. 財務指標. 研究貢獻. 淨值市價比率與股票內在價值比較 Piotroski(2000)之. 一、尋找好公司之評估指標. 提供簡單財務指標資訊及. F-SCORE 價值股評. 1.公司獲利指標. 準則,作為識別價值股優. 等績效準則. (1)總資產報酬率(ROA). 劣與買賣時機的決策。. (2)總資產報酬率變動值(△ROA) (3)營運現金流量比率(CFO) (4)應計總額(ACCRUAL) 2.資金來源指標 (1)負債比率變動值(LEVER). 政 治 大. (2)流動比率變動值(△LIQUID) (3)現金增資(△EQ_OFFER). 立. 3.營運效率指標. 學. (2)總資產週轉率變動值 (△TURN) 二、尋找好價格之評估指標. ‧. ‧ 國. (1)毛利率變動值(△MARGIN). 淨值市價比率 一、尋找好公司之評估指標. 提供簡單財務指標資訊及. 之 G-SCORE 股票評. 1.獲利與現金流量能力指標. 準則,作為識別價值股與. 等績效準則. (1)總資產報酬率(ROA). 成長股或魅力股優劣,並. n. Ch. engchi U. 2.盈餘品質指標. sit. v決定買賣時機的準則。 i n. (1)應計總額(ACCRUAL) 3.營運風險指標. (1)公司盈餘變異數(利用過去三年 每季 ROA 的變動性估計) (2)公司銷售成長變異數(利用過去 三年每季的銷售成長變動性估計銷售 成長變異數) 4.穩健會計指標 (1)研究發展支出比率 (2)資本支出比率 (3)廣告支出比率 二、尋找好價格之評估指標 淨值市價比率 19. er. io. al. (2)營運現金流量比率(CFO). y. Nat. Mohanram(2005).
(32) 2.1.2.2 技術分析. 技術分析是將股票市場的價量資料進行統計分析,參考過去變動軌跡預測 未來市場趨勢變化,其趨勢可能包括動能、高頻交易、電腦交易等社會案件 (Han et al., 2012)。技術分析是建立於歷史會重演之基本假設下,並且認為股 票市場價格代表的價值不是基本面分析的價值,而是投資人主觀認定其應具有 的價值。最早技術分析理論為道氏理論(Dow Theory;Malkiel, 1999),屬趨 勢分析理論一種。其主要核心觀念,為所有的資訊皆反應於股價指數之假設前. 政 治 大. 提下,認為價格趨勢存在,其反轉訊號未明確發生前,原有趨勢仍然不變有. 立. 效,且趨勢週而復始不斷重演。其他尚有波浪理論、K 線理論、箱形理論及缺. ‧ 國. 學. 口理論等技術分析理論。. ‧. 技術分析指標分為兩種類型,一為動能指標(momentum indicators),如移. y. Nat. er. io. sit. 動平均線(moving averages)等,一為逆勢指標(contrarian indicators),為判斷 趨勢反轉的指標,如相對強弱指標(relative strength index,簡稱 RSI)、KD 隨. al. n. v i n C h1999;Liaw, 2012)。 機指標(stochastic)等(Murphy, engchi U. 動能指標中之移動平均線是最基本的趨勢分析預測指標,一般以天數長短計 算各自代表股票市場之短、中、長期發展趨勢,其指標隱含成本與支撐壓力(股 價支撐/壓力的參考價位)、呈現趨勢樂觀或悲觀(牛市或熊市)、波動幅度大小 長短。但由於平滑曲線,反轉訊號發出緩慢,愈長期之移動平均線愈平緩落後情 形愈嚴重,亦代表愈長期其訊號代表性資訊愈少。. 20.
(33) 移動平均線又有依天數變動與否,分為固定天數移動平均線(FLMA, fixed length moving averages)及變動天數移動平均線(VLMA, variable length moving averages;Gunasekarage and Power, 2001)。移動平均線公式(2.1)如下:. 1. 𝑆𝑀𝐴𝑇𝑘 = 𝑇 ∑𝑘𝑡=𝑘−𝑇+1 𝑃𝑟𝑖𝑐𝑒𝑡. (2.1). T 為日期,Price 為日期 T 的收盤價,以 6 天移動平均線(SMA6)為例,即 計算每一日之前 6 個交易日(含當日)平均收盤價,再將每個 SMA6 繪成線而成. 政 治 大. 移動平均線。亦代表移動平均線中的每一日價格權數均等,更多研究運用移動平. 立. 均線建立模型進行趨勢及買賣決策預測。. ‧ 國. 學. 2.2 巨量資料分析(Big Data Analytics). ‧. al. er. io. sit. y. Nat. 2.2.1 巨量資料分析文獻探討. n. 巨量資料顧名思義代表成千上萬的資料迅速地被產生且其資料量快速增加,. Ch. engchi. i n U. v. 引申如何從巨量資料中進行資料分析的議題。藉由巨量資料分析探勘後,發現一 些新知識,來提升生產力、推動創新及優化決策品質。一些學者對巨量資料(Big Data)定義如下所示:. Gartner 認為巨量資料是項具有高容量(high volume)、速度(velocity)及 多樣性(variety)之資訊資產(information assets),此項資訊資產能夠增加對於 企業需求成本效益衡量、提升資訊處理創新的洞見(insight)及決策品質。 Zikopoulos et al.(2012)指出巨量資料是由三個 V 字所組成—數量(volume)、. 21.
(34) 速度(velocity)及多樣性(variety)。Volume 表示大量資料增加有別以往過去 (over traditional settings),Velocity 表示信息產生的速度遠超過以往傳統的系 統,Variety 表示企業資料以多樣的面貌存在。. Zikopoulos et al.(2012)更進一步提出第 4 個 V-真實(Veracity)及第 5 個 V價值(Value)來融入於巨量資料的概念以表示大數據。真實性是表達數據或資 料的準確性(accuracy)、真實性(truthfulness)和可靠性(reliability)。第 4 個 V 所呈現價值雖是令人期待,但因其需匯聚多個來源管道資料,將是項艱鉅的任. 政 治 大. 務。第 5 個 V-價值(Value)則點出了巨量資料將帶來對於企業資訊科技投入所. 立. 產生的附加效益,但仍需考量成本效益的適合性。. ‧ 國. 學. Teradata 公司認為巨量資料是由不同的資料來源(diverse data)需用不同資. ‧. 料結構與分析方式處理。Bawa(2011)指出數以千計應用系統產生資料的速度將. y. Nat. er. io. sit. 迅速擴增中,而數以萬計正在分析這些資料的程式亦同時迅速成長中。此外, Bawa 亦指出多樣的資料結構很可能具有高變異性(highly variant),另部份資料. al. n. v i n Ch 結構是由系統功能程式產生而成。故與時俱增的巨量資料,確需用巨量分析方法 engchi U 來進行分析以茲因應。. 由於多樣、複雜及少結構化的資料正不斷迅速增加,所以分析方法尤為重 要(Chen and Zhang, 2014)。為了滿足這些需求,對於傳統資料庫處理方式及 基礎建設將是項巨大挑戰。巨量資料分析將以新的基礎架構及建置方式來達成 這些需要,亦即利用大量分散式架構處理及管理分析資料。. 22.
(35) O'Leary(2013)綜整以上巨量資料的定義,強調資料量多(more data)、 資料複雜多樣、非結構化的特性。而巨量資料分析包含資料快速被產生,以及 企業必須快速回應巨量資料。因此,資料遂較具模糊性(equivocality;O'Leary, 2013),為進行此種特性資料的分析,首先需先將其去模糊性。模糊性代表分 析資料具有不一致、不完整、可擴展性、即時性特質(Chen and Zhang, 2014)。最後,強調必須改變資訊科技架構朝併行處理方式(parallel processing)。. 政 治 大. 巨量資料分析框架可分為三大部份(Wu et al., 2014),分別為資料隱私及. 立. 領域知識(Data privacy and domain knowledge)、資料存取運算(Data. ‧ 國. 學. accessing and computing)、巨量資料探勘(Big data mining algorithm),如圖. ‧. 2-1 所示。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-1:巨量資料分析框架(Wu et al., 2014). 資料隱私及領域知識部份,是指在處理巨量資料背後所需之專業領域知識 及其相關隱私議題,如前 2.1 所探討的股票相關領域知識。. 資料存取運算部份,主要是提供能處理巨量資料運算平台與程式,以因應 巨量成長的資料量與計算量。而巨量資料運算平台可分為批次處理(batch. 23.
(36) processing)及即時處理(stream processing)兩大架構,分別由不同平台技術支 援(Chen and Zhang, 2014),如圖 2-2 所示。. 批次處理平台架構有 Apache Hadoop、Dryad、Apache Mahout、Jaspersoft BI Suite、Pentaho Business Analytics、Skytree Server、Tableau、Karmasphere Studio and Analyst、Talend Open Studio 等。在即時處理的平台架構有 Storm、 S4、Proven、SQLstream s-Server、Splunk、Apache Kafka、SAP Hana 等。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2-2:巨量資料分析運算平台(Chen and Zhang, 2014). 巨量資料探勘部份,是以資料的角度將領域知識、人工智慧、模擬、資料 探勘、文字探勘及統計等資料分析方法,以及分散式運算平台處理大量且複雜 資料,並進行知識發掘的工作。而在知識發現的方法中,常被大家所採納的是 KDD(Knowledge Discovery from Data),透過 7 個步驟(Begoli Horey, 2012)逐步建構並發現知識,步驟說明如下:. 24. and.
(37) KDD(Knowledge Discovery from Data),透過 7 個步驟(Begoli and Horey, 2012)逐步建構並發現知識,步驟說明如下:. 1. 由客戶端角度(customer’s perspective)根據歷史資料定義應用領域處理流程 (Application domain prior to information and defining purpose of process from customer’s perspective)。. 2. 知識發掘議題中產生資料子集合(Generate subset data point for knowledge. 政 治 大. discovery)。. 立. 3. 去 除 雜 訊 、處 理 漏 失資 訊 、 收 集必 要 資 料 及 計 算 時 間資 訊 、 已知 變 化. ‧ 國. 學. (Removing noise, handling missing data fields, collecting required information to. ‧. model and calculating time information and known changes)。. y. Nat. al. er. io. sit. 4. 找尋可以表示知識發掘議題之資料及屬性(Finding useful properties to present. n. data depending on purpose of job)。. Ch. engchi. i n U. v. 5. 配適符合研究目的的資料發掘方法(Mapping purposes to a particular data mining methods)。. 6. 選擇資料探勘方法,以找尋資料態樣(Choose data mining algorithm and method for searching data patterns)。. 7. 用表示式表達研究的態樣(Researching patterns in expressional form)。. 25.
(38) 反覆多次執行步驟 1 至 7,將有可能發現新的樣態與知識機會。其中於步驟 5 之資料挖掘方法,可依資料來源及解決問題特性,選擇適合的結構化與非結構 資料分析方法,本研究將於 2.2.3 與 2.2.4 深入探討。. 此外,建構巨量資料分析應用,首先最重要需考量具有良好的架構框架, 其次如支援多種分析方法、依需求選擇適合平台架構、兼具平行運算、分散式 儲存與調合程式資料間的能力等(Chen and Zhang, 2014)。並以資料(dataintensive)為導向,從應用層、分析層、管理層、基礎層由上往下思考規劃,. 政 治 大. 並由下往上建構(Big Data Solution;EMC and VMware, 2014)。. 立. ‧ 國. 學. 在應用層部份,瞭解在巨量資料生態系統的位置,解決問題的本質內涵是 什麼,解決問題的目標,解決問題的資料及程式流,並歸納出問題的屬性(如. ‧. what、how long)與對應的資料分析方法(如最佳化、分群)。資料分析層部. y. Nat. er. io. sit. 份則考慮適合何種資料分析及視覺化呈現技術,欲建構方式是自行打造或選擇 資料分析工具平臺。在管理層部份屬於如何透過介面自動及統一有效管理應用. al. n. v i n Ch 層、資料分析層、基礎層之工具與資料儲存等議題範疇。在基礎層部份為實現 engchi U 巨量資料規模的應用,需考量重點應以企業需要一高度自動化、可水平擴充的 儲存和計算平臺建構,包含計算虛擬化、巨量資料儲存、網路虛擬化、安全層 等面向。. 2.2.2 結構化資料分析方法. 處理結構化來源資料分析的方法,有人工智慧、模擬、資料探勘及統計等資 料分析方法,本研究運用 PSO 及 GHSOM 演算法,分別說明如下: 26.
Outline
相關文件
In the past researches, all kinds of the clustering algorithms are proposed for dealing with high dimensional data in large data sets.. Nevertheless, almost all of
“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced?. insight and
Know how to implement the data structure using computer programs... What are we
• Recorded video will be available on NTU COOL after the class..
—we cannot teach all, but with reading you can learn all 3-6: 3 hour teaching, 6 hour reading/writing after class as important as writing assignments:. some may show up
The remaining positions contain //the rest of the original array elements //the rest of the original array elements.
• Information retrieval : Implementing and Evaluating Search Engines, by Stefan Büttcher, Charles L.A.
Good Data Structure Needs Proper Accessing Algorithms: get, insert. rule of thumb for speed: often-get