應用網路新聞文字探勘於預測台灣股價趨勢之研究 - 政大學術集成

全文

(1)國立政治大學金融學(系)研究所碩士學位論文. 應用新聞文字探勘於預測台灣股價趨勢之研究 A study of forecasting Taiwan 治 price trends by applying 政 stock. 大. 立 text mining technique news. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. al 指導教授：廖四郎博士 iv n U engchi 研究生：陳人華. Ch. 中華民國 105 年 06 月.

(2) 摘要股市新聞是散戶投資人重要的消息來源管道，近年來集中市場裡散戶投資人交易占比雖然下滑，但仍有過半的比重，而過去文獻也一再指出新聞媒體的報導確實會影響股票的報酬，若能夠將新聞中的資訊萃取出來並用來建構交易策略，無論是單獨使用或者和其他策略相結合，均可帶給投資人額外的幫助。本研究運用支援向量機演算法(Support Vector Machine, SVM)進行自動分類及預測新聞發布後的股價趨勢，藉由應用張玉芳等人(2006)提出的改良式 TF-. 政治大. IDF 法，挑選新聞特徵詞的過程將會更準確，本研究從兩個不同的來源分別獲. 立. 取數千篇新聞資料，包括鉅亨網和台灣經濟新報(TEJ)，透過分析大量的新聞. ‧ 國. 學. 資料使結果更具代表性與穩定性，然而實證結果卻發現預測模型的精確度仍然不足，因此本研究最終未能透過模型證明新聞內容對股價的關係。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(3) Abstract Stock market news is an important source of information for individual investors. In Taiwan exchange market, individual investors participation is still above 50% though it was on a decline for resent years. Some past research showed that news do affect returns of stocks. If we can find a way to extract the information in the news and build a trading strategy based on it, investors will gain additional profit from using the strategy─whether they combine the strategy with another. This study use SVM algorithm for automatic classification and for predicting. 政治大 method developed by Chang 立et al., the process of characteristic selection become. Taiwan stock price trends after a news published. By applying the improved TF-IDF. ‧ 國. 學. more accurate. This study analyze thousands of news articles which come from two different source, cnYES and Taiwan Economic Journal (TEJ), in order to make the. ‧. predicting model representative and stable. However, the empirical results show that. sit. y. Nat. the precision of the model isn’t good enough. This study find no evidence that the. n. al. er. io. information in news contents associate with Taiwan stock returns.. Ch. engchi. III. i n U. v.

(4) 目次第一章緒論 ............................................................................................................................. 1 第一節研究背景 ................................................................................................................. 1 第二節研究目的與架構 ..................................................................................................... 2 第二章文獻回顧 ..................................................................................................................... 3 第一節新聞媒體與股價 ..................................................................................................... 3 第二節文字探勘 ................................................................................................................. 4 一、. 中文斷詞 ............................................................................................................. 5. 政治大第三章研究流程與方法 ......................................................................................................... 6 立二、. 特徵詞選取 ......................................................................................................... 5. 第一節研究流程 ................................................................................................................. 6. ‧ 國. 學. 第二節研究方法 ................................................................................................................. 8 資料來源 ............................................................................................................. 8. 二、. 中文斷詞 ............................................................................................................. 8. 三、. 特徵詞選取 ......................................................................................................... 9. 四、. 新聞漲跌類別標籤 ........................................................................................... 10. 五、. 分類模型─支援向量機 ................................................................................... 10. 六、. 評估分類成效 ................................................................................................... 13. ‧. 一、. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 第四章實驗設計與實證結果 ............................................................................................... 15 第一節實驗設計 ............................................................................................................... 15 第二節實證結果 ............................................................................................................... 16 實驗一：天數與門檻值之影響 ..................................................................................... 16 實驗二：不同新聞來源之比較 ..................................................................................... 20 實驗三：建構交易策略 ................................................................................................. 23 第五章結論 ........................................................................................................................... 25 參考文獻 ................................................................................................................................. 26. IV.

(5) 表目錄表 2-1：中文斷詞方式 ................................................................................. 5 表 4-1：TEJ 生技股混亂矩陣─三日 ......................................................... 20 表 4-2：TEJ 電子股混亂矩陣─三日 ......................................................... 21 表 4-3：鉅亨網混亂矩陣─三日 ............................................................... 21 表 4-4：TEJ 生技股混亂矩陣─五日 ......................................................... 21 表 4-5：TEJ 電子股混亂矩陣─五日 ......................................................... 22 表 4-6：鉅亨網混亂矩陣─五日 ............................................................... 22 表 4-7：交易策略說明 ............................................................................... 24 表 4-8：模擬交易結果 ............................................................................... 24. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i n U. v.

(6) 圖目錄圖 3-1：研究流程 ......................................................................................... 7 圖 3-2：CKIP 斷詞圖例 ................................................................................. 9 圖 3-3：貼標後之新聞資料示意圖 ........................................................... 10 圖 3-4：SVM 圖例...................................................................................... 11 圖 3-5：核函數轉換圖例 ........................................................................... 12 圖 3-6：分類結果矩陣 ............................................................................... 13 圖 4-1：TEJ 生技股 Precision 比較 ............................................................ 16 圖 4-2：TEJ 生技股 F-measure 比較 .......................................................... 17. 治政圖 4-3：TEJ 電子股 Precision 比較 ............................................................ 18 大立 ‧ 國. 學. 圖 4-4：鉅亨網 Precision 比較 .................................................................. 19. 圖 4-5：鉅亨網 F-measure 比較 ................................................................ 19. ‧. 圖 4-6：三日與五日之 Precision................................................................ 23. n. er. io. sit. y. Nat. al. Ch. engchi. VI. i n U. v.

(7) 第一章緒論. 第一節研究背景在傳統財務領域中，往往假設投資人是理性交易者，雖然也有少數雜訊交易者(Noise Trader)的存在使得商品的價格短暫偏離，但理性投資人們此時會進行套利交易，使得商品價格立即回復到其真實價值上，也就是符合效率市場假. 政治大流入作出反應，成為一項值得探討的議題。立. 設(Efficient Market Hypothesis)，但投資人是否真的能及時且正確地對新訊息的. 事實上股市中存在許多效率市場假設無法解釋的異常現象，提供了投資人. ‧ 國. 學. 獲取超額報酬的可能性，而投資人為了獲利所制定的買賣股票策略，更是多不. ‧. 勝數，目前用來分析股價的指標大致可分為四個面向：技術面、價值面、籌碼. y. Nat. 面以及消息面，其中消息面訊息因為資料整理與量化較為困難，因此很少出現. 識等技術發展，國內外學者們也開始進行相關研究。. al. er. io. sit. 在自動化的交易策略裡，近年因大數據分析領域興起，帶動文字探勘、圖像辨. n. v i n 股市新聞為大部份投資人買賣股票時所參考的指標之一，許多文獻也指出 Ch engchi U. 新聞確實對股市造成影響，但因為電腦無法像人類一樣透過閱讀將新聞轉化為有用的資訊，所以在應用到自動化交易時較為困難，目前雖然國外文獻中已有. 提出可獲利的交易策略，但模型的精準度以及策略績效上仍不及其他的分析方法，且由於語言的不同，其分析方法無法直接應用在台灣市場，目前國內有關此領域的文獻也並不多，且部分研究是針對個股進行分析，缺乏較通盤的研究，因此本研究欲以台灣股市為分析對象，探討新聞與股價趨勢間的關係，並建構交易策略測試能否能從股市中獲利。. 1.

(8) 第二節研究目的與架構本研究欲使用 SVM 演算法處理新聞資料，建立一個能有效預測台股漲跌趨勢之模型，並配合此預測模型制定交易策略，檢視股價報酬中是否有新聞內容能夠捕捉的部分。本研究第一章為緒論，說明研究背景及目的，第二章為文獻回顧，分成新聞媒體與股價以及文字探勘兩個主題，介紹過去文獻中所用之技術和理論，第三章為研究流程與方法，講述各研究步驟的先後順序，然後依序詳細介紹資料. 政治大問題並且呈現實驗結果為何，第五章為結論，總結本次研究發現的實驗結果，立來源、分析工具以及成效評估，第四章為實驗設計與實證結果，說明欲解決之. 解釋背後可能的成因，並對未來研究提出建議。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(9) 第二章文獻回顧. 第一節新聞媒體與股價 Merton (1987)提出了投資人認知假說(invest recognition hypothesis)，在資訊不完全的前提下重新建立資本資產定價模型，發現資訊曝光程度較高的公司容易受到投資人的青睞，造成股價推升以致長期股票報酬降低，而媒體報導是影. 政治大 Barber and Odean (2008)比較散戶投資人在買進與賣出行為上的差異，指出立. 響資訊曝光程度的重要原因。. 新聞媒體的報導較容易影響散戶的買進行為，又進一步發現散戶投資人比機構. ‧ 國. 學. 投資人更容易受到新聞媒體的影響，想要買進關注度較高的股票並因此影響該. ‧. 類股票價格。. y. Nat. 池祥萱等人 (2009)探討 CEO 媒體曝光度對於公司的經營績效與市場績效. er. io. sit. 的影響，發現不論 CEO 的媒體曝光度是否影響公司的營運狀況，股市投資人皆會因為 CEO 媒體曝光度，改變其對公司股票的認知，造成公司股價報酬率的變. n. al. 動。. Ch. engchi. i n U. v. 在新聞字詞的影響力方面，Lavrenko et al. (2000)提出的語言模型(Language Model)用新聞中出現的詞彙來判斷新聞事件，進一步預測事件後的股價趨勢，成功將新聞與股價趨勢作連結，在股票交易績效上顯著比隨機選股來得好。 Gidófalvi (2001)將新聞以簡單貝式分類器(Naïve Bayesian text classifier)建立分類模型，發現新聞會在發布前後一段時間明顯的影響股價，稱之為 Window Of Influence。在選股模型方面，Mittermayer (2004)建立了結合新聞處理、新聞分類及股票交易的 NewsCATS(News Categorization and Trading System)系統，該系統使用. 3.

(10) 支援向量機(Support Vector Machine, SVM)之分類方式將新聞分成正面、持平、負面三個類別，並根據分類結果作出相對應的交易決策，結果顯示新聞資訊對交易決策確實有幫助，投資績效也明顯比隨機選股來得好。鍾任明、李維平與吳澤民 (2005)則採用Yahoo!奇摩股市新聞的個股相關新聞，以倒傳遞類神經網路演算法預測台股日內漲跌趨勢，並且設定不同的門檻值及詞彙組合方式進行模型比較，結果發現使用關鍵詞彙出現次數為門檻值來建立預測模型時，不但有較高的預測正確率，也能保有較低的投資錯誤機率。 Tetlock (2007)選取華爾街日報中”Abreast of the Market”專欄的內容，以主. 政治大 (pessimism media factor)，並探討此指標是否影響道瓊指數與股市交易量，結果立. 成分分析法選取重要因子，計算出可以用來衡量市場悲觀氣氛的悲觀新聞指標. 發現悲觀新聞指標確實反映投資人情緒因素，並在一周內暫時影響股價，而當. ‧ 國. 學. 悲觀新聞指標偏低或偏高時，引發不理性投資人進場與理性投資人進行交易，. ‧. 因此股市成交量皆會上升。. sit. y. Nat. er. io. 第二節文字探勘. al. n. v i n 文字探勘是資料探勘的一環，目的是找尋文字資料中有用的資訊，然而在 Ch engchi U. 實際操作上卻與資料探勘有不盡相同之處。資料探勘所要找尋的，往往是未知且隱藏在資料中的資訊，我們可以把資料探勘理解成發掘此資訊的過程；而對. 文字探勘來說，其資料中通常已明顯揭露有用的資訊，例如日常所閱讀的報紙與書籍，困難之處在於如何不藉由人工方式，將這些資訊清楚而正確的萃取出來(Witten，2005)，因此在分析文字資料之前必須先經過一系列處理程序，稱為資料預處理(pre-processing)，在本研究中包括斷詞和特徵詞選取，以下章節將分別介紹。. 4.

(11) 一、. 中文斷詞. 詞是最小且有意義的語言單位，在文字探勘的過程中必須要先分辨文本中出現的詞才能做進一步處理，由於中文的表示方法不像英文語句的字詞之間有空格的清楚分隔，因此需要特殊的斷詞方式，目前主要中文斷詞方式包括：詞庫式斷詞法(Chen，1992)、統計式斷詞法(Sproat，1990) 以及混合式斷詞法 (Nie，1996)，以下簡述各方法之原理。表 2-1：中文斷詞方式斷詞方法. 原理. 詞庫式斷詞法. 以事先建立好的詞庫進行斷詞政治大參考一大型語料庫的統計資訊，透過鄰近字元同時出現頻立. 統計式斷詞法. ‧. 組合的字詞，再利用詞彙的統計資訊找出最佳斷詞組合. y. Nat. n. al. er. 特徵詞選取. io. 二、. 為詞庫式及統計式斷詞法的組合，先根據詞庫斷詞出不同. sit. 混合式斷詞法. 學. ‧ 國. 率之高低作為斷詞的依據. i n U. v. 文字資料中字詞的種類相當繁雜，一般而言在文字探勘的過程中僅挑選具. Ch. engchi. 有重要代表性的字詞供分析之用，有效地選取這類重要的「特徵詞」可以使機器學習的過程更加有效率且準確(Forman，2003)。字詞在文章中的重要性可以透過出現的次數(Term Frequency, TF)來衡量，Salton 與 Buckley (1988)認為 TF 愈高代表該字詞在文章中愈重要，但考量到有些資訊含量不高，卻普遍出現在大多數文章中的常用語，因為這類字詞的 TF 通常也較高，若單依靠 TF 的高低選取特徵詞，反而會造成機器學習上的混淆，因此須同時考量逆向文件頻率 (Inverse Document Frequency, IDF)，應用文字探勘技術處理分類問題時，所選取的特徵詞應具有資訊價值且對分類能力有幫助，結合 TF 與 IDF 的 TF-IDF 適合用來表示字詞在文章中的重要程度(Salton & McGill，1986)。 5.

(12) 第三章研究流程與方法. 第一節研究流程本研究欲以文字探勘之方式，從股市相關新聞中擷取重要資訊，並用以預測股價趨勢。研究所用之新聞資料係來自台灣經濟新報與鉅亨網，股價資料係來自台灣經濟新報，首先將新聞資料經過預處理，股價資料則轉換成累計數日. 政治大報酬率門檻值替新聞資料貼上漲跌類別標籤，將貼上標籤的資料輸入 SVM 模立. 之超額報酬，接著用經過預處理的新聞資料串聯超額報酬資料，以事先決定的. ‧. ‧ 國. 學. 型進行訓練並評估分類成效，最後應用此模型到交易策略上，如圖 3-1。. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v.

(13) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 圖 3-1：研究流程. 7. i n U. v.

(14) 第二節研究方法一、. 資料來源. 本研究新聞來源為台灣經濟新報(TEJ)及鉅亨網，台灣經濟新報中之新聞因其數量過於龐大，無法分析所有公司的新聞，因此本研究僅選取公司數量較多之電子業上市公司及易受新聞影響之生技業上市櫃公司相關新聞作為代表，鉅亨網新聞則選取該網站中分類包含「台股」或「個股」之新聞，鉅亨網之新聞在抓取下來後，還需經過將新聞和受關聯個股相連結之步驟，為方便後續分. 政治大股價資料來源為台灣經濟新報中之超額報酬日資料，目的是為了避免股市大盤立析，本研究選取之新聞必須在內容及標題中，僅提及「單一」上市股票名稱。. ‧ 國. 學. 趨勢影響分析結果，所有資料時間皆為 2015 年 1 月至 2016 年 3 月。台灣經濟新報中，電子業上市 398 家公司對應本研究所用之新聞共 26370. ‧. 篇，生技業上市櫃 188 家公司之新聞共 3510 篇；鉅亨網之新聞經篩選後可對應. sit. al. n. 中文斷詞. er. io. 二、. y. Nat. 之上市公司共 289 家，新聞篇數 2864 篇。. Ch. engchi. i n U. v. 目前網路上有提供多種中文斷詞工具，以系統之精準性及可靠程度做為考量下，本研究使用中研院詞庫小組建構之 CKIP 系統作為斷詞工具，CKIP 系統屬於詞庫式斷詞法的延伸，除了能夠辨識詞庫內之字詞，對詞庫外之未知字詞也有機會予以辨識(例如人名)，而除了斷詞的功能之外，CKIP 系統也能在加註字詞的詞性，以及統計每個字詞在文章中出現的數量，本研究僅選用形容詞、名詞以及動詞作為新聞之特徵詞，其他諸如標點符號、數字、英文、介詞、連接詞等，因較不具重要性故不予採用。. 8.

(15) 圖 3-2：CKIP 斷詞圖例. 政治大為了使模型訓練過程更有效率，且避免新聞中不重要字詞之干擾，在中文立. 三、. 特徵詞選取. ‧ 國. 學. 斷詞之後以 TF-IDF 法對各字詞進行評分，並保留數值較高之字詞作為新聞特徵詞，如第二章中所提到的，TF-IDF 法結合字詞出現頻率(TF)及字詞出現的廣泛. ‧. 程度(DF)作綜合評分1，其中字詞在文件中出現頻率愈高表示字詞愈重要，而字. n. al. 𝑛𝑖,𝑗 ∑ 𝑛𝑗. er. io. TF𝑖,𝑗 =. sit. y. Nat. 詞在不同類別文件間出現的廣泛程度愈高則愈不重要，其計算方式如下：. i n U. v. 其中𝑛𝑖,𝑗 為字詞 i 在文章 j 中出現的次數，∑ 𝑛𝑗 為文章 j 中的總字詞數。. Ch. engchi. IDF𝑖,𝑐 = log(. 𝑚𝑖,𝑐 × 𝑁) 𝑚𝑖. 此處 IDF 之計算應用張玉芳等人(2006)研究中提出的改進方式，其中𝑚𝑖 為包含字詞 i 之文章數，𝑚𝑖,𝑐 為類別 c 的文章中包含字詞 i 之文章數，N 為總文章數，因此若字詞較常出現在某一類別的文章中，則該字詞對該類別重要性較高，但若該字詞實際上廣泛出現在所有文章中，則重要性予以降低修正，藉由此一改進，可更好估計字詞在不同類別中的重要程度。. 1. DF 為 Document Frequency 之縮寫，與實際計分所用之 IDF(Inverse Document Frequency)呈反比 9.

(16) TF − IDF𝑖,𝑗 = TF𝑖,𝑗 × IDF𝑖,𝑐 字詞之 TF-IDF 為將 TF 及 IDF 數值相乘求得2，本研究於每篇新聞中挑選 TF-IDF 最高的五個字詞，以及挑選所有新聞字詞 TF-IDF 排名中，前 25%的字詞，將兩字詞群合併作為新聞特徵詞庫，以進行模型訓練的步驟。. 四、. 新聞漲跌類別標籤. 為了訓練模型，資料中除了新聞特徵詞之外，也必須包含新聞發布後股市實際的反應，本研究應用 Gidófalvi (2001)提出之 Window Of Influence 概念，觀察. 政治大. 新聞發布後數日間股價報酬之變動，再加上 Tetlock (2007)的研究中發現受新聞. 立. 影響的股票價格在一星期之內就會回復，因此本研究分別用新聞發布後一個、. ‧ 國. 學. 後三個以及後五個交易日之累計超額報酬進行實驗，若累計超額報酬超過 M%，則該定義新聞類別為”漲”，若累計超額報酬介於正負 M%之間，則定義該. ‧. 新聞類別為”平”，若累計超額報酬小於-M%，則定義該新聞類別為”跌”，將由. y. Nat. n. al. 特徵詞1 0 1 0 0. Ch. 特徵詞2 0 2 0 3. engchi. …. er. 類別漲平跌跌. io. 新聞編號 1 2 3 4 …. sit. 後續實驗決定適合的門檻值 M。. i n U. v. 特徵詞n 1 0 1 0. 圖 3-3：貼標後之新聞資料示意圖. 五、. 分類模型─支援向量機. 支援向量機(Support Vector Machine, SVM)模型於 1995 年由 Vapnik 等學者所提出，是基於統計學習理論所建構出的機器學習方法，主要功能為分類資. 2. 此處應選擇文件 j 所屬類別之 IDF 進行計算 10.

(17) 料，SVM 模型已應用在手寫體辨識、文本分類、圖像辨識等領域中，證實為一良好的分類模型，以下由新聞文字資料為範例，說明 SVM 模型之分類原理。考慮 n 筆經過預處理後的新聞資料{(𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 )}，其中𝑥𝑖 ∈ ℝ𝑑 且 𝑦𝑖 ∈ {+1, −1}，𝑥𝑖 為新聞中特徵詞的數量，𝑦𝑖 為新聞的類別，假設存在一分隔超平面(Separating Hyperplane)將不同類別的新聞資料點區隔開來，如下圖：. 立. 政治大. ‧. ‧ 國. 學. Nat. 資料來源：Hsu, Chih-Wei, et al.(2003). n. al. er. io. sit. y. 圖 3-4：SVM 圖例. Ch. engchi. i n U. v. 圖中虛線為超平面，兩旁實線代表等距且平行於超平面的支援超平面 (Support Hyperplane)，若此超平面使 Support Hyperplane 的距離(Margin)最大，則稱此超平面為 Optimal Separating Hyperplane(OSH)，模型目的便是求算出 OSH 進行分類，我們以 𝑤 𝑇 𝑥 + 𝑏 = 0 來表示超平面，而 Support Hyperplane 則分別是 𝑤 𝑇 𝑥 + 𝑏 = ±1，則問題轉化為下列式子： 1. 𝑀𝑖𝑛 2 ‖𝑤‖2. 𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1, 𝑖 = 1, … , 𝑛. 11. (2.1).

(18) 利用 Lagrange Multiplier Method，令𝑤及 b 的偏導數為 0，得到下式： 1. 𝑀𝑎𝑥 ∑𝑛𝑖=1 𝛼𝑖 − 2 ∑𝑛𝑖,𝑗=1 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖𝑇 𝑥𝑗. (2.2). 𝑠. 𝑡. 𝛼𝑖 ≥ 0, ∑𝑛𝑖=1 𝛼𝑖 𝑦𝑖 = 0 , i = 1, … , n. 以上便是 SVM 模型主要求解的式子，不過考慮到存在資料無法被線性分割的情況，此時將樣本座標透過特定函數轉換，投射到更高維度的空間，便可使其在新的空間內可線性分割，只要將(2.2)式中之𝑥𝑖𝑇 𝑥𝑗 改為∅(𝑥𝑖𝑇 )∅(𝑥𝑗 )即可求. 政治大. 解，其中∅為轉換函數，又稱為核函數(Kernel Function)。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i 圖C3-5：核函數轉換圖例 n hengchi U. v. 一般 SVM 模型所使用的核函數有四種，令K(𝑥𝑖 , 𝑥𝑗 ) = ∅(𝑥𝑖𝑇 )∅(𝑥𝑗 )，則各函數可表示如下：（一）Linear：K(𝑥𝑖 , 𝑥𝑗 ) = 𝑥𝑖 ．𝑥𝑗 （二）Polynomial： K(𝑥𝑖 , 𝑥𝑗 ) = (γ𝑥𝑖 ．𝑥𝑗 + r) 𝑑 , γ > 0 2. （三）RBF：K(𝑥𝑖 , 𝑥𝑗 ) = 𝑒𝑥𝑝(−γ‖𝑥𝑖 ．𝑥𝑗 ‖ ), γ > 0 （四）Sigmoid：K(𝑥𝑖 , 𝑥𝑗 ) = 𝑡𝑎𝑛ℎ(γ𝑥𝑖 ．𝑥𝑗 + r) 12.

(19) 上述求解過程乃是建立在 OSH 存在的情況下，然而可能因為資料記錄誤差或其他原因導致 OSH 並不存在，這時需要稍微放寬模型限制，包容分類錯誤的情況並加上懲罰參數 C 以做調整，因此修改(2.2)式如下： 1. 𝑀𝑎𝑥 ∑𝑛𝑖=1 𝛼𝑖 − 2 ∑𝑛𝑖,𝑗=1 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 K(𝑥𝑖 , 𝑥𝑗 ). (2.3). 𝑠. 𝑡. 0 ≤ 𝛼𝑖 ≤ 𝐶, ∑𝑛𝑖=1 𝛼𝑖 𝑦𝑖 = 0 , i = 1, … , n SVM 本質上為二元分類器，應用在多元分類上時，有幾種方法可供使用，在此僅介紹本研究使用之 one-against-one 法，此方法對任兩類別皆訓練一個分. 政治大. 類器，假設資料中有 k 個類別，則總共訓練 k(k-1)/2 個分類器，每個分類器皆. 立. 有一票，以投票方法決定分類類別，票數最多的類別即為模型預測之分類。. ‧ 國. 學. 本研究使用 Linear 核函數進行模型訓練，模型參數 C 以五摺交互驗證法 (5-fold cross validation)估計，以避免過度配適之情況發生。. ‧ y. Nat. io. sit. 評估分類成效. er. 六、. 分類器訓練成效之好壞可以由幾個面向來判斷，Yang(1999)指出一般. al. n. v i n Ch 常使用之指標有 Precision(精確率)、Recall F-measure。 U e n g c h i(召回率)和實際. 屬於該類不屬於該類預測. 屬於該類. A. B. 不屬於該類. C. D. 圖 3-6：分類結果矩陣. 13.

(20) Precision = Recall =. 𝐴 𝐴+𝐵. 𝐴 𝐴+𝐶. F − measure =. 2 × Precision × Recall Precision + Recall. Precision 為模型分類為該類樣本中，實際屬於該類的機率，Precision 愈高代表模型分類之型一錯誤(TypeⅠerror)越小，；Recall 則是實際屬於該類樣本中，模型分類為該類的機率，Recall 愈高代表模型分類之型二錯. 政治大誤(TypeⅡerror)越小，Precision 與 Recall 存在一種替換關係，在模型設定立. ‧ 國. 學. 上若想要提高其中一方，則另一方會因此下降，至於何者比較重要並沒有一定的標準，需視研究需求而定，F-measure 可視為前兩者之綜合指標，其. ‧. 值介於兩者之間，可當作較為多元的參考依據。. n. er. io. sit. y. Nat. al. Ch. engchi. 14. i n U. v.

(21) 第四章實驗設計與實證結果. 第一節實驗設計本研究使用 SVM 模型建構自動分類及交易系統，欲以新聞內容預測股價報酬，模型中使用三分之二的新聞作為訓練用資料，其餘為測試用資料，為了加強模型預測成效，必須先透過實驗決定模型中的變數，以下實驗將以不同新. 政治大策略績效能夠提高，本研究較注重模型的型一錯誤，因此在實驗結果中通常僅立. 聞來源、不同的新聞類別標籤定義方式來測試對分類結果之影響，為了使交易. ‧ 國. 學. 列出 Precision 及 F-measure 作為分類成效指標。實驗一：天數與門檻值之影響. ‧. 定義新聞類別標籤時，需要事先決定新聞影響股價的時間長度以及各類別. y. Nat. er. io. sit. 的門檻值 M，因此本實驗對此兩參數作各種不同的組合，並比對分類之結果。實驗二：不同新聞來源之比較. al. n. v i n 本研究由分別從台灣經濟新報與鉅亨網獲得新聞資料，其中台灣經濟新報 Ch engchi U. 的新聞內容特別排除談論行情走勢以及股價等訊息，以公司的營收盈餘等財務報表數據以及重大公告消息等為報導內容，其所含訊息可能和鉅亨網的新聞呈現不同的風貌，而本研究中台灣經濟新報的新聞也分成電子業及生技業，因此將以實驗一的結果為基礎，比較三者在分類結果上的差異。實驗三：建構交易策略. 若不同的新聞來源會對分類結果造成影響，則本研究將嘗試以不同的新聞來源分別建構適合的交易策略，讓各自績效得到成長的空間，並由實驗一、二的結果為基礎，設定不同的交易模式，以期能作為新聞影響股價的實證資料。. 15.

(22) 第二節實證結果實驗一：天數與門檻值之影響此實驗目的是針對不同新聞來源，找出合適的新聞類別定義方式，累計超額報酬的天數分為一個交易日、三個交易日及五個交易日，門檻值分為 1%、 2%、5%及 10%，考慮到過去台股漲跌幅 7%的限制，實驗中將不出現「一日」搭配「10%」之組合，以下以不同的新聞來源及類別進行分析。 1.台灣經濟新報生技股. 政治大. 在分類為漲時，Precision 和門檻值呈反比，和天數呈正比，此一現象在分. 立. 類為跌時也有類似之情形，只有在「一日」及「5%」的組合中出現較大的偏. ‧ 國. 學. 離；而在分類為平的結果則與其他兩者不同，Precision 和門檻值呈正比，和天. ‧. 數較偏向呈反比。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4-1：TEJ 生技股 Precision 比較 16.

(23) F-measure 的變動趨勢和 Precision 一致，顯示當門檻值上升時，無論在精確度或模型整體成效上皆對漲、跌二類別不利，而天數上升時，則對模型分類有正面效果。. 立. 政治大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n C h 生技股 F-measure 圖 4-2：TEJ e n g c h i U 比較. 2.台灣經濟新報電子股電子股的實驗結果與生技股相近，在漲、跌二類別中，Precision 和門檻值有更明顯的反比，且依然和天數呈正比；而在分類為平的結果也與生技股一樣出現和門檻值呈正比，和天數呈反比的現象。F-measure 之實驗結果也與生技股相同，在此不多列舉。. 17.

(24) 立. 政治大. ‧. ‧ 國. 學. n. al. y. er. io. 3.鉅亨網. sit. Nat. 圖 4-3：TEJ 電子股 Precision 比較. Ch. i n U. v. 在漲、跌二類別中，Precision 依然和門檻值呈反比，但在天數上「三日」. engchi. 的實驗結果卻較「五日」更好；而在分類為平的結果則和 TEJ 新聞相符合，和門檻值呈正比且和天數呈反比。F-measure 的實驗結果和 Precision 呈現同樣的趨勢，顯示當門檻值上升時，無論在精確度或模型整體成效上皆對漲、跌二類別不利，而天數中則是「三日」為最佳選擇。. 18.

(25) 圖 4-4：鉅亨網 Precision 比較. 學. ‧ 國. 立. 政治大. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 4-5：鉅亨網 F-measure 比較. 19. v.

(26) 4.小結實驗一之結果發現： (1)門檻值上升會造成漲、跌二類別分類成效的下降，但類別為平的時候分類成效會上升，三個新聞來源皆有相同現象。 (2)在 TEJ 新聞中，天數上升會帶動漲、跌二類別分類成效上升，其中以「五日」為最佳選擇，而在鉅亨網新聞中則是「三日」最好。. 實驗二：不同新聞來源之比較. 政治大驗目的是比較各新聞來源之成效，依據實驗一之結果，以下實驗門檻值固定為立. 不同新聞來源所含之資訊不同，可能對模型訓練結果造成影響，因此本實. ‧ 國. ‧. 1.天數為三日. 學. 1%，而天數則留下「三日」以及「五日」，以不同的天數及新聞來源進行分析。. sit. y. Nat. 如表 4-1 到 4-3 所示，TEJ 新聞無論是生技股或電子股，在上漲類別的分. al. er. io. 類精確率都比鉅亨網新聞稍差，但在下跌類別則都比鉅亨網新聞高得多，整體. v. n. 精確率方面，鉅亨網雖然比 TEJ 電子股還高，但原因在於預測持平類別的能力. Ch. engchi. i n U. 不同，整體而言 TEJ 新聞的分類成效比鉅亨網新聞要好。. 表 4-1：TEJ 生技股混亂矩陣─三日實際. 跌. 平. 漲. 總計. 分類精確率. 跌. 206. 128. 110. 444. 46.40%. 平. 59. 86. 38. 183. 46.99%. 漲. 197. 164. 182. 543. 33.52%. 總計. 462. 378. 330. 1170. Recall. 44.59%. 22.75%. 55.15%. 預測. 20. 整體精確率. 40.51%.

(27) 表 4-2：TEJ 電子股混亂矩陣─三日實際. 跌. 平. 漲. 總計. 分類精確率. 跌. 1084. 756. 871. 2711. 39.99%. 平. 703. 811. 687. 2201. 36.85%. 漲. 1404. 1134. 1340. 3878. 34.55%. 總計. 3191. 2701. 2898. 8790. Recall. 33.97%. 30.03%. 46.24%. 預測. 整體精確率. 36.80%. 表 4-3：鉅亨網混亂矩陣─三日平. 跌. 114. 平. 82. 立116 117. 漲. 45.35% 35.20%. 112. 131. 132. 375. 308. 364. 282. 954. 37.01%. 32.14%. 46.81%. 38.05%. io. sit. y. Nat. 2.天數為五日. 258. ‧. Recall. 59. 整體精確率. er. 總計. 漲總計分類精確率政治大 91 321 35.51%. 學. 跌. ‧ 國. 實際預測. 如表 4-4 到 4-6 所示，TEJ 新聞仍表現得比鉅亨網新聞要好，在漲、跌二. al. n. v i n 類別的分類精確率都比鉅亨網新聞高出許多，整體精確率也是 TEJ 新聞較佳。 Ch engchi U 表 4-4：TEJ 生技股混亂矩陣─五日實際. 跌. 平. 漲. 總計. 分類精確率. 跌. 197. 95. 126. 418. 47.13%. 平. 31. 17. 21. 69. 24.64%. 漲. 279. 150. 254. 683. 37.19%. 總計. 507. 262. 401. 1170. Recall. 38.86%. 6.49%. 63.34%. 預測. 21. 整體精確率. 40.00%.

(28) 表 4-5：TEJ 電子股混亂矩陣─五日實際. 跌. 平. 漲. 總計. 分類精確率. 跌. 1262. 791. 1140. 3193. 39.52%. 平. 442. 356. 491. 1289. 27.62%. 漲. 1577. 1052. 1679. 4308. 38.97%. 總計. 3281. 2199. 3310. 8790. Recall. 38.46%. 16.19%. 50.73%. 預測. 整體精確率. 37.51%. 政治大. 表 4-6：鉅亨網混亂矩陣─五日. 101. 91. 106. 298. 33.89%. 106. 87. 98. 291. 29.90%. 155. 90. 120. 365. 32.88%. 362. 268. 324. 954. 32.46%. 37.04%. 27.90%. io. al. n 3.三日與五日之比較. 32.29%. y. Recall. 整體精確率. sit. 總計. 分類精確率. ‧. 漲. 總計. 學. 平. 漲. Nat. 跌. 立平. 跌. er. 預測. ‧ 國. 實際. Ch. engchi. i n U. v. 如表 4-7 到 4-9 所示，若個別分析不同類別的精確率，可以發現 TEJ 新聞中的漲、跌二類別在天數五日的精確率大致都比天數三日的表現好，反之鉅亨網新聞的漲、跌二類別則是天期三日的精確率較高，此外所有新聞來源的持平類別皆為天期三日的精確率較高。. 4.小結實驗二的結果發現： (1)TEJ 新聞的預測精確率普遍比鉅亨網新聞要好，在下跌類別時尤為明顯，但鉅亨網新聞預測持平類別能力較強。 22.

(29) (2)在漲、跌二類別之結果上，TEJ 新聞在天數為五日時的預測能力較好，而鉅亨網新聞則是天數為三日時。. 立. 政治大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. 圖 4-6：三日與五日之 Precision. Ch. engchi. i n U. v. 實驗三：建構交易策略為了研究此分類模型之實用性，本研究將建構兩個交易策略，分別使用 TEJ 新聞及鉅亨網新聞當作新聞指標，根據實驗一及實驗二的結果顯示，TEJ 生技股和 TEJ 電子股在門檻值和天數的選取上皆一致，為簡化研究流程，將結合所有 TEJ 生技股和 TEJ 電子股新聞資料代表 TEJ 新聞，另外在先前實驗中發現適合 TEJ 新聞及鉅亨網新聞的分類天數分別是五天以及三天，代表分析 TEJ 新聞較能準確預測新聞發布後五個交易日的累計報酬趨勢，鉅亨網新聞也是相同概念，這個特性將會被應用在策略中股票的持有期間上。 23.

(30) 假設在模型預測的某一交易日有 A 股票的新聞一則，且被模型預測為上漲類別，則此時選擇在次一交易日融資買進 A 股票一段時間，於期滿時賣出，若模型預測是基於 TEJ 新聞，則這段持有期間為五個交易日，反之若基於鉅亨網新聞則為三個交易日，考慮到一天內 A 股票可能有數則新聞，因此策略中採取計分模式，若(上漲新聞數-下跌新聞數)為正數，則於次一交易日融資買進，若為負數則於次一交易日放空，且令每筆模擬交易金額都相同。. 表 4-7：交易策略說明. 立. 政治大. ‧ 國. 學. 新聞指標分類門檻值及天數預測買進預測賣出. 交易策略一交易策略二 TEJ新聞鉅亨網新聞 1%、五日 1%、三日於次一交易日買進，持有至分類天數期滿賣出於次一交易日放空，持續至分類天數期滿補回. ‧. ( 上漲新聞數-下跌新聞數 ) > 0，預測買進 ( 上漲新聞數-下跌新聞數 ) < 0，預測賣出. y. Nat. er. io. sit. 模擬交易結果如下表，兩個交易策略的績效皆不佳，單筆交易仍有近五成的機率虧損，因此本模型實證結果並沒有找到新聞內容影響股價的證據。. n. al. Ch. engchi. i n U. v. 表 4-8：模擬交易結果交易策略一. 交易策略二. 平均單筆報酬. 0.36%. 平均單筆報酬. -0.11%. 預測正確率. 52.69%. 預測正確率. 53.15%. 交易次數. 3536. 交易次數. 476. 最大單筆報酬. 49.24%. 最大單筆報酬. 20.24%. 最小單筆報酬. -33.09%. 最小單筆報酬. -112.18%. 標準差. 5.66%. 標準差. 6.66%. 24.

(31) 第五章結論本研究嘗試分析新聞內容以預測股價趨勢，雖然過去已有文獻指出新聞本身會影響股票報酬，遺憾的是本次實驗並沒有找到「新聞內容」與股票報酬間的關連性，得到較多收穫的反而是在資料和模型的變數選擇上。本次研究失敗的原因在於無法建立出有效的分類模型，從資料上來看，雖然 SVM 的預測精確度在研究中只有 40%上下，但若將訓練資料集作為預測對象，就有將近 100% 的預測能力，顯示在模型訓練上 SVM 演算法並未出錯，參數設定上也使用了. 政治大樣本以外的資料呢？原因可能有很多種，例如同一個特徵詞在訓練資料集的時立. 五摺交互驗證法，可以減少模型過度配適的問題，那麼模型為何無法預測訓練. ‧ 國. 學. 間點下代表的是正面意涵，在測試資料集的時候變為負面，導致模型學習到的分類法則派不上用場，或者是選擇特徵詞的方式不好，使模型一開始就以錯誤. ‧. 的方式學習，Mittermayer(2004)文獻中也有提到不同類別的特徵詞常常有重複. sit. y. Nat. 的情形，而在本研究中也出現了這樣的現象，在這種狀況下，單獨使用文本分. al. er. io. 析建立模型就變得很困難，可能需要考慮搭配其他指標進行預測。. v. n. 目前文字探勘和相關的自然語言處理領域都還算正在發展中，國外文獻中. Ch. engchi. i n U. 常有學者使用專門領域的辭典進行分析，例如 Tetlock (2007)使用的心理學辭典，將來研究者若能使用由國內專業領域人士編撰的辭典進行中文斷詞，對關鍵詞的辨識力絕對是一大助益，此外，本研究在實驗提高類別門檻值時，常遇到漲跌二類別因樣本不夠而訓練不足的情形，因此建議將來研究者若也要以產業甚至整個股市進行文字探勘預測時，新聞樣本數可以再提高，以維持各類別都有充足的樣本數。. 25.

(32) 參考文獻 1.. Barber, B. M., & Odean, T. (2008). All that glitters: The effect of attention and news on the buying behavior of individual and institutional investors. Review of Financial Studies, 21(2), 785-818.. 2.. Chen, K. J., & Liu, S. H. (1992, August). Word identification for Mandarin Chinese sentences. In Proceedings of the 14th conference on Computational linguistics-Volume 1 (pp. 101-107).. 政治大. Association for Computational Linguistics.. 立. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning,20(3), 273-297.. 4.. Forman, G. (2003). An extensive empirical study of feature selection metrics for text. ‧. ‧ 國. 學. 3.. classification. Journal of machine learning research, 3(Mar), 1289-1305.. y. Nat. io. sit. Gidofalvi, G., & Elkan, C. (2001). Using news articles to predict stock price. er. 5.. movements. Department of Computer Science and Engineering, University of California, San. n. al. Diego.. Ch. engchi. i n U. v. 6.. Hsu, C. W., Chang, C. C., & Lin, C. J. (2003). A practical guide to support vector classification.. 7.. Lavrenko, V., Schmill, M., Lawrie, D., Ogilvie, P., Jensen, D., & Allan, J. (2000, November). Language models for financial news recommendation. InProceedings of the ninth international. conference on Information and knowledge management (pp. 389-396). ACM. 8.. Merton, R. C. (1987). A simple model of capital market equilibrium with incomplete information. The journal of finance, 42(3), 483-510. 26.

(33) 9.. Mittermayer, M. A. (2004). Forecasting intraday stock price trends with text mining techniques. In System Sciences, 2004. Proceedings of the 37th Annual Hawaii International Conference. on (pp. 10-pp). IEEE. 10.. Nie, J. Y., Brisebois, M., & Ren, X. (1996). On Chinese text retrieval. In Proceedings of the 19th. annual international ACM SIGIR conference on Research and development in information retrieval (pp. 225-233). ACM. 11.. 政治大. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text. 立. retrieval. Information processing & management, 24(5), 513-523.. ‧ 國. 學. Salton, G., & McGill, M. J. (1986). Introduction to modern information retrieval.. 13.. Sproat, R. (1990). A STATISTICAL METHOD FOR FINDING WORD BOUNDARIES IN. ‧. 12.. sit. n. al. er. Tetlock, P. C. (2007). Giving content to investor sentiment: The role of media in the stock. io. 14.. y. Nat. CHINESE TEXT.. Ch. market. The Journal of Finance, 62(3), 1139-1168.. engchi. i n U. v. 15.. Witten, I. H. (2005). Text mining. Practical handbook of Internet computing, 14-1.. 16.. Yang, Y. (1999). An evaluation of statistical approaches to text categorization. Information. retrieval, 1(1-2), 69-90. 17.. 池祥萱, 林煜恩, 陳韋如 & 周賓凰. (2009). Does CEO Media Coverage Affect Firm Performance?. 交大管理學報, 1, 139-173.. 18.. 張玉芳, 彭時名 & 呂佳. (2006). 基於文本分類 TFIDF 方法的改進與應用. 電腦工. 程, 32(19), 76-78. 27.

(34) 鍾任明, 李維平, & 吳澤民. (2005). 運用文字探勘於日內股價漲跌趨勢預測之研究.. 立. 政治大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 19.. Ch. engchi. 28. i n U. v.

(35)