2-1 文字探勘於股市新聞與股票預測
本研究中央社之財經新聞,希望找尋蘋果相關新聞中具有共同話題性之相關 概念股,因此透過 CKIP 斷詞將新聞做前處理後,再以資料探勘技術探討處理後 的字詞彼此間或與文章間隱藏的資訊 。因此本節整理相關文字探勘與新聞分析 之技術文獻作為參考。
股市新聞與預測
Ahmad, Oliveira, Manomaisupat, Casey & Taskaya(2002)在 Description of events: An analysis of keywords and indexical names 研究中指出,新聞消息中所隱 藏的各種資訊,如:財報、未來政策...等,對投資策略的制定都非常重要的因素 之一。
葉文華(2011)於運用文字探勘於財經新聞內容即時偵測股價反轉時點之研 究,針對非結構化的股市新聞以文字探勘架構來建立股價反轉時點預測之模型並 結合技術指標將新聞做分類。研究結果指出透過新聞分類模型結合技術指標在預 測反轉點時是有助益的,投資人可以參考其模型作為投資決策之依據。
鍾任明、李維平、吳澤民(2007)在運用文字探勘於日內股價漲跌趨勢預測之 研究,認為除了傳統的基本面及技術面分析外,消息面也是短期對股價有巨大的 衝擊性,因此藉由詞性標記方式將新聞斷詞後萃取其關鍵字詞,並結合股價量化 資料已建立模型建立一模型。此研究結果指出,新聞結合歷史股價所建立的模型,
對投資人在股票市場上有正面的投資效益,對於短期的操作上具有參考的價值。
11
2-2 概念股相關研究
本研究主要係透過文字探勘技術發掘概念股股價具有共同移動性,因此在本 節整理概念股之相關文性,並給予概念股定義。
林澄源(2008)在概念股宣告對股價異常報告之研究中,以 2005 年太陽能概 念股、2006 年越南概念股及 2007 年水資源概念股等三大不同產業或領域,探討 上市櫃公司在宣告概念股形成宣告後對其股價之影響。研究結果發現,不同產業 的概念性股票宣告後都對股價會有正面的影響效果,且會有超常報酬的現象。
透過此研究,作者對概念股定義為"具投資話題性的股票,依其產品為標,
所包含之上下游合作廠商之類股"。
張獻文(2007)在概念股之共同研究-以任天堂遊戲機 Wii 概念股為例的研究 中,主要以概念股的交易為主軸,探討遊戲機概念股是否有共同移動之現象。其 研究結果證實遊戲機概念股有"共同移動"之現象,且其移動的改變與股價有相當 程度的關聯性。
而作者在文中定義概念股為:通常指為有共同特性的公司,如相互競爭的同 一產業公司,有合作關係的上下游公司,同一集團的公司...等,都可歸納為同一 概念股。因此我們可以得知,概念股是有共同"主題"的一群個股,且此具有共同 的話題性,並被投資者看好會帶共相關個股反應,造成齊漲齊跌之現象。
高麗萍、謝佳臻&邵姵雅(2014)在新產品宣告對供應鏈廠商股價影響之研究-以 iPad 與 iPhone 宣告為例,研究中作者高麗萍、謝佳臻&邵姵雅(2014)在新產品宣告對供應鏈廠商股價影響之研究-以蘋果概念股為例,使用事件研究方法 及複回歸分析來探討新產品事件對供應鏈廠商股價的影響。其研究結果證實,蘋 果新產品宣告和供應鏈股價間存在正向的相關性,且供應鏈協力廠商具有協同合 作之價值鏈,對證卷分析具有實質上的助益。
12
2-3 概念股探勘
本研究應用文字探勘技術以挖掘新聞中的概念股,透過將新聞斷詞後,針對 新聞字詞做 mining,以找尋與蘋果概念股一同出現之概念股。
喻欣凱(2008)於運用支援向量機與文字探勘於股價漲跌趨勢之預測指出,文 章是有許多句子組合而成,而句子則有許多字詞組合而成;中文的文件或文章是 有字與字、標點符號以非結構化的方式組成,單一的字詞未必能獨立表達出在文 中所代表的含意,簡而言之其字詞與字詞間沒有明顯的邊界。因此在處理中文文 件前,必須對文章採取斷詞的動作,才能使字能以有意義的詞彙方式呈現。然而 最常中採用地的方式,以辭典式斷詞法(Chen 1992)及統計式斷詞法(Sproat 1990)最為常見。因此將新聞做斷詞分析後,我們進一步可以透過關聯分析來探 討資料庫中資料或字詞的關聯性,以作為購物籃分析、交叉銷售、目錄設計...
等方面。常見的問題如:一個消費者買了產品 A,那他購買產品 B 的機會有多 大? 透過關聯規則,可在大量的資料中找出少量且易於觀察的資料。
李家政(2009)在利用關聯法則探勘個股之間的關聯性中,利用 Apriori 演算 法訂定 minSupport 與 minCofidence 為過濾門檻,來分析證交所及雅虎股市資訊 所提供的資訊,並利用興趣因子(Interesting Measure)探討個股間是否有關連性。
此研究指出透過門檻的調整發現,門檻越高時其興趣因子也較容易分辨出個股間 是否有關連、無關聯及負關聯之程度。
吳振和(2011)在應用文件探勘技術於概念股股價共同移動之研究中,使用 Apriori 演算法來訂定 minSupport,來分析聯合知識庫新聞,探討新聞中與蘋果 共同出現的相關概念股。研究中指出,透過 Apriori 所選出的概念股相較於大盤 有較大的共同移動之波動,呼應消息面對股市市場漲跌的影響。
13
2-4 從眾效應與輿情分析
過去研究顯示投資股市之民眾有從眾效應,因此本研究透過輿情分析新聞情 緒,了解大眾對概念股新聞之看法,以便後續探討個股漲跌。
情感分析應用於自然語言處理、本文挖掘及計算機語言學等方式,來識別和 提取原素材中的主觀訊息。進而利用此方法來分析表達的意見、情感、評論、態 度...等,發覺內容所代表的字詞,如:贊同(正面)、反對(負面)、或中立情感,亦 或是字詞的搭配產生的情感:不(負面)贊同(正面)=負面、不(負面)反對(負面)=正 面...等。因此若能透過自動化處理這些意見情緒,對文章的分類或意見的評判在 商業上或是社會上都有極大的幫助。
2-4-1 從眾效應
陳志宏(2007)於台灣股市從眾行為之分析中顯示國內股票市場中,投資者們 帶有情緒性介入股票市場,使得整體市場出現齊漲齊跌的現象。但在短期獲利空 間,從眾效應有正回饋的投報效應。
李晉寧(2010)於台灣股票市場從眾行為探討暨分量回歸應用中,藉由
Cross-Sectional Absolute Dispersions (CSAD)的研究方法衡量從眾效果,其結果顯 示台灣市場有顯著的從眾現象。更進一步的證實美國市場的波動變化對台灣投資 者的從眾效應更加加劇。
陳思蒨(2014)股市從眾效應:以台灣股市為例,其結果發現台灣在總市場中 投資人的確存在顯著的從眾現象。並且發現除極少數產業外,其餘皆呈現明顯從 眾現象。
14
目前研究將意見極性判斷歸類為三大類:人工方法(Manual Approaches)、基 於字典方法(Dictionary-Based Approaches)與基於語料庫方法(Corpus-Based Approaches) (Feldman, 2013)
1.人工方法:基於於言學以人工方式下去定義詞彙極性,一般來說耗時耗力,較
目前台灣已建立好的詞彙庫為 Kuet al.(2006)發表了台灣大學語意辭典 (NTUSD),是一部可自行擴充的辭典。如下表 1:
15
3.基於與料庫方法:此方法是透過演算法大量的予料庫中自動學習詞彙、語句、
文章間與意見頃向的關係,但此種方法教義 賴種子詞彙的個數及質量,且需要 大量的語料來做訓練學習,造成一些詞彙具有多義性而造成詞彙的極性判斷錯 誤。
二.輿情分析:
由於 mobile 及社群的興起,使得人們習慣觀看的習慣改變從原本的報紙轉 換變成閱讀網路新聞、網路社群...等,並且透過網路發表自我的看法,因此我們 可以透過文字探勘來分析文章之情緒,幫助我們更快速了解新聞或網路上所想表 達的輿情。
Li and Wu (2010)於 Using text mining and sentiment analysis for online forums hotspot detection and forecast 蒐集各個論壇的約 22 萬的大眾討串,透過結 合 SVM 及 K-means 的演算法將所蒐集到的文章做分類,並給予一個每個類別一 個情緒值,以作為類別所代表議題的熱門程度。
Alexander Pak, Patrick Paroubek(2010)於 Twitter as a Corpus for Sentiment Analysis and Opinion Mining 將 twitter 作為資料來源,透過自動蒐集 twitter 上的 詞彙後以 Na¨ıve Bayes 做分類,將詞彙分為正面、負面及中立的語意庫。
楊惠淳(2011)於以客觀分析與相互資訊檢索探討情感分析之準確度-以電影 評論為例之研究中,作者蒐集電影評論後,透過劇情資料庫及評論資料庫分別建 立主/客觀特徵詞庫,將影評"主觀"的句子抽出後再做情感分析。研究中指出 透過主/客觀特徵詞庫篩選出並做情感分析較能提高準確度;此外搭配 TFIDF 的 程度評估而選取前 2000 個情緒詞時,期評論的分類效果最佳。
16
林揚書(2009)於網際網路新聞文章心情偵測之研究中,以研究新聞讀後心情 為目標,蒐集雅虎新聞文章及文章底下的投票資料,再透過 CKIP 將新聞文章斷 詞,並且計算出 Log Likelihood Ratio 值,最後與新聞文章的心情比例分數結合,
以找出關鍵詞彙做為預測使用。
鄒函升(2014)於新聞輿情與民意偵測追蹤之研究中,作者收集中央社政治類 新聞,透過新聞的分類來了解熱門之事件;並且提出對文件情緒的判斷方式:將 所有新聞文件正向與負向極性分數的絕對值加總,得到分數總量,再利用正向極 性分數除以分數總量,得到正向文件門檻值。之後透過上述方法做情緒分析以探 討新聞情緒的樂觀或悲觀頃向。研究結果顯示,有效的分類有助於更快速洞察新 聞,並且透過情緒的分析,更能夠了解事件的輿情走勢及周期性。
17
2-5 影響台股之相關指數與 SVM 預測
本研究參考過去有關台股相關影響因素之研究,蔡正修(2007)於台灣上市電 子類股股價指數走勢預測之研究指出:台股資訊、國際指標、總體經濟與技術指 標,因研究標的時間、對象、背景與研究變數不同,而有不同的適用分析方法,
本研究參考過去有關台股相關影響因素之研究,蔡正修(2007)於台灣上市電 子類股股價指數走勢預測之研究指出:台股資訊、國際指標、總體經濟與技術指 標,因研究標的時間、對象、背景與研究變數不同,而有不同的適用分析方法,