• 沒有找到結果。

應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "應用文字探勘文件分類分群技術於股價走勢預測之研究─以台灣股票市場為例 - 政大學術集成"

Copied!
72
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理研究所. 碩士學位論文. 指導教授:楊建民 博士 應用文字探勘文件分類分群技術於股價走勢 政 治. 大. 立 預測之研究─以台灣股票市場為例. ‧ 國. 學 ‧. A Study of Stock Price Prediction with Text Mining,. Nat. io. sit. y. Classification and Clustering Techniques. n. er. in Taiwan Stock Market al v i n Ch engchi U. 研究生:薛弘業. 中華民國 102 年 7 月.

(2) 致謝 一班夜黑風高,洞兩洞四夜哨中的決定,成就了一位碩士生及這篇論文。 在致謝的一開始,我必須先感謝這一生中兩位最重要的貴人:也就是我的爸 媽,謝謝他們不辭辛勞的將我養育長大,二十幾年來始終如一的包容與照顧,即 使是面對這顆退伍後便一股腦地投入研究所考試的派大星兒子,也是給予無比的 信任與支持,謝謝爸媽,沒有你們就沒現在的我。 在這兩年的碩士生涯中,受到許多師長、親戚以及朋友的支持與鼓勵。首先. 政 治 大. 最感謝的人就是我的恩師楊建民老師,一直以來我都衷心的感謝老師願意收我為 徒,這兩年間無論是生活與學業,甚至是未來的人生規劃,都給予我許多的指點. 立. 與鼓勵,謝謝老師,我以身為老師的學生為榮;另外也感謝劉文卿老師、邱光輝. ‧ 國. 學. 老師以及季延平老師,因為你們精闢的指導與建議使這篇論文的內容能夠更加完 整與嚴謹;感謝國傑與鴻仁、常陪我嘴砲的偉志和常載我去搭車的珀豪,以及所. ‧. 有研究室夥伴們在這兩年中給予的幫忙與互相打氣。感謝一路走來始終支持我的 朋友們,侑成、舌頭、卉蕎、芊穎、蠻牛、佳瑋、彭彭、怡蒨、阿華、林學長以. sit. y. Nat. 及其他所有因篇幅有限無法一一列出的好朋友,我的生活因為有你們而更充實,. io. 前進最大的動力,我也衷心的祝你的願望能夠實現。. n. al. Ch. engchi. er. 這篇論文也因你們而更茁壯。另外特別謝謝皮卡,在我最無助的時候成為支持我. i n U. v. 我想再次感謝爸媽,並跟他們說聲不好意思,這投資套牢了二十多年,現在 才準備轉虧為盈,但身為負責人的我在此保證,這檔投資未來將持續上漲,而且 也會努力的發放股利與配股(笑)。 最後,請容許我在不用註明參考文獻的情況下,引用陳之藩先生的一段文字 作為結尾:無論什麼事情,得之於人者太多,出之於己者太少,因為要感謝的人 太多了,不如謝天吧! 感謝老天。. I.

(3) 摘要 本研究欲探究個股新聞影響台灣股票市場之關係,透過蒐集宏達電、台 積電與鴻海等三間上市公司從 2012 年 6 月至 2013 年 5 月的歷史交易資料和 個股新聞,使用文字探勘技術找出各新聞內容的特徵,再透過歷史資料、技 術分析指標與 kNN 和 2-way kNN 演算法將新聞先做分類後分群,建立預測 模型,分析新聞對股價漲跌的影響與程度,以及漲跌幅度較高之群集與股價 漲跌和轉折的關係。. 政 治 大 別內的分群能夠界定各群集與股價漲跌之間的關係,且漲跌幅度較高之群集 立 研究結果發現,加入技術分析指標後能夠提升分類的準確率,而漲跌類. ‧ 國. 學. 的分析則能大幅提升投資準確率至 80%左右,而股價轉折點之預測則能提供 一個明確的投資進場時間點,並確保當投資人依照此預測模型的結果進行 7. ‧. 交易日投資時,可以在風險極低的前提下,穩當且迅速的獲取 2.82%至. al. er. io. sit. y. Nat. 22.03%不等的投資報酬。. v. n. 關鍵字:個股新聞、文字探勘、kNN、2-way kNN、股價轉折點. Ch. engchi. II. i n U.

(4) Abstract This study investigated the relation that the stock news effect on Taiwan Stock Market. Through collected the historical transaction data and stock news from July, 2012 to May, 2013, and use text mining、kNN Classification and 2-Way kNN Clustering technique analyzing the stock news, build a forecast model to analyze the degree of news effect on the stock price, and find the relation between the cluster which has great degree and the reversal points of stock price.. The result shows that using the change range and Technical Indicator rise classification’s accuracy, and clustering in the ”up” group and “down” group can. 治 政 percent. The forecast of reversal points of stock price 大 offers a specific time to invest, 立execute a 7 trading day investment depend on this model and insure the investors who identify the range stock price move, and rise the invested accuracy up to about 80. ‧ 國. 學. can get 2.82 to 22.03 percent return reliably and quickly with low risk.. io. sit. y. Nat. n. al. er. Price. ‧. Key Words: Stock news, Text Mining, kNN, 2-way kNN, Reversal Points of Stock. Ch. engchi. III. i n U. v.

(5) 目錄 第一章 緒論 ...................................................................................................... 1 第一節 研究動機 ...................................................................................... 1 第二節 研究目的 ...................................................................................... 3 第二章 文獻探討 .............................................................................................. 4 第一節 效率市場 ...................................................................................... 4 第二節 台灣股票市場 .............................................................................. 5 2.2.1 台灣股票市場現況 ...................................................................... 5 2.2.2 淺碟型市場 .................................................................................. 5 2.2.3 台灣股票市場之效率性相關研究 .............................................. 6 第三節 新聞與股價之關係 ...................................................................... 8 第四節 技術指標 ...................................................................................... 9 第五節 文字探勘 .................................................................................... 10 2.5.1 斷詞 ............................................................................................ 11 2.5.2 特徵選取 .................................................................................... 12 2.5.3 向量空間模型與相似度計算 .................................................... 13 2.5.4 分類與分群技術 ........................................................................ 14 2.5.5 分類與分群結果評估 ................................................................ 17 第六節 小結 ............................................................................................ 18 第三章 研究方法與設計 ................................................................................ 19 第一節 研究架構 .................................................................................... 19 第二節 研究設計 .................................................................................... 21 3.2.1 資料來源 .................................................................................... 21 3.2.2 資料前處理模組 ........................................................................ 21 3.2.3 漲跌預測模組 ............................................................................ 24 3.2.4 分類結果評估 ............................................................................ 27 3.2.5 分群結果評估 ............................................................................ 28 3.2.6 前測實驗 .................................................................................... 29 3.2.7 預測個股趨勢 ............................................................................ 34 第四章 研究結果 ............................................................................................ 35 第一節 實驗一:新聞分類 .................................................................... 36 第二節 實驗二:新聞分群 .................................................................... 40 4.2.1 各公司之上漲與下跌類別內分群 ............................................ 40 4.2.2 分類與分群結果之比較 ............................................................ 46 第三節 實驗三:股價轉折點預測 ........................................................ 48 第五章 結論與建議 ........................................................................................ 53 第一節 研究結論與貢獻 ........................................................................ 53. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(6) 第二節 未來方向與建議 ........................................................................ 55 參考文獻 .................................................................................................................... 56 附錄:分類 k 值測試參數 ........................................................................................ 62. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i n U. v.

(7) 圖目錄 圖 2.1 葛蘭碧八大法則說明圖 ................................................................ 10 圖 2.2 向量空間模型 ................................................................................ 13 圖 2.3 詞彙─文件矩陣 ............................................................................ 14 圖 2.4 kNN 分類器示意圖 ......................................................................... 16 圖 3.1 研究架構圖 ..................................................................................... 20 圖 3.2 新聞影響股價漲跌示意圖 ............................................................. 25 圖 3.3 新聞發生日即股價轉折點示意圖 ................................................. 26 圖 4.1 宏達電重要群集之新聞篇數統計表暨股價走勢圖 ..................... 48 圖 4.2 台積電重要群集之新聞篇數統計暨股價走勢圖 ......................... 49 圖 4.3 鴻海重要群集之新聞篇數統計暨股價走勢圖 ............................. 51. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VI. i n U. v.

(8) 表目錄 表 2.1 台灣股市集中市場投資人類別交易比重 ....................................... 6 表 2.2 斷詞工具表 ..................................................................................... 12 表 3.1 文件分類情形 ................................................................................. 28 表 3.2 無技術指標分類結果 ..................................................................... 29 表 3.3 無技術指標分類評估 ..................................................................... 30 表 3.4 加入平均移動線之分類結果 ......................................................... 30 表 3.5 加入平均移動線之分類評估 ......................................................... 30 表 3.6 加入相對強弱指標之分類結果 ..................................................... 31 表 3.7 加入相對強弱指標之分類評估 ..................................................... 31 表 3.8 k 值為 5 之分群結果 ...................................................................... 32 表 3.9 k 值為 7 之分群結果 ...................................................................... 33 表 3.10 k 值為 9 之分群結果 .................................................................... 33 表 4.1 宏達電個股新聞之分類結果 ......................................................... 36 表 4.2 宏達電投資正確率 ......................................................................... 36 表 4.3 台積電個股新聞之分類結果 ......................................................... 37 表 4.4 台積電投資正確率 ......................................................................... 37 表 4.5 鴻海個股新聞之分類結果 ............................................................. 38 表 4.6 鴻海投資正確率 ............................................................................. 38 表 4.7 宏達電上漲類別分群結果 ............................................................. 40 表 4.8 宏達電重要上漲群集投資正確率 ................................................. 41 表 4.9 宏達電下跌類別分群結果 ............................................................. 41 表 4.10 宏達電重要下跌群集投資正確率 ............................................... 42 表 4.11 台積電上漲類別分群結果 ............................................................ 42 表 4.12 台積電重要上漲群集投資正確率 ............................................... 43 表 4.13 台積電下跌類別分群結果 ........................................................... 43 表 4.14 台積電重要下跌群集投資正確率 ............................................... 44 表 4.15 鴻海上漲類別分群結果 ............................................................... 44 表 4.16 鴻海重要上漲群集投資正確率 ................................................... 45 表 4.17 鴻海下跌類別分群結果 ............................................................... 45 表 4.18 鴻海重要下跌群集投資正確率 ................................................... 46 表 4.19 分類與分群結果比較表 ............................................................... 46 表 4.20 宏達電股價轉折點列表 ............................................................... 49 表 4.21 台積電股價轉折點列表 ............................................................... 50 表 4.22 鴻海股價轉折點列表 ................................................................... 51 表 4.23 各公司整體轉折點預測投資報酬率表 ....................................... 52. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i n U. v.

(9) 第一章. 緒論. 第一節 研究動機 近年來,在物價高漲而臺灣的薪資結構卻未有顯著調漲的情況下,民眾 的理財意識逐漸提升,而由於銀行的定存利率皆低於 1.5%,因此民眾多半轉 而透過期貨、債券、基金和股票等理財工具來累積財富。然而,期貨的槓桿 效應伴隨著高風險;債券會受到利率、匯率和通膨等風險,且投資期間較長, 當急迫資金需求出現時無法馬上變現;基金除了須考慮利率、匯率等風險外, 投資獲利期間長且手續費昂貴,且如對投資組合與國際經濟情勢無一定程度. 政 治 大. 的了解,就必須完全仰賴基金經理人的操作來獲取報酬;相較於前三者,股. 立. 票的投資期間長短可自行決定,受到利率、匯率的影響較小,且只需要針對. ‧ 國. 學. 單一公司、概念題材或產業有所了解即可決定是否投資,整體而言,股票的 風險適中且操作上較為直覺簡單,根據台灣證券交易所的統計資料,截至. ‧. 2013 年 4 月為止,集中市場的投資人開戶數累計已達到 1665 萬,顯示股票. y. Nat. n. er. io. al. sit. 在台灣已是相當普遍且受歡迎的理財工具。. i n U. v. 台灣股票市場的規模較小,且是以散戶為主的淺碟型市場,股價與交易. Ch. engchi. 量容易隨著資訊的發佈而產生波動,投資人必須隨時注意各股訊息才能有效 的降低風險;換而言之,掌握資訊對於台灣股票市場的投資者而言便可能是 獲利的關鍵。. 然而,佔有台股中 59.8%交易比重的散戶投資者,在投資上往往處於劣 勢,其主要原因有二。其一,由於資訊傳遞技術或是投資人專業程度的差異, 時常會使得有價值的資訊會先落入某些專業投資人手中(楊淳如,2004),而 造成資訊不對稱;再者,因市場上的資訊量過於龐大,投資人的注意力卻有 限,往往只能注意到其中的一部分資訊(Peng and Xiong, 2006),或是因繁雜 1.

(10) 的資訊阻礙判斷,導致投資人可能忽略了重要的訊息而錯失獲取高報酬或避 險的機會。. 目前對於股市之研究多著重於基本面與技術面上的分析,往往忽略了新 聞訊息對股價所造成的影響。由於新聞具有時效性、區域性的特性,能適時 揭露重要資訊給地區民眾,而目前網路新聞事件的分類多以人工判斷為主, 投資者能直覺地從財經新聞中選擇相關的新聞,當作觀察股票市場變化的工 具之一(Ahmad et al., 2002) 。Khurshid(2002)認為影響財務市場的資訊,. 政 治 大 的中介因素。Elliott and Jacobson(1994)指出揭露資訊越豐富,投資人越 立. 不論這些資訊的來源形式為何,新聞內所隱含的資訊對股價的影響扮演重要. 可善加利用相關資訊,尋求最佳的投資機會。對於非專業的散戶投資者來說,. ‧ 國. 學. 新聞中包含了個股公司資訊揭露後的結果,可視為有效縮短資訊不對稱的工. ‧. 具。. y. Nat. er. io. sit. 近年來,以文字探勘做新聞文件分類用於預測股價趨勢的研究越來越熱 門,有學者運用文字探勘技術將新聞文件或上市公司重大訊息分類以預測股. al. n. v i n 價趨勢(喻欣凱,2008;陳俊達,2007;科禹伸,2011;吳漢瑞,2011);亦 Ch engchi U. 有使用文字探勘新聞文件的特徵後,透過關聯分析找出概念與個股股價間共 同移動的現象(吳振和,2011);或是結合人工智慧,用類神經網路將新聞文 件分類所建立的模型以預測股價(黃馨瑩、楊建民、李耀中,2009;歐智民, 2011)。. 根據多位學者的研究發現,台灣股票市場傾向符合弱勢效率市場(張金 桂,1980;李惠弘,1985;鄭雅仁,1994;陳惠純,1998;廖清達,1998), 我們藉此假設技術面雖對於預測未來股價的效果有限,但依然能表達歷史股 價的起伏現象,因此在訓練新聞分類加入技術分析作為輔助,或許能提升對 2.

(11) 於未來股價的預測能力。有別於許多相關研究中忽略了技術分析,本研究以 個股新聞作為出發點,結合技術分析工具與文字探勘技術分析個股新聞,將 新聞文件做有效的分類、分群,建立能預測股價趨勢與反轉點之模型,期望 能提供給投資者更有效的線索與資訊幫助其作出正確的決策。. 第二節 研究目的 依上述之背景與動機,本研究將針對以下二點做為研究目的:. 政 治 大 助文件分類,提高分類能力並預測股價走勢。 立. 利用文字探勘技術分析個股新聞文件之特徵,並利用技術指標輔. 2.. 將上漲與下跌類別再做分群,設定各群集之股價漲跌幅,並針對. ‧ 國. 學. 1.. 漲跌幅較高之群集,分析其預測股價走勢之準確率是否能提高。. ‧. 觀察漲跌幅較高之群集交錯增長之時間點,股價是否出現轉折。. io. sit. y. Nat. n. al. er. 3.. Ch. engchi. 3. i n U. v.

(12) 第二章. 文獻探討. 第一節 效率市場 Samuelson 在 1965 年所發表的「適當預期價格隨機漫步證明」一文中, 首先提及效率市場的概念,其中明確表示,「能反映所有資訊的市場價格為 充分有效的價格」,亦即指出資本市場的效率性是指證券價格反映所有資訊 的迅速程度而言(王慧雯,1998)。資本市場的效率性是由證券價值反映所有 資訊的速度所決定(Samuelson,1965)。而 Fama(1970)為效率市場做了以下 定義:. 立. 政 治 大. 1. 所有的資訊取得不須負擔額外的成本,且所有的市場投資人都能在. ‧ 國. 學. 同一時間輕易地獲得,而所有的投資人都能有相同的預期。 2. 沒有交易成本、所得稅率和其他交易限制的存在,市場具有無摩擦. ‧. 性的特質,股票將隨著資訊的發佈而反映到均衡的價格。. y. Nat. sit. 3. 市場價格不為任何個人或機構影響,投資人皆為價格接受者。. n. al. er. io. 4. 所有投資人都是理性的,且追求最大的利潤。. Ch. engchi. i n U. v. 效率市場假說就是指現實世界的金融市場都符合上述的定義。他依據股 價反映資訊內容程度的不同將效率市場區分為三種強弱不同的等級:. 1. 弱式效率市場(weak form efficient market) :目前的股票價格已充分 反映過去所有如股價走勢、成交量和報酬率等歷史資料,投資者無 法再運用各種技術分析結果來預測未來股價以獲取高額報酬。. 2. 半強式效率市場(semi-strong form efficient market):目前的股票價 格已充分反映所有如財務報表、營運狀況和政治經濟情勢等公開資 4.

(13) 訊,投資者無法再運用各種情報分析結果來預測未來股價以獲取高 額報酬。. 3. 強式效率市場(strong form efficient market):目前的股票價格已充 分的反映所有內線和公開資訊,投資者即使擁有內線消息也無法用 來預測未來股價以獲取高額報酬。. 第二節 台灣股票市場 2.2.1台灣股票市場現況. 立. 政 治 大. 台灣股票市場經歷 2008 年金融海嘯後,仍因內憂外患而使股市動盪不. ‧ 國. 學. 定,在境外受到歐債、美債危機、南北韓及兩岸情勢、日圓狂貶等影響;在 內受到證所稅、二代健保增收股息和股利補充費與基金代操經理人利用職務. ‧. 之便中飽私囊的盈正案等負面因素作祟,成交量從 2012 年 4 月開始萎縮,. y. Nat. sit. 同年 6 月加權指數跌破 7000 點,12 月 22 日成交量萎縮至 408 億,直至 2012. n. al. er. io. 年底在政府的政策性護盤和國際情勢略微緩和下,交易量才開始放大。. 2.2.2淺碟型市場. Ch. engchi. i n U. v. 淺碟顧名思義就是裝在淺碟上的水容易受波動,而台灣股市就是明顯的 淺碟型市場,易受政府政策、國際情勢或財力雄厚的投資者影響,變動大且 迅速,波動幅度遠超過國外股票市場。. 由表 2.1 所示,台灣股票市場以散戶(本國自然人)為主,而散戶相較於 專業投資人,在資訊的取得上比較緩慢,且專業投資人通常會較早取得有價 值的資訊,使得散戶通常在佈局和獲利的腳步上都慢了一些,且由於台股多 為市值小的中小型企業,容易受到人為操作,造成股市容易在多頭時猛漲, 5.

(14) 空頭時狂跌,加上台股有漲跌停板的限制,因此常出現「買不到、賣不掉」 的流動性危機,股價短期內劇烈起伏,造成投資人血本無歸也是時有所聞。. 表 2.11 台灣股市集中市場投資人類別交易比重 集中市場投資人類別交易比重. 單位:%. 年. 本國自然人. 本國法人. 外國自然人. 外國法人. 2007. 67.3. 13. 2.1. 17.6. 2008. 61.7. 14. 2.3. 22.1. 2009. 72.1. 11.6. 0. 16.3. 2010. 68. 13.6. 0. 18.4. 2011. 62.7. 2012. 62. 立. 政 15.5治 大0 15.4 0.1. 21.8 22.6. (資料來源:台灣證券交易所). ‧ 國. 學 ‧. 2.2.3台灣股票市場之效率性相關研究. sit. y. Nat. 台灣股票市場的效率性符合哪一種效率市場,已有多位專家學者進行研. n. al. er. io. 究探討。針對台灣股市是否符合弱式效率市場,張金桂(1980)利用序列相關. v. 檢定法和連檢定法檢定每週對數收盤差價,並利用時間數列之譜相分析法檢. Ch. engchi. i n U. 定,發現台灣股票市場呈現一個弱勢的效率市場;李惠弘(1985)以民國 66 年至 73 年 8 月 16 日的 33 種股票之收盤價,評估移動平均線的買入持有策 略之投資績效。結果發現不論移動平均線日數為何,其投資績效遠低於買入 持有策略,因而支持台灣股票市場符合弱勢效率性的假說;鄭雅仁(1994) 研究 1973 到 1993 年的所有普通股股票以及這些股票所組成的投資組合,以 橫斷面迴歸模型和自我迴歸模型來檢定短、長期報酬率的相關程度,推論台 灣股票市場趨於符合弱式效率市場;陳惠純(1998)則研究台灣的店頭市場, 以 1996 年 1 月 6 日到 1998 年 4 月 30 日的 633 筆日資料和 118 筆週資料當 樣本,以自我相關測試、二項式分配測試、RUN 測試、ADF 及 KPSS 單根 6.

(15) 測試等金融計量分析工具來觀察台灣店頭市場的弱式效率,發現台灣店頭市 場之週報酬率符合隨機漫步,故符合弱式效率;廖清達(1998) 以統計檢定 方式驗證由移動平均線(MA)、動量指標(MTM)、量均線(VolAve)和心理線 (PSY)組成的綜合性技術指標的平均報酬率是否顯著的平均報酬率,而推論 台灣股票市場趨於弱勢效率市場。. 而賴勝章(1990)利用相對強弱指標(RSI)、隨機指標(KD)和平均移動線 (MA)針對民國七十三年一月至七十八年十二月之三十二種股票收盤價進行. 政 治 大 MA 買賣股票之投資績效則優於買入持有策略,因而拒絕台灣股票市場符合 立 研究,發現運用 RSI、KD 買賣股票,其投資績效列於買入持有策略;運用. 弱式效率性假說。得到同樣結論的還有盧廷當(1996)和林麗珍(2005),兩者. ‧ 國. 學. 皆以濾嘴法則檢定台灣股票市場,認為其不具弱式效率性。. ‧. y. Nat. 另外也有學者針對台灣股市是否符合半強勢效率市場進行研究。陳尚群. er. io. sit. (1989)利用市場模式理論,藉由迴歸殘差建立個別股票之累積平均殘差及 異常績效指標再依本益比高低,將樣本分成五組投資組合,以 t 檢定與變異. al. n. v i n 數分析來核定台灣股市,最終由於台灣股票市場能充份反應目前各股票本益 Ch engchi U 比之情報,因此認為台灣股市符合半強式效率市場;倪晶瑛(1990)考慮證 所稅、證交稅、手續費三項股市交易成本,研究其變動之宣告對股價的影響, 研究發現台灣股市符合半強式效率市場之假說;王慧雯(1998)於晚報推薦 資訊對臺灣股票市場影響之研究中,在考量交易成本後傾向支持台灣股票市 場符合半強式效率市場。. 除此之外,也有學者從不同的角度切入,杜雅建(1993)在研究內部關 係人鉅額持股轉讓交易及申報對股價影響,發現內部關係人轉讓申報事件具 情報效果,股價未能充分快速反應已公開訊息,因而認為台灣股市不符合半 7.

(16) 強式效率市場,且因內部關係人交易關係可獲得較一般市場平均報酬高的異 常報酬,因此也認為台灣股市不符合強式效率市場。. 第三節 新聞與股價之關係 Lavrenko et al.(2000)提出語言模型(Language Model)的概念,用來識別 對股價有影響的詞彙,例如 loss、shortfall 和 bankruptcy 都與股價下跌趨勢 高度相關;反之像 merge、acquisition 和 alliance 等詞彙與股價上漲趨勢高度 相關,透過訓練與建立語言模型來辨識這些與股價相關的詞彙,可協助股價 趨勢之預測。. 立. 政 治 大. ‧ 國. 學. Khurshid(2002)認為無論文字消息的形式為何,皆可能為影響金融市 場的波動,換言之,文字消息為傳遞事件的一種方式,而投資者可透過文字. ‧. 消息如新聞文件觀察並加以評估投資的最佳時機(歐智民,2011)。. sit. y. Nat. al. er. io. Mittermayer(2004)應用支援向量機(Support Vector Machine, SVM). v. n. 將新聞分成正向新聞、無影響新聞及負向新聞三類,並實現於其所提出的系. Ch. engchi. i n U. 統 NewsCATS(News Categorization and Trading System),用來預測新聞發 布後 60 分鐘之 NMS(National Mittermayer System)股票指數趨勢。結果顯 示以此系統交易的平均獲利大於隨機投資策略,因此認為新聞分類能幫助提 供更多資訊以進行股價趨勢的預測(Mittermayer,2004;吳昀錚,2008)。. 吳真慧(2000)在研究國內專業性報紙的頭版新聞事件時,發現購併、策 略聯盟、新投資方案、預期未來盈餘增加事件確實具有正面的資訊內涵;而 預期未來盈餘減少事件、不法情事、財務危機與內部控制不良事件確實具有 負面的資訊內涵;林國興(2002)在研究財經專業性報紙所揭露的公司資訊, 8.

(17) 對於股票價格波動之影響,發現其所揭露的個別公司訊息具有資訊內涵,亦 即資訊確實對於股價造成影響。我們可藉此推斷,在股市投資裡,財經新聞 所揭露的公司營運、財務和政經情勢的相關資訊,會對股價造成直接或間接 的影響。直接的影響如 A 公司發布上月營收數字非常亮眼、大幅成長的訊 息,該訊息可能會造成 A 公司的股價上漲;間接影響如新聞報導 B 公司生 產的產品在歐美和亞洲地區熱賣,該訊息除了對 B 公司的股價產生影響外, 也可能帶動供應鏈中 C 公司的股價上漲,黃馨瑩、楊建民、李耀中(2009) 的研究中也證實,新聞量與股價趨勢具有正向影響。. 第四節 技術指標. 立. 政 治 大. ‧ 國. 學. 技術分析又稱為市場分析或內部分析,是利用證券買賣相關的歷史統計 資料來預測股市或個別股票價格未來的走向與趨勢之各種分析方法(蔡瀚賢,. ‧. 2000)。而技術分析通常由技術指標構成,透過將市場交易資訊帶入簡單的. sit. n. al. er. io. 的技術指標:. y. Nat. 公式,運算後得到的指標即可作為判斷市場的漲跌訊號。以下介紹幾種常見. 1. 移動平均線(MA):. Ch. engchi. i n U. v. 移動平均線的原理是利用每日收盤價,計算出一個期間內的平均值,而 藉由每日收盤價的更新並剔除較早的收盤價資料,得出更新的平均值,將這 些數值畫於圖表上所形成的線段即為移動平均線。移動平均線依時間長短可 分為短期、中期和長期三種,短期是 5 日(週線)或 10 日;中期是 20 日(月線) 或 60 日(季線);長期是 120 日(半年線)或 240 日(年線)。葛蘭碧 Granville(1960) 曾提出 200 日平均移動線應用之八大法則,用以研判買賣時機,如圖 2.1 中,A、B、C、D 點為買進訊號;E、F、G、H 為賣出訊號:. 9.

(18) 圖 2.1 葛蘭碧八大法則說明圖 (資料來源:網路搜尋). 2. 相對強弱指標(RSI):. 政 治 大 幅度的平均值之比例,此數值介於 0 到 100 之間,因此當一股票價格在短 立. RSI 值是一特定期間內,股價上漲總幅度的平均值佔同一期間內漲跌總. 期內漲勢較為強勁時,其漲幅較大且 RSI值會較高,亦代表其具有相對強勢。. ‧ 國. 學. 另一方面,RSI 透露出買賣雙方力道強弱消長的訊息,所以常用以研判股市. ‧. 超買與超賣的現象,在應用上,RSI 基期一般採用 6 日和 12 日,短天期敏. y. Nat. 感性高,長天期較具趨勢性。以當 6 日 RSI 由下往上突破 12 日 RSI 時為買. n. er. io. al. sit. 進訊號;反之則為賣出訊號。. 3. 能量潮(OBV):. Ch. engchi. i n U. v. OBV 是透過股市成交量的累算,來研判市場中買氣的變化,進而藉由 和股價漲跌的相關性來判斷買賣時機。OBV 以每日收盤價與前一日比較, 當股價上漲則將成交量相加,下跌則將成交量相減,將每日 OBV 值加總則 可得知變化趨勢。應用上以近期固定日的加總形成移動型的 OBV 線,當快 速 OBV 線由上往下跌破慢速 OBV 線時為賣出訊號,反之則為買進訊號。. 第五節 文字探勘 隨著資訊科技的快速進展,即時處理大量資料已不再是天方夜譚。而近 年來資料躍進式的增加累積,若掌握了龐大的資料卻無法有效處理時,將產 10.

(19) 生資料傾銷(data dump)的情形(Keim et al.,2004),故資料的處理與應用相當 重要,而資料探勘即為一在大量的資料中,尋覓感興趣或是隱藏未知的有價 值資訊之過程(Hand,Blunt,Kelly&Adams,2000)。. 文字探勘為資料探勘的延伸,用來提供分析人員或決策者特定的資訊, 以及發現資訊中的特徵之間的關聯(Sullivan,2001),而這些資料可能是半結 構化或非結構化的文字資料,因此,為了從這些資料中發掘出其所隱含的、 有用的重要資訊或知識,文字探勘需要額外的資料前處理(pre-processing),. 政 治 大. 其包含斷詞、特徵選擇、相似度計算,較資料探勘的程序來的繁複、嚴謹。. 立. ‧ 國. 學. 2.5.1斷詞. 為了取出文件中的特徵,必須先對文件進行斷詞,而中文斷詞的問題在. ‧. 於字詞間沒有空白作為切割的依據,因此在處理上較英文斷詞繁瑣。目前中. sit. y. Nat. 文斷詞的方式大致分為三種:. al. er. io. 1. 詞庫式斷詞(Chen,1992):依據建立的詞庫進行斷詞。. v. n. 2. 統計式斷詞(Sproat,1990):參考一個大型語料庫的統計資訊,透過. Ch. engchi. i n U. 鄰近字元同時出現頻率之高低作為斷詞的依據。 3. 混合式斷詞(Nie,1996):先透過詞庫斷詞出不同組合的詞彙,再利 用詞彙的統計資訊找出最佳的斷詞組合。. 11.

(20) 本研究整理坊間較常見的四種免費且中文斷詞工具,如下表 2.2:. 表 2.22 斷詞工具表 名稱. 詞庫. API. 使用限制. CKIP 中文斷詞系統. 內建. Java/PHP. 短時間大量傳輸中斷. 內建. PHP. 每天 1000 筆. Mmseg4j. 自建/現有. Java. 無. Lemur(Indri). 內建. Java/C++. 無. Yahoo! Content Analysis API. (資料來源:本文作者整理). 2.5.2特徵選取. 立. 政 治 大. 為了讓文件達到自動化分類,必須由各篇文件中擷取出足以代表該文件. ‧ 國. 學. 的特徵,因此,利用斷詞技術將文件中的文字資料拆解成個別詞彙後,透過. ‧. 權重的計算即可了解個別詞彙對於各篇文件的重要性,以及對於整體文件集. sit. y. Nat. 合的重要性,也可用於去除雜訊(noise),提高探勘結果的準確度,以下介紹. io. n. al. er. 兩個常用的方法:. 1. TFIDF:. Ch. engchi. i n U. v. 我們對文件中每個詞彙都給予一個權重,代表其在文件出現的次數, 這個權重的計算結果稱為詞彙頻率,簡稱詞頻(Term Frequency,TF), 而一個詞彙頻繁的出現在同一篇文件中,詞頻的鑑別能力就會非常的低。 因此又發展出另一個機制來這些在同一文件中出現過多次數詞彙的重 要性,就是文件頻率(Document Frequency,DF)。若是單一詞彙太普遍 的出現在各文件中,其所能突顯的意義就會降低,因此出現了逆文件頻 率的概念(Inverse Document Frequency,IDF)。但是一個罕見詞的 IDF 往往很高,而高頻詞的 IDF 就可能較低(Christopher et al.,2008),為平 12.

(21) 衡 TF 與 IDF 的不足而有了 TFIDF 的存在,其做法就是將 TF 與 IDF 兩 數值相乘。. 2. TFC-Weighting: 某一特定高詞頻詞彙,以及該詞彙在整個文件集合中的低文件頻率, 會計算出較高的 TFIDF 值(Salton & McGill,1983)。且因為 TFIDF 沒有 考慮到不同文件的長度不一,於是將某一詞彙除以文件中所有詞彙之權 重平方和再開根號,即可將文件之長度予以正規畫,這樣一來不同的文. 政 治 大. 件就可以互相比較(Popescu,2001)。. 立. ‧ 國. 學. 2.5.3向量空間模型與相似度計算. 向量空間模型是目前廣泛使用的資訊檢索模型(戴尚學,2003),也是. ‧. 資訊檢索中效果較好的方式。每篇文件以一組向量表示,每個維度代表的是. n. al. er. io. sit. y. Nat. 一個詞彙,維度的數值則是該詞彙的權重,如圖 2.2 所示。. Ch. engchi. i n U. v. 圖 2.2 向量空間模型 (資料來源:Salton et al., 1975). 為使文件與文件間能互相比較,使用向量空間模型時必須轉化為單位向 13.

(22) 量,以避免文件長短不一所造成的誤差。當文件數量增加時,可利用「詞彙 ─文件矩陣」表達詞彙與文件間的關係。如下圖 2.3 為例,文件集選出 i 個 特徵字,而每一列則代表一篇文章中各個特徵字的權重值(歐智民,2011)。. 立. 政 治 大 圖 2.3 詞彙─文件矩陣. ‧. ‧ 國. 學. (資料來源:Salton & Gill, 1983). 將文件予以向量化後,各篇文件皆有其相同的比較單位,於向量空間中. sit. y. Nat. 可以進行不同文件的相似度計算,以實現分類或分群。相似度計算尤以餘弦. al. er. io. 相似度計算(Cosine Coefficient)較常見,當兩互相向量平行,則其夾角為 0,. v. n. 兩向量的餘弦係數為 1,代表著這兩文件有極高的相似度;若當兩文件的維. Ch. engchi. i n U. 度比例不盡相同時,餘弦係數將降低,代表著兩文件並不相似。. 2.5.4分類與分群技術 文字探勘的過程中,使用者能針對資料的範圍和類型,選擇適當的演算 法做分析,因此所採用的演算法成為知識挖掘的關鍵因素。常見的演算法包 括分類分析及分群分析。. 14.

(23) 1. 分類分析(Classification Analysis): 分類就是將每一個類別特徵清楚定義,並透過訓練資料,建立出模型, 將未歸類的資料分門別類(Berry&Linoff,1997),因此分類可以說是一種監 督式學習法(supervised learning)。分類技術包含簡單貝氏分類(Naïve BayesClassification) 、kNN(k-Nearest Neighbor) 、支援向量機(Support Vector Machine,SVM)等。而 Joachims(1998)將此三種分類器與最小平方誤差法 (LLSF)及類神經分類(ANN)以統計方法比較效率與分類結果,優異程 度為:{kNN、SVM}>LLSF>ANN>NB(歐智民,2011)。. 政 治 大 貝氏分類法是一種以機率、統計學為基礎的分類法,且因為貝氏分類法 立. 利用事件發生的機率來推測為之資料的類別,在新資料加入時只需局部調整. ‧ 國. 學. 某些機率值,即可得到新的分類模型,因此,在資料不斷增加的情況下,可. ‧. 以得到較好的分類效果(曾憲雄等,2005)。. y. Nat. er. io. sit. kNN 則是另一種常見且使用簡單的分類器,透過局部資訊來確定類別 邊界,將與測試資料最近的 k 篇資料所屬的主類別指定為測試資料之類別,. al. n. v i n 其基本依據在於,根據鄰近假設,一篇測試資料將與其鄰域中的訓練資料具 Ch engchi U 有相同的類別(Christopher et al.,2008)。. 使用 kNN 進行分類時必須將資料以向量空間模型表示,並取出前 k 份 與新文件相似度最高之資料,並將此 k 份資料之類別則記為候選類別。將資 料與新資料之相似度以類別為基礎做加總,分數最高之類別則為新資料之所 屬類別,如下圖 2.4 所示,當 k 為 3 時,新進資料會與最鄰近的兩個黑色類 別資料點和一個白色類別資料點做以類別為基礎的相似度計算加總,如黑色 類別的數值較高,則新加入的資料分為黑色類別。. 15.

(24) 政 治 大 (資料來源:L da F Costa et al.,2010) 立 2. 分群分析(Cluster Analysis):. 學. ‧ 國. 圖 2.4 kNN 分類器示意圖. ‧. 分群分析又稱為非監督式分類(unsupervised classification),透過演算法. sit. y. Nat. 計算每筆資料的相似程度,將擁有相似特徵的資料組成一個群集(Ham &. io. er. Kamber,2001),因此該群集內的資料會有很高的相似度,而與其他群集內 的資料會很不相似(Ham & Kamber,2003)。一個好的群集方法可以產生高. al. n. v i n 品質的群集,以確保群集間(inter-clustering)的資料相似度是最低的,而群集 Ch engchi U 內(intra-clustering)的資料相似度式最高的(陳鴻基、嚴紀中,2004)。Han & Kamber(2006)將分群法分成五大類:分隔式分群(Partitioned)、階層式 分群(Hierarchical) 、密度基礎分群(Density-based) 、網格式分群(Grid-based) 與類神經網路分群(Neural network) ,常見的方法包括分隔式分群的 K-means 和階層式分群的凝集群法(agglomeration)。. 另外 kNN 技術也可應用於分群分析上,經過改良的 2-way kNN(戴尚學, 2003 ; Yang et al., 2000 ; Yang et al., 1999)針對每個候選事件獨立判斷是否應 該被歸類在其中。在 2-waykNN 中,比較的對象可分為目標群集及其他群集。 16.

(25) 對於新進文件與件群集計算兩者的相關分數,若相關分數大於一設定的門檻 值,則判斷新進文件屬於此候選群集。. 2.5.5分類與分群結果評估 分群分類結果產出後,需要進一步評估其結果之績效如何。對於分類結 果的評估,Sebastiani(2002)的整理中指出較常使用的有 Accuracy(正確率)、 Recall(召回率)、Precision(精確率),以及 F-measure 等,其中,Accuracy 評 估預測結果中分類預測結果的機率;Recall 評估預測結果與分類預測結果相. 政 治 大 為正確的機率;F-measure 立 綜合 Precision 及 Recall 之評估方式而成,研究中. 同中,預測結果正確之機率;Precision 評估預測結果正確中分類預測結果亦. ‧. ‧ 國. 學. 通常會使用 F-measure 作為分群分類的績效評估。. 而分群結果的評估則採用平均群內相似度(Mean of Intra-cluster. y. sit. n. al. er. io. 的依據。. Nat. Similarity)與平均群間相似度(Mean of Inter-cluster Similarity)作為分群品質. Ch. engchi. 17. i n U. v.

(26) 第六節 小結 在探討眾多文獻後,可以發現國內外學者皆支持新聞資訊的發布會對股 價造成影響,而對於國內股票市場的研究,可以發現所有學者皆反對強式效 率市場的存在,而弱式與半強式效率市場則各有支持者,所以我們藉此推斷 台灣股票市場應介於弱式與半強式效率市場之間,根據效率市場假說內容, 可以歸納出以下兩點:. 1.. 台灣股票市場之股票價格已反映過去所有如股價走勢、成交量和. 政 治 大 新聞訊息對於台灣股票市場之股票價格存在著影響性。 立. 報酬率等歷史資料,技術性分析可能無法預測未來股價趨勢。. 學. ‧ 國. 2.. 結合以上兩點,雖然我們無法使用技術性分析來預測未來股市走向,但. ‧. 其依然能夠有效反映歷史股價,因此在本研究中,利用技術指標作為輔助將. sit. y. Nat. 新聞做分類,提高其分類準確度,並期望藉此提高後續以個股新聞預測未來. n. al. er. io. 股價走勢的準確度。. Ch. engchi. 18. i n U. v.

(27) 第三章. 研究方法與設計. 第一節 研究架構 本研究使用 Java 平台技術,針對各資料來源網站開發爬蟲元件以蒐集 個股新聞與歷史交易資訊,並將個股新聞經過資料前處理(包含斷詞、特徵 值選取和向量空間轉換),使用歷史交易資料、技術分析指標與 kNN 演算法 將新聞分為上漲、持平、下跌三個類別,之後再利用 k-Means 演算法將各類 別內的文章分為若干群集,並於各類別和群集內,找出能夠影響股價的關鍵 詞彙或關鍵群集,將之建立為關鍵詞庫,用以預測未來新聞對股價漲跌之影. 政 治 大. 響、程度和找出股價反轉點。本研究之研究架構圖如圖 3.1:. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 19. i n U. v.

(28) 台灣證券交易所 歷史交易資料. 鉅亨網 個股新聞. 資料前處理模組. 中文斷詞 資料庫/辭庫. 向量轉換 特徵值權重計算. 立. 政 治 大 前測實驗. ‧ 國. 學 新聞分群. 關鍵群集選取. n. al. er. io. sit. y. Nat. 漲跌預測模組. ‧. 新聞分類. Ch. engchi. i n U. v. 預測個股之股價漲跌和轉折發生點. 預測結果評估. 個股預測模型建立. 圖 3.15 研究架構圖 (資料來源:本研究自行整理) 20.

(29) 第二節 研究設計 3.2.1資料來源 本研究的主要資料分為個股相關新聞和台北股市的歷史交易資料。由於 資訊與網路的發達,現今除了如 Google、Yahoo、PCHome 等入口網站之外, 亦有如鉅亨網、MoneyDJ 理財網等專門提供財經資訊的網站,或聯合知識 庫這類的大型書報資料庫網站,皆有提供內容豐富的財經相關新聞,因此在 搜尋個股相關新聞時有非常多的資料來源可供選擇。. 政 治 大. 而在檢視過各網站的新聞文件後,由於多數網站內的新聞,皆有一篇新. 立. 聞內含多支個股訊息的情況,考慮到新聞品質對往後研究的影響,本研究採. ‧ 國. 學. 用能提供較高品質新聞的鉅亨網作為資料來源;而台北股市的歷史交易資料 則使用台灣證券交易所作為資料來源。. ‧ y. Nat. sit. 為了符合本研究之需求,必須選擇股價波動大,新聞發布量多的個股進. n. al. er. io. 行實驗,因此挑選下列三檔個股為本研究實驗使用之指標:宏達電(2498)、. i n U. v. 台積電(2330)與鴻海(2317),新聞的時間區間介於 2012 年 6 月至 2013 年 5 月,總篇數共 731 篇。. Ch. engchi. 3.2.2資料前處理模組 1. 中文斷詞: 目前坊間能提供中文斷詞的工具有中研院研發的 CKIP 中文斷詞系統、 Yahoo! Content Analysis API、Mmseg4j、Lemur(Indri)等四種,本研究經測 試後發現,由於 CKIP 內建的中文詞庫對於本研究之新聞文件能做有效且 快速的斷詞,且本身有提供 client 端的 API,在操作上也相當方便,故採用 該工具作為本研究的斷詞工具,以下為 CKIP 處理斷詞前後的對照範例: 21.

(30) 斷詞前: 花旗:宏達電高階市場難禦蘋果、三星夾擊 下修目標價至 310 元. 斷詞後: 花旗(N) :(COLONCATEGORY). 宏達電(N) 高階(A). 市場(N) 難(Vi) 禦(VC) 蘋果(N) 、(PAUSECATEGORY) 三星(N) 夾擊(Vt) 下修(Vt) 目標價(N) 至(C) 310(DET) 元(N). 政 治 大 CKIP 中文斷詞系統會依照內建詞庫將輸入文章做斷詞處理並標上詞 立. 性,本研究僅採用的形容詞(A)、名詞(N)、不及物動詞(Vi)與及物動詞(Vt). ‧ 國. 學. 等四種詞性之詞彙,而其他如連接詞(C)、數量(DET)、介詞(P)等詞性之詞. ‧. 彙或標點符號在本研究中較不具影響力,因此在這個階段會被過濾掉不進. y. Nat. 入資料庫。經過斷詞處理後可以得知文章內各詞彙之詞性,當未來我們需. er. io. sit. 要刪減文件特徵時,也能透過判斷詞彙詞性的方式,擷取出較具代表性的 特徵詞彙,並刪除較不具有實質意義的詞性之詞彙。. n. al. 2. 特徵值選取:. Ch. engchi. i n U. v. 為了讓文件達到自動化分類,必須由各篇文件中擷取出足以代表該文件 的特徵。本研究使用 TFIDF 和 TFC-Weighting 作為新聞文件的特徵值:. (1) TFIDF: TF 為一詞彙出現在某一文章內的次數,記為𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑 ,t 和 d 分別代表. 對應的詞彙和文件。 IDF 為 DF 之倒數取對數後的結果,假定 DF 記為 𝑑𝑑𝑑𝑑𝑡𝑡 ,表示出現詞彙 t 的所有文件總數,所有文件的總數是N,詞彙 t 的 IDF 定義如下:. 22.

(31) 𝑁𝑁. 𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡 = 𝑙𝑙𝑙𝑙𝑙𝑙 𝑑𝑑𝑑𝑑 …………………………………………………………(1) 𝑡𝑡. 而一詞彙 t 的 TFIDF 為 TF(詞頻)和 IDF(逆文件頻率)之乘積:. 𝑁𝑁. 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑 ∗ 𝑙𝑙𝑙𝑙𝑙𝑙 𝑑𝑑𝑑𝑑 ……………………………………………… (2) 𝑡𝑡. 由於 CKIP 將斷詞結果傳回 Clinet 端時的結果格式較不統一,故本 研究採用 CKIP 提供的詞頻統計工具統計 TF,而其提供的詞頻工具輸. 出檔案的格式為 Unicode,因此需要再做一次轉碼才能在 Java 平台上加 以利用。. 政 治 大. 學. ‧ 國. 立. (2) TFC-Weighting:. 因為 TFIDF 沒有考慮到不同文件的長度不一,於是將某一詞彙除. ‧. 以文件中所有詞彙之權重平方和再開根號,即可將文件之長度予以正規. y. Nat. n. al. er. io. 式如下:. sit. 畫,這樣一來不同的文件就可以互相比較(Popescu,2001),修正後的公. 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑 =. Ch. 𝑡𝑡𝑡𝑡𝑡𝑡,𝑑𝑑 × 𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡,𝑑𝑑. 𝑀𝑀 �𝑡𝑡𝑡𝑡 �∑𝑗𝑗=1 𝑡𝑡,𝑗𝑗. i n U. v. e………………………………………… ngchi (3). 2. × 𝑖𝑖𝑖𝑖𝑖𝑖𝑡𝑡,𝑗𝑗 �. 3. 向量空間轉換 在進行文件相似度計算前,需將文件轉換成向量空間模型表示,因此我 們能藉由如 TFIDF 和 TFC-weighting 等特徵值的權重計算,將斷詞後的各個 詞彙在文章中所佔的權重值計算出來,並透過相似度計算(Cosine Coefficient) 來進行分群與分類,其公式如下:. 23.

(32) Cosine(x,y) =. ∑𝑡𝑡𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑦𝑦𝑖𝑖. �∑𝑡𝑡𝑖𝑖=1 𝑥𝑥 2 �∑𝑡𝑡𝑖𝑖=1 𝑦𝑦 2. …………………………………………(4). x、y 分別代表兩向量文件,t 表示兩向量文件之維度,若兩文件的維度 比例皆相同,即兩互相向量平行,則其夾角為 0,兩向量的餘弦係數為 1, 代表著這兩文件有極高的相似度,反之,當兩文件的維度比例不盡相同時, 餘弦係數將降低,代表著兩文件並不相似。. 3.2.3漲跌預測模組 1. kNN 分類演算法:. 立. 政 治 大. 即是 k-最鄰近演算法,該演算法是將文件以向量空間模型來表示,再藉. ‧ 國. 學. 由計算與已分類文件的相似度來判斷出欲分類文件可能所屬的類別。而相似 度的計算是採用 cosine 相似度來加以計算。分類的步驟如下:. sit. y. ‧. Nat. (1) 將新進的新聞文件轉換為向量空間模型。. n. al. er. io. (2) 將新進新聞文件與各個已分類之新聞文件進行相似度的計算,取出 前 k 份最相似的新聞文件。. Ch. engchi. i n U. v. (3) 將這 k 份新聞文件與新進新聞文件進行的所屬類別之判斷:將擷取 出的 k 篇新聞文件中,相同類別內的所有新聞文件與新進新聞文件 的相似度加總並除以該類別所包含的文件數,計算公式為:. P�x, 𝐶𝐶𝑗𝑗 � =. 1. 𝑁𝑁𝑗𝑗. × Σ𝑥𝑥𝑖𝑖 ∈𝐾𝐾𝑁𝑁𝑁𝑁 𝑆𝑆𝑆𝑆𝑆𝑆(𝑥𝑥, 𝑥𝑥𝑖𝑖 )𝑦𝑦(𝑥𝑥𝑖𝑖 , 𝐶𝐶𝑗𝑗 )………………………(5). 其中,𝑥𝑥為新進文件之特徵向量;𝑆𝑆𝑆𝑆𝑆𝑆(𝑥𝑥, 𝑥𝑥𝑖𝑖 )為相似度計算公式;而. 𝑦𝑦(𝑥𝑥𝑖𝑖 , 𝐶𝐶𝑗𝑗 )為類別屬性函數,即若𝑥𝑥𝑖𝑖 屬於類𝐶𝐶𝑗𝑗 則函數值為 1,否則為 0;𝑁𝑁𝑗𝑗 則為. 第 j 類所含的文件數量。計算出新進文件與各類別之相似度後進行比較,數 24.

(33) 值最大的類別則為新進文件的所屬類別。. 2. 文件訓練方式: 由於本研究中採用監督式學習的 kNN 演算法,需要有明確的判別依據 才能進行分類。本研究採用收盤價變動量與技術分析指標進行訓練資料。. 本研究假設新聞影響股價之為新聞發布前後 t 日,因此本研究將以個股 收盤價之漲跌變動量作為訓練資料之判別依據,如圖 3.2 所示:. 立. 政 治 大. ‧. ‧ 國. 學 圖 3.26 新聞影響股價漲跌示意圖. al. y er. io. sit. Nat. (資料來源:喻欣凱,2008). v. n. 以宏達電為例,根據 2012 年 4 月至 2012 年 11 月之漲跌幅統計,當,. Ch. engchi. i n U. 收盤價變動量大於上漲門檻值時,將此則新聞歸類為上漲;而當收盤價變動 量小於下跌門檻值時,將此新聞歸類為下跌;介於此範圍內的新聞則歸類為 持平。假設宏達電於 j 日發布了一篇新聞,其計算公式如下:. 收盤價變動量𝑗𝑗 =. 收盤價𝑗𝑗+𝑡𝑡 − 收盤價𝑗𝑗−𝑡𝑡 收盤價𝑗𝑗−𝑡𝑡. ……………………………………(6). 本研究採用 5 日收盤價變動量作為分類訓練之依據,但考慮到如圖 3.3 所示之情況:股價於 i 日前呈現上漲趨勢(或下跌),而股價從 i 日開始一路 下跌(或上漲)至 j 日,即 i 日為股價之轉折點,而新聞 可能因 i 日之收盤價 25. 𝑖𝑖.

(34) 變動量大於(或小於)門檻值,而被歸類為上漲(或下跌)類別所產生之謬誤, 因此在訓練資料時加入技術指標作為輔助,在 i 日出現賣出(或買進)訊號出 現時,將新聞 歸類為下跌(或上漲)類別,希望藉此提高分類準確率。 𝑖𝑖. 政 治 大 圖 3.37 新聞發生日即股價轉折點示意圖 立 (資料來源:本研究自行整理). ‧ 國. 學 ‧. 而訓練資料用的技術指標則採用平均移動線(MA) 、相對強弱指標(RSI), 以下分述說明:. sit. y. Nat. io. er. (1) 平均移動線(MA):. 平均移動線為能夠簡單找尋買賣點的方法,當短期 MA 線突破長. n. al. Ch. i n U. v. 期 MA 線時顯示買進訊號,反之則顯示賣出訊號,簡單算術平均數(𝑀𝑀𝑀𝑀𝑡𝑡 ). engchi. 和指數平滑移動平均數(𝐸𝐸𝐸𝐸𝐸𝐸𝑡𝑡 )的計算公式如下: 𝑀𝑀𝑀𝑀𝑡𝑡 =. 收盤價加總𝑡𝑡 𝑡𝑡. ………………………………………………… (7). 𝐸𝐸𝐸𝐸𝐸𝐸𝑡𝑡 = 𝐸𝐸𝐸𝐸𝐸𝐸𝑡𝑡−1 × �. N−1 N. �+. 𝑃𝑃𝑡𝑡 N. ………………………………… (8). 其中,N 代表移動平均數日期;𝑃𝑃𝑡𝑡 代表當日收盤價;t 代表的為平. 均移動線計算的期間。. 26.

(35) (2) 相對強弱指標(RSI): 相對強弱指標是一特定期間內,股價上漲總幅度的平均值佔同一期 間內漲跌總幅度的平均值之比例,常用以研判股市超買與超賣的現象, 下為 RSI 之計算公式:. RSIt =. 上漲總幅度平均值. t. 上漲和下跌總幅度平均值 t. ………………………………………(9). 另外,本研究為了持續增加預測模型的準確度,會使用前一次預測模型 抽取出的關鍵字詞,新一次預測模型的訓練模式,例如:當第一次實驗結束 後,宏達電從大漲群集與大跌群集中抽取出「蝴蝶」、「漲停」、和「跌停」. 政 治 大. 等字詞,在新一輪的文件訓練中,當新聞之標題包含以上詞彙,會直接將該. 立. 篇新聞依照此關鍵詞彙之類別進行歸類。. ‧ 國. 學. 3. 2-way kNN 分群演算法:. ‧. 本研究將 2-way kNN 的運算再做簡化,將已分群的新聞文件視為目標. sit. y. Nat. 群集,未分群的新聞文件視為其他群集,當一新聞文件加入時便會與目標. n. al. er. io. 群集內的所有群及進行相似度計算,其計算方式與 kNN 相同,而計算結果. v. 之相似度若是未達到相似度門檻值,則該文件會自成一新群集。. Ch. engchi. i n U. 當新聞文件分類結束後,再使用 2-Way kNN 演算法做分群處理,將上 漲與下跌兩類別內的新聞再分為若干群集。. 3.2.4分類結果評估 本研究使用的分類評估方法有 Recall(召回率)、Precision(精確率)及 F-measure,其計算方式與說明如下表 3.2:. 27.

(36) 表 3.13 文件分類情形 分為該類別. 未分為該類別. 屬於該類別. TP. TN. 未屬於該類別. FP. FN. (資料來源:本研究整理). Recall =. 𝑇𝑇𝑇𝑇. …………………………………………………………(10). 𝑇𝑇𝑇𝑇+𝑇𝑇𝑇𝑇. 𝑇𝑇𝑇𝑇. Precision =. 𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹. F-measure =. ………………………………………………………(11). 治 政 …………………………………………(12) 大. 2×Recall×Precision Recall+Precision. 立. ‧ 國. 學. 3.2.5分群結果評估. 為了得知分群之品質,本研究將利用平均群內相似度及平均群間相似. ‧. 度計算出分群品質的衡量指標,來判斷何種參數組合為最佳之分群。. sit. y. Nat. n. al. er. io. 1. 平均群內相似度:. i n U. v. 平均群內相似度是將各群集內的文件,兩兩比較後將相似度加總除以比. Ch. engchi. 較次數以獲得群內相似度。而各群之群內相似度乘上各群所含的文件數佔總 文件數之比例,即可獲得平均群內相似度。其值介於 0 到 1 之間,當數值 愈接近 1 代表群內相似度愈高,其公式為:. 平均群內相似度 = ∑𝐶𝐶𝑘𝑘. ∑𝑑𝑑 ∈𝐶𝐶 ∑𝑑𝑑 ∈𝐶𝐶 𝑠𝑠𝑠𝑠𝑠𝑠(𝑑𝑑𝑖𝑖 ,𝑑𝑑𝑗𝑗 ) 𝑖𝑖 𝑘𝑘 𝑗𝑗 𝑘𝑘 𝑁𝑁𝑘𝑘 ×(𝑁𝑁𝑘𝑘 −1)×. 1 2. ×. 𝑁𝑁𝑘𝑘 𝑁𝑁. …………………… (13). 𝑁𝑁. 其中,N 為文件總數;𝑁𝑁𝑘𝑘 為第𝐶𝐶𝑘𝑘 群之文件數量; 𝑁𝑁𝑘𝑘為第𝐶𝐶𝑘𝑘 群之加權值;. 𝑠𝑠𝑠𝑠𝑠𝑠(𝑑𝑑𝑖𝑖 , 𝑑𝑑𝑗𝑗 )則是𝐶𝐶𝑘𝑘 群內某兩篇文件之相似度。 28.

(37) 2. 平均群間相似度: 平均群間相似度是計算各群集的質心,並將各質心之間的相似度加總並 除以比較次數而得,其公式為:. 平均群間相似度 =. ∑𝑐𝑐 ∈𝐶𝐶 ∑𝐶𝐶 ∈𝐶𝐶 𝑠𝑠𝑠𝑠𝑠𝑠(𝐶𝐶𝑖𝑖 ,𝐶𝐶𝑗𝑗 ) 𝑖𝑖 𝑗𝑗 𝐶𝐶×(𝐶𝐶−1)×. …………………………… (14). 1 2. 3.2.6 前測實驗 本研究為取得較佳的分類及分群結果,先使用小群的資料做分類及分群,. 政 治 大. 調整出較佳的參數與方式,以方便後續實驗之進行。. 立. ‧ 國. 學. 1. 分類方式:. 此前測實驗的主要目的在確認僅採用收盤價變動量與收盤價變動量加上. ‧. 技術指標,哪種訓練方式可以提供較好的分類效果。本先行實驗使用宏達電. y. Nat. sit. 349 篇新聞做 kNN 分類之前導實驗,其中 233 篇為訓練資料,116 篇為測試. n. al. er. io. 資料,k 值設定為 3,訓練方式分別為僅採用收盤價變動量、收盤價變動量. i n U. +MA 與收盤價變動量+RSI,實驗結果如下:. Ch. engchi. v. 表 3.24 無技術指標分類結果 預測類別. 上漲. 持平. 下跌. 總計. 上漲. 9. 4. 8. 21. 持平. 1. 2. 1. 4. 下跌. 36. 3. 52. 91. 實際類別. (資料來源:本研究整理). 29.

(38) 表 3.35 無技術指標分類評估 評估 Precision. Recall. F-measure. 上漲. 0.196. 0.429. 0.269. 持平. 0.22. 0.25. 0.234. 下跌. 0.852. 0.571. 0.684. 類別. (資料來源:本研究整理). 由表 3.3 中可以發現,若是只採用收盤價變動量作為訓練新聞之工具時, 其分類結果準確度可能會因為變動量幅度分配不均之關係而降低,整體準確. 政 治 大 強弱指標(RSI)作為輔助,修正收盤價變動量之不足,下表 3.4 與表 3.5 為加 立. 率僅達到 0.543,因此,本研究在訓練新聞階段加入平均移動線(MA)和相對. 表 3.46 加入平均移動線之分類結果. io. 上漲. al. 持平. 持平. 下跌. 總計. 16. 1. 4. 2. 4. 1. y. 上漲. sit. Nat. 實際類別. 21. er. 預測類別. ‧. ‧ 國. 學. 入平均移動線(MA)後之分類結果:. n. v i 28 4 56 n Ch engchi U (資料來源:本研究整理). 下跌. 7. 88. 表 3.57 加入平均移動線之分類評估 評估 Precision. Recall. F-measure. 上漲. 0.348. 0.762. 0.4778. 持平. 0.444. 0.572. 0.5. 下跌. 0.918. 0.636. 0.751. 類別. (資料來源:本研究整理). 30.

(39) 由表 3.5 之評估可發現,在訓練新聞時加入平均移動線修正收盤價變動 量之結果,整體分類準確率達到 0.672,可以明顯看出加入移動平均線後確 實能有效提高其分類效果。而相對強弱指標(RSI)則是本研究中用以輔助訓 練新聞的第二種技術指標,表 3.6 與表 3.7 為加入相對強弱指標(RSI)後之分 類結果:. 表 3.68 加入相對強弱指標之分類結果 預測類別 實際類別 上漲. 上漲. 持平. 下跌. 總計. 10. 3. 5. 18. 1 政2 治2 大 33 2 58. 持平 下跌. 5 93. 學 表 3.79 加入相對強弱指標之分類評估 評估. al. n. 持平 下跌. F-measure. 0.222. 0.556. 0.317. 0.286. 0.4. C h0.853 0.623 U engchi (資料來源:本研究整理). y. Recall. sit. io. 上漲. Precision. er. Nat 類別. ‧. ‧ 國. 立(資料來源:本研究整理). 0.334. v n i 0.72. 由表 3.7 中顯示之分類評估表現依然優於未加入技術指標前的分類結果 整體準確率達到 0.603,顯示加入移動平均線之分類結果表現依然較優越, 因此本研究後續之實驗,在分類時將採用收盤價變動量+MA 的方式進行分 類。. 31.

(40) 2. 分類參數: 本研究為了找出較佳的 k 值與收盤價變動量之漲跌門檻,在前測研究時 進行 84 回合之數據模擬,其中 k 值設定為 3 至 13,收盤價變動量的門檻由 0.0175 至 0.0205,另外由於新聞取樣期間內大盤走勢不佳,因此另外設定一 組下跌門檻比上漲門檻增加 0.5%跌幅之參數。模擬結果發現,當 k 值設定 為 5,收盤價變動量之門檻值分別設定為 0.0195 與-0.0245 時,可以得到較 佳的分類結果,因此往後的研究也採用此組參數進行實驗(請參考附錄)。. 政 治 大 在分群時必須除了分群品質外,也需考慮群集的數量,若是為了提高分 立. 3. 分群參數:. 群品質而提高門檻值使群集切割得太細小,反而會使結果不理想。在分群的. ‧ 國. 學. 先行實驗中繼續使用上述宏達電的資料集,針對上漲類別的 151 篇新聞文件. ‧. 用 2-way kNN 演算法做分群,k 值設定 5、7、9,文件相似度門檻值則為 0.05、. er. io. sit. y. Nat. 0.1、0.15、0.2,以下為分群結果:. n. a表l 3.810k 值為 5 之分群結果 i v 文件相似門檻值 C群集數量 平均群內相似度 hengchi Un 0.05 5 0.0592. K值. 5. 平均群間相似度 0.2886. 0.1. 29. 0.1599. 0.0595. 0.15. 64. 0.3221. 0.0476. 0.2. 109. 0.5221. 0.0423. (資料來源:本研究整理). 32.

(41) 表 3.911k 值為 7 之分群結果 K值. 7. 文件相似門檻值. 群集數量. 平均群內相似度. 平均群間相似度. 0.05. 7. 0.0662. 0.266. 0.1. 29. 0.1475. 0.0692. 0.15. 67. 0.3278. 0.0491. 0.2. 110. 0.5208. 0.0427. (資料來源:本研究整理). 表 3.1012k 值為 9 之分群結果 K值. 文件相似門檻值 0.05. 立. 0.1. 平均群內相似度. 政6 治 0.0555 大. 平均群間相似度 0.3545. 0.1578. 0.0683. 0.15. 69. 0.3326. 0.0501. 0.2. 114. 0.5331. 學. 30. ‧ 國. 9. 群集數量. ‧. (資料來源:本研究整理). 0.0432. y. Nat. io. sit. 在考慮整體結果後,本研究希望群集數量別超過文件數量的 1/5,且群. n. al. er. 集內文件數為 1 的情況越少越好,因此文件相似度門檻值為 0.1 的群集數量. Ch. i n U. v. 較符合預期結果,而 k 為 5 時的分群品質也較好,因此後續研究會使用此組 參數進行分群。. engchi. 在本次實驗中,可以明顯發現只要跟蝴蝶機或專利訴訟和解、獲勝有關 之新聞,都跟股價高漲有明顯相關;而跟三星有關和宏達電營銷能力不足之 新聞多半與股價跌深有關;另外新聞內包含漲停、跌停等字眼,也是新聞發 布日之股價的實際表現,然而,在實際的分類上,會因為文件相似度的計算 而使這些新聞偶有分到錯誤類別的情況發生,因此後續研究會使用這些關鍵 詞彙重新建立模型,以提高分類和預測模型的準確度。. 33.

(42) 3.2.7預測個股趨勢 本研究藉由將新聞文件經過分類分群處理後,達到以下四個目標:. 1. 將新聞分為上漲、持平與下跌三種類別,並依照分類結果計算實際 投資正確率。 2. 計算上漲與下跌類別內的群集與股價漲跌幅的相關程度,設定該群 集與股價相關的漲跌幅度。 3. 分析當新聞進入上漲與下跌類別內高漲跌幅的群集時,其預測股價. 政 治 大 分析上漲與下跌類別內高漲跌幅的重要群集 ,其交錯增長的時間點, 立 漲跌是否正確。. 4.. ‧. ‧ 國. 學. 股價是否發生轉折。. 我們預期藉由群集漲跌幅設定,建立出可預測未來股價漲跌走勢與轉折. sit. y. Nat. 點預測之模型,當未來一新聞文件加入時,透過此模型進行分析,我們可以. al. er. io. 知道該篇新聞是否會造成股價的漲跌,漲跌幅度為何,以及股價是否將發生. v. n. 轉折,藉以提供一個包含漲跌幅度、預測報酬率與明確操作時間點的投資方. Ch. engchi. i n U. 式之預測模型給投資人作為投資時的決策參考。. 34.

(43) 第四章. 研究結果. 本研究蒐集宏達電、台積電與鴻海等三間上市公司,自 2012 年 7 月至 2013 年 5 月共 731 篇的個股新聞與此期間內台灣證券交易所之交易資料作 為本研究之實驗資料。. 本章一共分為三個部分,第一部份會針對實驗資料作分類,先利用各上 市公司 2/3 的個股新聞作為訓練資料,1/3 的新聞作文測試資料,利用歷史 交易資料、技術分析指標與 kNN 演算法將新聞分為上漲、持平和下跌三大. 政 治 大. 類別,並以分類結果評估與投資報酬率準確度來驗證分類模型的可信度。. 立. ‧ 國. 學. 第二部份會利用第一部分的分類結果,將上漲與下跌類別內的新聞,再 使用 2-Way kNN 演算法進行分群,計算各群集內新聞發布後隔天的股價漲. ‧. 跌幅,並依此設定各群集之相關漲跌幅,並針對漲跌幅度較高之群集做測試,. sit. y. Nat. 測試資料為各上市公司 1/3 的個股新聞,計算當新聞進入漲跌幅較高之群集. n. al. er. io. 時的累積投資報酬率。. Ch. engchi. i n U. v. 第三部份一樣利用分群之結果,針對漲跌幅度較高之群集進行觀察,大 漲與大跌群集交錯增長的時間點,股價是否發生轉折,以及是否能獲得預期 的投資報酬率。. 35.

(44) 第一節 實驗一:新聞分類 第一部份的實驗中會將三間上市公司的新聞分為上漲、持平與下跌三個 類別,k 值設定為 5,訓練資料時,收盤價變動量取新聞發布日與前後兩日 共 5 日,漲跌門檻分別為 0.0195 與-0.0245,MA 的時間長度為 5 日,並採 用先行實驗抽取出的關鍵字來提高文件之分類能力,以下為各公司之分類結 果:. 1. 宏達國際電子股份有限公司(宏達電) : 表 4.1 為宏達電之 402 篇個股新聞分類結果,其中訓練資料 264 篇,測. 政 治 大. 試資料 138 篇。. 表 4.113 宏達電個股新聞之分類結果. 立. 上漲. 持平. 下跌. 上漲. 61. 4. 19. 84. 0.726. 0.787. 持平. 3. 8. 3. 14. 0.571. 0.533. 下跌. 7. 2. 31. 40. 0.775. 0.667. 總計. 71. 14. 53. 138. 0.859. 0.5. 0.585. y. sit er. io. al. (資料來源:本研究整理). F-measure. ‧. Nat. Precision. 總計 Recall. 學. ‧ 國. 預測類別 實際類別. n. v i n Ch 由上表中可以得知,宏達電個股新聞分類之整體準確率(Recall)為 0.726, engchi U. 其中對於上漲與下跌新聞的辨識能力皆超過七成,在實際操作時不論做多或 做空皆可做為參考依據,接著,我們透過分類結果,計算預測模型隔日實際 投資準確率,其結果如下:. 表 4.214 宏達電投資正確率 預測漲跌 上漲 下跌 實際漲跌 實際上漲. 43. 18. 實際下跌. 24. 34. 投資正確率. 0.623 0.641 (資料來源:本研究整理) 36.

(45) 預測上漲中含 2 篇實際持平新聞、預測下跌中含 1 篇實際持平新聞,整 體的投資準確率是 0.631,有將近六成的準確度,上漲與下跌的投資準確率 也都接近六成,代表投資人若是依照此預測結果進行投資,無論是做多或做 空,皆有近六成的機會能獲得超額報酬。. 2. 台灣積體電路製造股份有限公司(台積電): 表 4.3 為台積電之 138 篇個股新聞分類結果,其中訓練資料 90 篇,測試 資料 48 篇。 表 4.315 台積電個股新聞之分類結果 預測類別 實際類別. 上漲. 上漲. 18. 持平. 立2. 下跌. 持平. 下跌. 總計 Recall 治 政 2 8 28大0.643. F-measure 0.72. 9. 0.667. 0.706. 2. 0. 9. 11. 0.818. 0.621. 總計. 22. 8. 18. 48. Precision. 0.818. 0.75. 0.5. ‧. ‧ 國. 1. 學. 6. (資料來源:本研究整理). sit. y. Nat. 由上表中可以得知,台積電個股新聞分類之整體準確率(Recall)為 0.688,. io. n. al. er. 其中對於上漲與下跌新聞的辨識能力皆超過六成,雖然上漲的準確率僅達. Ch. i n U. v. 0.643,但精確率達到 0.818,再 F-Measure 上高過持平和下跌類別的預測表. engchi. 現,這點也反映著台積電從,接著,我們透過分類結果,計算預測模型隔日 實際投資正確率,其結果如下:. 表 4.416 台積電投資正確率 預測漲跌 實際漲跌. 上漲. 下跌. 實際上漲. 16. 11. 實際下跌. 5. 6. 投資正確率. 0.728. 0.333. (資料來源:本研究整理). 37.

(46) 實際計算結果中,實際上漲與下跌各有一篇新聞是持平結果,上漲的投 資正確率有 0.728,下跌的投資正確率低於 0.5,這個結果是起因於台積電在 期間內的整體股價幾乎完全呈現上漲趨勢,較無明顯下跌趨勢,因此本類模 型對於下跌預測的能力較遜色,也因此整體的投資準確率僅達到 0.578;但 若是投資人依照此分類模型的預測結果進行做多投資,將會有七成以上的高 獲勝率。. 3. 鴻海精密工業股份有限公司(鴻海) : 表 4.5 為鴻海之個股新聞分類結果,共計 191 篇,其中訓練資料 133 篇, 測試資料 58 篇。. 政 治 大. 表 4.517 鴻海個股新聞之分類結果. 立. 預測類別 實際類別 上漲. 11. 2. 7. 20. 0.55. 0.55. 持平. 4. 9. 6. 19. 0.474. 0.563. 下跌. 5. 2. 12. 19. 0.632. 0.546. 總計. 20. 13. 25. 58. 0.55. 0.692. 0.48. y. sit. Nat. Precision. 下跌 總計 Recall F-measure. ‧. ‧ 國. 持平. 學. 上漲. io. n. al. er. (資料來源:本研究整理). Ch. i n U. v. 由上表中可以得知,鴻海個股新聞分類之整體準確率(Recall)為 0.552,. engchi. 其中對於上漲與下跌新聞的辨識能力皆超過五成五,在實際操作時不論做多 或做空皆可做為參考依據,接著,我們透過分類結果,計算預測模型隔日實 際投資準確率,其結果如下:. 表 4.618 鴻海投資正確率 預測漲跌 實際漲跌. 上漲. 下跌. 實際上漲. 10. 6. 實際下跌. 6. 17. 投資正確率. 0.5. 0.68. (資料來源:本研究整理) 38.

(47) 由表 4.6 中可以發現,由於預測上漲中包含 4 篇現實股價持平之新聞, 而預測下跌中也包含 2 篇現實股價持平之新聞,整體的投資準確率是 0.6, 有六成的準確度,上漲與下跌的投資準確率也有五成以上,代表投資人若是 依照此預測結果進行投資,無論是做多或做空,皆有超越五成的機會能獲得 超額報酬。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 39. i n U. v.

(48) 第二節 實驗二:新聞分群 在新聞分類結束後,我們將上漲與下跌類別內的新聞利用 2-way kNN 演 算法做細部的分群,參數設定方面則依照前測實驗之結果,k 值為 5,文件 相似度門檻值設定為 0.1。. 4.2.1各公司之上漲與下跌類別內分群 1. 宏達國際電子股份有限公司(宏達電): 我們將宏達電之上漲類別利用 2-way kNN 演算法進行分群,表 4.7 為宏. 政 治 大. 達電之個股新聞的上漲類別分群結果:. 立. ‧ 國. 學. 表 4.719 宏達電上漲類別分群結果 群集. 隔日漲跌幅. 群集. 隔日漲跌幅. 1 2 3 4 5 6 7. 3.0% 3.5% 1.2% 1.4% 0.1% 3.5% 4.0%. 8 9 10 11 12 13 14. 5.5% 4.1% 3.4% 0% 1.3% 3.1% 3.2%. 15 16 17 18 19 20 21. 6.9% 6.9% -2.0% 1.5% 0.2% 4.1% 5.9%. n. Ch. engchi. y. sit. er. io. al. ‧. 隔日漲跌幅. Nat. 群集. i n U. v. (資料來源:本研究整理). 從上表分群結果中可發現 21 個群集中,有 19 個群集的隔日漲跌幅呈現 上漲趨勢,1 個群集呈現持平,另外有 1 個群集呈現下跌趨勢。而本研究從 21 個群集中,抽出漲幅前 1/3 高,共 8 個重要的群集,做投資正確率分析, 下表為分析結果:. 40.

(49) 表 4.820 宏達電重要上漲群集投資正確率 預測漲跌. 平均兩日累積. 上漲. 投資正確率. 實際上漲. 6. 0.667. 3.00%. 實際下跌. 3. 0.333. -2.67%. 實際漲跌. 投資報酬率. (資料來源:本研究整理). 上表的結果中,重要上漲群集中的新聞,實際造成上漲的正確率超過六 成,而實際上漲的平均兩日報酬率有 3%,表示只要依照此預測模型內,上. 政 治 大 報酬,獲得報酬的期望值為 1.11%。 立. 漲類別內的重要群集作為做多投資標準,有超越六成的機會能夠獲得超額的. ‧ 國. 學. 接著,我們將宏達電之下跌類別利用 2-way kNN 演算法進行分群,表. y. n. al. 群集 7 8 9 10 11 12. Ch. sit. io. 隔日漲跌幅 -2.3% -4.9% -0.7% 1.0% -2.3% -7.0%. 表 4.921 宏達電下跌類別分群結果 隔日漲跌幅 -7.0% -3.3% 0% -3.5% -3.8% -3.5%. 群集 13 14 15 16 17 18. er. Nat. 群集 1 2 3 4 5 6. ‧. 4.9 為宏達電之個股新聞的下跌類別分群結果:. n U engchi. iv. 隔日漲跌幅 -7.0% -6.9% 1.4% -4.8% -0.9% -1.1%. (資料來源:本研究整理) 從上表分群結果中可發現 18 個群集中,有 15 個群集的隔日漲跌幅呈現 下跌趨勢,1 個群集呈現持平,另外有 2 個群集呈現上漲趨勢。而本研究從 21 個群集中,抽出跌幅前 1/3 高,共 6 個重要的群集,做投資正確率分析, 下表為分析結果:. 41.

參考文獻

相關文件

About the evaluation of strategies, we mainly focus on the profitability aspects and use the daily transaction data of Taiwan's Weighted Index futures from 1999 to 2007 and the

第三十九條 術科測試應 檢人進入術科測試試場 時,應出示准考證、術 科測試通知單、身分證 明文件及自備工具接受 監評人員檢查,未規定

Additional Key Words and Phrases: Topic Hierarchy Generation, Text Segment, Hierarchical Clustering, Partitioning, Search-Result Snippet, Text Data

1900年, Bachelier以數學方法分析巴黎股票交易的價格變化,自

MASS::lda(Y~.,data) Linear discriminant analysis MASS::qda(Y~.,data) Quadratic Discriminant Analysis class::knn(X,X,Y,k,prob) k-Nearest Neighbour(X 為變數資料;Y 為分類)

運用 Zuvio IRS 與台日比較文化觀點於日本文化相關課程之教學研究 Applying Zuvio IRS and Perspective on Cultural comparison between Taiwan and Japan to Teaching

Lessons-learned file (LLF) is commonly adopted to retain previous knowledge and experiences for future use in many construction organizations.. Current practice in capturing LLF

Step 5: Receive the mining item list from control processor, then according to the mining item list and PFP-Tree’s method to exchange data to each CPs. Step 6: According the