• 沒有找到結果。

本研究利用 Spark 之 Mlib,word2vec 搜尋出有關於"股市"相關文章,可以 搜尋到有關之大量文章,然而,透過關鍵字詞的搜尋方式,仍約有 15%的文章 透過比較 LDA 以及 K-means,K-means 分群方法中,因文本數量遠大於議題詞 數量,造成 TFIDF 矩陣過於稀疏,而 LDA 比起過去學者使用的 K-means 的效果 更佳,其符合本研究之財經文本多主題的特性,模型建立結果不但議題詞分布 平均且群體中議題詞主題方向一致,其主題分類準確度更高達 88%,建議之後 之研究可以只針對 LDA 進行參數上比對調教之研究。

上漲或是下跌的可能性,透過 Precision、Recall、F-Measure 驗證其準確性,

發現其情緒指標預測股市漲跌機率其準確度高達 62%,較傳統使用指數來預測 其準確度高出 7%。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

59

2、 未來研究與建議

以下針對本研究不足之處,在未來可改進之部分的建議發展如下:

(1)透過 word2vec 過濾出股市文章是相當有效擷取出股市文章的方法,但是透 過該方法仍會過濾出不少與實際股市無關之文章,未來可以透過其他分析發 法交叉分析篩選其文章判斷之結果。

(2)透過 Spark 實作 LDA 以及 K-means 可以有效縮短其運算之時間,但是以目前 文章長度約為 831437 筆資料來看,以傳統的 python 或是 weka 分析工具所 做出來的時間差距性不會很小,未來需判斷其總文章之大小,再判斷是否需 要使用 Spark 工具實作演算法。

(3)雖透過 TFIDF 判斷高頻詞對 NTUSD 進行擴充,但現在仍無法透過自動化之方 式新增正向字詞或是負向字詞,目前是以人工判斷的方式,來避免少數之高 頻詞加入到相反的詞典,使得建立情感詞集的方法並非全電腦化,未來可以 針對此方法做更深入探討之研究。

(4)本研究利用交叉相關分析之特性來計算貼文出現與上海股市以及香港指數上 下跌之可能性,未來可以透過其他分析方式如自我相關函數來做分析比較。

(5)本研究資料為 2012 年大陸微博相關文本資料,運用情感分析來對大陸指數 趨勢進行預測,此方法可以嘗試使用不同種類的資料來進行分析,進而預測 不同地區之指數或是金融衍生性商品的走勢,例如;分析美股大陸股市之相 關性或是透過汽車相關文本資料來預測汽車業指數趨勢。

allocation.Journal of Machine Learning Research, 3:993–

1022,January 2003.

[ 2 ] DeLong, J. B., A. Shleifer, L. H. Summers, and R. J.

Waldmann, “Noise trader risk in financial markets,”Journal of Political Economy, 98,703-738, 1990

[ 3 ] Feldman, Techniques and applications for sentiment analysis, 2013

[ 4 ] Reality Check for the Chinese Microblog Space: A Random Sampling Approach,2012

[ 5 ] Johan Bollen1, Huina Mao1, Xiao-Jun Zeng. Twitter mood predicts the stock market. 2010

[ 6 ] Chaovalit and Zhou ,Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches,2005

[ 7 ] Ahmad, K., Oliveira, P. C. F. D., Manomaisupat, P., Casey, M.

& Taskaya, T. (2002). Description of events: An analysis of keywords and indexical names. Proceedings of the third international conference on language resources and evaluation, LREC 2002: Workshop on event modelling for multilingual document linking, 29-35

[ 8 ] Liu, “Sentiment Analysis and Opinion Mining,” Synthesis Lectures on Human Language Technologies, vol. 5, no. 1, pp. 1–

167, May 2012.

[ 9 ] Pang and Lee. Opinion mining and sentiment analysis, 2008 [ 10 ] Taboada, J. Brooke, M. Tofiloski, K. Voll, and M. Stede,

“Lexicon-based Methods for Sentiment Analysis,” Comput.

Linguist., vol. 37, no. 2, pp. 267–307, Jun. 2011.

[ 11 ] How Big Data Can Transform Your Understanding Of Your Customers

[ 12 ] Thorsten Joachims, SVM-Light Support Vector Machine, 2008 [ 13 ] Zheng and Y. Tian, “Chinese Web Text Classification System

Model Based on Naive Bayes,” in 2010 International Conference on

E-Product E-Service and E-Entertainment (ICEEE), pp. 1–4, 2010 [ 14 ] Support Vector Machines 簡介, 林宗勳,2015

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

62

[ 40 ] 黃純敏,應用 LDA 進行 Plurk 主題分類及使用者情緒分析,2014 [ 41 ] 黃運高,王妍,邱武松,向林泓,趙學良.基于 K-means 和 TF-IDF 的中文

藥名聚類分析, 2014

相關文件