• 沒有找到結果。

第五章 結論與未來展望

5.2 未來研究方向與建議

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

66

1. 有效的將新聞事件分門別類,方便觀察新聞事件來龍去脈。

2. 了解新聞事件的意見悲觀與樂觀傾向。

3. 觀察出負面事件的高峰持續週期。

4. 觀察新聞事件群集的此消彼漲以及意見傾向,了解新聞輿情趨勢走向,提出 一種更即時、省資源的洞察民情方式。

5.2 未來研究方向與建議

在資料科學的時代中,資料的大量性可以產生出全新的價值。本研究利用新 聞輿情來反映真實社會中的民情民意,提出一種觀察社會氣候的方式。但本研究 仍然有許多限制並提出以下幾點供未來研究之參考:

1. 研究資料來源

本研究的資料來源中央社政治新聞上,不論是正向的詞彙或是文件群集,都 比負向的多,我們可以得到在中央新聞社的政治類新聞其輿情較偏向正面,至於 是不是所有的媒體或是類別的新聞輿情都偏向正面,我們則不可得知,需要多收 集不同媒體與不同新聞類別,分別測試過後才能去分析。

此外,可以經由不同新聞媒體來源,去探討同一事件是否在不同媒體之間有 著不同的輿情,進而去討論不同新聞媒體的立場。

進一步可以收集不同社群網站、部落格等其他意見訊息,相信能夠更直接反 應出社會民眾本身的真實感受。

2. 事件偵測追蹤演算法

從結果的事件群集中,仍有單一事件群集中包含著不同的事件,或者是同個 事件被分到不同群集中之情況發生。最主要的原因在於事件偵測與追蹤時的演算 法。本研究基本上是用字詞的特徵值進行文件與文件的相似度計算,也就是利用 文字之間去比對文件相似度,其缺點是會忽略了文件中句子之間與整體內容的意

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

67

涵,造成在文件分群分類後事件內容不同或錯誤的情況。如何改善演算法去提升 新聞事件群集品質是值得加以探討的問題。

3. 巨量資料運算環境

本研究採用單一台桌上型電腦進行運算,擷取將近一年時間區間的 14,729 篇單一新聞媒體的政治類新聞文件,在進行研究設計中的資料前處理模組以及新 聞偵測與追蹤模組,花費的時間已經不可小覷。在未來如果需要擴充更長時間區 間的資料或更多家媒體的新聞來源,建議需要建立並執行在巨量資料下的運算環 境,來達到執行的即時性以及有效性。

Allan, J. (2002). Topic detection and tracking: event-based information organization (Vol. 12): Springer.

Allan, J., Carbonell, J. G., Doddington, G., Yamron, J., & Yang, Y. (1998). Topic detection and tracking pilot study final report.

Allan, J., Papka, R., & Lavrenko, V. (1998). On-line new event detection and tracking.

Paper presented at the Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, Melbourne, Australia.

Asur, S., & Huberman, B. A. (2010). Predicting the future with social media. Paper presented at the Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on.

Collett, S. (2011). Why Big Data is a big deal. ComputerWorld.

Dave, K., Lawrence, S., & Pennock, D. M. (2003). Mining the peanut gallery:

opinion extraction and semantic classification of product reviews. Paper presented at the Proceedings of the 12th international conference on World Wide Web, Budapest, Hungary.

Fan, W., & Bifet, A. (2013). Mining big data: current status, and forecast to the future.

ACM SIGKDD Explorations Newsletter, 14(2), 1-5.

Feldman, R. (2013). Techniques and applications for sentiment analysis. Commun.

ACM, 56(4), 82-89. doi: 10.1145/2436256.2436274

Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., & Brilliant, L. (2009). Detecting influenza epidemics using search engine query data.

Nature, 457(7232), 1012-1014.

Hatzivassiloglou, V., & McKeown, K. R. (1997). Predicting the semantic orientation of adjectives. Paper presented at the Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics.

Hu, M., & Liu, B. (2004). Mining and summarizing customer reviews. Paper presented at the Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining.

Jones, M. T. (2013). Data science and open source. from

http://www.ibm.com/developerworks/opensource/library/os-datascience/os-dat ascience-pdf.pdf

Kim, K.-j., & Han, I. (2000). Genetic algorithms approach to feature discretization in

artificial neural networks for the prediction of stock price index. Expert systems with applications, 19(2), 125-132.

Kim, S.-M., & Hovy, E. H. (2007). Crystal: Analyzing Predictive Opinions on the Web. Paper presented at the EMNLP-CoNLL.

Ku, L.-W. (2000). A study on the multilingual topic detection of news articles. (Master Dissertation), National Taiwan University Department of Computer Science and Information Engineering.

Ku, L. W., & Chen, H. H. (2007). Mining opinions from the Web: Beyond relevance retrieval. Journal of the American Society for Information Science and Technology, 58(12), 1838-1850.

Ku, L. W., Ho, H. W., & Chen, H. H. (2009). Opinion mining and relationship discovery using CopeOpi opinion analysis system. Journal of the American Society for Information Science and Technology, 60(7), 1486-1503.

Leinweber, D. J. (2007). Stupid data miner tricks: overfitting the S&P 500. The Journal of Investing, 16(1), 15-22.

Li, N., & Wu, D. D. (2010). Using text mining and sentiment analysis for online forums hotspot detection and forecast. Decision Support Systems, 48(2), 354-368.

Liu, B. (2012). Sentiment Analysis and Opinion Mining: Morgan & Claypool Publishers.

McGlohon, M., Glance, N. S., & Reiter, Z. (2010). Star Quality: Aggregating Reviews to Rank Products and Merchants. Paper presented at the ICWSM.

Morinaga, S., Yamanishi, K., Tateishi, K., & Fukushima, T. (2002). Mining product reputations on the Web. Paper presented at the Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, Edmonton, Alberta, Canada.

Nasukawa, T., & Yi, J. (2003). Sentiment analysis: capturing favorability using natural language processing. Paper presented at the Proceedings of the 2nd international conference on Knowledge capture, Sanibel Island, FL, USA.

O'Connor, B., Balasubramanyan, R., Routledge, B. R., & Smith, N. A. (2010). From tweets to polls: Linking text sentiment to public opinion time series. ICWSM, 11, 122-129.

Taleb, N. (2012). Anti-fragile: How to Live in a World We Don't Understand: Allen Lane.

Turney, P. D. (2002). Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. Paper presented at the Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,

Philadelphia, Pennsylvania.

Wiebe, J., Wilson, T., Bruce, R., Bell, M., & Martin, M. (2004). Learning subjective language. Computational linguistics, 30(3), 277-308.

Wiebe, J. M. (1994). Tracking point of view in narrative. Comput. Linguist., 20(2), 233-287.

Yang, Y., Ault, T., Pierce, T., & Lattimer, C. W. (2000). Improving text categorization methods for event tracking. Paper presented at the Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, Athens, Greece.

Yessenov, K., & Misailovic, S. (2009). Sentiment analysis of movie review comments.

Methodology, 1-17.

Zhang, W., & Skiena, S. (2010). Trading Strategies to Exploit Blog and News Sentiment. Paper presented at the ICWSM.

呂紹玉. (2013). 為什麼 NAVER 砸 3 億買台灣團隊 Gogolook?《TO》專訪創 辦人郭建甫談 Gogolook 的專注與優勢. from

http://techorange.com/2013/12/10/naver-purchased-taiwans-startup-gogolook/

李啟菁. (2010). 中文部落格文章之意見分析. (碩士論文), 國立台北科技大學.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

73

附錄二 否定辭庫

沒 沒有 不 不能 不必

無法 未省 甭 何必 未常

豈 何須 不如 未曾 毫不

無庸 不成 未嘗 終不成 白

不妨 休 莫 白白 不省

別 無須 瞎 不復 決不

絕不 徒 不曾 靡 徒然

勿 何曾 虛 勿復 不用

空 毋 沒得 不要 乾

毋庸 沒曾 無 枉 毋須

並不 無需 未 非 無須乎

未有 N/A N/A N/A N/A

相關文件