第二章 文獻探討
第三節 情感分析
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
9
第三節 情感分析
2.3.1 情感分析之定義
伴隨網際網路盛行以及 Web 2.0 時代的開始,論壇、部落格、微博、Twitter、
Facebook 等社群媒體逐漸興起,使用者的腳色由原本被動的接收資訊演變成資 訊的製造者,甚至開始與新聞、論壇、Wikipedia 內的內容進行互動(Gloor, Krauss, Nann, Fischbach, & Schoder, 2009),這樣的演變造成大量的資料產生,其中也包 含了許多個人的情緒和意見,我們可以藉由情感分析(Sentiment Analysis)技術於 資料中找出像是情緒上的喜怒哀樂或是意見上的褒貶,不必藉由人工的方式讀完 大量的資料,就可以快速瞭解大眾對物品的評價或是新聞事件的看法。
情感分析又稱之為意見探勘(Opinion Mining),基本上在業界較多人稱之為 情感分析,而於學術界則是兩者都有學者在使用(Liu, 2012)。總體來說,情感分 析為結合自然語言處理、文字探勘以及資訊檢索等領域的研究(Cambria et al., 2013),目的在針對非結構化的資料像是新聞、評論、文章等,擷取其中的情緒、
評價與態度(Liu, Mobasher, & Nasraoui, 2011; Mishne, 2006)。
2.3.2 情感詞典
目前情感分析大多數應用於非結構化的文字處理,從文章的結構來看,主要 由句子和詞彙所構成,詞彙為構成字詞意義的最小單位,傳統的情感分析將帶有 情緒或是意見的詞彙區分成正負兩種極性,例如”自信”為帶有正向情緒的詞彙,
極性為正;”自卑”則是帶有反向情緒的詞彙,極性為負(Turney, 2002; Turney &
Littman, 2003)。所以詞彙也是能表達情緒和意見的最小的單位,由此得知,在情 感分析中擁有情緒或是意見的詞彙為重要的分析依據(Liu, 2012)。
根據上述論點,針對文章進行情感分析前,要找出帶有情緒或是意見的詞彙,
通常使用的是關鍵字偵測法(Keyword-based Detection Methods),主要為利用已建
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
10
立的情感辭典與文章進行比對,若找到相符合的詞彙,則根據情感辭典給予該詞 彙符合的情感極性(孫瑛澤, 陳建良, 劉峻杰, 劉昭麟, & 蘇豐文, 2010)。使用關 鍵字偵測法時,情感分析的成效取決於情感辭典的完善程度,目前有三種建構情 感辭典的方法(Feldman, 2013),茲說明如下:
(1) 手動方式建立:以人工去判斷該詞彙是否具有情緒或是意見成分,並且 手動判斷該詞彙之極性,準確度高但耗時費力。
(2) 詞典方式(Dictionary-based approaches)建立:事先建立一小部分具有情緒 的種子詞彙,再根據詞典(例如,WordNet)中種子詞彙的”同義詞”與”反義詞”進行 學習,若新進詞彙為種子詞彙的同義詞,則與種子詞彙標記的相同極性;若為反 義詞,則標記相反極性(Miller, Beckwith, Fellbaum, Gross, & Miller, 1990)。
(3) 語料庫方式(Corpus-based approaches)建立:藉由先建立一小部份具有情 緒的種子詞彙,並利用連接詞的概念來判斷在語料庫中的詞彙是否為具有相同極 性。例如”妹妹活潑又可愛”,"活潑”與”可愛”分別為形容詞,”又”為連接詞,假 設已知”活潑”為帶有正向情感的詞彙,藉由連接詞建立的關聯,即判斷”可愛”也 為正向情感的詞彙(Hatzivassiloglou & McKeown, 1997)。
針對情感詞典的建構,由於國外較早開始進行相關研究,外語詞彙部分較為 齊全,著名的有 GI(General Inquirer lexicon)、Sentiment lexicon、MPQA subjectivity lexicon、SentiWordNet 以及 Emotion lexicon 等情感詞典(Esuli & Sebastiani, 2006;
Hu & Liu, 2004; Mohammad & Turney, 2010; Stone, Dunphy, Smith, & Ogilvie, 1968;
Wilson, Wiebe, & Hoffmann, 2005),基於不同領域下相同詞彙可能會有情感的差 異,也有學者於財務領域方面建構專業詞彙的情感詞典(Loughran & McDonald, 2011)。至於中文情感詞典的部分,則有台灣大學自然語言處理實驗室所建立的 NTUSD 意見詞詞典以及知網的 HowNet-VSA 詞典(Ku, Lo, & Chen, 2007; Wu, CHARNG-RURNG TSAI, TZONG-HAN TSAIi, & YUNG-JEN HSU, 2013)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
11
2.3.3 情感分析與股價間之關聯
早在 2003 年,世新大學開始針對台灣股市的投資者進行普查,藉由衡量投 資人的主觀情緒,編制出台灣股票投資人情緒指數,並且探討情緒指數與股價指 數的相關性,研究指出兩者具有正相關(相關係數 0.57),一旦情緒上楊,股價指 數也會跟著上揚(郭敏華, 2009)。其他學者也針對融資比率、放空比率、基金折價 比率、市場成交量等情緒代理變數結合成間接情緒指標(Indirect Sentiment Index),
進而探討與股市市場的報酬程度(Huang, 2013)。
上述研究指出情緒與經濟市場具備了一定程度的關聯性,藉此在情感分析的 部分,除了瞭解大眾的情緒與意見外,也可以其他專業領域進行關聯性的研究,
探討情緒是否為造成影響的因素或是用於趨勢上的預測並提供決策用途(Liu, 2012),相關研究像是藉由 Twitter 中發言的情緒推斷股市的趨勢(Bollen, Mao, &
Zeng, 2011)、針對金融評論的情緒預測未來經濟走勢(Devitt & Ahmad, 2007)、分 析投資人於微網誌中的情緒與股價的關聯性(Bar-Haim, Dinur, Feldman, Fresko, &
Goldstein, 2011; Feldman, Rosenfeld, Bar-Haim, & Fresko, 2011)甚至新聞中的輿情 也被應用於交易策略上(Zhang & Skiena, 2010)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
12