第二章、 文獻探討
1、 情感分析
文本情感分析又稱為意見挖掘(Opinion Mining),是指用自然語言處理、
文本挖掘以及計算機語言學等方法來識別和提取原始文本中的主觀信息
(Cambria et al., 2013),在資訊檢索中是相當重要的議題情感分析的目的是 為了找出作者在某些話題上或者針對一個文本兩極的觀點的態度(Pang and Lee, 2008; Liu, 2012; Feldman, 2013)。這個態度或許是他或她的個人判斷 或是評估,也許是他當時的情感狀態,或是作者有意向的情感交流。
常見的情感分析所適用的範圍可分為為句子層次的推論,段落層次和全篇 文章層次的情緒偵測方法。因為微博的字數限制,本篇研究專注在句子層次的 情緒,其偵測方法,包括評論目標(target)、意見詞(opinion word)等。並且 探討一些使用文件分類相關技術於情緒分析的文獻,彼此最大的差異在於偵測
‧
研究透過分析情緒詞彙與修飾關係進行以句子為基礎的情緒偵測 (sentence-based emotion detection) 問題。
郭俊桔、張育蓉 (2013) 研究透過情緒分析探究社群網路上(如 Plurk)之 影響詞(affect words),例如"開心"、"難過"、"傷心"、"害怕"、等等,來影 響分類。Zhuang 等人針對電影評論進行情緒的分類。其研究使用 Stanford Parser 工具來解析句子結構並找出字與字之間修飾關係,進一步定義意見詞的 情緒傾向。而在中文工具方面則有中研院的 CKIP 斷詞工具、OpenSource 的 Jieba 斷詞工具進行前處理,Ex:去除高頻詞,去除停止詞,標記磁性等等。做 完上述步驟後將以 NTUSD 詞性字典做分類,例如:[很好]、[完美]是正向辭彙,
[差勁]、[低落]是負向辭彙,根據龔建彰的研究發現,建立中性詞集可以讓字 詞判別更加準確,除此之外,根據劉奕廷研究指出,NTUDSD 並無內建財經情緒 詞集,因此要擴充種子詞集,以滿足該詞集沒有財經方面的詞彙,如[上漲]、
[漲幅]等正向以及[下跌]、[跌幅]等負向財經詞彙。
詞彙關聯除了偵查影響詞以外,還附於詞彙一個和某項情緒的「關聯」
值。 游和正、黃挺豪、陳信希其研究透過詞彙關聯並以以不同領域之語料進
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
12
行分析,探討文章領域、詞彙極性、與情緒分類三者之間之關聯,繼而達到分 析不同領域、不同語言文章中詞彙極性之程度,以了解在不同的語料中,詞彙 極性變化的情形。
統計方法透過機器學習中的方法,比如潛在語意分析(latent semantic analysis),SVM(support vector machines)等一些更能量化情緒指標的方法 其目的探測出情感持有者(保持情緒狀態的那個人)和情感目標(讓情感持有 者產生情緒的實體)。要想挖掘在某語境下的意見,或是獲取被給予意見的某項 功能,需要使用到語法之間的關係。語法之間互相的關聯性經常需要通過深度 解析文本來獲取,蕭瑞祥、姜青山等人研究透過 SVM 將部落格文章做分類,能 快速準確地偵測部落格主觀評論的語句,藉此過濾部落格的廣告、新聞、轉錄 等文章,位讀者找出具部落格作者主觀評論性質的文章。
概念級的算法思路權衡了知識表達(knowledge representation)的元 素,比如知識本體 (ontologies)、語意網絡(semantic networks),因此這 種算法也可以探查到文字間比較微妙的情緒表達。例如,分析一些沒有明確表 達相關信息的概念,但是通過他們對於明確概念的不明顯聯繫來獲取所求信 息。李謦哲的研究以 2014 年的選舉為主題並利用 FFCA 模糊概念點陣特性,來 尋找相關子議題,並透過情緒分析處理來對主題底下的回應給予極性分類,能 快速的尋找選民對政治議題的情緒觀感,並找出不同議題間的關聯性。
‧
影響。Ahmad, Oliveira, Manomaisupat, Casey & Taskaya(2002)的研究指 出,影響財務市場消息面的常經由新聞、與企業年度報告等形式發佈。研究中 認為不論其資訊來源形式為何,其中新聞消息中所隱藏的情緒指標資訊,對制 定投資策略而言是相當重要的元素,Wuthrich, Cho, Leung, Permunetilleke, Sankaran, Zhang & Lam(1998)選定五個世界主要股市指數作為趨勢預測之標 的,有美國道瓊工業平均指數(Dow Jones Industrial Average)、香港恆生指 數(Hang Seng Index)、日本日經指數(Nikkie 225 INDEX)、新加坡海峽時報 指數(Singapore Strait Times Index)、倫敦金融時報指數(Financial Times 100 Index)等不同區域之國家股市;透過專業財經網站,在股市開盤前 蒐集大量且即時之財經新聞,並以數種文字探勘技術 (k-Nearest Neighbor、neural network)作情感分析工具,用以預測香港當日即將開盤的股價趨勢及 可能的收盤價格(closing price)。預測結果為下列三種,股價為上漲趨勢
(漲幅超過 0.5%)、下跌趨勢(跌幅超過 0.5%)或是持平(介於 0.5%~-0.5),研究結果證實平均準率(average accuracy)比隨機投資策略的效果要 好(46% > 33%)。該研究透過財經專家學者或投資分析師,訂出約 400 個與股