• 沒有找到結果。

定,而個人投資者多數為雜訊交易者(noise trader),亦即以任何聽到的訊息 作為買賣股票的依據,股市交易人以道聽途說的資訊作為投資的參考,並非是

知名媒體 Thomson Reuters 尋求 Lexalytics 合作開發市場。其中,

Lexalytics 提供語意平台,Thomson Reuters 則根據金融用戶具體之業務領域 與應用進行開發,可擷取約 4000 家商業新聞來源,包括電子報、部落格、新聞

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

圖二 BigData 5V 涵蓋要素

現在有許多的方法來預測股票市場的漲跌,從以前的技術分析、價值分 析,到近年來的程式高頻交易,這些方法最終的目的都是想從中分析出所研究 的股票是否該值得投資,目前隨著網際網路的興起,導致了影響股市漲跌的因 素更加錯綜複雜,大部分的投資者都是透過股票指數或是該公司所提供之財務 報表來做預測與分析,然而這樣的分析方式沒有關注到其中最重要的一環,也 就是消息面的問題,近年來,隨著知識,技術知識的傳遞以及電腦計算能力增 加,使用電腦來預測分析股市的參考價值已經逐漸受到重視,本研究將透過使 用者對於股市正負面詞的權重高低來評斷市場狀況。

美國佩斯大學的博士生亞瑟•奧康納(Arthur O’Connor),追踪了標普指 數中的公司在社交媒體上的受歡迎程度,比較它們的股價。他發現 Facebook 上 的粉絲數、Twitter 上的聽眾數和 Youtude 上的觀看人數,都和股價密切相 關。品牌的受歡迎程度,還能預測股價在 10 天、30 天之後的上漲情況。可見 其社群網路及巨量資料,加劇了網路文本資訊對於大眾情緒影響程度。

過去常用之情緒分類方法,主要可以分成非監督式學習法(Unsupervised Learning) 與監督式學習法(Supervised Learning)兩類。Chaovalit and Zhou(2005)比較這兩類方法,發現其監督式學習法雖具有較高的準確率,但需 花費大量時間對標記完成之語料進行訓練;而非監督式學習法的效能則仰賴其所 參照的詞性標記程式(POS tagger)。該實驗結果顯示後者準確率不及監督式學 習法,卻具有即時性(Real-Time)的優勢。本研究將會針對社群網路的財經文本

文本情感分析又稱為意見挖掘(Opinion Mining),是指用自然語言處理、

文本挖掘以及計算機語言學等方法來識別和提取原始文本中的主觀信息

(Cambria et al., 2013),在資訊檢索中是相當重要的議題情感分析的目的是 為了找出作者在某些話題上或者針對一個文本兩極的觀點的態度(Pang and Lee, 2008; Liu, 2012; Feldman, 2013)。這個態度或許是他或她的個人判斷 或是評估,也許是他當時的情感狀態,或是作者有意向的情感交流。

常見的情感分析所適用的範圍可分為為句子層次的推論,段落層次和全篇 文章層次的情緒偵測方法。因為微博的字數限制,本篇研究專注在句子層次的 情緒,其偵測方法,包括評論目標(target)、意見詞(opinion word)等。並且 探討一些使用文件分類相關技術於情緒分析的文獻,彼此最大的差異在於偵測

相關文件