• 沒有找到結果。

第三章、 研究方法

4、 文本主題標註(Sentiment Orientation)

4.5 判斷文本主題

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

36

4.5 判斷文本主題

根據 LDA 以及 K-means 主題模型分類後,將每篇文本出現的議題詞給予一 個主題,例如:【港股表現欠佳,中港股票基金回報也見紅】,該文本體詞[港 股]、[股票]、[基金]均為股票主題之議題詞,故將該篇文標示為香港股票主 題。

圖 二十一: 文本主題判斷

5、 情緒指標標註

在此階段,為了要彌補 NTUSD 之詞集之不足,會先建立種子詞及並且擴 充,再把文本前處理階段篩選出來的述詞與情感詞即進行比對,之後透過該詞 典找除每個字詞的詞性,並給予情緒分數,最後在將文章中的每個字詞加總 後,再依每天收集之文章章數取平均,得到每天的情緒指標。

公司表現主題: 股票、公司 判斷主題

EX: [股票]、[公司]

LDA 主題模型 微博財經文本

公司表現主題

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

37

5.1 建立財經種子詞集

本研究利用台灣大學語言所開發的 NTUSD 作為種子詞集,NTUSD 內含 2810 個正極字詞、8276 個負極字詞,共 11086 個字詞

但根據過去研究(劉奕廷,2015)發現,NTUSD 的詞典中相當缺乏財經領域之 字詞,例如: 「看多」、「看空」、「壓盤」等,且許多在其他領域中不具有情感 極性存在之字詞,但財經領域中卻存在著正負極性,例如: 「震盪」,故將 2012 年 1 月 1 日至 2012 年 6 月 30 日之財經文本進行人工篩選並選取出財經擴 充詞集,建立含有財經領域字詞之情感詞集,詳細步驟如下

依據上海指數將文章分為正向負向兩類,分類方式是以每一天與前一天脂 指數相對比較之結果,並從正向文章中找出高頻率述詞的字詞,經過人工篩選 找出正極字詞,並依相同的方法並從負向文章中找出高頻率述詞的字詞,經過 人工篩選找出負極字詞。此外,還參照了游正和等人的研究利用已知類別之文 本訊息擴充專有字詞的方法,將所分析出來的正負極字詞對種子詞集進行擴 充。

< 0 → Negative Orientation

6、 分類模型建立與分類成效衡量(Classification)

6.1 監督式學習的分類演算法

在分類效果衡量上,本研究使用 Precision、Recall 和 F measure,並使 用十折交叉驗證(10 Fold Cross Validation)來評估分類的效能。Precision、

Recall 和 F measure 常在資訊檢索(Information Retrieval)和資料探勘(Data Mining)這兩個領域中來評估效能,其中 Precision 為分類的精確率,即被分類 為正面情感,而實際類別是正面情感的百分比。Recall 為分類的判全率,即實 際類別為正面情感,而被正確分類為正面的百分比。F measure 則為整合性的

上漲 True Rising(TR) False Falling(FF) 下跌 False Rising (FR) True Falling (TF)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

TR (True Rising):實際值是「上漲」,而分類結果是「上漲」

TF (True Falling):實際值是「下跌」,而分類結果是「下跌」

FR (False Rising):實際值是「下跌」,而分類結果是「上漲」

FF (False Falling):實際值是「上漲」,而分類結果是「負面」

Precision、Recall 和 F measure 計算公式如下:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑅 𝑇𝑅 + 𝐹𝑅 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑅

𝑇𝑅 + 𝐹𝐹 𝐹 = 2 ×(𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

7、 視覺化分析

在將微博文章標記情感類別和並且驗證分類模型之後,即可建立不同文章 對應到不同情感傾向之議題屬性列聯表。透過對應分析可以將列聯表的行列資 料結構與關係,用二維的圖形化方式呈現,並進一步分析主體(文章)和各個分 析屬性(不同情感傾向之議題)的關係。因此使用對應分析可達到對文章之情感 分析的整理報告。

圖二十二為對應分析結果標注主題與計算完情緒指數之後,即可產生情緒 指數對應不同主題的列聯表,透過 PowerBI 工具將表格數據以圓餅圖、折線圖 等圖型化的方式呈現,產生財經文本之情感分析的綜合視覺化彙整報告,利於 投資者作投資決策之參考

圖二十二:情緒指數與上海指數比較圖

過 Spark 中 word2vec 搜尋大陸微博資料集所擷取實驗資料;第二節透過 Spark 的 LDA 以及 K-means 來做文章的主題分類評論類別的標注實驗結果;第三節將 呈現視覺化分析的結果;第四節描述建立分類模型以及驗證其準確性。

1、 實驗資料擷取結果

本研究使用香港大學新聞與傳媒研究中心的大陸新浪微博(MicroBlog) 2012 年的資料集,本資料集是在 2012 年 1 月到 12 月所收集到的 52 份檔案,

每一個檔案解壓縮後約 1GB,一共約為 50GB。資料統計如下所示 資料統計

• Number of weibo messages: 226841122

• Number of deleted messages: 10865955

• Number of censored ('Permission Denied') messages: 86083

• Number of unique weibo users: 14387628

以下是本研究最主要所使用之資料集欄位名稱所示,如下表所示:

表二:實驗資料欄位名稱

mid uid text created_a

t

mZwlOvQR2t uJWAISYYT 不管是几天还是几个月涨到 10%就卖出,让将本利存入银行

买银行短期理财产品,年化收益能达到 12%,第二年将当年 12:19:02

m9IpofHNtO uRUKGQ3X 买股票之前要先问自己”它有没有可能跌一半?”,这句我

最同意。去年年初时,好多人乐观到完全不考虑这样的可能 性,现在应该也学到了教训吧。我认为接下去要问的是”假 如是好公司,我能否承受这样的跌幅?”,”跌的多时,我 还会不会有子弹去加仓?在什么位置加?”,祝大家今年有 斩获!

2012/1/2 20:51

mvI9l6FI8G uKB5URRJB 吾股丰登 1 号共募了 4500 万,11 日 //@ukn: 好歌配好图

~行情快点好起来吧~股民伤不起收视率也伤不起~

2012/1/6 13:11 去研究方法移除低於文件頻率(Document Frequency, DF) 20 的候選議題字 詞,從 2370 個候選議題詞中選出個重要的熱門議題詞,再透過判斷每天股市的

Spark 實作了深度學習以及兩種不同的主題模型,分別是 Word2Vec、K-means 以及 LDA 主題模型,透過 Word2vec 搜尋股市文章,並且比較並且找出主題模型 效果最佳者,以下說明個別模型之判斷結果。

在判斷文本主題是否於"股市"資料的階段,首先會透過 Jieba 斷詞工具將每一 篇字詞數大於 8 的文章做斷詞,並篩選出有關於體詞(名詞)的字詞,之後將該 語料庫透過 word2vec 訓練,並篩選出與"股市"有關之前 20 個字詞

其部分 Word2vec,Spark 演算法如下

Step1:透過 jieba 將文章做斷詞,並且遺留下體詞。

Step2:將所有斷好的詞句放進 word2vec 做訓練 Step3:指定並且找出有關於’股市’的 20 個字詞。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

46

從此資料及可以看出,股市資訊佔總微博貼文的 0.004%,可見大多數人在發文 時,針對股市相關的議題並不是經常在發布。

(1)K-means

K-means 分群法是利用議題詞於每篇文章中的 TFIDF 來組成向量,並將每 篇貼文的議題詞向量化並建立起空間向量模型,並使用 Spark 中 Mlib library 的 Kemans 演算法進行分群,建立出模型.。

表 六 K-means 分群結果之議題詞表

群體 群體 1 群體 2 群體 3 群體 4

議題詞比例 24% 12% 31% 31%

議題詞數量 14 10 67 22

列出所有群體前 15 個議題詞中可以發現,有些群體只包含了少數的議題 詞,其分群結果相當不平均,部分主題模型所包含之一題詞過少,群體 1 和群 體 2 個只有 4%的議題詞,而群體 4 只有 3%的議題詞.雖可以透過分群結果發現 其文章集中於群體 3,而群體 3 的文章皆與股市有關有關,這也代表我們所選 的文章有偏向股市文章的趨勢,此外,透過 F-measure 來比較其分類效果,K-means 分類準確度雖高達 79%。但由於本研究希望個群體分配均勻,有利後面研 究之判斷,故之後不使用 K-means 作為文章分群的判別方式.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

48

品质 镜头 趋势 论坛 核电

产业 成长性

群體 4 市場資訊主題

市场 负债 数据 经验 金钱

股本 利率 政策 土地 货币

全球 人民币 住宅 协议 日 K

泡沫 能源 政府 陆股 线下

社会 宣布 经济 重点 理念

5 日 成长率 部门 建议 流程

提示 标准 状况

從表中可以看出雖然其體詞有部分共用相同的問題,比起上述 K-means 的 分群方法其分佈較為平均,群體 1 有 24%的體詞,群體二有 12%,群體 3 與群體 4 共有 31%,較無特別偏種單一群體之情形,此外我們可以透過下表之字詞分別 歸類不同主題模型給予特定主題,例如主題 1 提及 A 股即標註為上海股市主 題,主題 3 提及股民則標記投資者資訊主題,依序分別標記主題 2 及主題 4 為 公司表現主題以及市場資訊主題

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

50

經文本多主題的特性,且群體中的議題詞亦能歸納出該群體代表性主題,故 LDA 主題模型最能符合本研究所需之結果。

3. 情緒傾向標注結果

(1) 情緒指數計算與情緒傾向標注

透過第一階段建立完情感詞集後,即可透過比對情感詞集來計算情緒指 數,在依照情緒指數進行情緒傾向標注,根據結果發現,有 88%的文本被標注 情緒傾向,僅 12%的文本為無法判斷的中性情緒傾向,證實了本研究建立的情 感詞集確實有良好的情感傾向判斷效果。

(四) 情緒傾向標注實驗結果討論

從情緒傾向標注結果可以看到,仍有約 12%財經文本資料無法判斷正負情 感,本研究進一步了查看後,發現可能的原因是文本中存在單純數值描述性報 導,在財經文本中,有些貼文為單純對上海上市公司作其報表上數值的報告,

例如:「中國移動本月營收為 35 人民幣,其電信業務總營收比重為 90%, 其他 業務占總營收比重 10%」,這種文本其含有極少可以作情感判斷的述詞,因此造 成其被判斷為中性傾向文本。

再分別計算其 Precision、Recall、F-Measure 來比較,其結果如下表十二。

表 九 建立分類模型結果

上海大盤指數分類模型 情緒指數分類模型

支援向量機 SVM

Class Precision Recall F-Measure Precision Recall F-Measure 上漲 52.5% 55.2% 52.6% 54.5% 53% 52.6%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

52

表 十 上海指數與不同文本之情緒指數日線圖

上海股市主題 公司表現主題

投資資訊主題 香港股市主題

由上表十九可以看出來,上海股市與公司表現主題文本之情緒指數日線具 有領先指標之特性,較能提早反應上海指數趨勢之變化,以下將作更進一步比 較與說明。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

53

 上海股市主題

圖 二十三 上海股市主題文本之情緒指數與上海指數指數平均日線

由上圖中綠色線為上海股價指數,黃色線為上海股市主題文本之情緒指 數,可以發現兩折線位於波峰與波谷趨勢轉折處,上海股市主題文本之情緒指 數折線較上海指數提前2 天反應(扣除例假日休市時間),本研究再進一步將領 先的情緒指數折線進行平行位移,與上海指數進行相關性的計算,計算出來的 相關係數為0.721574,具有高度正相關,故證明了上海股市主題文本之情緒指 數具有領先指標之特性,有助於提升分類模型之準確度。

相關文件