財經文本判斷結果 - 研究結果 - 股市趨勢預測之研究 -財經評論文本情感分析

第四章、研究結果

3、財經文本判斷結果

在判斷文本主題是否於"股市"資料的階段，首先會透過 Jieba 斷詞工具將每一篇字詞數大於 8 的文章做斷詞，並篩選出有關於體詞(名詞)的字詞，之後將該語料庫透過 word2vec 訓練，並篩選出與"股市"有關之前 20 個字詞

其部分 Word2vec，Spark 演算法如下

Step1:透過 jieba 將文章做斷詞，並且遺留下體詞。

Step2:將所有斷好的詞句放進 word2vec 做訓練 Step3:指定並且找出有關於’股市’的 20 個字詞。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

從此資料及可以看出，股市資訊佔總微博貼文的 0.004%，可見大多數人在發文時，針對股市相關的議題並不是經常在發布。

(1)K-means

K-means 分群法是利用議題詞於每篇文章中的 TFIDF 來組成向量，並將每篇貼文的議題詞向量化並建立起空間向量模型，並使用 Spark 中 Mlib library 的 Kemans 演算法進行分群，建立出模型.。

表六 K-means 分群結果之議題詞表

群體群體 1 群體 2 群體 3 群體 4

議題詞比例 24% 12% 31% 31%

議題詞數量 14 10 67 22

列出所有群體前 15 個議題詞中可以發現，有些群體只包含了少數的議題詞，其分群結果相當不平均，部分主題模型所包含之一題詞過少，群體 1 和群體 2 個只有 4%的議題詞，而群體 4 只有 3%的議題詞．雖可以透過分群結果發現其文章集中於群體 3，而群體 3 的文章皆與股市有關有關，這也代表我們所選的文章有偏向股市文章的趨勢，此外，透過 F-measure 來比較其分類效果，K-means 分類準確度雖高達 79%。但由於本研究希望個群體分配均勻，有利後面研究之判斷，故之後不使用 K-means 作為文章分群的判別方式．

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

品质镜头趋势论坛核电

产业成长性

群體 4 市場資訊主題

市场负债数据经验金钱

股本利率政策土地货币

全球人民币住宅协议日 K

泡沫能源政府陆股线下

社会宣布经济重点理念

5 日成长率部门建议流程

提示标准状况

從表中可以看出雖然其體詞有部分共用相同的問題，比起上述 K-means 的分群方法其分佈較為平均，群體 1 有 24%的體詞，群體二有 12%，群體 3 與群體 4 共有 31%，較無特別偏種單一群體之情形，此外我們可以透過下表之字詞分別歸類不同主題模型給予特定主題，例如主題 1 提及 A 股即標註為上海股市主題，主題 3 提及股民則標記投資者資訊主題，依序分別標記主題 2 及主題 4 為公司表現主題以及市場資訊主題

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

經文本多主題的特性，且群體中的議題詞亦能歸納出該群體代表性主題，故 LDA 主題模型最能符合本研究所需之結果。

3. 情緒傾向標注結果

(1) 情緒指數計算與情緒傾向標注

透過第一階段建立完情感詞集後，即可透過比對情感詞集來計算情緒指數，在依照情緒指數進行情緒傾向標注，根據結果發現，有 88%的文本被標注情緒傾向，僅 12%的文本為無法判斷的中性情緒傾向，證實了本研究建立的情感詞集確實有良好的情感傾向判斷效果。

(四) 情緒傾向標注實驗結果討論

從情緒傾向標注結果可以看到，仍有約 12%財經文本資料無法判斷正負情感，本研究進一步了查看後，發現可能的原因是文本中存在單純數值描述性報導，在財經文本中，有些貼文為單純對上海上市公司作其報表上數值的報告，

例如：「中國移動本月營收為 35 人民幣，其電信業務總營收比重為 90%，其他業務占總營收比重 10%」，這種文本其含有極少可以作情感判斷的述詞，因此造成其被判斷為中性傾向文本。

‧

再分別計算其 Precision、Recall、F-Measure 來比較，其結果如下表十二。

表九建立分類模型結果

上海大盤指數分類模型情緒指數分類模型

支援向量機 SVM

Class Precision Recall F-Measure Precision Recall F-Measure 上漲 52.5% 55.2% 52.6% 54.5% 53% 52.6%

在文檔中股市趨勢預測之研究 -財經評論文本情感分析 - 政大學術集成 (頁 45-51)

財經文本判斷結果

第四章、 研究結果

3、 財經文本判斷結果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

(1)K-means

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第四章、研究結果

3、財經文本判斷結果

立政治大學

立政治大學

立政治大學