• 沒有找到結果。

第四章、 研究結果

3、 財經文本判斷結果

在判斷文本主題是否於"股市"資料的階段,首先會透過 Jieba 斷詞工具將每一 篇字詞數大於 8 的文章做斷詞,並篩選出有關於體詞(名詞)的字詞,之後將該 語料庫透過 word2vec 訓練,並篩選出與"股市"有關之前 20 個字詞

其部分 Word2vec,Spark 演算法如下

Step1:透過 jieba 將文章做斷詞,並且遺留下體詞。

Step2:將所有斷好的詞句放進 word2vec 做訓練 Step3:指定並且找出有關於’股市’的 20 個字詞。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

46

從此資料及可以看出,股市資訊佔總微博貼文的 0.004%,可見大多數人在發文 時,針對股市相關的議題並不是經常在發布。

(1)K-means

K-means 分群法是利用議題詞於每篇文章中的 TFIDF 來組成向量,並將每 篇貼文的議題詞向量化並建立起空間向量模型,並使用 Spark 中 Mlib library 的 Kemans 演算法進行分群,建立出模型.。

表 六 K-means 分群結果之議題詞表

群體 群體 1 群體 2 群體 3 群體 4

議題詞比例 24% 12% 31% 31%

議題詞數量 14 10 67 22

列出所有群體前 15 個議題詞中可以發現,有些群體只包含了少數的議題 詞,其分群結果相當不平均,部分主題模型所包含之一題詞過少,群體 1 和群 體 2 個只有 4%的議題詞,而群體 4 只有 3%的議題詞.雖可以透過分群結果發現 其文章集中於群體 3,而群體 3 的文章皆與股市有關有關,這也代表我們所選 的文章有偏向股市文章的趨勢,此外,透過 F-measure 來比較其分類效果,K-means 分類準確度雖高達 79%。但由於本研究希望個群體分配均勻,有利後面研 究之判斷,故之後不使用 K-means 作為文章分群的判別方式.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

48

品质 镜头 趋势 论坛 核电

产业 成长性

群體 4 市場資訊主題

市场 负债 数据 经验 金钱

股本 利率 政策 土地 货币

全球 人民币 住宅 协议 日 K

泡沫 能源 政府 陆股 线下

社会 宣布 经济 重点 理念

5 日 成长率 部门 建议 流程

提示 标准 状况

從表中可以看出雖然其體詞有部分共用相同的問題,比起上述 K-means 的 分群方法其分佈較為平均,群體 1 有 24%的體詞,群體二有 12%,群體 3 與群體 4 共有 31%,較無特別偏種單一群體之情形,此外我們可以透過下表之字詞分別 歸類不同主題模型給予特定主題,例如主題 1 提及 A 股即標註為上海股市主 題,主題 3 提及股民則標記投資者資訊主題,依序分別標記主題 2 及主題 4 為 公司表現主題以及市場資訊主題

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

50

經文本多主題的特性,且群體中的議題詞亦能歸納出該群體代表性主題,故 LDA 主題模型最能符合本研究所需之結果。

3. 情緒傾向標注結果

(1) 情緒指數計算與情緒傾向標注

透過第一階段建立完情感詞集後,即可透過比對情感詞集來計算情緒指 數,在依照情緒指數進行情緒傾向標注,根據結果發現,有 88%的文本被標注 情緒傾向,僅 12%的文本為無法判斷的中性情緒傾向,證實了本研究建立的情 感詞集確實有良好的情感傾向判斷效果。

(四) 情緒傾向標注實驗結果討論

從情緒傾向標注結果可以看到,仍有約 12%財經文本資料無法判斷正負情 感,本研究進一步了查看後,發現可能的原因是文本中存在單純數值描述性報 導,在財經文本中,有些貼文為單純對上海上市公司作其報表上數值的報告,

例如:「中國移動本月營收為 35 人民幣,其電信業務總營收比重為 90%, 其他 業務占總營收比重 10%」,這種文本其含有極少可以作情感判斷的述詞,因此造 成其被判斷為中性傾向文本。

再分別計算其 Precision、Recall、F-Measure 來比較,其結果如下表十二。

表 九 建立分類模型結果

上海大盤指數分類模型 情緒指數分類模型

支援向量機 SVM

Class Precision Recall F-Measure Precision Recall F-Measure 上漲 52.5% 55.2% 52.6% 54.5% 53% 52.6%

相關文件