• 沒有找到結果。

第四章、 研究結果

5、 視覺化分析結果

再分別計算其 Precision、Recall、F-Measure 來比較,其結果如下表十二。

表 九 建立分類模型結果

上海大盤指數分類模型 情緒指數分類模型

支援向量機 SVM

Class Precision Recall F-Measure Precision Recall F-Measure 上漲 52.5% 55.2% 52.6% 54.5% 53% 52.6%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

52

表 十 上海指數與不同文本之情緒指數日線圖

上海股市主題 公司表現主題

投資資訊主題 香港股市主題

由上表十九可以看出來,上海股市與公司表現主題文本之情緒指數日線具 有領先指標之特性,較能提早反應上海指數趨勢之變化,以下將作更進一步比 較與說明。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

53

 上海股市主題

圖 二十三 上海股市主題文本之情緒指數與上海指數指數平均日線

由上圖中綠色線為上海股價指數,黃色線為上海股市主題文本之情緒指 數,可以發現兩折線位於波峰與波谷趨勢轉折處,上海股市主題文本之情緒指 數折線較上海指數提前2 天反應(扣除例假日休市時間),本研究再進一步將領 先的情緒指數折線進行平行位移,與上海指數進行相關性的計算,計算出來的 相關係數為0.721574,具有高度正相關,故證明了上海股市主題文本之情緒指 數具有領先指標之特性,有助於提升分類模型之準確度。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

54

 公司表現主題

圖 二十四 股市資訊主題文本之情緒指數與上海股市指數平均日線

由上圖中綠色線為上海股價指數,黃色線為公司表現主題文本之情緒指 數,可以發現兩折線位於波峰與波谷趨勢轉折處,公司表現主題文本之情緒指 數折線較上海指數提前2~3 天反應(扣除例假日休市時間),本研究再進一步將 領先的情緒指數折線進行平行位移,與電子類股價指數進行相關性的計算,計 算出來的相關係數為0.68754,具有高度正相關,故證明了公司表現股市主題文 本之情緒指數具有領先指標之特性,有助於提升分類模型之準確度。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

55

 投資資訊主題

圖 二十五 投資資訊文本之情緒指數與上海股市指數平均日線

由上圖中綠色線為上海股價指數,黃色線為投資資訊主題文本之情緒指 數,可以發現兩折線位於波峰與波谷趨勢轉折的時間點幾乎一致,僅有一波谷 有落後的現象,意即雖然投資資訊主題文本之情緒指數轉折趨勢和時間點大多 與上海股價指數一致,但其並不具有領先指標之特性,故不適合本研究後續分 析應用。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

56

 市場股市主題

圖 二十六 香港股市資訊文本之情緒指數與上海股市指數平均日線

由上圖中綠色線為上海股價指數,黃色線為香港資訊主題文本之情緒指 數,可以發現兩折線位於波峰與波谷趨勢轉折的時間點幾乎一致,僅有一波谷 有落後的現象,意即雖然投資資訊主題文本之情緒指數轉折趨勢和時間點大多 與上海股價指數一致,但其並不具有領先指標之特性,故不適合本研究後續分 析應用。

本研究利用 Spark 之 Mlib,word2vec 搜尋出有關於"股市"相關文章,可以 搜尋到有關之大量文章,然而,透過關鍵字詞的搜尋方式,仍約有 15%的文章 透過比較 LDA 以及 K-means,K-means 分群方法中,因文本數量遠大於議題詞 數量,造成 TFIDF 矩陣過於稀疏,而 LDA 比起過去學者使用的 K-means 的效果 更佳,其符合本研究之財經文本多主題的特性,模型建立結果不但議題詞分布 平均且群體中議題詞主題方向一致,其主題分類準確度更高達 88%,建議之後 之研究可以只針對 LDA 進行參數上比對調教之研究。

相關文件