訓練模型(情緒分析)

第四章、實驗設計與結果評估

4.1 文本情緒分析

4.1.4 訓練模型(情緒分析)

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

預警情緒字彙，用來擴增系統的情緒字典。

4.1.3 文本新聞向量化(詞袋模型 bag of words)

Bag-of-words model (BoW model) 最早出現在自然語言處理（Natural Language Processing）和信息檢索（Information Retrieval）領域。該模型忽略掉文本的語法和語序等要素，將其僅僅看作是若干個詞彙的集合，文本中每個單詞的出現都是獨立的，而在詞袋模型統計每個詞在文本出現的次數也就是詞頻 (term frequency，簡稱 TF)，每篇文章以詞頻(TF)表示將其向量化，然而有些詞彙如:「的」、「你」、「我們」，在文字分析的過程中並沒有代表特別之涵義卻出現非常多次造成詞頻較大使拖慢文字分析的效率，於是現有許多研究採用 TF 結合逆向文件頻率 IDF （Inverse Document Frequency）的方式將文章向量化。

逆向文件頻率（inverse document frequency，IDF）為一個衡量分析一個詞在眾多文件集的重要程度之方式，某一特定詞語的 IDF，可以由總文件數目除以包含該詞語之出現文件的數目，再將得到的商取對數得到，也就是說該詞在文件集中出現的數目越少，其 IDF 就越大，也代表著該詞在這文件集中蘊含越多的資訊越顯重要。

TF-IDF 就是以該詞的 TF(term frequency)值與 IDF（Inverse Document Frequency）值相乘，得到對文本料集中相對重要的詞彙，本研究利用 python 的 TfidfVectorizer 模組以 TF-IDF 的方式將文章進行向量化，以便後續的文本情緒分析。

4.1.4 訓練模型(情緒分析)

在模型的訓練部分，本研究先人工標註 2016 年隨機挑選 Cmoney 共 750 篇新聞的情緒正面或是負面當作訓練樣本，並標註 2016 年一月的 500 篇新聞為測試樣本，觀察三種演算法的準確率比較，利用 jieba 斷詞後將訓練樣本的文本資料

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

用 TF-IDF 的方式進行向量化，將向量化後的文本資料與人工標註好的標籤一併丟入三種分類演算法(KNN、Naive Bayes)分類器訓練模型。

下圖 4.2 為上市上櫃公司各年度的相關新聞數平均，由圖可知在 2015 年的分析之新聞量較少，而在 2017 年的新聞量最多，每家公司平均都有 750 則以上的新聞。

圖 4.2 公司各年度相關新聞數平均

而下圖 4.3 為三種分類器(KNN、Naive Bayes、SVM)所分類的平均正向新聞數結果，以分類結果得知在 2017 年的正向新聞數較多之後逐年遞減最低點為 2015 年平均每家公司只有 300 多則的正向新聞，而在分類器演算法的比較方面由圖 4.3 可知 NB(Naive Bayes)的分類方式將較多的新聞歸入正向新聞的情緒，而相對的，KNN 之分類器將較少的新聞歸類為情緒正向之新聞。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.3 平均正向新聞數

下圖 4.4 為三種分類器(KNN、Naive Bayes、SVM)所分類的平均負向新聞數結果，在分類器演算法的部分，KNN 與 SVM 兩種演算法分類的負向新聞數結果與趨勢十分相近，NB(Naive Bayes)相對將新聞歸類為負向情緒的數量遠比其他兩類演算法少很多。

而值得一提的是，NB(Naive Bayes)在將新聞分類為正向新聞的數量最多，分類為負向新聞的數量卻最少，而 KNN 演算法卻是相反的結果，正向新聞的數量最少，負向新聞的數量卻最多，而 SVM(支援向量機)的分類演算法不管是歸類為正向或是負向情緒的新聞數量都是相對來說較為穩定的。。

圖 4.4 平均負向新聞數

在總體的分類結果可以發現，在 CMoney2017 至 2015 的新聞之中，正向新聞數量是多於負向新聞數量的，也就是說一般的財經新聞多為報導正向的情緒居多，負向情緒相對比較少揭露。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中結合文字探勘與財務指標建置財務預警模型之研究 - 政大學術集成 (頁 38-41)

第四章 、 實驗設計與結果評估

4.1 文本情緒分析

4.1.4 訓練模型(情緒分析)

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章、實驗設計與結果評估

立政治大學

立政治大學

立政治大學

立政治大學