• 沒有找到結果。

第四章 、 實驗設計與結果評估

4.1 文本情緒分析

4.1.4 訓練模型(情緒分析)

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

預警情緒字彙,用來擴增系統的情緒字典。

4.1.3 文本新聞向量化(詞袋模型 bag of words)

Bag-of-words model (BoW model) 最早出現在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領域。該模型忽 略掉文本的語法和語序等要素,將其僅僅看作是若干個詞彙的集合,文本中每個 單詞的出現都是獨立的,而在詞袋模型統計每個詞在文本出現的次數也就是詞頻 (term frequency,簡稱 TF),每篇文章以詞頻(TF)表示將其向量化,然而有些 詞彙如:「的」、「你」、「我們」,在文字分析的過程中並沒有代表特別之涵義卻出 現非常多次造成詞頻較大使拖慢文字分析的效率,於是現有許多研究採用 TF 結 合逆向文件頻率 IDF (Inverse Document Frequency)的方式將文章向量化。

逆向文件頻率(inverse document frequency,IDF)為一個衡量分析一個 詞在眾多文件集的重要程度之方式,某一特定詞語的 IDF,可以由總文件數目除 以包含該詞語之出現文件的數目,再將得到的商取對數得到,也就是說該詞在文 件集中出現的數目越少,其 IDF 就越大,也代表著該詞在這文件集中蘊含越多的 資訊越顯重要。

TF-IDF 就是以該詞的 TF(term frequency)值與 IDF(Inverse Document Frequency)值相乘,得到對文本料集中相對重要的詞彙,本研究利用 python 的 TfidfVectorizer 模組以 TF-IDF 的方式將文章進行向量化,以便後續的文本 情緒分析。

4.1.4 訓練模型(情緒分析)

在模型的訓練部分,本研究先人工標註 2016 年隨機挑選 Cmoney 共 750 篇新 聞的情緒正面或是負面當作訓練樣本,並標註 2016 年一月的 500 篇新聞為測試 樣本,觀察三種演算法的準確率比較,利用 jieba 斷詞後將訓練樣本的文本資料

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

用 TF-IDF 的方式進行向量化,將向量化後的文本資料與人工標註好的標籤一併 丟入三種分類演算法(KNN、Naive Bayes)分類器訓練模型。

下圖 4.2 為上市上櫃公司各年度的相關新聞數平均,由圖可知在 2015 年的 分析之新聞量較少,而在 2017 年的新聞量最多,每家公司平均都有 750 則以上 的新聞。

圖 4.2 公司各年度相關新聞數平均

而下圖 4.3 為三種分類器(KNN、Naive Bayes、SVM)所分類的平均正向新 聞數結果,以分類結果得知在 2017 年的正向新聞數較多之後逐年遞減最低點 為 2015 年平均每家公司只有 300 多則的正向新聞,而在分類器演算法的比較 方面由圖 4.3 可知 NB(Naive Bayes)的分類方式將較多的新聞歸入正向新聞的 情緒,而相對的,KNN 之分類器將較少的新聞歸類為情緒正向之新聞。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.3 平均正向新聞數

下圖 4.4 為三種分類器(KNN、Naive Bayes、SVM)所分類的平均負向新聞 數結果,在分類器演算法的部分,KNN 與 SVM 兩種演算法分類的負向新聞數結 果與趨勢十分相近,NB(Naive Bayes)相對將新聞歸類為負向情緒的數量遠比 其他兩類演算法少很多。

而值得一提的是,NB(Naive Bayes)在將新聞分類為正向新聞的數量最多,分 類為負向新聞的數量卻最少,而 KNN 演算法卻是相反的結果,正向新聞的數量 最少,負向新聞的數量卻最多,而 SVM(支援向量機)的分類演算法不管是歸類 為正向或是負向情緒的新聞數量都是相對來說較為穩定的。。

圖 4.4 平均負向新聞數

在總體的分類結果可以發現,在 CMoney2017 至 2015 的新聞之中,正向新 聞數量是多於負向新聞數量的,也就是說一般的財經新聞多為報導正向的情緒 居多,負向情緒相對比較少揭露。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件