研究結果 - 文字探勘在總體經濟上之應用－以美國聯準會會議紀錄為例

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章研究結果

第一節潛在語意分析與文本分類

一、奇異值分解的解釋效果

下圖展示了在全部(193 篇)、升息(50 篇)、降息(39 篇)及不變(104 篇)樣本下，各奇異值的累積解釋比例；在文本數越多的情況下，其能萃取的特徵亦越多，故全樣本累積比例的遞增速度最快。

圖 4-1-1 三大樣本的奇異值累積解釋比例

二、LDA 分類結果比較

(一) 全部單詞

將全部單詞的詞條-文檔矩陣 A 進行奇異值分解(以下簡稱 SVD)後，比較在奇異值累積解釋能力(以下簡稱 k)達 90%(前 9 個)及 95%(前 32 個)下，相似度矩陣 B 進行潛在線性分析(以下簡稱 LDA)的分類結果。當 k=90%時，合計正確率僅 69.43%，若取 k=95%時，則正確率可提高至 76.68%，即在增加選取 23 個維度下，正確率始能改善 7.25%。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4-1-3 前兩百大單詞矩陣的分三類效果(k=95%)

在 k=95%下，新增所有單詞 Entropy 或 TF 權重前 50 大單詞 Entropy 作為解釋變數，觀察是否能改善分類結果。在所有單詞 Entropy 下，合計正確率為 73.58%，前 50 大單詞 Entropy 則為 75.13%，兩者差異不大，後者正確率與前項結果相比微幅提升。

表 4-1-5 前兩百大單詞矩陣的分三類效果 (k=95% & Entropy) k=95%

Entropy(top50)

升息降息不變合計

升息 37 2 12

降息 0 27 11

不變 13 10 81

文本數 50 39 104 193

正確數 37 27 81 145

正確率 74.00% 69.23% 77.88% 75.13%

若改以兩類觀察，結果如下。不變及升降息分類結果最差，正確率僅 64.77%，

降息不變及升息、升息不變及降息的正確率則可達 86.53%、87.05%，此結果亦暗示升息及降息樣本間應存在明顯的特色差異，而不變樣本則涵蓋了升息及降息樣本的特色。

‧

非空格數/空格數 192939/1107302 177417/1098120 137260/563523

稀疏度 85% 86% 80%

‧

非空格數/空格數 137260/563523 33460/90940 27324/67212 76476/251748

稀疏度 80% 73% 71% 77%

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4-2-1 文本總字數(上)、總字彙數(中)、字數盒型圖(下) (二) 單詞權重

在第二章文獻回顧中曾提及，文本向量中單詞權重的給予，一種為僅考慮該單詞在特定文本中的使用頻率(以下簡稱 TF)，另一種除考慮 TF 外，亦將該單詞在所有文本中的出現比例納入考量，此即詞頻-逆文件頻率(以下簡稱 TF-IDF)。

以下將先從不同時期及子樣本下，觀察 TF 及 TF-IDF 前 30 大單詞的使用種類及相似度；接下來，以全樣本中 TF 前 20、30、50 及 100 大單詞為主，利用 Jaccard Index 及 Yue’s Index 進行關聯性分析；最後改以 TF-IDF 計算文本間的 cosine 相似度，並與前項結果相互比較。

1. TF/TF-IDF 前 30 大單詞

若將 1993 年到 2017 年 3 月間的 193 篇文本，區分為 6 個子時期，分別取該時期下 TF 及 TF-IDF 前 30 大單詞，兩兩時期比較相同單詞數，結果如下圖。在 TF

‧

TF 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017

1993-1995 30 24 24 21 19 17 重，故能篩選出各時期下的代表性單詞，例如 1996-2000 年的”asia，2001-2005 年的 ” hurrican” 、 ”attack” 、 ”terrorist” 、 ”softwar” ， 2006-2010 年的”loan” 、”credit” 、”mbs”，2016-2017 年的”brexit”。

表 4-2-4 6 大時期下的 TF-IDF 單詞相似度比較

TF-IDF 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017

1993-1995 30 16 9 9 8 4

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

、”softwar”及”hurrican”。此外，不論在 TF 或 TF-IDF 權重下，不變樣本與全樣本間的相似度均最高。

表 4-2-5 4 大類別下的 TF(上)、TF-IDF(下)單詞相似度比較

TF 全樣本升息降息不變

全樣本 30 25 27 28

升息 25 30 24 24

降息 27 24 30 25

不變 28 24 25 30

TF-IDF 全樣本升息降息不變

全樣本 30 22 17 28

升息 22 30 17 22

降息 17 17 30 17

不變 28 22 17 30

2. 文本相似度衡量(TF 權重)

Jaccard Index 是藉由比較兩兩文本間，前 20、30、50 及 100 大單詞的交集元素占聯集元素之比例，以觀察文本間的相似程度。由下圖可知，從 1993 年到 2017 年 3 月間的 193 篇文本，大致可分為兩大群集及兩小群集：首先為 1993 到 2000 年網路泡沫的第一大群集，隨後為 2001 到 2004 年、2005 到 2008 年金融海嘯的兩小群集，最後是 2008 年後的第二大群集。

圖 4-2-2 Jaccard Index 文本相似度衡量

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Yue’s Index 考量了交集及聯集元素比例，且一對一比較交集元素，使文本相似度的特徵更為明顯；其分類結果與 Jaccard Index 大致相仿，但可更清楚觀察趨勢的變化，包含各群集內部的相似度演變。

圖 4-2-3 Yue’s Index 文本相似度衡量 3. 文本相似度衡量(TF-IDF 權重)

若以 TF-IDF 賦予文本中各單詞的權重，並計算文本在向量空間中的 cosine 相似性，結果如下。相較於前小節，在不篩選單詞的情況下，大致可分為兩大群集、

一小群集：第一大群集為 1993 到 2001 年，第一小群集為 2001 到 2005 年，最後為 2006 年後的第二大群集。

圖 4-2-4 cosine 文本相似度衡量

從詞頻觀點切入，在比較前百大單詞的相似程度上，Yue’s Index 的效果會優於 Jaccard Index，不過結果大致相仿，此外，選取約 30~50 大單詞即有不錯的效果。若從 TF-IDF 觀點出發，即便不篩選任何單詞，cosine 仍能捕捉文本相似度的主要趨勢，結果亦與前兩前指標類似。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(三) Entropy

Entropy 是度量信息的指標(詳見第二章文獻回顧)，當 Entropy 越高時，代表不確定性及信息量越高，且不均度下降。下圖為全樣本中所有單詞 Entropy 的時間序列，若從循環的觀點切入，可發現兩次峰頂均發生在經濟危機之後，第一個峰頂為 2000 年網路泡沫後(約第 60~70 篇文本)，第二個峰頂為 2007 年金融海嘯後(約第 110~120 篇文本)，即 Entropy 確實可部分反映出經濟動盪的不確定性。

圖 4-2-5 全部單詞 Entropy 序列

若取全樣本中，使用頻率前 20、30、50 及 100 大單詞，其 Entropy 走勢與使用全部單詞的 Entropy 走勢恰好相反，網路泡沫及金融海嘯時期反而落於前者峰谷處，不均度的提高可能代表在危機發生時，前百大單詞的使用會趨於集中。

圖 4-2-6 前百大單詞 Entropy 序列

Top 20 Top 30

Top 50 Top 100

‧

析(Linear Discriminant Analysis, LDA)對該矩陣進行分類，藉此觀察 LSA 的語意萃取效果。

在非監督式學習部分，主要利用探索性資料分析(Exploratory Data Analysis, EDA)，

試圖從 FOMC Minutes 中找尋特徵變數。本研究除觀察前置流程及樣本的基本統計量外，並以單詞使用的角度切入，進行各樣本下的單詞特徵比較，包含總字數及總字彙數、單詞權重及 Entropy。其中，單詞權重指在不同時期或分類下，詞頻(Term Frequency, TF)或詞頻-逆文件頻率(Term Frequency - Inverse Document Frequency, TF-IDF）權重前幾大單詞的關聯性比較，以及利用 Jaccard Index、Yue’s Index 及 cosine 進行文本相似度分類。

本研究結果發現，將文本以 LSA 處理並經 LDA 分類後，升息、降息及不變的分類正確度可達七成以上；若分為兩類，以不變及升降息的分類結果最差，升息及降息不變、降息及升息不變的準確度則可達八成之上。在 EDA 部分，總字數及總字彙數在 2007 年金融海嘯後均大幅成長，Jaccard Index 及 Yue’s Index 可將文本明顯區分為 4 個時期，分別為 1993 到 2000 年網路泡沫、2001 到 2004 年、

2005 到 2008 年金融海嘯、2008 年後，Entropy 指標在研究期間內呈現循環趨勢，

其兩次峰頂均發生在 2000 年網路泡沫及 2007 年金融海嘯後。

在文檔中文字探勘在總體經濟上之應用－以美國聯準會會議紀錄為例 - 政大學術集成 (頁 22-34)

研究結果

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章 研究結果

第一節 潛在語意分析與文本分類

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

第四章研究結果

第一節潛在語意分析與文本分類

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學