• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

第四章 研究結果

第一節 潛在語意分析與文本分類

一、奇異值分解的解釋效果

下圖展示了在全部(193 篇)、升息(50 篇)、降息(39 篇)及不變(104 篇)樣本下,各 奇異值的累積解釋比例;在文本數越多的情況下,其能萃取的特徵亦越多,故全 樣本累積比例的遞增速度最快。

圖 4-1-1 三大樣本的奇異值累積解釋比例

二、LDA 分類結果比較

(一) 全部單詞

將全部單詞的詞條-文檔矩陣 A 進行奇異值分解(以下簡稱 SVD)後,比較在奇異 值累積解釋能力(以下簡稱 k)達 90%(前 9 個)及 95%(前 32 個)下,相似度矩陣 B 進行潛在線性分析(以下簡稱 LDA)的分類結果。當 k=90%時,合計正確率僅 69.43%,若取 k=95%時,則正確率可提高至 76.68%,即在增加選取 23 個維度 下,正確率始能改善 7.25%。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

18

圖 4-1-3 前兩百大單詞矩陣的分三類效果(k=95%)

在 k=95%下,新增所有單詞 Entropy 或 TF 權重前 50 大單詞 Entropy 作為解釋 變數,觀察是否能改善分類結果。在所有單詞 Entropy 下,合計正確率為 73.58%,前 50 大單詞 Entropy 則為 75.13%,兩者差異不大,後者正確率與前 項結果相比微幅提升。

表 4-1-5 前兩百大單詞矩陣的分三類效果 (k=95% & Entropy) k=95%

Entropy(top50)

升息 降息 不變 合計

升息 37 2 12

降息 0 27 11

不變 13 10 81

文本數 50 39 104 193

正確數 37 27 81 145

正確率 74.00% 69.23% 77.88% 75.13%

若改以兩類觀察,結果如下。不變及升降息分類結果最差,正確率僅 64.77%,

降息不變及升息、升息不變及降息的正確率則可達 86.53%、87.05%,此結果亦 暗示升息及降息樣本間應存在明顯的特色差異,而不變樣本則涵蓋了升息及降 息樣本的特色。

非空格數/空格數 192939/1107302 177417/1098120 137260/563523

稀疏度 85% 86% 80%

非空格數/空格數 137260/563523 33460/90940 27324/67212 76476/251748

稀疏度 80% 73% 71% 77%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

圖 4-2-1 文本總字數(上)、總字彙數(中)、字數盒型圖(下) (二) 單詞權重

在第二章文獻回顧中曾提及,文本向量中單詞權重的給予,一種為僅考慮該單 詞在特定文本中的使用頻率(以下簡稱 TF),另一種除考慮 TF 外,亦將該單詞 在所有文本中的出現比例納入考量,此即詞頻-逆文件頻率(以下簡稱 TF-IDF)。

以下將先從不同時期及子樣本下,觀察 TF 及 TF-IDF 前 30 大單詞的使用種類 及相似度;接下來,以全樣本中 TF 前 20、30、50 及 100 大單詞為主,利用 Jaccard Index 及 Yue’s Index 進行關聯性分析;最後改以 TF-IDF 計算文本間的 cosine 相似度,並與前項結果相互比較。

1. TF/TF-IDF 前 30 大單詞

若將 1993 年到 2017 年 3 月間的 193 篇文本,區分為 6 個子時期,分別取該時期 下 TF 及 TF-IDF 前 30 大單詞,兩兩時期比較相同單詞數,結果如下圖。在 TF

TF 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017

1993-1995 30 24 24 21 19 17 重,故能篩選出各時期下的代表性單詞,例如 1996-2000 年的”asia,2001-2005 年 的 ” hurrican” 、 ”attack” 、 ”terrorist” 、 ”softwar” , 2006-2010 年 的”loan” 、”credit” 、”mbs”,2016-2017 年的”brexit”。

表 4-2-4 6 大時期下的 TF-IDF 單詞相似度比較

TF-IDF 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017

1993-1995 30 16 9 9 8 4

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

、”softwar”及”hurrican”。此外,不論在 TF 或 TF-IDF 權重下,不變樣本與全樣 本間的相似度均最高。

表 4-2-5 4 大類別下的 TF(上)、TF-IDF(下)單詞相似度比較

TF 全樣本 升息 降息 不變

全樣本 30 25 27 28

升息 25 30 24 24

降息 27 24 30 25

不變 28 24 25 30

TF-IDF 全樣本 升息 降息 不變

全樣本 30 22 17 28

升息 22 30 17 22

降息 17 17 30 17

不變 28 22 17 30

2. 文本相似度衡量(TF 權重)

Jaccard Index 是藉由比較兩兩文本間,前 20、30、50 及 100 大單詞的交集元素 占聯集元素之比例,以觀察文本間的相似程度。由下圖可知,從 1993 年到 2017 年 3 月間的 193 篇文本,大致可分為兩大群集及兩小群集:首先為 1993 到 2000 年網路泡沫的第一大群集,隨後為 2001 到 2004 年、2005 到 2008 年金融海嘯的 兩小群集,最後是 2008 年後的第二大群集。

圖 4-2-2 Jaccard Index 文本相似度衡量

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

Yue’s Index 考量了交集及聯集元素比例,且一對一比較交集元素,使文本相似度 的特徵更為明顯;其分類結果與 Jaccard Index 大致相仿,但可更清楚觀察趨勢的 變化,包含各群集內部的相似度演變。

圖 4-2-3 Yue’s Index 文本相似度衡量 3. 文本相似度衡量(TF-IDF 權重)

若以 TF-IDF 賦予文本中各單詞的權重,並計算文本在向量空間中的 cosine 相似 性,結果如下。相較於前小節,在不篩選單詞的情況下,大致可分為兩大群集、

一小群集:第一大群集為 1993 到 2001 年,第一小群集為 2001 到 2005 年,最後 為 2006 年後的第二大群集。

圖 4-2-4 cosine 文本相似度衡量

從詞頻觀點切入,在比較前百大單詞的相似程度上,Yue’s Index 的效果會優於 Jaccard Index,不過結果大致相仿,此外,選取約 30~50 大單詞即有不錯的效 果。若從 TF-IDF 觀點出發,即便不篩選任何單詞,cosine 仍能捕捉文本相似度 的主要趨勢,結果亦與前兩前指標類似。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

26

(三) Entropy

Entropy 是度量信息的指標(詳見第二章文獻回顧),當 Entropy 越高時,代表不 確定性及信息量越高,且不均度下降。下圖為全樣本中所有單詞 Entropy 的時 間序列,若從循環的觀點切入,可發現兩次峰頂均發生在經濟危機之後,第一 個峰頂為 2000 年網路泡沫後(約第 60~70 篇文本),第二個峰頂為 2007 年金融 海嘯後(約第 110~120 篇文本),即 Entropy 確實可部分反映出經濟動盪的不確定 性。

圖 4-2-5 全部單詞 Entropy 序列

若取全樣本中,使用頻率前 20、30、50 及 100 大單詞,其 Entropy 走勢與使用 全部單詞的 Entropy 走勢恰好相反,網路泡沫及金融海嘯時期反而落於前者峰 谷處,不均度的提高可能代表在危機發生時,前百大單詞的使用會趨於集中。

圖 4-2-6 前百大單詞 Entropy 序列

Top 20 Top 30

Top 50 Top 100

析(Linear Discriminant Analysis, LDA)對該矩陣進行分類,藉此觀察 LSA 的語意 萃取效果。

在非監督式學習部分,主要利用探索性資料分析(Exploratory Data Analysis, EDA),

試圖從 FOMC Minutes 中找尋特徵變數。本研究除觀察前置流程及樣本的基本統 計量外,並以單詞使用的角度切入,進行各樣本下的單詞特徵比較,包含總字數 及總字彙數、單詞權重及 Entropy。其中,單詞權重指在不同時期或分類下,詞 頻(Term Frequency, TF)或詞頻-逆文件頻率(Term Frequency - Inverse Document Frequency, TF-IDF)權重前幾大單詞的關聯性比較,以及利用 Jaccard Index、Yue’s Index 及 cosine 進行文本相似度分類。

本研究結果發現,將文本以 LSA 處理並經 LDA 分類後,升息、降息及不變的分 類正確度可達七成以上;若分為兩類,以不變及升降息的分類結果最差,升息及 降息不變、降息及升息不變的準確度則可達八成之上。在 EDA 部分,總字數及 總字彙數在 2007 年金融海嘯後均大幅成長,Jaccard Index 及 Yue’s Index 可將文 本明顯區分為 4 個時期,分別為 1993 到 2000 年網路泡沫、2001 到 2004 年、

2005 到 2008 年金融海嘯、2008 年後,Entropy 指標在研究期間內呈現循環趨勢,

其兩次峰頂均發生在 2000 年網路泡沫及 2007 年金融海嘯後。

相關文件