• 沒有找到結果。

析(Linear Discriminant Analysis, LDA)對該矩陣進行分類,藉此觀察 LSA 的語意 萃取效果。

在非監督式學習部分,主要利用探索性資料分析(Exploratory Data Analysis, EDA),

試圖從 FOMC Minutes 中找尋特徵變數。本研究除觀察前置流程及樣本的基本統 計量外,並以單詞使用的角度切入,進行各樣本下的單詞特徵比較,包含總字數 及總字彙數、單詞權重及 Entropy。其中,單詞權重指在不同時期或分類下,詞 頻(Term Frequency, TF)或詞頻-逆文件頻率(Term Frequency - Inverse Document Frequency, TF-IDF)權重前幾大單詞的關聯性比較,以及利用 Jaccard Index、Yue’s Index 及 cosine 進行文本相似度分類。

本研究結果發現,將文本以 LSA 處理並經 LDA 分類後,升息、降息及不變的分 類正確度可達七成以上;若分為兩類,以不變及升降息的分類結果最差,升息及 降息不變、降息及升息不變的準確度則可達八成之上。在 EDA 部分,總字數及 總字彙數在 2007 年金融海嘯後均大幅成長,Jaccard Index 及 Yue’s Index 可將文 本明顯區分為 4 個時期,分別為 1993 到 2000 年網路泡沫、2001 到 2004 年、

2005 到 2008 年金融海嘯、2008 年後,Entropy 指標在研究期間內呈現循環趨勢,

其兩次峰頂均發生在 2000 年網路泡沫及 2007 年金融海嘯後。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

28

總結來說,LSA 可大致區分出升息、降息及不變樣本的特性,而 EDA 能找出不 同時期或不同類別下的重要單詞,呈現文本的結構變化,亦能進行文本分群。未 來研究方向包含:

1. 進行交叉驗證(cross validation),檢查分類過程中,是否存在過度配適(over-fitting)的問題。

2. 根據 LSA 的結果,進一步挖掘三大分類及兩大分類下的潛在特徵。

3. 根據 EDA 的結果,找出不同時期或樣本下的關鍵變數。

4. 結合 EDA 與 LSA,驗證關鍵變數是否可增加分類的正確性。

本研究從文字探勘角度分析 FOMC Minutes,未來希望能在此基礎上進一步深入 研究,最終目的為從文本中自動萃取出潛藏的重要資訊,創造出融合經濟意涵的 新型指標,以期作為投資人或市場參與者的決策工具。

3. 王建興,從搜尋引擎到文字探勘,檢自:http://www.ithome.com.tw/voice/90361 4. 黄 耀 鹏 , R 文 本 挖 掘 之 tm 包 , 檢 自 :

http://yphuang.github.io/blog/2016/03/04/text-mining-tm-package/

二、英文文獻

1. Carlo Rosa, (2013). The Financial Market Effect of FOMC Minutes, Economic Policy Review, Volume 19, Number 2.

2. Claude Elwood Shannon, (1948). A Mathematical Theory of Communication, The Bell System Technical Journal, Vol. 27, 379–423, 623–656.

3. Deborah J. Danker and Matthew M. Luecke, (2005). Background on FOMC Meeting Minutes, Federal Reserve Bulletin, issue Spr, 175-179.

4. Ellyn Boukus and Joshua V. Rosenberg, (2006). The Information Content of FOMC Minutes, Federal Reserve Bank of New York.

5. Ingo Feinerer, Kurt Hornik, and David Meyer, (2008). Text Mining Infrastructure in R, Journal of Statistical Software, Vol 25 (2008) ,Issue 5.

6. Jack C. Yue and Murray K. Clayton, (2005). A Similarity Measure based on Species Proportions, Communications in Statistics - Theory and Methods, Volume 34.

7. Martin F. Porter, (1980). An algorithm for suffix stripping, Program 14 (3): 130-137.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

30

8. S.Kannan and Vairaprakash Gurusamy, (2014). Preprocessing Techniques for Text Mining - An Overview, International Journal of Computer Science &

Communication Networks, Vol 5(1),7-16.

9. Tim Loughran and Bill Mcdonald, (2016).Textual Analysis in Accounting and Finance:A Survey. Journal of Accounting Research, Volume 54, Issue 4.

10. Zhichao Han, (2012). Data and Text Mining of Financial Markets using News and Social Media, University of Manchester.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

31

附錄

附錄 1 全樣本停止詞使用頻率(前 30 大)

停止詞 使用頻率 停止詞 使用頻率

1 the 8.70% 16 than 0.35%

2 and 3.58% 17 their 0.31%

3 that 1.78% 18 more 0.29%

4 for 1.39% 19 like 0.28%

5 was 0.96% 20 have 0.27%

6 were 0.73% 21 about 0.26%

7 with 0.68% 22 other 0.25%

8 over 0.68% 23 after 0.20%

9 had 0.66% 24 most 0.20%

10 would 0.52% 25 could 0.20%

11 some 0.49% 26 they 0.19%

12 further 0.42% 27 been 0.19%

13 from 0.41% 28 while 0.19%

14 but 0.36% 29 not 0.18%

15 this 0.35% 30 down 0.16%

TF 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017

1 growth 1.44% growth 1.50% price 1.30% price 1.35% inflat 1.54% inflat 1.83%

1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017

1 mthree 0.13 mthree 0.17 hurrican 0.13 particip 0.11 particip 0.15 particip 0.04

相關文件