• 沒有找到結果。

文字探勘在總體經濟上之應用- 以美國聯準會會議紀錄為例 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "文字探勘在總體經濟上之應用- 以美國聯準會會議紀錄為例 - 政大學術集成"

Copied!
42
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學金融學系研究所 碩士學位論文. 文字探勘在總體經濟上之應用- 以美國聯準會會議紀錄為例 The Application of Text Mining on Macroeconomics :. 治 Minutes A Case Study 政of FOMC 大. 立. ‧. ‧ 國. 學 er. io. sit. y. Nat. n. 指導教授:陳 威 光 博士 al v i n Ch 共同指導:李 桐 豪U 博士. engchi. 研究生:黃 于 珊 撰. 中 華 民 國 一○六 年 六月.

(2) 謝辭 本研究的誕生,起源於碩一下時修的大數據課程,由統計系余清祥老師所開設。 當時是我第一次聽到文字探勘,由於本身蠻喜歡文字,因此對這個領域特別著迷, 期末時以台灣總統演講稿進行研究,後來亦投稿至台大數位人文中心。碩二時, 與李桐豪老師討論過後,即決定以文字探勘做為論文題目,分析聯準會利率決議, 在此十分感謝李老師,給我充分的空間來挑戰及嘗試。當然,研究的過程並非一 帆風順,常常會迷失方向,但余清祥老師總能適時的引導我,讓我跨越一個個難 關。本研究還有許多不足的地方,正在閱讀此論文的你/妳,如果想進一步了解內. 政 治 大. 容或技術細節的話,歡迎與我聯繫。. 立. 間及論文撰寫上的種種協助,讓我看到不一樣的世界。. 學. ‧ 國. 謹以此論文,謝謝李桐豪老師給我的空間及信任,感謝余清祥老師,對我在學期. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. I. i n U. v.

(3) 摘要 本研究以 1993 年到 2017 年 3 月間的 193 篇 FOMC Minutes 作為研究素材,先採 監督式學習方法,利用潛在語意分析(latent semantic analysis,LSA)萃取出升 息、降息及不變樣本的潛在語意,再以線性判別分析(Linear Discriminant Analysis, LDA)進行分類;此外,本研究亦透過非監督式學習方法中的探索性資料分析 (Exploratory Data Analysis, EDA),試圖從 FOMC Minutes 中找尋相關變數。研究 結果發現,LSA 可大致區分出升息、降息及不變樣本的特徵,而 EDA 能找出不 同時期或不同類別下的重要單詞,呈現文本的結構變化,亦能進行文本分群。. 政 治 大. 關鍵詞:聯準會、利率決議、文字探勘、潛在語意分析、探索性資料分析. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(4) Abstract In this study, 193 FOMC Minutes from 1993 to March 2017 were used as research materials. The latent semantic analysis (LSA) in supervised learning methods was used to extract the potential semantics of interest rate increased, decreased, and unchanged samples, and then linear discriminant analysis (LDA) was used for classification. In addition, this study attempts to find relevant variables from FOMC Minutes through exploratory data analysis (EDA) in unsupervised learning methods. The results show that LSA can distinguish the characteristics of interest rate increased, decreased, and. 政 治 大. unchanged samples. EDA can find relevant words in different periods or different. 立. categories, show changes in the text structure, and can also classify the texts.. ‧ 國. 學. Key words:Fed、FOMC Minutes、Text Mining、LSA、EDA. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(5) 目. 次. 第一章 緒論 ................................................................................................................. 1 第一節 研究動機 ................................................................................................. 1 第二節 研究目的 ................................................................................................. 1 第二章 文獻回顧.......................................................................................................... 4 第一節 美國聯邦儲備系統及 FOMC Minutes .................................................. 4. 政 治 大 第三節 文字探勘的前置流程 立 .............................................................................. 8 第二節 潛在語意分析.......................................................................................... 6. ‧ 國. 學. 第四節 信息論...................................................................................................... 8 第三章 研究方法........................................................................................................ 12. ‧. 第一節 資料介紹................................................................................................ 12. sit. y. Nat. io. al. er. 第二節 潛在語意分析與文本分類.................................................................... 13. v. n. 第三節 探索性資料分析.................................................................................... 14. Ch. engchi. i n U. 第四章 研究結果........................................................................................................ 15 第一節 潛在語意分析與文本分類.................................................................... 15 第二節 探索性資料分析.................................................................................... 20 第五章 結論與建議.................................................................................................... 27 參考文獻...................................................................................................................... 29 附錄.............................................................................................................................. 31. IV.

(6) 表次 表 2-1-1. FOMC Minutes 演變年代表 ....................................................................... 5. 表 3-1-1. FOMC Minutes 分類樣本數 ..................................................................... 12. 表 4-1-1 全部單詞矩陣的分三類效果(k=95%) ...................................................... 16 表 4-1-2 全部單詞矩陣的分三類效果(k=95% & Entropy) .................................... 16 表 4-1-3 全部單詞矩陣的分兩類效果(k=95%) ...................................................... 17 表 4-1-4 前兩百大單詞矩陣的分三類效果(k=95%).............................................. 17 表 4-1-5. 治 政 前兩百大單詞矩陣的分三類效果 (k=95%大 & Entropy).......................... 18 立. 表 4-1-6 前兩百大單詞矩陣的分兩類效果 (k=95%)............................................ 19. ‧ 國. 學. 表 4-1-7 全部單詞及前兩百大單詞的分三類結果比較 ........................................ 19. ‧. 表 4-1-8 全部單詞及前兩百大單詞的分兩類結果比較 ........................................ 19. Nat. io. sit. y. 表 4-2-1 文本前置處理之比較 ................................................................................ 20. er. 表 4-2-2 全樣本及子樣本的基本統計量 ................................................................ 21. al. n. v i n 6 大時期下的 TF 單詞相似度比較 .......................................................... 23 Ch engchi U. 表 4-2-3. 表 4-2-4 6 大時期下的 TF-IDF 單詞相似度比較 .................................................. 23 表 4-2-5 4 大類別下的 TF(上)、TF-IDF(下)單詞相似度比較 ............................. 24. V.

(7) 圖次 圖 2-1-1 美國聯邦儲備系統架構 .............................................................................. 5 圖 2-2-1. SVD 分解示意圖 ......................................................................................... 6. 圖 2-4-1 單詞-文檔矩陣示意圖................................................................................. 9 圖 4-1-1 三大樣本的奇異值累積解釋比例 ............................................................ 15 圖 4-1-2 全部單詞矩陣的分三類效果(k=95%) ...................................................... 16 圖 4-1-3 前兩百大單詞矩陣的分三類效果(k=95%).............................................. 18. 圖 4-2-2. Jaccard Index 文本相似度衡量 ................................................................. 24. 學. ‧ 國. 圖 4-2-1. 治 政 文本總字數(上)、總字彙數(中)、字數盒型圖(下) 大 ................................ 22 立. Yue’s Index 文本相似度衡量 .................................................................... 25. 圖 4-2-4. cosine 文本相似度衡量 ............................................................................. 25. ‧. 圖 4-2-3. Nat. io. sit. y. 圖 4-2-5 全部單詞 Entropy 序列 ............................................................................. 26. n. al. er. 圖 4-2-6 前百大單詞 Entropy 序列 ......................................................................... 26. Ch. engchi. VI. i n U. v.

(8) 第一章. 緒論. 第一節. 研究動機. 二十一世紀是資訊的世代,能夠擁有、處理或傳遞資料的人,往往能搶得先機, 而在資訊爆炸的時代下,眾多資料唾手可得,但如何加工以發揮更大的價值,常 是學界及業界的關注議題,也造就資料探勘(Data Mining)領域的蓬勃發展。由於 科技技術進步及資訊量的持續膨脹,逐漸吸引大眾目光轉向為數眾多的非結構化 資料-文字,其蘊含數字所無法傳達的豐富資訊,但因缺乏特定形式且樣貌繁複. 政 治 大. 多變,也因此難以整理及量化,為了解決此一問題,文字探勘(Text Mining)的新. 立. 興領域於焉誕生。. ‧ 國. 學. 文字探勘的目的,是嘗試從非結構化的文字資料中,利用統計方式予以量化分析 及建模,從中找出隱藏的關鍵資訊;其除了統計方法的應用外,尚融入資訊檢索. ‧. 及搜尋等訊息處理概念,亦需欲分析對象的領域知識(Domain Knowledge),實為. Nat. sit. y. 多個領域相互融合的結果。因此,本研究擬從金融領域出發,以美國聯準會(Fed). n. al. er. io. 的 FOMC 會議紀錄(Minutes)為分析對象,主要鑒於聯準會在全球金融市場中的. i n U. v. 重大影響力,以及其啟動美國升息循環的背景下,試圖利用文字探勘的概念及方. Ch. engchi. 法,找出 Fed 向金融市場傳達的潛藏關鍵訊息。. 第二節. 研究目的. 本研究以 1993 年到 2017 年 3 月間的 193 篇 FOMC Minutes 作為研究素材,為了 從中挖掘潛藏的關鍵訊息,將先採監督式學習(supervised learning)的方法,將文 本標註為升息、降息及不變樣本,並利用潛在語意分析(latent semantic analysis, LSA)從文本中自動萃取出攸關語意,作為後續線性判別分析(Linear Discriminant Analysis, LDA)的分類依據。. 1.

(9) LSA 的 目 的 為 找 出 資 料 的 潛 藏 型 態 , 其 透 過 奇 異 值 分 解 ( singular value decomposition,SVD)與維度約化(dimension reduction) ,可將文本由高維度的 詞彙空間映射至低維度的語意空間(semantic space),即將眾多單詞分聚成不同的 語意類別,此即該文本集合中的潛藏主題。LSA 的一般流程為先對文本集合進行 前置處理,包含大小寫轉換、移除空白鍵及標點符號、移除停止詞(stopwords)及 詞 幹 化 (stemming) , 接 著 將 文 本 集 合 轉 換 成 單 詞 - 文 檔 矩 陣 (term-document matrix ,TDM),並透過奇異值分解得一經維度縮減後的新矩陣,最後計算目標變 數與新矩陣中文本間的 cosine 相似度;本研究在此基礎上進一步延伸,以 cosine. 治 政 大 為了避免 LDA 結果有過度配適(over-fitting)的情況,本研究亦透過非監督學習 立 相似度作為升息、降息及不變樣本間的解釋變數,進行 LDA 並比較分類結果。. (unsupervised learning)中的探索性資料分析(Exploratory Data Analysis, EDA),試. ‧ 國. 學. 圖從 FOMC Minutes 中找尋相關變數。本研究從 3 個面向觀察其基本特性,1)前. ‧. 置流程,即移除停止詞及詞幹化後對全樣本的影響,2)基本統計量,即全樣本及. y. Nat. 三個子樣本的總字數、字彙種類、稀疏度等資訊,3)單詞特徵比較,包含總字數. er. io. sit. 及總字彙數、單詞權重及 Entropy,其中單詞權重指在不同時期或分類下,詞頻 (Term Frequency, TF) 或 詞 頻 - 逆 文 件 頻 率 (Term Frequency - Inverse Document. al. n. v i n Frequency, TF-IDF)權重前幾大單詞的關聯性比較,以及利用 Jaccard Index、Yue’s Ch engchi U. Index 及 cosine 進行文本相似度分類的結果。. 本研究結果發現,在 LSA 下經奇異值分解及 cosine 相似度計算後,再利用 LDA 分為升息、降息及不變三類,則無論是全部單詞或 TF 權重前兩百大單詞的 TDM, 其分類正確度均可達七成以上,又以前者效果較佳。若分為兩類,均以不變及升 降息的分類結果最差,升息及降息不變、降息及升息不變的準確度則可達八成之 上,且同樣以全部單詞 TDM 的成效較佳;此外,在多數情況下,新增 Entropy 作 為 LDA 解釋變數雖能提升正確率,但貢獻微小。. 2.

(10) 在 EDA 部分,透過總字數及總字彙數的時間序列趨勢,即可發現其在 2007 年金 融海嘯後均大幅成長。從 TF 及 TF-IDF 角度觀察,可發現在 1993 年至 2017 年 的 6 個子時期下,均以相鄰兩期的單詞相似度最高,但 TF-IDF 的單詞遞減速度 則遠大於 TF;此外,Jaccard Index 及 Yue’s Index 可將文本明顯區分為 4 個時期, 分別為 1993 到 2000 年網路泡沫、2001 到 2004 年、2005 到 2008 年金融海嘯、 2008 年後,cosine 指標亦有類似效果。最後,度量信息的 Entropy 指標在研究期 間內呈現出循環趨勢,其兩次峰頂均發生在 2000 年網路泡沫及 2007 年金融海嘯 後,即 Entropy 確實可部分反映出經濟動盪的不確定性。. 治 政 大 同時期或不同類別下的重要單詞,亦能進行文本分群;未來可將兩種方法相互結 立 總結來說,LSA 可大致區分出升息、降息及不變樣本的特性,而 EDA 能找出不. 合,例如以 EDA 尋找關鍵單詞或雙詞,再利用 LSA 及 LDA 觀察新增變數後的. ‧ 國. 學. 分類結果,以歸納在不同時期(1993~2000 年、2001~2004 年、2005~2008 年、2008. ‧. 年後)或不同類別(升息、降息及不變)下的重要特徵。. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i n U. v.

(11) 第二章 文獻回顧 第一節 美國聯邦儲備系統及 FOMC Minutes 一、美國聯邦儲備系統 聯邦儲備系統(The Federal Reserve System)是美國的中央銀行,包含三個重要機 構,分別為聯邦儲備委員會(Board of Governors, 以下簡稱美聯儲)、聯邦銀行 (Federal Reserve Banks)及聯邦公開市場委員會(Federal Open Market Committee, 以下簡稱 FOMC)。美聯儲由 7 位成員所組成,負責監督與管理聯邦銀行;聯邦. 治 政 銀行一共有 12 家,除了在各自負責地區扮演「銀行中的銀行」外,亦彙整地方 大 立 資訊成褐皮書(Beige Book),作為 FOMC 會議前的參考。 ‧ 國. 學. FOMC 於 1935 年創立,由 12 位成員所組成,7 位來自美聯儲,1 位為紐約聯邦. ‧. 銀行總裁,4 位由其餘 11 家聯邦銀行總裁每年輪替;12 家聯邦銀行總裁均會參 與 FOMC 會議,但僅具 FOMC 成員身分者才可投票。根據傳統,FOMC 會以美. y. Nat. io. sit. 聯儲主席作為其主席,並以紐約聯邦銀行總裁作為其副主席;FOMC 每年舉行 8. n. al. er. 次會議,必要時得加開。FOMC 負責擬定貨幣政策,決議所有公開市場操作的執. Ch. i n U. v. 行,以及和大眾溝通未來貨幣政策的可能走向;換句話說,FOMC 的決策會影響. engchi. 基準利率(fed funds rate)、聯邦儲備系統持有資產的規模大小及組成,並進一步影 響資金及信用狀況、總合需求以及整個經濟體。. 4.

(12) 圖 2-1-1. 立. 治 美國聯邦儲備系統架構 政 大. 二、FOMC Minutes 演化背景. 學. ‧ 國. 自 FOMC 於 1935 年設立以來,其對於大眾的資訊接露主要朝向即時性、完整性 的趨勢發展,目前 FOMC 會議記錄(以下簡稱 Minutes)主要包含與貨幣政策攸關. ‧. 的重大議題、政策決策及其理由、投票結果及反對票的原因等,FOMC 對其. Nat. sit. y. Minutes 的詮釋為” contains a full and accurate report of all matters of policy discussed. n. al. er. io. and views presented, clearly sets forth all policy actions taken by the FOMC and the. i n U. v. reasons therefor, and includes the votes by individual members on each policy action. ”. Ch. engchi. 關於 FOMC Minutes 的演進過程整理如下表。 表 2-1-1 年份. FOMC Minutes 演變年代表. 名稱. 公布頻率. 內容. 1936. Record of Policy Actions. 一年一次. 政策決議緣由. 1967.6. Record of Policy Actions/. 會議結束後 90 天. Minutes of Actions 接 露政策決議及與會者. Minutes of Actions 1975.3. 會議結束後 45 天. 1976.5. 會議結束後 30 天. 擴充 Record of Policy Actions 的內容. 1993 2004.12. 兩項合併為 Minutes 會議結束後 3 週. 5.

(13) 第二節 潛在語意分析 潛在語意分析(latent semantic analysis,LSA)(Furnas et al., 1988)是資訊檢索上 的 重 要 應 用 , 其 以 向 量 空 間 模 型 為 基 礎 , 透 過 奇 異 值 分 解 ( singular value decomposition,SVD)與維度約化(dimension reduction)以建構語意關聯模型; 即將文件向量與查詢語句向量,由高維度的詞彙空間映射至低維度的語意空間 (semantic space)。LSA 的基本流程如下:. 一、奇異值分解 (singular value decomposition). 政 治 大 X = US𝑉𝑉. 令一詞條-文檔矩陣為 X,其可分解為:. 立. 𝑇𝑇. ‧ 國. 學. U 矩陣代表對詞分類的結果,其中第 i,j 個元素代表單詞 i 對主題 j 的重要性;V 矩陣為對文本分類後的結果,V T 的第 i,j 個元素代表主題 i 對文本 j 的重要性;S. ‧. 為奇異值的對角線矩陣,其以遞減順序排列,數值大小表示主題 i 對文本變異的. sit. y. Nat. 解釋程度。以下圖為例,U 矩陣第一欄代表每個單詞對主題一的貢獻程度,V T 矩. io. n. al. er. 陣第一列則代表主題一在各文本中的重要程度,以此類推。. Ch. engchi. 圖 2-2-1. i n U. SVD 分解示意圖 6. v.

(14) 二、維度縮減 選定一個整數 k,k < d。保留 U 與 V 的前面 k 個欄向量,同時只保留 S 對角線 中𝑠𝑠1 , … 𝑠𝑠𝑘𝑘 的值,其餘均設定為 0,則得到一個近似於 A 的新矩陣𝐴𝐴𝑘𝑘 : A ≈ 𝐴𝐴𝑘𝑘 = U𝑘𝑘 S𝑘𝑘 𝑉𝑉𝑘𝑘𝑇𝑇. 維度縮減的用意是將 t 個詞彙群組成 k 個概念,藉以刪除原始資料中的雜訊, 達到資料平滑化及語意關聯模型建構的目的。. 三、摺疊(folding-in) 令一查詢語句 q 為由 t 個詞彙定義的向量,若要計算 q 與文件𝑑𝑑𝑖𝑖 在語意空間中. 政 治 大. 的關聯程度,必須先將 q 摺疊至維度為 k 的語意空間𝑠𝑠𝑘𝑘 中,作法如下:. 學. ‧ 國. 立. 𝑞𝑞 = 𝑞𝑞 𝑇𝑇 𝑈𝑈𝑘𝑘 𝑆𝑆𝑘𝑘−1. ‧. 四、關聯性計算. y. n. Ch. 𝑑𝑑𝑖𝑖 ∙ 𝑞𝑞 ‖𝑑𝑑𝑖𝑖 ‖‖𝑞𝑞‖. engchi. 7. sit. io. al. cos(θ) =. er. 度,公式如下:. Nat. 利用前節介紹的余弦定理,計算文件𝑑𝑑𝑖𝑖 與查詢語句 q 在語意空間𝑠𝑠𝑘𝑘 中的關聯程. i n U. v.

(15) 第三節 文字探勘的前置流程 前節介紹的單詞-文檔矩陣是文字探勘的基礎,後續分析多仰賴此進行延伸,而 在將文本轉換成矩陣的過程中,需先對文本進行前置處理,該部分的一般流程 (Ingo et. 2008;Dr. S. Vijayarani)如下,並可藉由 R 語言中的”tm”套件來執行: 1. 移除空白鍵及大小寫轉換 2. 移除標點符號 3. 移除停止詞(stopwords) 4. 詞幹化(stemming). 政 治 大. 詞幹化是藉由一定規則去除單詞的尾部,將單詞還原成詞幹,例如” organize”、”. 立. organizes”、” organizing”及” organization”均會被還原成詞幹”organ”;在英文詞幹. ‧ 國. 學. 化的演算法中,目前在實證上被證明有效且被廣泛使用者為 Porter 演算法(1980),. ‧. Porter 亦在此基礎上延伸出 Snowball 算法。. 停止詞泛指不具鑑別力的無意義單詞(Lo et al., 2005),而移除停止詞的概念最早. y. Nat. io. sit. 由 Hans Peter Luhan (1957)所提出,多位學者亦相繼提出停止詞清單(Rijsbergen,. n. al. er. 1979;Fox, 1992),後續進一步發展出從文章中萃取停止詞的方法,主要根據齊. Ch. i n U. v. 夫法則(zipf’s law)(Trumbach and Payne, 2007; Makrehchi and Kamel, 2008; Forman,. engchi. 2003)或資訊獲利準則(information gain criteria)(Lo et al., 2005; Ayral and Yavuz, 2011)。. 第四節 信息論 一、信息的度量 信息的作用在於消除不確定性,即信息的信息量和不確定性間存在直接的關係 (數學之美,Ch6);信息的度量問題因信息熵(Shannon,1948)的提出而得以解決,公 式如下: 8.

(16) H(X) = − � 𝑃𝑃(𝑥𝑥)𝑙𝑙𝑙𝑙𝑙𝑙2 𝑃𝑃(𝑥𝑥). 其中,𝑃𝑃(𝑥𝑥)代表變數𝑥𝑥的出現機率。. 𝑥𝑥∈𝑋𝑋. 當不確定性越大時,信息熵也越大,即了解一件事情所需的信息量越多。舉例來 說,在一無所知的情況下,則 P(𝑥𝑥1 ) = P(𝑥𝑥2 ) = P(𝑥𝑥3 ) = 1/3,H(X) = 1.585;若. 已知𝑥𝑥1 出現的機率較高,則P(𝑥𝑥1 ) = 2/3,P(𝑥𝑥2 ) = P(𝑥𝑥3 ) = 1/6,H(X) = 1.252。 由此可知,當對一件事情愈了解時,該信息的信息量愈低、不確定性愈低,且分 布的不均度愈高。. 二、搜尋引擎的基本原理. 政 治 大. 搜尋引擎建立文件索引的基本概念,是將每份文件及其含有的詞,轉變成向量來. 立. 表達;若所有文件中一共包含 N 個詞,則可用 N 維向量來表示一份文件,並彙. ‧ 國. 學. 整成一個單詞-文檔矩陣 (Term Document Matrix)。如此即將非結構化的文字資料, 轉化成結構化的數值向量,且所有向量均處在同一個向量空間之中。. ‧. n. er. io. sit. y. Nat. al. Ch. 圖 2-4-1. engchi. i n U. v. 單詞-文檔矩陣示意圖. 下一步,是探討如何給予適當權重於各文件中的單詞,權重大小一定程度反映了 該單詞的重要性。目前搜尋引擎多根據 Jones(1972)所提出的 TF-IDF(詞頻-逆文 件頻率)為基礎,再進行一定程度的微調,TF-IDF 公式如下:. 其中,. 𝑊𝑊𝑖𝑖,𝑗𝑗 =. 𝑛𝑛𝑖𝑖,𝑗𝑗 𝑁𝑁 × log 2 = 𝑇𝑇𝑇𝑇𝑖𝑖,𝑗𝑗 × 𝐼𝐼𝐼𝐼𝐼𝐼𝑖𝑖 ∑𝑘𝑘 𝑛𝑛𝑘𝑘,𝑗𝑗 �𝑗𝑗: 𝑡𝑡𝑖𝑖 ∈ 𝑑𝑑𝑗𝑗 �. 𝑊𝑊𝑖𝑖,𝑗𝑗 =詞𝑡𝑡𝑖𝑖 在文件𝑑𝑑𝑗𝑗 中的權重. 9.

(17) 𝑛𝑛𝑖𝑖,𝑗𝑗 =詞𝑡𝑡𝑖𝑖 在文件𝑑𝑑𝑗𝑗 中的出現次數 ∑𝑘𝑘 𝑛𝑛𝑘𝑘,𝑗𝑗 =文件𝑑𝑑𝑗𝑗 的總單詞數 𝑁𝑁 =所有文件數. �𝑗𝑗: 𝑡𝑡𝑖𝑖 ∈ 𝑑𝑑𝑗𝑗 � =出現詞𝑡𝑡𝑖𝑖 的文件數. 當某單詞在一份文件中的出現頻率(TF)越高時,直覺上其具有越高的重要性,但 若該單詞在多份文件中均有出現,則其對於文件的識別力越低,逆文件頻率(IDF) 應越低,例如「的」、「我」。因此,,此即 TF-IDF 的精神。. 三、文本相似度衡量. 政 治 大 延伸前述概念,將文章轉變成向量後,向量中的維度大小(TF-IDF 值)即代表該詞 立 1.. Cosine Similarity. ‧ 國. 學. 對於文章主題的貢獻程度(數學之美,Ch14)。由於向量是多維空間中從原點出發 的有向線段,若兩向量均在某些維度的值傾向較大,某些維度傾向較小,則兩向. ‧. 量的方向相近,即兩文本的用詞相近,文本相似度較高。藉由衡量向量夾角,即. n. 𝐴𝐴 ∙ 𝐵𝐵 ‖𝐴𝐴‖‖𝐵𝐵‖. er. io. al. cos(θ) =. sit. y. Nat. 可判別兩向量的方向是否接近,而餘弦定理可達此一目標:. i n U. v. 其中,分子表示兩向量的內積,分母表示兩向量的長度乘積。. Ch. engchi. 在 TF-IDF 權重之下,cos 值會落在 0~1 之間,判別準則如下: cos(θ) = 1,θ = 0° ,兩向量完全一致;. cos(θ) = 0,θ = 90° ,兩向量完全不一致;. 即當 cos 值越大時,兩向量的夾角越小,文本相似度越高。 2.. Jaccard Index. Jaccard Index (Jaccard, 1901)從統計觀點出發,藉由計算兩集合交集佔其聯集的比 例,以衡量兩集合的相似程度: J(A, B) =. |𝐴𝐴 ∩ 𝐵𝐵| ,0 ≤ J ≤ 1 |𝐴𝐴 ∪ 𝐵𝐵| 10.

(18) 當兩集合共有的元素越多時,代表兩集合越相似,Jaccard Index 亦越高。 3.. Yue’s Index. Jaccard Index 未考慮元素的比例問題,在相似性比較上會產生誤差;Yue’s Index (Yue & Clayton, 2005)同時考量兩集合中共有及獨有元素的比例,並藉由一對一 比較兩集合下共有元素的比例,以給予比例相似者更高的權重,公式如下:. 其中,. 𝜃𝜃 =. 1 ∑𝑠𝑠𝑖𝑖=1 𝑝𝑝𝑖𝑖2. +. 𝑠𝑠0 ∑𝑖𝑖=1 𝑝𝑝𝑖𝑖 𝑞𝑞𝑖𝑖 2 ∑𝑠𝑠𝑖𝑖=1 𝑞𝑞𝑖𝑖2. −. 𝑠𝑠0 ∑𝑖𝑖=1 𝑝𝑝𝑖𝑖 𝑞𝑞𝑖𝑖. =. ∑𝑖𝑖 𝑝𝑝𝑖𝑖 𝑞𝑞𝑖𝑖 ∑𝑖𝑖(𝑝𝑝𝑖𝑖 − 𝑞𝑞𝑖𝑖 )2 + ∑𝑖𝑖 𝑝𝑝𝑖𝑖 𝑞𝑞𝑖𝑖. 𝑝𝑝𝑖𝑖 及 𝑞𝑞𝑖𝑖 代表元素 i 在兩集合下的比例. 政 治 大 𝑠𝑠 代表兩集合的共有元素種類數 立 𝑠𝑠1 及 𝑠𝑠2 代表兩集合的元素種類數 0. ‧ 國. 學. 當兩集合有完全一致的元素結構時,𝜃𝜃 = 1;而當兩集合的元素比例差異甚大, 或者在任一集合中共有元素的比例極低時,𝜃𝜃會趨近於 0。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 11. i n U. v.

(19) 第三章 研究方法 第一節 資料介紹 本研究以 FOMC Minutes 為分析對象,選取自 1993 年至 2017 年 3 月間,由官方 網站所公布的 193 篇文本。為了進一步比較在升息、降息及利率不變的情況下, 各文本間是否存在顯著差異,本研究將總樣本區分為 3 個子樣本;若該次 FOMC 決議提高利率,則該樣本及前後各一期的樣本,均會被分類為升息樣本,相同準 則亦適用於降息樣本,其餘則被歸類為不變樣本。. 政 治 大 立全樣本 升息樣本 降息樣本. 表 3-1-1. FOMC Minutes 分類樣本數. 34. 29. ±1期期數. 193. 50. 39. ‧ 國. 193. 130. 學. 原始期數. 不變樣本. 104. ‧. FOMC Minutes 的內容涵蓋廣泛,其基本架構如下: Annual Organizational Matters (每年第一次會議). 2.. Developments in Financial Markets and the Federal Reserve's Balance Sheet. 3.. Staff Review of the Economic Situation. 4.. Staff Review of the Financial Situation. 5.. Staff Economic Outlook. 6.. Participants‘ Views on Current Conditions and the Economic Outlook. 7.. Committee Policy Action. n. al. Ch. engchi. er. io. sit. y. Nat. 1.. i n U. v. 由於本研究目的為探討 3 時期下的樣本特徵差異,並著重於經濟及政策層面,故 以第 3~7 點作為後續分析對象,即以’’The Committee then turned to a discussion of the economic outlook…’’ 和 ’’In the Committee’s discussion of policy for the intermeeting period ahead,’’等類似句為首句的段落;此外,第 3~7 點間穿插的臨 時項目,以及在第 7 點後的項目均未被納入分析之中。 12.

(20) 下一步,須將文本進行前置處理,才能轉換成詞條-文檔矩陣以進行後續分析。本 研究的處理流程為:去除空白鍵、大小寫轉換、移除標點符號、刪除停止詞、去 除數字、詞幹化及再次移除停止詞;停止詞清單參考英文常見的冠詞、連接詞、 代名詞、介係詞及助動詞等,詳見附錄。. 第二節 潛在語意分析與文本分類 潛在語意分析(LSA)屬於監督學習(supervised learning)的一環,其基本流程如第二 章文獻探討中所述,將經過前置處理的詞條-文檔矩陣進行奇異值分解(SVD)後,. 政 治 大 陣;此後,計算目標變數與該新矩陣間的 cosine 相似性,以求得與目標變數間最 立. 依奇異值大小取一域值 k,作為維度縮減的標準,並據此計算新矩陣以替代舊矩. ‧ 國. 學. 相近的文本。. 本研究沿用上述方法,將涵蓋 193 篇文本、3631 種單詞的詞條-文檔矩陣 A,分. ‧. 別取全部單詞及 TF 權重前 200 大單詞進行奇異值分解,並以奇異值的累積解釋. sit. y. Nat. 程度(k)達 90%及 95%以上為標準,計算維度縮減後的新矩陣A′。在A′ 下,分別計. er. io. 算升息、降息及不變樣本中全部單詞的平均權重𝑞𝑞1 , 𝑞𝑞2 及𝑞𝑞3,作為三大子樣本的特 徵向量;最後,計算𝑞𝑞1 , 𝑞𝑞2 , 𝑞𝑞3 與A′ 中 193 篇文本間的 cosine 相似性,得出一相似. n. al. 性矩陣 B。. Ch. engchi. i n U. v. 若將矩陣 B 的各文本按其升息、降息或不變類別,分別標誌 1、2 及 3,即可利 用線性判別分析(Linear Discriminant Analysis, LDA)進行文本分類。首先比較當 k=90%或 k=95%下,升息、降息及不變的分類結果差異,並取結果較佳的 k 值進 行後續分析;接著嘗試增加新解釋變數,觀察在全部單詞 Entropy 或 TF 權重前 50 大單詞 Entropy 下,是否可改善分類的準確度;最後,改以兩類來觀察分類結 果,即升降息及不變、升息及降息不變、降息及升息不變,並比較增添全部單詞 Entropy 或前 50 大單詞 Entropy 後,是否能增進分類的正確率。. 13.

(21) 第三節 探索性資料分析 探索性資料分析(Exploratory Data Analysis, EDA) (Tukey, 1977)屬於非監督學習 (unsupervised learning),其目的在於資料偵錯,並對資料特性有初步了解;透過 圖形化方式呈現資料的基本統計量等資訊,藉此判別其適合的統計模型。本研究 將從 3 個面向來觀察 FOMC Minutes 的基本特性,1)前置流程,即移除停止詞及 詞幹化後對全樣本的影響,2)基本統計量,即全樣本及三個子樣本的總字數、字 彙種類、稀疏度等資訊,3)單詞特徵比較,包含總字數及總字彙數、單詞權重及 Entropy。. 政 治 大. 單詞特徵比較是從單詞使用狀況的角度出發,以探討文本的特性。在總字數及總. 立. 字彙數比較中,主要呈現該兩大特徵的時間序列趨勢;在單詞權重部分,首先分. ‧ 國. 學. 別從詞頻(以下簡稱 TF)及詞頻-逆文件頻率(TF-IDF)角度出發,探討在各時期或. ‧. 各子樣本下,權重前 30 大單詞的相似性,並進一步以 Jaccard Index、Yue’s Index 及 cosine 來衡量所有文本間的關聯程度。前兩項指標的計算依據為單詞 TF 權重,. y. Nat. io. sit. 以各文本間權重前 20、30、50 及 100 大單詞為主,兩兩比較文本間單詞的相似. n. al. er. 程度;cosine 則以 TF-IDF 為基礎,計算文本在向量空間中的相近程度。最後,. Ch. i n U. v. 透過 Entropy 衡量文本的信息量,觀察在時間序列下,文本不均度及不確定性的 變化趨勢。. engchi. 14.

(22) 第四章 研究結果 第一節 潛在語意分析與文本分類 一、奇異值分解的解釋效果 下圖展示了在全部(193 篇)、升息(50 篇)、降息(39 篇)及不變(104 篇)樣本下,各 奇異值的累積解釋比例;在文本數越多的情況下,其能萃取的特徵亦越多,故全 樣本累積比例的遞增速度最快。. 政 治 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. 圖 4-1-1. engchi. i n U. v. 三大樣本的奇異值累積解釋比例. 二、LDA 分類結果比較 (一) 全部單詞 將全部單詞的詞條-文檔矩陣 A 進行奇異值分解(以下簡稱 SVD)後,比較在奇異 值累積解釋能力(以下簡稱 k)達 90%(前 9 個)及 95%(前 32 個)下,相似度矩陣 B 進行潛在線性分析(以下簡稱 LDA)的分類結果。當 k=90%時,合計正確率僅 69.43%,若取 k=95%時,則正確率可提高至 76.68%,即在增加選取 23 個維度 下,正確率始能改善 7.25%。 15.

(23) 表 4-1-1. 全部單詞矩陣的分三類效果(k=95%). k=95%. 升息. 降息. 不變. 合計. 升息. 41. 2. 11. 降息. 0. 24. 10. 不變. 9. 13. 83. 文本數. 50. 39. 104. 193. 正確數. 41. 24. 83. 148. 正確率 82.00% 61.54% 79.81% 76.68%. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. a l 全部單詞矩陣的分三類效果(k=95%) v i n 在 k=95%下,新增所有單詞 Entropy 或 TF 權重前 50 大單詞 Entropy 作為解釋 Ch U engchi n. 圖 4-1-2. 變數,觀察是否能改善分類結果。在所有單詞 Entropy 下,合計正確率為. 77.2%,前 50 大單詞 Entropy 則為 77.72%,兩者差異不大,正確率與前項結果 相比亦無明顯提升。 表 4-1-2. 全部單詞矩陣的分三類效果(k=95% & Entropy) k=95%. 升息. 降息. 不變. 合計. 升息. 39. 2. 12. 降息. 0. 28. 9. 不變. 11. 9. 83. 文本數. 50. 39. 104. 193. 正確數. 39. 28. 83. 150. Entropy(top50). 16.

(24) 正確率. 78.00% 71.79% 79.81% 77.72%. 若改以兩類觀察,結果如下。不變及升降息分類結果最差,正確率僅 65.28%, 降息不變及升息、升息不變及降息的正確率則可達 90.67%、87.05%,此結果暗 示升息及降息樣本間應存在明顯的特色差異,而不變樣本則涵蓋了升息及降息 樣本的特色。 表 4-1-3 k=95%. 不變. 升降息. 不變. 60. 升降息. 合計. 全部單詞矩陣的分兩類效果(k=95%). k=95%. 降息不變. 升息. 23. 降息不變. 134. 44. 66. 升息. 文本數. 104. 89. 193. 正確數. 60. 66. 126. 合計. k=95%. 升息不變. 降息. 合計. 9. 升息不變. 144. 15. 9. 41. 降息. 10. 24. 文本數. 143. 50. 193. 文本數. 154. 39. 193. 正確數. 134. 41. 175. 正確數. 144. 24. 168. 治 90.67% 正確率 93.51% 61.54% 87.05% 93.71% 82.00% 政 大 此外,若新增 TF 權重前 立 50 大單詞 Entropy 作為解釋變數,則不變及升降息、. 正確率 57.69% 74.16% 65.28%. 正確率. ‧ 國. 學. 降息不變及升息、升息不變及降息的正確率分別為 66.32%、87.56%、89.12%, 與前項結果相比差異不大。. ‧. (二) 前兩百大單詞. sit. y. Nat. 此處改以 TF 權重前兩百大單詞的詞條-文檔矩陣進行分析,流程同前項所述。. er. io. 在 k=90%(前 4 個)下,正確率為 64.25%,若 k=95%(前 15 個),則正確率提升至. al. v i n Ch 表 4-1-4 前兩百大單詞矩陣的分三類效果(k=95%) U i e h n c g 升息 降息 不變 合計 k=95% n. 72.54%,即在增加選取 11 個維度下,可提升 8.29%的準確度。. 升息. 38. 2. 15. 降息. 0. 24. 11. 不變. 12. 13. 78. 文本數. 50. 39. 104. 193. 正確數. 38. 24. 78. 140. 正確率 76.00% 61.54% 75.00% 72.54%. 17.

(25) 圖 4-1-3. 前兩百大單詞矩陣的分三類效果(k=95%). 政 治 大. 在 k=95%下,新增所有單詞 Entropy 或 TF 權重前 50 大單詞 Entropy 作為解釋. 立. 變數,觀察是否能改善分類結果。在所有單詞 Entropy 下,合計正確率為. 學. ‧ 國. 73.58%,前 50 大單詞 Entropy 則為 75.13%,兩者差異不大,後者正確率與前 項結果相比微幅提升。. ‧. 前兩百大單詞矩陣的分三類效果 (k=95% & Entropy) k=95%. Nat. 升息. 降息. 不變. 升息. 37. 2. 12. 降息. 0. 27. 11. 13. 10. 合計. n. Ch. 文本數 正確數 正確率. e50n g 39c h i 37. 27. er. io. a不變 l. sit. Entropy(top50). y. 表 4-1-5. iv n U 193 104 81. 81. 145. 74.00% 69.23% 77.88% 75.13%. 若改以兩類觀察,結果如下。不變及升降息分類結果最差,正確率僅 64.77%, 降息不變及升息、升息不變及降息的正確率則可達 86.53%、87.05%,此結果亦 暗示升息及降息樣本間應存在明顯的特色差異,而不變樣本則涵蓋了升息及降 息樣本的特色。. 18.

(26) 表 4-1-6 k=95%. 不變 升降息 合計. 前兩百大單詞矩陣的分兩類效果 (k=95%) k=95%. 降息不變. 升息. 合計. k=95%. 升息不變. 降息. 合計. 不變. 60. 24. 降息不變. 132. 15. 升息不變. 145. 16. 升降息. 44. 65. 升息. 11. 35. 降息. 9. 23. 文本數. 104. 89. 193. 文本數. 143. 50. 193. 文本數. 154. 39. 193. 正確數. 60. 65. 125. 正確數. 132. 35. 167. 正確數. 145. 23. 168. 正確率 57.69% 73.03% 64.77% 正確率. 92.31%. 70.00% 86.53% 正確率. 94.16% 58.97% 87.05%. 此外,若新增 TF 權重前 50 大單詞 Entropy 作為解釋變數,則不變及升降息、 降息不變及升息、升息不變及降息的正確率分別為 64.77%、86.53%、87.56%, 與前項結果相比幾無差異。 總結來說,在分三類的情況下,k=95%的正確率會大於 k=90%,而新增 Entropy. 政 治 大. 作為解釋變數雖能提升正確率,但效果有限。此外,若以 TF 權重前兩百大單. 立. 學. 度或新增變數的增加,其正確率會愈趨接近。 表 4-1-7. k=95%. 全部單詞. 69.43%. 76.68%. 77.20%. TF 前兩百大. 64.25%. 72.54%. 73.58%. 4.15%. 3.63%. io. 正確率差異. 5.18%. n. al. Entropy(all). Entropy(top50) 77.72%. er. Nat. k=95%. y. k=95%. k=90%. sit. 分三類. 全部單詞及前兩百大單詞的分三類結果比較. ‧. ‧ 國. 詞的詞條-文檔矩陣進行分析,分類效果可逼近使用全部單詞者,且隨著選取維. i n U. 75.13% 2.59%. v. 在分兩類的情況下,以不變及升降息的分類結果最差,升息及降息不變、降息. Ch. engchi. 及升息不變的正確率則可達八成之上;若比較全部單詞及 TF 前兩百大單詞的 分類正確率,則可發現除升息及降息不變下,其餘兩類差異微小。此外,新增 Entropy 作為解釋變數未必能改善分類正確率,其效果有正有負,甚至沒有影 響。 表 4-1-8. 全部單詞及前兩百大單詞的分兩類結果比較. 分兩類. 不變&升降息 升息&降息不變 降息&升息不變 不變&升降息 升息&降息不變 降息&升息不變. (k=95%). Entropy(top50). Entropy(top50). Entropy(top50). 全部單詞. 65.28%. 90.67%. 87.05%. 66.32%. 87.56%. 89.12%. TF 前兩百大. 64.77%. 86.53%. 87.05%. 64.77%. 86.53%. 87.56%. 正確率差異. 0.52%. 4.15%. 0.00%. 1.55%. 1.04%. 1.55%. 19.

(27) 第二節 探索性資料分析 一、文本的前置處理 在將文本資料轉換成詞條-文檔矩陣前,需先對文本進行前置處理(詳見第三章研 究方法),以降低後續分析時的雜訊干擾。下表列出在完全未處理、移除停止詞及 詞幹化的狀況下,193 篇 FOMC Minutes 其字彙數、總字數及稀疏度的變化。 表 4-2-1. 文本前置處理之比較. 未處理 總字彙數. 移除停止詞. 移除停止詞. 且詞幹化. 768843 政 治543028大 3983.64 2813.62 6737. 立 非空格數/空格數 192939/1107302 稀疏度. 177417/1098120. 85%. Nat. 137260/563523. 86%. 80%. 移除停止詞. 移除停止詞且詞幹化. 128 (1.90%). 2978 (45.06%). 225815 (29.37%). 3875 (0.71%). sit. 減少總字數(比例). 2793.54. ‧. 減少字彙數(比例). 539153. 學. ‧ 國. 總平均字數. 3631. y. 總字數. 6609. n. al. er. io. 由表可知,停止詞的種類數少,但字數占比甚大,藉由去除這些無意義單詞,可. i n U. v. 降低資料的雜訊;另一方面,詞幹化可大幅降低字彙種數,對總字數則影響甚小,. Ch. engchi. 代表同樣意義的單詞以多種形態存在,而詞幹化可還原單詞的原本樣貌,降低分 析時的維度。後續將以移除停止詞且詞幹化的詞條-文檔矩陣,進行探索性資料 分析及 LSA 分析。. 二、樣本的基本統計量 本研究將經過前置處理後的文本,區分為升息、降息及不變三種詞條-文檔矩陣, 分別觀察其基本統計量。由下表可知,當篇數越多時,總字數、字彙數亦越高, 但平均字數則未必如此;在字數變異度上,升息樣本雖在總字數及篇數上均不及 不變樣本,但卻與其有相近的字數變異程度。最後觀察稀疏度,可發現其隨總字. 20.

(28) 數、字彙數一同上升,隱含字彙量的增加雖會使總字數提高,但邊際效果遞減, 符合齊夫法則(zip’s law)的精神。 表 4-2-2. 全樣本及子樣本的基本統計量. 全樣本. 升息樣本. 降息樣本. 不變樣本. 文本數. 193. 50. 39. 104. 總字數. 539153. 125307. 99493. 314353. 總平均字數. 2793.54. 2506.14. 2551.10. 3022.63. 字數變異度. 731.43. 723.16. 509.97. 732.93. 3631. 2488. 2424. 3156. 33460/90940. 27324/67212. 76476/251748. 73%. 71%. 77%. 總字彙數. 非空格數/空格數 137260/563523 稀疏度. 80%. 政 治 大 在初步了解樣本的基本統計量後,後續將從單詞使用的觀點,就總字數及總字彙 立 三、單詞特徵比較. ‧ 國. 學. 數、單詞權重及 Entropy 切入,比較其時間序列的趨勢,或在不同時期及子樣本 下的分布情況。. ‧. (一) 總字數及總字彙數. sit. y. Nat. 若將 193 篇文本的總字數及總字彙數,以時間序列方式呈現,並標註該樣本屬於. io. er. 升息、降息或不變樣本,結果如下。兩特徵值大致呈現先降後升的趨勢,並均以. al. v i n C h 年後的樣本點以不變樣本居多,與此之前則 後應出現結構上的轉變;此外,2007 engchi U n. 2007 年金融海嘯(約第 110 篇文本)為分界點,隱含 FOMC Minutes 在金融危機過. 多以升降息樣本交替為主。綜上所述,可推測在總字數盒形圖中,不變樣本中位 數偏高,而升息樣本離群值較多的原因。. 21.

(29) 立. 政 治 大. y. n. al. er. sit. 文本總字數(上)、總字彙數(中)、字數盒型圖(下). io. (二) 單詞權重. ‧. ‧ 國. 學. Nat. 圖 4-2-1. i n U. v. 在第二章文獻回顧中曾提及,文本向量中單詞權重的給予,一種為僅考慮該單. Ch. engchi. 詞在特定文本中的使用頻率(以下簡稱 TF),另一種除考慮 TF 外,亦將該單詞 在所有文本中的出現比例納入考量,此即詞頻-逆文件頻率(以下簡稱 TF-IDF)。 以下將先從不同時期及子樣本下,觀察 TF 及 TF-IDF 前 30 大單詞的使用種類 及相似度;接下來,以全樣本中 TF 前 20、30、50 及 100 大單詞為主,利用 Jaccard Index 及 Yue’s Index 進行關聯性分析;最後改以 TF-IDF 計算文本間的 cosine 相似度,並與前項結果相互比較。 1. TF/TF-IDF 前 30 大單詞 若將 1993 年到 2017 年 3 月間的 193 篇文本,區分為 6 個子時期,分別取該時期 下 TF 及 TF-IDF 前 30 大單詞,兩兩時期比較相同單詞數,結果如下圖。在 TF 22.

(30) 權重下,連續 2 至 3 個時期內的相同單詞數均達 20 個以上,但個數隨時間遞減; 各 時 期 下 的 常 見 單 詞 包 含 ”rate” 、 ”price” 、 ”inflat” 、 ”econom” 、 ”market” 及”growth”等,但排序則有所改變,例如”growth”從排名前五跌落至 十名之外,而”inflat”則從十名之外晉升為排名第一。 表 4-2-3 TF. 6 大時期下的 TF 單詞相似度比較. 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017. 1993-1995. 30. 24. 24. 21. 19. 17. 1996-2000. 24. 30. 23. 19. 18. 16. 2001-2005. 24. 23. 30. 24. 21. 19. 2006-2010. 21. 19. 24. 30. 23. 21. 2011-2015. 19. 18. 21. 23. 30. 25. 2016-2017. 17. 16. 30 政 19 治 21大 25 在 TF-IDF 權重下,各時期的單詞差異較大,相鄰兩期的相同單詞數不及 20,個 立. ‧ 國. 學. 數遞減快速;由於 TF-IDF 賦予在所有文本中出現次數較少的單詞,有較大的權 重,故能篩選出各時期下的代表性單詞,例如 1996-2000 年的”asia,2001-2005 年. ‧. 的 ”. hurrican” 、 ”attack” 、 ”terrorist” 、 ”softwar” , 2006-2010. 表 4-2-4. y. 6 大時期下的 TF-IDF 單詞相似度比較. n. al. 1993-1995. 30. 16. 1996-2000. 16. 2001-2005. 9. 2006-2010. 9. 11. 11. 2011-2015. 8. 9. 2016-2017. 4. 5. 30 C h 12. 9. 9. er. 1993-1995 1996-2000 2001-2005 2006-2010 2011-2015 2016-2017. io. TF-IDF. sit. Nat. 的”loan” 、”credit” 、”mbs”,2016-2017 年的”brexit”。. 年. v ni. 8. 4. 9. 5. 9. 5. 30. 17. 9. 9. 17. 30. 12. 5. 9. 12. 30. 12 11 e n30g c h i 11U. 若按第三章研究方法中所述,將 193 篇文本區分為升息、降息及不變樣本,兩兩 比較 TF 及 TF-IDF 前 30 大單詞的相似程度,結果如下圖。在 TF 權重下,升息 樣本的單詞存在較大差異,但整體而言,各樣本間的差異不大;在 TF-IDF 權重 下 , 降 息 樣 本 的 單 詞 存 在 明 顯 差 異 , 其 包 含 ”credit” 、 “attack”、”terrorist”、”deterior”、”tight”及”tax”,升息樣本則涵蓋”katrina”. 23.

(31) 、”softwar”及”hurrican”。此外,不論在 TF 或 TF-IDF 權重下,不變樣本與全樣 本間的相似度均最高。 表 4-2-5. 4 大類別下的 TF(上)、TF-IDF(下)單詞相似度比較 TF. 全樣本. 升息. 降息. 不變. 全樣本. 30. 25. 27. 28. 升息. 25. 30. 24. 24. 降息. 27. 24. 30. 25. 不變. 28. 24. 25. 30. TF-IDF. 全樣本. 升息. 降息. 不變. 全樣本. 30. 22. 17. 28. 升息. 22. 降息. 立. 不變. 30 17 22 治 政 17 17 30 大 17 28. 22. 17. 30. ‧ 國. 學. 2. 文本相似度衡量(TF 權重). Jaccard Index 是藉由比較兩兩文本間,前 20、30、50 及 100 大單詞的交集元素. ‧. 占聯集元素之比例,以觀察文本間的相似程度。由下圖可知,從 1993 年到 2017. sit. y. Nat. 年 3 月間的 193 篇文本,大致可分為兩大群集及兩小群集:首先為 1993 到 2000. al. n. 兩小群集,最後是 2008 年後的第二大群集。. 圖 4-2-2. Ch. engchi. er. io. 年網路泡沫的第一大群集,隨後為 2001 到 2004 年、2005 到 2008 年金融海嘯的. i n U. v. Jaccard Index 文本相似度衡量 24.

(32) Yue’s Index 考量了交集及聯集元素比例,且一對一比較交集元素,使文本相似度 的特徵更為明顯;其分類結果與 Jaccard Index 大致相仿,但可更清楚觀察趨勢的 變化,包含各群集內部的相似度演變。. 政 治 大. 圖 4-2-3. Yue’s Index 文本相似度衡量. 學. ‧ 國. 立. 3. 文本相似度衡量(TF-IDF 權重). ‧. 若以 TF-IDF 賦予文本中各單詞的權重,並計算文本在向量空間中的 cosine 相似 性,結果如下。相較於前小節,在不篩選單詞的情況下,大致可分為兩大群集、. y. Nat. io. sit. 一小群集:第一大群集為 1993 到 2001 年,第一小群集為 2001 到 2005 年,最後. n. al. er. 為 2006 年後的第二大群集。. Ch. 圖 4-2-4. engchi. i n U. v. cosine 文本相似度衡量. 從詞頻觀點切入,在比較前百大單詞的相似程度上,Yue’s Index 的效果會優於 Jaccard Index,不過結果大致相仿,此外,選取約 30~50 大單詞即有不錯的效 果。若從 TF-IDF 觀點出發,即便不篩選任何單詞,cosine 仍能捕捉文本相似度 的主要趨勢,結果亦與前兩前指標類似。 25.

(33) (三) Entropy Entropy 是度量信息的指標(詳見第二章文獻回顧),當 Entropy 越高時,代表不 確定性及信息量越高,且不均度下降。下圖為全樣本中所有單詞 Entropy 的時 間序列,若從循環的觀點切入,可發現兩次峰頂均發生在經濟危機之後,第一 個峰頂為 2000 年網路泡沫後(約第 60~70 篇文本),第二個峰頂為 2007 年金融 海嘯後(約第 110~120 篇文本),即 Entropy 確實可部分反映出經濟動盪的不確定 性。. 政 治 大. 立. 全部單詞 Entropy 序列. ‧. ‧ 國. 學. 圖 4-2-5. 若取全樣本中,使用頻率前 20、30、50 及 100 大單詞,其 Entropy 走勢與使用. y. Nat. io. sit. 全部單詞的 Entropy 走勢恰好相反,網路泡沫及金融海嘯時期反而落於前者峰. n. al. er. 谷處,不均度的提高可能代表在危機發生時,前百大單詞的使用會趨於集中。. Ch. engchi. Top 20. Top 30. Top 50. Top 100. 圖 4-2-6. i n U. v. 前百大單詞 Entropy 序列. 26.

(34) 第五章 結論與建議 本研究以 1993 年到 2017 年 3 月間的 193 篇 FOMC Minutes 為分析對象,試圖利 用監督式學習及非監督式學習方法,從文本中找出潛藏語意和關鍵變數。在監督 式學習部分,根據潛在語意分析(latent semantic analysis,LSA)的流程,先將經 過前置處理後的文本轉化成詞條-文檔矩陣,並進行奇異值分解(singular value decomposition,SVD)後,即可得一維度縮減的新矩陣。若將該新矩陣按升息、 降息及不變分為三類,分別計算不同樣本下的單詞平均特徵向量,以及三大特徵 向量與新矩陣間的 cosine 相似度,即可得一相似性矩陣。最後,利用線性判別分. 政 治 大. 析(Linear Discriminant Analysis, LDA)對該矩陣進行分類,藉此觀察 LSA 的語意. 立. 萃取效果。. ‧ 國. 學. 在非監督式學習部分,主要利用探索性資料分析(Exploratory Data Analysis, EDA),. ‧. 試圖從 FOMC Minutes 中找尋特徵變數。本研究除觀察前置流程及樣本的基本統 計量外,並以單詞使用的角度切入,進行各樣本下的單詞特徵比較,包含總字數. y. Nat. io. sit. 及總字彙數、單詞權重及 Entropy。其中,單詞權重指在不同時期或分類下,詞. n. al. er. 頻(Term Frequency, TF)或詞頻-逆文件頻率(Term Frequency - Inverse Document. Ch. i n U. v. Frequency, TF-IDF)權重前幾大單詞的關聯性比較,以及利用 Jaccard Index、Yue’s. engchi. Index 及 cosine 進行文本相似度分類。. 本研究結果發現,將文本以 LSA 處理並經 LDA 分類後,升息、降息及不變的分 類正確度可達七成以上;若分為兩類,以不變及升降息的分類結果最差,升息及 降息不變、降息及升息不變的準確度則可達八成之上。在 EDA 部分,總字數及 總字彙數在 2007 年金融海嘯後均大幅成長,Jaccard Index 及 Yue’s Index 可將文 本明顯區分為 4 個時期,分別為 1993 到 2000 年網路泡沫、2001 到 2004 年、 2005 到 2008 年金融海嘯、2008 年後,Entropy 指標在研究期間內呈現循環趨勢, 其兩次峰頂均發生在 2000 年網路泡沫及 2007 年金融海嘯後。. 27.

(35) 總結來說,LSA 可大致區分出升息、降息及不變樣本的特性,而 EDA 能找出不 同時期或不同類別下的重要單詞,呈現文本的結構變化,亦能進行文本分群。未 來研究方向包含: 1. 進行交叉驗證(cross validation),檢查分類過程中,是否存在過度配適(overfitting)的問題。 2. 根據 LSA 的結果,進一步挖掘三大分類及兩大分類下的潛在特徵。 3. 根據 EDA 的結果,找出不同時期或樣本下的關鍵變數。 4. 結合 EDA 與 LSA,驗證關鍵變數是否可增加分類的正確性。. 治 政 大 研究,最終目的為從文本中自動萃取出潛藏的重要資訊,創造出融合經濟意涵的 立 本研究從文字探勘角度分析 FOMC Minutes,未來希望能在此基礎上進一步深入. 新型指標,以期作為投資人或市場參與者的決策工具。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 28. i n U. v.

(36) 參考文獻 一、中文文獻 1.. 吳軍(2016)。數學之美。人民郵電出版社。. 2.. 吳今朝 譯(2016)。基於 R 語言的自動數據收集。機械工業出版社。. 3.. 王建興,從搜尋引擎到文字探勘,檢自:http://www.ithome.com.tw/voice/90361. 4.. 黄. 耀. 鹏. ,. 文. R. 本. 挖. 掘. 之. 包. tm. ,. 檢. 自. :. http://yphuang.github.io/blog/2016/03/04/text-mining-tm-package/ 二、英文文獻 1.. 政 治 大. Carlo Rosa, (2013). The Financial Market Effect of FOMC Minutes, Economic. 立. Policy Review, Volume 19, Number 2.. ‧ 國. 學. 2.. Claude Elwood Shannon, (1948). A Mathematical Theory of Communication, The. 3.. ‧. Bell System Technical Journal, Vol. 27, 379–423, 623–656.. Deborah J. Danker and Matthew M. Luecke, (2005). Background on FOMC. y. Nat. io. Ellyn Boukus and Joshua V. Rosenberg, (2006). The Information Content of. n. al. er. 4.. sit. Meeting Minutes, Federal Reserve Bulletin, issue Spr, 175-179.. Ch. i n U. FOMC Minutes, Federal Reserve Bank of New York. 5.. engchi. v. Ingo Feinerer, Kurt Hornik, and David Meyer, (2008). Text Mining Infrastructure in R, Journal of Statistical Software, Vol 25 (2008) ,Issue 5.. 6.. Jack C. Yue and Murray K. Clayton, (2005). A Similarity Measure based on Species Proportions, Communications in Statistics - Theory and Methods, Volume 34.. 7.. Martin F. Porter, (1980). An algorithm for suffix stripping, Program 14 (3): 130137.. 29.

(37) 8.. S.Kannan and Vairaprakash Gurusamy, (2014). Preprocessing Techniques for Text Mining - An Overview, International Journal of Computer Science & Communication Networks, Vol 5(1),7-16.. 9.. Tim Loughran and Bill Mcdonald, (2016).Textual Analysis in Accounting and Finance:A Survey. Journal of Accounting Research, Volume 54, Issue 4.. 10. Zhichao Han, (2012). Data and Text Mining of Financial Markets using News and Social Media, University of Manchester.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 30. i n U. v.

(38) 附錄 附錄 1. 全樣本停止詞使用頻率(前 30 大). 停止詞. 使用頻率. 停止詞. 使用頻率. 1. the. 8.70%. 16. than. 0.35%. 2. and. 3.58%. 17. their. 0.31%. 3. that. 1.78%. 18. more. 0.29%. 4. for. 1.39%. 19. like. 0.28%. 5. was. 0.96%. 20. have. 0.27%. 6. were. 0.73%. 21. about. 0.26%. 7. with. 0.68%. 22. other. 0.25%. 8. over. 0.68%. 23. after. 0.20%. 9. had. 0.66%. 10. would. 11. some. 0.49%. 26. they. 0.19%. 12. further. 0.42%. 27. been. 0.19%. 13. from. 0.41%. 28. while. 0.19%. 14. but. 0.36%. 29. not. 0.18%. 15. this. 0.35%. 30. down. 0.16%. 學 ‧. ‧ 國. 立. 24治most 0.20% 政 0.52% 25 could 大 0.20%. n. er. io. sit. y. Nat. al. Ch. engchi. 31. i n U. v.

(39) 附錄 2 1993-1995. 1996-2000. 2001-2005. 2006-2010. 2011-2015. 2016-2017. 1. growth. 1.44%. growth. 1.50%. price. 1.30%. price. 1.35%. inflat. 1.54%. inflat. 1.83%. 2. rate. 1.22%. price. 1.41%. econom. 1.08%. inflat. 1.33%. committe. 1.43%. rate. 1.73%. 3. price. 1.10%. rate. 1.23%. rate. 1.00%. market. 1.30%. rate. 1.42%. market. 1.51%. 4 committe. 1.09%. market. 1.12%. inflat. 0.98%. rate. 1.16%. market. 1.39%. econom. 1.29%. 5. member. 1.05%. increas. 1.06%. growth. 0.96%. econom. 1.03%. econom. 1.21%. particip. 1.26%. 6. econom. 1.02%. inflat. 0.99%. member. 0.95%. quarter. 1.02%. price. 1.12%. price. 1.14%. 7. increas. 1.00%. econom. 0.93%. quarter. 0.91%. increas. 1.01%. particip. 1.12%. continu. 1.14%. 8. polici. 0.99%. quarter. 0.93%. market. 0.89%. continu. 0.91%. continu. 1.00%. expect. 1.13%. 9. quarter. 0.94%. year. 0.92%. increas. 0.87%. growth. 0.89%. expect. 0.95%. increas. 1.10%. 10. year. 0.92%. committe. 0.90%. year. 0.86%. remain. 0.87%. increas. 0.94%. committe. 1.05%. 11. period. 0.75%. member. 0.88%. busi. 12. rang. 0.73%. continu. 0.73%. continu. 13. market. 0.72%. period. 0.73%. polici. 14. month. 0.72%. month. 0.71%. 15. busi. 0.70%. ‧ 國. TF. 6 大時期單詞使用頻率(前 30 大). polici. particip. 0.86%. polici. 0.89%. polici. 0.95%. 0.81%. expect. 0.83%. remain. 0.88%. labor. 0.92%. 0.81%. year. 0.80%. term. 0.79%. percent. 0.87%. committe. 0.80%. declin. 0.78%. labor. 0.74%. feder. 0.84%. 0.65%. spend. 0.79%. committe. 0.67%. condit. 0.74%. remain. 0.78%. recent. 0.64%. consum. 0.76%. feder. 0.65%. 學. 政 治 大 0.82%. declin. 0.69%. condit. 0.77%. 17 monetari. 0.66%. consum. 0.63%. remain. 0.72%. recent. 0.64%. growth. 0.68%. recent. 0.73%. 18. reserv. 0.65%. rise. 0.61%. expect. 0.67%. financi. 0.64%. longer. 0.67%. declin. 0.71%. 19. inflat. 0.61%. remain. 0.60%. level. 0.61%. consum. 0.59%. feder. 0.67%. fund. 0.71%. 20. recent. 0.60%. rang. 0.59%. declin. 0.60%. condit. 0.58%. quarter. 0.66%. growth. 0.71%. 21 consum. 0.60%. moder. 0.58%. recent. 0.60%. month. 0.57%. year. 0.64%. term. 0.67%. 22. expans. 0.58%. expans. 0.57%. n. product. 0.59%. level. 0.57%. indic. 0.62%. longer. 0.66%. 23. expect. 0.56%. level. 0.57%. activ. 24. activ. 0.54%. economi. 0.57%. economi. 25. declin. 0.53%. product. 0.56%. 26 economi. 0.53%. busi. 27. direct. 0.52%. 28. level. Ch. engchi U. y. sit. io. al. ‧. 0.68%. Nat. 16 continu. er. 立. v ni. 0.58%. spend. 0.55%. period. 0.61%. quarter. 0.66%. 0.57%. period. 0.53%. pace. 0.60%. year. 0.64%. month. 0.53%. credit. 0.52%. recent. 0.59%. risk. 0.63%. 0.55%. feder. 0.49%. hous. 0.51%. secur. 0.57%. month. 0.62%. demand. 0.53%. pace. 0.47%. busi. 0.51%. level. 0.56%. financi. 0.62%. 0.52%. labor. 0.53%. period. 0.47%. pace. 0.51%. month. 0.56%. indic. 0.60%. 29 intermeet. 0.51%. activ. 0.52%. risk. 0.46%. term. 0.51%. purchas. 0.53%. run. 0.60%. 30. 0.51%. somewhat. 0.52%. sale. 0.46%. activ. 0.50%. run. 0.52%. energi. 0.58%. remain. 32.

(40) 附錄 3. 6 大時期單詞 TF-IDF 權重(前 30 大). TF1993-1995. 1996-2000. 2001-2005. 2006-2010. 2011-2015. 2016-2017. IDF 1. mthree. 0.13. mthree. 0.17. hurrican. 0.13. particip. 0.11. particip. 0.15. particip. 0.04. 2. juli. 0.07. april. 0.13. octob. 0.09. august. 0.10. agenc. 0.15. al-. 0.04. 3. novemb. 0.06. octob. 0.11. august. 0.09. april. 0.09. mandat. 0.12. brexit. 0.03. 4. april. 0.06. juli. 0.11. septemb. 0.08. octob. 0.08. guidanc. 0.12. agenc. 0.03. 5. restraint. 0.06. novemb. 0.10. april. 0.08. march. 0.08. billion. 0.09. decemb. 0.03. 6. august. 0.06. august. 0.08. juli. 0.08. juli. 0.08. program. 0.09. district. 0.03. 7. octob. 0.06. februari. 0.07. novemb. 0.07. novemb. 0.08. april. 0.09. afe. 0.03. 8. accept. 0.05. twelv. 0.06. forese. 0.07. decemb. 0.07. medium. 0.09. eme. 0.02. 9. februari. 0.05. accept. 0.06. attack. 0.07. septemb. 0.07. loan. 0.08. global. 0.02. 10. lesser. 0.05. januari. 0.06. disinfl. 0.06. loan. 0.07. secur. 0.08. base. 0.02. 11. januari. 0.04. asian. 0.06. terrorist. 0.06. februari. 0.06. maximum. 0.08. januari. 0.02. 12. veloc. 0.04. upper. 0.06. march. 0.05. headlin. 0.06. asset. 0.07. medium. 0.02. 13. give. 0.04. bias. 0.06. softwar. 0.05. agenc. 0.06. march. 0.07. pce. 0.02. 14. presumpt. 0.03. centuri. 0.05. decemb. 0.05. januari. 0.06. octob. sloo. 0.02. 15. contempl. 0.03. restraint. 0.05. januari. 0.05. facil. 0.06. 學. 0.07. desk. 0.07. undershoot. 0.02. 16. degre. 0.03. veloc. 0.05. stimulus. 0.05. program. 0.06. decemb. 0.07. referendum. 0.02. asia. 0.05. katrina. 0.05. credit. 0.05. januari. 0.07. path. 0.02. ‧. 18. decemb. 0.03. june. 0.05. remov. 0.05. strain. 0.05. stabl. 0.07. roll. 0.02. 19. finish. 0.03. fourth. 0.05. incent. 0.05. paper. 0.05. threshold. 0.06. novemb. 0.02. 20. fourth. 0.03. turmoil. 0.04. equal. 0.05. fomc. 0.05. novemb. 0.06. cre. 0.02. 21. care. 0.03. behavior. fulfil. 0.05. mbs. 0.05. fomc. 0.06. normal. 0.02. 22. monitor. 0.03. durabl. 0.04. 23. implement. 0.03. septemb. 0.04. Ch. 24. connect. 0.03. march. 0.04. 25. establish. 0.03. decemb. 26. legisl. 0.03. 27. discount. 28 29. engchi U. sit. v ni. 0.05. june. 0.05. reinvest. 0.06. drill. 0.02. 0.05. deterior. 0.05. mbs. 0.06. maximum. 0.02. tax. 0.05. secur. 0.05. septemb. 0.06. desk. 0.02. 0.04. geopolit. 0.05. core. 0.05. dual. 0.06. secur. 0.02. civilian. 0.04. februari. 0.04. pce. 0.05. roll. 0.06. march. 0.02. 0.03. strike. 0.04. tech. 0.04. billion. 0.04. august. 0.06. african. 0.02. septemb. 0.03. contempl. 0.04. unwelcom. 0.04. read. 0.04. juli. 0.05. hispan. 0.02. effort. 0.02. tentat. 0.04. twelv. 0.04. function. 0.04. matur. 0.05. white. 0.02. 0.02. give. 0.03. impetus. 0.04. bid. 0.04. sovereign. 0.05. april. 0.02. 30 merchandis. june. er. io. al. 0.04. y. 0.03. Nat. 17 inflationari. n. ‧ 國. 立. 政 治 大. press. 33.

(41) 附錄 4. 4 大樣本單詞使用頻率(前 30 大). 全樣本. TF. 升息. 降息. 不變. rate. 1.27%. price. 1.48%. market. 1.23%. rate. 1.30%. 2. price. 1.25%. inflat. 1.31%. price. 1.20%. inflat. 1.29%. 3. inflat. 1.22%. rate. 1.30%. econom. 1.12%. market. 1.22%. 4. market. 1.18%. increas. 1.22%. rate. 1.12%. price. 1.17%. 5. econom. 1.09%. growth. 1.20%. growth. 1.11%. econom. 1.13%. 6. committe. 1.01%. market. 1.03%. inflat. 0.90%. committe. 1.10%. 7. growth. 1.01%. committe. 1.00%. quarter. 0.89%. increas. 0.96%. 8. increas. 0.98%. econom. 0.95%. year. 0.82%. continu. 0.94%. 9. continu. 0.88%. polici. 0.92%. declin. 0.78%. growth. 0.90%. 10. quarter. 0.85%. quarter. 0.92%. increas. 0.75%. expect. 0.82%. 11. year. 0.79%. continu. 0.83%. committe. 0.75%. quarter. 0.81%. 12. expect. 0.77%. year. 0.81%. continu. 0.74%. remain. 0.81%. 13. polici. 0.77%. 政 治 大. expect. 0.78%. member. 0.74%. year. 0.77%. 14. remain. 0.75%. member. 0.74%. busi. 0.69%. particip. 0.75%. 15. declin. 0.64%. remain. 0.66%. remain. 0.68%. 16. recent. 0.62%. recent. 0.65%. polici. 0.66%. 17. particip. 0.61%. month. 0.63%. consum. 18. month. 0.61%. consum. 0.61%. 19. period. 0.60%. period. 20. member. 0.60%. 21. consum. 0.59%. 22. condit. 0.57%. 23. level. 0.56%. 24. feder. 0.56%. Ch. 25. busi. 0.55%. 26. term. 27. n. declin. 0.67%. 0.66%. period. 0.62%. financi. 0.64%. condit. 0.62%. 0.58%. recent. 0.63%. month. 0.61%. spend. 0.56%. activ. 0.62%. recent. 0.61%. busi. 0.55%. expect. 0.61%. term. 0.61%. level. 0.54%. economi. 0.59%. labor. y. sit. io. 0.74%. er. Nat. al. polici. ‧. ‧ 國. 立. 學. 1. engchi U. v ni. feder. 0.58%. 0.54%. spend. 0.58%. level. 0.58%. 0.53%. condit. 0.57%. labor. 0.57%. meet. 0.53%. period. 0.57%. consum. 0.56%. 0.53%. rise. 0.51%. month. 0.57%. pace. 0.52%. labor. 0.51%. percent. 0.51%. feder. 0.56%. busi. 0.52%. 28. spend. 0.51%. moder. 0.49%. level. 0.51%. indic. 0.51%. 29. activ. 0.51%. feder. 0.49%. sale. 0.47%. financi. 0.51%. 30. financi. 0.51%. activ. 0.48%. product. 0.46%. member. 0.49%. pace. 34.

(42) 附錄 5. 4 大樣本單詞 TF-IDF 權重(前 30 大). TF全樣本. 升息. 降息. 不變. IDF april. 0.46. april. 0.15. april. 0.10. juli. 0.23. 2. octob. 0.43. novemb. 0.12. octob. 0.10. april. 0.21. 3. juli. 0.40. octob. 0.12. august. 0.08. august. 0.21. 4. novemb. 0.39. hurrican. 0.11. novemb. 0.08. octob. 0.21. 5. august. 0.39. march. 0.09. juli. 0.07. particip. 0.20. 6. particip. 0.34. juli. 0.09. decemb. 0.07. mthree. 0.18. 7. mthree. 0.30. januari. 0.09. march. 0.07. novemb. 0.18. 8. januari. 0.30. septemb. 0.09. particip. 0.06. februari. 0.17. 9. februari. 0.30. august. 0.08. januari. 0.06. januari. 0.15. 10. septemb. 0.29. june. 11. march. 0.29. 12. decemb. 政 治 大. 13 14. septemb. 0.06. septemb. 0.14. decemb. 0.08. februari. 0.05. decemb. 0.13. 0.29. mthree. 0.08. credit. 0.05. march. 0.13. agenc. 0.24. februari. 0.07. mthree. 0.04. agenc. 0.12. june. 0.23. particip. 0.06. june. 0.04. 15. hurrican. 0.18. agenc. 0.05. attack. 0.04. 16. loan. 0.17. restraint. 0.05. terrorist. 17. program. 0.16. remov. 0.04. 18. fourth. 0.16. third. 19. secur. 0.16. 20. third. 0.15. 21. mandat. 22. asset. 0.14. 23. twelv. 0.14. context. 24. fomc. 0.14. 25. billion. 26. n. june. 0.10. 0.04. fourth. 0.10. strain. 0.04. mandat. 0.09. 0.04. third. 0.03. program. 0.09. secur. 0.04. commod. 0.03. twelv. 0.08. accept. 0.04. disinfl. 0.03. billion. 0.08. medium. 0.04. headlin. 0.03. Ch fomc. y. sit. io. 0.10. ‧. Nat. al. 0.15. loan. er. 立. 學. 0.08. ‧ 國. 1. engchi U. v ni. guidanc. 0.08. 0.04. fomc. 0.03. third. 0.08. 0.04. program. 0.03. secur. 0.07. pce. 0.04. fourth. 0.03. asset. 0.07. 0.14. gdp. 0.03. gdp. 0.03. mbs. 0.07. restraint. 0.14. katrina. 0.03. facil. 0.03. accept. 0.07. 27. accept. 0.13. softwar. 0.03. deterior. 0.02. restraint. 0.07. 28. medium. 0.13. slack. 0.03. commerci. 0.02. fomc. 0.06. 29. recoveri. 0.12. read. 0.03. tight. 0.02. pce. 0.06. 30. guidanc. 0.12. fourth. 0.03. tax. 0.02. medium. 0.06. 35.

(43)

參考文獻

相關文件

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

本研究於 2017 年 2 月至屏東縣 10 所校園採集使用水源及經淨水處理

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至

本研究以河川生態工法為案例探討對象,應用自行開發設計之網

本研究於 2017 年 4 月以市面上瓶裝水的品牌隨機抽取國內外各五種品 牌作為研究對象,並利用環檢所公告之採樣方法檢測,收集的樣本以兩種

本研究以河川生態工法為案例探討對象,應用自行開發設計之網

本研究在於國內汽車產業的經營策略之分析,藉由對已選定的個案進行仔 細地資料蒐集與分析,以期最終從中獲致結論。本研究方法,基本上依 Porter 競 爭分析及

渾沌動力學在過去半世紀已被學者廣為研究,但對分數階渾沌系 統及其應用之研究卻相當少。本篇論文主要研究分數階 Chen-Lee 電