• 沒有找到結果。

結合文字探勘與財務指標建置財務預警模型之研究 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "結合文字探勘與財務指標建置財務預警模型之研究 - 政大學術集成"

Copied!
59
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊管理學系研究所 碩士學位論文. 結合文字探勘與財務指標建置財務預警模型之. 政研究治 大. 學. ‧ 國. 立 distress with text mining and financial Prediction of financial indicators. ‧ er. io. sit. y. Nat. al. n. v i n Ch 指導教授:諶家蘭博士、林我聰博士 engchi U 研究生:賴士詮 撰. 中華民國 107 年 7 月. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(2) 摘要 上市櫃公司若是發生財務問題,不僅會影響企業內部的員工與利益,更是會影 響外部眾多投資者的利益,造成投資者重大的財物損失,更嚴重也會引起金融秩 序的混亂造成金融危機,所以建立一個能提早預警公司之財務狀況的系統能提早 察覺公司的財務惡化、發覺公司可能發生問題的癥兆,對投資人發出警訊是非常 重要的,也對國際與國外的金融市場中,預防與降低其造成的傷害。 現今的財務年報與財經新聞當中都是非結構化的文本資料,然而這些文本資料 也蘊藏著許多有關於企業財務狀況的資訊,而這些公開的文本資料雖然豐富且完 整,過往之研究卻較少探討財經新聞之文本資料是否會反映出公司內部的財務營 運狀況,因此本研究也考慮到非結構化的文本資料做情緒分析,根據過往一年的 新聞評論來預警公司是否面臨著倒閉危機。 本研究採用 KNN、Naive Bayes、支援向量機(SVM)三種演算法對 CMoney 財經 新聞進行情緒分析將新聞分類成正向與負向之情緒,並觀察其準確度比較三種演 算法之好壞,而在財務比率指標的部分,本研究採用 Altman(2000)之 ZETA 模型 中的七大類財務比率指標。 而建立財務預警模型的部分,本研究採用台灣證劵交易所所提供 2015 到 2017 年終止上市櫃及變更交易方法之公司的統計資料,並蒐集最近(2015 至 2017)的. 立. 政 治 大. ‧ 國. 學. ‧. 財務弊案之新聞公司,加入分析樣本(財務惡化之企業)之中,選擇共 21 家財務 有問題的企業,並依規模選取 42 家財務狀況良好的企業進行比較且訓練模型, 並利用邏輯式回歸、隨機森林與隱藏馬可夫演算法建立模型並比較其準確度。 本研究為預警台灣上市公司之財務狀況提供了一套完整的研究流程與方法,並 結合文本情緒指標與財務指標的分析流程,可供未來之研究參考。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 關鍵詞:文字探勘、情緒分析、財務預警、企業失敗. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(3) Abstract The financial crisis of listed companies not only threatens the interests of the enterprise and internal staff, but also makes investors face significant financial loss, and that could also lead to the chaos of financial environment. It is important to establish an effective early warning system for prediction of financial crisis. The early warning system can detect the financial deterioration of the company earlier and find the company which have potential crisis. It also can prevent and decrease the harm in the international financial markets. Financial annual reports and financial news are unstructured text data, however, these unstructured text data also contain a lot of information about the financial status of the business. Although these public text data are plentiful and complete, past studies seldom explore the financial news which could reflect the company's internal financial operating conditions. Therefore, this study takes into account the unstructured text data to the early warning system for sentimental analysis. According to financial news of the past year to warn the company whether it is facing a crisis of collapse. We adopt three algorithms (KNN, Naive Bayes, SVM) to classify sentiment of the financial news and observe the accuracy of the three algorithms. According to research result, SVM have the best accuracy among these three algorithms. In the section of financial ratio indicators, this study uses the seven major categories of financial ratios in the ZETA model of Altman (2000). This study uses the statistics provided by the Taiwan Stock Exchange for companies which have terminated the listing of listed stocks from 2015 to 2017. We select 21 financial distress companies and other 42 normal companies without financial distress to train financial early warning model. We adopt logistic regression and random forest two data mining techniques to establish the model. However, the weakness of ZETA model is that the prediction accuracy will be greatly dropped over two years. This study introduces a hidden Markov model to improve the long-term prediction accuracy of the model. In the financial early warning model established in this study, it can be found that the sentimental indicators of textual data are significantly affect the model and verify that textual data can reveal the internal financial status of the company. This paper provides a hybrid method which integrates text mining and hidden Markov model for prediction of financial distress for listed companies in Taiwan.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Keywords: text mining, financial distress, sentimental analysis, business failure. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(4) 目錄 第一章 、緒論.............................................................................................................. 3 1.1 研究背景......................................................................................................... 3 1.2 研究動機......................................................................................................... 4 1.3 研究目的......................................................................................................... 5 1.4 研究方法......................................................................................................... 5 1.5 研究架構........................................................................................................ 6 第二章 、文獻探討...................................................................................................... 7 2.1 財務困境之定義............................................................................................ 7 2.2 財務預警之研究設計.................................................................................... 7 2.3 文字資訊內容分析....................................................................................... 11 2.4 財經字典....................................................................................................... 12 2.5 情緒分析....................................................................................................... 13 2.6 隱藏馬可夫模型(Hidden Markov Model)................................................ 14 2.7 小結............................................................................................................... 15 第三章 、研究方法.................................................................................................... 16 3.1 研究資料....................................................................................................... 16 3.2 演算法........................................................................................................... 21 3.3 模型建立與變數說明................................................................................... 28 第四章 、實驗設計與結果評估................................................................................ 33 4.1 文本情緒分析............................................................................................... 34 4.1.1 斷詞(語彙分析)............................................................................... 34 4.1.2 擴增情緒字典................................................................................... 34 4.1.3 文本新聞向量化(詞袋模型 bag of words).................................. 35 4.1.4 訓練模型(情緒分析)....................................................................... 35 4.1.5 測試與驗證....................................................................................... 38 4.1.6 情緒分析演算法 ANOVA 分析.......................................................... 40 4.2 建立財務預警模型...................................................................................... 41 4.2.1 整理結構化與非結構化指標........................................................... 42 4.2.2 建構模型........................................................................................... 43 4.3 隱藏馬可夫模型建立................................................................................... 43 4.4 交叉驗證評估結果....................................................................................... 45 4.5 統計檢定....................................................................................................... 47 第五章 、結論與建議................................................................................................ 51 參考文獻...................................................................................................................... 53. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 1. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(5) 表次 表 表 表 表 表 表 表 表 表. 3.1 財務預警相關問題上市公司清單............................................................ 20 3.2 各年度 CMoney 新聞數量........................................................................... 20 4.1 Levene 變異數同質性檢定....................................................................... 40 4.2 ANOVA 單因子變異數分析......................................................................... 40 4.3 Post-hoc 檢定........................................................................................... 41 4.4 三種演算法優劣比較................................................................................ 47 4.5 敘述性統計................................................................................................ 48 4.6 Variables in the equation.................................................................. 49 4.7 Nagelkerke R2.......................................................................................... 49. 圖次. 政 治 大. 1.1 研究架構....................................................................................................... 6 3.1 財務正常與不正常的公司之數量比........................................................ 16 3.2 馬可夫模型................................................................................................ 26 3.3 隱藏馬可夫模型......................................................................................... 26 3.4 前向演算法................................................................................................. 27 3.5 維特比演算法............................................................................................. 28 3.6 HMM 模型架構............................................................................................. 31 3.7 研究流程.................................................................................................... 32 4.1 文本情緒分析之步驟................................................................................. 34 4.2 公司各年度相關新聞數平均..................................................................... 36 4.3 平均正向新聞數........................................................................................ 37 4.4 平均負向新聞數........................................................................................ 37 4.5 分類準確度................................................................................................ 38 4.6 10 次之交叉驗證....................................................................................... 39 4.7 平均準確率比較........................................................................................ 39 4.8 建立財務預警模型步驟............................................................................. 42 4.9 訓練 HMM 示意圖........................................................................................ 44 4.10 HMM 流程圖............................................................................................... 44 4.11 5 次交叉驗證結果................................................................................... 45 4.12 財務預警平均準確率.............................................................................. 46. 立. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖 圖. Ch. engchi. i n U. v. 2. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(6) 第一章 、緒論. 1.1 研究背景 上市櫃公司若發生經營不善問題,不僅會對公司內部有影響,也會對投資人 產生巨大傷害,引起金融秩序的混亂造成金融危機,並引發金融秩序的連鎖效 應,甚至會造成國內或國際性的金融危機,例如 2001 年的安隆案與 2008 年雷曼 兄弟的倒閉都造成了全球金融市場的大變動,嚴重影響了全球經濟的發展,然而. 政 治 大 案、和近期(2017 年)被查緝的必翔實業涉及旗下子公司揚明實業對陸企不正常 立. 不只在國外,在我國近年來也發生很多震驚社會的金融弊案例如:知名的力霸. ‧ 國. 學. 放貸,都對國內的金融市場與投資人的信心造成巨大的衝擊,更是嚴重影響台灣 的經濟發展。所以,若能提早察覺公司的財務惡化,提早發覺公司可能發生問題. ‧. 的癥兆,防微杜漸,對投資人發出警訊,降低公司經營失敗對金融市場的衝擊是. y. sit. al. er. io. 2011)。. Nat. 十分重要的,也對國際與國外的金融市場中,預防與降低其造成的傷害(吳琮璠,. v. n. 預警上市櫃公司的財務衰退已經是近十年來熱門的研究主題之一,因為不. Ch. engchi. i n U. 僅僅影響到公司內部,也對股東投資人的權益有極大的影響,財務的不良甚至 擴及到一個國家的經濟(Wanke, Barros, & Faria, 2015)若管理者有一個良好 的財務預警系統,管理者就能及時制定決策來避免掉財務風險的發生,並減輕 投資人對公司財務狀況上的疑慮。 然而近幾年來大資料數據分析的興起,許多資料探勘的技術日新月異,在 資料探勘技術的幫助下,能讓我們更容易的理解成千上萬財務報表資料背後所 隱藏的資訊,並更進一步的分析財務新聞等非結構化的資料,運用這些巨量的 資料與技術讓我們能更精準的預警上市櫃公司是否有不良的財務狀況發生. 3. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(7) 1.2 研究動機 在財務領域中,有兩種重要的資訊:分別是軟資訊與硬資訊(Petersen, 2004),軟資訊代表的是非結構化的資料,例如財務新聞、市場評論與年報, 而硬資訊則代表結構化的數值資料,例如:股價與財務報表上的指標,在過去 財務與會計的研究中,大多數是以硬資訊也就是量化的財務資料做為分析問題 及解釋現象的變數,探討財務報表上會計數字上的內涵,而有關財務新聞的非 結構化的資訊則較少去探討,然而在非結構化的財務新聞中也蘊藏著許多豐富 的資訊可供利用。. 政 治 大 長,以公司的 10-k 年報與財經社交網站上的發文與評論作為財務現象的指標, 立 在國外運用文本分析(textual analysis)於財務及會計上的研究正在成. ‧ 國. 學. 觀察其對公司財務狀況之影響,文本分析包含了主題分析、語意分析、句構分 析與情緒上的分析,Cecchini, Aytug, Koehler, and Pathak (2010)發現文. ‧. 本資訊較數量資訊有競爭性,若能將文件與數量資訊合併分析,因其具有互補. sit. y. Nat. 性而可以呈現出最好的結果。. al. er. io. 而在華語系國家,很少研究中文文字資訊的內涵,也沒有像英語系國家文. v. n. 字分類系統,也缺乏財經方面專業的情緒字庫,導致在國內發展的財務預警模. Ch. engchi. i n U. 型大多只以數值化的指標當作變數進行預測如:以 z-score 模型中國新能源公 司的經濟狀況(Tongshui & Yanli, 2015)、採用三種分類方法:類神經網路、 決策樹、支援向量機,比較三種方法得預警準確度(Geng, Bose, & Chen, 2015),因此本研究根據(吳琮璠,2011)之研究擴增專業的財經中文情緒字庫, 並以文字探勘的技術探索文本資料對於財務預警系統間的關係,進而比較不同 演算法的財務預警準確率。. 4. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(8) 1.3 研究目的 由於企業的財務狀況深深影響到投資人與國家的經濟發展,經由上述背景 與動機的討論,整理出來的研究目的有以下三點: 1.. 根據 2000 年 altman 所提出的財務預警模型(zeta 模型)七大類財務報表 指標為基礎做擴充,根據台灣上市公司的財務報表資訊,以結構化的財務 報表比率建立模型,藉由模型來預測出台灣上市公司近幾年的財務狀況, 並根據結果做出警示。. 2.. 現今的財務年報與財經新聞當中都是非結構化的文本資料,然而這些資料. 政 治 大 研究模型也考慮到非結構化的文本資料做情緒分析,根據過往一季的新聞 立 也蘊藏著許多資訊,在過往的財務預警研究中較少著墨到這一塊,因此本. ‧ 國. 學. 評論來預測公司是否面臨著倒閉危機。 3.. 使用邏輯式回歸、隨機森林、隱藏式馬可夫模型結合情緒分析來提升財務. ‧. 預警系統預測的準確度。. n. al. er. io. sit. y. Nat. 1.4 研究方法. i n U. v. 在本研究中,在文本情緒分類方面採用監督式學習的方式判斷文章情緒的. Ch. engchi. 正負,採用三種分類演算法(SVM、KNN、Naive Bayes)建立情緒分類器,比較 其分類演算法的好壞,並以邏輯式回歸的方式建立財務預警模型,因樣本數屬 於小樣本的抽樣,所以亦用 bootstrap 的隨機採樣的隨機森林演算法,來比較 以邏輯式回歸所建立的財務預警模型,然而為了更精準的觀察財務狀況長期的 波動,本研究建立「隱馬可夫模型」(HMM)來比較其是否會提高模型的預測能 力。 在結構化的財務數值指標方面,採用 2000 年 altman 所提出的財務預警模 型(zeta 模型)七大類財務報表指標為基礎做擴充,以結構化的財務比率建立模 型。 5. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(9) 1.5 研究架構 本篇研究架構總共有 5 個章節如圖 1.1 所示,第一章為緒論在緒論中將討論 研究背景、動機與目的,說明此研究主題的重要性;第二章將針對與本篇研究相 關的主題與方法進行文獻探討;第三章將會介紹本研究的研究方法與所建立的模 型;第四章為實驗的設計與結果的評估;第五章將討論此研究的貢獻與結論及未 來研究方向的建議。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1.1 研究架構. 6. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(10) 第二章 、文獻探討 2.1 財務困境之定義 財務困境是一個廣泛的概念,它包含了許多公司所面臨不同情況的財務困 境與危機(Geng et al., 2015),企業在面臨財務困境前,應有許多的徵兆警 訊出現,若能提前查覺到警訊,當可降低利害關係人的損失(吳娟娟, 2012), 而 Beaver (1966)將企業無法支付已到期的財務義務定義為「失敗」 ,包括發生 下列事件:破產、債劵違約、銀行透支、未支付優先股股利。Altman (1968). 政 治 大. 也提出了關於財務困境的完整描述和界定,指出破產為最接近財務困境的法律. 立. 界定。Zmijewski (1984)定義財務困境為提交破產申請的行為。在我國有些研. ‧ 國. 學. 究依台灣證券交易所股份有限公司(以下簡稱證交所)營業細則第 49 條規定財 務狀況不良公司處以全額交割方式者,視為財務困境公司,有的研究採台灣經. ‧. 濟新報資料庫(TEJ)所列事件為財務困境,而在中國的證卷交易市場中,會把. y. Nat. sit. 判定有財務困境的上市公司標註上特別處理的標籤(Special Treatment) (在. n. al. er. io. 其名稱前加上 ST),如果在特別處理期間財務狀況仍得不到明顯改善,證券交. i n U. v. 易所將暫停該公司股票的交易,並向證監會提交暫停該公司股票上市的建議。. Ch. engchi. 綜合以上討論,本研究採用證交所所提供 2015 到 2017 年終止上市櫃及變更交 易方法之公司的統計資料為發生財務困境之企業的定義,且加入 2015 至 2017 年發生財務舞弊弊案之上市公司加入分析樣本之中,使財務困境之定義更佳的 完整且精確。. 2.2 財務預警之研究設計 2.2.1 統計模型 Beaver (1966)運用單變量統計方法(univariate analysis),提出的單變 7. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(11) 數預警模型,Beaver 透過對 1954-1964 年期間成功與失敗的 79 家企業做比較, 取出 14 種財務比率進行取捨,來檢視企業失敗前數年之個別財務比率,預測 公司發生失敗的機率,然而此模型只以單一變數對公司的財務作預警,雖然簡 單易懂,但是一個企業的財務狀況是用多方面的財務指標來反映的,用單一指 標衡量可能遺失了更多有價值的財務比率,且沒辦法用單一比率就能概括企業 財務的全貌,單一比率對於解釋企業的複雜的財務狀況有不足之處。 Altman (1968)提出了多變數模型改善了 Beaver(1966)的單變量統計方 法,主要是以使用多個變數來組成鑑別函數模型來預測一家企業的財務狀況,. 治 政 大 33 家同產業且財務正常 的學者,以 1946-1965 年間 33 家破產公司,再取另外 立 Altman 是第一個使用鑑別分析(discriminant analysis)研究企業失敗預警. 的公司進行配對並建立模型,使用 22 個財務比率來分析公司潛在的財務危機,. ‧ 國. 學. 萃取出 5 類具有鑑別力的財務指標分別是:流動性(liquidity)、獲利能力. ‧. (profitability) 、 財 務 槓 桿 (leverage) 、 償 債 能 力 (solvency) 和 活 動 性. io. y. sit. model:. Nat. (activity),透過 5 類的財務指標建立起一個類似回歸的鑑別凾數 Z-Score. n. al. er. Z_score = 0.012𝑋𝑋1 + 0.014𝑋𝑋2 + 0.033𝑋𝑋3 + 0.0064𝑋𝑋4 + 0.999𝑋𝑋5. X1=營運資金/總資產(流動性). Ch. engchi. X2=保留盈餘/總資產(累積獲利能力). i n U. v. X3=稅前息前淨利/資產總額(獲利能力) X4=權益市價/負債總額(財務槓桿) X5=銷貨收入/資產總額(活動力) 利用多個財務比率綜合分析預測企業財務失敗或破產的可能性,Altman 採二 元分類檢定法找出分界點為 2.675,即 Z score 大於 2.675 者為正常公司可能 性較高,如小於 2.675 者為失敗公司可能性較高,而 Z score 愈低破產可能性 愈大。該模型在預測公司破產的準確率達 70%-90%,在破產前一年準確率高 達 95%,即模型預測時間越接近破產時間點,模型的預測準確率就越高,而其 8. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(12) 缺陷為前一年預測精準度高,可是在前兩三年的預測精準度將大為下降,後續 有很多篇財務預警之研究都採用 Z-Score model 如:Tongshui and Yanli (2015) 蒐集了 2008 年中國 165 家新能源產業公司,並利用 Z-Score model 來預警中 國新能源產業的財務狀況,Altman, Iwanicz‐Drozdowska, Laitinen, and Suvas (2017)使用改良 Z-score 模型,探討歐洲國家與非歐洲國家財務預警模 型之比較。然而此模型有個很嚴格的假設,即假定自變數間必須要符合常態分 佈且變數與變數間必須假定為互相獨立的關係,並不符合真實世界的情況,故 後續學者 Meyer and Pifer (1970)採用線性機率模型(LPM)來預警公司的財務. 治 政 大 Ohlson, 1980)與 Probit(Zmijewski, 1984)來改善非常態分配的問題。 立. 狀況,也有學者採用非線性迴歸模式 Logit(Li, Crook, & Andreeva, 2014;. Ohlson (1980)以九個財務比率為解釋變數建立 Logistic regression model. ‧ 國. 學. 將 1970-1976 之資料分成三組,分別檢定發現三組資料的準確度均達 92%以. ‧. 上,Logit 模型的最大優點是,不需要嚴格的假設條件,克服了線性方程受統. y. Nat. 計假設約束的局限性,使此模型成了大眾研究財務預警方面較常使用的模型,. er. io. sit. 但其計算過程比較複雜,計算過程有很多近似的處理,所以會稍微的影響準確 度。Zmijewski (1984)使用 Probit 模式分析,來預測公司破產之可能性。Logit. al. n. v i n 模型假設事件符合 Logit 分配,而 C h Probit 模型則假設事件發生機率符合標準 engchi U. 常態分配,因 Probit 模型轉換程序較為複雜,所以在過往的研究中採取 Logit 模型預測公司財務狀況較為多數。. 2.2.2 機器學習分類器 財務預警除了統計模型外,隨著近年來深度學習與資料探勘技術的興起,機 器學習與人工智慧也逐漸運用在財務預警的研究之中,許多研究利用各種分類演 算法訓練分類器,用以分類財務預警之公司,過往有些研究使用支援向量機 (SVM)(Fan & Palaniswami, 2000; Van Gestel et al., 2006)來分類有問題的 9. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(13) 公司,有些研究則使用決策樹的分式作為分類的演算法(Frydman, Altman, & KAO, 1985),因決策樹的分類易於理解分析,且資料的前處理也較為簡單,而近 年來也有很多研究採用多個決策樹的方式建立起一個隨機森林(Random Forest)(杨翰林, 王开骏, & 谢幽篁, 2014; 盂杰, 2014)進行財務預警分類, 因財務預警系統的分析多為小樣本的分析且有很多的自變量,所以適合採用 bootstrap 的隨機抽樣分析,對於很多自變數的資料集可以產生高精準度的分 類,在 Hooda, Bawa, and Rana (2018)使用十種演算法分類財務預警之公司的 比較中也顯示出決策樹與隨機森林擁有良好的分類準確度。因此本研究也採用隨. 治 政 大 然而因深度學習近幾年的興起,類神經網路的演算法也逐漸的應用於財務領域 立. 機森林(Random Forest)的方式建立財務預警模型。. 之中,Odom and Sharda (1990) 最早用於建構預測公司破產模型,採 Altman. ‧ 國. 學. (1968)五個具顯著解釋能力的財務比率,建構類神經網路分析模式,研究企業破. ‧. 產前一年的預測能力,Tam and Kiang (1992)也採用人工神經網路模型進行財務. y. Nat. 預警研究,選取各 59 家財務失敗與正常的企業並使用 19 個財務比率,透過輸入. er. io. sit. 層、隱藏層、輸出層建立模型,模擬人腦的判斷做出準確的預測,能夠處理資料 遺漏和錯誤,而在 20 世紀後有許多學者(Chen & Du, 2009; Dhar, Mukherjee, &. al. n. v i n Ghoshal, 2010)修改了類神經網路之模型,調整隱藏層神經元的數量與學習率, Ch engchi U 最佳化預警的結果,因為類神經網路擁有平行處理和學習的能力,不用進行一些. 統計上的假設前提滿足時才能分析,但是其處理過程如同黑箱,無法顯現個別變 數的影響力。. 2.2.3 ZETA 信用風險模型 近年來最為廣泛使用的模型為(Altman, 1968)所提出的 Z-Score 模型,在 上述的討論中,Altman(1968)選出五個具顯著解釋能力的財務比率,建構模型進 行預測,然而近年來破產公司的規模急劇增大,原先的 Z-Score 模型已無法符合 10. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(14) 現今的金融環境,於是 Altman (2000)提出了 Z-Score 模型的改良模型 ZETA 信 用風險模型(ZETA Credit Risk Model)為 Z-Score 模型的第二代改良模型,財 務比率由原始模型的 5 個增加到了 7 個,並將公司的規模考慮進模型之中,使應 用範圍更廣更進一步接近現實狀況 ZETA = a𝑋𝑋1 + 𝑏𝑏𝑋𝑋2 + 𝑐𝑐𝑋𝑋3 + 𝑑𝑑𝑋𝑋4 + 𝑒𝑒𝑋𝑋5 + 𝑓𝑓𝑋𝑋6 + 𝑔𝑔𝑋𝑋7. 模型中的 a、b、c、d、e、f、g,分別是 ZETA 模型中其變數各自的係數,X1 至 X7 分別表示 7 大類財務比率,7 類財務比率指標為:資產收益率、收益穩定性指 標、債務償付能力指標、累計盈利能力指標、流動性指標、資本化程度的指標、 規模指標。ZETA 模型在破產前 5 年即可有效地劃分出將要破產的公司,其中破. 政 治 大. 產前 1 年的準確度大於 90%,破產前 5 年的準確度大於 70%。ZETA 模型不僅適用. 立. 於製造業,而且同樣有效地適用於各個產業。. ‧ 國. 學. 本研究採用了 ZETA 模型的 7 大類財務指標比率,使模型更接近真實的金融 環境,更提高模型的預測精準度,其缺陷為前一年預測精準度高,可是在長期的. ‧. 預測精準度將大為下降。. io. sit. y. Nat. er. 2.3 文字資訊內容分析. al. n. v i n 現今的財務年報與財經新聞當中都是非結構化的文本資料,然而這些資料 Ch engchi U. 也蘊藏著許多資訊,在過往的財務預警研究中較少著墨到這一塊,然而近年來 文字探勘的興起,許多探勘技術發展日趨成熟,自然語言處理與文本分析技術 便開始應用於財務質性研究之中,Frazier, Ingram, and Tennyson (1984)最 早將年報文字資訊和財務績效比較,分析公司敘述性揭露與破產之關係,由早 期的研究可以發現,這些都是在探討文字資料與財務表現間之敘述性的關係, 並做出一些描述性的統計,並沒有針對文本的內容進行內容分析,並進行財務 預警的預測。 在 2005 年 Magnusson et al. (2005)發現了文字資料的變動,通常表示下一 11. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(15) 季的財務資料也會造成變動,成為最早以非結構化的文本資料粗略的預測下一 季財務狀況的走向之研究,以季報中的經理人的期望之文字資料,來預測公司 未來之財務績效,而 Clatworthy and Jones (2006)聚焦於英國 100 家最獲利 的公司及 100 家最虧損的公司之致股東報告書,研究發現越獲利的公司,股東 報告書往往會創造出財務健全的形象。 而在華語系的國家,較少研究中文文字資訊的內涵,並利用文字探勘進行預 測,主要是因中文與英文的語系不同,還要進行更多的前處理步驟,較英文的 文字探勘還要複雜,再加上中文的斷詞系統與情緒字典發展得比西方國家緩. 治 政 大 企業年報資訊正面、負面態度傾向和不確定程度與資金成本、股價報酬波動性 立. 慢,所以我國年報文字資訊內容之相關研究較少,在我國劉妍辰 (2010)探討. 之關聯性,吳娟娟 (2012)使用公司內部年報的文本資訊,改善模型的準確度,. ‧ 國. 學. 並擴增財經字庫。. ‧ y. Nat. er. io. sit. 2.4 財經字典. 在 財 經 字 典 方 面 , 通 常 英 文 常 採 用 哈 佛 社 會 心 理 學 字 典 (Harvard. al. n. v i n Psychosociological Dictionary)作為字的分類並以此為基礎進行擴充,然而 Ch engchi U. 財經專業的情緒字庫不同於一般的情緒字庫,內含許多金融方面的專業術語, Loughran and McDonald (2011)致力發展於英文的財經情緒字庫,利用詞袋模 型 (bag of words) 檢 查 與 分 析 出 關 於 財 經 相 關 的 專 用 字 彙 (lexicon) , (Loughran & McDonald, 2011)產生六類財務性語意字庫,分別為負面語意詞 (negative, Fin-Neg); 正 面 語 意 詞 (positive, Fin-Pos); 不 確 定 語 意 詞 (uncertainty,Fin-Unc); 訴權語意詞(litigious, Fin-Lit); 語氣強語意詞 (strong modal words,MW-Strong); 和 語 氣 弱 語 意 詞 (weak modal words, MW-Weak)。然而在中文的財經字庫並沒有一個通用的字庫,過往的研究都以現 12. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(16) 有的字庫在逕行加入新的財經字彙做擴充,Tsai, Wang, and Chien (2016)利 用連續詞袋模型(CBOW)將財經字彙自動擴充,並測試其預測財務風險的準確 度,吳娟娟 (2012)以 Loughran and Mcdonald (2011)所建立的六大類財務字 庫,轉換成適用於中文財務文件分類的關鍵字庫,並依據排名進行擴充,陳國 泰和林宜萱 (2013)也依據 Loughran and Mcdonald (2011) 的六大類財務字庫 將其翻譯成中文,並以電腦比對中文新聞進行篩選,編製成中文財經領域之情 緒辭典。 本研究採用吳娟娟 (2012)與陳國泰和林宜萱 (2013)所整理的財務字彙. 政 治 大. 再加上原有的財經情緒字庫擴充。. 立. ‧ 國. 學. 2.5 情緒分析. 在情緒分析的方面,過往的研究以分析文本資料的情緒正負兩種,並利用. ‧. 情緒分析應用於許多領域,Q. Li et al. (2014)使用社群網站的文字資料進. sit. y. Nat. 行情緒分析,將文章情緒分類成正負兩種,使用天真貝氏的分類器進行分類,. al. er. io. 將情緒分析結果用來預測股價交易量的走勢,Akhtar, Faff, Oliver, and. v. n. Subrahmanyam (2011)也探究了文本情緒的好壞對上市股價的影響,並強調負. Ch. engchi. i n U. 向的情緒對股價的影響較大,Yu, Duan, and Cao (2013)比較社群媒體與傳統 媒體的文本進行情緒分析,並給予每一篇文本資料情緒分數-1 至 1,分數越高 者情緒越正面,利用 Naïve Bayes 分類器來分類文章情緒的正負。 而過往研究在判斷文章情緒正負,主要是與財經情緒字典的比對(吳娟 娟,2012),和使用機器學習演算法的分類器的方式分析,如:Q. Li et al. (2014); Yu et al. (2013)使用天真貝氏分類器、Batal and Hauskrecht (2009); Bijalwan, Kumar, Kumari, and Pascual (2014)使用改良的 KNN(K Nearest Neighbor)演算法進行文件分類,而近年來 SVM 支援向量機也被常用於情緒分 析之中,Joachims (1998)的研究中分析了 SVM 應用於文本探勘情緒分類的優 13. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(17) 點,Joachims 指出 SVM 適合處理高維度的資料,也適合處理線性的關係,剛好 文本資料經過向量化後維度極高,而文本分類的問題也大多是線性關係,所以 很適合以 SVM 演算法做處理。 本研究情緒分析之演算法採用天真貝氏、KNN 與 SVM 三種分類器進行比 較,觀察其準確度高低,將結果應用於後續財務預警的系統建立之中。. 2.6 隱藏馬可夫模型(Hidden Markov Model) Hidden Markov Model 是機器學習領域中常常用到的理論模型,與一般馬可. 治 政 大 立刻從 M 個值當中,噴出其中一個值,每一個狀態都是噴出相同的 M 種值,這 立 夫模型不同的是隱藏馬可夫模型添加了一個新要素,其在每當造訪一個狀態,就. M 個值通常標作 V1 到 VM(Blunsom, 2004)。隱藏馬可夫模型適用於像序列或時. ‧ 國. 學. 間序列這樣的“線性”問題的一般統計建模技術,並且已經在語音識別應用中廣. ‧. 泛使用了二十年之久(Eddy, 1996),且也應用於許多領域包括自然語言處理、生. y. Nat. 物辨識、股市預測等,「隱馬可夫模型」提供了一套數學的理論以及工具,讓我. er. io. sit. 們可以利用「看得到的」連續現象去探究、預測另一個「看不到的」連續現象。 其也廣泛用於財務相關之領域之中,Hassan and Nath (2005)將隱藏馬可夫. al. n. v i n 鍊的演算法用於預測航空公司的股價波動,為預測股價提供一個新的研究方式, Ch engchi U. Srivastava, Kundu, Sural, and Majumdar (2008)將隱藏馬可夫模型演算法用. 於信用卡之詐欺偵測當中,利用隱藏馬可夫模型(HMM)來預測與觀察信用卡交易 的信用評估與信用卡詐欺交易的發生,並做出預警。 根據以上探討,本研究利用隱藏馬可夫模型,觀察企業長期序列化的財務狀 況,提升財務預警模型長期的預測精確度,並與另外以邏輯式回歸所建立之模型 做比較,比較其模型長期的預測能力。. 14. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(18) 2.7 小結 根據以上文獻探討,本研究採用 Altman (2000)提出的 Z-score 模型之改 良模型 Zeta 模型的七大類財務比率指標,並以統計模型邏輯式回歸的方式建 立財務預警系統,比較以隨機森林分類器所建立起的財務預警模型的準確率高 低,在非結構化的文本資料部分,依吳娟娟(2012)所整理的財務字彙進行財經 字庫的擴充,根據擴充的情緒字庫來分類文本情緒,且採用 SVM 分類器自動學 習文本分類,並以 KNN、Naive Bayes 等分類器做文章情緒分類的比較。 並應用隱藏馬可夫模型結合情緒分析於財務預警模型之中,運用情緒分析. 政 治 大 的準確率與邏輯式回歸和隨機森林做比較,觀察是否提升預測能力。 立. 的產出為觀察序列訓練隱藏馬可夫模型,並用於分類財務預警之公司,將預測. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 15. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(19) 第三章 、研究方法. 3.1 研究資料 本研究以台灣證劵交易所股份有限公司(以下簡稱證交所,TWSE),所提供 2015 到 2017 年終止上市櫃及變更交易方法之公司的統計資料,而因其所列的下 市公司不一定代表財務惡化,也有可能是財務表現不錯遭到收購而下市,所以此 研究蒐集下市公司之新聞,探究其下市之原因是否是因為財務惡化,並蒐集最近. 政 治 大 共整理出 21 家有財務問題或是發生弊案的企業,並依規模(資產之對數)選取 42 立 (2015 至 2017)的財務弊案之新聞公司,加入分析樣本(財務惡化之企業)之中,. ‧ 國. 學. 家財務狀況良好的企業進行比較且訓練模型,採 1:2 配對選取正常公司,下圖 3.1 為財務正常(label 為 0)與不正常的公司(label 為 1)取樣的數量比:. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.1 財務正常與不正常的公司之數量比. 2015 至 2017 年所整理財務弊案之新聞的上市公司與在此期間的下市公司名 單共 21 家企業,這 21 家企業發生財務問題或是下市之原因,整理如下表 3.1 所示: 年度 2015. 公司名稱. 上市代碼. 成霖. 9934. 財務預警相關問題. 產業別. 成霖公司董事顏國基、顧問戴元 其他相 鑑、稽核魏玉綿、會計管理師邱 關製造 淑汝等,得知董事會將通過資產 業 16. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(20) 重組及買回庫藏股等重大利 多,他們以兒女、胞妹、同事帳 戶事先買入成霖股票,而重大訊 息公布後兩週股票脫手,獲利超 過 300 萬元,檢方依違反證券交 易法起訴。 2015. 台塑. 6505. 集體收賄弊案,前總經理林振 化學工 榮、總管理處發包中心前協理朱 業 金池等數 10 位中高階主管,遭 檢舉長期收受某 PVC 太空包供 應商供養,以確保能取得訂單, 行賄方式包含禮品與現金等. 2015. 勝華科技. 2384. 勝華(2384)之前因 2015 第 3 生技產 季財報經會計師出具否定式核 業 閱報告,核有證交所營業細則第 50 條第 1 項第 5 款規定情事,經 公告自 103 年 11 月 19 日停止上 市買賣. 立. ‧ 國. 學. 冠德. 2546. n. al. er. io. sit. y. Nat. 2015. 志信. 冠德建設旗下根基營造,涉嫌在 建築工 2011 年至 2014 年間,涉以不實 程業 的會計憑證逃漏稅。經過 7 個月 的調查,兩度搜索根基營造,約 談 30 人到案說明,發現馬紹齡 涉嫌透過假造帳目,掏空根基營 造,金額達 7,200 多萬。. ‧. 2015. 政 治 大. 2611. Ch. i n U. v. e經營德安開發、志信國際 ngchi (2611) 運輸產 等事業的董事長黃春發,涉嫌於 業 101 年 2 月間,由志信公司透過 關係企業或人頭,在販售台中一 筆土地的重大訊息發布之前,與 女友人吳秋華,及負責仲介土地 的姮興公司負責人賴偉琨,共同 買進志信公司的自家股票套 利,獲利約 2000 萬元,涉嫌違 反《證券交易法》內線交易。. 2015. 鴻友科技. 2361. 鴻友上市有價證券業經列為變 電腦及 更交易方法及採行分盤集合競 週邊設 價交易方式在案,依證交法第 36 備業 17. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(21) 條規定公告申報的最近期財務 報告顯示淨值為負數,核有證交 所營業細則第 50 之 1 條第 1 項 第 9 款規定情事,自 12 月 28 日 終止其有價證券上市。 2016. 兆豐金控. 2886. 兆豐銀行紐約分行疑涉洗錢,遭 金融保 美國重罰台幣 57 億元引發震驚 險. 2016. 中信金控. 2891. 前中信金副董辜仲諒涉嫌和父 金融保 親辜濂松在境外成立子公司,再 險 藉著投資境外公司名義,將集團 資金層層轉匯出國,最後回流入 辜家口袋,認定中信金遭掏空 3 億美金(楊佩琪, 2016). 2016. 中國電器. 1611. 治 政生產「東亞」燈具聞名的老牌上 大. 立. ‧. ‧ 國. 學. 市公司中國電器 (1611) 爆發 掏空案,中電董事長周麗真、前 總經理張志偉等人,涉嫌利用 CLS、GLI 等 2 家海外公司挪用中 電千萬美金。. 電器製 造業. 南港輪胎. 2101. 前執行副總胡文埕利用職務之 製造與 便,負責機器採購,卻陸續收受 銷售業 設備業者數百萬元回扣,讓廠商 取得訂單,業者再將行賄金額灌 入報價單,將金額轉嫁給南港. 2016. 立錡. 6286. 2016. 介面. 3584. 介面(3584)去年每股大虧 18.63 光電業 元,淨值轉為負數,因此被迫下 市,將於 8 月 3 日終止上市. 2016. MSH-DR. 911626. 因未於規定期限公告申報其 104 存託憑 年度財務報告及原股被馬來西 證 亞交易所停止買賣,核有證交所 營業細則第 49 條之 1 第 9 項第 1 款及第 50 條之 3 第 7 項第 1 款 情事,證交所表示,之前已通知. n. al. er. io. sit. y. Nat. 2016. Ch. i n U. v. 旗下旭思投資公司於昨(3)日 IC 設 召開董事會,決議通過與類比 IC 計業 立錡(6286)進行股份轉換案, 預計股份轉換完成後,立錡將成 為旭思投資 100%持股之子公司. engchi. 18. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(22) TDR 列為變更交易方法及停止買 賣在案。 2016. 中泰山 -DR. 911611. 公告申報之 104 年度合併財務報 存託憑 告經其簽證會計師因繼續經營 證 有疑慮等情事,出具無法表示意 見之查核報告。. 2017. 日月光. 2311. 日月光營運長吳田玉在日月光 半導體 併購矽品期間涉嫌內線交易,違 業 反證券交易法。吳田玉將內線消 息透漏給他的秘書吳女、秘書的 老公林男、朋友張女,自己帶頭 集體從事內線交易,在日月光併 購矽品期間發布的三次重大交 易訊息前後,大量買賣股票。. 益航. ‧ 國. 2017. 立. 6277. IT 架構 宏正自動科技(6277),驚傳遭 管理產 前法務長吳佑民、法務主管黃子 業 溱掏空逾 7000 萬元,並將款項 匯到海外紙上公司. ‧. 宏正. 學. 2017. 政 治 大 生產電腦週邊設備的上市公司. 5907. n. al. er. io. sit. y. Nat. 台灣首家上市航運公司「益航」 運輸產 驚傳內線交易,檢調追查發現, 業 益航轉投資中國大洋百貨虧 損,其財務長謝妙龍預期股價將 下跌,竟提前出脫持股避損,台 北地檢署今依涉犯證券交易法 內線交易罪嫌,起訴謝妙龍。. Ch. engchi. i n U. v. 2017. 興航. 6702. 復興航空今召開臨時股東會討 運輸產 論公司解散停飛及下市等案,在 業 場內場外都砲聲隆隆的情況 下,通過解散及下市等案,並將 依證交所規定的期限於 2 月 2 日 下市。. 2017. 新焦點 -DR. 9106. 新焦點-DR(9106)因 2016 年合 存託憑 併財報顯示「淨值低於股本三分 證 之一」,經證交所董事會決議通 過,將自 6 月 27 日終止上市。. 19. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(23) 2017. 台一. 1613. 台一(1613)因財務不明疑有弊 電器電 端,3 月底遭台北地檢署搜索, 纜 之後董事長許守信、董事許守德 兄弟因涉犯「證券交易法」等罪 交保並限制出境,而檢察官再次 掌握許守信、許守德疑另涉其他 弊端。. 2017. 必翔. 1729. 中國子公司財報出不來,導致合 電動汽 併報表無法編制;已超過財報補 車 繳之最後期限. 表 3.1 財務預警相關問題上市公司清單 資料來源:本研究整理網路文獻. 立. 政 治 大. 財務文本資料方面,本研究取得 2015 至 2017 CMoney 的財經新聞,總共大. ‧ 國. 學. 約有 25 萬篇財經新聞做情緒分析,每年的新聞數如下表 3.2. ‧. al. 2017. y. sit. er. 91,329. n. 2016. io. 2015. 新聞篇數. Nat. 年度. 表 3.2 各年度 CMoney 新聞數量. Ch. i n U. 74,098. v. e n g c h i122,854. 在財務報表的數值資料上,本研究採用台灣經濟新報資料庫(TEJ)之財務模 組(Finance DB),所提供的財報資訊,擷取重要的財務比率指標,而擷取的年份 為 2015 至 2017 所選企業之財務報表,經由整理後進行分析。 本研究以事件發生之前一季(t-1)的財務新聞資料與財務比率指標為分析的 對象,也就是說 2017 年第一季發生舞弊的公司須以 2016 年第四季的公司相關新 聞與財務指標做預測。. 20. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(24) 3.2 演算法 3.2.1 監督式學習(Supervised learning) 此研究採用監督式學習的方法訓練模型,透過以標籤好的訓練資料建立模型 或是函數,並依此模式推測新的實例。訓練資料是由輸入的物件或變數和預期的 輸出所組成,然而監督式學習函數的輸出可以是一個連續的值,或是預測一個分 類好的標籤。在監督式學習中,典型的任務是分類和迴歸分析,常見的演算法為 決策樹、SVM、線性回歸,本研究採用監督式學習中的支援向量機(SVM)、KNN(K. 政 治 大 後利用邏輯式回歸與隨機森林(Random Forests)和隱藏馬可夫模型建立財務預 立. Nearest Neighbor)、Naive Bayes 來分類文本情緒,並比較演算法的優劣,而. ‧ 國. 學. 警模型。. 3.2.2 文本情緒分析演算法. ‧. 本研究情緒分析之演算法採用 Naive Bayes、KNN(K Nearest Neighbor)與. y. Nat. sit. SVM 三種分類器進行比較,觀察其準確度高低,將結果應用於後續財務預警的系. n. al. er. io. 統建立之中。Joachims(1998)指出 SVM 更適合用於文本情緒分類之中,故本研究. i n U. v. 設置三種演算法的比較,來觀察 SVM 是否優於其他兩種分類演算法。 1.. Ch. KNN(K Nearest Neighbor):. engchi. KNN (K Nearest Neighbor) 演算法在 2007 年 IEEE 統計排名前十名資料採 礦演算法之一,因演算法簡單好懂且能達成有效的分類,所以大量使用在許 多領域之中,在文本分析的領域中,也有許多學者採用此演算法 (Hauskrecht,2009;Bijalwan,2014),KNN 分類演算法簡單來說就是要找和 新數據最近的 K 個節點,這些結點是什麼分類,那麼新數據就是什麼樣的分 類,以下是 KNN 應用於文本分類之演算法(Bijalwan et al., 2014) (K=1): (1) 將訓練文本之特徵關鍵字字詞頻率向量化並標上正確的分類,而後將要 測試的文本資料 D 向量化 21. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(25) (2) 計算出每一種分類的中心結點向量(centriod vector) (3) 計算測試文本 D 向量與每一種分類中心結點向量的相似度(即使用 Cosine similarity) (4) 與測試文本 D 餘弦相似性(Cosine similarity)最高的類別即為 D 所屬 之類別 kNN 是一個基於實例(instance-based)的演算法,所以訓練樣本的好壞將深 深地影響分類的準確度,其優點在與演算法簡單,不牽涉過多的統計假設, 而缺點在於計算量大,較消耗電腦的資源,且非常耗時. 治 政 大 Naive Bayes 分類器的概念相當簡單且準確率也相當高(Bijalwan et al., 立 Naive Bayes:. 2014) , 在 文 本 分 析 的 領 域 中 被 學 者 大 量 使 用 (Li, Chen , Lin &. 學. ‧ 國. Song(2014);Yu & Duan,2013),Naive Bayes 分類器是基於機率型的分類,. ‧. 使用貝氏定理來做運算,也就是計算其條件機率,其假設特徵之間事件獨立. y. Nat. 所建立出來簡單且有效的分類演算法,假設有 r 筆的文本資料,其文件的集. sit. io. 合向量為 D = {𝑑𝑑1 ⋯ 𝑑𝑑𝑟𝑟 },而在這 r 筆文件中需要分成 q 類其分類集合為. er. 2.. C=�𝑐𝑐1 ⋯ 𝑐𝑐𝑞𝑞 �,那麼貝氏分類器所要計算的條件機率如下:. n. al. Ch. engchi. i n U. v. 其代表著給定文件 dj 的狀況下,文件 dj 屬於 ck 分類的機率,P(dj)為在文本 集中隨機取的文件 j 的機率,P(ck)為隨機取文本資料分類是 K 的機率,其 機率都是給定的,所以貝氏機率主要是計算P�𝑑𝑑𝑗𝑗 �𝑐𝑐𝑘𝑘 �的機率為何,而其計算 dj 的文本機率如下:. 22. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(26) P(Wij)為 j 文件所出現第 i 個特徵關鍵詞的機率,以下是 Naive Bayes 演算 法的步驟(Bijalwan et al., 2014): (1) 將測試的文本資料轉換為特徵關鍵詞(keyword)向量 (2) 統計測試文本資料中的特徵關鍵詞詞頻(Term Frequency) (3) 計算P�𝑑𝑑𝑗𝑗 �𝑐𝑐𝑘𝑘 �每篇文件中所屬哪一種分類的機率大小. (4) 根據所算出的機率大小來決定此文件 j 是屬於哪一類 貝氏分類對於少量的文本資料一樣會有不錯的分類準度,能夠補足小樣本的 不足,且適用於資料會不斷成長的應用,可是其假設字與字之間是互相獨立 的,較不符合真實的現況。. 3. 支援向量機(SVM):. 立. 政 治 大. 支援向量機是在分類與迴歸分析中分析資料的監督式學習模型與相關的學. ‧ 國. 學. 習演算法,其演算法為找出一條線或平面能完美的分割資料群集,得到最小. ‧. 的分類誤差,並要選擇能夠讓到每邊最近的資料點的距離最大化的超平面。. y. Nat. 而後基於文本資料落在間隔的哪一側來預測所屬類別,SVM 近幾年來也常用. er. io. sit. 於文本分類的應用之中,Joachims(1998)的研究中分析了 SVM 應用於文本探 勘情緒分類的優點如下:. n. al. Ch. (1) 適用於分類高維度的文本資料. engchi. i n U. v. (2) 每一個特徵都是具有預測與解釋能力的 (3) 文件的向量多為稀疏矩陣(sparse),SVM 適合處理這類型的資料 (4) 而大多數的文本分類多為線性的分類(linearly separable),SVM 適合 於此種分類 依據以上優點本研究主要採用 SVM 的分類方式分類文本資料,並使用 KNN 與 Naive Bayes 演算法做比較,觀察其文本情緒分類的準確度,驗證 SVM 是否有優於其他兩種演算法。. 3.2.3 財務預警模型演算法 23. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(27) 在分析完財經新聞文本資料的情緒後,將非結構化的財經新聞指標與結構化 的財務報表指標變數整理,建立起財務預警模型,來預警上市公司是否有不良的 財務狀況發生,本研究建立財務預警模型的演算法為邏輯式回歸、隨機森林 (Random Forests)與隱藏馬可夫模型(HMM),藉由交叉驗證(cross-validation) 的方式比較兩個演算法的準確率。 1. 邏輯式回歸(Logistic regression): 在一般的線性回歸分析中依變數通常為連續的變項,但依變數並分連續 變項而是類別變項時,線性回歸就不適用了,較適用於邏輯式回歸的分析,. 治 政 大 regression 之中,其 統計學家用 odds ratio (勝算比) 於 logistic 立. 而此研究之依變數為類別變項(財務正常或預警),所以適用於邏輯式回歸。. 中勝算比指的是正向事件與負項事件發生機率之比值,而正向事件代表我們. ‧ 國. 學. 要預測之事件(公司有財務危機),若正向事件發生機率為 p,則 odds ratio. io. y. logit (P)=log(p/(1-p))= α + βx. sit. Nat. 關係為:. ‧. (勝算比)P 為 p/(1-p),而邏輯式回歸假設 odds ratio (勝算比)與自變數的. n. al. er. 若正向事件發生機率 p 為𝑃𝑃(𝑦𝑦 = 1|𝑋𝑋 = 𝑥𝑥)則可將式子改寫成:. Ch. 𝑙𝑙𝑜𝑜𝑔𝑔𝑖𝑖𝑡𝑡 (𝑃𝑃) = log(. i n U. v. 𝑃𝑃(𝑦𝑦 = 1|𝑋𝑋 = 𝑥𝑥). i = 1|𝑋𝑋 = 𝑥𝑥)) e n g c1h− 𝑃𝑃(𝑦𝑦. Logit 的反函數為 sigmod function,經由使用 sigmod function 後,整理可 以得到在𝑋𝑋 = 𝑥𝑥的情況下發生正事件(y=1)的機率: (𝑦𝑦 = 1|𝑋𝑋 = 𝑥𝑥) =. 𝑒𝑒 𝑧𝑧. 𝑒𝑒 𝑧𝑧 +1. where z= α + βx. 由上式可知,回歸式中的迴歸係數代表著自變數與 odds ratio (勝算比) 的關係,當係數越大時,勝算比的變動也越大,也就是說此自變數對是否會 造成財務預警的波動越大。 使用邏輯式回歸建立財務預警模型不需要嚴格的假設條件,克服了線性 方程受統計假設約束的局限性,且可解決自變數非常態分佈的問題使模型更 24. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(28) 接近真實的金融環境,克服了 Altman 多變量回歸的缺點,使此模型成了大眾 研究財務預警方面較常使用的模型,但其計算過程比較複雜,計算過程有很 多近似的處理,所以會稍微的影響準確度。 2. 隨機森林(Random Forests): 在機器學習中,隨機森林是一個包含多個決策樹的分類器,隨機森林的 名稱中有兩個關鍵詞,一個是「隨機」,一個就是「森林」。「森林」就代表 著是有許多棵決策樹所構成,而「隨機」的含意代表著建構決策樹的訓練樣 本甚至是特徵都是隨機取得的,利用 bootstrap 取樣的方式隨機抽取訓練集. 治 政 大 行預測,將每棵樹的預測結果進行投票,最多票數的類別即為預測類別,以 立 中的訓練樣本並放回樣本中來建立決策樹,並根據所建立起的多個決策樹進. 下是建造每顆決策樹的演算法(用 N 來表示訓練樣本的個數,M 表示特徵數. ‧ 國. 學. 目):. y. Nat. 小於 M. ‧. (1) 輸入特徵數目 m,用於確定決策樹上一個節點的決策結果;其中 m 應遠. er. io. sit. (2) 對於每棵樹而言,隨機且有放回地從訓練集中的抽取 N 個訓練樣本,作 為該樹的訓練集,並用未抽到的樣本作預測,評估其誤差。. al. n. v i n (3) 對於每一個節點,隨機選擇 m 個特徵,計算其最佳的 C h m 個特徵,根據這 engchi U 分裂方式。. (4). 每棵樹都盡最大程度的生長,並且沒有剪枝過程。. 隨機森林的隨機性使得隨機森林不容易陷入過度擬合,並且具有很好得抗噪 能力,因此過往有許多研究也以此演算法建立財務預警模型(盂杰,2014;楊 翰林,王開駿 & 謝幽篁,2014)。而因本研究屬於小樣本的分析,適合 bootstrap 隨機採樣為基礎的隨機森林分類,本研究採用隨機森林演算法與 邏輯式回歸做比較,觀察其預測準確度。 3. 隱藏馬可夫模型(Hidden Markov Mode): 25. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(29) 在介紹隱藏馬可夫模型之前,需先認識一般的馬可夫模型,在馬可夫模型中 如下圖 3.2,選一個狀態(S1,S2,S3)作為起點,然後沿著邊(a)隨意走訪任何一個 狀態,沿途累計機率,走累了就停在某個狀態。圖 3.2 中,每一個圓圈叫做一個 「狀態」 ,每一個狀態都會射出 N 條邊分別連向每一個狀態,計算一個狀態進入 下一個狀態時的機率矩陣並累積加總。. 立. 政 治 大. ‧ 國. 學. 圖 3.2 馬可夫模型. 而隱藏馬可夫模型添加了一個新要素(Rabiner, 1989),每當造訪一個狀. ‧. 態,就立刻從 M 個值當中,噴出其中一個值。每一個狀態都是噴出相同的 M 種. n. al. er. io. sit. y. Nat. 值,這 M 個值通常標作 V1 到 VM 如圖 3.3。. Ch. engchi. i n U. v. 圖 3.3 隱藏馬可夫模型 於是隱藏馬可夫模型會產出兩種序列,一種是代表隱藏狀態的狀態序列 (S1S2…),另一種是易觀察的觀察序列(V1V2…),我們只看到了依序噴出的 T 個 值,但是我們看不到一路走過的是哪 T 個狀態, 「隱藏」二字便是指行蹤被隱藏 了,狀態序列被隱藏了,例子:假設天氣有三種型態:晴天、陰天、雨天,而我 們在一個密室裡無法直接觀察外面的天氣,但是我們可以得知隔壁房間的室友每 26. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(30) 天從事的運動:「跑步」 、「健身操」或是「游泳」三者之一,觀察室友所進行的 運動(觀察序列),進而來推測外面的天氣狀態(隱藏狀態序列),這就是簡單的隱 藏馬可夫模型,利用「看得到的」連續現象去探究、預測另一個「看不到的」連 續現象。 隱藏馬可夫模型有三個基本問題,以及演算法: 第一種為評估問題(Evaluation Problem)以所看到之觀察序列中,找出所有可能 狀態的路徑的機率總和,對於一個觀察序列來說,狀態序列有各式各樣的可能 性,總共有 Nᵀ 種可能性,所以使窮舉法程式的複雜度非常高,然而運用「動態. 治 政 演算法被用來測量一個模型的相對適用性,圖 3.4 大 為前向演算法之過程: 立. 規劃」的前後向演算法(Forward-backward Algorithm),將時間複雜度降低,此. ‧. ‧ 國. 學 er. io. al. sit. y. Nat. 圖 3.4 前向演算法. v. n. 圖 3.4 中 O1O2…為其觀察序列,圖中表示在 O3 時刻狀態為 S1 的所有機率可能性加. Ch. engchi. i n U. 總,其演算法用前一個時刻 O2 的各種可能性進行加總在乘以狀態機率轉換矩陣, 算出 O3 時刻狀態為 S1 的所有機率可能性。 第二種為解碼問題(Decoding Problem)以所看到之觀察序列中,找出機率最大的 一條狀態路徑觀察其隱藏狀態,以及其機率,其使用演算法與前向演算法相同概 念的維特比演算法(Viterbi Algorithm)來解決此問題,此演算法被用來推測模 型隱藏部分的最可能狀態為何,圖 3.5 為維特比演算法之過程:. 27. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(31) 圖 3.5 維特比演算法 圖 3.5 表示在觀察序列 O3 時,最大機率的隱藏狀態序列為 S2S3S3,其演算法與前 向演算法相似,只是將所有隱藏狀態序列可能性的機率加總改成找到機率最大的 隱藏狀態序列。. 政 治 大 能狀態的路徑的機率總和盡量大,進而更新模型中的參數(轉換矩陣、初始機率 立 第三種為學習問題(Learning Problem),給定一個觀察序列與隱藏之狀態使得可. ‧ 國. Likelihood. Estimation」其演算法為 Baum-Welch. 學. 矩陣),採用了「Maximum. algorithm(Rabiner, 1989)。. ‧. 針對一個已知的觀察數列,我們調整函數,讓該觀察數列的出現機率最大. sit. y. Nat. (Viterbi Algorithm),同時求出機率多寡。另外 HMM 可以用來分類數列。每一. al. n. 類。. er. io. 種類別,各自建立一個 HMM 。針對一個新的觀察數列,以機率多寡來判斷其分. Ch. engchi. i n U. v. 3.3 模型建立與變數說明 本研究以結構化的財務比率指標與非結構化的財務新聞情緒指標當作自變 數,以上市櫃公司是否會發生不良的財務狀況為依變數建立邏輯式回歸之模型, 故本節討論邏輯式回歸模式(Logistic Regression)的建立與自變數的說明。. 3.3.1 自變數 1. 財務比率指標變數:. 28. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(32) 根據上一章之文獻探討,本研究採用 altman(2000)所提出的 Z-score model 之改良版 Zeta 模型之所列出的七大類衡量公司信用風險的財務比率指 標,使模型更接近真實的金融環境,更提高模型的預測精準度。本研究以七大 類 財 務 指 標 並 選 擇 了 9 項 財 務 比 率 為 建 構 邏 輯 式 回 歸 模 型 (Logistic Regression)的自變數,以下為七大類財務指標之說明: (1) 資產報酬率:息稅前利潤/資產總額,反映一年中資產的獲利能力,與衡 量上市公司運用全部資產獲利的能力,本研究以 ROA 稅後息前比率來代表此指 標。. 治 政 大 度量。收入上的變動會影響到公司風險,因此這種標準是相當有效的,本研究 立 (2) 收入穩定性:採用對 X 在 5-10 年估計值的標準誤差指標作為這個變數的. 取公司過去 5 年的收入標準差代表此指標。. ‧ 國. 學. (3) 利息保障倍數:稅前收益/總利息償付,衡量公司償還債務利息的能力,. ‧. 本研究以利息支出率與負債比率來代表此指標。. y. Nat. (4) 累積營利:以公司的 retain earning (資產減負債/總資產)來衡量,反. er. io. sit. 映了公司的累積獲利能力,本研究以保留盈餘來代表此指標。 (5) 流動比率:流動資本/資產總額 來衡量,它反映了公司資產的變現能力. al. n. v i n 和規模特徵,本研究以流動資產比率 來代表此指標。 C h 與資金流動率 engchi U. (6) 資本化比率:可以用普通股權益/總資本作為衡量,本研究以資本化比率 (權益/總資本)來代表此指標。 (7) 企業規模:可以用公司總資產的對數形式來度量。該變數可以根據財務報 告的變動進行相應的調整,本研究以上市公司總資產之對數代表此指標。 本研究採用之 9 個財務比率指標為:ROA 稅後息前比率、收入標準差、利 息支出率、負債比率、保留盈餘、流動資產比率、資金流動率、資本化比率、 企業規模。以以上九個財務比率指標建立模型。. 29. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(33) 2. 非結構化新聞指標: 以情緒分類器將財務新聞情緒分析後,依照各上市公司之新聞數量、每月平 均新聞量、正向與負向新聞之新聞量為自變數,建立起邏輯式回歸(Logistic Regression)之模型,以下是結構化之新聞指標: (1) 新聞總量: 每年度季別與上市公司相關之新聞總量 (2) 每月平均新聞量: 每月上市公司之平均新聞量(新聞總量/3) (3) 正向新聞數: 該年度季別上市公司所屬新聞之正向新聞數 (4) 負向新聞數:該年度季別上市公司所屬新聞之負向新聞數 (5). 治 政 大 依據上述 5 個非結構化新聞指標(新聞數量、每月平均新聞量、正項與負向 立 P/N 比:為公司正向新聞與負向新聞之比率(正向新聞數/負向新聞數). 新聞之新聞量與 P/N 比),與 9 個財務比率指標為自變數,建立起邏輯式回歸模. ‧ 國. 學. 型,並以問題公司(Y=1 或 0)為依變數,來預測上市公司的財務狀況是否正常。. ‧ sit. y. Nat. 3.3.2 模型建立. al. er. io. 本研究以 5 個非結構化之財務新聞指標與 9 個財務比率指標為自變數,以公. v. n. 司是否有財務危機(Y=1 或 0)為依變數,建立起邏輯式回歸之財務預警模型, 邏輯式回歸模型如下:. Ch. engchi. i n U. Y𝑖𝑖𝑖𝑖 = 𝛼𝛼0 + 𝛽𝛽1 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁_𝑐𝑐 + 𝛽𝛽2 𝑎𝑎𝑎𝑎𝑎𝑎_𝑐𝑐 + 𝛽𝛽3 𝑝𝑝𝑝𝑝𝑝𝑝_𝑐𝑐 + 𝛽𝛽4 𝑛𝑛𝑛𝑛𝑛𝑛_𝑐𝑐 + 𝛽𝛽5 𝑝𝑝/𝑛𝑛 + 𝛽𝛽6 𝑅𝑅𝑅𝑅𝑅𝑅 + 𝛽𝛽7 𝑟𝑟𝑟𝑟_𝑠𝑠𝑠𝑠𝑠𝑠 +𝛽𝛽8 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖_𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 + 𝛽𝛽9 𝐿𝐿_𝑅𝑅. + 𝛽𝛽10 𝑅𝑅_𝐸𝐸 + 𝛽𝛽11 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶_𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 + 𝛽𝛽12 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶_𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 + 𝛽𝛽13 𝐸𝐸/𝐴𝐴 + 𝛽𝛽14 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠. 模式中各變數定義如下:. Yit: 依證交所所提供 2015-2017 年終止上市櫃及變更交易方法之公司和原因 統計資料作為發生問題企業失敗的定義,若 i 公司第 t 季終止上市,則其值為 1,反之其值為 0。 30. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(34) News_c:為每年度季別與上市公司相關之新聞總量數 avg_c:為每月上市公司之平均新聞量(新聞總量/3) pos_c: 該年度季別上市公司所屬新聞之正向新聞數 neg_c: 該年度季別上市公司所屬新聞之負向新聞數 p/n: 為公司正向新聞與負向新聞之比率(正向新聞數/負向新聞數) ROA: ROA 稅後息前比率代表資產報酬率指標 Re_std: 公司過去 5 年的收入標準差指標 interest_rate:稅前收益/總利息償付之利息支出率指標. 治 政 大 R_E: retain earning (資產減負債/總資產)代表累積營利之指標 立 L_R:代表債務償還之負債比率指標. Current_assets:流動資產比率. ‧ 國. 學. Current_rate :現金流動比率. ‧. E/A:資本化比率(權益/總資本)反映公司之財務結構. y. Nat. Scale:為企業規模,上市公司總資產之對數. er. io. sit. 而除了以邏輯式回歸建立模型外,本研究導入了藏馬可夫模型,以提升長 期財務預警之準確率,以下是隱藏馬可夫模型之模型架構:. n. al. Ch. engchi. i n U. v. 圖 3.6 HMM 模型架構 S1 為公司財務健全之狀態 S2 為公司有財務危機之狀態 而 V1,V2,V3…為上述邏輯式回歸之自變數所組成之觀察序列向量,此模型根 據給定觀察序列向量,來訓練兩種不同的 HMM 模型類別,其中一種以財務健全 的公司所建立的 HMM 以代表財務健全之類別,另一種為財務危機之公司所建立 31. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(35) 的 HMM 代表財務危機的類別,將測試資料的觀察序列分別進入這兩種 HMM 之 中,並藉由評估問題(Evaluation Problem)的演算法求出適配這兩種 HMM 的機 率大小,以機率多寡來判斷其分類。. 3.4 研究流程 本研究分為兩個階段,第一階段首先利用文字探勘情緒分析產出的情緒變 數,並與財務比率指標(ZETA 七大類財務指標)為自變數建立邏輯式回歸財務 預警模型,以預測財務狀態並比較隨機森林演算法所做出的預測準確率。 第二階段以第一階段的情緒分析指標為觀察序列,來訓練財務健全與財務危機. 政 治 大 屬於哪一類的 HMM 模型進而做出預測判斷。 立. 的兩種 HMM 模型,並利用 Evaluation Problem 求出的機率大小判斷測試資料. ‧. ‧ 國. 學. 如下圖 3.7 為此研究的流程:. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.7 研究流程. 32. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(36) 第四章 、實驗設計與結果評估 此章根據前三章的文獻探討與模型建立,設置財務預警的實驗設計,首先資 料的部分以台灣證劵交易所股份有限公司(以下簡稱證交所,TWSE),所提供 2015 到 2017 年終止上市櫃及變更交易方法之公司的統計資料,而因其所列的下市公 司不一定代表財務惡化,也有可能是財務表現不錯遭到收購而下市,所以此研究 蒐集下市公司之新聞,探究其下市之原因是否是因為財務惡化,並蒐集最近的財 務弊案之新聞公司,加入分析樣本(財務惡化之企業)之中,作為財務預警之公司. 政 治 大 而財務指標取自台灣經濟新報資料庫(TEJ)之財務模組(Finance DB),所提供的 立. 選擇,而在文本新聞方面取自 CMoney 的 2015 至 2017 年之財經新聞共 25 萬多則,. ‧ 國. 學. 財報資訊,擷取重要的財務比率指標。. 此研究實驗分為兩個部分,第一部份為文本情緒分析模型之建立,文本情緒. ‧. 分析的部分根據 KNN、Naive Bayes 與支援向量機(SVM)之演算法建立情緒分類. sit. y. Nat. 器,並以分類器分類 2015 至 2017 年之財務新聞文本資料的情緒正向或負向。接. al. er. io. 著為第二部分的財務預警模型建立,根據文本分析之結果結合所整理好之財務比. v. n. 率指標為自變數訓練模型,使用上述探討之邏輯式回歸模型、隨機森林分類演算. Ch. engchi. i n U. 法與隱藏馬可夫模型建立模型來預警公司的財務狀況,並進行各項自變數的探討 與統計檢定顯著性,與解釋各項係數背後所代表的含意,進而比較不同演算法的 分類效率與準確度。 而因隨機森林適合小樣本的分析而隱藏馬可夫模型適合觀察長期財務狀態 的變化,邏輯式回歸則可以看出自變數與應變數的關係,所以本研究使用隨機森 林與 HMM 和邏輯式回歸三種演算法結合情緒分析,並比較其準確率。. 33. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(37) 4.1 文本情緒分析 財經文本新聞方面取自 CMoney 的 2015 至 2017 年之財經新聞共 25 萬多則, 本研究文本情緒分析之步驟如下圖 4.1. 斷詞(語. 擴增情緒 字典. 彙分析). 文本向量 化. 訓練模型 (情緒分 析). 測試與驗 證. 政 治 大 圖 4.1 文本情緒分析之步驟 立. ‧ 國. 學. 4.1.1 斷詞(語彙分析). ‧. 在分析文本資料之研究流程的第一步必須要將整篇的文本資料切割成最小. y. Nat. 單位的詞彙,也就是斷詞的過程,在華語系的文章當中並不像英語系之文章詞與. er. io. sit. 詞之間都有空格分開,華語系的文章較不容易進行斷詞的動作,為了達到斷詞的 目的,華語系之國家發展了很多中文的斷詞系統,其中最著名的兩個斷詞系統為. al. n. v i n 中央研究院中文詞知識庫小組(CKIP)發展的中文斷詞系統與開源式的 jiaba 中 Ch engchi U. 文斷詞程式,而因 jieba 為 Python Based 的開源中文斷詞程式,內部的斷詞字 典可以隨意增改,且因開源的特性,有許多函式可以採用,所以本研究以 python 為開發語言,並使用 jieba 的套件作為中文斷詞的工具,產生文件分類所用的特 徵值。. 4.1.2 擴增情緒字典 採用先前研究已整理好的財經情緒字庫,並加入 2012 年吳琮璠、江向才、 黃娟娟所進行的公司年報文字探勘與財務預警資訊內涵研究,整理出的關於財務 34. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(38) 預警情緒字彙,用來擴增系統的情緒字典。. 4.1.3 文本新聞向量化(詞袋模型 bag of words) Bag-of-words model (BoW model) 最早出現在自然語言處理(Natural Language Processing)和信息檢索(Information Retrieval)領域。該模型忽 略掉文本的語法和語序等要素,將其僅僅看作是若干個詞彙的集合,文本中每個 單詞的出現都是獨立的,而在詞袋模型統計每個詞在文本出現的次數也就是詞頻 (term frequency,簡稱 TF),每篇文章以詞頻(TF)表示將其向量化,然而有些. 治 政 大 現非常多次造成詞頻較大使拖慢文字分析的效率,於是現有許多研究採用 TF 結 立. 詞彙如:「的」 、 「你」 、 「我們」 ,在文字分析的過程中並沒有代表特別之涵義卻出. 合逆向文件頻率 IDF (Inverse. Document. Frequency)的方式將文章向量化。. ‧ 國. 學. 逆向文件頻率(inverse document frequency,IDF)為一個衡量分析一個. ‧. 詞在眾多文件集的重要程度之方式,某一特定詞語的 IDF,可以由總文件數目除. y. Nat. 以包含該詞語之出現文件的數目,再將得到的商取對數得到,也就是說該詞在文. er. io. 資訊越顯重要。. sit. 件集中出現的數目越少,其 IDF 就越大,也代表著該詞在這文件集中蘊含越多的. al. n. v i n TF-IDF 就是以該詞的 TF(term IDF(Inverse C h frequency)值與 engchi U. Document. Frequency)值相乘,得到對文本料集中相對重要的詞彙,本研究利用 python 的 TfidfVectorizer 模組以 TF-IDF 的方式將文章進行向量化,以便後續的文本 情緒分析。. 4.1.4 訓練模型(情緒分析) 在模型的訓練部分,本研究先人工標註 2016 年隨機挑選 Cmoney 共 750 篇新 聞的情緒正面或是負面當作訓練樣本,並標註 2016 年一月的 500 篇新聞為測試. 樣本,觀察三種演算法的準確率比較,利用 jieba 斷詞後將訓練樣本的文本資料 35. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(39) 用 TF-IDF 的方式進行向量化,將向量化後的文本資料與人工標註好的標籤一併 丟入三種分類演算法(KNN、Naive Bayes)分類器訓練模型。 下圖 4.2 為上市上櫃公司各年度的相關新聞數平均,由圖可知在 2015 年的 分析之新聞量較少,而在 2017 年的新聞量最多,每家公司平均都有 750 則以上 的新聞。. 立. 政 治 大. ‧. ‧ 國. 學 sit. y. Nat. io. er. 圖 4.2 公司各年度相關新聞數平均. 而下圖 4.3 為三種分類器(KNN、Naive Bayes、SVM)所分類的平均正向新. al. n. v i n 聞數結果,以分類結果得知在 C h2017 年的正向新聞數較多之後逐年遞減最低點 engchi U 為 2015 年平均每家公司只有 300 多則的正向新聞,而在分類器演算法的比較 方面由圖 4.3 可知 NB(Naive Bayes)的分類方式將較多的新聞歸入正向新聞的 情緒,而相對的,KNN 之分類器將較少的新聞歸類為情緒正向之新聞。. 36. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(40) 圖 4.3 平均正向新聞數 下圖 4.4 為三種分類器(KNN、Naive Bayes、SVM)所分類的平均負向新聞 數結果,在分類器演算法的部分,KNN 與 SVM 兩種演算法分類的負向新聞數結. 政 治 大. 果與趨勢十分相近,NB(Naive Bayes)相對將新聞歸類為負向情緒的數量遠比. 立. 其他兩類演算法少很多。. ‧ 國. 學. 而值得一提的是,NB(Naive Bayes)在將新聞分類為正向新聞的數量最多,分 類為負向新聞的數量卻最少,而 KNN 演算法卻是相反的結果,正向新聞的數量. ‧. 最少,負向新聞的數量卻最多,而 SVM(支援向量機)的分類演算法不管是歸類. y. Nat. n. al. er. io. sit. 為正向或是負向情緒的新聞數量都是相對來說較為穩定的。。. Ch. engchi. i n U. v. 圖 4.4 平均負向新聞數 在總體的分類結果可以發現,在 CMoney2017 至 2015 的新聞之中,正向新 聞數量是多於負向新聞數量的,也就是說一般的財經新聞多為報導正向的情緒 居多,負向情緒相對比較少揭露。 37. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

(41) 4.1.5 測試與驗證 在訓練完文本情緒分類器與分類完財經新聞資料後,情緒分析所做的最後 一步為驗證三個分類演算法之分類準確率,並進行準確率的比較,將較高準確 率的演算法之分類結果與財務比率指標混和建立財務預警模型。 前面所述人工標註 2016 年 500 筆新聞資料為測試資料,測試分類器的分 類準確度,結果如下圖 4.5:. 立. 政 治 大. ‧. ‧ 國. 學. n. i n U. 圖 4.5 分類準確度. Ch. engchi. er. io. sit. y. Nat. al. v. 由測試資料所驗證的準確率可知,SVM 演算法所得的文章情緒分類最好, 其次是 KNN 最後為天真貝氏分類。 除了以人工標註 2016 年 500 篇測試資料來驗證準確率外,本研究也採用 交叉驗證的方式利用 k-fold cross-validation,將資料分成 K 份,其中 K-1 份的資料為訓練文本,1 份的資料為測試文本進行預測後比較其跟原本人工標 註好的情緒差異,並將進行 K 次的驗證比較每一次的準確率,本研究將 K 設為 10,也就是進行十次的交叉驗證,以下圖 4.6 為 10 次交叉驗證所產生之結果 比較,縱軸為 3 個分類演算法之準確率,橫軸為第 K 次之交叉驗證。. 38. DOI:10.6814/THE.NCCU.MIS.012.2018.A05.

參考文獻

相關文件

Financial Reporting),及英國研究企業管治財務範 疇的委員會(Committee on the Financial Aspects of Corporate Governance),又稱「坎特伯里委員

(Another example of close harmony is the four-bar unaccompanied vocal introduction to “Paperback Writer”, a somewhat later Beatles song.) Overall, Lennon’s and McCartney’s

{ Title: Using neural networks to forecast the systematic risk..

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

In the work of Qian and Sejnowski a window of 13 secondary structure predictions is used as input to a fully connected structure-structure network with 40 hidden units.. Thus,

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

CAST: Using neural networks to improve trading systems based on technical analysis by means of the RSI financial indicator. Performance of technical analysis in growth and small

CAST: Using neural networks to improve trading systems based on technical analysis by means of the RSI financial indicator. Performance of technical analysis in growth and small