第二章 、 文獻探討
3.3 模型建立與變數說明
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 3.5 維特比演算法
圖 3.5 表示在觀察序列 O3時,最大機率的隱藏狀態序列為 S2S3S3,其演算法與前 向演算法相似,只是將所有隱藏狀態序列可能性的機率加總改成找到機率最大的 隱藏狀態序列。
第三種為學習問題(Learning Problem),給定一個觀察序列與隱藏之狀態使得可 能狀態的路徑的機率總和盡量大,進而更新模型中的參數(轉換矩陣、初始機率 矩陣),採用了「Maximum Likelihood Estimation」其演算法為 Baum-Welch algorithm(Rabiner, 1989)。
針對一個已知的觀察數列,我們調整函數,讓該觀察數列的出現機率最大 (Viterbi Algorithm),同時求出機率多寡。另外 HMM 可以用來分類數列。每一 種類別,各自建立一個 HMM 。針對一個新的觀察數列,以機率多寡來判斷其分 類。
3.3 模型建立與變數說明
本研究以結構化的財務比率指標與非結構化的財務新聞情緒指標當作自變 數,以上市櫃公司是否會發生不良的財務狀況為依變數建立邏輯式回歸之模型,
故本節討論邏輯式回歸模式(Logistic Regression)的建立與自變數的說明。
3.3.1 自變數
1. 財務比率指標變數:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
根據上一章之文獻探討,本研究採用 altman(2000)所提出的 Z-score model 之改良版 Zeta 模型之所列出的七大類衡量公司信用風險的財務比率指 標,使模型更接近真實的金融環境,更提高模型的預測精準度。本研究以七大 類 財 務 指 標 並 選 擇 了 9 項 財 務 比 率 為 建 構 邏 輯 式 回 歸 模 型 (Logistic Regression)的自變數,以下為七大類財務指標之說明:
(1) 資產報酬率:息稅前利潤/資產總額,反映一年中資產的獲利能力,與衡 量上市公司運用全部資產獲利的能力,本研究以ROA 稅後息前比率來代表此指 標。
(2) 收入穩定性:採用對 X 在 5-10 年估計值的標準誤差指標作為這個變數的 度量。收入上的變動會影響到公司風險,因此這種標準是相當有效的,本研究 取公司過去5 年的收入標準差代表此指標。
(3) 利息保障倍數:稅前收益/總利息償付,衡量公司償還債務利息的能力,
本研究以利息支出率與負債比率來代表此指標。
(4) 累積營利:以公司的 retain earning (資產減負債/總資產)來衡量,反 映了公司的累積獲利能力,本研究以保留盈餘來代表此指標。
(5) 流動比率:流動資本/資產總額 來衡量,它反映了公司資產的變現能力 和規模特徵,本研究以流動資產比率與資金流動率來代表此指標。
(6) 資本化比率:可以用普通股權益/總資本作為衡量,本研究以資本化比率 (權益/總資本)來代表此指標。
(7) 企業規模:可以用公司總資產的對數形式來度量。該變數可以根據財務報 告的變動進行相應的調整,本研究以上市公司總資產之對數代表此指標。
本研究採用之 9 個財務比率指標為:ROA 稅後息前比率、收入標準差、利 息支出率、負債比率、保留盈餘、流動資產比率、資金流動率、資本化比率、
企業規模。以以上九個財務比率指標建立模型。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2. 非結構化新聞指標:
以情緒分類器將財務新聞情緒分析後,依照各上市公司之新聞數量、每月平 均新聞量、正向與負向新聞之新聞量為自變數,建立起邏輯式回歸(Logistic Regression)之模型,以下是結構化之新聞指標:
(1) 新聞總量: 每年度季別與上市公司相關之新聞總量
(2) 每月平均新聞量: 每月上市公司之平均新聞量(新聞總量/3) (3) 正向新聞數: 該年度季別上市公司所屬新聞之正向新聞數 (4) 負向新聞數:該年度季別上市公司所屬新聞之負向新聞數
(5) P/N 比:為公司正向新聞與負向新聞之比率(正向新聞數/負向新聞數) 依據上述 5 個非結構化新聞指標(新聞數量、每月平均新聞量、正項與負向 新聞之新聞量與 P/N 比),與 9 個財務比率指標為自變數,建立起邏輯式回歸模 型,並以問題公司(Y=1 或 0)為依變數,來預測上市公司的財務狀況是否正常。
3.3.2 模型建立
本研究以 5 個非結構化之財務新聞指標與 9 個財務比率指標為自變數,以公 司是否有財務危機(Y=1 或 0)為依變數,建立起邏輯式回歸之財務預警模型,
邏輯式回歸模型如下:
Y𝑖𝑖𝑖𝑖 = 𝛼𝛼0+ 𝛽𝛽1𝑁𝑁𝑒𝑒𝑁𝑁𝑁𝑁_𝑐𝑐 + 𝛽𝛽2𝑎𝑎𝑎𝑎𝑔𝑔_𝑐𝑐 + 𝛽𝛽3𝑝𝑝𝑜𝑜𝑁𝑁_𝑐𝑐 + 𝛽𝛽4𝑛𝑛𝑒𝑒𝑔𝑔_𝑐𝑐 + 𝛽𝛽5𝑝𝑝/𝑛𝑛 + 𝛽𝛽6𝑅𝑅𝑅𝑅𝑅𝑅 + 𝛽𝛽7𝑟𝑟𝑒𝑒_𝑁𝑁𝑡𝑡𝑑𝑑 +𝛽𝛽8𝑖𝑖𝑛𝑛𝑡𝑡𝑒𝑒𝑟𝑟𝑒𝑒𝑁𝑁𝑡𝑡_𝑟𝑟𝑎𝑎𝑡𝑡𝑒𝑒 + 𝛽𝛽9𝐿𝐿_𝑅𝑅 + 𝛽𝛽10𝑅𝑅_𝐸𝐸 + 𝛽𝛽11𝐶𝐶𝐶𝐶𝑟𝑟𝑟𝑟𝑒𝑒𝑛𝑛𝑡𝑡_𝑎𝑎𝑁𝑁𝑁𝑁𝑒𝑒𝑡𝑡𝑁𝑁 + 𝛽𝛽12𝐶𝐶𝐶𝐶𝑟𝑟𝑟𝑟𝑒𝑒𝑛𝑛𝑡𝑡_𝑟𝑟𝑎𝑎𝑡𝑡𝑒𝑒 + 𝛽𝛽13𝐸𝐸/𝑅𝑅 + 𝛽𝛽14𝑁𝑁𝑐𝑐𝑎𝑎𝑙𝑙𝑒𝑒
模式中各變數定義如下:
Yit: 依證交所所提供 2015-2017 年終止上市櫃及變更交易方法之公司和原因 統計資料作為發生問題企業失敗的定義,若 i 公司第 t 季終止上市,則其值為 1,反之其值為 0。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
News_c:為每年度季別與上市公司相關之新聞總量數 avg_c:為每月上市公司之平均新聞量(新聞總量/3) pos_c: 該年度季別上市公司所屬新聞之正向新聞數 neg_c: 該年度季別上市公司所屬新聞之負向新聞數
p/n: 為公司正向新聞與負向新聞之比率(正向新聞數/負向新聞數) ROA: ROA 稅後息前比率代表資產報酬率指標
Re_std: 公司過去 5 年的收入標準差指標
interest_rate:稅前收益/總利息償付之利息支出率指標 L_R:代表債務償還之負債比率指標
R_E: retain earning (資產減負債/總資產)代表累積營利之指標 Current_assets:流動資產比率
Current_rate :現金流動比率
E/A:資本化比率(權益/總資本)反映公司之財務結構 Scale:為企業規模,上市公司總資產之對數
而除了以邏輯式回歸建立模型外,本研究導入了藏馬可夫模型,以提升長 期財務預警之準確率,以下是隱藏馬可夫模型之模型架構:
圖 3.6 HMM 模型架構 S1 為公司財務健全之狀態
S2 為公司有財務危機之狀態
而 V1,V2,V3…為上述邏輯式回歸之自變數所組成之觀察序列向量,此模型根 據給定觀察序列向量,來訓練兩種不同的 HMM 模型類別,其中一種以財務健全
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
的 HMM 代表財務危機的類別,將測試資料的觀察序列分別進入這兩種 HMM 之 中,並藉由評估問題(Evaluation Problem)的演算法求出適配這兩種 HMM 的機 率大小,以機率多寡來判斷其分類。
3.4 研究流程
本研究分為兩個階段,第一階段首先利用文字探勘情緒分析產出的情緒變 數,並與財務比率指標(ZETA 七大類財務指標)為自變數建立邏輯式回歸財務 預警模型,以預測財務狀態並比較隨機森林演算法所做出的預測準確率。
第二階段以第一階段的情緒分析指標為觀察序列,來訓練財務健全與財務危機 的兩種 HMM 模型,並利用 Evaluation Problem 求出的機率大小判斷測試資料 屬於哪一類的 HMM 模型進而做出預測判斷。
如下圖 3.7 為此研究的流程:
圖 3.7 研究流程