5-1 結論
一、各種資料探勘方法的風險預測能力有何差異?
(1) 上市公司之風險預測
本研究使用 2000 至 2004 年上市公司的財務報表來預測上市公司之風險預測,
共有 2050 筆資料,其中具有財務危機之公司有 65 筆,約佔 3.2%。結果顯示,模型 準確度的排序為:判別分析、邏輯迴歸、類神經網路、貝氏分類、分類樹、最近鄰 居分類。
經由逐步迴歸結果顯示,發現負債比率、營業利益率、稅後淨值報酬率、
借款依存度、總資產成長率為重要的變數,且對財務危機影響方向與會計原理一致。
(2) 個人信用卡之風險預測
本研究主要資料來源於國內某發卡銀行,研究對象為持有該銀行信用卡的消費 者。本研究以顧客下期是否會逾期繳款做為因變數。在全部 25000 筆資料中,會逾 期繳款者佔 5529 筆,約佔 22%。結果顯示模型準確度的排序為:類神經網路、分 類樹、貝氏分類、最近鄰居分類、邏輯迴歸、判別分析。
經由逐步迴歸結果顯示,發現 EDUCATION(教育程度)、PAY_1(前 1 個月繳款 遲繳天數)、PAY_2(前 2 個月繳款遲繳天數)、BILL_AMT1(前 1 個月帳單金額)、
BILL_AMT2(前 2 個月帳單金額)、PAY_AMT1(前 2 個月繳款金額)為重要的變 數。並且發現教育程度越高、前 1 個月繳款遲繳天數越大、前 2 個月繳款遲繳天數 越大、前 1 個月帳單金額越小、前 2 個月帳單金額越大、前 2 個月繳款金額越小,
則越容易逾期繳款。
彙整使用六種資料探勘方法在上市公司之風險預測與個人信用卡之風險預測個 案的準確度如表 5-1-1 與表 5-1-2。由表可知,邏輯迴歸與判別分析的表現相似,貝 氏分類與分類樹的表現相似。這四個方法在這兩個個案的表現差距很大,前兩個方 法(邏輯迴歸、判別分析)在公司風險個案的表現很好,在個人風險個案的表現很
差;後兩個方法(貝氏分類、分類樹) 正好相反,在公司風險個案表現很差,但在 個人風險個案表現很好。基本上,前二個方法(邏輯迴歸、判別分析)屬於線性的 總體模型(Global Model),後二個方法(貝氏分類、分類樹)屬於局部模型(Local Model)。類神經網路在二個個案的表現都很好,而最近鄰居分類則都很差。因此,
類神經網路可能是最適合風險預測建模的方法。
表 5-1-1 公司風險準確度之名次比較 全部自變數下的
預測能力
少量自變數下的預 測能力
預測機率對真實機率 解釋能力 方法
面積率 名次 面積率 名次 判定係數 名次 最近鄰居分類 0.405 6 0.499 6 0.1164 6
邏輯迴歸 0.80 2 0.789 3 0.8646 3
判別分析 0.814 1 0.841 1 0.8812 2
貝氏分類 0.704 4 0.709 5 0.5891 5
類神經網路 0.752 3 0.808 2 0.8959 1
分類樹 0.69 5 0.730 4 0.7408 4
表 5-1-2 個人風險準確度之名次比較 全部自變數下的
預測能力
少量自變數下的預 測能力
預測機率對真實機率 解釋能力 方法
面積率 名次 面積率 名次 判定係數 名次
最近鄰居分類 0.45 4 0.45 4 0.8763 3
邏輯迴歸 0.44 5 0.44 5 0.794 4
判別分析 0.44 6 0.43 6 0.6588 5
貝氏分類 0.53 3 0.55 1 0.8994 2
類神經網路 0.54 1 0.53 2 0.9647 1
分類樹 0.536 2 0.50 3 0.2778 6
二、只用少量重要的自變數與使用全部的自變數建模,在風險預測能力上有何差 異?
經過逐步迴歸的結果,使用重要變數與使用全部變數建立預測模型其預測能力 差異不大。但只使用重要變數可有效簡化預測模型。
三、各種資料探勘方法找出的重要自變數相同嗎?
(1) 上市公司之風險預測
經由逐步迴歸結果顯示,發現負債比率、營業利益率、稅後淨值報酬率、
總資產成長率為重要的變數,且對財務危機影響方向與會計原理一致。
(2) 個人信用卡之風險預測
經由逐步迴歸結果顯示,發現 EDUCATION(教育程度)、PAY_1(前 1 個月繳款 遲繳天數)、PAY_2(前 2 個月繳款遲繳天數)、BILL_AMT1(前 1 個月帳單金額)、
BILL_AMT2(前 2 個月帳單金額)、PAY_AMT1(前 2 個月繳款金額)、PAY_AMT2
(前 3 個月繳款金額)為重要的變數。並且發現教育程度越高、前 1 個月繳款遲繳 天數越大、前 2 個月繳款遲繳天數越大、前 1 個月帳單金額越小、前 2 個月帳單金 額越大、前 2 個月繳款金額越小、前 3 個月繳款金額越小,則越容易逾期繳款。
四、各種資料探勘方法預測的風險機率能正確估計真實的風險機率嗎?
(一)上市公司之風險預測
由預測機率(x)對真實機率(y)的線性迴歸 y=ax+b 的判定係數可知,類神經網路 的預測機率對真實機率具有最高的解釋能力,其次是判別分析、邏輯迴歸、分類樹、
貝氏分類,最差是最近鄰居分類。由迴歸線 y=ax+b 的 a、b 值來看,只有類神經網 路的 a 值接近 1.0,b 值接近 0,是六個方法中唯一可以用預測機率準確估計真實機 率的方法。
(二)個人信用卡之風險預測
由預測機率(x)對真實機率(y)的線性迴歸 y=ax+b 的判定係數可知,類神經網路 的預測機率對真實機率具有最高的解釋能力,其次是貝氏分類、最近鄰居分類、邏 輯迴歸、判別分析,最差是分類樹。由迴歸線 y=ax+b 的 a、b 值來看,只有類神經
網路的 a 值接近 1.0,b 值接近 0,是六個方法中唯一可以用預測機率準確估計真實 機率的方法。
5-2 建議
一、對風險管理人員的建議
(一)公司風險
研究顯示,公司的負債比率越大、營業利益率越小、稅後淨值報酬率越小、
總資產成長率越小,則公司可能具有越大的財務風險。建議以類神經網路、邏 輯迴歸和判別分析這三種資料探勘方法來建構公司財務風險模型。
(二)個人風險
研究顯示,教育程度越高、前 1 個月繳款遲繳天數越大、前 2 個月繳款遲 繳天數越大、前 1 個月帳單金額越小、前 2 個月繳款金額越小,則越容易逾期 繳款。建議以類神經網路、貝氏分類和分類樹這三種資料探勘方法來建構個人 信用卡風險模型。
二、對資料探勘研究者的建議
本研究在研究資源不易取得及時間急迫的限制下,尚有許多改進的空間。分別 提出選用資料及建模技術等二方面之研究建議,以供後續研究者進一步加以探討分 析 。
(一)選用資料方面 1. 公司風險
(1) 本研究僅選取財務報表中之財務比率進行分析,尚有其他非財務比率之資 訊並未納入研究分析之中。例如總體經濟因素、公司內部管理機制或政策 環境等變數也可能有影響。如能納入考量,可能可以提高模型的預測精準 度。
(2) 本研究使用年報建立公司風險模型。如能利用季報、半年報等資料,可.
能可以提高模型的預測精準度。
2. 個人風險
本研究受限於資料關係,尚有其它資訊未入研究分析之中。例如薪資、家 庭狀況也可能有影響。如能納入考量,可能可以提高模型的預測精準度。
(二)建模技術方面
隨著資訊科技的發展,除了本研究所使用之方法外,尚可採用其他資訊科技技 術或結合其他方法,例如基因演算法、模糊理論、灰色理論、文字探勘等資料探勘 方法進行研究。