破產預測選擇性集成模型比較

(1)

破產預測選擇性集成模型比較

洪智力陳勁宏

中原大學資訊管理研究所中原大學資訊管理研究所

chihli@cycu.edu.tw sun.tree@hotmail.com

破產預測一直是企業和學術界所關心的重要課題。文獻探討中發現，多數學者過去多使用單一的預測工具，並互相比較其預測能力，但沒有一致的結果顯示某一種工具能絕對優於另一種，所以開始有學者使用集成學習的概念。本研究利用兩篇文獻的集成學習模型，去探討兩者模型的優劣原因，兩模型相同之處，皆想去運用不同分類工具在不同實驗資料集之中擁有不同判斷傾向的特性；並皆透過訓練集的破產和非破產公司預測之期望機率，利用有別傳統決策樹的節點選擇方法，將當今流行的三個分類工具(支援向量機、C4.5、

倒傳遞類神經網路)予以集成，皆以選擇性集成之概念為基礎，建構出破產預測模型，但兩者的建構方法略有不同。本研究透過選擇性集成的局部空間之觀點，切入探討兩者模型之間的差異與優劣。

關鍵字：破產預測、選擇性集成學習、決策樹、類神經網路、支援向量機

1. 前言

對於學界或者在實務界，企業破產預測，

一直是個備受重視的議題，因此對於企業經營者，一個高正確率的破產預測模型，

將會左右此人的決策方向；對於投資者，

該模型也會幫助他趨吉避凶。對於授信業者，模型的預測結果，可望幫業者壞帳及降低預期放款的可能性。

在第二章文獻探討中，我們可以透過文獻的發展，大抵可將破產預測分成兩個大方向：(1)利用傳統統計分析，如：相關

分析、區別分析、迴歸分析、 logit 和 probit 模型等。 (2)利用資料探勘工具分析，如：

決策樹(decision tree)、類神經網路(artificial neural networks, ANN) 、支援向量機 (support vector machine, SVM)等。然而，

大部份學者皆選擇採用單一的預測工具去預測，並比較各工具之間的熟優熟劣，(如 [2]、[15]、[17]、[19]、[23]、[32])。

本次研究針對過去兩位學者對此領域的兩個預測模型( [40]、[41] )，作進一步的實驗與比較。這兩篇模型有著相類似的研究出發點：(1)集成學習(ensemble learning) 是一個已經被證明為有效機器學習的方法 [4]，但仍鮮少運用在破產預測上。(2)選擇性集成(selected ensemble)在集成學習中，

是一個新穎的概念，鮮少學者利用期望機率(expected probability)去估算選擇性集成中，各個分類學習器最“擅長”的區域 (3) 在單一模型的預測能力中，亦鮮少學者去分別探討兩方面(破產企業、正常企業)的預測能力。透過上述三個部份，我們對於兩個預測模型( [40]、[41] )，皆使用三個分類工具 (決策樹、類神經網路、支援向量機)，以方便作比較與深入探討。透過實驗證明，文獻[41]的模型優於文獻[40]的模型。

除本章為前言之外，後面章節安排如下：第二章是回顧破產預測的相關文獻，

同時針對本次研究所使用的破產預測工具作介紹；第三章會介紹多專家集成的相關文獻；第四章為本研究的實驗設計介紹，

包含(1)實驗資料的描述(2)單獨分類專家

的設定(3)評估標準與多數決專家集成比

較；第五章會介紹本次研究的核心：比較

兩篇文獻的模型，分別是「以期望機率為

基礎的多專家破產預測模型」、「以選擇性

集成為基礎的破產預測模型」，第六章是此

(2)

次實證結果，第七章會下個結論與論述未來研究方向。

2. 文獻回顧 2.1 分析方法演進

Beaver(1966) [5]是最早將財務危機的實證研究，帶進到預測領域中的人，他在研究中選取 1954 至 1964 年間 79 家發生財務失敗的企業，再選取規模相當且相同產業的未發生財務失敗的企業，作為研究對象。他在研究中發現，三種最有效預測企業失敗的財務比率(變數)，分別是「現金流量對總負債比率」、「稅後淨利對總資產比率」及「總負債對總資產比率」。

然而 Beaver(1966) [5]仍只使用單一變量分析方法，其缺點是單一變量所得的實驗結果，其代表性及周延性不足。所以 1968 年 Altman [1]針對此項問題，提出多變量區別分析法 (multiple discriminant analysis)。為求客觀，Altman 利用美國破產法認定標準，作為財務失敗的定義，並選出 22 項財務比率(變數)，透過逐步篩選法，保留最具預測能力的五項財務比率，

分別是「營運資金對總資產比率」、「保留盈餘對總資產比率」、「稅前息前盈餘對總資產比率」、「股東權益的市場價值對總負債比率」和「銷貨淨額對總資產比率」，這五項財務比率之組合，即是此領域著名的 Z 線性模型。

然而，以上的方法，都須要在取得資料集後，證明該資料集是常態分配，否則在作顯著性檢定和正確率估計時，可能會導致其產生偏差([10]、[26])，誤導實驗的結論。但證明資料集屬於常態分配，是不容易的，因此為了解決此項問題， Myer and Pifer(1970) [22] 提出線性機率、 Ohlson(1980)[24] 使用 logit 及 Zmijewski(1984) [13]則使用 probit，這三種迴歸模型，皆可在不需常態分配假設成立為前提下，進行預測。另外，在破產預測中，傳統統計工具仍有不足之處，(如：對於異常資料的處理、破產資料的選擇、變動性資料的處理等)，2004 年 Balcaen and

Ooghe [3]也提出來作縱合性的深入討論。

對於變量區別分析和 logit 模型預測的正確率，許多學者展開了熱烈的討論，

雖然多數學者透過實證法推論logit模型在破產預測上表現較佳，但 1986 年Lo[20]

認為，以配適的觀點切入，當樣本資料集是符合常態分配時，其多變量區別分析模型較logit模型有效率。另外，同為迴歸模型的probit 模型，也曾有學者會將兩者的預測能力作比較，如 1988 年Gessner et al.

[13]認為probit與logit 模型，兩者的預測效果差不多。

但是變數之間複雜的非線性數學關係，一直困擾著傳統統計方法，因此在電腦效能大幅提升後，計算智慧學者們將一系列資料探勘的工具，帶入預測的領域。

類神經網路(artificial neural networks, ANN)因為可以處理非線性數學關係，且操作簡單，促使大量學者的投入研究，Odom and Sharda(1990)[23] 和 Altman et al.(1994)[2]即實證類神經網路的區別能力，優於多變量區別分析，另外 Tam and Kiang（1992）[33]、Jo et al. (1997)[15]、 Koh and Tan (1999)[17]也透過實驗證實類神經網路模型之預測能力，是優於多變量區別分析和 probit 模型。

支援向量機 (support vector machine, SVM)是 1995 年才興起並流行的一個資料探勘工具，10 年後，Shin et al. [32]和Min and Lee [21]在研究結果中皆發現，支援向量機擁有了優於類神經網路模型的預測結果。此外，Shin還發現，當訓練資料數量越少時，此種結果會愈加明顯。

近年，West et al. (2005)[35]利用多個類神經，透過bagging策略、boosting策略、

stacking策略去作多專家集成，並實證出多專家集成模型的預測準確度，是優於單一類神經網路的表現。

從以上文獻的回顧，我們發現大部份

學者往往採取單一的破產預測工具，因此

本研究選用當今流行的三個分類工具(支

援向量機、C4.5、倒傳遞類神經網路)，利

(3)

用以期望機率為基礎的節點選擇方法予以融合，建置成集成決策樹 (combined decision tree)的破產預測之模型。

2.2 三種破產預測分析工具 2.2.1 決策樹

決策樹(Decision Tree)，常用於分類預測上的工具，如圖 1 中的最下層節點，稱之為葉節點，所以在右圖(圖 1)中，當新的資料被放到『倒閉』之類別，則就會被決策樹判定該筆新資料是屬於『倒閉企業』。圖 1 中的非葉節點，即是決策樹在作分類時的判定標準，如：新資料的a值大於A 值，且b值大於B值，則在左圖(圖 1)中，

會被歸類在『類別一』類，在右圖(圖 1) 中，會被歸類成『倒閉』類，所以A值和B 值即為判定標準。在決策樹中，包括了很多衍生的模型，例如ID3、C4.5([27]、[28]) 和 CART(classification and regression trees)。

圖1：決策樹基本架構 2.2.2 倒傳遞類神經網路

1990 年之後，許多學者的實證結果顯示類神經網路在很多的分類或預測問題上都有不錯的結果，更因為具有毋須事先假設變數的分配型式之優點，促使其被廣泛運用在許多風險評估、信用評等、及破產預測上。

倒傳遞類神經網路(back propagation neural networks, BPN)是最負盛名的監督式類神經網路 [29]，其網路架構包括三大部分：輸入層、隱藏層和輸出層(如圖 2)，

前一層的輸出資料即為下一層的輸入資料。BPN 的學習方式，可分為兩個階段，

第一階段將輸入資訊由輸入神經單元，透

過隱藏層的神經單元傳導至輸出端，此階段稱為多層前饋 (multilayer feed-forward)，第二階段比較輸出單元的預期值和實際值，將其差異由輸出神經單元向輸入端方向傳送，此階段稱為倒傳遞 (back propagation)，藉以修改隱藏層神經元值來達到學習的目的。

輸入層隱藏層輸出層

圖2：類神經網路基本架構

2.2.3 支援向量機

支援向量機(support vector machine, SVM)是由 Vapnik(1995)[34]所提出，一開始是運用在二元分類，近年許多學者證實其優異的分類效果[21]、[32]，已是現今最通行的分類工具之ㄧ。支援向量機的原理，主要是運用超平面空間(hyperplane)，

將資料分為兩類，利用眾多的超平面空間

作分割，從中找出一個超平面能將兩類資

料隔的最遠，即稱為此為最佳分割的超平

面(optimal separating hyperplane, OSH)，而

OSH 與兩個分類間的距離稱為邊界值

(margin)，簡單來說，在圖 3 中為支援向量

機示意圖，小圈圈和小方塊代表不同類別

的資料，兩類資料透過眾多超平面空間

(hyperplane)分割後，當邊界值(margin)達

到最大時，此超平面空間就被稱之為最佳

分割的超平面 (optimal separating

hyperplane, OSH)。另外，當有些資料是線

性不可分割的時候，支援向量機會透過核

心函數 φ 的轉換，將資料映射到高維度的

特徵空間(feature space)中，以便超平面空

(4)

間作線性分割，簡單來說，原本低維度線性不可分割的資料，可以透過轉換成為高維度特徵空間，以找到兩資料類別間的線性分割點，如左圖，當無法找到線性可分割的超平面時，經核心函數 φ 的轉換，方能找到高維度的線性可分割的超平面。

支援向量機有許多不同的核心函數，常見的是線性函數(linear)外、多項式 (polynomial) 、放射型函數 (radial basis function, RBF)、S 型函數(sigmoid)等。另外，支援向量機也有不同的變型，如在 1999 年 Platt [25] 提出的 SMO(sequential minimal optimization)，它以運算速度著稱，因此也會運用於本研究中。

The new space

●

● ●

□

□ □

□

□ □

□

non-linear mapping 核心函數 (f )

□ □

Margin Margin

□

□ □

□□

□

● ●

●

● ●

●

圖3：支援向量機示意圖 3. 多數決專家集成

集成學習（ensemble learning）指的是多個分類工具被整合起來，它的優點是能提供給預測模型不錯的泛化能力，進而成為一個強學習器。所謂分類器的強弱，

在於：當此分類工具的預測能力只稍略好於隨機猜測，則稱弱學習器，反之，如果有一個分類學習器演算法能夠產生高精度的預測或分類結果，則稱強學習器，但設計一個強學習器是困難的、高成本的，因此許多學者紛紛投入研究低成本的強學習器。1988 年 Kearns 等人[16]首度發現，強學習器與弱學習器之間，是具有等價關係，隔兩年，Schapire[30]學者，更進一步利用自己所設計的 Boosting 演算法，來驗證以下關鍵定理：多個弱分類器是否可以集成為一個強分類器。實驗結果顯示這現象是存在的。同年，Hansen et al.[14] 也利用同樣的集成概念，提出了神經網路集成

（neural network ensemble），一般認為這是神經網路集成的起源。

簡單來說，集成學習就是利用多個分類器去面對同一個問題、同一個資料集、

同一個預測目標，並將這些分類學習器聯合(combine)起來執行該預測任務。目前的集成學習方法，大致可以劃分為兩種方法：(1)透過各個學習器，作並聯訓練 (2) 透過各個學習器，作串聯訓練。

國際機器學習界權威 T.G.

Dietterich[9]提到現今常見的三種集成學習策略，分別是 Bagging [6]，boosting[11]

和 stacking[37]。Bagging 針對相同的演算法，去訓練出多個分類器(如：訓練出多個利用相同演算法的類神經網路模型)，使用非加權的方法進行投票，即採用多數決的方法作為最後集成模型的決策。而 Boosting 利用類似 bagging 的作法，皆選用相同的演算法去訓練出多個分類器，兩者差別在於 Boosting 是採用各分類器的預測結果作加權投票，一般認為加權投票可以避免投票時的平手狀況，除外它的準確率也較 bagging 高。Stacking 和前兩種策略最主要的不同在於可以使用不同的演算法去得到多元的分類器，在決策結果上，則可使用加權或不加權投票的處理方式。但以往的集成學習方法 ( 如： Bagging ， Boosting)，是選擇所有分類器進行集成，

但近年研究發現[38]，從所訓練的學習器中，選擇一部分進行集成預測，可以得到更好的泛化能力。這種概念被稱為選擇性集成（Selective Ensemble）。

本研究透過 Zhou[38]等人所提的串

聯集成學習方法，提出一個選擇性集成模

型，該模型利用期望機率，去分析各個樣

本局部空間中最適宜的選擇性集成之組

合，進而提出了以決策樹為基礎的破產預

測之選擇性集成模型。具體而言，在訓練

階段，先產生一批分類學習器，之後該模

型會利用期望機率(expected probability)去

估算各個分類學習器最“擅長”的區域，因

此當一筆新測試樣本進入模型時，此模型

會依據該樣本所屬區域的最佳(選擇性集

成)分類器去作預測。另外，對於以期望值

為基礎所建置模型之研究， 2006 年洪智力

[40][41] 等人也曾提出去類似的建置方

(5)

法，本研究也會將兩者[40][41]的演算法，

作進一步的比較與探討。

4. 實驗設計

4.1 資料描述

本研究使用 Morgan Kaufmann (Oct 1992) 所收集的資料集 ( 該資料可以在 http://www.niaad.liacc.up.pt/old/statlog/data sets/australian/australian.doc.html 中取得 )，資料收集對象是 Australian Credit Approval，內含 14 種屬性，共 690 筆資料，

其中包含 383 筆倒閉企業與 307 筆正常企業。

我們以維持整個資料集之企業破產比例的原則，隨機將資料集分成為訓練集 552 筆和測試集 138 筆。為了減少隨機挑選資料所產生的偏誤，分別利用亂數函數產生 10 組訓練樣本，最後再平均 10 次的預測結果。

4.2 單獨分類專家的設定與評估標準為了避免單獨分類專家過度訓練 (over fitting) ，我們選用 10-fold cross validation。三個分類專家分別是：(1)決策樹，我們選用 C.45 演算法 (2)支援向量機，我們選用運算速度較快的 SMO(sequential minimal optimization ) (3) 類神經網路，我們選用帶有動量項 (momentum = 0.2)的倒傳遞類神經網路，

其網路架構依據輸入層-隱藏層-輸出層為 14-10-1，其起始學習率為 0.75，並隨訓練時間而降低。

就分類模型之效率評估標準而言，一般常用混亂矩陣(confusion matrix)來表示 (Kohavi and Foster,1998)，表 1 中，A 表示分類模型正確預測出該企業為正常企業；

B 表示該企業是正常企業，卻被誤判成破產企業；C 表示該企業是破產企業，卻被誤判成正常企業；D 表示分類模型正確預測出該企業為破產企業。因此模型分類正確率(classification accuracy, CA)表示如方程示(1)，破產企業分類正確率表示如方程示(2)，正常企業分類正確率表示如方程示

(3)。

表1：Confusion Matrix

↓ 真值\預測值→

倒閉 (Negative)

正常 (Positive) 倒閉

(Negative)

A (正確預測) B (不正確預測)

正常 (Positive)

C (不正確預測) D (正確預測)

D C B A

D CA A

+ + +

= +

模型 (1)

B A CA A

= +

破產 (2)

D C CA D

= +

正常 (3)

4.3 單獨分類專家訓練結果

從實驗結果得知(如表 2)，就模型對訓練集(training set)的分類正確率(模型 CA) 而言，BPN > SVM > C4.5；就破產企業分類正確率(破產 CA)而言，BPN > C4.5 >

SVM；就正常企業分類正確率(正常 CA) 而言，SVM > BPN > C4.5。

表2：三種分類器對訓練集的分類正確性

C4.5 BPN SVM 大小順序模型 CA 82.97% 85.69% 84.96%

BPN > SVM > C4.5

破產 CA 84.97% 86.28% 79.41%

BPN > C4.5 > SVM

正常 CA 80.49% 84.96% 92.28%

SVM > BPN > C4.5

就模型對於測試集(test set)的預測能力而言(如表 3)，C4.5 > BPN > SVM；就破產企業預測正確率(破產 CA)而言，C4.5

> SVM > BPN；就正常企業預測正確率(正常 CA)而言，C4.5 > BPN > SVM。

表3：三種分類器對測試集的預測正確性

C4.5 BPN SVM 大小順序模型 CA 97.83% 92.75% 88.41%

C4.5 > BPN > SVM

破產 CA 98.68% 92.41% 92.96%

C4.5 > SVM > BPN

正常 CA 96.77% 93.22% 83.58%

C4.5 > BPN > SVM

4.4 單獨分類專家之判斷傾向

(6)

本次實驗所用的 Australian Credit Approval資料庫，套用表 1 公式，可以得到表 4 中各別分類工具的實驗結果。而真實資料中倒閉企業佔 306 筆，正常企業佔 246 筆，其真實資料的比率為= (倒閉企業：正常企業) = (306：246) = (1.244：1) ，因此在兩數相除之後，可得值(=1.244)。因此我們推論，當某工具預測倒閉企業 (Negative)之總次數(A+C)，除以預測正常企業 (Positive)之總次數(B+D)，可得值=

(A+C)

/

(B+D)

，當此值高於 1.244，我們推論

該分類工具在預測倒閉的筆數上高於真實倒閉的筆數，進而推論該分類工具傾向判定倒閉；因此，三個分類工具可得三個

(A+C)

/

(B+D)

值，分別是 C4.5(=1.2623) 、 BPN(=1.199)、SVM(=0.9034)，由資料顯示可知C4.5 大於 1.244，BPN與SVM小於 1.244，依據相對比較之基礎下，我們推論： (1) C4.5 屬於傾向判定倒閉之分類專家 (2) BPN屬於傾向判定正常之分類專家 (3) SVM屬於傾向判定正常之分類專家。

表4：比較三個分類專家在Training-set 的 Confusion Matrix

預測值→

↓真實值

倒閉(Negative) 正常(Positive)

倒閉 (Negative) A (正確的預測) C4.5 = 260 筆 BPN = 264 筆 SVM= 243 筆

B (錯誤的預測) C4.5 = 46 筆 BPN = 42 筆 SVM= 63 筆

正常 (Positive) C (錯誤的預測) C4.5 = 48 筆 BPN = 37 筆 SVM= 19 筆

D (正確的預測) C4.5 = 198 筆 BPN = 209 筆 SVM= 227 筆

4.5 各自分類專家其較擅於判定正確之領域

為了承續之後的選擇性集成(selective ensemble)之研究『特定區域應有特定專家集成』，我們需先討論各別的專家所擅長的

區域。首先，我們針對各分類專家在預測破產企業、預測正常企業兩方面，切成兩個特定區域，之後，利用期望機率，分析該專家對於該特定區域是否擅長。我們定義期望機率(P)=(正確的預測之總數)/(預測之總數)，透過表 1 矩陣，我們將期望機率(P)再細分為P

^正常

和P

^破產

來分別探討，以下是期望機率的數學式：

P

^正常

=P (實際正常企業總數|預測為正常企業總數) =

D B

D

+

(4)

P

^破產

=P (實際破產企業總數|預測為破產企業總數) =

C A

A

+

(5)

另外，對於錯誤的預測，有兩種指標可以去分析該分類器的優劣，分別是P

^型1

= 型 1 誤差(如方程式 4)，與P

^型2

= 型 2 誤差 (如方程式 5)。型 1 誤差是將破產企業預測成正常企業，型 2 誤差恰好相反，它是將正常企業預測成破產企業。

P^型1 = α = P (實際破產企業總數|預測為正常企業總數) =

D B

B +

(6)

P^型2 = β = P (實際正常企業總數|預測為破產企業總數) =

C A

C

+

(7)

表5：三種訓練模型對訓練集不同決策傾向的期望機率

C4.5 BPN SVM 大小順序 P^破產 84.42% 87.71% 92.75% SVM > BPN > C4.5

P^正常 81.15% 83.27% 78.28% BPN > C4.5 > SVM

由資料可以發現SVM

^{破產}

擁有三個分類工具中的( P

MAX

) = P

^破產(SVM)

= 92.75%

(見表 5)，但同時SVM

^破產

卻也擁有三個分

類工具中的( CA

MIN

) =79.41% ∈ CA

^破產

(見表 2)；相反的，SVM

^正常

擁有三個分類

(7)

工具中的( P

MIN

) = P

^正常(SVM)

= 78.28%，卻同時SVM

^{正常}

也擁有了三個分類工具中的 ( CA

MAX

) = 92.28% ∈ CA

^正常

。針對這有趣的現象，我們推論SVM因為對於資料的預測，較偏好預測它們為正常企業，使得 SVM在無足夠證據證明為該筆資料為A 時，容易將 A判定成B(即：判為正常企業)，造成B的上升(見方程式 6，B為型 1 誤差之分子，所以造成型 1 誤差上升)；同時SVM在無足夠證據證明C時，容易將C 判定成D(即：判為正常企業)，會產生C的降低(見方程式 7，C為型 2 誤差之分子，

所以造成型 2 誤差下降)。這現象也出現在其它兩個分類器上(C4.5、BPN)。本研究推論，期望機率(P)比正確率(CA)更適合放入決策樹中，作節點選擇的準則。

本研究將會利用以上這個特性，建製本次研究的核心「以決策樹為基礎的破產預測之選擇性集成模型」。

5. 選擇性集成為基礎的多專家集成設計

5.1 Stacking 的缺點

一般學者大都認為集成學習之所以能夠提高分類器的分類正確性，是因為它綜合多個分類器所得到的結果，能降低只使用單一分類器的預測誤差。然而，特別是針對 stacking 模型而言，不同的分類演算法，擁有其不同的決策傾向和決策傾向所帶來的優點，雖然集成分類學習器能接收了來自不同分類演算法所有的優點，但也同時接收了所有的缺點，所以單純採取多數決的策略，並不見得就能得到較好的預測結果(如表 3、表 6)。

表6：專家集成對測試集的預測正確性多數決集成加權多數決集成模型CA 93.48% 93.48%

破產CA 94.81% 94.81%

正常CA 91.80% 91.80%

本研究先利用最常見的stacking分類集成策略--多數決和加權多數決專家集成 (如表 6)，去比較模型預測準確率(模型 CA)、破產企業預測準確率(破產CA)及正常企業預測準確率(正常CA)。並與個別模型的預測力比較(如表 3)，經實驗結果研判，多數決及加權多數決專家集成，其預測能力並不一定比個別模型好，進一步資料分析，發現多數決的破產CA，雖然不會比各別三個分類工具中最差的差(破產CA

BPN

=92.41%)，但亦無法比三個分類工具中表現最好的好(破產CA

C4.5

=98.68%)，因此我們推論『stacking雖接收了來自不同分類學習器的優點，但也同時接收了所有的缺點』。

5.2 以期望機率為基礎的多專家破產預測模型

在 2006 年，洪智力等人[40]，利用期望機率的分析，來決定決策樹節點的前後順序，因而提出『以期望機率為基礎的多專家破產預測模型』，以下是該篇所提出的完整建置說明圖：

圖 4：建置以期望機率為基礎的多專家破產預測模型(Step1)

↓

(8)

圖 5：建置以期望機率為基礎的多專家破產預測模型(Step2)

↓

圖 6：建置以期望機率為基礎的多專家破產預測模型(Step3)

↓

圖 7：建置以期望機率為基礎的多專家破產預測模型(Step4)

↓

圖 8：建置以期望機率為基礎的多專家破產預測模型(Step5)

↓

圖 9：建置以期望機率為基礎的多專家破產預測模型 Steps6、7

首先在Step-1 中，會先計算出所有專家對訓練集的正常企業及破產企業之預測期望機率率P

^正常

和P

^破產

， (參見方程式 4、5)，

隨後在表 5 中，即可找出max(P)為SVM

^倒閉

，並將它放入第一層節點。因此只要新的

一筆資料流入第一層節點，當它符合

(9)

『SVM判它為倒閉企業』時，則此筆新資料會流入左子樹，否則將流入右子樹『第二層節點』。

在Stpe-2 中，會將上一步驟所使用的分類器刪除在表 5 內，如圖所示，P(SVM) 在此步驟被作刪除。在Stpe-3 中，需選擇與第一節點相反決策的分類器，所以需選出max(P

^正常

)，為BPN

^正常

。接下來Stpe-4，同 Stpe-2，會將上一步驟所使用的分類器刪除在表 5 內。到了Step-5，需選擇與第一節點相反決策的分類器，所以需選出 max(P

^倒閉

)，為C4.5

^正常

。而Stpe-6，同Stpe-2 的作法，會將上一步驟所使用的分類器刪除在表 5 內。Step-7，在刪完(表 5 中)可選擇的分類器後，迴圈也將停止，並將下一層節點利用『多數加權決判定』。如此，

即完成該決策樹。

5.3 以選擇性集成為基礎的破產預測模型的建置概念如下：

在 2007 年，洪智力等人[41]也利用期望機率的分析，並使用一個節點兩個分類器之方法，嘗試更進一步的作樣本局部空間的切割，因而提出『以選擇性集成為基礎的破產預測模型』，以下是該篇所提出的完整建置說明圖：

圖 10：建置以選擇性集成為基礎的破產預測模型(Step1)

↓

圖 11：建置以選擇性集成為基礎的破產預測模型(Step2)

↓

圖 12：建置以選擇性集成為基礎的破產預測模型(Step3)

↓

圖 13：建置以選擇性集成為基礎的破產預測模型(Step4)

↓

(10)

圖 14：建置以選擇性集成為基礎的破產預測模型(Step5)

在Step-1.中，會先計算出所有專家對訓練集的正常企業及破產企業之預測期望機率率P

^正常

和P

^破產

，(參見方程式 4、5)，隨後在表 5 中，即可找出max(P

^倒閉

)為SVM

^倒閉

，和min(P

^正常

) 為C4.5

^正常

，並將兩者放入第一層節點。因此只要新的一筆資料流入第一層節點，當它符合『SVM判它為倒閉企業、C4.5 判它為正常企業』時，此筆新資料會流入左子樹，否則將流入右子樹『第二層節點』。

在Stpe-2 中，會將上一步驟所使用的分類器刪除在表 5 內，如圖所示，P(SVM

倒閉

)和P(C4.5

^正常

)在此步驟作刪除。在Stpe-3 中，為了選擇適當的分類器組合，透過表 5，需選擇與第一節點相反決策的分類器，

所以需選出max(P

^正常

)和min(P

^倒閉

)，分別是 BPN

^正常

、 C4.5

^倒閉

。接下來Stpe-4，同Stpe-2，

會將上一步驟所使用的分類器刪除在表 5 內。到了Step-5，決策樹的層數為(m)，分類器的個數為 (n)，因為分類器有C4.5、

BPN、SVM，所以(n=3)，當演算法發現(m) 已大於(n/2)時，則會跳出建置決策樹的迴圈，並將第三層使用多數決判定，如此，

即完成全部決策樹的建置。之於會在 Step-5 設定這樣的迴圈門檻值，是因為此篇作者認為大於該迴圈門檻值的層數，其節點中兩個分類器的期望機率組合，容易產生將資料誤判。

6. 實證結果與推論

本研究利用相同資料集 (Australian Credit Approval)，測試文獻[40]和文獻[41]

的兩者模型間的預測準確度(如表 7)之比較。經由實驗結果顯示，我們推論，文獻 [41]的模型效能優於文獻[40]的模型，我們認為文獻[41]模型能有效劃分出樣本局部空間，也較能劃分出破產企業與正常企業較少混雜的樣本空間，因此以下將透過集合圖來探討兩個模型之間的『劃分局部空間之成效』。

表7：決策樹之破產預測專家集成與多數決專家集成對測試集的預測正確性之一覽比較表

多數決專家集成

加權多數決專家集成

文獻[40]

專家集成

文獻[41]

專家集成

模型 CA 93.48% 93.48% 93.48% 97.83%

破產 CA 94.81% 94.81% 94.81% 97.40%

正常 CA 91.80% 91.80% 91.80% 98.36%

圖 15 是說明本研究劃分出選擇性集成之局部空間，因此由圖可知，由洪智力 (2006) [40]所提的單一節點單一個分類器的模型，若節點順序是分類器 1、分類器 2、分類器 1’、分類器 2’，則造成圖中 B 區、G 區、H 區、M 區、J 區皆視為 A 區作判定，會造成太過武斷的判定。而洪智力(2007) [41]所提出研究模型是的第一層節點是將 B 區的資料集利用『得分』的方式判定，第二層節點是將 E 區的資料集利用『得分』的方式判定，但因為 B 區比 E 區先判定，所以(B∩E)=J 區，仍視為 B 區；

此模型[41]的方法成功的將太過武斷的判定區域(B 區、G 區、H 區、M 區、J 區)，

縮減只剩 J 區，因此本研究能更有效劃分

出選擇性集成之局部空間。

(11)

圖 15：選擇性集成所劃分的局部空間然而，在文獻[40]中，其模型在實驗結果顯示，是具有優於傳統多數決集成的預測能力，但為什麼在本研究中，卻無法超越多數決集成的預測能力呢？我們研判，因為本研究是使用與文獻[40]不同的資料集，透過表 2 與表 3 的比較可發現，

在表 3 的C4.5 有個顯著好於訓練集的正確率，且擁有P

max

，若依照表 3 測試集的正確率來發展集成樹之模型，則C4.5 應該在樹的根節點，但卻落到第三層的節點，因此它並非是本資料集中最合適的文獻[40]

模型，再加上的它擁有了較武斷的判定，

使得更突顯『C4.5 應該在樹的根節點，但卻落到第三層的節點』的缺點。反觀，文獻[41]是利用交集法(見圖 15 的B區)去取出局部空間，因此不會因為上述問題，產生預測效果降低的現象。

7. 結論與未來研究方向破產預測的價值一直為學術界與實務界所重視，也是資料探勘及企業決策的核心問題。近年選擇性集成之概念被提出，許多學者利用不同的方法，研究如何有效的切割出「樣本局部空間」，本研究利用兩篇皆使用期望機率作切割的方法，去探討兩者間差異所帶來的優劣，實驗結果顯示，「以選擇性集成為基礎的破產預測模型」[41]，因能有效的切割局部空間，明顯優於「以期望機率為基礎的多專家破產預測模型」[40]。

在未來的延伸研究方面，我們將使用

更大的破產企業資料集，以增加兩模型優劣評判的客觀性，亦可考慮在不同領域的資料集，去觀察兩模型在各領域資料集的適用性，或是納入更多元的選擇性集成之演算法，去作更深入的探討與比較。

參考文獻

[1] Altman, E.I., “Financial ratios, discriminant analysis and the prediction of corporate bankruptcy,” Journal of Finance, 1968, Vol. 23, No. 4, pp. 589-609.

[2] Altman, E.I., Marco, G.V. and Varetto, F., “Corporate distress diagnosis:

comparisons using linear discriminant analysis and neural networks,” Journal of Banking and Finance, 1994, Vol.18, pp.

505-529.

[3] Balcaen, S. and Ooghe, H., “35 years of studies on business failure: an overview of the classical statistical methodologies and their related problems,” Working paper, No.

248, Department of Accountancy and Corporate Finance, Ghent University, Belgium, 2004.

[4] Bauer, E. and Kohavi, R., “An empirical comparison of voting classification algorithms: bagging, boosting, and variants”, Machine Learning, 1999, Vol. 36, No. 1-2 , pp. 105-139.

[5] Beaver, W., “Financial ratios as predictors of failure”, Journal of Accounting Research, 1966, Vol. 4, pp. 71-111.

[6] Breiman L, “Bagging predictors”, Machine Learning, 1996, Vol. 24, No. 2, pp.123-140.

[7] Hung, C., Chen, J.-H., Wermter, S. ” Hybrid probability-based ensembles for bankruptcy prediction”, Business and Information, 2007.

[8] Collins, R.A. and Green, R.D.,

“Statistical methods for bankruptcy

forecasting,” Journal of Economics and

Business, 1982, Vol. 34, No. 4, pp. 349-354.

(12)

[9] Dietterich T.G., “Ensemble methods in machine learning,” Proceedings of the First International Workshop on Multiple Classifier Systems (MCS00), 2000, pp.

1-15.

[10] Eisenbeis, R.A, “Pitfalls in the application of discriminant analysis in business, finance and economics,” Journal of Finance, .1977, pp. 875-900.

[11] Freund Y, Schapire R E, “A decision-theoretic generaliation of on-line learning and an application to boosting”.

Journal of Computer and System Sciences, 1997, Vol. 55, No. 1, pp. 119-139.

[12] Gentry J.A., Newbold, P. and Whitford, D.T., “Classifying bankrupt firms with funds flow components,” Journal of Accounting Research, 1985, No. 23, No. 1, pp. 146-160.

[13] Gessner, G., Kamakura, W.A., Malhortra, N.K. and Zmijewski, M.E.,

“Estimating models with binary dependent variables: some theoretical and empirical observations,” Journal of Business Research, 1988, Vol. 16, No. 1, pp. 49-65.

[14] Hansen L K, Salamon P, “Neural network ensembles”. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, Vol.12, No.10, pp.993-1001.

[15] Jo, H., Han, I. and Lee, H.,

“Bankruptcy prediction using case-based reasoning, neural networks, and discriminant analysis,” Expert Systems with Applications, 1997, Vol. 13, No. 2, pp.

97-108.

[16] Kearns M, Valiant L G., “Learning boolean formulae or factoring”, Cambridge, MA: Havard University Aiken Computation Laboratory Technical Report TR-1488, 1988.

[17] Koh, H.C. and Tan S.S., “A neural network approach to the prediction of going concern status,” Accounting and Business Research, 1999, Vol. 29, No. 3, pp. 211-216.

[18] Kohavi, R. and Foster, P., “Glossary of terms,” Machine Learning,, 1998, Vol. 30, No. 23, pp. 271-274.

[19] Lensberg, T., Eilifsen, A. and McKee, T.E., “Bankruptcy theory development and classification via genetic proramming,”

European Journal of Operational Research, 2006, Vol. 169, pp. 677-697.

[20] Lo, A. W., “Logit versus discrimninant analysis- a Specification test and application to corporate bankruptcies,” Journal of Econometrics, 1986, March, pp.151-178.

[21] Min, J.H. and Lee, Y.-C., “Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters,” Expert Systems with Applications, 2005, Vol. 28, No. 4, pp.

603-614.

[22] Myer, P.A. and Pifer, H.W., “Prediction of bank failure,” Journal of Finance, 1970, pp. 853-868.

[23] Odom, M. and Sharda, R., “A neural network model for bankruptcy prediction,”

Proceedings of International Joint Conference on Neural Networks, 1990, pp.

163-168.

[24] Ohlson, J., “Financial ratios and the probabilistic prediction of bankruptcy,”

Journal of Accounting Research, 1980, Vol.

18, No. 1, pp. 109-131.

[25] Platt, J., “Fast training of support vector machines using sequential minimal optimization,” Schoelkopf, B., Burges, C.J.C., Smola, A.J. (eds.), Advances in Kernel Methods - Support Vector Learning.

Cambridge, MA: MIT Press, 1999, pp.

185-208.

[26] Press, S.J. and Willson, S., “Choosing between logistic regression and discriminant analysis,” Journal of the American Statistical Association, 1978, pp. 699-705.

[27] Quinlan, R., “Induction of decision

trees,” Machine Learning, 1986,Vol. 1, No.

(13)

1, pp. 81-106.

[28] Quinlan, R., C4.5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufmann Publishers, 1993.

[29] Rumelhart, D.E., Hinton, G.E. and Williams, R.J., “Learning internal representations by error propagation,”

Rumelhart, D.E. and McClelland, J.L.

(eds.), Parallel distributed processing:

Explorations in the microstructure of cognition, 1986, Vol. 1: Foundations, Cambridge, MA: MIT Press, pp. 318-362.

[30] Schapire R E., “The Strength of weak learnability”. Machine Learning, 1990,Vol.5, No.2, pp.197-227.

[31] Serrano-Cinca, C., “Self organizing neural networks for financial diagnosis,”

Decision Support Systems, 1996, Vol. 17, No. 3, pp. 227-238.

[32] Shin, K.-S., Lee, T.S. and Kim, H.-J.,

“An application of support vector machines in bankruptcy prediction model,” Expert Systems with Applications, 2005, Vol. 28, No. 1, pp. 127-135.

[33] Tam, K. and Kiang, M., “Managerial applications of neural networks: the case of bank,” Management Science, 1992, Vol.38, No. 7, pp. 926-947.

[34] Vapnik V., “Support-vector networks,”

Machine Learning, 1995,Vol. 20, No. 3, pp.

273-297.

[35] West, D., Dellana, S and Qian, J.,

“Neural network ensemble strategies for financial decision applications,” Computers

& Operations Research, 2005, Vol. 32, pp.

2543-2559.

[36] Wieslaw, P., Application of Discrete Predicting Structures in an Early Warning Expert System for Financial Distress, PhD Thesis, Szczecin Technical University, Szczecin, 2004.

[37] Witten, I.H. and Frank, E., Data Mining, (second edition), Elsevier, Morgan Kaufmann Publishers, 2005.

[38] Zhou Z-H, Wu J, Tang W,

“Ensembling neural networks: many could be better than all”. Artificial Intelligence, 2002, Vol. 137, No.1-2 , pp. 239-263.

[39] Zmijewski, M., “Methodological issues related to the estimation of financial distress prediction models,” Journal of Accounting Research, 1984, Vol. 22, No. 1, pp. 59-82.

破產預測選擇性集成模型比較