破 產 預 測 選 擇 性 集 成 模 型 比 較
洪智力 陳勁宏
中原大學資訊管理研究所 中原大學資訊管理研究所
chihli@cycu.edu.tw sun.tree@hotmail.com破產預測一直是企業和學術界所關心 的重要課題。文獻探討中發現,多數學者 過去多使用單一的預測工具,並互相比較 其預測能力,但沒有一致的結果顯示某一 種工具能絕對優於另一種,所以開始有學 者使用集成學習的概念。本研究利用兩篇 文獻的集成學習模型,去探討兩者模型的 優劣原因,兩模型相同之處,皆想去運用 不同分類工具在不同實驗資料集之中擁有 不同判斷傾向的特性;並皆透過訓練集的 破產和非破產公司預測之期望機率,利用 有別傳統決策樹的節點選擇方法,將當今 流行的三個分類工具(支援向量機、C4.5、
倒傳遞類神經網路)予以集成,皆以選擇性 集成之概念為基礎,建構出破產預測模 型,但兩者的建構方法略有不同。本研究 透過選擇性集成的局部空間之觀點,切入 探討兩者模型之間的差異與優劣。
關鍵字:破產預測、選擇性集成學習、決 策樹、類神經網路、支援向量機
1. 前言
對於學界或者在實務界,企業破產預測,
一直是個備受重視的議題,因此對於企業 經營者,一個高正確率的破產預測模型,
將會左右此人的決策方向;對於投資者,
該模型也會幫助他趨吉避凶。對於授信業 者,模型的預測結果,可望幫業者壞帳及 降低預期放款的可能性。
在第二章文獻探討中,我們可以透過 文獻的發展,大抵可將破產預測分成兩個 大方向:(1)利用傳統統計分析,如:相關
分析、區別分析、迴歸分析、 logit 和 probit 模型等。 (2)利用資料探勘工具分析,如:
決策樹(decision tree)、類神經網路(artificial neural networks, ANN) 、 支 援 向 量 機 (support vector machine, SVM)等。然而,
大部份學者皆選擇採用單一的預測工具去 預測,並比較各工具之間的熟優熟劣,(如 [2]、[15]、[17]、[19]、[23]、[32])。
本次研究針對過去兩位學者對此領域 的兩個預測模型( [40]、[41] ),作進一步的 實驗與比較。這兩篇模型有著相類似的研 究出發點:(1)集成學習(ensemble learning) 是一個已經被證明為有效機器學習的方法 [4],但仍鮮少運用在破產預測上。(2)選擇 性集成(selected ensemble)在集成學習中,
是一個新穎的概念,鮮少學者利用期望機 率(expected probability)去估算選擇性集成 中,各個分類學習器最“擅長”的區域 (3) 在單一模型的預測能力中,亦鮮少學者去 分別探討兩方面(破產企業、正常企業)的 預測能力。透過上述三個部份,我們對於 兩個預測模型( [40]、[41] ),皆使用三個分 類工具 (決策樹、類神經網路、支援向量 機),以方便作比較與深入探討。透過實驗 證明,文獻[41]的模型優於文獻[40]的模 型。
除本章為前言之外,後面章節安排如 下:第二章是回顧破產預測的相關文獻,
同時針對本次研究所使用的破產預測工具 作介紹;第三章會介紹多專家集成的相關 文獻;第四章為本研究的實驗設計介紹,
包含(1)實驗資料的描述(2)單獨分類專家
的設定(3)評估標準與多數決專家集成比
較;第五章會介紹本次研究的核心:比較
兩篇文獻的模型,分別是「以期望機率為
基礎的多專家破產預測模型」 、 「以選擇性
集成為基礎的破產預測模型」 ,第六章是此
次實證結果,第七章會下個結論與論述未 來研究方向。
2. 文獻回顧 2.1 分析方法演進
Beaver(1966) [5]是最早將財務危機的 實證研究,帶進到預測領域中的人,他在 研究中選取 1954 至 1964 年間 79 家發生財 務失敗的企業,再選取規模相當且相同產 業的未發生財務失敗的企業,作為研究對 象。他在研究中發現,三種最有效預測企 業失敗的財務比率(變數),分別是「現金 流量對總負債比率」、「稅後淨利對總資 產比率」及「總負債對總資產比率」。
然而 Beaver(1966) [5]仍只使用單一變 量分析方法,其缺點是單一變量所得的實 驗結果,其代表性及周延性不足。所以 1968 年 Altman [1]針對此項問題,提出多 變 量 區 別 分 析 法 (multiple discriminant analysis)。為求客觀,Altman 利用美國破 產法認定標準,作為財務失敗的定義,並 選出 22 項財務比率(變數),透過逐步篩選 法,保留最具預測能力的五項財務比率,
分別是「營運資金對總資產比率」、「保 留盈餘對總資產比率」、「稅前息前盈餘 對總資產比率」、「股東權益的市場價值 對總負債比率」和「銷貨淨額對總資產比 率」,這五項財務比率之組合,即是此領 域著名的 Z 線性模型。
然而,以上的方法,都須要在取得資 料集後,證明該資料集是常態分配,否則 在作顯著性檢定和正確率估計時,可能會 導致其產生偏差([10]、[26]),誤導實驗的 結論。但證明資料集屬於常態分配,是不 容易的,因此為了解決此項問題, Myer and Pifer(1970) [22] 提 出 線 性 機 率 、 Ohlson(1980)[24] 使 用 logit 及 Zmijewski(1984) [13]則使用 probit,這三種 迴歸模型,皆可在不需常態分配假設成立 為前提下,進行預測。另外,在破產預測 中,傳統統計工具仍有不足之處,(如:對 於異常資料的處理、破產資料的選擇、變 動性資料的處理等),2004 年 Balcaen and
Ooghe [3]也提出來作縱合性的深入討論。
對於變量區別分析和 logit 模型預測 的正確率,許多學者展開了熱烈的討論,
雖然多數學者透過實證法推論logit模型在 破產預測上表現較佳,但 1986 年Lo[20]
認為,以配適的觀點切入,當樣本資料集 是符合常態分配時,其多變量區別分析模 型較logit模型有效率。另外,同為迴歸模 型的probit 模型,也曾有學者會將兩者的 預測能力作比較,如 1988 年Gessner et al.
[13]認為probit與logit 模型,兩者的預測效 果差不多。
但是變數之間複雜的非線性數學關 係,一直困擾著傳統統計方法,因此在電 腦效能大幅提升後,計算智慧學者們將一 系列資料探勘的工具,帶入預測的領域。
類神經網路(artificial neural networks, ANN)因為可以處理非線性數學關係,且操 作簡單,促使大量學者的投入研究,Odom and Sharda(1990)[23] 和 Altman et al.(1994)[2]即實證類神經網路的區別能 力,優於多變量區別分析,另外 Tam and Kiang(1992)[33]、Jo et al. (1997)[15]、 Koh and Tan (1999)[17]也透過實驗證實類神經 網路模型之預測能力,是優於多變量區別 分析和 probit 模型。
支 援 向 量 機 (support vector machine, SVM)是 1995 年才興起並流行的一個資料 探勘工具,10 年後,Shin et al. [32]和Min and Lee [21]在研究結果中皆發現,支援向 量機擁有了優於類神經網路模型的預測結 果。此外,Shin還發現,當訓練資料數量 越少時,此種結果會愈加明顯。
近年,West et al. (2005)[35]利用多個 類神經,透過bagging策略、boosting策略、
stacking策略去作多專家集成,並實證出多 專家集成模型的預測準確度,是優於單一 類神經網路的表現。
從以上文獻的回顧,我們發現大部份
學者往往採取單一的破產預測工具,因此
本研究選用當今流行的三個分類工具(支
援向量機、C4.5、倒傳遞類神經網路),利
用以期望機率為基礎的節點選擇方法予以 融 合 , 建 置 成 集 成 決 策 樹 (combined decision tree)的破產預測之模型。
2.2 三種破產預測分析工具 2.2.1 決策樹
決策樹(Decision Tree),常用於分類預 測上的工具,如圖 1 中的最下層節點,稱 之為葉節點,所以在右圖(圖 1)中,當新的 資料被放到『倒閉』之類別,則就會被決 策樹判定該筆新資料是屬於『倒閉企業』 。 圖 1 中的非葉節點,即是決策樹在作分類 時的判定標準,如:新資料的a值大於A 值,且b值大於B值,則在左圖(圖 1)中,
會被歸類在『類別一』類,在右圖(圖 1) 中,會被歸類成『倒閉』類,所以A值和B 值即為判定標準。在決策樹中,包括了很 多衍生的模型,例如ID3、C4.5([27]、[28]) 和 CART(classification and regression trees)。
圖1:決策樹基本架構 2.2.2 倒傳遞類神經網路
1990 年之後,許多學者的實證結果顯 示類神經網路在很多的分類或預測問題上 都有不錯的結果,更因為具有毋須事先假 設變數的分配型式之優點,促使其被廣泛 運用在許多風險評估、信用評等、及破產 預測上。
倒傳遞類神經網路(back propagation neural networks, BPN)是最負盛名的監督 式類神經網路 [29],其網路架構包括三大 部分:輸入層、隱藏層和輸出層(如圖 2),
前一層的輸出資料即為下一層的輸入資 料。BPN 的學習方式,可分為兩個階段,
第一階段將輸入資訊由輸入神經單元,透
過隱藏層的神經單元傳導至輸出端,此階 段 稱 為 多 層 前 饋 (multilayer feed-forward),第二階段比較輸出單元的 預期值和實際值,將其差異由輸出神經單 元向輸入端方向傳送,此階段稱為倒傳遞 (back propagation),藉以修改隱藏層神經 元值來達到學習的目的。
輸入層 隱藏層 輸出層
圖2:類神經網路基本架構
2.2.3 支援向量機
支援向量機(support vector machine, SVM)是由 Vapnik(1995)[34]所提出,一開 始是運用在二元分類,近年許多學者證實 其優異的分類效果[21]、[32],已是現今最 通行的分類工具之ㄧ。支援向量機的原 理,主要是運用超平面空間(hyperplane),
將資料分為兩類,利用眾多的超平面空間
作分割,從中找出一個超平面能將兩類資
料隔的最遠,即稱為此為最佳分割的超平
面(optimal separating hyperplane, OSH),而
OSH 與兩個分類間的距離稱為邊界值
(margin),簡單來說,在圖 3 中為支援向量
機示意圖,小圈圈和小方塊代表不同類別
的資料,兩類資料透過眾多超平面空間
(hyperplane)分割後,當邊界值(margin)達
到最大時,此超平面空間就被稱之為最佳
分 割 的 超 平 面 (optimal separating
hyperplane, OSH)。另外,當有些資料是線
性不可分割的時候,支援向量機會透過核
心函數 φ 的轉換,將資料映射到高維度的
特徵空間(feature space)中,以便超平面空
間作線性分割,簡單來說,原本低維度線 性不可分割的資料,可以透過轉換成為高 維度特徵空間,以找到兩資料類別間的線 性分割點,如左圖,當無法找到線性可分 割的超平面時,經核心函數 φ 的轉換,方 能找到高維度的線性可分割的超平面。
支 援 向 量 機 有 許 多 不 同 的 核 心 函 數,常見的是線性函數(linear)外、多項式 (polynomial) 、 放 射 型 函 數 (radial basis function, RBF)、S 型函數(sigmoid)等。另 外,支援向量機也有不同的變型,如在 1999 年 Platt [25] 提出的 SMO(sequential minimal optimization),它以運算速度著 稱,因此也會運用於本研究中。
The new space
●
●
●
●
● ●
□
□
□
□ □
□
□
□
□
□ □
□
non-linear mapping 核心函數 (f )
□ □
Margin Margin
□
□
□
□ □
□□
□
□
● ●
●
●
● ●
●
●
●
●
圖3:支援向量機示意圖 3. 多數決專家集成
集成學習(ensemble learning)指的 是多個分類工具被整合起來,它的優點是 能提供給預測模型不錯的泛化能力,進而 成為一個強學習器。所謂分類器的強弱,
在於:當此分類工具的預測能力只稍略好 於隨機猜測,則稱弱學習器,反之,如果 有一個分類學習器演算法能夠產生高精度 的預測或分類結果,則稱強學習器,但設 計一個強學習器是困難的、高成本的,因 此許多學者紛紛投入研究低成本的強學習 器。1988 年 Kearns 等人[16]首度發現,強 學習器與弱學習器之間,是具有等價關 係,隔兩年,Schapire[30]學者,更進一步 利用自己所設計的 Boosting 演算法,來驗 證以下關鍵定理:多個弱分類器是否可以 集成為一個強分類器。實驗結果顯示這現 象是存在的。同年,Hansen et al.[14] 也利 用同樣的集成概念,提出了神經網路集成
(neural network ensemble),一般認為這 是神經網路集成的起源。
簡單來說,集成學習就是利用多個分 類器去面對同一個問題、同一個資料集、
同一個預測目標,並將這些分類學習器聯 合(combine)起來執行該預測任務。目前的 集成學習方法,大致可以劃分為兩種方 法:(1)透過各個學習器,作並聯訓練 (2) 透過各個學習器,作串聯訓練。
國 際 機 器 學 習 界 權 威 T.G.
Dietterich[9]提到現今常見的三種集成學 習策略,分別是 Bagging [6],boosting[11]
和 stacking[37]。Bagging 針對相同的演算 法,去訓練出多個分類器(如:訓練出多個 利用相同演算法的類神經網路模型),使用 非加權的方法進行投票,即採用多數決的 方 法 作 為 最 後 集 成 模 型 的 決 策 。 而 Boosting 利用類似 bagging 的作法,皆選 用相同的演算法去訓練出多個分類器,兩 者差別在於 Boosting 是採用各分類器的預 測結果作加權投票,一般認為加權投票可 以避免投票時的平手狀況,除外它的準確 率也較 bagging 高。Stacking 和前兩種策略 最主要的不同在於可以使用不同的演算法 去得到多元的分類器,在決策結果上,則 可使用加權或不加權投票的處理方式。但 以 往 的 集 成 學 習 方 法 ( 如 : Bagging , Boosting),是選擇所有分類器進行集成,
但近年研究發現[38],從所訓練的學習器 中,選擇一部分進行集成預測,可以得到 更好的泛化能力。這種概念被稱為選擇性 集成(Selective Ensemble)。
本研究透過 Zhou[38]等人所提的串
聯集成學習方法,提出一個選擇性集成模
型,該模型利用期望機率,去分析各個樣
本局部空間中最適宜的選擇性集成之組
合,進而提出了以決策樹為基礎的破產預
測之選擇性集成模型。具體而言,在訓練
階段,先產生一批分類學習器,之後該模
型會利用期望機率(expected probability)去
估算各個分類學習器最“擅長”的區域,因
此當一筆新測試樣本進入模型時,此模型
會依據該樣本所屬區域的最佳(選擇性集
成)分類器去作預測。另外,對於以期望值
為基礎所建置模型之研究, 2006 年洪智力
[40][41] 等 人 也 曾 提 出 去 類 似 的 建 置 方
法,本研究也會將兩者[40][41]的演算法,
作進一步的比較與探討。
4. 實驗設計
4.1 資料描述
本研究使用 Morgan Kaufmann (Oct 1992) 所 收 集 的 資 料 集 ( 該 資 料 可 以 在 http://www.niaad.liacc.up.pt/old/statlog/data sets/australian/australian.doc.html 中 取 得 ),資料收集對象是 Australian Credit Approval,內含 14 種屬性,共 690 筆資料,
其中包含 383 筆倒閉企業與 307 筆正常企 業。
我們以維持整個資料集之企業破產比 例的原則,隨機將資料集分成為訓練集 552 筆和測試集 138 筆。為了減少隨機挑 選資料所產生的偏誤,分別利用亂數函數 產生 10 組訓練樣本,最後再平均 10 次的 預測結果。
4.2 單獨分類專家的設定與評估標準 為 了 避 免 單 獨 分 類 專 家 過 度 訓 練 (over fitting) , 我 們 選 用 10-fold cross validation。三個分類專家分別是:(1)決策 樹,我們選用 C.45 演算法 (2)支援向量 機 , 我 們 選 用 運 算 速 度 較 快 的 SMO(sequential minimal optimization ) (3) 類 神 經 網 路 , 我 們 選 用 帶 有 動 量 項 (momentum = 0.2)的倒傳遞類神經網路,
其網路架構依據輸入層-隱藏層-輸出層為 14-10-1,其起始學習率為 0.75,並隨訓練 時間而降低。
就分類模型之效率評估標準而言,一 般常用混亂矩陣(confusion matrix)來表示 (Kohavi and Foster,1998),表 1 中,A 表示 分類模型正確預測出該企業為正常企業;
B 表示該企業是正常企業,卻被誤判成破 產企業;C 表示該企業是破產企業,卻被 誤判成正常企業;D 表示分類模型正確預 測出該企業為破產企業。因此模型分類正 確率(classification accuracy, CA)表示如方 程示(1),破產企業分類正確率表示如方程 示(2),正常企業分類正確率表示如方程示
(3)。
表1:Confusion Matrix
↓ 真值\預測 值→
倒閉 (Negative)
正常 (Positive) 倒閉
(Negative)
A (正確預測) B (不正確預測)
正常 (Positive)
C (不正確預測) D (正確預測)
D C B A
D CA A
+ + +
= +
模型 (1)
B A CA A
= +
破產 (2)
D C CA D
= +
正常 (3)
4.3 單獨分類專家訓練結果
從實驗結果得知(如表 2),就模型對 訓練集(training set)的分類正確率(模型 CA) 而言,BPN > SVM > C4.5;就破產企業分 類正確率(破產 CA)而言,BPN > C4.5 >
SVM;就正常企業分類正確率(正常 CA) 而言,SVM > BPN > C4.5。
表2:三種分類器對訓練集的分類正確性
C4.5 BPN SVM 大小順序 模型 CA 82.97% 85.69% 84.96%
BPN > SVM > C4.5破產 CA 84.97% 86.28% 79.41%
BPN > C4.5 > SVM正常 CA 80.49% 84.96% 92.28%
SVM > BPN > C4.5就模型對於測試集(test set)的預測能 力而言(如表 3),C4.5 > BPN > SVM;就 破產企業預測正確率(破產 CA)而言,C4.5
> SVM > BPN;就正常企業預測正確率(正 常 CA)而言,C4.5 > BPN > SVM。
表3:三種分類器對測試集的預測正確性
C4.5 BPN SVM 大小順序 模型 CA 97.83% 92.75% 88.41%
C4.5 > BPN > SVM破產 CA 98.68% 92.41% 92.96%
C4.5 > SVM > BPN正常 CA 96.77% 93.22% 83.58%
C4.5 > BPN > SVM4.4 單獨分類專家之判斷傾向
本 次 實 驗 所 用 的 Australian Credit Approval資料庫,套用表 1 公式,可以得 到表 4 中各別分類工具的實驗結果。而真 實資料中倒閉企業佔 306 筆,正常企業佔 246 筆,其真實資料的比率為= (倒閉企 業:正常企業) = (306:246) = (1.244:1) , 因此在兩數相除之後,可得值(=1.244)。因 此 我 們 推 論 , 當 某 工 具 預 測 倒 閉 企 業 (Negative)之總次數(A+C),除以預測正常 企業 (Positive)之總次數(B+D),可得值=
(A+C)
/
(B+D),當此值高於 1.244,我們推論
該分類工具在預測倒閉的筆數上高於真實 倒閉的筆數,進而推論該分類工具傾向判 定倒閉;因此,三個分類工具可得三個
(A+C)
/
(B+D)值 , 分 別 是 C4.5(=1.2623) 、 BPN(=1.199)、SVM(=0.9034),由資料顯 示可知C4.5 大於 1.244,BPN與SVM小於 1.244,依據相對比較之基礎下,我們推 論: (1) C4.5 屬於傾向判定倒閉之分類專 家 (2) BPN屬於傾向判定正常之分類專家 (3) SVM屬於傾向判定正常之分類專家。
表4:比較三個分類專家在Training-set 的 Confusion Matrix
預測值→
↓真實值
倒閉(Negative) 正常(Positive)
倒閉 (Negative) A (正確的預測) C4.5 = 260 筆 BPN = 264 筆 SVM= 243 筆
B (錯誤的預測) C4.5 = 46 筆 BPN = 42 筆 SVM= 63 筆
正常 (Positive) C (錯誤的預測) C4.5 = 48 筆 BPN = 37 筆 SVM= 19 筆
D (正確的預測) C4.5 = 198 筆 BPN = 209 筆 SVM= 227 筆
4.5 各自分類專家其較擅於判定正確之領 域
為了承續之後的選擇性集成(selective ensemble)之研究『特定區域應有特定專家 集成』 ,我們需先討論各別的專家所擅長的
區域。首先,我們針對各分類專家在預測 破產企業、預測正常企業兩方面,切成兩 個特定區域,之後,利用期望機率,分析 該專家對於該特定區域是否擅長。我們定 義期望機率(P)=(正確的預測之總數)/(預 測之總數),透過表 1 矩陣,我們將期望機 率(P)再細分為P
正常和P
破產來分別探討,以下 是期望機率的數學式:
P
正常=P (實際正常企業總數|預測為 正常企業總數) =
D B
D
+
(4)
P
破產=P (實際破產企業總數|預測為 破產企業總數) =
C A
A
+
(5)
另外,對於錯誤的預測,有兩種指標 可以去分析該分類器的優劣,分別是P
型1= 型 1 誤差(如方程式 4),與P
型2= 型 2 誤差 (如方程式 5)。型 1 誤差是將破產企業預測 成正常企業,型 2 誤差恰好相反,它是將 正常企業預測成破產企業。
P型1 = α = P (實際破產企業總數|預測為正 常企業總數) =
D B
B +
(6)
P型2 = β = P (實際正常企業總數|預測為破 產企業總數) =
C A
C
+
(7)
表5:三種訓練模型對訓練集不同決策傾向 的期望機率
C4.5 BPN SVM 大小順序 P破產 84.42% 87.71% 92.75% SVM > BPN > C4.5
P正常 81.15% 83.27% 78.28% BPN > C4.5 > SVM
由資料可以發現SVM
破 產擁有三個分 類工具中的( P
MAX) = P
破產(SVM)= 92.75%
(見表 5),但同時SVM
破產卻也擁有三個分
類工具中的( CA
MIN) =79.41% ∈ CA
破產(見表 2);相反的,SVM
正常擁有三個分類
工具中的( P
MIN) = P
正常(SVM)= 78.28%,卻 同時SVM
正 常也擁有了三個分類工具中的 ( CA
MAX) = 92.28% ∈ CA
正常。針對這有 趣的現象,我們推論SVM因為對於資料的 預測,較偏好預測它們為正常企業,使得 SVM在無足夠證據證明為該筆資料為A 時,容易將 A判定成B(即:判為正常企 業),造成B的上升(見方程式 6,B為型 1 誤差之分子,所以造成型 1 誤差上升);同 時SVM在無足夠證據證明C時,容易將C 判定成D(即:判為正常企業),會產生C的 降低(見方程式 7,C為型 2 誤差之分子,
所以造成型 2 誤差下降)。這現象也出現在 其它兩個分類器上(C4.5、BPN)。本研究 推論,期望機率(P)比正確率(CA)更適合放 入決策樹中,作節點選擇的準則。
本研究將會利用以上這個特性,建製 本次研究的核心「以決策樹為基礎的破產 預測之選擇性集成模型」 。
5. 選擇性集成為基礎的多專家集成 設計
5.1 Stacking 的缺點
一般學者大都認為集成學習之所以能 夠提高分類器的分類正確性,是因為它綜 合多個分類器所得到的結果,能降低只使 用單一分類器的預測誤差。然而,特別是 針對 stacking 模型而言,不同的分類演算 法,擁有其不同的決策傾向和決策傾向所 帶來的優點,雖然集成分類學習器能接收 了來自不同分類演算法所有的優點,但也 同時接收了所有的缺點,所以單純採取多 數決的策略,並不見得就能得到較好的預 測結果(如表 3、表 6)。
表6:專家集成對測試集的預測正確性 多數決集成 加權多數決集成 模型CA 93.48% 93.48%
破產CA 94.81% 94.81%
正常CA 91.80% 91.80%
本研究先利用最常見的stacking分類 集成策略--多數決和加權多數決專家集成 (如表 6),去比較模型預測準確率(模型 CA)、破產企業預測準確率(破產CA)及正 常企業預測準確率(正常CA)。並與個別模 型的預測力比較(如表 3),經實驗結果研 判,多數決及加權多數決專家集成,其預 測能力並不一定比個別模型好,進一步資 料分析,發現多數決的破產CA,雖然不會 比各別三個分類工具中最差的差(破產CA
BPN
=92.41%),但亦無法比三個分類工具中 表現最好的好(破產CA
C4.5=98.68%),因此 我們推論『stacking雖接收了來自不同分類 學習器的優點,但也同時接收了所有的缺 點』。
5.2 以期望機率為基礎的多專家破產預測 模型
在 2006 年,洪智力等人[40],利用期 望機率的分析,來決定決策樹節點的前後 順序,因而提出『以期望機率為基礎的多 專家破產預測模型』,以下是該篇所提出 的完整建置說明圖:
圖 4:建置以期望機率為基礎的多專家破 產預測模型(Step1)
↓
圖 5:建置以期望機率為基礎的多專家破 產預測模型(Step2)
↓
圖 6:建置以期望機率為基礎的多專家破 產預測模型(Step3)
↓
圖 7:建置以期望機率為基礎的多專家破 產預測模型(Step4)
↓
圖 8:建置以期望機率為基礎的多專家破 產預測模型(Step5)
↓
圖 9:建置以期望機率為基礎的多專家破 產預測模型 Steps6、7
首先在Step-1 中,會先計算出所有專 家對訓練集的正常企業及破產企業之預測 期望機率率P
正常和P
破產, (參見方程式 4、5),
隨後在表 5 中,即可找出max(P)為SVM
倒閉,並將它放入第一層節點。因此只要新的
一筆資料流入第一層節點,當它符合
『SVM判它為倒閉企業』時,則此筆新資 料會流入左子樹,否則將流入右子樹『第 二層節點』 。
在Stpe-2 中,會將上一步驟所使用的 分類器刪除在表 5 內,如圖所示,P(SVM) 在此步驟被作刪除。在Stpe-3 中,需選擇 與第一節點相反決策的分類器,所以需選 出max(P
正常),為BPN
正常。接下來Stpe-4,同 Stpe-2,會將上一步驟所使用的分類器刪 除在表 5 內。到了Step-5,需選擇與第一 節 點 相 反 決 策 的 分 類 器 , 所 以 需 選 出 max(P
倒閉),為C4.5
正常。而Stpe-6,同Stpe-2 的作法,會將上一步驟所使用的分類器刪 除在表 5 內。Step-7, 在刪完(表 5 中)可 選擇的分類器後,迴圈也將停止,並將下 一層節點利用『多數加權決判定』。如此,
即完成該決策樹。
5.3 以選擇性集成為基礎的破產預測模型 的建置概念如下:
在 2007 年,洪智力等人[41]也利用期 望機率的分析,並使用一個節點兩個分類 器之方法,嘗試更進一步的作樣本局部空 間的切割,因而提出『以選擇性集成為基 礎的破產預測模型』,以下是該篇所提出 的完整建置說明圖:
圖 10:建置以選擇性集成為基礎的破產預 測模型(Step1)
↓
圖 11:建置以選擇性集成為基礎的破產預 測模型(Step2)
↓
圖 12:建置以選擇性集成為基礎的破產預 測模型(Step3)
↓
圖 13:建置以選擇性集成為基礎的破產預 測模型(Step4)
↓
圖 14:建置以選擇性集成為基礎的破產預 測模型(Step5)
在Step-1.中,會先計算出所有專家對 訓練集的正常企業及破產企業之預測期望 機率率P
正常和P
破產,(參見方程式 4、5),隨 後在表 5 中,即可找出max(P
倒閉)為SVM
倒閉,和min(P
正常) 為C4.5
正常,並將兩者放入第 一層節點。因此只要新的一筆資料流入第 一層節點,當它符合『SVM判它為倒閉企 業、C4.5 判它為正常企業』時,此筆新資 料會流入左子樹,否則將流入右子樹『第 二層節點』 。
在Stpe-2 中,會將上一步驟所使用的 分類器刪除在表 5 內,如圖所示,P(SVM
倒閉
)和P(C4.5
正常)在此步驟作刪除。在Stpe-3 中,為了選擇適當的分類器組合,透過表 5,需選擇與第一節點相反決策的分類器,
所以需選出max(P
正常)和min(P
倒閉),分別是 BPN
正常、 C4.5
倒閉。接下來Stpe-4,同Stpe-2,
會將上一步驟所使用的分類器刪除在表 5 內。到了Step-5,決策樹的層數為(m),分 類器的個數為 (n),因為分類器有C4.5、
BPN、SVM,所以(n=3),當演算法發現(m) 已大於(n/2)時,則會跳出建置決策樹的迴 圈,並將第三層使用多數決判定,如此,
即 完 成 全 部 決 策 樹 的 建 置 。 之 於 會 在 Step-5 設定這樣的迴圈門檻值,是因為此 篇作者認為大於該迴圈門檻值的層數,其 節點中兩個分類器的期望機率組合,容易 產生將資料誤判。
6. 實證結果與推論
本研究利用相同資料集 (Australian Credit Approval),測試文獻[40]和文獻[41]
的兩者模型間的預測準確度(如表 7)之比 較。經由實驗結果顯示,我們推論,文獻 [41]的模型效能優於文獻[40]的模型,我們 認為文獻[41]模型能有效劃分出樣本局部 空間,也較能劃分出破產企業與正常企業 較少混雜的樣本空間,因此以下將透過集 合圖來探討兩個模型之間的『劃分局部空 間之成效』。
表7:決策樹之破產預測專家集成與多數決專家 集成對測試集的預測正確性之一覽比較表
多數決 專家集成
加權多數決 專家集成
文獻[40]
專家集成
文獻[41]
專家集成