• 沒有找到結果。

破產預測選擇性集成模型比較

N/A
N/A
Protected

Academic year: 2022

Share "破產預測選擇性集成模型比較"

Copied!
13
0
0

加載中.... (立即查看全文)

全文

(1)

破 產 預 測 選 擇 性 集 成 模 型 比 較

洪智力 陳勁宏

中原大學資訊管理研究所 中原大學資訊管理研究所

chihli@cycu.edu.tw sun.tree@hotmail.com

破產預測一直是企業和學術界所關心 的重要課題。文獻探討中發現,多數學者 過去多使用單一的預測工具,並互相比較 其預測能力,但沒有一致的結果顯示某一 種工具能絕對優於另一種,所以開始有學 者使用集成學習的概念。本研究利用兩篇 文獻的集成學習模型,去探討兩者模型的 優劣原因,兩模型相同之處,皆想去運用 不同分類工具在不同實驗資料集之中擁有 不同判斷傾向的特性;並皆透過訓練集的 破產和非破產公司預測之期望機率,利用 有別傳統決策樹的節點選擇方法,將當今 流行的三個分類工具(支援向量機、C4.5、

倒傳遞類神經網路)予以集成,皆以選擇性 集成之概念為基礎,建構出破產預測模 型,但兩者的建構方法略有不同。本研究 透過選擇性集成的局部空間之觀點,切入 探討兩者模型之間的差異與優劣。

關鍵字:破產預測、選擇性集成學習、決 策樹、類神經網路、支援向量機

1. 前言

對於學界或者在實務界,企業破產預測,

一直是個備受重視的議題,因此對於企業 經營者,一個高正確率的破產預測模型,

將會左右此人的決策方向;對於投資者,

該模型也會幫助他趨吉避凶。對於授信業 者,模型的預測結果,可望幫業者壞帳及 降低預期放款的可能性。

在第二章文獻探討中,我們可以透過 文獻的發展,大抵可將破產預測分成兩個 大方向:(1)利用傳統統計分析,如:相關

分析、區別分析、迴歸分析、 logit 和 probit 模型等。 (2)利用資料探勘工具分析,如:

決策樹(decision tree)、類神經網路(artificial neural networks, ANN) 、 支 援 向 量 機 (support vector machine, SVM)等。然而,

大部份學者皆選擇採用單一的預測工具去 預測,並比較各工具之間的熟優熟劣,(如 [2]、[15]、[17]、[19]、[23]、[32])。

本次研究針對過去兩位學者對此領域 的兩個預測模型( [40]、[41] ),作進一步的 實驗與比較。這兩篇模型有著相類似的研 究出發點:(1)集成學習(ensemble learning) 是一個已經被證明為有效機器學習的方法 [4],但仍鮮少運用在破產預測上。(2)選擇 性集成(selected ensemble)在集成學習中,

是一個新穎的概念,鮮少學者利用期望機 率(expected probability)去估算選擇性集成 中,各個分類學習器最“擅長”的區域 (3) 在單一模型的預測能力中,亦鮮少學者去 分別探討兩方面(破產企業、正常企業)的 預測能力。透過上述三個部份,我們對於 兩個預測模型( [40]、[41] ),皆使用三個分 類工具 (決策樹、類神經網路、支援向量 機),以方便作比較與深入探討。透過實驗 證明,文獻[41]的模型優於文獻[40]的模 型。

除本章為前言之外,後面章節安排如 下:第二章是回顧破產預測的相關文獻,

同時針對本次研究所使用的破產預測工具 作介紹;第三章會介紹多專家集成的相關 文獻;第四章為本研究的實驗設計介紹,

包含(1)實驗資料的描述(2)單獨分類專家

的設定(3)評估標準與多數決專家集成比

較;第五章會介紹本次研究的核心:比較

兩篇文獻的模型,分別是「以期望機率為

基礎的多專家破產預測模型」 、 「以選擇性

集成為基礎的破產預測模型」 ,第六章是此

(2)

次實證結果,第七章會下個結論與論述未 來研究方向。

2. 文獻回顧 2.1 分析方法演進

Beaver(1966) [5]是最早將財務危機的 實證研究,帶進到預測領域中的人,他在 研究中選取 1954 至 1964 年間 79 家發生財 務失敗的企業,再選取規模相當且相同產 業的未發生財務失敗的企業,作為研究對 象。他在研究中發現,三種最有效預測企 業失敗的財務比率(變數),分別是「現金 流量對總負債比率」、「稅後淨利對總資 產比率」及「總負債對總資產比率」。

然而 Beaver(1966) [5]仍只使用單一變 量分析方法,其缺點是單一變量所得的實 驗結果,其代表性及周延性不足。所以 1968 年 Altman [1]針對此項問題,提出多 變 量 區 別 分 析 法 (multiple discriminant analysis)。為求客觀,Altman 利用美國破 產法認定標準,作為財務失敗的定義,並 選出 22 項財務比率(變數),透過逐步篩選 法,保留最具預測能力的五項財務比率,

分別是「營運資金對總資產比率」、「保 留盈餘對總資產比率」、「稅前息前盈餘 對總資產比率」、「股東權益的市場價值 對總負債比率」和「銷貨淨額對總資產比 率」,這五項財務比率之組合,即是此領 域著名的 Z 線性模型。

然而,以上的方法,都須要在取得資 料集後,證明該資料集是常態分配,否則 在作顯著性檢定和正確率估計時,可能會 導致其產生偏差([10]、[26]),誤導實驗的 結論。但證明資料集屬於常態分配,是不 容易的,因此為了解決此項問題, Myer and Pifer(1970) [22] 提 出 線 性 機 率 、 Ohlson(1980)[24] 使 用 logit 及 Zmijewski(1984) [13]則使用 probit,這三種 迴歸模型,皆可在不需常態分配假設成立 為前提下,進行預測。另外,在破產預測 中,傳統統計工具仍有不足之處,(如:對 於異常資料的處理、破產資料的選擇、變 動性資料的處理等),2004 年 Balcaen and

Ooghe [3]也提出來作縱合性的深入討論。

對於變量區別分析和 logit 模型預測 的正確率,許多學者展開了熱烈的討論,

雖然多數學者透過實證法推論logit模型在 破產預測上表現較佳,但 1986 年Lo[20]

認為,以配適的觀點切入,當樣本資料集 是符合常態分配時,其多變量區別分析模 型較logit模型有效率。另外,同為迴歸模 型的probit 模型,也曾有學者會將兩者的 預測能力作比較,如 1988 年Gessner et al.

[13]認為probit與logit 模型,兩者的預測效 果差不多。

但是變數之間複雜的非線性數學關 係,一直困擾著傳統統計方法,因此在電 腦效能大幅提升後,計算智慧學者們將一 系列資料探勘的工具,帶入預測的領域。

類神經網路(artificial neural networks, ANN)因為可以處理非線性數學關係,且操 作簡單,促使大量學者的投入研究,Odom and Sharda(1990)[23] 和 Altman et al.(1994)[2]即實證類神經網路的區別能 力,優於多變量區別分析,另外 Tam and Kiang(1992)[33]、Jo et al. (1997)[15]、 Koh and Tan (1999)[17]也透過實驗證實類神經 網路模型之預測能力,是優於多變量區別 分析和 probit 模型。

支 援 向 量 機 (support vector machine, SVM)是 1995 年才興起並流行的一個資料 探勘工具,10 年後,Shin et al. [32]和Min and Lee [21]在研究結果中皆發現,支援向 量機擁有了優於類神經網路模型的預測結 果。此外,Shin還發現,當訓練資料數量 越少時,此種結果會愈加明顯。

近年,West et al. (2005)[35]利用多個 類神經,透過bagging策略、boosting策略、

stacking策略去作多專家集成,並實證出多 專家集成模型的預測準確度,是優於單一 類神經網路的表現。

從以上文獻的回顧,我們發現大部份

學者往往採取單一的破產預測工具,因此

本研究選用當今流行的三個分類工具(支

援向量機、C4.5、倒傳遞類神經網路),利

(3)

用以期望機率為基礎的節點選擇方法予以 融 合 , 建 置 成 集 成 決 策 樹 (combined decision tree)的破產預測之模型。

2.2 三種破產預測分析工具 2.2.1 決策樹

決策樹(Decision Tree),常用於分類預 測上的工具,如圖 1 中的最下層節點,稱 之為葉節點,所以在右圖(圖 1)中,當新的 資料被放到『倒閉』之類別,則就會被決 策樹判定該筆新資料是屬於『倒閉企業』 。 圖 1 中的非葉節點,即是決策樹在作分類 時的判定標準,如:新資料的a值大於A 值,且b值大於B值,則在左圖(圖 1)中,

會被歸類在『類別一』類,在右圖(圖 1) 中,會被歸類成『倒閉』類,所以A值和B 值即為判定標準。在決策樹中,包括了很 多衍生的模型,例如ID3、C4.5([27]、[28]) 和 CART(classification and regression trees)。

圖1:決策樹基本架構 2.2.2 倒傳遞類神經網路

1990 年之後,許多學者的實證結果顯 示類神經網路在很多的分類或預測問題上 都有不錯的結果,更因為具有毋須事先假 設變數的分配型式之優點,促使其被廣泛 運用在許多風險評估、信用評等、及破產 預測上。

倒傳遞類神經網路(back propagation neural networks, BPN)是最負盛名的監督 式類神經網路 [29],其網路架構包括三大 部分:輸入層、隱藏層和輸出層(如圖 2),

前一層的輸出資料即為下一層的輸入資 料。BPN 的學習方式,可分為兩個階段,

第一階段將輸入資訊由輸入神經單元,透

過隱藏層的神經單元傳導至輸出端,此階 段 稱 為 多 層 前 饋 (multilayer feed-forward),第二階段比較輸出單元的 預期值和實際值,將其差異由輸出神經單 元向輸入端方向傳送,此階段稱為倒傳遞 (back propagation),藉以修改隱藏層神經 元值來達到學習的目的。

輸入層 隱藏層 輸出層

圖2:類神經網路基本架構

2.2.3 支援向量機

支援向量機(support vector machine, SVM)是由 Vapnik(1995)[34]所提出,一開 始是運用在二元分類,近年許多學者證實 其優異的分類效果[21]、[32],已是現今最 通行的分類工具之ㄧ。支援向量機的原 理,主要是運用超平面空間(hyperplane),

將資料分為兩類,利用眾多的超平面空間

作分割,從中找出一個超平面能將兩類資

料隔的最遠,即稱為此為最佳分割的超平

面(optimal separating hyperplane, OSH),而

OSH 與兩個分類間的距離稱為邊界值

(margin),簡單來說,在圖 3 中為支援向量

機示意圖,小圈圈和小方塊代表不同類別

的資料,兩類資料透過眾多超平面空間

(hyperplane)分割後,當邊界值(margin)達

到最大時,此超平面空間就被稱之為最佳

分 割 的 超 平 面 (optimal separating

hyperplane, OSH)。另外,當有些資料是線

性不可分割的時候,支援向量機會透過核

心函數 φ 的轉換,將資料映射到高維度的

特徵空間(feature space)中,以便超平面空

(4)

間作線性分割,簡單來說,原本低維度線 性不可分割的資料,可以透過轉換成為高 維度特徵空間,以找到兩資料類別間的線 性分割點,如左圖,當無法找到線性可分 割的超平面時,經核心函數 φ 的轉換,方 能找到高維度的線性可分割的超平面。

支 援 向 量 機 有 許 多 不 同 的 核 心 函 數,常見的是線性函數(linear)外、多項式 (polynomial) 、 放 射 型 函 數 (radial basis function, RBF)、S 型函數(sigmoid)等。另 外,支援向量機也有不同的變型,如在 1999 年 Platt [25] 提出的 SMO(sequential minimal optimization),它以運算速度著 稱,因此也會運用於本研究中。

The new space

non-linear mapping 核心函數 (f )

Margin Margin

□□

圖3:支援向量機示意圖 3. 多數決專家集成

集成學習(ensemble learning)指的 是多個分類工具被整合起來,它的優點是 能提供給預測模型不錯的泛化能力,進而 成為一個強學習器。所謂分類器的強弱,

在於:當此分類工具的預測能力只稍略好 於隨機猜測,則稱弱學習器,反之,如果 有一個分類學習器演算法能夠產生高精度 的預測或分類結果,則稱強學習器,但設 計一個強學習器是困難的、高成本的,因 此許多學者紛紛投入研究低成本的強學習 器。1988 年 Kearns 等人[16]首度發現,強 學習器與弱學習器之間,是具有等價關 係,隔兩年,Schapire[30]學者,更進一步 利用自己所設計的 Boosting 演算法,來驗 證以下關鍵定理:多個弱分類器是否可以 集成為一個強分類器。實驗結果顯示這現 象是存在的。同年,Hansen et al.[14] 也利 用同樣的集成概念,提出了神經網路集成

(neural network ensemble),一般認為這 是神經網路集成的起源。

簡單來說,集成學習就是利用多個分 類器去面對同一個問題、同一個資料集、

同一個預測目標,並將這些分類學習器聯 合(combine)起來執行該預測任務。目前的 集成學習方法,大致可以劃分為兩種方 法:(1)透過各個學習器,作並聯訓練 (2) 透過各個學習器,作串聯訓練。

國 際 機 器 學 習 界 權 威 T.G.

Dietterich[9]提到現今常見的三種集成學 習策略,分別是 Bagging [6],boosting[11]

和 stacking[37]。Bagging 針對相同的演算 法,去訓練出多個分類器(如:訓練出多個 利用相同演算法的類神經網路模型),使用 非加權的方法進行投票,即採用多數決的 方 法 作 為 最 後 集 成 模 型 的 決 策 。 而 Boosting 利用類似 bagging 的作法,皆選 用相同的演算法去訓練出多個分類器,兩 者差別在於 Boosting 是採用各分類器的預 測結果作加權投票,一般認為加權投票可 以避免投票時的平手狀況,除外它的準確 率也較 bagging 高。Stacking 和前兩種策略 最主要的不同在於可以使用不同的演算法 去得到多元的分類器,在決策結果上,則 可使用加權或不加權投票的處理方式。但 以 往 的 集 成 學 習 方 法 ( 如 : Bagging , Boosting),是選擇所有分類器進行集成,

但近年研究發現[38],從所訓練的學習器 中,選擇一部分進行集成預測,可以得到 更好的泛化能力。這種概念被稱為選擇性 集成(Selective Ensemble)。

本研究透過 Zhou[38]等人所提的串

聯集成學習方法,提出一個選擇性集成模

型,該模型利用期望機率,去分析各個樣

本局部空間中最適宜的選擇性集成之組

合,進而提出了以決策樹為基礎的破產預

測之選擇性集成模型。具體而言,在訓練

階段,先產生一批分類學習器,之後該模

型會利用期望機率(expected probability)去

估算各個分類學習器最“擅長”的區域,因

此當一筆新測試樣本進入模型時,此模型

會依據該樣本所屬區域的最佳(選擇性集

成)分類器去作預測。另外,對於以期望值

為基礎所建置模型之研究, 2006 年洪智力

[40][41] 等 人 也 曾 提 出 去 類 似 的 建 置 方

(5)

法,本研究也會將兩者[40][41]的演算法,

作進一步的比較與探討。

4. 實驗設計

4.1 資料描述

本研究使用 Morgan Kaufmann (Oct 1992) 所 收 集 的 資 料 集 ( 該 資 料 可 以 在 http://www.niaad.liacc.up.pt/old/statlog/data sets/australian/australian.doc.html 中 取 得 ),資料收集對象是 Australian Credit Approval,內含 14 種屬性,共 690 筆資料,

其中包含 383 筆倒閉企業與 307 筆正常企 業。

我們以維持整個資料集之企業破產比 例的原則,隨機將資料集分成為訓練集 552 筆和測試集 138 筆。為了減少隨機挑 選資料所產生的偏誤,分別利用亂數函數 產生 10 組訓練樣本,最後再平均 10 次的 預測結果。

4.2 單獨分類專家的設定與評估標準 為 了 避 免 單 獨 分 類 專 家 過 度 訓 練 (over fitting) , 我 們 選 用 10-fold cross validation。三個分類專家分別是:(1)決策 樹,我們選用 C.45 演算法 (2)支援向量 機 , 我 們 選 用 運 算 速 度 較 快 的 SMO(sequential minimal optimization ) (3) 類 神 經 網 路 , 我 們 選 用 帶 有 動 量 項 (momentum = 0.2)的倒傳遞類神經網路,

其網路架構依據輸入層-隱藏層-輸出層為 14-10-1,其起始學習率為 0.75,並隨訓練 時間而降低。

就分類模型之效率評估標準而言,一 般常用混亂矩陣(confusion matrix)來表示 (Kohavi and Foster,1998),表 1 中,A 表示 分類模型正確預測出該企業為正常企業;

B 表示該企業是正常企業,卻被誤判成破 產企業;C 表示該企業是破產企業,卻被 誤判成正常企業;D 表示分類模型正確預 測出該企業為破產企業。因此模型分類正 確率(classification accuracy, CA)表示如方 程示(1),破產企業分類正確率表示如方程 示(2),正常企業分類正確率表示如方程示

(3)。

表1:Confusion Matrix

↓ 真值\預測 值→

倒閉 (Negative)

正常 (Positive) 倒閉

(Negative)

A (正確預測) B (不正確預測)

正常 (Positive)

C (不正確預測) D (正確預測)

D C B A

D CA A

+ + +

= +

模型 (1)

B A CA A

= +

破產 (2)

D C CA D

= +

正常 (3)

4.3 單獨分類專家訓練結果

從實驗結果得知(如表 2),就模型對 訓練集(training set)的分類正確率(模型 CA) 而言,BPN > SVM > C4.5;就破產企業分 類正確率(破產 CA)而言,BPN > C4.5 >

SVM;就正常企業分類正確率(正常 CA) 而言,SVM > BPN > C4.5。

表2:三種分類器對訓練集的分類正確性

C4.5 BPN SVM 大小順序 模型 CA 82.97% 85.69% 84.96%

BPN > SVM > C4.5

破產 CA 84.97% 86.28% 79.41%

BPN > C4.5 > SVM

正常 CA 80.49% 84.96% 92.28%

SVM > BPN > C4.5

就模型對於測試集(test set)的預測能 力而言(如表 3),C4.5 > BPN > SVM;就 破產企業預測正確率(破產 CA)而言,C4.5

> SVM > BPN;就正常企業預測正確率(正 常 CA)而言,C4.5 > BPN > SVM。

表3:三種分類器對測試集的預測正確性

C4.5 BPN SVM 大小順序 模型 CA 97.83% 92.75% 88.41%

C4.5 > BPN > SVM

破產 CA 98.68% 92.41% 92.96%

C4.5 > SVM > BPN

正常 CA 96.77% 93.22% 83.58%

C4.5 > BPN > SVM

4.4 單獨分類專家之判斷傾向

(6)

本 次 實 驗 所 用 的 Australian Credit Approval資料庫,套用表 1 公式,可以得 到表 4 中各別分類工具的實驗結果。而真 實資料中倒閉企業佔 306 筆,正常企業佔 246 筆,其真實資料的比率為= (倒閉企 業:正常企業) = (306:246) = (1.244:1) , 因此在兩數相除之後,可得值(=1.244)。因 此 我 們 推 論 , 當 某 工 具 預 測 倒 閉 企 業 (Negative)之總次數(A+C),除以預測正常 企業 (Positive)之總次數(B+D),可得值=

(A+C)

/

(B+D)

,當此值高於 1.244,我們推論

該分類工具在預測倒閉的筆數上高於真實 倒閉的筆數,進而推論該分類工具傾向判 定倒閉;因此,三個分類工具可得三個

(A+C)

/

(B+D)

值 , 分 別 是 C4.5(=1.2623) 、 BPN(=1.199)、SVM(=0.9034),由資料顯 示可知C4.5 大於 1.244,BPN與SVM小於 1.244,依據相對比較之基礎下,我們推 論: (1) C4.5 屬於傾向判定倒閉之分類專 家 (2) BPN屬於傾向判定正常之分類專家 (3) SVM屬於傾向判定正常之分類專家。

表4:比較三個分類專家在Training-set 的 Confusion Matrix

預測值→

↓真實值

倒閉(Negative) 正常(Positive)

倒閉 (Negative) A (正確的預測) C4.5 = 260 筆 BPN = 264 筆 SVM= 243 筆

B (錯誤的預測) C4.5 = 46 筆 BPN = 42 筆 SVM= 63 筆

正常 (Positive) C (錯誤的預測) C4.5 = 48 筆 BPN = 37 筆 SVM= 19 筆

D (正確的預測) C4.5 = 198 筆 BPN = 209 筆 SVM= 227 筆

4.5 各自分類專家其較擅於判定正確之領

為了承續之後的選擇性集成(selective ensemble)之研究『特定區域應有特定專家 集成』 ,我們需先討論各別的專家所擅長的

區域。首先,我們針對各分類專家在預測 破產企業、預測正常企業兩方面,切成兩 個特定區域,之後,利用期望機率,分析 該專家對於該特定區域是否擅長。我們定 義期望機率(P)=(正確的預測之總數)/(預 測之總數),透過表 1 矩陣,我們將期望機 率(P)再細分為P

正常

和P

破產

來分別探討,以下 是期望機率的數學式:

P

正常

=P (實際正常企業總數|預測為 正常企業總數) =

D B

D

+

(4)

P

破產

=P (實際破產企業總數|預測為 破產企業總數) =

C A

A

+

(5)

另外,對於錯誤的預測,有兩種指標 可以去分析該分類器的優劣,分別是P

1

= 型 1 誤差(如方程式 4),與P

2

= 型 2 誤差 (如方程式 5)。型 1 誤差是將破產企業預測 成正常企業,型 2 誤差恰好相反,它是將 正常企業預測成破產企業。

P1 = α = P (實際破產企業總數|預測為正 常企業總數) =

D B

B +

(6)

P2 = β = P (實際正常企業總數|預測為破 產企業總數) =

C A

C

+

(7)

表5:三種訓練模型對訓練集不同決策傾向 的期望機率

C4.5 BPN SVM 大小順序 P破產 84.42% 87.71% 92.75% SVM > BPN > C4.5

P正常 81.15% 83.27% 78.28% BPN > C4.5 > SVM

由資料可以發現SVM

破 產

擁有三個分 類工具中的( P

MAX

) = P

破產(SVM)

= 92.75%

(見表 5),但同時SVM

破產

卻也擁有三個分

類工具中的( CA

MIN

) =79.41% ∈ CA

破產

(見表 2);相反的,SVM

正常

擁有三個分類

(7)

工具中的( P

MIN

) = P

正常(SVM)

= 78.28%,卻 同時SVM

正 常

也擁有了三個分類工具中的 ( CA

MAX

) = 92.28% ∈ CA

正常

。針對這有 趣的現象,我們推論SVM因為對於資料的 預測,較偏好預測它們為正常企業,使得 SVM在無足夠證據證明為該筆資料為A 時,容易將 A判定成B(即:判為正常企 業),造成B的上升(見方程式 6,B為型 1 誤差之分子,所以造成型 1 誤差上升);同 時SVM在無足夠證據證明C時,容易將C 判定成D(即:判為正常企業),會產生C的 降低(見方程式 7,C為型 2 誤差之分子,

所以造成型 2 誤差下降)。這現象也出現在 其它兩個分類器上(C4.5、BPN)。本研究 推論,期望機率(P)比正確率(CA)更適合放 入決策樹中,作節點選擇的準則。

本研究將會利用以上這個特性,建製 本次研究的核心「以決策樹為基礎的破產 預測之選擇性集成模型」

5. 選擇性集成為基礎的多專家集成 設計

5.1 Stacking 的缺點

一般學者大都認為集成學習之所以能 夠提高分類器的分類正確性,是因為它綜 合多個分類器所得到的結果,能降低只使 用單一分類器的預測誤差。然而,特別是 針對 stacking 模型而言,不同的分類演算 法,擁有其不同的決策傾向和決策傾向所 帶來的優點,雖然集成分類學習器能接收 了來自不同分類演算法所有的優點,但也 同時接收了所有的缺點,所以單純採取多 數決的策略,並不見得就能得到較好的預 測結果(如表 3、表 6)。

表6:專家集成對測試集的預測正確性 多數決集成 加權多數決集成 模型CA 93.48% 93.48%

破產CA 94.81% 94.81%

正常CA 91.80% 91.80%

本研究先利用最常見的stacking分類 集成策略--多數決和加權多數決專家集成 (如表 6),去比較模型預測準確率(模型 CA)、破產企業預測準確率(破產CA)及正 常企業預測準確率(正常CA)。並與個別模 型的預測力比較(如表 3),經實驗結果研 判,多數決及加權多數決專家集成,其預 測能力並不一定比個別模型好,進一步資 料分析,發現多數決的破產CA,雖然不會 比各別三個分類工具中最差的差(破產CA

BPN

=92.41%),但亦無法比三個分類工具中 表現最好的好(破產CA

C4.5

=98.68%),因此 我們推論『stacking雖接收了來自不同分類 學習器的優點,但也同時接收了所有的缺 點』。

5.2 以期望機率為基礎的多專家破產預測 模型

在 2006 年,洪智力等人[40],利用期 望機率的分析,來決定決策樹節點的前後 順序,因而提出『以期望機率為基礎的多 專家破產預測模型』,以下是該篇所提出 的完整建置說明圖:

圖 4:建置以期望機率為基礎的多專家破 產預測模型(Step1)

(8)

圖 5:建置以期望機率為基礎的多專家破 產預測模型(Step2)

圖 6:建置以期望機率為基礎的多專家破 產預測模型(Step3)

圖 7:建置以期望機率為基礎的多專家破 產預測模型(Step4)

圖 8:建置以期望機率為基礎的多專家破 產預測模型(Step5)

圖 9:建置以期望機率為基礎的多專家破 產預測模型 Steps6、7

首先在Step-1 中,會先計算出所有專 家對訓練集的正常企業及破產企業之預測 期望機率率P

正常

和P

破產

, (參見方程式 4、5),

隨後在表 5 中,即可找出max(P)為SVM

倒閉

,並將它放入第一層節點。因此只要新的

一筆資料流入第一層節點,當它符合

(9)

『SVM判它為倒閉企業』時,則此筆新資 料會流入左子樹,否則將流入右子樹『第 二層節點』 。

在Stpe-2 中,會將上一步驟所使用的 分類器刪除在表 5 內,如圖所示,P(SVM) 在此步驟被作刪除。在Stpe-3 中,需選擇 與第一節點相反決策的分類器,所以需選 出max(P

正常

),為BPN

正常

。接下來Stpe-4,同 Stpe-2,會將上一步驟所使用的分類器刪 除在表 5 內。到了Step-5,需選擇與第一 節 點 相 反 決 策 的 分 類 器 , 所 以 需 選 出 max(P

倒閉

),為C4.5

正常

。而Stpe-6,同Stpe-2 的作法,會將上一步驟所使用的分類器刪 除在表 5 內。Step-7, 在刪完(表 5 中)可 選擇的分類器後,迴圈也將停止,並將下 一層節點利用『多數加權決判定』。如此,

即完成該決策樹。

5.3 以選擇性集成為基礎的破產預測模型 的建置概念如下:

在 2007 年,洪智力等人[41]也利用期 望機率的分析,並使用一個節點兩個分類 器之方法,嘗試更進一步的作樣本局部空 間的切割,因而提出『以選擇性集成為基 礎的破產預測模型』,以下是該篇所提出 的完整建置說明圖:

圖 10:建置以選擇性集成為基礎的破產預 測模型(Step1)

圖 11:建置以選擇性集成為基礎的破產預 測模型(Step2)

圖 12:建置以選擇性集成為基礎的破產預 測模型(Step3)

圖 13:建置以選擇性集成為基礎的破產預 測模型(Step4)

(10)

圖 14:建置以選擇性集成為基礎的破產預 測模型(Step5)

在Step-1.中,會先計算出所有專家對 訓練集的正常企業及破產企業之預測期望 機率率P

正常

和P

破產

,(參見方程式 4、5),隨 後在表 5 中,即可找出max(P

倒閉

)為SVM

倒閉

,和min(P

正常

) 為C4.5

正常

,並將兩者放入第 一層節點。因此只要新的一筆資料流入第 一層節點,當它符合『SVM判它為倒閉企 業、C4.5 判它為正常企業』時,此筆新資 料會流入左子樹,否則將流入右子樹『第 二層節點』 。

在Stpe-2 中,會將上一步驟所使用的 分類器刪除在表 5 內,如圖所示,P(SVM

倒閉

)和P(C4.5

正常

)在此步驟作刪除。在Stpe-3 中,為了選擇適當的分類器組合,透過表 5,需選擇與第一節點相反決策的分類器,

所以需選出max(P

正常

)和min(P

倒閉

),分別是 BPN

正常

、 C4.5

倒閉

。接下來Stpe-4,同Stpe-2,

會將上一步驟所使用的分類器刪除在表 5 內。到了Step-5,決策樹的層數為(m),分 類器的個數為 (n),因為分類器有C4.5、

BPN、SVM,所以(n=3),當演算法發現(m) 已大於(n/2)時,則會跳出建置決策樹的迴 圈,並將第三層使用多數決判定,如此,

即 完 成 全 部 決 策 樹 的 建 置 。 之 於 會 在 Step-5 設定這樣的迴圈門檻值,是因為此 篇作者認為大於該迴圈門檻值的層數,其 節點中兩個分類器的期望機率組合,容易 產生將資料誤判。

6. 實證結果與推論

本研究利用相同資料集 (Australian Credit Approval),測試文獻[40]和文獻[41]

的兩者模型間的預測準確度(如表 7)之比 較。經由實驗結果顯示,我們推論,文獻 [41]的模型效能優於文獻[40]的模型,我們 認為文獻[41]模型能有效劃分出樣本局部 空間,也較能劃分出破產企業與正常企業 較少混雜的樣本空間,因此以下將透過集 合圖來探討兩個模型之間的『劃分局部空 間之成效』。

表7:決策樹之破產預測專家集成與多數決專家 集成對測試集的預測正確性之一覽比較表

多數決 專家集成

加權多數決 專家集成

文獻[40]

專家集成

文獻[41]

專家集成

模型 CA 93.48% 93.48% 93.48% 97.83%

破產 CA 94.81% 94.81% 94.81% 97.40%

正常 CA 91.80% 91.80% 91.80% 98.36%

圖 15 是說明本研究劃分出選擇性集 成之局部空間,因此由圖可知,由洪智力 (2006) [40]所提的單一節點單一個分類器 的模型,若節點順序是分類器 1、分類器 2、分類器 1’、分類器 2’,則造成圖中 B 區、G 區、H 區、M 區、J 區皆視為 A 區 作判定,會造成太過武斷的判定。而洪智 力(2007) [41]所提出研究模型是的第一層 節點是將 B 區的資料集利用『得分』的方 式判定,第二層節點是將 E 區的資料集利 用『得分』的方式判定,但因為 B 區比 E 區先判定,所以(B∩E)=J 區,仍視為 B 區;

此模型[41]的方法成功的將太過武斷的判 定區域(B 區、G 區、H 區、M 區、J 區),

縮減只剩 J 區,因此本研究能更有效劃分

出選擇性集成之局部空間。

(11)

圖 15:選擇性集成所劃分的局部空間 然而,在文獻[40]中,其模型在實驗 結果顯示,是具有優於傳統多數決集成的 預測能力,但為什麼在本研究中,卻無法 超越多數決集成的預測能力呢?我們研 判,因為本研究是使用與文獻[40]不同的 資料集,透過表 2 與表 3 的比較可發現,

在表 3 的C4.5 有個顯著好於訓練集的正確 率,且擁有P

max

,若依照表 3 測試集的正 確率來發展集成樹之模型,則C4.5 應該在 樹的根節點,但卻落到第三層的節點,因 此它並非是本資料集中最合適的文獻[40]

模型,再加上的它擁有了較武斷的判定,

使得更突顯『C4.5 應該在樹的根節點,但 卻落到第三層的節點』的缺點。反觀,文 獻[41]是利用交集法(見圖 15 的B區)去取 出局部空間,因此不會因為上述問題,產 生預測效果降低的現象。

7. 結論與未來研究方向 破產預測的價值一直為學術界與實 務界所重視,也是資料探勘及企業決策的 核心問題。近年選擇性集成之概念被提 出,許多學者利用不同的方法,研究如何 有效的切割出「樣本局部空間」 ,本研究利 用兩篇皆使用期望機率作切割的方法,去 探討兩者間差異所帶來的優劣,實驗結果 顯示, 「以選擇性集成為基礎的破產預測模 型」[41],因能有效的切割局部空間,明 顯優於「以期望機率為基礎的多專家破產 預測模型」[40]。

在未來的延伸研究方面,我們將使用

更大的破產企業資料集,以增加兩模型優 劣評判的客觀性,亦可考慮在不同領域的 資料集,去觀察兩模型在各領域資料集的 適用性,或是納入更多元的選擇性集成之 演算法,去作更深入的探討與比較。

參考文獻

[1] Altman, E.I., “Financial ratios, discriminant analysis and the prediction of corporate bankruptcy,” Journal of Finance, 1968, Vol. 23, No. 4, pp. 589-609.

[2] Altman, E.I., Marco, G.V. and Varetto, F., “Corporate distress diagnosis:

comparisons using linear discriminant analysis and neural networks,” Journal of Banking and Finance, 1994, Vol.18, pp.

505-529.

[3] Balcaen, S. and Ooghe, H., “35 years of studies on business failure: an overview of the classical statistical methodologies and their related problems,” Working paper, No.

248, Department of Accountancy and Corporate Finance, Ghent University, Belgium, 2004.

[4] Bauer, E. and Kohavi, R., “An empirical comparison of voting classification algorithms: bagging, boosting, and variants”, Machine Learning, 1999, Vol. 36, No. 1-2 , pp. 105-139.

[5] Beaver, W., “Financial ratios as predictors of failure”, Journal of Accounting Research, 1966, Vol. 4, pp. 71-111.

[6] Breiman L, “Bagging predictors”, Machine Learning, 1996, Vol. 24, No. 2, pp.123-140.

[7] Hung, C., Chen, J.-H., Wermter, S. ” Hybrid probability-based ensembles for bankruptcy prediction”, Business and Information, 2007.

[8] Collins, R.A. and Green, R.D.,

“Statistical methods for bankruptcy

forecasting,” Journal of Economics and

Business, 1982, Vol. 34, No. 4, pp. 349-354.

(12)

[9] Dietterich T.G., “Ensemble methods in machine learning,” Proceedings of the First International Workshop on Multiple Classifier Systems (MCS00), 2000, pp.

1-15.

[10] Eisenbeis, R.A, “Pitfalls in the application of discriminant analysis in business, finance and economics,” Journal of Finance, .1977, pp. 875-900.

[11] Freund Y, Schapire R E, “A decision-theoretic generaliation of on-line learning and an application to boosting”.

Journal of Computer and System Sciences, 1997, Vol. 55, No. 1, pp. 119-139.

[12] Gentry J.A., Newbold, P. and Whitford, D.T., “Classifying bankrupt firms with funds flow components,” Journal of Accounting Research, 1985, No. 23, No. 1, pp. 146-160.

[13] Gessner, G., Kamakura, W.A., Malhortra, N.K. and Zmijewski, M.E.,

“Estimating models with binary dependent variables: some theoretical and empirical observations,” Journal of Business Research, 1988, Vol. 16, No. 1, pp. 49-65.

[14] Hansen L K, Salamon P, “Neural network ensembles”. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, Vol.12, No.10, pp.993-1001.

[15] Jo, H., Han, I. and Lee, H.,

“Bankruptcy prediction using case-based reasoning, neural networks, and discriminant analysis,” Expert Systems with Applications, 1997, Vol. 13, No. 2, pp.

97-108.

[16] Kearns M, Valiant L G., “Learning boolean formulae or factoring”, Cambridge, MA: Havard University Aiken Computation Laboratory Technical Report TR-1488, 1988.

[17] Koh, H.C. and Tan S.S., “A neural network approach to the prediction of going concern status,” Accounting and Business Research, 1999, Vol. 29, No. 3, pp. 211-216.

[18] Kohavi, R. and Foster, P., “Glossary of terms,” Machine Learning,, 1998, Vol. 30, No. 23, pp. 271-274.

[19] Lensberg, T., Eilifsen, A. and McKee, T.E., “Bankruptcy theory development and classification via genetic proramming,”

European Journal of Operational Research, 2006, Vol. 169, pp. 677-697.

[20] Lo, A. W., “Logit versus discrimninant analysis- a Specification test and application to corporate bankruptcies,” Journal of Econometrics, 1986, March, pp.151-178.

[21] Min, J.H. and Lee, Y.-C., “Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters,” Expert Systems with Applications, 2005, Vol. 28, No. 4, pp.

603-614.

[22] Myer, P.A. and Pifer, H.W., “Prediction of bank failure,” Journal of Finance, 1970, pp. 853-868.

[23] Odom, M. and Sharda, R., “A neural network model for bankruptcy prediction,”

Proceedings of International Joint Conference on Neural Networks, 1990, pp.

163-168.

[24] Ohlson, J., “Financial ratios and the probabilistic prediction of bankruptcy,”

Journal of Accounting Research, 1980, Vol.

18, No. 1, pp. 109-131.

[25] Platt, J., “Fast training of support vector machines using sequential minimal optimization,” Schoelkopf, B., Burges, C.J.C., Smola, A.J. (eds.), Advances in Kernel Methods - Support Vector Learning.

Cambridge, MA: MIT Press, 1999, pp.

185-208.

[26] Press, S.J. and Willson, S., “Choosing between logistic regression and discriminant analysis,” Journal of the American Statistical Association, 1978, pp. 699-705.

[27] Quinlan, R., “Induction of decision

trees,” Machine Learning, 1986,Vol. 1, No.

(13)

1, pp. 81-106.

[28] Quinlan, R., C4.5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufmann Publishers, 1993.

[29] Rumelhart, D.E., Hinton, G.E. and Williams, R.J., “Learning internal representations by error propagation,”

Rumelhart, D.E. and McClelland, J.L.

(eds.), Parallel distributed processing:

Explorations in the microstructure of cognition, 1986, Vol. 1: Foundations, Cambridge, MA: MIT Press, pp. 318-362.

[30] Schapire R E., “The Strength of weak learnability”. Machine Learning, 1990,Vol.5, No.2, pp.197-227.

[31] Serrano-Cinca, C., “Self organizing neural networks for financial diagnosis,”

Decision Support Systems, 1996, Vol. 17, No. 3, pp. 227-238.

[32] Shin, K.-S., Lee, T.S. and Kim, H.-J.,

“An application of support vector machines in bankruptcy prediction model,” Expert Systems with Applications, 2005, Vol. 28, No. 1, pp. 127-135.

[33] Tam, K. and Kiang, M., “Managerial applications of neural networks: the case of bank,” Management Science, 1992, Vol.38, No. 7, pp. 926-947.

[34] Vapnik V., “Support-vector networks,”

Machine Learning, 1995,Vol. 20, No. 3, pp.

273-297.

[35] West, D., Dellana, S and Qian, J.,

“Neural network ensemble strategies for financial decision applications,” Computers

& Operations Research, 2005, Vol. 32, pp.

2543-2559.

[36] Wieslaw, P., Application of Discrete Predicting Structures in an Early Warning Expert System for Financial Distress, PhD Thesis, Szczecin Technical University, Szczecin, 2004.

[37] Witten, I.H. and Frank, E., Data Mining, (second edition), Elsevier, Morgan Kaufmann Publishers, 2005.

[38] Zhou Z-H, Wu J, Tang W,

“Ensembling neural networks: many could be better than all”. Artificial Intelligence, 2002, Vol. 137, No.1-2 , pp. 239-263.

[39] Zmijewski, M., “Methodological issues related to the estimation of financial distress prediction models,” Journal of Accounting Research, 1984, Vol. 22, No. 1, pp. 59-82.

[40] 洪智力,陳勁宏 (2006). 以期望機率 為基礎的多專家破產預測模型, 2006 北 商學術論壇-資訊管理與實務研討會,台 灣,台北,2006 年 12 月 15 日。

[41] 洪智力,陳勁宏 (2007). 以選擇性集

成為基礎的破產預測模型, 2007 人工智

慧與應用研討會,台灣,雲林,2007 年

11 月 16 日。

數據

圖 5:建置以期望機率為基礎的多專家破 產預測模型(Step2)                              ↓  圖 6:建置以期望機率為基礎的多專家破 產預測模型(Step3)                              ↓  圖 7:建置以期望機率為基礎的多專家破 產預測模型(Step4)                              ↓ 圖 8:建置以期望機率為基礎的多專家破產預測模型(Step5) ↓ 圖9:建置以期望機率為基礎的多專家破產預測模型 Step
圖 14:建置以選擇性集成為基礎的破產預 測模型(Step5)  在Step-1.中,會先計算出所有專家對 訓練集的正常企業及破產企業之預測期望 機率率P 正常 和P 破產 ,(參見方程式 4、5),隨 後在表 5 中,即可找出max(P 倒閉 )為SVM 倒閉 ,和min(P 正常 )  為C4.5 正常 ,並將兩者放入第 一層節點。因此只要新的一筆資料流入第 一層節點,當它符合『SVM判它為倒閉企 業、C4.5 判它為正常企業』時,此筆新資 料會流入左子樹,否則將流入右子樹『第 二層節點』 。  在St
圖 15:選擇性集成所劃分的局部空間  然而,在文獻[40]中,其模型在實驗 結果顯示,是具有優於傳統多數決集成的 預測能力,但為什麼在本研究中,卻無法 超越多數決集成的預測能力呢?我們研 判,因為本研究是使用與文獻[40]不同的 資料集,透過表 2 與表 3 的比較可發現, 在表 3 的C4.5 有個顯著好於訓練集的正確 率,且擁有P max ,若依照表 3 測試集的正 確率來發展集成樹之模型,則C4.5 應該在 樹的根節點,但卻落到第三層的節點,因 此它並非是本資料集中最合適的文獻[40] 模型,再加上

參考文獻

相關文件

2 Distributed classification algorithms Kernel support vector machines Linear support vector machines Parallel tree learning.. 3 Distributed clustering

2 Distributed classification algorithms Kernel support vector machines Linear support vector machines Parallel tree learning?. 3 Distributed clustering

Solving SVM Quadratic Programming Problem Training large-scale data..

Predict daily maximal load of January 1999 A time series prediction problem.. Data

An instance associated with ≥ 2 labels e.g., a video shot includes several concepts Large-scale Data. SVM cannot handle large sets if using kernels

Core vector machines: Fast SVM training on very large data sets. Using the Nystr¨ om method to speed up

Core vector machines: Fast SVM training on very large data sets. Multi-class support

Core vector machines: Fast SVM training on very large data sets. Multi-class support