Voting

第四章研究方法

第三節訓練模型

五、 Voting

Precision 低落的原因為變異程度太高，使用大型模型時需要特別注意這個問題 ⁴¹，雖然模型能夠非常精準的找出目標值，也就是指Bias 很小，如 27 筆審計失敗可以抓出26 筆，但結果會非常分散，雖然能抓出目標，但也會產生大量的誤報，

這時候就可以使用Voting 的技巧⁴²。Voting 十分直觀，複數模型的情況下，將每個模型所產生的答案進行投票，看所有模型對同一筆資料的預測結果，票數較多的結果則認為是答案。舉例來說，若我將最後 24 組模型(因為 Sensitivity 較高)進行投票，設定 24 組模型中有 24 組認為意見查核案件是審計失敗的時候，才將其認定為審計失敗，結果如Fig. 4-7。可以看見 Precision 從原先的 1.67%提升至 20.16%，

每5 筆預測結果中就有一筆是真的審計失敗，且 Sensitivity 仍可保持在 92.59%，

27 筆審計失敗能抓出其中 25 筆。Voting 的原理在於利用交叉比對，剔除變異數產

41 ———. 2016b. ML Lecture 2: Where does the error come from? . YouTube.

https://www.youtube.com/watch?v=D_S6y0Jm6dQ.(20:49-22:51)

42 ———. 2017b. ML Lecture 22: Ensemble. YouTube.

https://www.youtube.com/watch?v=tH9FH1DH5n0. (4:56-18:54) 0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 sensitivity( true positive rate) precision( positive predictive value ) accuracy

生的誤報，而只將重複出現的審計失敗的結果保留下來，同 Fig. 4-8 25 號模型至 49 號模型經由不同投票門檻產生的預測表現中可以觀察到，若將投票的門檻從 1 票就通過調到 24 票才通過，正確率與 Precision 都逐漸提高，並指犧牲 3.7%的 Sensitivity，表示這個模組對真實審計案件的掌握度高，只需利用重複比對來除去誤報就能提升準確度。Voting 的好處在於只要模型夠多就能夠增加 Precision，若持續訓練出更多的模組還可以達到比 20.16%更高的數值，缺點在於十分耗費時間，

50 組模型花費約 36 小時訓練，若要縮短時間則需要更好的演算法或價格更高的設備。

Fig. 4-7 25 號模型至 49 號模型 Voting 結果

Fig. 4-8 25 號模型至 49 號模型經由不同投票門檻產生的預測表現 0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 sensitivity precision accuracy

第六章研究結果

經由第四章所陳述的訓練方法訓練出一組能預測審計失敗的模型，為了比較此模型的優劣，以Cristina De Fuentes & Rubén Porcuna⁴³所提出的邏輯斯回歸作為對照組，比較兩者間在預測審計失敗時所表現的正確率、Sensitivity 與 Precision。

此實驗使用資料範圍為 TEJ 資料庫中上是與上櫃公司，非金電加上電子產業並排除TDR 的公司，2007 年至 2018 年為訓練資料，2019 年則為測試資料。

第一節實驗組

實驗組是使用Pytorch 架構的 Fully Connected Feedforward Network，其架構請參閱Fig. 4-1，並使用半監督式學習與 Voting 的方式強化其預測的精準度，Fig. 5-1 為模組於2019 年資料上的表現。模組正確率為 98.49%，Sensitivity 達到 92.59%，

27 筆審計失敗中成功找出 25 筆，Precision 則為 20.16%，124 筆預測為審計失敗的案件當中僅有25 筆為真實審計失敗。

Fig. 5-1 深度學習模型實驗結果

第二節對照組

De Fuentes and Porcuna (2019)⁴³依據西班牙會計與審計學會(Instituto de Contabilidad y Auditoría de Cuentas1 ,ICAC)所提供 2002 至 2013 年的資料，分析審計失敗發生的原因並預測其發生，以解決歐盟中有關是否應該限制會計師任期的爭議。研究中發現，當企業正經歷財務困境、會計師對正向盈餘管理過於寬容以及

43 De Fuentes, C., and R. Porcuna. 2019. Predicting audit failure: evidence from auditing enforcement releases. Spanish Journal of Finance and Accounting/Revista Española de Financiación y Contabilidad 48 (3):274-305.

以個人身分而非事務所查核皆會增加審計失敗發生的可能性，此外若查核規模大於事務所本身的公司時，審計失敗發生的可能性降低，而會計師任期與發生可能性呈正向關係，但此現象僅存在於個人(非事務所)查核案件。其公式如(5.1)，自變數與應變數如Tabel 5，使用 Logistic Regression，其結果如 Fig. 5-2。

1 2 1

AF Client Size Client OrdLoss Client Zmi Client DA Aud Type

Tenure Tenure Aud Op

  

Client_Zmi 利用probit's distribution function 求出的 Zmijewski 指數 ⁴⁵

Client_DA 裁決性應計數，在此使用未加絕對值得應計數

45 Zmijewski, M. E. 1984. Methodological issues related to the estimation of financial distress prediction models. Journal of accounting research:59-82.

46 會計師法第 8 條:領有會計師證書者，應設立或加入會計師事務所

α 常數項

ε 殘差

Fig. 5-2 對照組 Logit Regression Result

從 Fig. 5-2 中可以發現自變數中 Client_OrdLoss、Client_Zmi、Client_DA、

Tenure_3_7、Aud_Op 皆為顯著，可以觀察出以台灣的查核案件來說當企業經歷財務困境、企業信用風險、裁決性應計數、會計師的任期及查核意見皆會影響讓審計失敗出現的可能性。然而這個模型的解釋能力並不高，Pseudo R-square 僅有 0.00154，

而此模型於Receiver Operating Characteristic curve(ROC)上的表現也不佳，曲線下的面積(AUC)僅有 0.655，曲線甚至在特定區段還比未使用模型還要低。此外從 Fig.

5-3 中可見，若將深度學習模組在測試資量上的表現繪於圖上，可發現表現遠好於對照組，向畫面左上角靠近(由於深度學習模型並不是單純使用閥值進行預測，因此難以繪製ROC curve，僅能存在一個點)。

Fig. 5-3 對照組 ROC curve

第三節實驗組與對照組比較

比較兩組模型需要使用Precision-Recall Plot(PR Plot)。Precision-Recall Plot 以 Precision 與 Recall 作為兩軸，Recall 就是 Sensitivity，又稱為 True Positive Rate，

其計算方法為真實答案為1 之中，成功預測為 1 的比例，如 2019 真實發生審計失敗中被模組成功預測的比例。而Precision 又可稱為 Positive Predictive Value，代表預測為1 的資料，真實答案為 1 的比例，如模組對 2019 年審計失敗的預測當中，

真實為審計失敗的查核案件所佔的比例。當我們處理二元分類的問題，且資料分部非常不平均時(Imbalanced Datasets)，我們能夠從 Precision-Recall Plot 中得到比 Receiver Operating Characteristic curve 更多的資訊⁴⁷。

47 Saito, T., and M. Rehmsmeier. 2015. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one 10 (3):e0118432.

實驗組與對照組的Precision-Recall Plot 如 Fig. 5-4 所示，點為深度學習模組，

實線為對照組，虛線則為未使用任何模組。由於深度學習模組並不是單純依照閥值 (Threshold)產生預測結果，因此無法畫出曲線，僅能為畫面上的一個點。於圖中能夠發現對照組表現非常差，幾乎與無模組重合，而曲線最左方也是因為0 除以 0 造成Precision 的極大值。此曲線代表不論使用任何閥值，雖然能讓 Recall(Sensitivity) 提高，但預測結果中夾雜大量誤報，讓模型幾乎不堪使用，與隨機分類的效果差不多。而深度學習模組在確保Recall(Sensitivity)為 0.93 的情況下，Precision 能保持在 0.2，代表模型預測的結果之中，五分之一為審計失敗，且囊括全年查核案件中 92.6%的審計失敗，相較於對照組更有實用性。

Fig. 5-4 實驗組與對照組的 Precision-Recall Plot

以實際結果為例，若要維持Recall(Sensitivity)並有較高的 Precision，對照組可以使用0.009 作為其閥值，預測機率大於 0.009 的查核案件被認作審計失敗，其結果為圖~，Recall(Sensitivity)為 62.96%，27 筆審計失敗中能抓出 17 筆，Precision 僅有 0.795%，模型認為的審計失敗中誤報的案件共有 2,121 筆，過高的誤報數使得此模型難以被使用，反之深度學習模型誤報數僅有99 筆，實用性較高。

Fig. 5-六-5 對照組預測結果(閥值為 0.009)

第四節模組的優點與缺點

深度學習模組預測雖然高，但仍有一大缺點，深度學習如同一個黑盒子，很難知道模組做預測的依據，若以模組預測結果去評價會計師的查核品質，會計師可能為不服。然而這也是深度學習為何高效，它能夠處理人類無法釐清的因果關係，如影像辨識、聲音辨識等皆因使用深度學習而有重大突破，審計失敗也是同理。雖然有許多論文分析各種自變數對應審計失敗的影響，但實際用來預測審計失敗時效果不彰，無法用於實務操作，深度學習卻能藉由學習掌握各自變數與審計失敗間的因果關係，並可於實務上使用。深度學習模組的另一個特點是客製化，可以依照現有的資料以及設備隨時調整模型的架構、隱藏層層數、節點數量、Loss Function 等並重新訓練新的模型，於實務使用時，每個使用者擁有的資源都不同，高自由度讓深度學習能被更廣泛的運用。

Tabel 6 模組的優缺點

深度學習回歸模型

優點準確度高客製化容易

自變數與應變數的關係清楚，易被分析

訓練時間短設備要求低缺點模組龐大，訓練時間長

設備要求高

做預測的依據難以理解，分析困難

準確度低

第七章結論

第一節研究結論

本次研究藉由Pytorch 套件依照 Fully Connected Feedforward Network 架構打造一組深度學習模型用以預測審計失敗，利用台灣經濟新報TEJ+現有資料與過去已被研究的審計失敗因子做為模型自變數，並使用半監督式學習與 Voting 的方法強化預測結果，於2019 年測試資料上得到 98.49%正確率，Sensitivity 為 92.59%，

Precision 為 20.6%，預測結果與對照組的邏輯斯回歸相比更為精準，能有效地限縮可能產生審計失敗的案件的範圍，增加抽查財務報表時能查到隱含錯誤與舞弊的財務報表的機率上升。

第二節研究建議

礙於實驗設備與編寫程式的技巧不足，訓練模型相對消耗大量時間，僅訓練50 組模型，此外是使用最基礎的Fully Connected Feedforward Network 架構，建議後續研究者可以訓練更多的模組做voting，精準會提升更多，此外也可以使用其他深度學習架構與Activation Function，測試哪種架構最適合預測審計失敗。

這次的研究主要目的之一是測試深度學習模型在審計失敗這個問題上能不能被使用，其結果為可行，也希望機器學習能在會計領域上漸漸被廣泛使用，能有效減少人力，獲得事半功倍的效果。

參考資料

Bishop, C. M. 2006. Pattern recognition and machine learning: springer.

bravotty. 2020. Information-entropy-loss-pytorch, March 31 2020 [cited December 15 2020]. Available from https://github.com/bravotty/Information-entropy-loss-pytorch/blob/master/entropy_loss_pytorch.py.

De Fuentes, C., and R. Porcuna. 2019. Predicting audit failure: evidence from auditing enforcement releases. Spanish Journal of Finance and Accounting/Revista Española de Financiación y Contabilidad 48 (3):274-305.

DeAngelo, L. E. 1981. Auditor size and audit quality. Journal of accounting and economics 3 (3):183-199.

Dechow, P. M., R. G. Sloan, and A. P. Sweeney. 1995. Detecting earnings management.

Accounting review:193-225.

Glorot, X., and Y. Bengio. 2010. Understanding the difficulty of training deep feedforward neural networks. Paper read at Proceedings of the thirteenth international conference on artificial intelligence and statistics.

Hinton, G. E., S. Osindero, and Y.-W. Teh. 2006. A fast learning algorithm for deep belief nets. Neural computation 18 (7):1527-1554.

Hoskiss. 2020. [機器學習] Backpropagation with Softmax / Cross Entropy 2019 [cited December 2 2020]. Available from https://medium.com/hoskiss-stand/backpropagation-with-softmax-cross-entropy-d60983b7b245.

Jones, J. J. 1991. Earnings management during import relief investigations. Journal of accounting research 29 (2):193-228.

Kothari, S. P., A. J. Leone, and C. E. Wasley. 2005. Performance matched discretionary accrual measures. Journal of accounting and economics 39 (1):163-197.

Krishnan, G. V. 2003. Audit quality and the pricing of discretionary accruals. Auditing: A journal of practice & theory 22 (1):109-126.

Li, L., B. Qi, G. Tian, and G. Zhang. 2015. The Contagion Effect of Low-Quality Audits along Individual Auditors. Available at SSRN 2478348.

ML-Glossary. Loss Functions 2017 [cited. Available from https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html.

Nielsen, M. CHAPTER 4 A visual proof that neural nets can compute any function 2019 [cited. Available from http://neuralnetworksanddeeplearning.com/chap4.

Rumelhart, D. E., G. E. Hinton, and R. J. Williams. 1986. Learning representations by back-propagating errors. nature 323 (6088):533-536.

Saito, T., and M. Rehmsmeier. 2015. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one

10 (3):e0118432.

ufoym. 2020. Imbalanced Dataset Sampler, October 9 2020 [cited December 15 2020].

Available from https://github.com/ufoym/imbalanced-dataset-sampler.

Zmijewski, M. E. 1984. Methodological issues related to the estimation of financial distress prediction models. Journal of accounting research:59-82.

吳琮璠教授. 2001. 審計學--新觀念與本土化. 台北市: 吳琮璠教授.

在文檔中利用深度學習預測審計失敗--以台灣為例 (頁 41-0)

第四章 研究方法

第三節 訓練模型

五、 Voting

第六章 研究結果

第一節 實驗組

第二節 對照組

第三節 實驗組與對照組比較

第四節 模組的優點與缺點

第七章 結論

第一節 研究結論

第二節 研究建議