二元依變數資料集 - 研究結果 - Lasso迴歸於可詮釋預測分析：強階層與樹狀結構

第四章研究結果

第二節二元依變數資料集

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

裝潢評價一般取代了房屋外觀建材常規這項變數的存在。

左側子葉內的模型相較使用整個訓練資料集訓練的Lasso 迴歸模型差異較大，先從連續變數看起，雖最重要變數相同，但後兩個變數為後者重要變數中未出現的變數，而以類別變數來看，在重要類別變數內房屋建材及裝潢評價雖類型有些微差距但依然存在，

而住宅類型為 Two and Half Story All Ages 取代了房屋外觀建材常規的存在，以上變數與係數大小的不同也形成了三個模型預測範圍的差異。

從圖 7 可以看到左側 Lasso 模型的預測範圍相較右側兩個子葉內模型上限低了許多，首先從三個子葉中的Lasso 迴歸類別變數係數可以觀察到左側子葉的模型房屋建材及裝潢評價為非常好變數對依變數的影響方向與右側子葉的Lasso 迴歸模型、整體 Lasso 迴歸模型(一群)與 Hierarchical group-lasso regularization 演算法模型內此變數影響方向相反，推測是Cluster-while-regression with tree hierarchy 演算法所使用的訓練與驗證資料集內包含房屋建材及裝潢評價為非常好，但因房屋出售時僅出售部分結構，故其價格較其他資料異常偏低的資料，且這些異常資料經度變數小於-99.66052，皆分到左側子葉，因此左側Lasso 迴歸模型訓練時受異常資料影響使房屋建材及裝潢評價為非常好變數對依變數為負向影響，且預測上限較低，而右二Lasso 模型的預測範圍上限明顯較右一低則是因訓練資料集中售出於2008 年的房屋價格處於當年頂端者顯然較其他年份低。

第二節二元依變數資料集

本節所使用的資料集為國內某半導體零件代理商客戶應付帳款紀錄，預測目標為客戶於三個月後是否有應付帳款違約的可能，首先關於資料前處理的部分，為比較各自變數間對依變數的影響力大小及方向性，連續性自變數皆會標準化，但自變數內的連續變數呈現偏態，故以e 為底取對數後再標準化。於 Cluster-while-regression with tree hierarchy、

Hierarchical group-lasso regularization 及 Lasso 迴歸模型皆假設依變數為連續值¹，隨機森

1 未違約時依變數設為-1，違約為 1。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

林及梯度提升機則否²。且因此資料集資料具時序性，無法使用交叉驗證，因此將資料集分為訓練、驗證和測試資料集，資料筆數各為9865、3945 和 3947，而為因應類別資料與時序性，各演算法的實驗實現流程也隨之改變。

下表則為實作Lasso 迴歸、Hierarchical group-lasso regularization、隨機森林及梯度提升機演算法所使用的R 語言套件與函數與函數中有優化或設定的超參數名稱，樹的數量設定為超參數組合於驗證資料集預測誤差率最小時出現的棵數。

2 於模型內依變數為二元變數。

‧

glinternet glinternet Lambda

[nLambda=500]

[predict 函數 type 設為prob]

[predict 函數 type 設為response]

驗證資料預測誤差即羅吉斯回歸損失函數最小的參數組合。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

最後是Cluster-while-regression with tree hierarchy 演算法的實作流程，包含四個子葉的樹狀結構建構步驟如下：

1. 同上節步驟二。

2. 組織將資料集分為數群的樹狀結構，樹的深度包含根部為三層，以訓練資料集和驗證資料集分到各子葉中的資料訓練Lasso 迴歸模型，模型細節如本節描寫，

子葉中資料筆數不可小於訓練資料集筆數固定百分比，且若分至此子葉內的訓練資料依變數相同或依變數中某類數量小於此子葉內訓練資料筆數的百分之一，則此子葉不訓練Lasso 迴歸模型，直接以訓練資料依變數中某類佔多數者為此子葉預測值，如某一子葉中訓練資料集依變數有 99.1%為-1，則此子葉預測值為-1。

3. 同上節步驟四。

4. 同上節步驟五。

不同子葉數的樹狀模型處理如上節所述，子葉中模型預測值大於或等於0 時視為違規，

小於0 時視為未違規。

應付帳款資料集筆數共 17757 筆，依變數為下三期是否有 91 天以上的應收帳款，

為二元變數，如為1 則為違約，資料集中共有 973 項自變數，其中包含連續變數 19 項，

例如銷售總額、應收帳款總金額和未到期應收帳款金額等，類別變數共有 954 項，其中有943 項是此筆紀錄是否屬於某一客戶的二元變數，以及記錄月分和資料收集時某一變數是否補零等。

首先將資料以單一 Lasso 迴歸模型(一群)與以 Cluster-while-regression with tree hierarchy 演算法將資料分為二到四群預測，並將後者分割依據中移除資料收集時某一變數是否補零及是否為客戶第一筆紀錄等對後續新收集的資料較無影響的變數以及資料筆數不足百分之五的客戶歸屬相關變數，比較四者的預測測試資料集的混合矩陣表現，

比較結果如表9。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 9 應收帳款資料集群數預測準確度比較表演算法

種類

一群兩群

( 𝑛^𝑚𝑖𝑛 =0.05 or 0.1)

三群

(𝑛^𝑚𝑖𝑛=0.05)

三群

(𝑛^𝑚𝑖𝑛=0.1)

四群

( 𝑛^𝑚𝑖𝑛 =0.05 or 0.1) 準確率 0.991 0.99 0.991 0.99 0.988 召回率 0.803 0.803 0.803 0.786 0.757 精度 0.993 0.972 0.986 0.978 0.956 F1 分數 0.888 0.88 0.885 0.872 0.845

由表9 可以看到不同群數預測表現相差甚少，其中綜合表現最好的是 Lasso 迴歸與 Cluster-while-regression with tree hierarchy 演算法，其樹狀結構分為三個子葉，訓練時子葉中訓練資料集筆數需大於整個訓練資料集筆數百分之五，兩者預測表現幾乎相同。接著將這兩者與 Hierarchical group-lasso regularization 和其他集成樹演算法預測表現相比較，其中Lasso 迴歸可挑選的自變數在類別變數做獨熱編碼後共 983 項，而 Hierarchical group-lasso regularization 在包含自變數間一階交互項並扣除是否為某一客戶間交互項後為28755 項，如表 10。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 10 演算法於應收帳款資料集預測準確度比較表演算法種類 Lasso 迴歸

(一群)

Hierarchical group-lasso regularization

Cluster- while-regression with tree hierarchy(三群5%)

隨機森林梯度提升機

準確率 0.991 0.99 0.991 0.989 0.987 召回率 0.803 0.78 0.803 0.798 0.809 精度 0.993 0.978 0.986 0.952 0.892 F1 分數 0.888 0.868 0.885 0.868 0.848

從表10 中可以得知 Lasso 迴歸與 Cluster-while-regression with tree hierarchy 的綜合預測表現皆優於Hierarchical group-lasso regularization 與集成樹演算法，其中又以 Lasso 迴歸表現最佳，其次是Cluster-while-regression with tree hierarchy，代表此資料集內自變數間一階交互項對依變數無影響力，且自變數對依變數的線性關係足以解釋兩者間的關聯，接著將焦點轉到模型解釋性的部分，將在表 11 分別描述 Lasso 迴歸、Hierarchical group-lasso regularization 連續及類別變數的重要變數，前者模型內共 310 項變數，其中過半數皆為是否為某一客戶的二元變數，後者包含連續變數 14 項、類別變數 4 項、連續變數間一階交互項28 項和連續與類別變數間一階交互項 9 項。

‧

Hierarchical group-lasso regularization 模型內變數(各類別變數

P7_over180_amt 0.488 P3_61.90_amt 0.052 P5_121.150_amt 0.160 P4_91.120_amt 0.043 P4_91.120_amt 0.121 類

別

CUST_CODE_1520941 1.896 類別

四月*P3_61.90_amt 0.089 CUST_CODE_1676561 1.803 三月*P2_31.60_amt 0.043 CUST_CODE_1520761 1.688 一月*P3_61.90_amt -0.035

從表11 可以看到兩者所挑選出的連續變數較相似，皆為某段時間內應收帳款金額，

而 Hierarchical group-lasso regularization 的重要類別變數包含了連續變數與類別變數間的一階交互項，連續變數的部分大多為61 到 90 天的應收帳款金額，正好是 Lasso 迴歸模型內的重要連續變數，代表 61 到 180 天以上的應收帳款金額在兩個演算法內對依變數的影響十分顯著，而兩者較不相同的點在於類別變數的部分，Lasso 迴歸挑選了相當多紀錄歸屬客戶的二元變數，且係數皆為正並大於連續變數係數，表示這些客戶過往極可能有過違約紀錄，導致其係數大小突出，相反的Hierarchical group-lasso regularization 則挑選到紀錄發生月份，且在其模型內並沒有客戶相關變數，這可能是造成兩者預測準確度Lasso 較好的主因。

接著是Cluster-while-regression with tree hierarchy 演算法的模型及子葉中 Lasso 迴歸模型內的重要變數比較表，此模型候選分割點共有 68 種可能，已扣除資料收集時某一

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 8 應收帳款資料集分群後預測為違約比例長條圖

‧

表 12 Cluster-while-regression with tree hierarchy 演算法於應收帳款資料集的模型子葉內重要變數

amt 0.441 P7_over180_amt

0.150 P7_over180_a

mt 0.112

period_before 0.022 P5_121.150_amt

0.042 P5_121.150_a

mt 0.029 類

別

CUST_COD

E_1676561 1.857 CUST_CODE_13

40021 1.914 CUST_CODE

_1520941 1.952 CUST_COD

E_1520941 1.854 CUST_CODE_59

9001 1.912 CUST_CODE

_1676561 1.887 CUST_COD

E_1617791 1.851 CUST_CODE_14

59211 1.897 CUST_CODE

_743151 1.837

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

意此群在分群時即以此兩項變數為依據，分配到此子葉的資料均為小於等於變數第二十五百分位數，故適合分析此兩項變數皆較小時的狀況。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 第五章結論

從各演算法於連續依變數預測問題的預測表現來看，本研究所提出的 Cluster-while-regression with tree hierarchy 演算法的表現遠優於 Lasso 迴歸與 Hierarchical group-lasso regularization 演算法，並接近隨機森林與梯度提升機，而當面對分類問題時，Lasso 迴歸與 Cluster-while-regression with tree hierarchy 演算法表現相近，Hierarchical group-lasso regularization、隨機森林與梯度提升機則較差，其中又以 Lasso 迴歸與 Cluster-while-regression with tree hierarchy 演算法預測結果最佳，因此綜合以上結果，Cluster-while-regression with tree hierarchy 演算法不論在迴歸或分類預測表現皆十分亮眼。

而以模型解釋性來看，Cluster-while-regression with tree hierarchy 演算法、Lasso 迴歸與 Hierarchical group-lasso regularization 演算法皆具解釋力，Hierarchical group-lasso regularization 演算法較 Lasso 迴歸模型內變數包含了自變數的一階交互項，並保留強階層具合理解釋性，Cluster-while-regression with tree hierarchy 演算法則是多了分群的步驟，

皆為簡單不複雜的結構所組成，為人力可理解的範疇，且本研究所提出的 Cluster-while-regression with tree hierarchy 演算法可在樣本中分類出不同的群體，針對各群找出其獨有的重要自變數，發展出較以往更具解釋力的模型，同時保有分群規則的可解釋性。

近期具可解釋性人工智慧模型愈來愈受到關注，人們期望從中得到可優化決策品質及往後改進方案的有效資訊，其中迴歸分類樹由於其本質為if-else 規則的組成，具有高透通度，因此成為可詮釋人工智慧的可應用基底，特別是透過數學規劃可以優化樹狀結構進而提升預測能力(Dunn, 2018)。因此本研究提出結合混合整數規劃與 Lasso 迴歸的 Cluster-while-regression with tree hierarchy 演算法，保留解釋性同時提升預測表現，在數個實證測試中表現不遜於黑箱集成式樹模型。然而樹狀模型在樣本大和變數欄位多的情況下，結構最佳化是個實證和理論上都具挑戰性的課題，多需要隨機搜尋的協助，因此

在文檔中 Lasso迴歸於可詮釋預測分析：強階層與樹狀結構 - 政大學術集成 (頁 37-0)

二元依變數資料集

第四章 研究結果

第二節 二元依變數資料集

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 二元依變數資料集

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 第五章 結論

第四章研究結果

第二節二元依變數資料集

立政治大學

第二節二元依變數資料集

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

l C h engchi U ni ve rs it y 第五章結論