Lasso迴歸於可詮釋預測分析：強階層與樹狀結構 - 政大學術集成

全文

(1)國立政治大學資訊管理學系研究所碩士學位論文. Lasso 迴歸於可詮釋預測分析：強階層與樹狀結構. 治. 政 Predictive Lasso Regression for Interpretable 大 Analytics: Strong. 立. Hierarchy and Tree Structure. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. en. hi. i Un. v. gc 指導教授：莊皓鈞博士周彥君博士. 研究生：陳婷文撰. 中華民國一百零九年七月. DOI:10.6814/NCCU202001103.

(2) 摘要有鑒於數據分析被廣泛應用在不同問題領域，且近年來資料筆數與變數數目大幅增加，以機器學習建構的預測模型因而興起，其中隨機森林和梯度提升機運用集成樹演算法，能在模型內納入自變數與依變數間的非線性關係並處理高維度資料，提升預測準確度。然而這類模型缺乏解釋性，在商業領域如金融授信風險評估難以使用，故產業界仍倚賴具高透通性的迴歸模型，但一般而言其預測準確度低於解釋性弱的集成式學習。本研究利用在高維建模相當重要的 Lasso 迴歸相關技術，探討兩個可大幅改善迴歸模型預測準確度並保留解釋性的方案，一為由 Lim and Hastie (2015)提出運用自變數交互項拓. 政治大究提出的 Cluster-while-regression with tree hierarchy，後者將樣本同步分群與訓練後產出立. 展維度，但保留強階層使模型易解釋的 Hierarchical group-lasso regularization，二為本研. ‧ 國. 學. 數個迴歸模型，以分群加入非線性關係，結合樹狀結構與各子葉 Lasso 迴歸，以混合整數規劃進行訓練，達成模型的全域最佳化。接著以不同資料集比較以上所提到的五種演. ‧. 算法後，本研究運用的兩種強化版迴歸模型預測表現皆顯著優於 Lasso 迴歸，我們所提. sit. y. Nat. 出的 Cluster-while-regression with tree hierarchy 預測準確度更不遜於隨機森林與梯度提. io. al. er. 升機，並保留高可解釋性，對可詮釋人工智慧有所貢獻。. v. n. 關鍵字：詮釋性、Lasso 迴歸、機器學習、樹狀結構、強階層. Ch. engchi. i Un. I. DOI:10.6814/NCCU202001103.

(3) Abstract Due to the availability of observational data and variables, predictive machine learning has been widely applied in different fields. Random Forests and Gradient Boosting Machine are two popular machine learning models which use ensemble trees to incorporate the nonlinear relationship between independent and dependent variables and to process high-dimensional data, resulting in improved prediction accuracy. However, these models are lack of interpretability and hence not applicable to business situations like credit risk assessment. As a results, practitioners still rely on the regression model for interpretability. To improve. 政治大 avoiding overfitting. In this study, we discuss two Lasso-based models that can greatly improve 立 prediction accuracy, Lasso regression is a key technique to include high-dimensional data while. ‧ 國. 學. prediction accuracy while retaining interpretability. One is Hierarchical group-lasso regularization, which was proposed by Lim and Hastie (2015) and uses interaction terms to. ‧. expand the dimension and further enforces strong hierarchy to make the model easy to interpret.. sit. y. Nat. The other is Cluster-while-regression with tree hierarchy, which adds nonlinear relationships. er. io. by clustering. This model simultaneously considers tree structure for clustering and runs Lasso. al. iv n C h e n gLasso optimization of the model. These two enhanced i U models performs better than c hregression n. regression for each cluster. A mixed-integer programming is applied to achieve global. the traditional Lasso regression model in different datasets. Cluster-while-regression with tree hierarchy even performs not worse than Random Forests and Gradient Boosting Machine and at the same time retain high interpretability. Our study thus contributes to interpretable artificial intelligence. Keywords: Interpretability, Lasso Regression, Machine Learning, Tree Hierarchy, Strong Hierarchy. II. DOI:10.6814/NCCU202001103.

(4) 目次第一章緒論.............................................................................................................................. 1 第一節研究背景與動機.................................................................................................. 1 第二節研究目的與貢獻.................................................................................................. 2 第二章文獻回顧與探討.......................................................................................................... 4 第一節迴歸模型正規化.................................................................................................. 4 一、線性迴歸............................................................................................................ 4 二、Ridge regression................................................................................................. 5. 政治大四、Elastic net ........................................................................................................... 7 立三、Lasso regression (Least absolute shrinkage and selection operator regression) 6. ‧ 國. 學. 第二節 Cluster-while-estimate 演算法 ............................................................................ 7 第三章研究方法.................................................................................................................... 10. ‧. 第一節 Hierarchical group-lasso regularization 演算法 ................................................ 10. sit. y. Nat. 第二節 Cluster-while-regression with tree hierarchy 演算法 ........................................ 14. io. er. 第四章研究結果.................................................................................................................... 18. al. iv n C hengchi U 二元依變數資料集............................................................................................ 31 n. 第一節連續性依變數資料集........................................................................................ 18 第二節. 第五章結論............................................................................................................................ 41 第六章參考文獻.................................................................................................................... 42. III. DOI:10.6814/NCCU202001103.

(5) 表次表 1 演算法於連續變數資料集實作細節表........................................................................ 20 表 2 演算法於 Toyota Corolla 資料集預測誤差比較表 ..................................................... 22 表 3 Toyota Corolla 資料集演算法模型變數比較表............................................................ 23 表 4 Cluster-while-regression with tree hierarchy 演算法於 Toyota Corolla 資料集的模型子葉內重要變數.......................................................................................................................... 24 表 5 演算法於 Ames 房屋資料集預測誤差比較表 ............................................................ 27 表 6 Ames 房屋資料集演算法模型重要變數比較表 .......................................................... 28. 政治大內重要變數.............................................................................................................................. 30 立. 表 7 Cluster-while-regression with tree hierarchy 演算法於 Ames 房屋資料集的模型子葉. ‧ 國. 學. 表 8 演算法於類別變數資料集實作細節表........................................................................ 33 表 9 應收帳款資料集群數預測準確度比較表.................................................................... 35. ‧. 表 10 演算法於應收帳款資料集預測準確度比較表.......................................................... 36. sit. y. Nat. 表 11 應收帳款資料集演算法模型重要變數比較表 .......................................................... 37. io. al. er. 表 12 Cluster-while-regression with tree hierarchy 演算法於應收帳款資料集的模型子葉內. v. n. 重要變數.................................................................................................................................. 39. Ch. engchi. i Un. IV. DOI:10.6814/NCCU202001103.

(6) 圖次圖 1 Ridge 迴歸求解示意圖 .................................................................................................... 5 圖 2 Lasso 迴歸求解示意圖 .................................................................................................... 6 圖 3 染色體示意圖................................................................................................................ 19 圖 4 Toyota Corolla 資料集群數預測誤差比較圖................................................................ 21 圖 5 Toyota Corolla 資料集分群後預測值廂型圖................................................................ 24 圖 6 Ames 資料集群數預測誤差比較圖 .............................................................................. 26 圖 7 Ames 房屋資料集分群後預測值廂型圖 ...................................................................... 29. 政治大. 圖 8 應收帳款資料集分群後預測為違約比例長條圖........................................................ 38. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. V. DOI:10.6814/NCCU202001103.

(7) 第一章緒論第一節研究背景與動機各領域的決策者都希望面對未來的各種狀況提出應對方案，但由於將資源平分處理所有可能情況成本過高且成效不彰，在綜合考慮發生機率及可能得失後，決策者會傾向將資源集中於其中影響力重大者，也因此預測分析逐漸嶄露頭角，幫助做出好的決策，過往倚靠人力分析資料累積經驗和對資料的統計分析，但隨著資料逐漸變得複雜，筆數及變數數量增加讓傳統作法不敷使用，而讓預測分析仍能繼續得以實現的就是其背後的機器學習技術。機器學習演算法讓電腦從訓練用資料樣本學習並持續改善演算法表現. 政治大. (Alpaydin, 2020)，並用以預測未知資料，不僅提升效率，預測誤差也大幅縮小。. 立. 為解決有明確目標的問題，最常使用的是機器學習中的監督式學習，藉由學習輸入. ‧ 國. 學. 和輸出組成的樣本產出一個可以在得知輸入時算出輸出的函數 (Russel and Norvig, 2013)，目前在各領域所流行使用的監督式學習包含梯度提升機及隨機森林演算法，兩者. ‧. 皆為集成樹演算法，能處理大量高維度的資料，並在模型中將自變數與依變數間的非線. Nat. sit. y. 性關係納入考量，增加預測準確度，缺點為無法從結果直觀得知自變數對依變數的影響. n. al. er. io. 幅度，雖能從模型中得知各自變數對模型預測準確度的影響，但彼此之間只能依影響大. i Un. v. 小排序，數值本身並無意義，模型本身猶如黑箱，只知預測結果，解釋性低，而具解釋. Ch. engchi. 性的機器學習演算法模型如迴歸分析，在將自變數數值標準化，使變數尺度相同後，可量化各自變數對依變數的影響力大小及方向。具解釋性的模型讓決策者理解模型如何產出預測結果，增加對模型的信任感，並在模型結果出錯時能辨認模型產出不合理的原因，加以改進，而另一項重要性在於解釋性模型使決策者發現對目標變數影響力大的自變數，可利用實證研究驗證兩者間的因果關係，對問題有更多了解，於日後可藉由影響自變數使目標變數改善，比如金融業辦理信貸業務時須利用具解釋性的模型做客戶篩選。但迴歸模型在為提升預測準確度將資料內非線性關係如自變數間交互項加入模型後會造成解釋性及預測能力降低的問題，其在處理高維度的資料，比如當變數數量(p)相較樣本數(n)沒有顯著差別，甚或 p>n 時，例如有 1000 筆資料，資料集內卻有 1500 個變 1. DOI:10.6814/NCCU202001103.

(8) 數，不僅導致運算時間及模型複雜度增加，迴歸也因足夠多的輸入向量可組合成任何輸出向量，在模型內放入太多變數會使其過於符合訓練樣本，造成解釋性降低、預測表現不佳。為因應迴歸模型過適訓練樣本及模型內變數過多的情況，改善迴歸缺點的 Lasso 迴歸演算法由 Tibshirani (1996)提出，演算法特徵為挑選變數，可篩選資料中的自變數，減少模型內變數數量，簡化模型並使其兼具可詮釋性，較原本的迴歸分析降低模型複雜度及提升解釋性，並增加預測準確度，但其無法確保統計上合理的強階層情況，即模型內交互項若存在，則其組成自變數亦須同時存在(Bien et al., 2013)。考慮以上因素，本論文研究問題為如何使迴歸模型藉由自變數與依變數間的非線性關係提升預測準確度，並在處理高維資料時保留解釋性。. 立. 政治大. 第二節研究目的與貢獻. ‧ 國. 學. 為解決納入自變數交互項後 Lasso 迴歸無法保留強階層的問題，有兩個方向可以討. ‧. 論，第一個方向為保存強階層，在維持強階層的前提下使用 Lasso 迴歸，Lim and Hastie. sit. y. Nat. (2015)提出的 Hierarchical group-lasso regularization，其融合強階層及 Lasso 迴歸演算法，. io. er. 可運用並保留 Lasso 迴歸演算法的解釋性及確保強階層的規則被遵守。. al. iv n C hengchi U 分群，而後各群訓練出較簡單的模型，各模型再分別預測以資料相似度為基準分入各群 n. 第二個方向為將納入的非線性關係從交互項改為以分群實現，概念為先將訓練樣本. 的未知資料。實現方式為將樣本分群再各群分別做 Lasso 迴歸分析，通常會使用先分群再各群訓練模型的兩階段方法，例如 Hu et al. (2019)為預測新產品生命週期曲線，將各產品的產品生命週期曲線以產品相似度分群，利用與新產品相似產品群內的代表曲線產生預測，但因分群演算法的最佳化方向為群內距離最小化及群間距離最大化，與目標預測準確度沒有聯繫，即使分群結果好卻不代表預測準確度高，而為使分群可確實提升預測準確度，Baardma et al. (2017)提出名為 Cluster-while-estimate 演算法，其為針對降低預測誤差的演算法，此演算法分群方式如其名，以分群後預測表現逐步調整群內樣本，使分群結果與預測表現連動，預測準確度也有顯著提升，但其缺點是分群過程未有明確規 2. DOI:10.6814/NCCU202001103.

(9) 則指示如何將樣本分群，當預測新樣本依變數時以自變數的相似性分至特定群並利用此群的模型做預測，因此新樣本加入時無法說明樣本分群依據，而 Yang et al. (2017)所提出的迴歸樹演算法解決了分群標準不明的情況，其運用決策樹的運作原理，在每一節點利用某一自變數區間條件分割為子群集，判斷分割方式何者為最佳時由群內樣本依變數平均值改為以多項式迴歸預測表現決定，如此做法可保證在每個節點可挑選到最佳分割方式，但此演算法無法確保整棵樹所有節點挑選分割依據的最佳化，因此本論文沿此思路提出 Cluster-while-regression with tree hierarchy 演算法，同步將樣本以樹狀結構分群及各群分別做 Lasso 迴歸分析，並使用數學規劃尋求最佳解，將所有節點的分割依據同時考慮，從而確保整個樹結構的全域最佳化，最後以預測表現決定分群結果，各 Lasso 迴. 政治大. 歸模型相較需考慮自變數交互項的前項 Hierarchical group-lasso regularization 模型更為. 立. 簡單，結果模型既能有明確規則分群，同時較單純的 Lasso 迴歸演算法提升預測準確度。. ‧ 國. 學. 本論文的研究貢獻為提出具詮釋性模型的機器學習演算法，一為評估 Hierarchical. ‧. group-lasso regularization 作為可解釋模型的預測表現，二為提出創新的 Cluster-whileregression with tree hierarchy 演算法，將樹狀結構與迴歸模型連結，以混合整數規劃實現. y. Nat. io. sit. 演算法的創新，達成全域的最佳化，解決分群結果與預測準確度無關和分群標準不明確. n. al. er. 的問題，故本研究使用分類資料集如應付帳款違約及連續性資料集如房價與車價預測進. Ch. i Un. v. 一步驗證詮釋性演算法的預測準確度，在不同資料下由本研究所討論的演算法對比. engchi. Lasso 迴歸皆存在優勢，其中的 Cluster-while-regression with tree hierarchy 演算法更是堪比隨機森林與梯度提升機，卻又保留解釋性，在著重詮釋商業情境如了解房價或應付帳款違約的因素等狀況下，本研究所提出的演算法具有一定的實務貢獻。. 3. DOI:10.6814/NCCU202001103.

(10) 第二章文獻回顧與探討第一節迴歸模型正規化在上一章已提及迴歸演算法處理複雜資料時所面臨的困境，本節將簡介線性迴歸模型並描述可改善迴歸演算法缺點的正規化方法，其利用在線性迴歸的損失函數中除估計預測誤差外增加懲罰，懲罰為懲罰參數(λ)與懲罰項相乘，藉由將係數絕對值大小納入損失函數中考量，以壓縮或歸零不具重大影響力自變數的模型係數，提升迴歸模型穩健度和提高模型解釋性。. 政治大. 一、線性迴歸. 立. 基本的線性迴歸模型為：. ‧ 國. 學. 𝑌 = 𝜇1𝑛 + 𝑋𝛽 + 𝑒. (1). ‧. Y 為 n×1 的向量，值為每個樣本的目標變數值，μ 為截距，1𝑛 為值皆為 1 的 n×1 的向量，X 為樣本數(n)×自變數數量(p)的自變數矩陣，𝛽為長度為 p 的係數向量，e 為平均. y. Nat. io. sit. 數為零的常態分配殘差，其變異數為𝜎 2 。. n. al. er. 以普通最小平方法(Ordinary Least Square; OLS)評估模型表現，其決定未知係數𝛽的. Ch. i Un. v. 方式為藉由調整係數𝛽最小化誤差平方和(Root Sum Square; RSS)，RSS 即為損失函數，可寫作解以下損失函數最小化問題：. engchi. 𝑚𝑖𝑛𝛽 𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2. (2). 但若資料集中存在高度多重共線性會對迴歸模型產生負面影響(Farrar and Glauber, 1967)，普通最小平方迴歸在處理以上資料集時會使模型係數不精確或係數正負號與預期相反。有許多變數存在的複雜資料集則是因迴歸模型沒有係數縮減的功能，模型內存在太多變數且係數過大，以上兩種資料集特徵皆會使模型解釋性降低，因此需正規化改善迴歸分析的缺點。. 4. DOI:10.6814/NCCU202001103.

(11) 二、Ridge regression 在損失函數中加入由係數平方總和乘以懲罰參數 λ 的懲罰，亦名為 L2 正規化的迴歸模型稱為 Ridge regression(Ridge 迴歸)，由 Hoerl and Kennard (1970)提出。其適合用於處理多自變數資料集且常態分配下係數不為零的情況，當資料中自變數數量越多，自變數之間具有共線性的機率越高，而當模型內變數存在高共線性時，其係數具高不確定性及變異性，Ridge 迴歸會相互縮減具高共線性自變數的係數，例如有 k 個相同的自變數，則模型中係數皆為 1/k，與自變數單獨放入模型中時係數相同(Friedman et al., 2010)。Ridge 迴歸可改善迴歸模型處理具高度共線性資料時產生的係數變異數過大的問題，並實現係. 政治大法進行變數挑選，去蕪存菁，原因如圖 1 所示。立. 數壓縮，在懲罰參數 λ 不為無限大的前提下會將係數縮減至接近零，但不為零，因此無. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 1 Ridge 迴歸求解示意圖資料來源：Tibshirani, R. (1996, p. 271). 圖 1 可看出 Ridge 迴歸模型係數範圍被限制，減少高共線性資料對係數的影響，而解所在的位置使係數大小被壓縮，但不為零。 Ridge 迴歸需解的損失函數最小化問題為將函式(2)中的損失函數部分加上 L2 正規化: 𝑚𝑖𝑛𝛽 𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2 + 𝜆2 |𝛽|2. (3) 5. DOI:10.6814/NCCU202001103.

(12) 𝜆2 >= 0為懲罰參數，𝜆2 越大懲罰強度越大，係數縮減程度越多，|𝛽|2為針對𝛽的 L2 正規化，而因正規化與係數平方大小有關，在最小化損失函數時會對較大的係數施加更多的懲罰，因此 X 皆須經過標準化，標準化後平均數為 0，標準差為 1，所有變數的係數才能互相比較。. 三、Lasso regression (Least absolute shrinkage and selection operator regression) 使用 L1 正規化的迴歸模型稱為 Lasso regression (Lasso 迴歸)，損失函數中加入由係. 政治大表示適合用於分析需使用有效率、速度快演算法的巨大資料集，比如網路資料。如圖 2 立數絕對值加總乘以懲罰參數 λ 組成的懲罰，由 Tibshirani (1996)提出，Friedman et al. (2010). ‧ 國. 學. 所示，Lasso 迴歸不只可壓縮模型內係數，甚至縮減為零，實現變數挑選，使 Lasso 迴歸. 面對多變數資料集時，模型內變數相較迴歸及 Ridge 迴歸少，並剔除對依變數無影響力. ‧. 的變數，模型解釋性增加。但 Lasso 迴歸在處理具高共線性自變數的資料時模型會挑選. n. al. er. io. sit. y. Nat. 其中一個忽略其他變數(Friedman et al., 2010)，並不穩健。. Ch. engchi. i Un. v. 圖 2 Lasso 迴歸求解示意圖資料來源：Tibshirani, R. (1996, p.271). 圖 2 可看出 Lasso 迴歸模型係數範圍被限制，高共線性資料對係數的影響如同 Ridge 6. DOI:10.6814/NCCU202001103.

(13) 迴歸也被降低，而解所在的位置使變數被挑選，無影響力的變數係數降為零。 Lasso 迴歸需解的損失函數最小化問題為將函式(2)中的損失函數加上 L1 正規化： 𝑚𝑖𝑛𝛽 𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2 + 𝜆1 |𝛽|. (4). 𝜆1 >= 0為懲罰參數，|𝛽|為針對𝛽的 L1 正規化，可為問題(4)提供稀疏解法。. 四、Elastic net Elastic net 由 Zou and Hastie (2005)提出，建議可在處理高維度資料時使用 Elastic net，避免 Lasso 迴歸模型在具高共線性自變數時不穩定的問題(Zou and Hastie, 2005)。假設𝛼 = 𝜆. 𝜆1. 1 +𝜆2. 政治大. ，Elastic net 的最小化損失函數問題為將函式(2)結合 L1 正規化和 L2. 立. 正規化：. ‧ 國. 學. 𝑚𝑖𝑛𝛽 𝑅𝑆𝑆(𝛽) = |𝑌 − (𝜇1𝑛 + 𝑋𝛽)|2 + 𝛼|𝛽| + (1 − 𝛼)|𝛽|2. (5). 𝛼|𝛽| + (1 − 𝛼)|𝛽|2 為 Elastic net 對𝛽的懲罰，當𝛼為 1，Elastic net 會簡化為 Lasso 迴. ‧. 歸，當𝛼為 0，Elastic net 會簡化為 Ridge 迴歸，Elastic net 相當於是綜合 Lasso 迴歸與. Nat. sit. y. Ridge 迴歸的解決方案，L1 正規化的部分幫助 Elastic net 做特徵挑選，L2 的部分可讓自. n. al. er. io. 變數分組篩選，並在隨機抽樣的前提下穩定解決路徑(Ogutu et al., 2012)。將自變數分組. i Un. v. 表示可讓高共線性的變數對依變數有影響力時同時存在於模型，而不會像 Lasso 迴歸傾向只保留其中之一。. Ch. engchi. 以上三種正規化方法皆可達到壓縮迴歸模型係數的效果，但其中只有 Lasso 迴歸以及 Elastic net 有將模型變數縮減的能力，但若以本論文所側重的提升迴歸分析高維度資料預測表現及模型解釋性這兩方面來看，Lasso 迴歸挑選變數並只保留一個高共線性變數的特性使其成為最佳選擇，藉由盡可能拋棄模型內對自變數無影響力的變數使解釋性及預測能力提高，雖其在面對高共線性資料會使模型結果不穩定，但保留所有高共線性自變數既無法增加模型預測表現，也會使模型變得更為複雜。. 第二節 Cluster-while-estimate 演算法 7. DOI:10.6814/NCCU202001103.

(14) 在上一章本論文已提及分群後再各群訓練模型的兩階段方法，但 Park et al. (2017)認為在進行迴歸前很難評斷分群的預測表現，更好的解決方案是同時進行分群及迴歸，這可以透過迴歸分群(regression clustering)實現。針對典型迴歸分群問題的啟發式演算法包含 Späth (1979)發表的演算法，初始分出數群後藉由觀察每次交換兩群內的各一個樣本，若使誤差下降則保留變動，DeSarbo et al. (1989)則是利用模擬退火演算法避免陷入區域最佳解。而後 Baardma et al. (2017)所提出的 Cluster-while-estimate 演算法也是為解決類似問題而發表，並於在其論文內預測新商品上市後的銷量問題上有顯著的提升預測準確率。首先銷量產生公式如下，假設有 n 個歷史新商品資料樣本，樣本分為 l 群： 𝑦𝑖 = ∑𝑙𝑘=1 𝑧𝑖𝑘 𝑓𝑘 (𝑥𝑖 ) + 𝑒𝑖 , 𝑖 = 1, … , 𝑛. 立. 政治大. (6). 𝑧𝑖𝑘 ∈ {0, 1}，表示樣本 i 屬於群 k，𝑓𝑘 (𝑥𝑖 )為群 k 的銷量預測模型，自變數為𝑥𝑖，𝑒𝑖 則. ‧ 國. 學. 是樣本 i 平均數為 0 的隨機雜訊。. ‧. 由於銷量預測可能是自變數的非線性函數，因此𝑓𝑘 可為不同種類的迴歸模型，比如線性迴歸模型、非線性迴歸模型等，且假如𝑓𝑘 為線性迴歸模型，在模型(6)中須考慮的參. y. Nat. io. sit. 數總數為樣本特徵數 m 乘以群數 l，一旦群數上升，模型維度也會急速增加，加上樣本. n. al. er. 特徵不一定皆對銷量有影響，因此就有必要在評估模型時加上懲罰，以達成稀疏模型，. Ch. 降低模型過適的可能(Baardma et al., 2017)。. engchi. i Un. v. 在模型(6)中需決定每個樣本的分群𝑧̂𝑖𝑘 以及每群的預測模型𝑓̂𝑘 ，而為評估模型(6)的表現，以下為 Cluster-while-estimate 演算法的誤差最小化問題(P)： 𝑚𝑖𝑛𝑧̂ 𝑖𝑘,𝑓̂𝑘 ∑𝑛𝑖=1 𝐿( 𝑦𝑖 , ∑𝑙𝑘=1 𝑧𝑖𝑘 𝑓𝑘 (𝑥𝑖 )) + 𝜆𝑅(𝑓1 , … , 𝑓𝑘 ). (7a). s.t. ∑𝑙𝑘=1 𝑧𝑖𝑘 = 1, 𝑖 = 1, … , 𝑛. (7b) (7c). 𝑧𝑖𝑘 ∈ {0, 1}, 𝑖 = 1, … , 𝑛, 𝑘 = 1, … , 𝑛. 目標(7a)代表將預測誤差最小化，每個樣本 i 可觀察到目標變數為𝑦𝑙𝑖 及預測值 ∑𝑙𝑘=1 𝑧𝑖𝑘 𝑓𝑘 (𝑥𝑖 )，預測誤差為𝐿(𝑦𝑖 , ∑𝑙𝑘=1 𝑧𝑖𝑘 𝑓𝑘 (𝑥𝑖 ))，並透過 λ>=0 為懲罰參數，𝑅(𝑓1 , … , 𝑓𝑘 ) 為懲罰項，對模型(6)正規化。為快速找到可行的問題(7a)解，Baardma et al. (2017)的 Cluster-while-estimate 演算法 8. DOI:10.6814/NCCU202001103.

(15) 不斷重複評估預測模型及分群的動作，直到群內樣本不再變動或達到預設迭代次數，詳述如下： 1.. 預設分群數 l 及懲罰參數 λ，使用隨機分群或其他分群方法如 k-means 或階層式分群將樣本分為 l 群。. 2.. 評估預測模型及分群，預設迭代次數為 T，𝑡 = 1, … , 𝑇： a.. (𝑡) 以𝑧𝑖𝑘 = 𝑧̂𝑖𝑘 (𝑡−1)解(P)，找到𝑓̂𝑘 。. b.. (𝑡−1) 以𝑓𝑘 = 𝑓̂𝑘 解(P)，找到𝑧̂𝑖𝑘 (𝑡) 。. c.. 如𝑧̂𝑖𝑘 (𝑡) = 𝑧̂𝑖𝑘 (𝑡−1)或𝑡 = 𝑇，暫停迭代，否則回到步驟 2a。. 政治大. Cluster-while-estimate 演算法看似應用範圍十分廣泛，但一則其迭代的特性使此演. 立. 算法在處理高維度且樣本多的資料集時需時甚久，二則其分群方式如同一般純分群演. ‧ 國. 學. 算法，倚靠個別觀察值間的相似度分群，若有新的觀察值須被分群，則亦根據與各群的相似度分類，沒有透明可理解的分群規則，所以本論文提出 Cluster-while-regression. ‧. with tree hierarchy 演算法，改善未有可詮釋分群規則缺失。. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 9. DOI:10.6814/NCCU202001103.

(16) 第三章研究方法第一節 Hierarchical group-lasso regularization 演算法現今資料較以往具更高維度，複雜度更高，而在此情況下自變數交互項為依變數影響因子在現實中存在的機率越高，而一階交互項數目總數在有 p 個自變數的情況下會有 𝐶2𝑝 個，假設有 50 個自變數，就會有 1225 個一階交互項，當有眾多自變數的情況下對電腦算力是極大的負擔。而第一章所提及容納交互項所衍生的強弱階層問題，強階層指當交互項存在對依變數的影響，則組成此交互項的自變數皆須同時在模型中存在，而弱階層指交互項單獨在. 政治大. 模型中存在，以變數𝑋1、𝑋2舉例，強階層表示兩者與其一階交互項𝑋1:2 同時在模型中存. 立. 在，而弱階層則為只有𝑋1:2單獨於模型中存在，McCullagh and Nelder (1989)表示違反強. ‧ 國. 學. 階層是不合理的，且在統計上，Cox (1984)表示影響力大的自變數較可能擁有可觀察到的交互項，同理這些交互項越可能在現實存在，因此演算法在模型內應維持變數間強階. ‧. 層的關係。. Nat. sit. y. Lim and Hastie (2015)提出 Hierarchical group-lasso regularization 演算法，結合 Yuan. n. al. er. io. and Lin (2006) 所提出的 Group-lasso 演算法及 Bien et al. (2013)提出對交互項存在的限. i Un. v. 制，將前者可將自變數以自變數為連續變數或類別變數分組與後者將交互項存在的限制. Ch. engchi. 限縮為強階層的特性結合，使 Hierarchical group-lasso regularization 可同時處理包含連續、類別自變數及自變數間所有一階交互項，並維持自變數與其交互項間的強階層，解決 Lasso 迴歸處理非線性關係時遇到的問題。 Hierarchical group-lasso regularization 以連續變數為依變數的模型如下： 𝑌 = 𝜇 + ∑𝑝𝑖=1 𝑋𝑖 𝜃𝑖 + ∑𝑖<𝑗 𝑋𝑖:𝑗 𝜃𝑖:𝑗. (8). μ 為截距項，p 為自變數個數(不包含交互項)，i 表示為自變數矩陣第 i 行自變數，而𝑋𝑖:𝑗 表示為第 i 行自變數及第 j 行自變數的交互項，θ 為係數。模型計算平方誤差的損失函數如下： 2. 1. 𝐿(𝑌; 𝜇, 𝜃) = 2 ‖𝑌 − 𝜇 ∗ 1 − ∑𝑝𝑖=1 𝑋𝑖 𝜃𝑖 − ∑𝑖<𝑗 𝑋𝑖:𝑗 𝜃𝑖:𝑗 ‖2. (9). 10. DOI:10.6814/NCCU202001103.

(17) || ||𝑝 以 w 為向量(a, b, c)舉例解釋，|| ||加在向量外層使其轉為長度的概念，下標的 p 為‖𝑤‖𝑝 = (|𝑎|𝑝 + |𝑏|𝑝 + |𝑐|𝑝 )的開 p 次方根，‖𝑤‖2 代表此向量的歐基里德長度，為 |𝑎|2 + |𝑏|2 + |𝑐|2 的開平方，而‖𝑤‖22 為|𝑎|2 + |𝑏|2 + |𝑐|2 的開平方的平方。 Hierarchical group-lasso regularization 演算法損失函數最小化的最佳化問題根基於 Group-lasso 之上，後者為： 2. 1. 𝑚𝑖𝑛𝜇,𝛽 2 ‖𝑌 − 𝜇 ∗ 1 − ∑𝐺𝑔=1 𝑋𝑔 𝛽𝑔 ‖ + 𝜆 ∑𝐺𝑔=1 𝛾𝑔 ‖𝛽𝑔 ‖ 2. (10). 2. 假設有 G 群變數，每群的自變數矩陣表示為𝑋𝑔，𝛽𝑔 則為𝑋𝑔 的係數矩陣，λ 及𝛾𝑔 皆為懲罰參數，前者控制正規化強度，後者使不同群的自變數可有不同程度的正規化程度，. 政治大. 若使同一自變數可同時存在於數群中則為重疊的情況，可幫助 Hierarchical group-lasso regularization 達到強階層的目的。. 立. ‧ 國. 學. 具體做法如下，假設有一資料包含類別自變數𝐹1 、𝐹2 ，各有𝐿1 、𝐿2 種類別，樣本自變數分別以矩陣𝑋1、𝑋2表示，則問題(10)可改寫為：. ‧. 𝛼̃1 2 1 𝑚𝑖𝑛𝜇,𝛼,𝛼̃ ‖𝑌 − 𝜇 ∗ 1 − 𝑋1 ∗ 𝛼1 − 𝑋2 ∗ 𝛼2 − [𝑋1 𝑋2 𝑋1:2 ] [ 𝛼̃2 ]‖ + 𝜆(‖𝛼1 ‖2 + ‖𝛼2 ‖2 + 2 𝛼1:2 2. sit. y. Nat. al. n. 𝐿1 𝐿2 𝑗 𝐿1 𝐿2 𝑗 s.t. ∑𝑖=1 𝛼1𝑖 = 0，∑𝑗=1 𝛼2 = 0，∑𝑖=1 𝛼̃1𝑖 = 0，∑𝑗=1 𝛼̃2 = 0 𝐿. 𝑖𝑗. Ch. e n𝑖𝑗g c h i. 𝐿. 1 2 固定 j 時∑𝑖=1 𝛼1:2 = 0，固定 i 時∑𝑗=1 𝛼1:2 = 0。. er. io. √𝐿2 ‖𝛼̃1 ‖22 + 𝐿1 ‖𝛼̃2 ‖22 + ‖𝛼1:2 ‖22 ). i Un. v. (11a) (11b) (11c). 由函式(11)可以發現𝑋𝑖，𝑖 = 1, 2，各有𝛼𝑖 及𝛼̃𝑖 兩個係數向量，兩者相加為其在模型中最終係數，而懲罰項中的√𝐿2 ‖𝛼̃1 ‖22 + 𝐿1 ‖𝛼̃2 ‖22 + ‖𝛼1:2 ‖22則是維持強階層的關鍵，因非為 𝛼̂̃1 = 𝛼̂̃2 = 𝛼̂1:2 = 0則前三者皆不為 0，解釋如下：當𝐿1 , 𝐿2 ≥2 及𝑎, 𝑏 ≥ 0，則√𝐿2 𝑎2 + 𝐿1 𝑏 2 > 𝑎 + 𝑏成立，表示無交互項時將所有係數 𝜕𝐿𝑜𝑠𝑠. 歸於𝛼1 、𝛼2 懲罰較小。當交互項可幫助降低損失函數，表示 𝜕𝛼. 1:2. 𝜕𝑆𝑆𝐸. 為平方誤差(SSE)及懲罰(Penalty)相加，也等同於(𝜕𝛼. 1:2. +. 𝜕𝑃𝑒𝑛𝑎𝑙𝑡𝑦 𝜕𝛼1:2. < 0，因損失函數(Loss) ) < 0，而降低損失函數. 11. DOI:10.6814/NCCU202001103.

(18) 𝜕𝑆𝑆𝐸. 代表誤差下降的幅度大於懲罰增加的幅度，可寫為 𝜕𝛼. 1:2. 𝛼1:2 √𝐿2 ‖𝛼 ̃ 1 ‖22 +𝐿1 ‖𝛼 ̃ 2 ‖22 +‖𝛼1:2 ‖22. < 0，. 𝜕𝑃𝑒𝑛𝑎𝑙𝑡𝑦 𝜕𝛼1:2. > 0。. 𝜕𝑃𝑒𝑛𝑎𝑙𝑡𝑦 𝜕𝛼1:2. =. ，所以𝛼̃1 , 𝛼̃2 ≥0 可使懲罰項數值下降，綜合以上敘述，當交互項. 不存在，𝛼̂̃1 = 𝛼̂̃2 = 𝛼̂1:2 = 0，亦或是交互項存在則皆為非 0，使函式(11)達成強階層。函式(11)中的常數𝐿1、𝐿2 使𝛼̃1、𝛼̃2、𝛼1:2 這三個係數矩陣行列相同，令𝑋1 ∗ 𝛼̃1 可改寫成𝑋1:2 [𝛼̃1 , … 𝛼̃1 ]𝑇，矩陣內𝛼̃1 重複𝐿2 次，𝐿2 ‖𝛼̃1 ‖22 則是等同‖𝛼̃1 , … 𝛼̃1 ‖22，𝛼̃1 重複𝐿2 次，𝑋2 ∗ 𝛼̃2 與 𝐿1 ||𝛼̃2 ||22 同理。利用 𝐿2 ‖α ̃1 ‖22 = ‖𝛼̃1 , … 𝛼̃1 ‖22 ，懲罰項內的 𝐿2 ‖𝛼̃1 ‖22 + 𝐿1 ‖𝛼̃2 ‖22 + ‖𝛼1:2 ‖22 = ‖𝑍1 𝛼̃1 ‖22 + ‖𝑍2 𝛼̃2 ‖22 + ‖𝛼1:2 ‖22 ，𝑍1 、𝑍2 矩陣表示如下： 𝑍1 可表示為𝐿1 𝐿2 ×𝐿1 的矩陣，此矩陣共有𝐿1 欄，1表示為一矩陣內值皆為 1： 1𝐿2 ×1 0 0. … 0 … 0 … 0 … 1𝐿2 ×1 ). 立. 政治大. ‧ 國. 0. 學. 1𝐿2 ×1 0 0 ( 0. 𝑍2 可表示為𝐿1 𝐿2 ×𝐿2 的矩陣，由上往下算共有𝐿1 個𝐼𝐿2 ×𝐿2 矩陣：. ‧ sit. y. Nat. 𝐼𝐿2 ×𝐿2 ( ⋮ ) 𝐼𝐿2 ×𝐿2. io. er. 由函式(11a)可得知，Hierarchical group-lasso regularization 演算法的模型會隨著懲罰. al. iv n C hengchi U 而對依變數有影響力的自變數係數也會下降，因此選擇適合的懲罰參數十分重要，通常 n. 參數不同而改變，懲罰參數越大，係數縮減的程度就越嚴重，代表挑選變數數量減少，. 會選取預測誤差最小的模型所對應的懲罰參數數值，但若只考慮模型預測訓練樣本的表現可能發生模型過於符合訓練樣本的情形，使模型在實際狀況預測表現較訓練樣本落差太大，因此會額外使用驗證資料集測試模型的預測表現，或交叉驗證找到預測誤差最小的模型。以下以實際案例，使函式(11a)的最佳化運算過程更加易懂。假設自變數皆為類別變數，分別為性別(𝐹1 )及血型(𝐹2 )，性別類別為男、女兩種，血型類別有 A、B、O 三種， L 為 X 的階層數，因此𝐿1 為 2，𝐿2 為 3，依變數為身高，樣本量為兩個樣本，樣本如下：矩陣列一為樣本一，列二為樣本二。 12. DOI:10.6814/NCCU202001103.

(19) 𝑋1性別男 [. 𝑋2血型 A. 女. 1 [ 0. 1 0 ] 0 1. B. 𝑋1:2性別及血型交互作用項 O. 男A 男B 男O 女A 女B 女O 1 [ 0. 0 0 ] 1 0. 0 0 0 0. 0 0 0 ] 0 1 0. 假設演算法中係數為： 2 −1 −1 = −2 1 [1]. 2 1 2 1 𝜇 = 30，𝛼1 = [ ]，𝛼2 = [−1]，𝛼̃1 = [ ]，𝛼̃2 = [−2]，𝛼1:2 −2 −1 −1 1 1 0 1 0 1 0 0 1 0 [ 1 ] = 1 ，𝑍 𝛼̃ = 0 0 2 2 1 −1 1 0 −1 1 0 1 −1 ] [ [−1] 0 0 1. 1 0 −2 0 1 1 [−2] = 1 0 1 0 1 −2 [1] 1]. 政治大. 立. 學. ‧ 國. 1 1 則𝑍1 𝛼̃1 = 1 0 0 [0. 將樣本矩陣及假設係數帶入函式(11a)後如下：. [. 1 0 0 0 0 0. Ch. y. 2 2 −1 2 0 −1 ‖ 2 ] + 𝜆 ∗ (‖[ ]‖ + ‖[−1]‖ + 0 −2 ‖ −2 2 −1 2 1 [1] 2. n. 1 −2 0 0 0 1 1 0 0 ] −[ 0 1 0 1 0 0 0 −2 [1]. 0 0 0 0 0 0. sit. io. al. 2 1 0 0 ] [−1] − [ 0 1 0 −1. er. Nat. 1 180 30 1 0 2 [ ]−[ ]−[ ][ ]−[ 2 0 165 30 0 1 −2 ‖. ‧. 1‖. 1 1 0 0 1 ] − 1 0 −1 −1 [−1]. e00 n 01g c h i. i Un. v. 1 2 1 2 2 2 1 −2 −1 ‖ 1 ‖ ‖ 1 ‖ ‖ −1 ‖ + + )。 ‖ −1 ‖ ‖ 1 ‖ ‖ −2 ‖ −1 −2 1 [ ] [ ] [ 1 2 1] 2 √ −1 2 綜上所述，Hierarchical group-lasso regularization 可挑選變數、處理自變數一階交互項與依變數的關係及維持強階層這三項優點使他非常適合處理高維度、筆數多的資料，模型內的係數也可提供資料內自變數對依變數的影響方向及大小，產出具解釋性的模型。. 13. DOI:10.6814/NCCU202001103.

(20) 第二節 Cluster-while-regression with tree hierarchy 演算法此章節將說明 Cluster-while-regression with tree hierarchy 演算法及發想過程，首先是發想過程，在第一章節所提到的隨機森林與梯度提升機這兩種演算法，因為集成樹演算法，在運算過程中皆有出現將樣本分群的動作，也就是樹狀結構的概念，而將樣本分群有多種方法，例如常見 k-means、階層式集群分析等，概念簡單易懂，利用相似度高低將樣本分群，但這類分群演算法的的目標皆為讓分群後群內差異最小化及群間差異最大化，與預測分析問題的目標預測準確度不一致，即使分群目標達成，也無法保證利用此分群結果預測的效果，而為使兩者一致，Baardman et al. (2017)提出 Cluster-while-estimate. 政治大到重複次數達到限制值或評估值達到設定值，此方法雖效果良好，但因演算法限制，處立的概念，將樣本隨機或利用 k-means 等其他分群方法分群後，重複分群及評估的動作直. ‧ 國. 學. 理高維度樣本需時甚久，且無法產出具解釋性的模型。. 而說到具解釋性的與分群相關的演算法其中最具代表性就是的分類迴歸樹演算法，. ‧. 為一種二元樹模型，在模型內每一個節點最多只有兩個分支，能分群並產生預測結果，. sit. y. Nat. 運作原理為在將節點內樣本分割為兩個子群集前，在每一個節點遍歷所有可能的分割條. io. al. er. 件，評估分割後子群集內樣本平均依變數與實際依變數值的誤差，選定誤差最小者為分. v. n. 割依據，重複此動作直到無法分割或達到停止條件，最終會得到一顆過於複雜的二元樹，修剪後得到最終模型。. Ch. engchi. i Un. 為增進樹狀模型的表現，Yang et al. (2017)提出迴歸樹演算法，同樣也是二元樹的概念，在每個節點利用多項式迴歸方程式預測分割後群內樣本依變數，以挑選可減少最多絕對誤差的分割變數，演算法步驟如下： 1.. 將所有訓練樣本放入樹狀模型樹根，並使用多項式迴歸分析，取得迴歸模型依變數預測值與樣本依變數間的平均絕對誤差(𝐸𝑟𝑟𝑜𝑟 𝑟𝑜𝑜𝑡 )。. 2.. 從樹根出發，現在節點的誤差(𝐸𝑟𝑟𝑜𝑟 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 )等於樹根誤差，𝐸𝑟𝑟𝑜𝑟 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 = 𝐸𝑟𝑟𝑜𝑟 𝑟𝑜𝑜𝑡 。. 3.. 使用最佳分段線性迴歸分析 (Optimal Piece-wise Linear Regression Analysis; 14. DOI:10.6814/NCCU202001103.

(21) OPLRA)模型遍歷所有自變數，此分析方法會找出單一自變數的最佳分割點以及分割後的兩個子群集的多項式迴歸模型，藉此取得每一自變數(m)為分割依據後兩個子群集的預測絕對誤差合的平均(𝐸𝑟𝑟𝑜𝑟𝑚𝑠𝑝𝑙𝑖𝑡 )。 4.. 確認可取得最小平均絕對誤差的分割依據自變數，則分割後子群集最小平均絕對誤差𝐸𝑟𝑟𝑜𝑟 𝑠𝑝𝑙𝑖𝑡 = 𝐸𝑟𝑟𝑜𝑟𝑚𝑠𝑝𝑙𝑖𝑡 。. 5.. 如果此一節點分割可將低一定程度的誤差，𝐸𝑟𝑟𝑜𝑟 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝐸𝑟𝑟𝑜𝑟 𝑠𝑝𝑙𝑖𝑡 > 𝛽 ∗ 𝐸𝑟𝑟𝑜𝑟 𝑟𝑜𝑜𝑡 ，𝛽(0,1)為自訂閥值，則實現分割，否則節點轉為子葉。. 6.. 重複步驟三到五直到模型內再無節點。. 舉例來說，假設有十個只有兩個類別自變數為性別(S)及運動與否(P)的訓練樣本，. 政治大. 依變數為身高，β 設為 0.5，將所有樣本放入樹根，𝐸𝑟𝑟𝑜𝑟 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 = 𝐸𝑟𝑟𝑜𝑟 𝑟𝑜𝑜𝑡 =10，兩個. 立. 自變數分別放入 OPLRA 後，𝐸𝑟𝑟𝑜𝑟𝑆𝑠𝑝𝑙𝑖𝑡 = 2，𝐸𝑟𝑟𝑜𝑟𝑃𝑠𝑝𝑙𝑖𝑡 = 3，則𝐸𝑟𝑟𝑜𝑟 𝑠𝑝𝑙𝑖𝑡 = 𝐸𝑟𝑟𝑜𝑟𝑆𝑠𝑝𝑙𝑖𝑡 =. ‧ 國. 學. 2，且𝐸𝑟𝑟𝑜𝑟 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 − 𝐸𝑟𝑟𝑜𝑟 𝑠𝑝𝑙𝑖𝑡 > 𝛽 ∗ 𝐸𝑟𝑟𝑜𝑟 𝑟𝑜𝑜𝑡 成立，因此樹根以性別為依據分割為兩個. ‧. 子群集，兩個子群集此時皆為節點，重複步驟三到五後確認是否繼續分割，如皆無法分割，則產生有兩個子葉的樹狀模型。. y. Nat. io. sit. 相較分類迴歸樹演算法在子葉使用單純的平均數預測，迴歸樹演算法利用在每一節. n. al. er. 點使用 OPLRA，子葉以多項式迴歸預測以提升樹的預測表現，但以上兩種演算法皆困. Ch. i Un. v. 於局部最佳化，在每一節點窮舉分割變數的分割方式並選擇當前最佳解對整體樹狀結構. engchi. 而言不一定是最佳解，全域最佳解可能為非於當前節點選擇最優解，但在下一節點選擇最優解，預測表現較連續節點選擇最優解更佳，為實現整個樹狀結構所有路徑的最佳解，本論文提出 Cluster-while-regression with tree hierarchy 演算法，將所有樹狀結構路徑納入考量，樹上所有節點的分割方式以最小化子葉的預測誤差及 L1 正規化懲罰合決定，以避開上述迴歸樹演算法遇到的瓶頸，達成全域最佳化。 Cluster-while-regression with tree hierarchy 演算法的損失函數最小化問題如下：變數與參數： D 樹的深度 L 子葉總數 15. DOI:10.6814/NCCU202001103.

(22) n 樣本數 p 樣本自變數數目 m 分割方式總數 l 子葉索引 2(𝑑−1) 第 d 層的節點數 2(𝐷−1) 子葉總數 dk 第 d 層第 k 個節點 𝑛𝑙 第 l 個子葉中樣本總數 𝑦𝑖𝑙 第 l 個子葉中第 i 個樣本目標值. 政治大. 𝜆𝑙 第 l 個子葉中 Lasso 迴歸式中的懲罰參數. 立. 𝑍𝑗𝑑𝑘 二元變數，第 d 層第 k 個節點第 j 個分割方式是否為分割依據標準. ‧ 國. 學. 𝑍𝑗𝑃𝑎𝑟𝑒𝑛𝑡 二元變數，樹根第 j 個分割方式是否為分割依據標準. ‧. 𝑛𝑚𝑖𝑛 節點及子葉中最少需存在的樣本數百分比 h 子葉中 Lasso 迴歸模型第 h 個自變數. y. Nat. al. n. 𝑉ℎ𝑙𝑖. Ch. 第 l 個子葉中第 i 個樣本中第 h 個自變數值 𝐿=2(𝐷−1). 𝑚𝑖𝑛𝑍,𝛽 ∑𝑙=1. 𝑛𝑙. ∑𝑖=1(𝑦𝑖𝑙 −. 2 𝑦̂𝑖𝑙 ). engchi. 𝐿=2(𝐷−1). + ∑𝑙=1. er. io. 𝛽ℎ𝑙 第 l 個子葉中 Lasso 迴歸模型中第 h 個自變數的係數. sit. 𝛽0𝑙 第 l 個子葉中 Lasso 迴歸模型中的截距項. i Un. v. (𝜆𝑙 ∗ ∑𝑝ℎ=1|𝛽ℎ𝑙 |). 𝑃𝑎𝑟𝑒𝑛𝑡 s.t. ∑𝑚 = 1 𝑍𝑗𝑃𝑎𝑟𝑒𝑛𝑡 ∈ [0,1] 𝑗=1 𝑍𝑗. (12a) (12b). 𝑑𝑘 𝑑𝑘 (𝑑−1) ∑𝑚 𝑗=1 𝑍𝑗 = 1 𝑍𝑗 ∈ [0,1] ∀𝑑 𝑖𝑛2, … , 𝐷 − 1 ∀𝑘 𝑖𝑛1, … , 2 (𝑑−1). (12c). 𝑑𝑘 2 (𝑍𝑗𝑃𝑎𝑟𝑒𝑛𝑡 + ∑𝐷−1 𝑑=2 ∑𝑘=1 𝑍𝑗 ) <= 1 ∀𝑗 𝑖𝑛1, …,. (12d). 𝑛𝑙 >= 𝑛𝑚𝑖𝑛 ∗ 𝑛 ∀𝑙 𝑖𝑛1, … , 𝐿. (12e). 𝑛 = ∑𝐿𝑙=1 𝑛𝑙 ∀𝑙 𝑖𝑛1, … , 𝐿. (12f). 𝑦̂𝑖𝑙 = 𝛽0𝑙 + ∑𝑝ℎ=1 𝛽ℎ𝑙 ∗ 𝑉ℎ𝑙𝑖. (12g). 目標式(12a)代表將 Lasso 迴歸正規化預測誤差最小化，在每個子葉 l 中每個樣本 i 16. DOI:10.6814/NCCU202001103.

(23) 𝑙. 2. 可觀察到目標變數為𝑦𝑖𝑙 及預測值𝑦̂𝑖𝑙 ，每個子葉 l 的預測誤差平方總和為∑𝑛𝑖=1(𝑦𝑖𝑙 − 𝑦̂𝑖𝑙 ) ，另外於每個子葉 l 中 Lasso 迴歸模型的懲罰參數𝜆𝑙，𝜆𝑙 > 0，乘上懲罰項𝛽 𝑙 的絕對值總和為𝜆𝑙 ∗ ∑𝑝ℎ=1|𝛽ℎ𝑙 |，兩者相加即為每個子葉 Lasso 迴歸正規化預測誤差。限制(12b)表示樹根在總數 m 個二元變數𝑍𝑗𝑃𝑎𝑟𝑒𝑛𝑡 中只有一個不為零，不為零的 𝑍𝑗𝑃𝑎𝑟𝑒𝑛𝑡 所代表的方割方式將樹根分為兩個子群集，因分割方式為樣本變數依值分群， m>>p。限制(12c)則表示樹結構中除子葉及樹根外的每個節點在總數 m 個二元變數𝑍𝑗𝑑𝑘 中只有一個被挑選為分割依據，綜合以上兩個限制式，共有𝑚 ∗ (2(𝐷−1) − 1)個二元變數 𝑍𝑗 需決定，而限制式(12d)確保總數為 m 的分割方式在整個除子葉外的樹結構中最多被. 政治大限制(12e)則是保證每個子葉皆不少於最少需存在的樣本數，限制(12f)防止樣本數不立. 使用一次。. ‧ 國. 學. 等於子葉樣本總數的情形，最後限制(12g)表示每個子葉 l 中每個樣本 i 的預測值等於. Lasso 迴歸模型預測結果，模型中係數𝛽ℎ𝑙 可能為零，表示第 l 個子葉中第 h 個自變數未. ‧. 對目標值有影響力而被剃除。. sit. y. Nat. 由 Cluster-while-regression with tree hierarchy 演算法最佳化問題的子葉及節點總數. io. er. 設定可看出其亦為二元樹演算法其中一種，且在指定樹狀結構深度 D 後，樹根及節點必. al. 會分割為兩個子群集，直到子群集所在深度為 D，轉為子葉，而每個節點所使用的分割. n. iv n C hengchi U 方式𝑍𝑗 是同時依據目標式(12a)決定，相較迴歸樹只考慮當前節點的最佳解，得以通盤考. 量整個樹模型損失函數的最小化，達到全域的最佳化，使預測誤差減少，並且保留分群方式及預測模型的可詮釋性。總而言之，Cluster-while-regression with tree hierarchy 演算法目標為解全域最佳化問題，因樣本變數中的連續變數每個就有極多的可分割點與類別變數合計有 m 個，共 𝑚 ∗ (2(𝐷−1) − 1)個二元變數，加上2(𝐷−1) 個 Lasso 迴歸模型中的係數，共有2(𝐷−1) ∗ (𝑝 + 1)個連續變數，以上兩種變數皆須於損失函數最佳化問題中被決定，使其成為一個龐大的混合整數規畫問題，實作過程會於後續詳細解說。. 17. DOI:10.6814/NCCU202001103.

(24) 第四章研究結果本節中將詳述 Cluster-while-regression with tree hierarchy、Hierarchical group-lasso regularization、Lasso 迴歸與集成樹演算法隨機森林及梯度提升機於連續及類別依變數資料集的實驗方式，與其於可於公開平台取得，可受公證的兩個連續依變數資料集，分別是 Shmueli et al. (2011)所使用的 Toyota Corolla 資料集和 De Cock (2011)提供的 Ames 房屋資料集，以及私有的二元依變數應付帳款違約與否資料集的預測表現並加以比較。. 第一節連續性依變數資料集. 政治大連續性自變數與依變數原則上依演算法特性於 Lasso 迴歸、Hierarchical group-lasso 立. 首先關於資料前處理的部分，為比較各自變數間對依變數的影響力大小及方向性，. ‧ 國. 學. regularization 及樹結構中包含數個 Lasso 迴歸的 Cluster-while-regression with tree. hierarchy 皆會依訓練資料集變數為基準標準化，依變數亦標準化是為加快演算法收斂速. ‧. 度，不受變數尺度影響的隨機森林及梯度提升機則否，並將資料集依 70%、30%分為訓. sit. y. Nat. 練及測試資料集，接著是各演算法的實驗實現流程，Cluster-while-regression with tree. io. er. hierarchy 演算法於實作時為將連續自變數納入分割依據考量並決定，若全部變數遍歷所. al. iv n C hengchi U 點簡化為連續變數第二十五百分位數、中位數、第七十五百分位數，與類別變數各類別 n. 有可能性，所需花費的計算時長相較計算結果不符比例原則，因此將連續變數可能分割. 皆為分割依據，並因整棵樹的變數切割點組合過多故使用基因演算法以演算法目標函式 (12a)迭代選擇，當整棵樹子葉數為四時，流程如下： 1.. 為選擇由基因演算法所選出的變數切割點組合，由訓練資料集再以 60%、40% 分為本演算法所用訓練資料集及驗證資料集。. 2.. 以訓練資料集的未標準化連續變數第二十五百分位數、中位數、第七十五百分位數和類別變數各類別為基準，檢視製作每筆資料是否滿足各變數分割點。. 3.. 建構將資料集分為數群的樹狀結構，樹的深度包含根部為三層，以訓練資料集分到各子葉中的資料訓練交叉驗證層數為 3 的 Lasso 迴歸模型，子葉中資料筆 18. DOI:10.6814/NCCU202001103.

(25) 數不可小於訓練資料集筆數固定百分比。 4.. 上述樹狀結構各節點分割點選擇則是透過基因演算法選出目標函數(12a)最小的組合，使用的函數為 R 語言的 gramEvol 套件中的 GeneticAlg.int，迭代數設為 50，其餘皆為預設值。. 5.. 選出以基因演算法擇出的組合目標函數值最小前三者，將驗證資料集放入各組合樹狀結構，以各子葉 Lasso 迴歸模型預測誤差平方(SSE)總合最小者為最終確定的樹狀結構。. 其中步驟四以樹結構有四個子葉為例，染色體長度因結構中共有三個節點，長度為三，染色體內的數字稱為密碼子，數字大小範圍為步驟二各變數分割點總數，故數字需. 政治大. 為整數，表示以某分割標準為依據分群，染色體示意圖如圖 3，當中的數字具有順序性，. 立. 由左至右為第一到第三個節點的分割依據代表數字，若子葉數為二時，則步驟四中改為. ‧ 國. 學. 遍歷所有可能切割點，不使用基因演算法挑選可能切割點組合，因只有單一切割點需決. ‧. 定，大幅度降低整棵樹切割點組合數，而若子葉數為三，則步驟三改為於分出四個子葉後，分別將左側及右側結點消除，即左側兩個子葉合併，子葉總數為三為一個可能，右. y. Nat. io. sit. 側兩個子葉合併為另一個可能，因此共有兩個樹狀結構，而步驟四改為兩個樹狀結構各. n. al. er. 計算出 Lasso 迴歸模型預測訓練資料集的預測誤差平方(SSE)與各群中 Lasso 迴歸模型係. Ch. i Un. v. 數絕對值合乘以懲罰參數(λ)相加總合，兩者中最小者為目標函數，所以即使樹狀結構中. engchi. 切割點排列組合依舊為三個節點，但以最終選出的最佳樹狀結構來看，只有兩個節點存在，子葉總數為三。. 圖 3 染色體示意圖而下表則為實作 Lasso 迴歸、Hierarchical group-lasso regularization、隨機森林及梯度提升機演算法所使用的 R 語言套件與函數、函數中交叉驗證層數以及有優化的超參數 19. DOI:10.6814/NCCU202001103.

(26) 名稱，優化方式為嘗試不同的超參數組合，其中隨機森林與梯度提升機所嘗試的超參數組合中皆不包含樹的數量(ntree/n.trees)，梯度提升機樹的數量設定為超參數組合於訓練資料集交叉驗證的平均預測誤差(MSE)時最小 MSE 出現的棵數，隨機森林則為交叉驗證誤差最小超參數組合以訓練資料集訓練後最小 MSE 出現時的棵數，未提及超參數為預設值。. 表 1 演算法於連續變數資料集實作細節表演算法種類. 套件. 函數. 交叉驗證層數. 優化的超參數名稱. Lasso 迴歸. glmnet. cv.glmnet. 10. s(lambda). Hierarchical. glinternet. cv.glinternet. 立. group-lasso. ‧ 國. randomForest randomForest 5. (使用同套件內的 nodesize. y. Nat. sit. rfcv 函數，step 設 mtry 為 0.9). n. al. gbm. Ch. gbm. 5. engchi. er. io. 梯度提升機. ntree. ‧. 隨機森林. lambda. 學. regularization. 政治 10 大. i Un. v. shrinkage interaction.depth n.minobsinnode n.trees. Toyota Corolla 資料集筆數共 1436 筆，為 2004 年夏末於荷蘭有交易紀錄的二手車數據。依變數為二手 Toyota Corolla 的售價，最小值 4350 元，最大值 32500 元，中位數為 9900 元，原資料集中共有 38 項自變數，本研究刪去對依變數未有影響的資料編號及引擎汽缸數(資料沒變化)，以及因訓練出的目標模型是依據車輛配備與特徵預測價格而 20. DOI:10.6814/NCCU202001103.

(27) 被剔除的車輛型號，剩餘的自變數有連續變數 10 項，包含以月為單位紀錄的車齡(Age)、累積里程數(KM)、重量(Weight)、季稅(Quarterly_Tax)、保險期數(Guarantee_Period)、製造年份(Mfg_Year)、馬力(HP)、車門數(Doors)、排氣量(CC)和車檔數(Gears)，類別變數為 25 項，包含燃油種類、車輛顏色、製造月份、車輛是否有防鎖死煞車系統等車輛配備。首先比較將資料分群再以 Lasso 迴歸模型預測的表現，瞭解將資料分別分為一到四群對預測測試資料集的平均預測誤差平方(RMSE)有何變化，將資料分為一群等同於以單一 Lasso 迴歸模型預測，而二到四群則是以 Cluster-while-regression with tree hierarchy 演算法樹狀結構中的子葉數表現，且嘗試演算法時步驟三中子葉中資料筆數不可小於訓. 政治大. 練資料集筆數百分之五及百分之十，比較結果如圖 4。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4 Toyota Corolla 資料集群數預測誤差比較圖. 從圖 4 可以得知分群數為由一群分為兩群時誤差大幅下降，而後隨著群數增加大致逐漸上升，但仍小於單一 Lasso 迴歸模型預測結果，而將表現最好的兩群 Cluster-whileregression with tree hierarchy 演算法預測誤差與 Lasso 迴歸、Hierarchical group-lasso regularization、隨機森林、梯度提升機相比較，其中 Lasso 迴歸可挑選的自變數在類別變數做獨熱編碼(One-Hot Encoding)後共 54 項，而 Hierarchical group-lasso regularization 在 21. DOI:10.6814/NCCU202001103.

(28) 包含自變數間一階交互項後為 595 項(將類別變數視為單項)，表格如下：. 表 2 演算法於 Toyota Corolla 資料集預測誤差比較表演算法種類. Lasso 迴歸. Hierarchical. Cluster-. (一群). group-lasso. while-. 隨機森林. 梯度提升機. regularization regression with tree hierarchy(兩群 5%). 平均預測誤. 1,342. 1,337. 立. 差平方. 1,021. ‧. ‧ 國. 學. (RMSE). 治政 1,066 大 1,090. 從表 2 可以得知本研究所提出的 Cluster-while-regression with tree hierarchy 演算法. y. Nat. io. sit. 預測誤差值則可與集成樹演算法隨機森林相媲美，只略遜於梯度提升機，足可見其演算. n. al. er. 法結合樹狀結構與 Lasso 迴歸的邏輯大有可為，而 Lasso 迴歸與 Hierarchical group-lasso. Ch. i Un. v. regularization 演算法的預測結果相差甚少且為五種演算法中表現較差者，代表此資料集. engchi. 內自變數間一階交互項對依變數並無相當影響，此點可藉由以下 Lasso 迴歸與 Hierarchical group-lasso regularization 演算法模型自變數表格相互印證，因兩者訓練資料集內連續變數皆已經過標準化，而類別變數則為獨熱編碼，兩者尺度不同而無法混為一談以係數判斷何者對依變數影響較重，所以將連續及類別變數分別討論。. 22. DOI:10.6814/NCCU202001103.

(29) 表 3 Toyota Corolla 資料集演算法模型變數比較表變數種類. Lasso 迴歸模型內變數係數 (依係數絕對值大小排列). 變數種類. Hierarchical group- 係數 lasso regularization 模型內變數(依係數絕對值大小排列). 連續. Mfg_Year. 0.499. Mfg_Year. 0.391. Weight. 0.141. 連續. Age. -0.198. KM. -0.125. KM. -0.095. Age. -0.120. Weight. 0.085. HP. 0.044. HP. 0.054. Automatic_airco. 0.554. Age*Mfg_Year. -0.079. Powered_Windows. 0.036. Age*Weight. -0.061. 類別. 立. 交互項. Mfg_Year*HP 政治大. 0.017. 從表 3 可以得知兩種模型所挑選出的連續變數相同且對依變數影響方向一致，係數. ‧ 國. 學. 最大者皆為製造年份，絕對值大小則各有不同，因此可以肯定當車輛製造年份、重量、. ‧. 馬力增加，則車輛價格越高，反之當車齡和累積里程數越高則車輛價格降低，符合一般. y. Nat. 認知，而在類別變數的部分，只有 Lasso 迴歸模型內有包含，Hierarchical group-lasso. er. io. sit. regularization 演算法模型並無，取而代之的是連續變數間的一階交互項，因尺度相同故可與連續變數係數相比較，可以注意到交互項對依變數影響方向與其組成變數方向相乘. n. al. 一樣。. Ch. engchi. i Un. v. 而在以上兩種演算法預測表現幾乎相同的情況下， Hierarchical group-lasso regularization 演算法模型內變數數量較 Lasso 迴歸更少，以自變數間的一階交互項取代其他自變數對依變數的影響力，代表在收集資料時可減少時間及人力上的成本，凸顯其優勢。接著是 Cluster-while-regression with tree hierarchy 演算法的模型及子葉中 Lasso 迴歸模型內的重要變數，此模型候選分割點共有 74 種可能，訓練後的模型若車輛製造年份小於等於 2001 年，則進入左側子葉 Lasso 迴歸模型預測，若大於 2001 年，則進入右側子葉 Lasso 迴歸模型中預測，而分群後群內預測值分布如圖 5，兩個子葉內 Lasso 迴歸重要變數如表 4。 23. DOI:10.6814/NCCU202001103.

(30) 圖 5 Toyota Corolla 資料集分群後預測值廂型圖. 表 4 Cluster-while-regression with tree hierarchy 演算法於 Toyota Corolla 資料集的模型子. 政治大變數右側子葉(製造年. 葉內重要變數. 立. 種類份大於 2001 年)Lasso 迴歸模型變數係數絕對值前三高者(訓練資料集筆數 74). ‧ 國. ‧. (測試資料集筆數. sit. 59). n. al. 0.284. Age. -0.186C h. KM. -0.142. i Weight Un. 連續 Age. engchi. er. io. 連續 Mfg_Year. y. Nat. 529) (測試資料集筆數 372). 係數. 學. 變數左側子葉(製造年係數種類份小於等於 2001 年)Lasso 迴歸模型變數係數絕對值前三高者 (訓練資料集筆數. v. Mfg_Year. 類別 Radio. -0.405 0.262 0.254. 類別 Automatic_airco. 0.452. 0.199. FuelType_Petrol. 0.091. Mistlamps. 0.157. Color_Black. 0.090. Metallic_Rim. 0.154. 表 4 因 Lasso 迴歸內變數眾多，左側模型內有 24 個變數，右側有 12 個變數，因此只在表內列出係數絕對值較大者，首先從兩側子葉中 Lasso 迴歸模型重要變數與 Lasso 迴歸和 Hierarchical group-lasso regularization 演算法相同者可以看出對依變數的影響方向是一致的，也表示三種演算法皆挑選出重複的自變數，所挑選出的變數確實對依變數有重大影響。而單以 Cluster-while-regression with tree hierarchy 演算法依據 Toyota Corolla 24. DOI:10.6814/NCCU202001103.

(31) 訓練資料集所訓練出的模型來看，可解釋為先將欲預測的資料分為兩群，以訓練資料集製造年份的第七十五百分位為分群依據，若車輛製造年份小於或等於 2001 年，則車輛有自動空調、燃油種類為汽油和製造年份越近對價格有正向影響，車輛年齡和累積里程數反之，而若車輛製造年份大於 2001 年，則車輛重量越重、有收音機和製造年份越近對價格有正向影響，車輛年齡和累積里程數反之。若將兩個子葉內的 Lasso 迴歸模型與以整個訓練資料集所訓練的 Lasso 迴歸模型相比較，可以發現前者的重要連續變數皆存在於後者，且左側的模型係數大小順序與後者相同，右側則較不一致，而以類別變數來看，左側模型係數最大者與後者相同，但有挑選到並沒有出現在後者模型的類別變數，右側模型也有相同情況。子葉內兩個 Lasso 迴. 政治大. 歸模型所挑選的變數、訓練出的係數不同，造成如圖 5 的效果，兩者所預測的車輛價值. 立. 左側模型結果明顯較右側低，分群後的 Lasso 迴歸模型與分群前模型差異顯示了分群的. ‧ 國. 學. 重要性。. ‧. Ames 房屋資料集筆數共 2930 筆，為 2006 年到 2010 年美國 Ames 地區的個人房產交易紀錄，本研究使用 R 語言中的 AmesHousing 套件其中的 make_ames 函數取得已經. y. Nat. io. sit. 資料特徵前處理的資料集，相較 De Cock (2011)所提供的版本，剃除對依變數未有影響. n. al. er. 的交易編號及識別碼以及缺失值過多的車庫建造年份自變數，並增加房產的大約經緯度，. Ch. i Un. v. 許多自變數中具有意義的缺失值亦被替換為實際數字或種類，例如地下室高度這項變數. engchi. 以沒有地下室這項類別替換缺失值。此資料集依變數為房產的交易價格，最小值 12,789 元，最大值 755,000 元，中位數為 160,000 元，資料集中共有 80 項自變數，經資料處理後包含連續變數 30 項，例如地上生活面積、一樓地板面積、二樓地板面積及建造年分等，類別變數 50 項，如售出月份、售出年分、地下室是否有只有馬桶的浴室和地上建物中是否有只有馬桶的浴室等。首先比較將資料分為一到四群再做 Lasso 迴歸對預測測試資料集的平均預測誤差平方(RMSE)有何變化，結果如圖 6。. 25. DOI:10.6814/NCCU202001103.

(32) 立. 政治大. ‧ 國. 學. 圖 6 Ames 資料集群數預測誤差比較圖. ‧ sit. y. Nat. 從圖 6 可以得知誤差在群數一分為二時下降，隨後模型子葉中資料筆數不可小於訓. io. er. 練資料集筆數百分之五者隨分群數上升而增加，百分之十者則上升後下降，而將表現最. al. 好的三群 Cluster-while-regression with tree hierarchy 演算法預測誤差與 Lasso 迴歸、. n. iv n C hengchi U Hierarchical group-lasso regularization、隨機森林、梯度提升機相比較，值得注意的是 Hierarchical group-lasso regularization 演算法以依變數標準化後放入模型訓練後預測結果十分不理想，因此改為將依變數以 e 為底取對數後訓練，其中 Lasso 迴歸可挑選的自變數在類別變數做獨熱編碼後共 320 項，而 Hierarchical group-lasso regularization 在包含自變數間一階交互項後為 3160 項(將類別變數視為單項)，表格如下：. 26. DOI:10.6814/NCCU202001103.

(33) 表 5 演算法於 Ames 房屋資料集預測誤差比較表演算法種類. Lasso 迴歸. Hierarchical. Cluster-. group-lasso. while-. 隨機森林. 梯度提升機. 24,857. 22,027. regularization regression with tree hierarchy(三群 5%) 平均預測誤. 35,057. 33,575. 差平方 (RMSE). 立. 25,211. 政治大. ‧ 國. 學. 從表 5 可看出 Cluster-while-regression with tree hierarchy 演算法預測誤差值與隨機. ‧. 森林相差甚少，代表其預測表現相較 Lasso 迴歸與 Hierarchical group-lasso regularization 演算法有明顯的提升，而後兩者的預測結果差距小，且 Lasso 迴歸為五種演算法中表現. y. Nat. io. sit. 最差者，代表此資料集內自變數間一階交互項對依變數有影響，但不到非常顯著。. n. al. er. 下表為 Lasso 迴歸與 Hierarchical group-lasso regularization 演算法模型重要自變數表. Ch. i Un. v. 格，因兩者模型內變數眾多，取連續變數與類別變數係數絕對值前三高者列出，前者模. engchi. 型內共 17 項變數，後者包含連續變數 20 項、類別變數 22 項、連續變數間一階交互項 10 項、類別變數間一階交互項 19 項和連續與類別變數間一階交互項 10 項，其中 Hierarchical group-lasso regularization 演算法因尺度相同，表 6 中的連續變數部分包含連續變數間一階交互項，又類別變數部分因同一類別係數相加為零這一特性，也包含類別變數與連續變數間和類別變數間一階交互項。. 27. DOI:10.6814/NCCU202001103.

(34) 表 6 Ames 房屋資料集演算法模型重要變數比較表變數種類. Lasso 迴歸模型內變係數數(各類別變數係數絕對值前三高者). 變數種類. Hierarchical group- 係數 lasso regularization 模型內變數(各類別變數係數絕對值前三高者). 連續. Gr_Liv_Area. 0.292. Gr_Liv_Area. 0.150. Total_Bsmt_SF. 0.117. 連續. Total_Bsmt_SF. 0.082. Year_Built. 0.098. Year_Built. 0.077. Bldg_TypeOneFam *Garage_CondTypical. 0.015. 類別. Overall_QualVery_Exc 0.687 ellent Overall_QualExcellent Exter_QualTypical. 類別. Overall_QualBelow_Av -0.013 erage. 0.660. Overall_QualVery_Goo 政治d 大. -0.127. 立. 0.012. 學. ‧ 國. 從表 6 可以得知兩者模型內重要連續變數皆相同，雖係數絕對值大小不同，但其對依變數影響方向是一致的，因此可以肯定當地上生活面積、地下室面積、建造年分增加，. ‧. 則房屋價格越高，符合一般認知，而在類別變數的部分，兩者皆有包含房屋建材及裝潢. y. Nat. sit. 評價，雖變數內類型不同，但評價越高則係數越高的常識不變，兩者的不同之處在於重. n. al. er. io. 要變數內各包含了一個各自沒有的變數，Lasso 迴歸為房屋外觀建材常規，Hierarchical group-lasso regularization 則為一類別變數交互項。. Ch. engchi. i Un. v. 從以上係數可以看到 Lasso 迴歸模型內重要變數係數絕對值普遍較 Hierarchical group-lasso regularization 模型內重要變數高，推測是因為數眾多的交互項分攤了部分自變數對依變數的影響力。接著是 Cluster-while-regression with tree hierarchy 演算法的模型及子葉中 Lasso 迴歸模型內的重要變數，此模型候選分割點共有 380 種可能，訓練後的模型若房屋所在經度小於等於-93.66052，則進入左側子葉 Lasso 迴歸模型預測，若大於 -93.66052 則進入右側節點，後再依售出年度是否為 2008 年進入右一(否)和右二(是)子葉 Lasso 迴歸模型中預測，而分群後群內預測值分布如圖 7，三個子葉內 Lasso 迴歸重要變數如表 7。. 28. DOI:10.6814/NCCU202001103.

(35) 立. 政治大. 圖 7 Ames 房屋資料集分群後預測值廂型圖. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 29. DOI:10.6814/NCCU202001103.

(36) 表 7 Cluster-while-regression with tree hierarchy 演算法於 Ames 房屋資料集的模型子葉內重要變數右一子葉 Lasso 係數迴歸模型變數係數絕對值前三高者 (訓練資料集筆數. 係數. 713) (測試資料集筆數. 筆數 210). Gr_Liv_Area. 0.322. Gr_Liv_Area. 0.302. 0.113. Total_Bsmt_SF. 0.159. Total_Bsmt_SF. 0.182. 政治0.131大 Garage_Area. Year_Built. 0.082 -2.154. 立 Overall_QualVer. 0.357. io. Overall_QualV ery_Good. Nat. s. NeighborhoodGre en_Hills. Overall_QualExc ellent. 1.216. 1.153. n. al. Ch. 0.719. Overall_CondFair -0.549. ‧. MS_SubClassT wo_and_Half_ 0.399 Story_All_Age. y_Excellent. Overall_QualVer y_Excellent. 1.531. 0.136. 學. 類 Overall_QualV 別 ery_Excellent. 0.275. y. Year_Remod_ Add. 133). 536). ‧ 國. 連 Gr_Liv_Area 續 Garage_Area. 右二子葉 Lasso 係數迴歸模型變數係數絕對值前三高者(訓練資料集筆數 209) (測試資料集筆數. engchi. Overall_QualExc ellent. sit. 左側子葉 Lasso 迴歸模型變數係數絕對值前三高者 (訓練資料集筆數 308) (測試資料集. 0.485. er. 變數種類. i Un. v. 表 7 因 Lasso 迴歸內變數眾多，左側模型內有 29 個變數，右一有 85 個變數，右二有 73 個變數，因此只在表內列出係數絕對值較大者。以 Cluster-while-regression with tree hierarchy 演算法依據 Ames 房屋訓練資料集所訓練出的模型來看，可解釋為先將欲預測的資料分為兩群，以房屋所在位置經度-93.66052 為分群依據，其亦為 Ames 房屋訓練資料集房屋所在位置經度第二十五百分位數，而房屋所在位置經度高於-93.66052 者再依房屋售出年份 2008 年分為兩群。首先可以看到右一和右二子葉中 Lasso 迴歸模型連續變數係數絕對值前三者與 Lasso 迴歸幾乎相同，類別變數也十分雷同，若將此模型與 Lasso 迴歸相比，右一和右二子葉內模型不同之處在於重要類別變數內房屋所在區域為 Green Hills 及房屋建材及 30. DOI:10.6814/NCCU202001103.

(37) 裝潢評價一般取代了房屋外觀建材常規這項變數的存在。左側子葉內的模型相較使用整個訓練資料集訓練的 Lasso 迴歸模型差異較大，先從連續變數看起，雖最重要變數相同，但後兩個變數為後者重要變數中未出現的變數，而以類別變數來看，在重要類別變數內房屋建材及裝潢評價雖類型有些微差距但依然存在，而住宅類型為 Two and Half Story All Ages 取代了房屋外觀建材常規的存在，以上變數與係數大小的不同也形成了三個模型預測範圍的差異。從圖 7 可以看到左側 Lasso 模型的預測範圍相較右側兩個子葉內模型上限低了許多，首先從三個子葉中的 Lasso 迴歸類別變數係數可以觀察到左側子葉的模型房屋建材及裝潢評價為非常好變數對依變數的影響方向與右側子葉的 Lasso 迴歸模型、整體 Lasso. 政治大. 迴歸模型(一群)與 Hierarchical group-lasso regularization 演算法模型內此變數影響方向相. 立. 反，推測是 Cluster-while-regression with tree hierarchy 演算法所使用的訓練與驗證資料集. ‧ 國. 學. 內包含房屋建材及裝潢評價為非常好，但因房屋出售時僅出售部分結構，故其價格較其. ‧. 他資料異常偏低的資料，且這些異常資料經度變數小於-99.66052，皆分到左側子葉，因此左側 Lasso 迴歸模型訓練時受異常資料影響使房屋建材及裝潢評價為非常好變數對依. y. Nat. io. sit. 變數為負向影響，且預測上限較低，而右二 Lasso 模型的預測範圍上限明顯較右一低則. n. al. er. 是因訓練資料集中售出於 2008 年的房屋價格處於當年頂端者顯然較其他年份低。. Ch. engchi. i Un. v. 第二節二元依變數資料集本節所使用的資料集為國內某半導體零件代理商客戶應付帳款紀錄，預測目標為客戶於三個月後是否有應付帳款違約的可能，首先關於資料前處理的部分，為比較各自變數間對依變數的影響力大小及方向性，連續性自變數皆會標準化，但自變數內的連續變數呈現偏態，故以 e 為底取對數後再標準化。於 Cluster-while-regression with tree hierarchy、 Hierarchical group-lasso regularization 及 Lasso 迴歸模型皆假設依變數為連續值1，隨機森. 1. 未違約時依變數設為-1，違約為 1。 31. DOI:10.6814/NCCU202001103.

(38) 林及梯度提升機則否2。且因此資料集資料具時序性，無法使用交叉驗證，因此將資料集分為訓練、驗證和測試資料集，資料筆數各為 9865、3945 和 3947，而為因應類別資料與時序性，各演算法的實驗實現流程也隨之改變。下表則為實作 Lasso 迴歸、Hierarchical group-lasso regularization、隨機森林及梯度提升機演算法所使用的 R 語言套件與函數與函數中有優化或設定的超參數名稱，樹的數量設定為超參數組合於驗證資料集預測誤差率最小時出現的棵數。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 2. Ch. engchi. i Un. v. 於模型內依變數為二元變數。 32. DOI:10.6814/NCCU202001103.

(39) 表 8 演算法於類別變數資料集實作細節表演算法種套件. 函數. 優化的超參數名優化超參數選擇依據. 類. 稱[中括號內為超參數設定值]. Lasso 迴歸. glmnet. glmnet. s(lambda). 驗證資料集於每個. [nlambda=500]. lambda 值 Lasso 模型的誤差值總和 (SSE) 最小時的 lambda 值。. Hierarchical glinternet. glinternet. group-lasso. 的誤差值總和 (SSE). ‧ 國. 最小時的 lambda 值。. randomFo. ntree. 驗證資料預測誤差率. rest. rest. nodesize. 即分類錯誤者除以總. mtry. 筆數最小的參數組. 機. y. [predict 函數 type 合。. n 梯度提升 gbm. sit. io. al. er. Nat. randomFo. ‧. 隨機森林. lambda 值 Lasso 模型. 學. on. 驗證資料集於每個. 治政 [nLambda=500] 大. 立. regularizati. Lambda. Ch. gbm. 設為 prob]. engchi. i Un. v. shrinkage. 驗證資料預測誤差即. interaction.depth. 羅吉斯回歸損失函數. n.minobsinnode. 最小的參數組合。. n.trees [distribution=’ber noulli’] [predict 函數 type 設為 response] 33. DOI:10.6814/NCCU202001103.

(40) 最後是 Cluster-while-regression with tree hierarchy 演算法的實作流程，包含四個子葉的樹狀結構建構步驟如下： 1.. 同上節步驟二。. 2.. 組織將資料集分為數群的樹狀結構，樹的深度包含根部為三層，以訓練資料集和驗證資料集分到各子葉中的資料訓練 Lasso 迴歸模型，模型細節如本節描寫，子葉中資料筆數不可小於訓練資料集筆數固定百分比，且若分至此子葉內的訓練資料依變數相同或依變數中某類數量小於此子葉內訓練資料筆數的百分之一，則此子葉不訓練 Lasso 迴歸模型，直接以訓練資料依變數中某類佔多數者為此子葉預測值，如某一子葉中訓練資料集依變數有 99.1%為-1，則此子葉預測值為-1。. 4.. 同上節步驟五。. 立. ‧ 國. 同上節步驟四。. 學. 3.. 政治大. ‧. 不同子葉數的樹狀模型處理如上節所述，子葉中模型預測值大於或等於 0 時視為違規，小於 0 時視為未違規。. y. Nat. io. sit. 應付帳款資料集筆數共 17757 筆，依變數為下三期是否有 91 天以上的應收帳款，. n. al. er. 為二元變數，如為 1 則為違約，資料集中共有 973 項自變數，其中包含連續變數 19 項，. Ch. i Un. v. 例如銷售總額、應收帳款總金額和未到期應收帳款金額等，類別變數共有 954 項，其中. engchi. 有 943 項是此筆紀錄是否屬於某一客戶的二元變數，以及記錄月分和資料收集時某一變數是否補零等。首先將資料以單一 Lasso 迴歸模型(一群)與以 Cluster-while-regression with tree hierarchy 演算法將資料分為二到四群預測，並將後者分割依據中移除資料收集時某一變數是否補零及是否為客戶第一筆紀錄等對後續新收集的資料較無影響的變數以及資料筆數不足百分之五的客戶歸屬相關變數，比較四者的預測測試資料集的混合矩陣表現，比較結果如表 9。. 34. DOI:10.6814/NCCU202001103.