使用彈性網於迴歸樣條的節點選取 - 政大學術集成
35
0
0
全文
(2) 摘要 樣條函數是一種用來近似實際函數的方法之一,若我們想使用樣條函數來近 似實際的函數時,選擇適當的節點位置會有較好的配適結果。本篇研究模擬在不 同的函數曲線以及參數設置下,藉由設置大量的等距節點下,使用彈性網、 LASSO、UNIF 法,藉由此三種變數選取的方法選取節點,進一步比較對應的樣 條函數的估計效果,最終探討三種篩選節點的方法之適用情況。經由模擬,我們. 政 治 大. 發現彈性網的配適結果在實際函數為較平滑曲線時,效果相對三者中是較好的,. 立. 而在實際函數為較大變化曲線時,UNIF 的配適結果是三種方法中較好的。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 關鍵詞:樣條函數、彈性網、節點選取. I. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(3) ABSTRACT. Spline functions are often used to approximate smooth functions. In nonparametric regression, if we use a spline function to approximate the regression function, selecting appropriate knots for the spline function will yield better fitting results. In this study, I consider three methods for knot selection: elastic net, LASSO and the UNIF method in [5]. Simulation experiments have been carried out to compare the performance of the three methods. From the simulation results, we have found that. 政 治 大. when the true regression function is smooth, knot selection base on elastic net gives. 立. better results. When the true regression function has large variation, knot selection base. ‧ 國. 學. on the UNIF method gives better results.. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Keywords: Spline function, Elastic net, Knot selection. II. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(4) 目錄 摘要................................................................................................................................ I ABSTRACT ................................................................................................................. II 圖目錄..........................................................................................................................IV 表附錄........................................................................................................................... V 第一章. 緒論 ............................................................................................................... 1. 第二章. 文獻回顧 ....................................................................................................... 3. 2.1. 樣條函數相關之文獻回顧 .......................................................................... 3. 政 治 大 elastic net 相關之文獻回顧......................................................................... 6 立. 2.2 LASSO 相關之文獻回顧 ............................................................................ 3 2.3. ‧ 國. 3.1. 學. 第三章 研究過程 ......................................................................................................... 7 建立 Splines 迴歸模型以及「節點與變數關係」 .................................... 7. ‧. 3.2 基於 LASSO、彈性網之節點選取 .............................................................. 8 模擬實驗及結果 ......................................................................................... 12. 4.1. 模擬實驗步驟與參數設置 ........................................................................ 12. al. er. io. sit. y. Nat. 第四章. v. n. 4.2 改善 LASSO、彈性網挑選重要節點產生之問題 .................................... 14. Ch. engchi. i n U. 4.3. 實驗結果 .................................................................................................... 15. 第五章. 結論與建議 ................................................................................................. 20. 附錄.............................................................................................................................. 21 附錄一 模擬之實際函數圖形 ........................................................................... 21 附錄二 模擬實驗於各種參數設置下之配適評估指標 ................................... 25 參考文獻...................................................................................................................... 29. III. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(5) 圖目錄 1. 圖一:節點設置於 x=0.18、0.22、0.8、0.9……………………………………1 2. 圖二:節點設置於 x=0.3、0.4、0.5、0.6………………………………………1 3. 圖三:使用彈性網篩選重要節點的現象………………………………………14 4. 圖四:原始數據(鏡射前數據)…………………………………………….........15 5. 圖五:鏡射後數據………………………………………………………………15. 政 治 大. 6. 圖六.額外增加節點前…………………………………………………………18. 立. 7. 圖七.額外增加節點後…………………………………………………………18. ‧ 國. 學. 8. 圖八:在模擬實驗 Step1~Step4 下,使用彈性網篩選節點的結果………….18. ‧. 9. 圖九:在模擬實驗 Step1~Step4 下,使用 LASSO 篩選節點的結果………..18. Nat. io. sit. y. 10.圖十:接續圖八下,操作 Step5 之模擬結果…………………………......…..19. n. al. er. 11.圖十一:接續圖九下,操作 Step5 之模擬結果…………………………..…..19. Ch. engchi. i n U. v. IV. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(6) 表附錄 1. 表一:模擬實驗設置在平滑曲線、樣本數 128、σ= 0.1 之配適評估指標………...25 2. 表二:模擬實驗設置在平滑曲線、樣本數 128、σ= 0.3 之配適評估指標………...25 3. 表三:模擬實驗設置在平滑曲線、樣本數 256、σ= 0.1 之配適評估指標……...…26 4. 表四:模擬實驗設置在平滑曲線、樣本數 256、σ= 0.3 之配適評估指標………...26 5. 表五:模擬實驗設置在大變化曲線、樣本數 128、σ= 0.1 之配適評估指標……...27. 政 治 大. 6. 表六:模擬實驗設置在大變化曲線、樣本數 128、σ= 0.3 之配適評估指標……...27. 立. 7. 表七:模擬實驗設置在大變化曲線、樣本數 256、σ= 0.1 之配適評估指標……...28. ‧ 國. 學. 8. 表八:模擬實驗設置在大變化曲線、樣本數 256、σ= 0.3 之配適評估指標…..….28. ‧. 9. 表九:探討誤差大小是否影響估計效果…………………………………………16. Nat. io. sit. y. 10.表十:探討樣本數是否影響估計效果……………………………..……………..17. n. al. er. 11.表十一:控制不同因素下之平均 ISE 最好的總次數………………..………...…17. Ch. engchi. i n U. v. V. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(7) 第一章. 緒論. 樣條函數為分段的多項式函數,藉由設置節點(knots)來作為區間的分段,樣 條函數是一種用來近似實際函數的方法之一,在許多領域上皆有應用,例如:數 值分析、統計分析、工業設計……等等。而運用在統計學的無母數迴歸方面,假 設一組資料中,解釋變數𝑥𝑖 與反應變數𝑦𝑖 之間存在函數關係如下: iid. 𝑦𝑖 = f (𝑥𝑖 ) +𝜀𝑖 , i =1,…,n ,其中𝜀𝑖 ~ N(0,𝜎 2 ).. 政 治 大. 若我們想透過樣條函數來近似實際的函數 f 時,需要決定節點的位置與個數,好. 立. 的節點設置具有有效近似實際函數的效果,如圖(一)所示,我們在 x=0.18、0.22、. ‧ 國. 學. 0.8、0.9 設置節點,其中藍色曲線為實際函數,紅色曲線為樣條函數,而若是節. ‧. 點設置不當則相較之下效果比較不彰,如圖(二)所示,x 在 0.3、0.4、0.5、0.6 設. Nat. io. sit. y. 置節點,其中藍色曲線為實際函數,綠色曲線為樣條函數,由於圖(二)的節點挑. er. 選皆在實際函數較為平緩處,因此無法掌握住函數變化的趨勢,導致樣條函數在. al. n. v i n Ch x 範圍介於(0 , 0.2 )與(0.7, 1)的近似效果極差。若是節點挑選不好,就會喪失樣條 engchi U 函數近似實際函數的優點,因此選擇節點的位置就顯得非常的重要。. 圖一:節點設置於 x=0.18、0.22、0.8、0.9. 圖二:節點設置於 x=0.3、0.4、0.5、0.6 1. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(8) 本篇研究的重點在於在設置大量的等距節點下,透過變數選取的方法來篩選 出重要的節點,而本篇研究模擬在不同的函數曲線以及參數設置下,使用 LASSO、 彈性網(elastic net)、UNIF 法,藉由此三種變數選取的方法選取節點,再比較對應 的樣條函數的估計效果,進一步探討三種篩選節點的方法之適用情況。 本篇研究分為五個章節,第一章為緒論,描述本篇研究的研究問題與目的。 第二章為文獻回顧,探討與本篇研究相關之文獻。第三章為研究方法,詳細敘述. 政 治 大. 本篇研究的研究方法。第四章為模擬過程,敘述本篇研究模擬實驗之步驟以及模. 立. 擬結果。第五章為結論與建議,針對第四章的模擬結果進行進一步的探討,整理. ‧ 國. 學. 出本篇研究之結論,以及給出一些相對應的建議和後續研究方向。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 2. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(9) 第二章. 文獻回顧. 2.1 樣條函數相關之文獻回顧 迴歸分析的目的在於找出解釋變數與反應變數之間的函數關係,估計迴歸函 數可以使用無母數迴歸以及有母數迴歸的方法,在有母數迴歸中,會假設迴歸函 數形式為已知,並透過有限多個參數去描述迴歸函數(如:二次多項式),而無母數 迴歸並不假設形式為已知。在無母數迴歸中,一種常見的做法是透過已知的函數. 政 治 大. 去近似實際函數,而樣條函數是一種常用的近似函數。樣條函數[1]為分段的多項. 立. 式函數,藉由設置節點來作為區間的分段,其中必須滿足以下條件:. ‧ 國. 學. 1. 分段的多項式函數的最高次方為 d. ‧. 2. 樣條函數必須為連續函數. Nat. io. sit. y. 3. 樣條函數必須達到 d – 1 次可微. er. 與多項式函數比較起來,在於使用樣條函數估計迴歸函數時,通常只需使用. al. n. v i n Ch 較少的參數就能達到和多項式函數同樣的精確度,避免模型過度配適的問題,這 engchi U 是樣條函數的優點。. 2.2 LASSO 相關之文獻回顧 迴歸分析的目的在於找出解釋變數與反應變數之間的函數關係。當可以使用 的解釋變數很多時,若使用全部的解釋變數時,容易有過度配適的問題,並且如 果其中選擇到不重要的解釋變數,則會降低模型的精確性,因此解釋變數的選擇 就顯得很重要。常用的變數選取的方法包括向前選取法、向後選取法、逐步選取 3. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(10) 法,此三種方法來篩選出具有統計顯著效果的解釋變數。近年來比較新的變數選 取方法包括 Robert Tibshirani 提出的 LASSO 以及 Hui Zou 與 Trevor Hastie 提出 的彈性網(elastic net)方法,以下將加以介紹。在介紹 LASSO 與彈性網之前,因 為其中皆牽涉到懲罰項的概念,而懲罰項的觀念在脊迴歸(ridge regression)中就有 出現,因此我們先介紹脊迴歸中懲罰項的想法。 在線性迴歸中常常因為變數之間存在共線性而導致係數解不穩定的問題,而. 政 治 大. Hoerl 和 Kennard(1970)[2]提出脊迴歸的概念來解決此問題。以下我們先介紹脊迴. 立. 歸:. ‧ 國. 學. 若有一組資料有 n 筆樣本,每個樣本包含 p 個解釋變數𝑥𝑖1 ,…, 𝑥𝑖𝑝,反應變數𝑦𝑖,. ‧. i=1,…,n,則利用此樣本建立迴歸模型形式為:. Nat. 𝑦𝑖 = 𝛽0+𝛽1𝑥𝑖1 + … + 𝛽𝑝 𝑥𝑖𝑝 + 𝜀𝑖 , i =1,…,n. io. sit. y. (2-1). er. 此迴歸模型可藉由最小平方法(least square estimation)來求解𝛽̂0, 𝛽̂1,…,𝛽̂𝑝 ,. al. n. v i n y ( x U ( ... arg minC h e( n i h gc. 其數學表示式為:. n. . i 1. i. 0. 1 i1. x ) )2 ). p ip. (2-2). 脊迴歸引入了限制式的條件,用來控制係數𝛽的範圍,目的為將係數進行壓縮, 改善變數有共線性時估計不穩定的問題。將式子(2-2)加入限制式的條件後可以得 到式子(2-3):. ridge arg min ( i 1[ yi ( 0 1 xi1 ... p xip )]2 ) n. . 2 限制在 j 1 j t ,給定任意的 t>0 p. (2-3). 4. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(11) 式子(2-3)能改寫為式子(2-4)之拉格朗日之形式:. ridge arg min ( i 1[ yi ( 0 1 xi1 ... p xip )]2 + j 1 j 2 ) n. p. . (2-4). 其中 j 1 j 2 稱之為脊迴歸的「懲罰項」 ,λ為調節參數,能藉由λ來控制係數 p. 壓縮的程度,而 ridge 即為脊迴歸的解。而 t 與 之間有對應關係,將 t 調小和將. 調大具有同樣係數壓縮的效果。 Robert Tibshirani (1996) [3]提出了 LASSO (Least Absolute Shrinkage and. 政 治 大. Selection Operator)的方法,此方法和脊迴歸同樣使用限制式壓縮係數,但是. 立. 學. ‧ 國. LASSO 和脊迴歸使用不同的限制條件。LASSO 同樣是為了控制係數的範圍,將 式子(2-2)加入限制式的條件,進而得到式子(2-5):. LASSO arg min ( i 1[ yi ( 0 1 xi1 ... p xip )]2 ). ‧. n. . 限制在 j 1| j | t ,給定任意的 t>0. io. n. al. Ch. LASSO arg min ( i 1[ yi ( 0 1 xi1 ... p xip )] n. . engchi. y er. 式子(2-5)能改寫為式子(2-6)之拉格朗日之形式:. (2-5). sit. Nat. p. 2. i n + U. v p. j 1. | j | ). (2-6). 其中 j 1| j | 稱之為 LASSO 的懲罰項,λ為調節參數,能藉由λ來控制係 p. 數壓縮的程度,而 LASSO 即為 LASSO 的解。 脊迴歸與 LASSO 皆能透過懲罰項來達到係數壓縮,但 LASSO 能將部分的 係數壓縮到 0,保留重要的變數,進一步達到變數選取的效果,而脊迴歸則不能 將係數壓縮到 0。但若是重要變數之間存在著高度相關,則 LASSO 傾向只取幾 個變數作為代表,其變數選取的結果極不穩定。 5. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(12) 2.3 elastic net 相關之文獻回顧 Hui Zou 與 Trevor Hastie (2004) [4] 提出了彈性網的方法,彈性網的概念結合了 脊迴歸以及 LASSO 的限制式,彈性網將式子(2-2)加入限制式的條件,用來控制 係數的範圍,進而得到式子(2-7).. elastic arg min ( i 1[ yi ( 0 1 xi1 ... p xip )]2 ) n. . 限制在 j 1| j | (1 ) j 1 j 2 t ,給定任意的 t >0 p. p. 政 治 大. (2-7). 式子(2-7)能改寫為式子(2-8)之拉格朗日之形式:. . . n i 1. 立. [ yi ( 0 1 xi1 ... p xip )]2 +[ j 1 | j | (1 ) j 1 j 2 ]}. ,其中 > 0 以及 0 1. p. p. 學. ‧ 國. elastic arg min{. (2-8). [ j 1| j | (1 ) j 1 j 2 ] 稱為彈性網的懲罰項,λ為調節參數,能藉由λ來 p. ‧. p. io. sit. y. Nat. 控制係數壓縮的程度,而 elastic 即為彈性網的解。參數𝛼介於 0~1 之間,此參數. er. 控制我們的懲罰項傾向於脊迴歸或是 LASSO 的權重,若是𝛼 = 0,則式子(2-8)會. al. n. v i n C=h1,則式子(2-8)會退化為 退化為脊迴歸的形式,且若是𝛼 LASSO 的形式。本篇 engchi U 研究我們設置𝛼 = 0.5,給予脊迴歸、LASSO 等量權重之懲罰項,同時保有脊迴 歸以及 LASSO 的優點。彈性網與 LASSO 同樣能透過部分變數壓縮到 0,而進一 步達到變數選取的效果,Hui Zou 與 Trevor Hastie[4]提到:彈性網藉由這樣的懲罰 項,能將高度相關的變數做同時選入或同時退出模型,因此能大大改善 LASSO 在變數存在高度相關時只挑選幾個作為代表的缺點。. 6. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(13) 第三章 研究過程 本章節我們於 3.1 節介紹 splines 迴歸模型的基本架構,以及說明如何藉由變 數選取的方法來挑選重要節點,3.2 節介紹我們本篇研究用來挑選重要節點的幾 種方法。為了觀察估計效果,我們也模擬了 Xuming He, Lixin Shen, Zuowei Shen[5] 文中的 UNIF 方法來挑選重要節點,作為本篇研究比較估計效果的對象。. 3.1 建立 Splines 迴歸模型以及「節點與變數關係」. 政 治 大. 假設一組資料中,解釋變數𝑥𝑖 與反應變數𝑦𝑖 之間存在函數關係如下 𝑦𝑖 = f (𝑥𝑖 ) +𝜀𝑖 , i =1,…,n. 立,其中𝜀. iid. 𝑖. ~ N(0,𝜎 2 )。. (3-1). ‧ 國. 學. 我們使用樣條函數來近似迴歸函數 f。樣條函數可以透過基底來組成。滿足最高 次方 d 且設置 𝑡1 , … , 𝑡𝑘. ‧. k 個節點的樣條函數基底為:. Nat. sit. n. al. er. 0 , 𝑖𝑓 𝑥 ≤ 𝑡𝑟 𝑑 (x − 𝑡𝑟 ) , 𝑖𝑓 𝑥 > 𝑡𝑟. io. 其中(x − 𝑡𝑟 )𝑑+ = {. Ch d. k. y. {1 , x, 𝑥 2 , …, 𝑥 𝑑 , (x − 𝑡1 )𝑑+ ,…, (x − 𝑡𝑘 )𝑑+ },. engchi. i n U. v. j d 因此當 f (𝑥𝑖 )用樣條函數 0 j xi j 3 ( xi t j ) 基底取代後,式子(3-1)可 j 1. j 1. 改寫為矩陣形式: 𝑦1 1 𝑦2 [⋮] = 1 ⋮ 𝑦𝑛 [1. 𝑥1 𝑥2 ⋮ 𝑥𝑛. 𝑥12 𝑥22 ⋮ 𝑥𝑛2. … 𝑥1𝑑 … 𝑥2𝑑 ⋮ ⋮ … 𝑥𝑛𝑑. (𝑥1 − 𝑡1 )𝑑+ (𝑥2 − 𝑡1 )𝑑+ ⋮ (𝑥𝑛 − 𝑡1 )𝑑+. 𝜀1 … (𝑥1 − 𝑡𝑘 )𝑑+ 𝛽0 … (𝑥2 − 𝑡𝑘 )𝑑+ [ 𝛽1 ] + [𝜀2 ](3-2) ⋮ ⋮ ⋮ ⋮ 𝜀𝑛 … (𝑥𝑛 − 𝑡𝑘 )𝑑+ ] 𝛽𝑘+𝑑. 因此最終透過最小平方法解出樣條函數基底的係數。 上述之基底又稱為 truncated power basis [1],我們透過此形式之樣條函數基底, 對於本篇研究要篩選出重要節點是比較容易的,原因是 truncated power basis 是 7. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(14) 由與節點無關的與節點有關的部分所組成,而與節點有關之部分可以透過一個節 點對應一個基底的方式來對應,因此可以透過篩選變數的方法來篩選節點。 另一種樣條函數之基底形式為 B-spline 基底,B-spline 是由 Schoenberg[6]所 提出,而 B-spline 基底的計算可使用 de Boor 提出的遞迴公式 ([7],第 130 頁)。 使用 B-spline 基底的優點在於比較容易透過改變基底的係數去調整函數的形狀, 本篇研究的模擬過程中使用 R 軟體的 package 「bs」來生成實際之函數圖形,其. 政 治 大. 中預設分段的多項式函數最高次方為 3 次,因為若是已經篩選出重要節點,則設. 立. 置最高次方 3 次就能掌握住函數的變化趨勢。節點的選擇上,設置的節點過多容. ‧ 國. 學. 易造成過度配適,而若節點設置的過少又會使得模型不夠近似函數 f,並且若是. ‧. 沒有篩選出重要節點,則會造成樣條函數無法掌握函數變化的趨勢,因此節點的. Nat. n. al. er. io. sit. y. 選擇就顯得非常重要了,下一節我們會提到節點的選取方法。. Ch 3.2 基於 LASSO、彈性網之節點選取 e. ngchi. i n U. v. 由 3.1 節我們使用樣條函數來近似迴歸函數 f .滿足最高次方為 3 次且設置 𝑡1 , … , 𝑡𝑘. k 個節點的樣條函數基底為:. {1 , x, 𝑥 2 , 𝑥 3 , (x − 𝑡1 )3+ ,…, (x − 𝑡𝑘 )3+ }。 如果直接使用 LASSO、彈性網來進行變數選取的話,解迴歸係數必須滿足式子 (3-3)、(3-4):. 8. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(15) LASSO 之係數解 LASSO :. LASSO arg min ( i 1[ yi ( 0 1 xi 2 xi 2 3 xi 3 4 ( xi t1 )3 ... k 3 ( xi tk )3 )]2 n. . + j 1 | j | ) , 0 k 3. (3-3). 彈性網之係數解 elastic :. elastic arg min{ i 1[ yi ( 0 1 xi 2 xi 2 3 xi 3 4 ( xi t1 )3 ... k 3 ( xi tk )3 )]2 n. . + [ j 1 | j | (1 ) j 1 j 2 ] }, 0 ,0 1 k 3. k 3. (3-4). 然而我們藉由 LASSO、彈性網壓縮係數是為了達到挑選節點的效果,而樣條函. 政 治 大. 數{x, 𝑥 2 , 𝑥 3 }這三個基底與節點無關,因此我們並不希望這三個基底係數被壓. 立. 縮,所以在 LASSO、彈性網對係數施予懲罰項時,必須不包含這三個基底。. ‧ 國. 學. 因此我們改用式子(3-5)、(3-6)的懲罰項:. ‧. LASSO 之係數解 LASSO :. LASSO arg min ( i 1[ yi ( 0 1 xi 2 xi 2 3 xi 3 4 ( xi t1 )3 ... k 3 ( xi tk )3 )]2 + j 4 | j | ) , 0. io. n. al. (3-5). er. k 3. 彈性網之係數解 elastic :. sit. y. Nat. n. . i n U. Ch. v. 3 3 2 n g2c h i 3 elastic arg min{ i 1[ yi ( 0 1 xe i 2 xi 3 xi 4 ( xi t1 ) ... k 3 ( xi tk ) )] n. . + [ j 4 | j | (1 ) j 4 j 2 ] }, 0 ,0 1 k 3. k 3. (3-6). 因為{x, 𝑥 2 , 𝑥 3 }這三個基底不受懲罰項的影響,這樣形式所求解出來的. LASSO 、 elastic 與最初討論的 LASSO、彈性網所求解的 LASSO 、 elastic 不太一 樣。我們在模擬過程中會使用 R 軟體的套件「glmnet」來求解 LASSO、彈性網 的 LASSO 、 elastic ,glmnet 套件其中一項參數「 penalty.factor」預設向量值為 (1,1,…,1),表示每個變數皆受懲罰項所影響,而如果想要某些變數不受懲罰項 9. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(16) 所影響,只需要在變數相對應的預設向量值更改為 0,因此我們可以設置向量 值為(0,0,0,1,1,…,1),使{x, 𝑥 2 , 𝑥 3 }這三個基底不受懲罰項的影響。 懲罰項中的λ為調節參數,它控制了係數收縮的程度,若λ越大,收縮程度也越 大,代表著我們所挑選的節點越少,反之若是λ越小,收縮程度也越小,代表著 我們所挑選的節點越多。套件 glmnet 會依據輸入的資料來決定一段合適的λ範 圍,我們藉此去蒐集不同的λ之下各個變數的係數,若是變數的係數收縮到 0,. 政 治 大. 則代表此變數對應的節點不是重要的節點。在不同的λ之下會得到不同的重要節. 立. 點,而對應到不同的模型。我們會使用一個修改後的 BIC(Bayesian Information. ‧ 國. 學. Criterion)準則來挑選模型。以下我們介紹原始的 BIC 準則與修改後的 BIC 準. ‧. 則。. Nat. io. sit. y. 原始的 BIC 準則由 Schwarz 於 1978 年提出,BIC 引入模型維度以及樣本數的懲. n. al. er. 罰項,藉由這樣的懲罰項來避免模型過度配適的問題,BIC 的評估方式為以下的 形式: BIC = n ln(. 𝑅𝑆𝑆 𝑛. Ch. ) + 模型維度*ln(n). engchi. i n U. v. (3-7). 其中 n 為樣本個數、RSS 為估計模型的殘差平方和。若是 BIC 越小則表示此模 型相較之下為比較合適的模型。而在 Xuming He, Lixin Shen, Zuowei Shen[5]於 2001 年發表的期刊中,文中所提到的 UNIF 方法來挑選重要節點時,所使用的是 以下修改後的 BIC 評估方式: BIC* = ln(𝑅𝑆𝑆) +. 模型維度∗ln(n) 2𝑛. (3-8) 10. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(17) 其中 n 為樣本個數、RSS 為估計模型的殘差平方和。 式子(3-8)BIC*與原始的 BIC 準則稍有不同,為了要公平比較 LASSO、彈性網與 UNIF 方法的估計結果,因此本篇研究皆採用式子(3-8)的 BIC*準則作為模型的挑 選準則。 由於 Hui Zou 與 Trevor Hastie[4]於文中提到”彈性網藉由這樣的懲罰項,能將高 度相關的變數做同時選入或同時退出模型”。對於使用彈性網來篩選重要節點時,. 政 治 大. 會有不重要的節點同樣被選入模型中的疑慮,因此在最後我們使用向後選取法進. 立. 一步做刪除不重要節點的動作,由於向後選取法中 p 值的計算與所估計的 ˆ 有. ‧ 國. 學. 關,我們使用 Shanggang Zhou 與 Xiaotong Shen[8]於文中使用估計的 ˆ 公式:. n 2. ‧. =median ((|y2i -y2i 1|)/(0.6745/ 2)), i=1,...,. (3-9). Nat. sit. n. al. er. io. 除不顯著的節點。. y. 為了公平起見,對於 LASSO、彈性網與 UNIF 法,我們皆做了向後選取法來刪. Ch. engchi. i n U. v. 11. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(18) 第四章. 模擬實驗及結果. 本節將會介紹本篇研究的模擬實驗以及模擬結果。4.1 節會介紹模擬資料生 成步驟以及參數設置。在使用彈性網以及 LASSO 挑選重要節點時,我們發現函 數圖形在平滑曲線或是大變化曲線時,挑選到的重要節點皆傾向於圖形右側,由 於左側圖形沒有挑選到重要節點,因此使用樣條函數估計實際函數時,左側的部 分無法靠節點來掌握圖形的變化,對於此問題我們在 4.2 節提出改善的方式。4.3. 政 治 大. 節會呈現我們本篇研究之模擬結果,並且針對比較特別的情況作探討與分析。. 立. 4.1 模擬實驗步驟與參數設置. ‧ 國. 學. 4.1.1 函數生成及樣本數據生成:. ‧. 樣本數據的生成根據式子(3-1),而迴歸函數則使用 spline 函數。我們先使用. Nat. io. sit. y. R 語言的套件 bs 來生成 B-spline 基底,再隨機生成係數以組成迴歸函數。我們. n. al. er. 想要生成兩類的迴歸函數圖形,一種是比較平滑的曲線,一種是變化比較大的曲 線,步驟如下所示:. Ch. engchi. i n U. v. 1.bs 內部節點:在 x∈(0,1)等距取 60 個節點進行隨機刪除,每個節點被刪除的機率 為 2/3。令 m 為剩下的節點個數。 2.bs 基底係數: 我們使用 m 個節點且最高次方為三次式之下,則 B-spline 的基 底數為 m+4。基底係數的生成方式根據想生成的曲線類型分為兩種,生成大變化 曲線時,每個基底係數皆由 Uniform(-3,3)亂數生成。生成平滑曲線時,隨機挑選 b 個基底賦予係數,係數由 Uniform(-3,3)亂數產生,未被挑選到的基底則係數為 12. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(19) 0。此處 b 為隨機產生,其分配為超幾何分配 Hyper(64, m+4 ,10). 超幾何分配 Hyper(64, m+4 ,10)定義如下:考慮從大小為 64 的母體中以取出不放回方式抽取 10 個樣本,而母體中包含成功類元素 m+4 個與失敗類元素 60-m 個,則樣本中 成功類元素的個數分配即為 Hyper(64, m+4 ,10). 生成之函數圖形可參閱附錄一。 當迴歸函數決定後,我們根據式子(3-1)來生成模擬資料,其中樣本數為 128、256, iid. 而樣本誤差𝜀𝑖 ~ N( 0 ,𝜎 2 ),其中模擬過程設置 σ =0.1、0.3. 我們將探討樣本數以. 政 治 大. 及樣本誤差對於挑選重要節點的方法是否有所影響。. 學. ‧ 國. 立. 4.1.2 使用 LASSO、彈性網篩選節點之過程:. y. sit. n. al. er. 決定 範圍: 在式子(3-5)、(3-6)中介紹使用 LASSO、彈性網時需要決定 ,我們預設 數量為 1000,套件會根據預設 數量算出一些 值以供選 擇。. io. . Nat. 置如下:. ‧. 我們使用 R 語言的套件 glmnet 來使用 LASSO、彈性網篩選節點,其參數設. . Ch. engchi. i n U. v. 懲罰項設置:在式子(3-5)、(3-6)中我們不希望{x, 𝑥 2 , 𝑥 3 }變數係數被壓 縮到 0,因此必須設置其變數之係數不受懲罰項影響。 設置: LASSO 篩選過程下設置 =1, 彈性網篩選過程下設置 =0.5。. 而節點的篩選過程如下: Step 1.在(0,1)中等距設置 60 個節點,作為篩選節點時之潛在節點。 Step 2.依據套件 glmnet 給出的 範圍,針對每個 值可以計算出其 Lasso 與彈性 網的係數解,將係數未被壓縮至 0 的變數,其對應之節點視為可能需要的節點。 Step 3.進行 4.2 節之方法來增加新的節點。 13. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(20) Step4.依據 BIC*的準則來決定最終的 . Step 5.由 Step 4 挑選之重要節點,其中還是有保留的不顯著的節點之疑慮,我們 最後搭配向後選取法逐一將 p-value 高於 0.05 的節點去除掉,直到所有的 節點皆顯著時停止,其中我們使用式子(3-9)修正的樣本標準差增加準確性。 在上述的 Step 3 原先是沒有的,但由於我們發現若少了此步驟,則 Lasso 與 彈性網所選到的節點皆傾向於選至右側居多,因此增加 Step 3 來改善此問題,在 4.2 節中會詳細介紹。. 立. 政 治 大. 4.2 改善 LASSO、彈性網挑選重要節點產生之問題. ‧ 國. 學. 當我們使用 LASSO、彈性網挑選重要節點時,進行 4.1 節中 Step1~Step2,. ‧. 發現一個特別的現象,我們所選到的節點皆傾向於選至右側居多,如圖三所示:. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖三:使用彈性網篩選重要節點的現象 由圖三所示,白點代表抽樣樣本,藍色曲線為函數實際曲線,綠色曲線為樣 條函數,紅色線段為最終挑選之節點位置,由於 LASSO、彈性網未能將圖形左 側之重要節點挑選出來,導致樣條函數估計實際函數之效果不彰,因此我們做了 以下的改善步驟: 14. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(21) Step1. 樣本數據使用 LASSO、彈性網方法挑選出重要節點。 Step2. 將樣本數據依據 x=0.5 位置做鏡射,即原先的(𝑥𝑖 , 𝑦𝑖 )對應到後來的(1-𝑥𝑖 , 𝑦𝑖 ), 再將鏡射後數據使用 LASSO、彈性網挑選出重要節點。原始數據與鏡射 後數據如圖四、圖五所示:. 立. 圖四:原始數據(鏡射前數據). 政 治 大. 圖五:鏡射後數據. ‧ 國. 學. Step 3.將 Step 2 鏡射後數據挑選之重要節點對應回鏡射前的節點位置。. ‧. Step 4.將 Step 1、Step3 挑選之重要節點取聯集,將此結果作為樣條函數近似實際. Nat. sit er. io. 4.3 實驗結果. y. 函數之重要節點。. al. n. v i n Ch 在三種篩選重要節點之方法中,為了評估各方法配適程度的好壞,我們使用 engchi U. ISE (integrated squared error) 作為評估估計結果好壞的指標作為評估估計結果好 𝑏. 壞的指標,ISE 的定義為∫𝑎 ( 𝑓̂(𝑥) − 𝑓(𝑥))2 𝑑𝑥,其中𝑓為實際迴歸函數,而𝑓̂為𝑓 的估計函數,本篇研究之積分上下限為 a=0 且 b=1,若是積分結果越小,則代表 估計效果越好。由於每次實驗所生成的資料不同,得到的 ISE 也會不同,因此在 各種情況下我們皆重複模擬實驗 100 次,將其 100 次的 ISE 取平均後的值作為最 終的評估指標。 15. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(22) 在可能影響樣條函數估計實際函數之因素中,我們針對改變樣本數(128、256) 以及抽樣誤差(σ =0.1、0.3)兩種參數來進行模擬實驗,在每種參數設置下,我們 模擬 20 個不同平滑曲線以及 20 個不同大變化曲線,最後將各情況下的平均 ISE 整理成表一至表八,其結果放置在附錄中。 為了探討誤差大小是否影響估計效果,我們擷取表一、表二的一部分作成表 九來做比較。由表九我們可以清楚看到平均 ISE 隨著σ增加而增加,代表誤差增. 政 治 大. 加時估計效果變得較差,而此現象同樣發生在其他的參數設置下。. 立. ‧. ‧ 國. 學. Nat. sit. y. 表九: 探討誤差大小是否影響估計效果. al. LASSO. 平滑曲線、樣本數 128、 σ= 0.3. UNIF. Ch. 平滑 曲線. er. 彈性網. n. 平滑 曲線. io. 平滑曲線、樣本數 128、 σ= 0.1. 彈性網. v ni. U e n g c h i 0.028926. LASSO. UNIF. 1.. 0.003586. 0.014961 0.004058 1.. 0.035331 0.033511. 2.. 0.004313. 0.002762 0.003036 2.. 0.034841 0.027932 0.033636. 3.. 0.00399. 0.009822 0.005889 3.. 0.031791 0.047896 0.045775. 4.. 0.00439. 0.010889 0.003749 4.. 0.032512. 5.. 0.002822. 0.002905 0.003313 5.. 0.024604 0.022774 0.029677. 0.03497. 0.03329. 16. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(23) 為了探討樣本數是否影響估計效果,我們擷取表二、表四的一部分作成表十 來做比較。普遍來說平均 ISE 隨著樣本數增加而減少,代表樣本數增加時,估計 效果變得較好,此現象同樣發生在其他參數設置下。 表十: 探討樣本數是否影響估計效果 平滑曲線、樣本數 128、 σ= 0.3 平滑 曲線. 彈性網. LASSO. 平滑曲線、樣本數 256、 σ= 0.3. UNIF. 平滑 曲線. 彈性網. LASSO. UNIF. 1.. 0.028926. 0.035331 0.033511 1.. 2.. 0.034841. 0.027932 0.033636 2.. 0.009038 0.012135. 3.. 0.031791. 0.047896. 0.013284 0.014373. 4.. 0.032512. 0.03497. 5.. 0.024604. 立. 0.011631 0.018752 0.012636. 0.010119 治 政 3. 0.013201 0.045775 大 0.03329 4. 0.013839. 0.022774 0.029677 5.. 0.01798 0.013891. 0.007198 0.006714 0.009545. ‧ 國. 學. 為了比較三種方法的估計效果,我們將表一至表八之結果整理成表十一,表. ‧. 十一為統計在各參數設置下,某個方法比另外兩個方法更好的次數。次數總和為. y. Nat. er. io. sit. 20 是因為平滑曲線與大變化曲線各有 20 種。. 表十一:控制不同因素下之平均 ISE 最好的總次數. n. al. v. 函數類型. 樣本數. 平滑曲線. 128. i LASSOn 𝜎 C 彈性網 hengchi U 0.1 12 1. 平滑曲線. 128. 0.3. 12. 4. 4. 平滑曲線. 256. 0.1. 10. 1. 9. 平滑曲線. 256. 0.3. 12. 3. 5. 大變化曲線. 128. 0.1. 1. 0. 19. 大變化曲線. 128. 0.3. 4. 0. 16. 大變化曲線. 256. 0.1. 1. 0. 19. 大變化曲線. 256. 0.3. 4. 0. 16. UNIF 7. 由表十一中可以看到彈性網在平滑曲線有較好的表現,而 UNIF 法在大變化 曲線有較好的表現。針對大變化曲線,我們去深入探討為何彈性網以及 LASSO 的. 17. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(24) 配適效果不佳,由表十一搭配對照表五至表八後,普遍來說 UNIF 法的評估指標 結果明顯優於彈性網與 LASSO,再經過深入探討後,可以看到在使用彈性網篩選 節點上,偶爾會出現應該篩選出節點,但是卻沒有被篩選出來的現象,如圖六、 圖七所示,若能在 x=0.2 附近增加節點的話其估計結果會更好,此情況同樣發生 在平滑曲線,但是發生之頻率相對較小很多。. 學. ‧ 國. 立. 政 治 大. 圖六.額外增加節點前. 圖七.額外增加節點後. ‧. 而使用 LASSO 法來篩選重要節點效果不彰,其可能原因為 LASSO 對於高度相. Nat. io. sit. y. 關之變數,會有挑選一個作為重要變數的性質,因此這三種方法下,LASSO 所. er. 挑選的節點數量相對較少,導致估計效果較不彰,這樣的問題在大變化曲線更加. al. n. v i n C h Step1~Step4U下,使用彈性網篩選節點的 明顯。如圖八與圖九,圖八為模擬實驗 engchi 結果,圖九為模擬實驗 Step1~Step4 下,使用 LASSO 篩選節點的結果。. 圖八:在模擬實驗 Step1~Step4 下, 使用彈性網篩選節點的結果. 圖九:在模擬實驗 Step1~Step4 下, 使用 LASSO 篩選節點的結果 18. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(25) 在圖八使用彈性網篩選節點下,共篩選出 30 個重要節點,在圖九使用 LASSO 篩 選節點下,共篩選出 7 個重要節點,相較於圖八,LASSO 方法選出的節點較為 稀疏,其可能原因為多數的節點其對應的變數相關性高(例如:節點在 x=0.2131 與 x=0.4098 時,所對應的變數的相關係數為 0.9861)。而圖十為接續圖八,操作模 擬實驗 Step5 後的模擬結果,而圖十一為接續圖九,操作模擬實驗 Step5 後的模 擬結果,因為在圖九中,LASSO 未在 x=0.4 至 0.6 中選出重要節點,因此做了. 政 治 大. Step5 後並沒太大差異,因此最後 LASSO 配適實際函數的結果相較之下並不理. 立. 想。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. 圖十:接續圖八下, 操作 Step5 之模擬結果. engchi. iv 圖十一:接續圖九下, n U. 操作 Step5 之模擬結果. 19. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(26) 第五章. 結論與建議. 藉由模擬實驗,我們針對 LASSO、彈性網、UNIF,三種挑選節點的方法進行 比較,可得到以下幾點結論: 1.使用樣條函數估計實際函數的平均 ISE 會隨著 σ 增加而增加,代表配適效果 隨著 σ 增加而變差。 2.由表十一的結果,可以看到彈性網的配適結果在實際函數為較平滑曲線時,普. 政 治 大. 遍上效果比 UNIF 的配適結果好,而相反的,在實際函數為較大變化曲線時,. 立. UNIF 的配適結果反而比彈性網要好。. ‧ 國. 學. 3.由於 LASSO 在挑選變數上具有”變數之間若存在高度相關性,則會選擇幾個變. ‧. 數為代表”的特性,因此普遍上 LASSO 的配適結果都不太好。. Nat. io. sit. y. 4.樣本數的增加有助於提升樣條函數配適實際函數的效果。. er. 最後我們提出一些研究建議,提供未來可深入探討之方向:. al. n. v i n 1.由於彈性網的懲罰項為 ridgeCregression、LASSO h e n g c h i U的懲罰項組合,其參數α代表 懲罰項傾向 ridge regression 或是 LASSO,可以深入研究參數α的不同對於影響 配適結果之間的關係。 2.本篇論文使用鏡射的方法來改善彈性網、LASSO 存在挑選不到左側節點的問 題,可以深入探討其他改善此問題的方法。. 20. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(27) 附錄 附錄一 模擬之實際函數圖形 平滑曲線 1. 2. 3. 4. 立. ‧ 國. 學. 6. ‧. 5. 政 治 大. n. al. er. io. sit. y. Nat. 7. Ch. 8. engchi. 9. i n U. v. 10. 21. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(28) 平滑曲線 11. 12. 13. 14. 15. 立. ‧ 國. 學. 18. ‧. 17. 政 16治 大. n. er. io. sit. y. Nat. al. 19. Ch. 20. engchi. i n U. v. 22. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(29) 大變化曲線 1. 2. 3. 4. 5. 立. ‧. ‧ 國. 學. 7. 政 6治 大. 8. n. er. io. sit. y. Nat. al. 9. Ch. e n g10c h i. i n U. v. 23. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(30) 大變化曲線 11. 12. 13. 14. 15. 立. ‧. ‧ 國. 學. 17. 政 16治 大. 18. n. er. io. sit. y. Nat. al. 19. Ch. e n g20c h i. i n U. v. 24. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(31) 附錄二 模擬實驗於各種參數設置下之配適評估指標 表一: 模擬實驗設置在平滑曲線、樣本數 128、 σ= 0.1 之配適評估指標。 平滑 曲線. 彈性網. LASSO. 平滑曲 線. UNIF. 彈性網. LASSO. UNIF. 1.. 0.003586 0.014961 0.004058 11.. 0.004631 0.006346. 2.. 0.004313 0.002762 0.003036 12.. 0.005913 0.007962 0.005978. 3.. 0.00399 0.009822 0.005889 13.. 0.004787 0.016422. 4.. 0.00439 0.010889 0.003749 14.. 0.005524 0.021212 0.005634. 5.. 0.002822 0.002905 0.003313 15.. 0.012276 0.042831 0.005899. 6.. 0.00377 0.036094 0.006774 16.. 0.014665 0.018538 0.007573. 7.. 0.033259 0.032459 0.004732 17.. 8.. 0.002939 0.006677 0.003616 18.. 9.. 0.004084 0.011957. 10.. 0.004468 0.020106 0.004529 20.. 立. 0.011961 0.025787. 0.003393 治 政 0.004072 19. 大0.008373. 0.00542 0.00632. 0.00859. 0.004878 0.003839 0.02028 0.004953. 0.003471. 0.0118 0.004681. ‧. ‧ 國. 學. 表二: 模擬實驗設置在平滑曲線、樣本數 128、 σ= 0.3 之配適評估指標。 平滑曲 線. UNIF. 彈性網. y. LASSO. LASSO. UNIF. io. sit. 彈性網. Nat. 平滑 曲線 1.. 0.028926 0.035331 0.033511 11.. 2.. 0.034841 0.027932 0.033636 12.. 3.. 0.031791 0.047896 0.045775 13.. 4.. 0.032512. 0.03329 14.. 0.040483 0.047165 0.044721. 5.. 0.024604 0.022774 0.029677 15.. 0.045113 0.067561 0.039761. 6.. 0.046714 0.065591 0.048757 16.. 0.032454 0.038033 0.051893. 0.05946. 0.03497. 0.06042. Ch. engchi. er. n. 7.. al. 0.035872 0.048952 0.048996 0.02473 iv n U 0.029177. 0.026385 0.042511 0.036575 0.042197. 0.04503 17.. 0.044338 0.053432 0.041718. 8.. 0.030697 0.029673 0.032803 18.. 0.026668 0.026433 0.037193. 9.. 0.04336 0.036165 0.036048 19.. 0.038266 0.046264 0.039496. 10.. 0.028605 0.058411 0.033842 20.. 0.028456 0.034139 0.046552. 25. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(32) 表三: 模擬實驗設置在平滑曲線、樣本數 256、 σ= 0.1 之配適評估指標。 平滑 曲線. 彈性網. LASSO. 平滑曲 線. UNIF. 彈性網. LASSO. UNIF. 1.. 0.001658 0.015501 0.001636 11.. 0.001448 0.002256 0.001586. 2.. 0.001247 0.001194 0.001542 12.. 0.001212 0.002566 0.001635. 3.. 0.001548 0.004915 0.001839 13.. 0.003036 0.006645. 4.. 0.002282 0.011227 0.001772 14.. 0.001717 0.009058 0.001876. 5.. 0.001049 0.001083 0.001221 15.. 0.010098. 6.. 0.001466 0.018012 0.001612 16.. 0.005766 0.005843 0.001753. 7.. 0.030328 0.022815 0.001942 17.. 0.002697 0.017356. 0.00178. 8.. 0.001308 0.005201 0.001662 18.. 0.001236 0.002148. 0.00161. 9.. 0.001619 0.009018 0.001761 19.. 0.006793. 0.01499 0.001752. 10.. 0.003167 0.017778 0.001809 20.. 0.001432 政 治 大. 0.00351 0.001518. 0.02896 0.001925. 學. ‧ 國. 立. 0.00179. 表四: 模擬實驗設置在平滑曲線、樣本數 256、 σ= 0.3 之配適評估指標。 彈性網. LASSO. 平滑曲 線. UNIF. 彈性網. LASSO. UNIF. ‧. 平滑 曲線. 0.011631 0.018752 0.012636 11.. 2.. 0.010119 0.009038 0.012135 12.. 0.01101 0.011767 0.012671. 3.. 0.013201 0.013284 0.014373 13.. 0.011779 0.015143 0.013775. 4.. 0.013839. 5.. 0.007198 0.006714 0.009545 15.. 6.. 0.012962. 7.. 0.030048. 8.. 0.010959 0.012272 0.013145 18.. 0.012923 0.012487 0.013194. 9.. 0.014517 0.018348 0.014057 19.. 0.018138 0.023108 0.013273. 10.. 0.012356 0.027617 0.013809 20.. 0.010596 0.011902 0.012958. n. al. 0.026123 C0.013189 h e n g 16. chi 0.033123 0.017073 17.. y. 0.011337 0.012621. sit. io. 0.01798 0.013891 14.. 0.011201. 0.011773 0.018677 0.013157. er. Nat. 1.. 0.021454 iv n U 0.013446. 0.035532. 0.01575. 0.013458 0.013326. 0.012284 0.016729 0.014247. 26. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(33) 表五: 模擬實驗設置在大變化曲線、樣本數 128、 σ= 0.1 之配適評估指標。 大變化 曲線. 彈性網. LASSO. UNIF. 大變化 曲線. 彈性網. LASSO. UNIF. 1.. 0.020999 0.045033. 0.02658 11.. 0.045387 0.216309 0.008751. 2.. 0.017701 0.112446 0.016622 12.. 0.034518 0.756342 0.033617. 3.. 0.040063 0.158982. 0.294568. 4.. 0.024786 0.130436 0.004844 14.. 0.040363 0.314067 0.005996. 5.. 0.023191 0.078876 0.014859 15.. 0.243078 0.449007 0.026217. 6.. 0.062147 0.118852 0.005218 16.. 0.024627 0.174497 0.011678. 7.. 0.125847 0.209016 0.059058 17.. 0.052457 0.230644 0.009001. 8.. 0.080955 0.111963 0.012999 18.. 0.05055 0.154312. 0.00668. 9.. 0.01931 0.141204 0.010946 19.. 0.053194 0.063882. 0.02927. 10.. 0.004632 0.019063 0.004497 20.. 0.106753 政 治 大. 0.24091 0.035304. 0.255804 0.022188. 學. ‧ 國. 立. 0.01142 13.. 表六: 模擬實驗設置在大變化曲線、樣本數 128、 σ= 0.3 之配適評估指標。 大變化 曲線. 0.054994 0.068232 0.059343 11.. 2.. 0.05687 0.130915 0.064955 12.. 3.. 0.142786 0.277711 0.053907 13.. 4.. 0.062374 0.152415 0.040881 14.. 5.. 0.076444 0.168177 0.075583 15.. 6.. 0.098408. 7.. 0.153169. Nat. 1.. io. n. al. 0.151895C h 0.061598 16. i engch 0.246254 0.109745 17.. 彈性網. LASSO. UNIF. 0.092186 0.260393 0.048829 0.12399. y. UNIF. 0.76371. 0.0845. sit. LASSO. 0.237371 0.297304 0.084043 0.066098 0.329119 0.042129. er. 彈性網. ‧. 大變化 曲線. 0.248125 iv n U 0.063232. 0.422684 0.066412 0.217853 0.050955. 0.102717 0.259382 0.053733. 8.. 0.09866 0.167937 0.068471 18.. 0.069151 0.222399 0.060282. 9.. 0.073022 0.248026 0.059294 19.. 0.062715 0.131898 0.080677. 10.. 0.040557 0.056638 0.046484 20.. 0.127107. 0.19647. 0.06913. 27. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(34) 表七: 模擬實驗設置在大變化曲線、樣本數 256、 σ= 0.1 之配適評估指標。 大變化 曲線. 彈性網. LASSO. UNIF. 大變化 曲線. 彈性網. LASSO. UNIF. 0.18411. 0.00257. 1.. 0.002374 0.021434 0.002278 11.. 0.043897. 2.. 0.002612 0.074555 0.002057 12.. 0.003272 0.130254 0.001912. 3.. 0.027356 0.111512 0.002932 13.. 0.105339 0.178812. 0.00209. 4.. 0.0135 0.109378 0.002065 14.. 0.012369 0.298211. 0.00239. 5.. 0.003122 0.037887 0.002337 15.. 0.096616 0.187742 0.002229. 6.. 0.130992 0.117366 0.002041 16.. 0.02088 0.171734 0.002435. 7.. 0.052754 0.139451 0.002583 17.. 0.031085. 8.. 0.020041 0.087422. 0.00286 18.. 0.037417 0.171291 0.002395. 9.. 0.004112 0.080367 0.002536 19.. 0.020651 0.035407 0.002529. 10.. 0.001975 0.008413 0.002081 20.. 0.250884 0.002393. 學. ‧ 國. 立. 0.111944 政 治 大. 0.2365 0.002511. 表八: 模擬實驗設置在大變化曲線、樣本數 256、 σ= 0.3 之配適評估指標。 UNIF. 大變化 曲線. 0.017403 0.030281 0.018928 11.. 2.. 0.01617 0.091246 0.019418 12.. Nat. 1.. LASSO. UNIF. 0.054482 0.187427 0.019619 0.026612 0.127813 0.019523. 0.076563 0.192834. 4.. 0.033474 0.121139 0.017948 14.. 5.. 0.021485 0.062538 0.019004 15.. 6.. 0.104528. 7.. 0.081167. 8.. 0.034839 0.112475 0.020057 18.. 0.058811 0.130805 0.019247. 9.. 0.015145. 0.037561 0.060585 0.020662. 10.. 0.015509 0.022003 0.016837 20.. io. 3.. n. al. 0.116494C h 0.017818 16. i engch 0.144499 0.021909 17. 0.10712 0.018374 19.. 0.087748. 0.17186 0.019944. 0.028749 0.272899 0.018718. er. 0.02171 13.. 彈性網. y. LASSO. sit. 彈性網. ‧. 大變化 曲線. 0.170629 iv n U 0.03582. 0.204063 0.020201 0.186012 0.019606. 0.049664 0.210141 0.020434. 0.071431 0.171261. 0.02082. 28. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(35) 參考文獻 [1] David Ruppert, M.P. Wand, R.J. Carroll , Semiparametric Regression, Cambridge , 62-72, (2003). [2] Arthur E. Hoerl and Robert W. Kennard, Ridge Regression: Biased Estimation for Nonorthogonal Problems, Technometrics, Vol. 12, 55-67, (1970). [3] Robert Tibshirani, Regression shrinkage and selection via the LASSO, Journal of the RoyalStatistical Society (Series B), 58, 267-288, (1996). [4] Hui Zou and Trevor Hastie, Regularization and variable selection via the elastic net, Journal of the RoyalStatistical Society (Series B), 67, 301-320, (2005).. 政 治 大 [5] Xuming He, Lixin Shen, Zuowei Shen, A data-adaptive knot selection scheme for 立 fitting splines, IEEE Signal Processing Letters, Vol.8, 5, 137-139, (2001).. ‧ 國. 學. ‧. [6] Larry L. Schumaker, Spline Functions:Basic Theory , third edition, Cambridge, (2007).. sit. y. Nat. [7] Carl de Boor, A practical guide to splines , Springer, Berlin, (2001).. n. al. er. io. [8]Shanggang Zhou and Xiaotong Shen, Adaptive Regression Splines and Accurate Knot Selection Schemes, Journal of the American Statistical Association, Vol. 96, 247-259, (2001).. Ch. engchi. i n U. v. 29. DOI:10.6814/THE.NCCU.STAT.012.2018.B03.
(36)
相關文件
(A) 重複次數編碼(RLE, run length encoding)使用記録符號出現的次數方式進行壓縮 (B) JPEG、MP3 或 MPEG 相關壓縮法採用無失真壓縮(lossless compression)方式
在工程科學及測量輪胎壓力所使用的壓力單位為每平方 英吋磅(pounds per square inch),簡稱 psi。.. 利用表 13.1 的數據,以P
集熱器總熱損係數定義為:集熱器中吸熱板 與周圍環境的平均傳熱係數。只要集熱器的吸熱
Keywords: Adaptive Lasso; Cross-validation; Curse of dimensionality; Multi-stage adaptive Lasso; Naive bootstrap; Oracle properties; Single-index; Pseudo least integrated
各國的課程綱要均強調運算的概念性了解。我國 2009 年課程綱要談到所謂
移動滑鼠游標到縮圖上, 移動滑鼠游標到縮圖上, ACDSee會自動顯示放大 ACDSee 會自動顯示放大 的縮圖
理解並欣賞幾何的性質可以透過坐標而轉化成數與式的 關係,而數與式的代數操作也可以透過坐標產生對應的
一定量之氣體在容器內,將其體積壓縮為一半,又使其絕對溫度增為 2 倍,則每