基於Penalized Spline的信賴帶之比較與改良 - 政大學術集成

全文

(1)國立政治大學統計學研究所碩士學位論文. 基於 Penalized Spline 的信賴帶之比較與改良 Comparison and Improvement for Confidence Bands Based 政治. 大. 立on Penalized Spline. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授: 黃子銘博士研究生: 游博安撰. 中華民國一零肆年七月.

(2) 誌謝. 時光飛逝，碩士生活匆匆的要結束了，這兩年的時光我很珍惜，因為一來大概是最後的求學生涯了，再來政大一直是自己很憧憬的地方，學校豐富的資源、清幽的環境及人文的氣息是在別的地方難以感受到的，一路上支持我的貴人很多，謝謝郭彥廷當初鼓勵我考研究所，且常常在人生道路上指引我方向與建議，再來我要感謝李宗翰，謝謝你在我考研究所期間不辭勞苦的編講義、幫我補習線性代數，這樣麻煩你真是不好意思，然後是賴品霖，碩一時跟你互動較少，後來一起. 政治大. 跟黃老師後才發現你是非常親切且健談的人，很高興認識你這個朋友，祝你出國. 立. 念書一切順利，當然還要感謝黃子銘老師，老師總是很有耐心的指導我，讓領悟. ‧ 國. 學. 力差的我可以順利完成論文，另外老師總是很信任交辦我們的事，這點我很感動，最後，要謝謝栽培我到大的家人，容忍我任性的選擇讀研究所，將來我會努力回. ‧. 報你們的，這裡沒有提及到的，感激之餘就不一一言謝了，我想論文的寫作是一. y. Nat. n. al. er. io. 謝。. sit. 時的，培養思考如何解決問題的能力才是最重要的，謝謝政大帶給我的回憶，謝. Ch. engchi. i n U. v.

(3) 摘要. 迴歸分析中，若變數間有非線性(nonlinear)的關係，此時我們可以用 B-spline 線性迴歸，一種無母數的方法，建立模型。Penalized spline 是 B-spline 方法的一種改良，其想法是增加一懲罰項，避免估計函數時出現過度配適的問題。本文中，考慮三種方法:(a) Marginal Mixed Model approach, (b) Conditional Mixed Model approach,. (c) 貝氏方法建立信賴帶，其中，我們對第一二種方法內的估計式作. 了一點調整，另外，懲罰項中的平滑參數也是我們考慮的問題。我們發現平滑參. 政治大. 數確實會影響信賴帶，所以我們使用 cross-validation 來選取平滑參數。在調整的. 立. cross-validation 下，Marginal Mixed Model 的信賴帶估計不平滑的函數效果較好，. ‧ 國. 學. Conditional Mixed Model 的信賴帶估計平滑函數的效果較好，貝氏的信賴帶估計函數效果較差。. ‧. n. er. io. sit. y. Nat. al. i n U. v. 關鍵字: B-spline、Penalized spline、Confidence band、Bayesian、Mixed model、無母數方法. Ch. engchi. i.

(4) Abstract. In regression analysis, we can use B-spline to estimate regression function nonparametrically when the regression function is nonlinear. Penalized splines have been proposed to improve the performance of B-splines by including a penalty term to prevent over-fitting. In this article, we compare confidence bands constructed by three estimation methods: (a) Marginal Mixed Model approach, (b) Conditional Mixed Model approach, and (c) Bayesian approach. We modify the first two methods slightly.. 政治大. In addition, the selection of smoothing parameter of penalization is considered. We. 立. found that the smoothing parameter affects confidence bands a lot, so we use. ‧ 國. 學. cross-validation to choose the smoothing parameter. Finally, based on the restricted cross-validation, Marginal Mixed Model performs better for less smooth regression. ‧. functions, Conditional Mixed Model performs better for smooth regression functions. y. Nat. n. er. io. al. sit. and Bayesian approach performs badly.. Ch. engchi. ii. i n U. v.

(5) 目錄. 第一章. 緒論 ........................................................................................................... 1. 1.1. Penalized Spline ......................................................................................... 2. 第二章. 三種建立信賴帶的方法 ........................................................................... 3. 2.1. 使用 Volume of Tube Formula 建立信賴帶 ............................................. 3. 2.2 第三章. 2.1.1. 基於 Marginal Mixed Model 的信賴帶 ........................................ 4. 2.1.2. 基於 Conditional Mixed Model 的信賴帶 .................................... 5. 政治大模擬與比較 ............................................................................................... 7 立貝氏信賴帶 ............................................................................................... 6. 固定平滑參數的信賴帶 ........................................................................... 7. 3.2. cross-validation 選取平滑參數的信賴帶比較 ....................................... 14. 3.3. 調整的 cross-validation 選取平滑參數的信賴帶比較 .......................... 16. 第四章. 結論與建議 ............................................................................................. 18. 4.1. 結論 ......................................................................................................... 18. 4.2. 建議 ......................................................................................................... 18. ‧. ‧ 國. 學. 3.1. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 參考文獻 ..................................................................................................................... 19. iii.

(6) 表目錄. 表 4.1: 固定平滑參數為e−9 的信賴帶之覆蓋機率 ..................................................... 8 表 4.2: 固定平滑參數為e−11的信賴帶之覆蓋機率 ................................................. 10 表 4.3: 固定平滑參數為e−13的信賴帶之覆蓋機率 ................................................. 12 表 4.4: cross-validation 選取平滑參數的信賴帶之覆蓋機率 ................................... 14 表 4.5: 調整的 cross-validation 選取平滑參數的信賴帶之覆蓋機率 ..................... 16. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. iv. i n U. v.

(7) 圖目錄. 圖 4.1: 固定平滑參數為e−9 時，函數 2 的信賴帶 ................................................... 9 圖 4.2: 固定平滑參數為e−9 時，函數 8 的信賴帶 ................................................... 9 圖 4.3: 固定平滑參數為e−11時，函數 2 的信賴帶 ............................................... 11 圖 4.4: 固定平滑參數為e−11時，函數 8 的信賴帶 ............................................... 11 圖 4.5: 固定平滑參數為e−13時，函數 2 的信賴帶 ............................................... 13 圖 4.6: 固定平滑參數為e−13時，函數 8 的信賴帶 ............................................... 13. 政治大. 圖 4.7: cross-validation 選取平滑參數時，函數 2 的信賴帶 ................................ 15. 立. 圖 4.8: cross-validation 選取平滑參數時，函數 8 的信賴帶 ................................ 15. ‧ 國. 學. 圖 4.9: 調整的 cross-validation 選取平滑參數時，函數 2 的信賴帶 ................... 17 圖 4.10: 調整的 cross-validation 選取平滑參數時，函數 8 的信賴帶 ................. 17. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. v. i n U. v.

(8) 第一章. 緒論. 本文考慮以模擬方式進行比較數種 Penalized spline 估計迴歸函數時建立信賴區間的方法。考慮以下模型: yi = f(xi ) + εi , i = 1,2, … , n. (1-1). 其中(xi , yi ): i = 1, … , n是我們的資料，εi 是誤差項，而迴歸函數 f 為一 q 次可微連續函數，使用 Penalized spline 的方法估計。. 政治大 Penalized spline 是一種基於 B-spline 的估計方法，其想法是對 B-spline 函數立. 加一懲罰項，避免過度配適的問題，近年來已經有許多人在這方面進行研究，例. ‧ 國. 學. 如 Hall and Opsomer (2005)、Li and Ruppert (2008)、Kauermann, Krivobokova, and. ‧. Fahrmeir (2009)、Claeskens, Krivobokova, and Opsomer (2009)。結果顯示，若選. y. Nat. 擇一個適當的 order，節點(knots)個數及平滑參數(smoothing parameter)，Penalized. er. io. sit. spline 能應用在估計未知函數上，也可以用於建立信賴帶。. al. n. v i n spline，已有許多文獻提出建立信賴帶的方法。Bickel Ch engchi U ̂. 針對 Penalized. and. Rosen blatt (1973)使用supa≤x≤b |f(x) − f(x)|的近似分配來建立信賴帶，Sun (1993) 使用 volume of tube. formula，它是利用P(supa≤x≤b |Z(x)| > c)的尾端機率(tail. probability)來建立信賴帶。本研究使用 Marginal Mixed Model、Conditional Mixed Model、貝氏方法三種方法結合 Penalized Spline，並對前兩種方法做一點修改，利用(1-1)生成隨機資料並進行模擬，觀察這五種信賴帶之覆蓋率表現如何。. 1.

(9) 1.1 Penalized Spline Penalized spline 近年已漸漸受到注意，因為它能夠被用來估計未知函數且較不會有過度配適的問題產生，其想法是在 B-spline 函數上加一懲罰項。我們可以從 Eilers and Marx (1996)知道，Penalized Spline Estimator 是求以下公式的解: b. mins(x)ϵS(p+1;τ) 0∑ni=1 *yi − s(xi )+ 2 + λ ∫a *s(q) (x)+2 dx 1. (1-2). 其中s(xi )是一個 order 為 p+1、節點數為 K 且節點向量為τ的 B-spline 函數，λ為平滑參數，q為微分次數，(xi , yi ): i = 1 … n為一組樣本資料。. 政治大. 若我們令一向量𝐏(x, τ) = *P1 (x, τ), … , PK+p+1 (x, τ)+是 B-spline 空間裡的一組. 立. 基底，因此s(x)可以被寫成𝐏(x, τ)θ，其中θ是一個長度為 K+p+1 的未知參數，. ‧ 國. 學. 所以我們可以把(1-2)視為一個解θ最小化的問題。另外，懲罰項的部分，也就是 b. b. (q) 2. 1 dx = 𝛉t 𝐃𝛉。經. ‧. λ ∫a *s(q) (x)+2 dx，我們可以令一個矩陣𝐃，使得∫a 0{𝐏(x, τ)𝛉}. io. y. sit. ̃ = 𝐏(𝐏 t 𝐏 + λ𝐃)−1 𝐏 t 𝐘 𝐟̃ = 𝐏𝛉. (1-3). er. Nat. 過一些運算，Penalized Spline Estimator 可以寫成這樣的形式:. t 其中𝐟̃ = *f̃(x1 ), … , ̃f(xn )+t ， 𝐏 = {𝐏(x1 , τ)t , … , 𝐏(xn , τ)t } 。. n. al. Ch. engchi. i n U. v. 最後，平滑參數的選取也很重要，因為平滑參數會影響信賴帶的覆蓋率，但是目前還沒有一個比較常用的方法來選取平滑參數，常用的的方法有 AIC(Akaike information criterion)、likehood 及 cross-validation。本研究會在第四章使用固定平滑參數和 cross-validation，以及在 cross-validation 上作一點調整，希望能找到一個比較好的選取方式。. 2.

(10) 第二章. 三種建立信賴帶的方法. 本文主要是為了比較 Marginal Mixed Model、Conditional Mixed Model 及貝氏方法三種方法所建立的信賴帶之效果好壞，藉由資料產生的信賴帶去估計已知函數，並觀察完全覆蓋住已知函數的機率來進行比較。在此我們先介紹如何用這三種方法建立信賴帶。. 2.1 使用 Volume of Tube Formula 建立信賴帶. 政治大本節說明使用 Volume of Tube Formula 來建立信賴帶的細節。在考慮(1-1) 立 ̃. 迴歸模型的時候，我們使用一不偏估計量 f(x) = 𝐥(x)t 𝐘 估計 f(x) ，其中. ‧ 國. 學. 𝐥(x) = (l1 (x), … , ln (x))t 和𝐘 = (y1 , … , yn )t，因為f̃(x)是不偏的，所以我們對f̃(x)作. 𝐥(x ). 𝐥(x ). y. f̃(x)− f(x) ~N(0,1) σϵ ‖𝐥(x)‖2 𝐥(x). sit. Nat. Z(x) =. ‧. 標準化得到:. 1. n. al. 2. er. io. 又cov*Z(x1 ), Z(x2 )+ = (‖𝐥(x1 )‖)t (‖𝐥(x2 )‖)，則令𝐯(x) = ‖𝐥(x)‖且定義ϵ = 𝐘 − 𝐟，則根. i n U. v. 據 Sun and Loader(1994)的推導，我們可以得到以下關係式:. Ch. engchi. |l(x)t ϵ| κ0 α = P ( max ≥ c) = exp(−c 2 /2) + 2*1 − Φ(c)+ xϵ,a,b- σϵ ‖l(x)‖ π c2. +o (exp .− 2 /) b. (2-1). d. 其中，κ0 = ∫a ‖dx 𝐯(x)‖ dx，κ0 是V = *𝐯(x): x ∈ ,a, b-+的長度。經由模擬的方式取得 critical value c 後，Volume of Tube Formula 的100(1 − α)% 信賴帶為: [f̃(x) − cσϵ ‖𝐥(x)‖, ̃f(x) + cσϵ ‖𝐥(x)‖]. (2-2). 若σϵ 是未知的話，我們利用 σ ̂ϵ 來估計σϵ ，並且修正 100(1-α)%信賴帶為以下式 3.

(11) 子: n−ς n−ς [f̃(x) − √ c′ cσ ̂ϵ ‖𝐥(x)‖, ̃f(x) + √ c′ cσ ̂ϵ ‖𝐥(x)‖]. (2-3). 其中ς是θ̂的長度，c ′ 是卡方分配的 critical value，以下說明調整的過程。利用 2 ̂ ∑n i=1(yi −f(xi )). ̂ϵ = √ σ. n−ς. ̂ 2ϵ (n−ς)σ. 來估計σϵ，且. σ2∈. ̂ 2ϵ (n−ς)σ. ~χ2n−ς，則假設P .. σ2∈. α. < c ′ / < 2成立且. α. P (f(x) ∈ ̃f(x) ± cσϵ ‖𝐥(x)‖) > 1 − 2也成立，所以可以得到: P(f(x) ∉ ̃f(x) ± cσϵ ‖𝐥(x)‖) ≤ P (f(x) ∉ ̃f(x) ± cσϵ ‖𝐥(x)‖, ̂ 2ϵ (n−ς)σ. 當. σ2∈. n−ς. > c ′ 時σϵ < √. c′. (n − ς)σ ̂2ϵ (n − ς)σ ̂2ϵ ′ > c ) + P( < c′) σ2∈ σ2∈. 政治大. n−ς. ̂ϵ ，因此(2-2)中的σϵ 可用√ σ. 立. ̂ϵ 代入。下一小節，我 σ. c′. 們考慮應用 Volume of Tube Formula 結合 Penalized spline 建立信賴帶。. ‧ 國. 學 ‧. 2.1.1 基於 Marginal Mixed Model 的信賴帶. y. Nat. 若f(x)可以寫成 the mixed model 的型式，也就是f(x) = 𝐏(x, τ)θ = 𝐗(x)𝛃 +. n. 又 cov(Zm (x1 ), Zm (x2 )) =. ̃m − 𝛉) 𝐏(x, τ)(𝛉. er. io. al. Zm (x) =. sit. 𝐙(x)𝐮，其中𝐮~N(0, σ2u 𝐈K̃ )，且f̃m (x) = 𝐏(x, τ)θm ，則作標準化得到: ~N(0,1). i n U. ̃m − 𝛉)+ √var*𝐏(x, τ)(𝛉. Ch. engchi. 𝐥 (x ) 𝐥 (x ) (‖𝐥m (x1 )‖)t (‖𝐥m (x2 )‖) m 1 m 2. v. ，其中 b. 𝐥 (x). 𝐥m (x) = (𝐏 t 𝐏 + σ2ϵ /. d. σ2u 𝐃)−1/2 𝐏(x, τ)t ，令 𝐯m (x) = ‖𝐥m (x)‖ ，且 κm,0 = ∫a ‖dx 𝐯m (x)‖ dx ， κm,0 是 m. Vm = *𝐯m (x): x ∈ ,a, b-+的長度，得到以下關係式: α = P𝐘,𝐮 =. κm,0 π. |𝐥m (x)t 𝛜m | |𝐥(x)t 𝛜 + m(x, 𝐮)| ( max ≥ cm ) = P𝐘,𝐮 ( max ≥ cm ) xϵ,a,b- σϵ ‖𝐥m (x)‖ xϵ,a,bσϵ ‖𝐥m (x)‖. 2 2 exp(−cm /2) + 2*1 − Φ(cm )+ + o*exp(−cm /2)+ 1. 其中ϵm = (𝐏 t 𝐏 + σ2ϵ /σ2u 𝐃)2 (θ̃m − θ)~N(0, σ2ϵ IK̃ )。 4. (2-4).

(12) 經由模擬的方式取得 critical value cm ，則 marginal mixed model 的信賴帶為: [f̃m (x) − cm σϵ ‖𝐥m (x)‖, ̃fm (x) + cm σϵ ‖𝐥m (x)‖]. (2-5). 若以σ ̂ϵ 估計σϵ ，則信賴帶為: n−ς n−ς [f̃m (x) − √ c′ cm σ ̂ϵ ‖𝐥m (x)‖, ̃fm (x) + √ c′ cm σ ̂ϵ ‖𝐥m (x)‖]. (2-6). 2.1.2 基於 Conditional Mixed Model 的信賴帶若 u 是固定的，考慮以下條件機率: |P(x, τ)(θ̃m − θ)| ≥ c∗) xϵ,a,bσϵ ‖𝐥(x)‖. α = P𝐘|𝐮 ( max. 立. = P𝐘|𝐮. 政治大 .max ≥c / xϵ,a,b-. |𝐥(x)t 𝛜+m(x,𝐮)|. ∗. (2-7). σϵ ‖𝐥(x)‖. ‧ 國. 學. 其中𝐥(x) = 𝐏(𝐏 t 𝐏 + λ𝐃)−1 P t (x, τ)，𝛜 = 𝐘 − 𝐏θ，m(x, 𝐮) = 𝐥(x)t 𝐏θ − P(x, τ)θ。根據 Krivobokova, Kneib, and Claeskens (2010)的模擬，我們可知𝑐𝑚 ≤ 𝑐 ∗，所以我. ‧. 們用critical value cm 取代c ∗ ，因此 Conditional Mixed Model 的信賴帶為:. er. io. 若以σ ̂ϵ 估計σϵ ，則信賴帶為:. al. (2-8). sit. y. Nat. [f̃m (x) − cm σϵ ‖𝐥(x)‖, ̃fm (x) + cm σϵ ‖𝐥(x)‖]. v. n. ς ς [f̃m (x) − √c′ cm ̂ σϵ ‖𝐥(x)‖, ̃fm (x) + √c′ cm σ ̂ϵ ‖𝐥(x)‖]. Ch. engchi. 5. i n U. (2-9).

(13) 2.2 貝氏信賴帶貝氏信賴帶是基於後驗分配所建立的。根據 Crainiceanu et al. (2007)，後驗分配的機率密度函數不易取得，所以使用蒙地卡羅的方式取得 critical value cb 。在合適的先驗分布下，f 係數的後驗分布為常態且 f(x)的後驗分布為平均為f̂(x)的常態分配，其中f̂為 f 的 penalized spline 估計。令var ̂ .f̂(x)/為此常態分配的變異數。從 f 係數的後驗分布抽樣，共抽 J 組，則可得到f (1) ,…, f (j)，然後進行以下運算: f(j) (xi )−f̂(xi ). 政治| j=1,…,J 大. maxi=1,…,n |. 立. (2-10). √var ̂ .f̂(x)/. 計算這 J 筆樣本的第(1 − α)的 sample quantile 即為critical value cb 。. ‧ 國. 學. 因此，貝氏信賴帶為:. ‧. *f̂(xi ) − cb √var ̂ .f̂(x)/ , f̂(xi ) + cb √var ̂ .f̂(x)/+ i=1,…,n. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v. (2-11).

(14) 第三章. 模擬與比較. 本章我們將使用九種真實函數產生的資料建立信賴帶並進行比較。令 xi , i = 1, … ,50是從區間(0,1)之間等距排放的 50 個點，將xi 代入真實函數並加上誤差得到我們的資料，其中誤差服從N(0, σ2ϵ )且σ2ϵ = 0.3。在執行 Penalized spline 時，基底之節點數設定為 15，order 設定為 4，懲罰項的微分次數設定為 2 次， α = 0.05，將資料代入前章所敘述的式子中，則可以得到 95%的信賴帶。重覆上述過程 100 次得到覆蓋機率，最後比較每種方法的覆蓋機率以了解這些方法的適用時機及準確度如何。. 立. 政治大. ‧ 國. 學. 模擬中的九種真實函數是使用 B-spline 所生成的並依照順序，由不平滑到平滑排列，我們可以發現利用越少節點生成的函數振盪程度越不明顯，產生的函數. ‧. 比較平滑，反之，節點越多生成的函數振盪程度加劇，產生的函數也比較不平滑。. y. Nat. sit. 在此模擬中節點設定為 3、5、15 且 order 設定為 4 產生基底，然後從區間(-1,1). n. al. er. io. 的均勻分配隨機產生係數，將基底乘上係數得到我們的真實函數。. Ch. engchi. i n U. v. 以下模擬結果的信賴帶我們以代號表示之，其中，B代表貝氏信賴帶、M代表 Marginal Mixed Model 信賴帶、M ′ 代表調整的 Marginal Mixed Model 信賴帶、 C代表 Conditional Mixed Model 信賴帶、C′ 代表調整的 Conditional Mixed Model 信賴帶。. 3.1 固定平滑參數的信賴帶平滑參數是 Penalized spline 懲罰項的一個係數，這裡先考慮分別代入固定的值e−9 、e−11及e−13，對應e−9 的覆蓋機率列於表 4.1。 7.

(15) 表 4.1: 固定平滑參數為e−9 的信賴帶之覆蓋機率函數. B. M. M′. C. C′. 1. 0.04. 0.01. 0.35. 0.03. 0.49. 2. 0.20. 0.17. 0.50. 0.19. 0.66. 3. 0.13. 0.05. 0.34. 0.12. 0.64. 4. 0.94. 0.47. 0.49. 0.97. 0.95. 5. 0.89. 0.44. 0.46. 0.93. 0.92. 6. 0.95. 0.47. 0.53. 0.96. 0.97. 7. 0.96. 0.48. 0.99. 0.99. 8. 0.95. 0.56 政治大 0.51 0.56. 0.99. 0.99. 9. 0.95. 0.49. 0.98. 0.97. 立. 0.49. ‧ 國. 學. 在固定平滑參數為e−9 時，我們從表 4.1 中可以看到函數在 1、2、3 時，C′ 的覆. ‧. 蓋率較高，代表此時C′ 的方法在不平滑的函數效果較好，而其餘函數使用B、C、. y. Nat. C′ 的效果皆不錯。另外，M的覆蓋率在全部方法中是最低的，代表此時使用M的. er. io. sit. 方法效果最差，然後，我們發現部分方法的覆蓋率是低下的，可能是e−9 太大的關係。圖 4.1 和圖 4.2 呈現平滑參數為e−9 時的函數信賴帶估計，4.1 是不平滑函. n. al. 數，4.2 是平滑函數。. Ch. engchi. 8. i n U. v.

(16) 0.0 -1.0. -0.5. y. 0.5. 1.0. 函數2. 0.0. 立. 0.2. B M M' C C'. 政治大 0.4. 0.6. 0.8. 1.0. x. ‧ 國. 學. 圖 4.1: 固定平滑參數為e−9 時，函數 2 的信賴帶. al. Ch. engchi. i n U. v. -1.0. -0.5. 0.0. n y. y. sit. B M M' C C'. er. io. 0.5. Nat. 1.0. ‧. 函數8. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. x. 圖 4.2: 固定平滑參數為e−9 時，函數 8 的信賴帶. 9.

(17) 表 4.2: 固定平滑參數為e−11 的信賴帶之覆蓋機率函數. B. M. M′. C. C′. 1. 0.84. 0.88. 0.91. 0.83. 0.88. 2. 0.82. 0.89. 0.87. 0.88. 0.88. 3. 0.82. 0.91. 0.94. 0.85. 0.87. 4. 0.92. 0.94. 0.92. 0.97. 0.94. 5. 0.92. 0.94. 0.92. 0.95. 0.93. 6. 0.93. 0.94. 0.92. 0.98. 0.93. 7. 0.93. 0.94. 0.98. 0.93. 8. 0.92. 0.92 政治大 0.94 0.92. 0.97. 0.93. 9. 0.92. 0.94. 0.98. 0.93. 立. 0.92. ‧ 國. 學. 在固定平滑參數為e−11時，我們從表 4.2 中可以看到在函數 1、2、3 時，M與M ′ 的覆. ‧. 蓋率較高，而其餘函數C的覆蓋率較高，代表C的方法在平滑函數的效果較好，. y. Nat. 而B的覆蓋率是比較低的。另外，跟表 4.1 比較起來，覆蓋率較低的部分有明顯. n. al. er. io. 數，4.4 是平滑函數。. sit. 提高。圖 4.3 和圖 4.4 呈現平滑參數為e−11時的函數信賴帶估計，4.3 是不平滑函. Ch. engchi. 10. i n U. v.


(19) 表 4.3: 固定平滑參數為e−13 的信賴帶之覆蓋機率函數. B. M. M′. C. C′. 1. 0.87. 0.97. 0.89. 0.95. 0.91. 2. 0.84. 0.98. 0.91. 0.95. 0.89. 3. 0.84. 0.96. 0.91. 0.95. 0.91. 4. 0.86. 0.98. 0.92. 0.96. 0.92. 5. 0.87. 0.98. 0.91. 0.95. 0.91. 6. 0.86. 0.98. 0.92. 0.96. 0.92. 7. 0.86. 0.98. 0.96. 0.92. 8. 0.86. 0.91 政治大 0.98 0.91. 0.96. 0.91. 9. 0.86. 0.98. 0.96. 0.92. 立. 0.92. ‧ 國. 學. 在固定平滑參數為e−13時，我們從表 4.3 中可以看到M的覆蓋率在所有函數都是. ‧. 最高的，代表此時使用M的方法效果最好。另外，B的覆蓋率在所有函數都是最. io. er. 函數信賴帶估計，4.5 是不平滑函數，4.6 是平滑函數。. sit. y. Nat. 低的，代表此時使用B的方法效果最差。圖 4.5 和圖 4.6 呈現平滑參數為e−13時的. al. n. v i n 比較表 4.1、表 4.2 及表C 4.3，我們可以發現當平滑參數較大時，部分信賴 hengchi U. 帶的覆蓋率會變得很低，而平滑參數較小時覆蓋機率雖然有增減但維持在高點，顯示較大的平滑參數對覆蓋率的影響是敏感的，所以平滑參數的選取確實對覆蓋. 率有影響，但平滑參數要選擇多小才好也是一個問題，下面我們使用 cross-validation 的方式選取平滑參數，看其覆蓋率的效果如何。. 12.


(21) 3.2 cross-validation 選取平滑參數的信賴帶比較這節我們使用 leave-one-out cross-validation 選取平滑參數，目標函數為: n. ∑*yi − s−i,λ (xi )+2 i=1. 其中，在第 i 筆資料(xi , yi )時，(x1 , y1 ), … , (xi−1 , yi−1 ), (xi+1 , yi+1 ), … , (xn , yn )為我們的訓練集(training set)而(xi , yi )為我們的測試集(testing set)，s−i,λ 為基於訓練集 (x1 , y1 ), … , (xi−1 , yi−1 ), (xi+1 , yi+1 ), … , (xn , yn )的 f 估計。將測試集代入s−i,λ 可得到誤差yi − s−i,λ (xi )，目標函數即為誤差平方和。然後使用統計軟體 R 的 optimise. 政治大滑參數，重覆上述過程並套用在立 100 次模擬中，可得到覆蓋機率，結果如下:. 函數最小化目標函數，這裡我們對λ作一個指數轉換，在範圍(−20,20)中解出平. ‧ 國. M. M′. 0.76. 0.85. 0.86. 0.87. 0.82. C. 0.76. 0.83. 0.86. 0.82. 0.86. 3. 0.00. 0.02. 0.02. 0.02. 4. 0.61. 0.14. 5. 0.90. Ch. 0.13. 0.57. e n g c0.64 hi. 6. 0.81. 0.32. 7. 0.89. 8 9. al. 0.01. er. io. 2. y. C′. sit. ‧. 1. B. Nat. 函數. 學. 表 4.4: cross-validation 選取平滑參數的信賴帶之覆蓋機率. 0.86. 0.89. 0.94. 0.33. 0.84. 0.90. 0.18. 0.22. 0.93. 0.98. 0.90. 0.23. 0.26. 0.95. 0.96. 0.01. 0.00. 0.00. 0.01. 0.01. n. v 0.71. i n U. 以 cross-validation 選取平滑參數，我們從表 4.4 中可以看到C′ 在大部分的真實函數覆蓋率是比較高的，而 B 在真實函數 1、2、3 的覆蓋率較差，M與M ′ 則是在其餘真實函數的覆蓋率較差，且還是有部分覆蓋率低下的問題，此結果顯示 cross-validation 還是可能會選取到太大的平滑參數。圖 4.7 和圖 4.8 呈現 14.

(22) cross-validation 選取平滑參數時的函數信賴帶估計，4.7 是不平滑函數，4.8 是平滑函數。. 0.0. 政治大. -0.5. y. 0.5. 1.0. 函數2. 0.0. 0.2. 0.4. 0.6. 0.8. 學. ‧ 國. -1.0. 立. B M M' C C' 1.0. x. ‧. 圖 4.7: cross-validation 選取平滑參數時，函數 2 的信賴帶. y. sit. engchi. C C'. 0.0. Ch. i vBM n U M'. -1.0. -0.5. y. 0.5. n. al. er. io. 1.0. Nat. 函數8. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. x. 圖 4.8: cross-validation 選取平滑參數時，函數 8 的信賴帶 15.

(23) 3.3 調整的 cross-validation 選取平滑參數的信賴帶比較上一節 cross-validation 仍有選到過大的平滑參數之情況發生，因此我們將目標函數調整如下: ∑ni=1*yi − s−i,λ (xi )+2 λ′ + 20 + n × (2σ ̂) 2 40 其中，λ = exp(λ′ )，然後使用 optimise 函數最小化目標函數並在範圍(−20,20)中解出平滑參數，重覆上述過程並套用在 100 次模擬中，可得到覆蓋機率模擬結果，結果如下: 表 4.5: 調整的 cross-validation 選取平滑參數的信賴帶之覆蓋機率. 1. 0.8. C. C′ 0.89. 0.81. 0.95. 0.91. 0.92. 0.87. 0.80. 0.97. 0.95. 0.91. 0.87. 0.82. 0.91. 0.88. 0.91. 0.93. 0.90. 0.89. 0.87. 0.86. 0.83. 0.91. 0.89. Ch. 0.86. v 0.90. 0.88. 0.89. 0.88. 0.91. 0.86. 7. 0.83. 8. 0.83. 9. 0.82. n. al. 0.86 0.87. e n g c0.88 hi. 0.89. 0.87. y. 0.83. sit. 6. er. 0.81. io. ‧ 國. 0.90. ‧. 0.93. 5. 3. ′. 0.97. 4. 2. 立. 政治M 大. M. 學. B. Nat. 函數. i n U. 0.86. 以調整的 cross-validation 選取平滑參數後，我們從表 4.5 中可以看到 M 在真實函數 1、2、3、4、5 的覆蓋率是較高的，表示 M 估計不平滑的函數表現是比較好的，而 C 在真實函數 6、7、8、9 的覆蓋率是較高的，表示 C 估計平滑函數的表現是比較好的。B 在所有函數的覆蓋率都是最低的，代表此時使用B的方法效果最差。另外，比較表 4.4 與表 4.5 後可以發現，調整的 cross-validation 較不會有覆蓋率低下的問題，也就是可以確實選到比較小的平滑參數。圖 4.9 和圖 4.10 16.

(24) 呈現調整的 cross-validation 選取平滑參數時的函數信賴帶估計，4.9 是不平滑函數，4.10 是平滑函數。. 0.0. 政治大. -0.5. y. 0.5. 1.0. 函數2. 0.0. 0.2. 0.4. 0.6. 0.8. 學. ‧ 國. -1.0. 立. B M M' C C' 1.0. x. ‧. 圖 4.9: 調整的 cross-validation 選取平滑參數時，函數 2 的信賴帶. y. sit. engchi. C C'. 0.0. Ch. i vBM n U M'. -1.0. -0.5. y. 0.5. n. al. er. io. 1.0. Nat. 函數8. 0.0. 0.2. 0.4. 0.6. 0.8. 1.0. x. 圖 4.10: 調整的 cross-validation 選取平滑參數時，函數 8 的信賴帶 17.

(25) 第四章. 結論與建議. 4.1 結論根據模擬的結果，我們可以得到以下的結論: 1. 平滑參數確實會影響到信賴帶，所以選取一個夠小的平滑參數對函數的估計是好的。 2. 若平滑參數很大，則此時調整的 Conditional Mixed Model 信賴帶估計函數的. 政治大. 效果較佳，若平滑參數很小，則 Marginal Mixed Model 信賴帶估計函數的效果較佳。. 立. 3. 若平滑參數選取夠小的話，Marginal Mixed Model 的信賴帶在估計不平滑的. ‧ 國. 學. 函數效果較佳，而 Conditional Mixed Model 的信賴帶在估計平滑的函數效果. ‧. 較佳，另外，貝氏的信賴帶估計的效果是比較差的。. sit. n. al. er. io 4.2 建議. y. Nat. 4. 我們用調整的 cross-validation 選取的平滑參數比直接作 cross-validation 小。. Ch. engchi. i n U. v. 本文 B-spline 函數設定節點數為 15，樣本數為 50,未來可以取不同的節點數或樣本數去進行比較，觀察結果是否會因此有所不同，另外我們建議使用調整的 cross-validation 選取平滑參數，未來也可以加入 likelihood 及 Akaike information criterion 等方法進行比較。. 18.

(26) 參考文獻. Sun, J. (1993), ”Tail Probabilities of the Maxima of Gaussian Random Fields,” The Annals of Probability, 21 (1), 34-71.. Sun, J., and Loader, C. R. (1994), ”Simultaneous Confidence Bands for Linear Regression and Smoothing,” The Annals of Statistics, 22 (3), 1328-1345.. 政治大 Eilers, P.H. C., and Marx, B. D. (1996), “Flexible Smoothing With B-splines and 立 Penalties” Statistical Science, 11 (2), 89-121.. ‧ 國. 學 ‧. Hall, P., and Opsomer, J. (2005), “Theory for Penalized Spline Regression,”. er. io. sit. y. Nat. Biometrika, 92, 105-118.. Crainiceanu, C. Ruppert, D., Carroll, R., Adarsh, J., and Goodner, B.. al. n. v i n C h Splines With Heteroscedastic (2007),”Spatially Adaptive Penalized Errors,” Journal of engchi U Computational and Graphical Statistics, 16, 265-288.. Li, Y., and Ruppert, D. (2008), “On the Asymptotics of Penalized Splines,” Biometrika, 95 (2), 415-436.. Claeskens, G. Krivobokova, T., and Opsomer, J. (2009), “Asmptotic Properties of Penalized Spline Estimators,” Biometrika, 96 (3), 529-544.. 19.

(27) Kauermann, G., Krivibokova, T., and Fahrmeir, L. (2009), “Some Asymptotic Results on Generalized Penalized Spline Smoothing,” Journal of the Royal Statistical Society, Ser. B, 71 (2), 487-503.. Krivobokova, Kneib, and Claeskens. (2010), “Simultaneous Confidence Bands for Penalized Spline Estimators,” Journal of the American Statistical Association, 105-490.. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 20. i n U. v.

(28)