• 沒有找到結果。

傘型迴歸函數估計 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "傘型迴歸函數估計 - 政大學術集成"

Copied!
32
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學商學院統計研究所 碩士論文. ‧. ‧ 國. 學. 政 治 大 傘型迴歸函數估計 立 Estimation of umbrella shaped regression function. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. 指導教授:黃子銘. v. 博士. 研究生:林似蓉 撰. 中華民 101 年 7 月.

(2) 謝 誌 不經一番寒徹骨,焉得論文撲鼻香。歷經這段令人心力交瘁的日子後,終於 完成此篇論文。此時除了感謝黃子銘老師平時耐心的教導外,還要謝謝黃貞瑛老 師及鄭宗記老師兩位口委對於本拙作提供適當及切中的建議。 在此,特別感謝政大統研所的同學這兩年來的陪伴。跟你們一起打球、玩樂、 上課以及一起打拼論文的時光總是過的特別快,希望以後還能夠一起嘴砲及出 遊。另外,還要謝謝統計系的學弟妹,平時總是會聽我的抱怨並給我一些建議和 溫暖。真的很想跟你們說:有你們真好!還有,感謝我的大學同學們,六年來, 無論是在手機上或是 Facebook 上聊天,你們總是會關心我並替我加油打氣。特 別是劉香吟,一起分享彼此的痛苦及笑容,無論是在寫論文或者是找工作,我們 也會互相鼓勵對方。還有陳紓綺總是在半夜時陪伴我,讓我在夜間工作時感到不 孤單。 最後,感謝我的家人在精神上以及經濟上的幫助,我才能夠如此順利的完成 此篇論文。. 立. 政 治 大. ‧. ‧ 國. 學. 林似蓉 謹誌於 國立政治大學統計研究所 中華民國一○一年七月. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v.

(3) 摘要. 政 治 大. 傘型迴歸函數是類似傘的形狀的迴歸函數,只要符合先上升後下降的趨勢皆為傘型迴歸函數。 無母數迴歸函數中最常見的方法之一是樣條(Splines)迴歸函數。樣條為充分平滑分段多項式. 立. 函數,而節點(knots)為平滑多項式函數連接的地方。在本論文中,將節點以等距離擺放並. ‧ 國. 學. 以AIC(Akaike information criterion)值得到合理的節點數。用三種方法的樣條迴歸函數去估 計傘型函數。第一種為RSPL(restrictted spline regression),也就是有形狀限制時的樣條迴. ‧. 歸函數。第二種是CSPL(concave spline regression),是參考Meyer寫的樣條迴歸函數,此樣 條迴歸函數為凹函數(concave function)。最後一種則稱SPL(spline regression),為沒有形狀. sit. y. Nat. 限制也不是凹函數的樣條函數。以IMSE為評估標準,IMSE越小,則代表此方法估計的越好。. io. er. 由模擬結果,在估計先上升後下降的函數時,用RSPL的方法去估計會得到最小的IMSE;而 在估計凹函數時,則是CSPL會得到最小的IMSE。利用RSPL和SPL兩個方法估計由中央氣象. n. al. i Un. v. 局蒐集最近13年(1998-2010)的月均溫資料並探討最近幾年的月均溫資料趨勢是否有改變。未. Ch. engchi. 來假如需要估計傘型函數時,則可利用本篇所述的方法去估計。.

(4) Abstract In this thesis, we consider the problem of estimating a regression function assuming the regression function is unimodal. The proposed method is to model the regression function as linear combination of B-spline basis functions with equally spaced knots, and the number of knots is determined using AIC (Akaike information criterion). Specific constraints are placed on the coefficients of basis functions to ensure that estimated regression function is unimodal. The coefficients are estimated using least square method. The proposed method is refered as RSPL and is compared with two other methods: SPL and CSPL, where SPL is similar to RSPL except that the coefficients of basis functions are estimated without any constraints, and CSPL gives concave regression. 政 治 大. function estimates. Simulation results show that RSPL outperforms SPL and CSPL when the true regression function is unimodal but not concave, and CSPL outperforms. 立. RSPL and SPL when the true regression function is concave. Also, RSPL is applied to. ‧. ‧ 國. 學. temperature data to estimate temperature trend within one year.. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i Un. v.

(5) 目錄. 1 緒論. 6. 2 文獻回顧. 8. 2.1. 節點個數選取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 2.2. 有形狀限制時的迴歸函數估計 . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 立. 3 研究方法. 政 治 大. 11. 選取節點個數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11. 3.2. B-樣條函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12. 3.3. RSPL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13. ‧. ‧ 國. 學. 3.1. 16. y. Nat. 4 模擬結果與實證分析. 4.2. 模擬結果2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. 4.3. 實證分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17. er. al. n. 5 結論與建議. sit. 模擬結果1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16. io. 4.1. Ch. engchi. 3. i Un. v. 28.

(6) 圖目錄 1.1. 邊際生產力和勞工數的關係 . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3.1. (BIC-AIC)的IMSE差異直方圖 . . . . . . . . . . . . . . . . . . . . . . . . . 11. 3.2. 基底函數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14. 4.1. (RSPL-SPL)的IMSE差異直方圖 . . . . . . . . . . . . . . . . . . . . . . . . 19. 4.2. (CSPL-SPL)的IMSE差異直方圖 . . . . . . . . . . . . . . . . . . . . . . . . 19. 4.3. (RSPL-SPL)在concave function下的IMSE差異直方圖 . . . . . . . . . . . . 20. 4.4. (CSPL-SPL)在concave function下的IMSE差異直方圖 . . . . . . . . . . . . 20. 4.5. (RSPL-CSPL)在concave function下IMSE差異直方圖 . . . . . . . . . . . . . 21. 4.6. 1998-2002年台北月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 22. 4.7. 2007-2011年台北月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 22. 4.8. 1998-2002年高雄月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 23. 4.9. 2007-2011年高雄月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 23. 立. 7. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i Un. v. 4.10 1998-2002年淡水月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 24. Ch. engchi. 4.11 2007-2011年淡水月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.12 1998-2002年新竹月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.13 2007-2011年新竹月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.14 1998-2002年台中月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.15 2007-2011年台中月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.16 1998-2002年花蓮月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.17 2007-2011年花蓮月均溫估計圖 . . . . . . . . . . . . . . . . . . . . . . . . . 27. 4.

(7) 表目錄. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 5. i Un. v.

(8) 1 緒論 在迴歸分析中,解釋變數X和反應變數Y 之間的關係可以用一個函數f 來解釋, Y ≈ f (X). 在 某 一 些 應 用 上 , 會 假 設 此 迴 歸 函 數f 有 形 狀 限 制 , 例 如 : 單 調 性(monotonic)、 凸. 政 治 大 數,也是大家所熟知的傘型迴歸函數,定義如下:現在令f 的範圍介在一個區間I = [a, b]。假 立 如現在存在一個數字m在此區間(I)內,在[a, m]之間,f 為非遞減函數(nondecreasing func-. 性(convexity)。 在 本 論 文 中 , 考 慮 的 是 估 計f 為 單 峰(unimodal)迴 歸 函 數 。 單 峰 迴 歸 函. ‧ 國. 學. tion);而在[m, b]的區間內,f 則是非遞增函數(nonincreasing function),則f 稱為傘型迴歸 函數。. ‧. 傘型迴歸函數可以應用在許多方面。在生物方面,隨著時間不同,藥物濃度一開始會先上. y. Nat. 升,在達到最大值之後又下降。而在經濟方面,Lipsay & Steiner(1972) 書中也有許多例子。. sit. 比較重要的幾個,例如:邊際生產力和勞工數的關係以及劣質商品的需求和家庭收支的關係。. al. n. 的時間點。圖1.1為邊際生產力和勞工數的關係。. Ch. engchi. 6. er. io. 此外,有隨著時間變動的經濟指標單峰迴歸函數也可以用來估計經濟衰退和經濟趨向之間變化. i Un. v.

(9) 圖 1.1: 邊際生產力和勞工數的關係. 政 治 大 在無母數迴歸[2]中常見的估計方法有:樣條迴歸(regression spline)、平滑樣條(spline 立 smoothing)和 核 估 計(kernel estimation)。 因 為 樣 條 函 數 具 有 好 的 近 似 能 力 且 具 有 平 滑. ‧ 國. 學. 性 , 故 本 篇 是 以B-樣 條(B-splines)迴 歸 函 數 去 近 似 迴 歸 函 數f 。 樣 條 是 於1946年 首 次 由Schoenberg提出。在數學上,樣條為平滑分段多項式函數(piecewise polynomial func-. ‧. tion),而節點(knots)為平滑多項式函數連接的地方。B-樣條函數為B-樣條基底函數的線性組. y. Nat. 合。假如對B-樣條基底函數採用合適的係數限制,有時可使組成的的B-樣條函數滿足特定形狀. sit. 限制。在本論文中,是採用特殊型式的係數去保證組合成的B-樣條函數為單峰。. n. al. er. io. 在第二章及第三章會介紹不同的基底函數。利用這些基底函數的線性組合去近似迴歸函 數,以得到特定形狀的迴歸函數。. Ch. engchi. 7. i Un. v.

(10) 2 文獻回顧 在這一章,會介紹文獻上樣條迴歸中節點個數的選取方法,以及有形狀限制時的迴歸函數估 計。. 2.1 節 點 個 數 選取. 政 治 大. Meyer (2008)[5]中提到,樣條迴歸對於節點(knots)的個數以及擺放位置是敏感的。因為節. 立. 點個數會影響無母數迴歸估計的平滑程度。假如個數越多,分段多項式函數的個數也會. ‧ 國. 學. 增加,使得誤差變小。但是個數太多,則會有過度配適(overfitting)的問題。所以在此篇 文章中,如何選擇節點及節點的個數是重要的議題。Keele (2008)[7] 提到,在相同條件的. ‧. 樣條迴歸函數下,最小的AIC(Akaike)[1] 值提供一個最合適且節點數最少的衡量方法。此 外,Miyata和Shen (2005) 提到,BIC(Schwarz)[10]也是一種選擇節點個數的方法。Osborne. Nat. sit. io. er. 三種方法。. y. ,Presnell ,Turlach三位學者則提出用LASSO[7]的方法來選擇節點及節點個數。下面會詳述這. 首先介紹AIC(Akaike information criterion):AIC是一種衡量統計模型配適優良性的一. n. al. Ch. i Un. v. 種標準。AIC = 2k − 2 ln(L),k代表模型的參數個數,而L則代表模型的概似函數(likelihood. engchi. function)。假設條件是模型的誤差服從獨立常態分佈。令n為觀察值個數,RSS(residual sum of squares)為剩餘平方和,則AIC = 2k + n ln( RSS n )。增加自由參數個數是為了提高配適優 良性,但是要避免過度配適。因為AIC是一種尋找可以最好解釋但包含最少自由參數模型的方 法,所以AIC最小的模型是我們優先考量的模型。 Shibata(1976)證明AIC準則對模型參數個數會產生高估的現象,故Schwarz發展一套利用 貝氏方法得到最小AIC過程的標準,稱為BIC(Bayesian information criterion)。BIC的定義 為:BIC = −2 ln(L) + k ln(n),k代表模型的參數個數,n為觀察值個數,L則代表模型的概 似函數。與AIC最大的差異在懲罰項不同,目的就是避免過度配適。BIC同樣也是衡量統計模. 8.

(11) 型配適優良性的一種標準,所以BIC最小的模型是我們優先考慮的模型。 最 後 介 紹LASSO(Tibshirani,1996) [12]方 法 :LASSO(least absolute shrinkage and selection operator)是一種對線性迴歸的特徵值縮減和變數選擇的方法。假設現在有一組資料 hxi , yi i,i = 1, . . . , n,其中,xi 是單變量且將xi 遞增排序。而將設計矩陣(X)建構成 (x − x2 )+p , (x − x3 )+p , . . . , (x − xn−1 )+p , 1n , (x − x1 )1 , . . . , (x − x1 )p . 此時設計矩陣為一個 n × (n + p − 1)矩陣,n代表基底數,p則代表樣條迴歸函數的次數。其限 制式為 minimize m β∈<. f (β) =. 1 (y − Xβ)T (y − Xβ) 2. subject to g(β) = t − kβk1 ≥ 0 接著,用 M. R. Osborne , B. Presnell , B. A. Turlach三位學者所寫的演算法得到LASSO的. 政 治 大. 估計值(β)。在此,β 6= 0的個數就代表選取後的節點個數,會比原本設定的節點個數少。這些. 立. 選出來的節點,可以避免過度配適的問題。所以,這也是一種選擇節點個數的方法。. ‧ 國. 學. 2.2 有 形 狀 限制 時 的 迴 歸 函 數估 計. ‧. 此節要介紹有形狀限制時的迴歸函數估計,形狀限制考慮單調迴歸函數及凸迴歸函數兩種。即. er. io. yi ≈ f (xi ).. sit. y. Nat. 考慮對一組二元資料(xi , yi )配適迴歸模型. al. n. iv n C 線 性 組 合 , 而 以 最 小 平 方 法 在 適 當h 係e 數 限 制 下 估 計i 基U n g c h 底 對 應 的 係 數 。 當f 為 單 調 函 數 而f 為 單 調 函 數 或 凸 函 數 。 以 下 提 到 的 估 計 方 法 中 , 均 假 設f 可 表 示 成 一 些 基 底 函 數 的. 時,Ramsay(1988)[8]提出單調樣條函數(monotone spline function)作為基底函數以組成f 。 令a = min(x1 , . . . , xn ),b = max(x1 , . . . , xn ),則對應格點u1 , . . . , ul ∈ (a, b)的k次單調樣 (k). 條基底函數Mi 定義如下:令t1 = . . . = tk = a,(tk+1 , . . . , tl+k ) = (u1 , . . . , ul ),tl+k+1 = . . . = tl+2k = b.則一次單調樣條迴歸函數是階梯函數  1  for ti ≤ x ≤ ti+1 (1) ti+1 −ti , Mi (x) =  0, otherwise. 9.

(12) for i = 1, . . . , l + 1。 而k次單調樣條迴歸函數則是  (k−1) (k−1) (x)+(ti+k −x)Mi+1 (x)]  k[(x−ti )Mi , (k) (k−1)(ti+1 −ti ) Mi (x) =  0,. for ti ≤ x ≤ ti+1 otherwise. (k). 將Mi ,i = 1, . . . , l + 1線 性 組 合 成f 時 , 係 數 要≥ 0, 組 合 出 的 函 數 才 有 單 調 性 。 再 (k). (k). 將Mi 積分得到Ii : (k) Ii (x). x. Z. (k). Mi (u)du for i = 1, . . ., l + k = m, for x ∈ [x1 , xn ].. = t1. 假設現在存在一組f 為f = Σai Ii ,且f 介於[0, 1]之間,並令ti 為節點序列。此時要求ai ≥ 0且Σai = 1,可解釋成f (1) = 1。 當f 為凸函數(convex function)時,Meyer[5]提出使用。凸樣條函數基底來組成f 。基底 形式為. (k). Z. x. (k) 使用Ci 基底線性組合成f 時,基底係數要≥. 學. t1. 立. (k). Ii (u)du for i = 1, . . ., l + k = m, for x ∈ [x1 , xn ].. ‧ 國. Ci (x) =. 政 治 大. 0,再加上一組常數函數以及特定的函數g(x) =. ‧. x去做線性組合,組合出來的f 才會是凸函數。然而,在本論文中,欲估計的迴歸函數為凹函 數,所以將基底函數取負號,也就是將凸函數改成凹函數。由於這個轉換過的基底函數為凹函. Nat. n. al. er. io. sit. y. 數,則可利用此基底函數進行估計。將此方法命名為CSPL(concave spline regression)。. Ch. engchi. 10. i Un. v.

(13) 3 研究方法 本章最主要是說明此論文所使用的研究方法。如同前一章所述,樣條函數為本論文最主要使用 的方法。在此,詳細的描述樣條函數,主要參考Spline Functions: Basic Theory[9]這本書。 並詳述如何應用樣條函數去估計傘型函數。. 政 治 大. 3.1 選 取 節點 個 數. 立. 第 二 章 有 提 到 , 如 何 選 擇 節 點 及 節 點 的 個 數 在 本 篇 是 重 要 的 問 題 。 因 為AIC及BIC較 常. ‧ 國. 學. 見,故先考慮AIC及BIC的方法。以同樣的函數f 得到AIC及BIC的節點個數,將得到的節 點個數代回估計的函數,比較AIC及BIC的估計哪個較佳。將模擬結果繪製成圖3.1,此圖. ‧. 為BIC的IMSE與AIC的IMSE相減(BIC-AIC)得到的直方圖。由於圖形不好判斷哪一個較 好,故將結果加總,發現為負值,代表AIC的IMSE較小。也就是AIC提供的個數較合適,故. n. al. er. io. sit. y. Nat. 本論文以AIC值去得到合理的節點數。. Ch. engchi. i Un. v. 圖 3.1: (BIC-AIC)的IMSE差異直方圖. 11.

(14) 3.2 B-樣 樣條 函 數 一 開 始 , 先 定 義m階B-樣 條(B-splines)函 數 。 首 先 說 明 一 些 符 號 : 令{ui }m 1 為一組定義 在I集合的函數,且設t1 , . . . , tm 為在I集合上的點,並令t1 < t2 < . . . < tm 。接著,定義 m 與{ui }m 1 及{ti }1 有關的矩陣:. um (t1 ). .    u (t ) u2 (t2 ) . . . um (t2 ) = 1 2   ...  u1 (tm ) u2 (tm ) . . . um (tm ).       .   M. t1 , . . . , t m u1 , . . . , um. 定義D矩陣如下:.  D. u1 (t1 ). u2 (t1 ). .... . t1 , . . . , tm. . .  = detM . t1 , . . . , t m. . ...,u 政 治 u ,大 接著,均差(divided difference)的定義為:在給定t , . . . , t 這些點並假設 t為遞增排序及函 立 數f ,其r階均差為 u1 , . . . , um. . 1. 1. . 1, x, . . . , xr−1 , f . D. . t1 , . . . , tr+1. . y. Nat. 1, x, . . . , xr. ‧. ‧ 國. . t1 , . . . , tr+1. D. [t1 , . . . , tr+1 ]f =. r+1. 學. . m. io. 為:   (−1)m [yi , . . . , yi+m ](x − y)(m−1) , + (m) Qi (x) =  0,. i vif yi ≤ x < yi+m n U. n. al. (m). 其中,Qi. Ch. engchi. otherwise. 為第m階及節點為yi , . . . , yi+m 的樣條迴歸函數。 而B-樣條函數為: (m). Ni (m). 其中,Ni. er. (m). 對所有的x,令Qi. sit. 定義B-樣條函數: 令 . . . ≤ y−1 ≤ y0 ≤ y1 ≤ y2 ≤ . . .為一實數序列,在給定整數i及m > 0及. (m). (x) = (yi+m − yi )Qi. (x). 是節點為yi , . . . , yi+m 的B-樣條迴歸函數。假如現在為一次B-樣條迴歸函數(m =. 1)且yi < yi+1 ,則   1, (1) Ni (x) =  0,. for yi ≤ x < yi+1 otherwise. 12.

(15) 而根據[9]書中定理4.9,B-樣條函數的單位分割形式為 j X. (m). Ni. (x) = 1,. (3.1). i=j+1−m. 對所有的yj ≤ x < yj+1 。 故對所有m ≥ 1和所有的x ∈ <, (m). 0 ≤ Ni. (x) ≤ 1.. 現在考慮[a, b]為一個有限閉區間,而x1 < . . . < xk 為[a, b]個子集合,且這些子集合是[a, b]中 的k個點。令 y1 = . . . = ym = a, b = ym+k+1 = . . . = y2m+k ,. 政 治 大. (ym+1 , . . . , ym+k ) = (x1 , . . . , xk ). (m). 則Ni. ,i = 1, . . . , m + k形成[a, b]上的一組B-樣條基底函數,而內部節點為(x1 , . . . , xk )。. 立. 在 本 論 文 中 , 將[a, b]設 為[0, 1], 且 內 部 節 點 為 等 距 離 擺 放 , 也 就 是yi+1 − yi 為 一 個 定. ‧ 國. ,i = m, . . . , k + 1。代表在這裡均勻分. 學. (m). 值,i = m, . . . , m + k + 1。且k + 1 ≥ m,則 Ni. 布的節點,會使得B-樣條基底函數曲線形狀相同(i = m, . . . , k + 1),且僅在x軸上平移一個節. ‧. 點的增量值。. 假 如 次 數 為0, 則 這 些 基 底 函 數 皆 為 階 梯 函 數(step function)。 換 句 話 說 , 基 底 函. Nat. (1). sit. y. 數Ni (x) = 1, 對 第i次 節 點 長 度[yi , yi+1 )。 舉 例 來 說 , 現 在 有 四 個 節 點 , 分 別 是y0 =. al. er. io. 0、y1 = 1、y2 = 2和y3 = 3。節點長度則為[0, 1)、[1, 2)和[2, 3)。B-樣條迴歸函數是基底函. n. 數(basis function)的線性組合,故不同的基底函數會產生不同的B-樣條迴歸函數。而基底函數. Ch. i Un. v. 的形狀則是由節點的位置去決定且具有局部控制(local control)的能力。基底函數為   1, for yi ≤ x < yi+1 (1) Ni (x) =  0, otherwise. engchi. (3.2). 其中,i = 0, 1, 2。換句話說,基底函數皆> 0。以下面的圖來看會比較清楚:. 3.3 RSPL 在本論文中,將自己寫的方法命名為RSPL(restricted spline regression),而在B-樣條迴 歸函數為沒有限制的情況下,稱為SPL(spline regression)。最主要的事情是去進行傘型迴. 13.

(16) 圖 3.2: 基底函數 歸函數的估計,所以接下來要研究如何利用B-樣條迴歸函數做估計。由[9]書中定理5.9: P (m) 令s = m+k 和假設1 ≤ d ≤ m,對所有ym ≤ x < ym+k , i=1 ci Ni d−1 D+ s(x) =. m+k X. (d). (m−d+1). ci Ni. (x). i=d (1). ,其中,ci. 政 治 大 if (y. = ci , i = 1, 2, . . . , m + k。 (j). 立. i+m−j+1. − yi ) > 0. otherwise. 學. ‧ 國. ci.  (j−1) (j−1) −ci−1  (m − j + 1) ci yi+m−j+1 −yi , =  0,. ,對i = j, . . . , m + k和j = 2, 3, . . . , d。 將一次導數代入,也就是將d = 2代入,可以得到 (2). (m−1). ci Ni. (x).. i=2. ‧. D+ s(x) = (m − 1). m+k X. (3.3). Nat. sit. n. al. s(x) =. Ch. m+k X. (m). ci Ni. (x). i=1. engchi. er. io. 考慮. y. 其中,D+ 代表微分後取右極限。在此,D+ 的意思為當係數遞增時,迴歸函數也為遞增。. i Un. v. (m). 且係數滿足c1 ≤ . . . ≤ ci∗ 以及ci∗ ≥ . . . ≥ cm+k 的情況。由(3.3)及Ni. 在[yi , yi+m ]外為0的. 特性,  . Pi∗ (2) (m−1) ci Ni (m − 1) i=2 (x), D+ s(x) = P (2) (m−1)  (m − 1) m+k (x), i=i∗ +1 ci Ni. if x ∈ [a, yi∗ +1 ] if x ∈ [yi∗ +m−1 , b]. 由(3.2)和(3.4)以及. ci − ci−1.   ≥ 0, =  ≤ 0,. i = 2, . . . , i∗ i = i∗ + 1, . . . , m + k. 14. (3.5). (3.4).

(17) 可知s(x)在[a, yi∗ +1 ]上為遞增;而在[yi∗ +m−1 , b]上為遞減。然而,在(yi∗ +1 , yi∗ +m−1 )上, 雖然不能證明s(x)的遞增遞減情況,但測試了許多滿足(3.5)的ci 後發現,當m = 3及k = 2時,s(x)均為傘型。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 15. i Un. v.

(18) 4 模擬結果與實證分析 這一章最主要是要說明模擬與實證分析。會分成三節,前面兩節與模擬結果有關,最後一節則 是說明實證資料分析及結果。. 4.1 模 擬 結 果 1. 政 治 大. 先定義三種方法:第一種為第三章所提的方法,也就是RSPL;第二種則是在第二章提起,是. 立. Z. 學. 準為IMSE:. ‧ 國. 將Meyer的方法改寫,稱為CSPL法;第三種是沒有限制條件下的方法,以SPL稱之。評估標. (fˆ − f )2 .. ‧. 其 中 ,f 為 母 體 迴 歸 函 數 , 而fˆ則 是 估 計 母 體 迴 歸 模 型 。 將 積 分 範 圍 定 在[0, 1]。IMSE越. y. Nat. 小,代表fˆ與f 越接近,也就是估計的越佳。現在,先生成一條符合先上升後下降的函數. sit. 當為基底函數,將此函數加上誤差項去得到100條符合先上升後下降的函數,分別用這三. al. er. io. 種 方 法 去 估 計 , 而 同 一 條 函 數 再 重 複 估 計100次 。 此 時 , 在 同 一 條 函 數 下 , 各 方 法 都 會. n. 有100個IMSE,將這100個IMSE取平均,再去比較三種方法的平均IMSE孰大孰小,較小的. Ch. i Un. v. 平均IMSE代表用此方法得到的估計值較佳。以SPL為基準,將RSPL與SPL的差距(在圖4.1上. engchi. 稱為h1)和CSPL與SPL的差距(以h2稱之)繪製成兩張直方圖。從圖4.1可以看出,兩者相減都 是負的,代表RSPL的IMSE較SPL的IMSE小,也就是RSPL估計的比SPL好。而圖4.2則顯 示兩者之間的差距皆不小於0,與上圖結果相反,CSPL的IMSE較SPL的IMSE大,則是說明 以SPL得到的估計值較CSPL的估計值佳。從上述模擬結果可看出,在估計先上升後下降的函 數時,以RSPL的方法去估計會得到最小的IMSE。. 16.

(19) 4.2 模 擬 結 果 2 上述結果雖滿意,但因為CSPL法的限制條件較強,故將先上升後下降的函數考慮改成凹 函數(concave function)。與上一節的做法相同,先產生一條具有凸性的基底函數,再加上 誤差項去產生100條函數,將這些函數做一次微分和二次微分。設一次微分為0(f 0 = 0)且 二次微分函數值為負(f 00 < 0),再積分以確保具有凸性。以三種方法估計,再去針對每 一 條 函 數 重 複 估 計100次 , 將 同 一 條 函 數 的IMSE得 到 平 均 並 做 比 較 。 同 樣 , 以SPL為 基 準,將RSPL與SPL的差距(在圖上改稱h3)和CSPL與SPL的差距(令為h4)以直方圖的方式呈 現。 從h3的直方圖(圖4.3)可以發現,此時RSPL與SPL的差距皆為負值,代表RSPL估計 的比SPL好。再來看h4的直方圖(圖4.4),發現CSPL與SPL的差距也都是負的,所以接著 去畫RSPL與CSPL差距(以h5稱之)的直方圖。從圖4.5可以看出,RSPL與CSPL的差距為正. 政 治 大. 的,也就是RSPL的IMSE較CSPL的IMSE大,故此時CSPL估計的較RSPL好。由以上模擬 結果,需要估計具有凸性的函數時,優先考慮CSPL。. 立. ‧ 國. 學. 4.3 實 證 分 析. 本論文中考慮使用傘型迴歸函數以分析氣溫資料。根據中央氣象局的介紹:臺灣之氣候,一般. ‧. 被稱為副熱帶或海洋候區。而且由於台灣的地理位置特殊,是在亞熱帶地區,一年四季溫度適. y. Nat. 宜。冬季受大陸冷氣團及東北季風之影響,南部乾燥北部濕冷,當寒潮爆發時全省均有可能遭. io. sit. 受低溫災害之機會。冬季通常以1月下旬至2月中感覺最冷。南部較接近熱帶氣候,日照充足,. er. 冬天及夏天的溫度變化比北部來得小,也就是說北部地區的最高氣溫與最低氣溫的相差比較. al. n. iv n C hengchi U 在一起,就會是一條傘型函數。蒐集從1998年到2011年的資料,估計每一年的傘型迴歸函數,. 大,南部地區一年四季氣溫的變化比較小。現在設x軸為月份,y軸為月平均溫度,把這些點連. 並分析是否有氣候暖化及氣候異常的現象。除了年資料外,還可以檢查不同地區是否有差異。 現在有六個地區,分別是台北、淡水、新竹、台中、高雄及花蓮。按照緯度高低,預期淡水應 是所有地區裡最低溫,高雄則是最高溫。 在本節,分析由中央氣象局蒐集最近13年(1998-2010)的月均溫資料,且以RSPL估計一 年中的月均溫資料趨勢。為了有足夠資料進行估計並了解各地月均溫趨勢最近幾年是否有改 變,故針對每個地區將前五年(1998-2002)的資料合併,並與後五年的資料(2007-2011)去做 比較。在月均溫資料並不是凹函數,故不考慮CSPL方法,僅用RSPL與SPL兩種方法。實線. 17.

(20) 為RSPL,而虛線則是代表SPL。由於在寫程式時,將x軸的定義域定在[0, 1],在此,也將月 份經過轉換,0為一月,而1為十二月。分別去比較台北、高雄、淡水、新竹、台中及花蓮這六 個地區前五年與後五年的差異。估計結果顯示不同地區的月均溫有所差異。淡水氣溫明顯偏 低,而高雄則是裡面最熱的地區,符合預期。從圖4.6到圖4.17,可以看出,後五年兩個方法 得到的估計線較為相近,而前五年的則不太相同。由於希望估計線看起來較平滑,故在此認 為RSPL法較SPL法的估計線平滑。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 18. i Un. v.

(21) 圖 4.1: (RSPL-SPL)的IMSE差異直方圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.2: (CSPL-SPL)的IMSE差異直方圖. 19.

(22) 立. 政 治 大. ‧. ‧ 國. 學. 圖 4.3: (RSPL-SPL)在concave function下的IMSE差異直方圖. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.4: (CSPL-SPL)在concave function下的IMSE差異直方圖. 20.

(23) 立. 政 治 大. ‧. ‧ 國. 學. 圖 4.5: (RSPL-CSPL)在concave function下IMSE差異直方圖. n. er. io. sit. y. Nat. al. Ch. engchi. 21. i Un. v.

(24) 圖 4.6: 1998-2002年台北月均溫估計圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.7: 2007-2011年台北月均溫估計圖. 22.

(25) 圖 4.8: 1998-2002年高雄月均溫估計圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.9: 2007-2011年高雄月均溫估計圖. 23.

(26) 圖 4.10: 1998-2002年淡水月均溫估計圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.11: 2007-2011年淡水月均溫估計圖. 24.

(27) 圖 4.12: 1998-2002年新竹月均溫估計圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.13: 2007-2011年新竹月均溫估計圖. 25.

(28) 圖 4.14: 1998-2002年台中月均溫估計圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.15: 2007-2011年台中月均溫估計圖. 26.

(29) 圖 4.16: 1998-2002年花蓮月均溫估計圖. 學 ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 圖 4.17: 2007-2011年花蓮月均溫估計圖. 27.

(30) 5 結論與建議 本論文中提出以RSPL方法估計傘型迴歸函數,並和CSPL、SPL二種方法估計結果進行比 較。根據模擬結果,如果迴歸函數為凹函數,CSPL法會得到較佳的結果。如果傘型迴歸函數 不為凹函數,只是符合先上升後下降的形狀,則RSPL法效果較佳。至於在節點選擇上,本論 文中使用等距節點並以AIC決定節點數。未來可考慮使用不同的放置節點方式再進行RSPL法. 政 治 大 本論文欲探討最近13年(1998-2011)的月均溫資料趨勢。因為月均溫資料不屬於凹函數, 立 故不考慮CSPL法,僅利用RSPL與SPL兩方法去進行估計。發現在前五年,這兩種方法估計. 估計。. ‧ 國. 學. 的不太一樣,而在後五年,這兩種方法得到的估計線較為相似。推測,後五年的月均溫表現較 為異常,冬天的時候變的很冷,而在夏天時溫度則不斷飆高,較符合傘型迴歸函數的定義,故. ‧. 估計的較為相似。然而無法從圖形推測氣候暖化的現象。. y. Nat. 除了月均溫外,從中央氣象局的氣候資料發現日照時數也是呈現傘型函數。假如未來還有. n. er. io. al. sit. 類似的例子,則可以用本篇所述的方法去估計傘型迴歸函數。. Ch. engchi. 28. i Un. v.

(31) 參考文獻 [1] H. Akaike. A new look at the statistical model identification. Institute of Statistical Mathematics, Minato-ku, Tokyo, Japan, 19 , Issue: 6:716– 723, 1974. [2] Wolfgang Härdle. Applied nonparametric regression. Cambridge University Press, 1990.. 政 治 大. [3] Luke Keele. Semiparametric Regression for the Social Sciences. Wiley, Chichester,. 立. UK, 2008. ISBN 978-0470319918.. ‧ 國. 學. [4] E. Mammen and C. Thomas-agnan. Smoothing splines and shape restrictions. Scandinavian Journal of Statistics, 26:239–252, 1998.. ‧. sit. Nat. Applied Statistics, 2(3):1013–1033, 2008.. y. [5] Mary C. Meyer. Inference using shape-restricted regression splines. The Annals of. io. J. Japan Statist. Soc., Vol. 35 No. 2:303–324, 2005.. al. er. [6] Satoshi Miyata and Xiaotong Shen. Free-knot splines and adaptive knot selection.. n. iv n C [7] Michael R. Osborne, Brett Presnell, BerwinUA. Turlach. Knot selection for h e nand hi c g regression splines via the LASSO. In Computing Science and Statistics. Dimension Reduction, Computational Complexity and Information. Proceedings of the 30th Symposium on the Interface, pages 44–49, 1998. [8] J. O. Ramsay. Monotone regression splines in action (C/R: p442-461). Statistical Science, 3:425–441, 1988. [9] Larry L. Schumaker. Spline Functions: Basic Theory. Cambridge University Press, 2007.. 29.

(32) [10] Gideon Schwarz. Estimating the dimension of a model. The Annals of Statistics, 6:461–464, 1978. [11] E. V. Shikin and Alexander I. Plis. Handbook on Splines for the User. CRC Press, 1995. [12] R. Tibshirani. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society (Series B), 58:267–288, 1996.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 30. i Un. v.

(33)

參考文獻

相關文件

• Similar to futures options except that what is delivered is a forward contract with a delivery price equal to the option’s strike price.. – Exercising a call forward option results

• Similar to futures options except that what is delivered is a forward contract with a delivery price equal to the option’s strike price.. – Exercising a call forward option results

• Similar to futures options except that what is delivered is a forward contract with a delivery price equal to the option’s strike price.. – Exercising a call forward option results

Other advantages of our ProjPSO algorithm over current methods are (1) our experience is that the time required to generate the optimal design is gen- erally a lot faster than many

The measurement basis used in the preparation of the financial statements is historical cost except that equity and debt securities managed by the Fund’s

The measurement basis used in the preparation of the financial statements is historical cost except that equity and debt securities managed by the Fund’s

Using this formalism we derive an exact differential equation for the partition function of two-dimensional gravity as a function of the string coupling constant that governs the

Courtesy: Ned Wright’s Cosmology Page Burles, Nolette &amp; Turner, 1999?. Total Mass Density