• 沒有找到結果。

廣義極端值分佈之位置參數函數的斷點估計

N/A
N/A
Protected

Academic year: 2021

Share "廣義極端值分佈之位置參數函數的斷點估計"

Copied!
79
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學數學系碩士班碩士論文. 指導教授:蔡碧紋 博士. Estimate Breakpoint in Location Parameter of General Extreme Value Distribution. 研 究 生:蕭維斌. 中 華 民 國 108 年 7 月.

(2) 國立臺灣師範大學理學院數學系 碩士論文 Department of Mathematics College of Science. National Taiwan Normal University Master Thesis. 廣義極端值分佈之位置參數函數的斷點估計 Estimate Breakpoint in Location Parameter of General Extreme Value Distribution. 蕭維斌 Hsiao, Wei-Pin. 指導教授:蔡碧紋 博士 Advisor: Tsai, Pi-Wen, Ph.D.. 中華民國 108 年 7 月 July, 2019.

(3) 誌謝 非常感謝委員們的指導,在百忙之中仍撥冗蒞臨口試,並予以指導論文各種不周之處, 讓學生深感學無止境,要學的仍然很多。在就讀碩士的這段期間,感謝系上所有教職 員的耐心指導並用心教學,使我收穫良多,也感謝所有同窗給予的協助與激勵,使我 能渡過。在論文撰寫期間受到指導老師跟許多的鞭策與指導,感謝老師耐心提拔不成 材的我,即便在論文後其家人過世而繁忙的期間,亦給予許多關懷與同理。 最後感謝我的家人,不只養育我到成人,並願意支持我離職就研讀碩班,謝謝你們。. i.

(4) 摘要 廣義極端值分佈 (generalized extreme value distribution) 模型廣泛應用於分析各類極端 風險事件,但遇到實際的極端值資料可能有斷點 (breakpoint) 時,研究者需要自行假設 斷點位置,將分段常函數 (piecewise constant function) 置入廣義極端值分佈模型之參數 函數內進行參數估計,本研究藉由:方法一、利用逐段迴歸模型 (piecewise regression. model) 最佳化候選斷點模型之目標函數的概念,以廣義極端值分佈的最大概似估計 (maximum likelihood estimation) 之負對數概似函數為目標函數,在單一斷點假設下建 構斷點位置之廣義極端值分佈模型參數估計方法;方法二、藉由模型選擇準則比較含 斷點模型與對應無斷點模型分辨模型有無斷點。以此兩方法發展毋需假設斷點位置之 廣義極端值分布模型估計,並使用蒙地卡羅方法 (Monte Carlo method),以四種不同位 置參數假設下的廣義極端值分佈模型為對象,模擬斷點位置估計值之平均值與均方差, 評估方法一之斷點位置參數估計之表現;並計算兩常用模型選擇準則 AIC、BIC 自候 選模型選擇正確模型的比例,評估方法二之準則分辨模型有無斷點之表現。. 關鍵字:廣義極端值分佈, 斷點, 轉折點, 分段模型, 極端值分析, 模型選擇, 統計. ii.

(5) Abstract Generalized extreme value distribution is widely used in extreme value analysis. When extreme value data might has breakpoint(change-point), for estimate, we need assuming the location of breakpoint as a known parameter of piecewise constant function and form this function into parameter function of distribution. In this artical we try to approve breakpoint estimate in generalized extreme value distribution. First, by copy idea from piecewise regression, use maximized likelihood in maximum likelihood estimation of all posiable breakpoint as optimize function to estimatie parameter of breakpoint location. Second, use model selection criteria like AIC or BIC to considered the model should have breakpoint or not. To evaluate this two method we selete fore location parameter function as possiable model and use Monte Carlo method. Simulate estimate breakpoint location and investigation mean and mean square error of simulation to evaluate breakpoint location estimation, then use right model selection rate by AIC or BIC to evaluate model selection criteria in breakpoint model.. Keywords: general extreme value distribution, breakpoint, change-point, piecewise model,. extreme value analysis, model selection, statistic. iii.

(6) 目錄 誌謝. i. 中文摘要. ii. 英文摘要. iii. 表目錄. v. 圖目錄. vi. 第一章 緒論. 1. 第二章 模型與方法. 5. 2.1. 帶有斷點的廣義極端值分佈 . . . . . . . . . . . . . . . . . . . . . . . . .. 2.2. 模型選擇. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12. 第三章 模擬測試. 15. 5. 3.1. 模擬測試之共通架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15. 3.2. 斷點位置估計模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18. 3.3. 模型選擇準則模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26. 第四章 結論. 33. 參考文獻. 35. 附錄. 37. 附錄 A 模擬成果表. 37. A.1 斷點位置估計模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 A.2 模型選擇準則模擬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 附錄 B 程式碼. 65. iv.

(7) 表目錄 2.1. 候選 GEV 模型一覽表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13. 3.1. 斷點位置估計模擬使用之參數設定 (除共通參數外) . . . . . . . . . . . . . 19. 3.2. 模型選擇準則模擬使用之參數設定 (除共通參數外) . . . . . . . . . . . . . 27. A.1 斷點位置估計成果表,GEV(0, 1): Overall β2 . . . . . . . . . . . . . . . . 37 A.2 斷點位置估計成果表,GEV(0, 1): β2 = −4 . . . . . . . . . . . . . . . . 38 A.3 斷點位置估計成果表,GEV(0, 1): β2 = −2 . . . . . . . . . . . . . . . . 39 A.4 斷點位置估計成果表,GEV(0, 1): β2 = −1 . . . . . . . . . . . . . . . . 40 A.5 斷點位置估計成果表,GEV(0, 1): β2 = 1 . . . . . . . . . . . . . . . . . 41 A.6 斷點位置估計成果表,GEV(0, 1): β2 = 2 . . . . . . . . . . . . . . . . . 42 A.7 斷點位置估計成果表,GEV(0, 1): β2 = 4 . . . . . . . . . . . . . . . . . 43 A.8 斷點位置估計成果表,GEV(1, 1): Overall β2 . . . . . . . . . . . . . . . . 44 A.9 斷點位置估計成果表,GEV(1, 1): β2 = −4 . . . . . . . . . . . . . . . . 45 A.10 斷點位置估計成果表,GEV(1, 1): β2 = −2 . . . . . . . . . . . . . . . . 46 A.11 斷點位置估計成果表,GEV(1, 1): β2 = −1 . . . . . . . . . . . . . . . . 47 A.12 斷點位置估計成果表,GEV(1, 1): β2 = 1 . . . . . . . . . . . . . . . . . 48 A.13 斷點位置估計成果表,GEV(1, 1): β2 = 2 . . . . . . . . . . . . . . . . . 49 A.14 斷點位置估計成果表,GEV(1, 1): β2 = 4 . . . . . . . . . . . . . . . . . 50 A.15 模型選擇各準則平均正確率以及各模型平均被選擇次數表. v. . . . . . . . . 51.

(8) 圖目錄 1.1. 廣義極端值分佈之不同類形狀參數之機率密度函數圖 . . . . . . . . . . .. 3.1. 斷點位置估計模擬流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . 18. 3.2. 模擬 GEV(0, 1) 斷點位置估計之平均值與變異數分布提琴圖 . . . . . . . 22. 3.3. 模擬 GEV(0, 1) 給定斷點位置 tb = 0.25 在各參數下估計之平均值 . . . . 22. 3.4. 模擬 GEV(0, 1) 給定斷點位置 tb = 0.5 在各參數下估計之平均值 . . . . . 22. 3.5. 模擬 GEV(0, 1) 給定斷點位置 tb = 0.75 在各參數下估計之平均值 . . . . 23. 3.6. 模擬 GEV(0, 1) 給定斷點位置 tb = 0.25 在各參數下估計之變異數 . . . . 23. 3.7. 模擬 GEV(0, 1) 給定斷點位置 tb = 0.5 在各參數下估計之變異數 . . . . . 23. 3.8. 模擬 GEV(0, 1) 給定斷點位置 tb = 0.75 在各參數下估計之變異數 . . . . 23. 3.9. 模擬 GEV(1, 1) 斷點位置估計之平均值與變異數分布提琴圖 . . . . . . . 24. 2. 3.10 模擬 GEV(1, 1) 給定斷點位置 tb = 0.5 在各參數下估計之平均值 . . . . . 25 3.11 模擬 GEV(1, 1) 給定斷點位置 tb = 0.5 在各參數下估計之變異數 . . . . . 25 3.12 模型選擇模擬流程圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.13 各模型選擇準則於模擬 GEV(0, 0) 時選擇正確率 . . . . . . . . . . . . . . 28 3.14 各模型選擇準則於模擬 GEV(0, 1) 時選擇正確率 . . . . . . . . . . . . . . 29 3.15 各模型選擇準則於模擬 GEV(1, 0) 時選擇正確率 . . . . . . . . . . . . . . 29 3.16 各模型選擇準則於模擬 GEV(1, 1), ξ = −0.2 時選擇正確率 . . . . . . . . 30 3.17 各模型選擇準則於模擬 GEV(1, 1), ξ = −0.1 時選擇正確率 . . . . . . . . 30 3.18 各模型選擇準則於模擬 GEV(1, 1), ξ = 0 時選擇正確率 . . . . . . . . . . 31 3.19 各模型選擇準則於模擬 GEV(1, 1), ξ = 0.1 時選擇正確率 . . . . . . . . . 31 3.20 各模型選擇準則於模擬 GEV(1, 1), ξ = 0.2 時選擇正確率 . . . . . . . . . 32. vi.

(9) 第一章. 緒論. 極端事件 (extreme events) 例如氣象研究中的乾旱、洪水、暴雨、強風、地震,或是商 業市場如股市、期貨、大宗物資的極端價格,亦或是其他危險事件例如恐怖攻擊、重 大治安或工安事件的死傷人數或受害規模…等等,其發生往往造成個人或社會極大的 損失或影響,但一般統計分析往往將極端事件視為一種干擾常態假設離群值 (outlier), 被排除於一般之模型估計。為了分析極端事件之嚴重程度與發生機率之關係,極端值 分析 (extreme value analysis) 嘗試藉由在一般資料中分離出極端事件,利用統計理論對 其建立模型並分析之。 極端值分析之概述 極端值分析定義極端值資料的方式目前有兩類:一類是計算資料之區間最大值 (block. maxima)(Coles, 2001, p. 49),一類是計算高於閾值之峰值 (peak over threshold)(Coles, 2001, p. 73),兩種方法選取的極端值資料,其推導之近似分佈有所不同,區間最大值 方法取得之極端值服從的近似分布為廣義極端值分佈 (generalized extreme value distribu-. tion,亦簡稱 GEV);以高於閾值之峰值取得之極端值服從的近似分布為廣義柏拉圖分 配 (generalized pareto distribution),廣義柏拉圖分配之斷點位置估計研究已有前人之成 果 (Chen, Li, Kim, & Kim, 2017; Dierckx & Teugels, 2010),本研究則選擇探討廣義極端 值分佈。 區間最大值與廣義極端值分佈 前述之區間最大值,為考慮某時間序列資料 X1 , X2 , . . . , Xn , . . . 乃一獨立且同機率分 佈之隨機變數數列,則區間最大值之定義為:. Mn = max {X1 , X2 , . . . , Xn }. (1.1). 其中 n 被稱為區間大小 (block size),此定義相對直覺 (例如:每年的年度最大值),被 廣泛應用在各類風險事件的評估中。經由極端值定理 (extreme value theorem,亦稱. Fisher–Tippett theorem 或 extermal types theorem) 保證若存在常數數列 {an > 0} 與. {bn } 使得當 n → ∞ 時,此區間最大值滿足下式: 1.

(10) 第一章. 緒論. 2 (. ). Mn − bn Pr ≤ z → G(z) an. (1.2). 其 中 G(z) 為 一 個 尚 未 退 化 (non-degenerate) 的 機 率 分 佈, 則 其 累 積 分 佈 函 數. G(z; µ, σ, ξ) 必能將之歸納為下列形式:   h i−1/ξ     exp − 1 + ξ z−µ. ξ ̸= 0.  exp. ξ=0. G(z; µ, σ, ξ) = . n. h. − exp −. . σ. z−µ σ. 此 其 分 配 即 為 廣 義 極 端 值 分 佈 (Coles, 2001, pp.. io. (1.3). 46, 49–51), 其 機 率 密 度 函 數. g(z; µ, σ, ξ) 為:.   h   (−1/ξ)−1  i  x−µ x−µ −1/ξ   1+ξ exp − 1 + ξ σ. σ. g(z; µ, σ, ξ) =  n  o n n  oo x−µ  exp − x−µ exp − exp − σ σ. ξ ̸= 0. (1.4). ξ=0. 廣義極端值分佈有三個參數:位置參數 (location parameter, µ)、規模參數 (scale parame-. ter, σ > 0)、形狀參數 (shape parameter, ξ ),後續將以 GEV(µ, σ, ξ) 代表以此為參數之 廣義極端值分佈。其中位置參數 µ 決定了分佈的位置,規模參數 σ 決定了其分散的程 度。而形狀參數 ξ 則決定分佈兩側的行為如下圖 (圖 1.1 (Gill, 2014)):對於 ξ = 0,此 類分佈被稱為 Gumbel 型或型 I 廣義極端值分佈,其左、右尾都未有界;對於 ξ > 0, 此類分佈被稱為 Fréchet 型或型 II 廣義極端值分佈,其左尾有下界但右尾無上界;對於. ξ < 0,此類分佈被稱為 Weibull 型或型 III 廣義極端值分佈,與 Fréchet 型正好相反, 其左尾無下界但右尾有上界 (Coles, 2001, pp. 47–48)。. 圖 1.1: 廣義極端值分佈之不同類形狀參數之機率密度函數圖.

(11) 第一章. 緒論. 3. 廣義極端值分佈的最大概似估計 i.i.d.. 若區間最大值資料 Z = (z1 , z2 , . . . , zm ),滿足 z1 ∈ Z1 , z2 ∈ Z2 , . . . , zm ∈ Zm ∼. GEV(µ, σ, ξ) ,其概似函數 L 可表示成:. L(µ, σ, ξ; Z) =. m Y. g(zi ; µ, σ, ξ). (1.5). i=1. 若 ξ ̸= 0 ,則其對數概似函數 (log-likelihood function) l 為: !.    m zi − µ 1 X log 1 + ξ l(µ, σ, ξ; Z) = −m log σ − 1 + ξ i=1 σ. −. m  X i=1. . zi − µ 1+ξ σ. −1/ξ. (1.6). 且提供我們下列限制式: . 1+ξ. . zi − µ > 0, for i = 1, . . . , m σ. (1.7). 若 ξ = 0 ,則其對數概似函數 l 為:. l(µ, σ; Z) = −m log σ −. m  X zi i=1. . . . m X −µ zi − µ − exp − σ σ i=1. . (1.8). 以參數 (µ, σ, ξ) 最大化此概似函數 l,即可求得廣義極端值分佈的最大概似估計 (maxi-. mum likelihood estimation,後亦稱 MLE),由於無解析解,實際分析時將透過數值方法 估計 (Coles, 2001, pp. 55–56),例如將式 (1.6)~(1.8) 以多維空間優化方法如 Nelder-Mead 方法 (Nelder & Mead, 1965) 尋找極值 (R 語言內建之 optim() 函式使用之方法)。 實際應用時,R 語言的 extReme 擴展包、Matlab 之 Statistics and Machine Learning Tool-. box 與 Nonstationary Extreme Value Analysis (NEVA) Toolbox(Cheng, AghaKouchak, Gilleland, & Katz, 2014) 皆能估計廣義極端值分佈模型之參數。 帶有斷點的極端值分析現況 若實際極端事件觀測資料有不連續之斷點 (breakpoint,亦稱 change point) 時,例如時間 上發生重要災變或社會事件、資料蒐集方式的差異、地理位置的區隔等等,這些能改 變蒐集事件發生背後運作機制結構的重大事件,研究者往往利用分段常函數 (piecewise. constant function) 置入相關之極端值分佈模型參數內,將模型調整成不連續之逐段模型 進行參數估計 (Coles, 2001, p. 106)。.

(12) 第一章. 緒論. 4. 對於斷點位置1 之選擇,則僅能仰賴研究人員自身專業判斷,事前將斷點位置一併於設 定分段常函數階段時置入模型,再藉由模型選擇準則評估是否接受有斷點之模型,若 實際斷點位置與研究人員假設之斷點位置有誤差,甚至未意識到斷點存在,而可能使 研究最終與斷點模型失之交臂。 本文 2.1 章探討帶斷點之廣義極端值分佈的最大概似估計,藉由逐段迴歸模型 (piece-. wise regression model) 之分析架構,以非靜止廣義極端值分佈 (nonstationary general extreme value distribution) 的最大概似估計,構築給定模型假設下之廣義極端值分佈的斷 點位置估計。2.2 章探討分辨模型有無斷點之模型選擇方法,於設定候選模型時,同時 將有無斷點之模型納入考量,以模型選擇準則自候選模型中區別模型有無斷點。 本文第 3 章則是模擬測試,3.1 為說明模擬方法以及基本驗證的假設組合,3.2 模擬評 估 2.1 之斷點場所估計,3.3 則模擬評估 2.2 之模型選擇準則模擬,並於第 4 章討論第 3 章模擬測試之成果並作結論。. 1. 本論文以位置為稱呼之名詞有位置參數 µ 與斷點位置 tb ,兩者意義不同,前者為廣義極端值分佈之 三個基本參數之名稱,後者為影響前者之發生位置,閱讀時須注意。.

(13) 第二章. 模型與方法. 2.1 帶有斷點的廣義極端值分佈 即便靜止 (stationary) 為極端值定理論證的必要假設,實際分析往往不具備此特徵,例 如資料包含空間變數或時間變數時,各個資料點的廣義極端值分佈參數值可能依此 變數有所不同,面對此類需要,解決方案是將自變數與受影響之參數的關係式直接置 入該參數,使分佈的三參數從常數變為函數形式,稱為參數函數。例如假設此極端事 件服從廣義極端值分佈,但其參數受時間變數 t 及其他變數向量 X 影響,且其在位 置、規模、形狀參數上皆有作用,那可以將此三參數改寫成函數形式:µ = µ(t; X),. σ = σ(t; X) > 0, ξ = ξ(t; X) (表示成 GEV(µ(t; X), σ(t; X), ξ(t; X))),此廣義極端值 分佈被稱為非靜止廣義極端值分佈 (Coles, 2001, pp. 105–108)。 斷點 (breakpoint,或稱 change-point) 則是指模型的不連續 (discontinuity),若假設斷 點事件 b 發生於變數 t 所在空間之 tb 處,在 (非靜止) 廣義極端值分佈,其三個參數. µ, σ, ξ ,至少存在一個以上的參數其參數函數為分段函數 (piecewise function),以斷點 僅影響位置函數為例,其參數函數可以下列形式表達:. µ(t, tb ) =.  h. t < tb. h. t ≥ tb. 0 (t), 1 (t),. (2.1). 即,在 t < tb 時 zt 之分佈為 GEV(h0 (t), σ(t; X), ξ(t; X)),在 t ≥ tb 時 zt 之分佈為. GEV(h1 (t), σ(t; X), ξ(t; X)),若假設 h(t) = h1 (t) − h0 (t),則受斷點影響之參數函數 可進一步化簡其表達式:. h0 (t) + Itb (t)h(t). (2.2). 其中,Itb (t) 為指示函數 (indicator function),於 t < tb 時 Itb (t) = 0,於 t ≥ tb 時. Itb (t) = 1,故在 t < tb 時,受斷點影響之參數函數為 h0 (t),在 t ≥ tb 時,受斷點影響 之參數函數為 h0 (t) + h(t)。. 5.

(14) 第二章. 模型與方法. 6. 拓展至多個斷點 b1 , b2 , . . . , bp 其位置分別為 tb1 , tb2 , . . . , tbp ,則受斷點影響的參數函數 可表達為:. h0 (t) +. p X. Itbi (t)hi (t). (2.3). i=1. 2.1.1. 非靜止廣義極端值分佈與其最大概似估計. 對於非靜止廣義極端值分佈模型之最大概似估計,令 β 為參數函數 µ(t), σ(t), ξ(t) 內 待估參數形成的向量,且觀察之資料為 Z = (z1 , z2 , . . . , zm ),代入式 (1.6)-(1.8) 可得其 對數概似函數:. l(β; Z) = −. m X t=1. (. !. ". 1 zt − µ(t) log σ(t) + 1 + log 1 + ξ(t) ξ(t) σ(t) ". zt − µ(t) + 1 + ξ(t) σ(t). !#. !#−1/ξ(t)  . (2.4). . 與限制式:. zt − µ(t) 1 + ξ(t) σ(t). !. > 0, for t = 1, . . . , m. (2.5). 若存在部分的項其 ξ(t) = 0,則這些項需要求取 ξ(t) → 0 近似解,將該項替換為: !. (. zt − µ(t) zt − µ(t) log σ(t) + + exp − σ(t) σ(t). !). (2.6). 同樣的,此概似函數的最大化亦無解析解,依然需要將透過數值方法估計 (Coles, 2001,. pp. 108–109)。 往昔對於斷點模型之估計,則是設斷點已知調整參數函數變為 µ(t, Itb (t)), σ(t, Itb (t)),. ξ(t, Itb (t)),帶入式 (2.4) 取得其對數概似函數:.  m  X. ". zt − µ(t, Itb (t)) l(β; Z, tb ) = − log σ(t, Itb (t)) + 1 + ξ(t, Itb (t))  σ(t, Itb (t)) t=1 !. ". !#−1/ξ(t,It (t)) b. 1 zt − µ(t, Itb (t)) + 1+ log 1 + ξ(t, Itb (t)) ξ(t, Itb (t)) σ(t, Itb (t)). !#). (2.7).

(15) 第二章. 模型與方法. 7. 並透過數值方法估計其最佳化之解。. 2.1.2. 逐段迴歸分析. 前節提及之往昔估計方法,斷點位置須先行給定 (Coles, 2001, p. 106; 及 Mohtadi &. Murshid, 2009),通常是以人類容易觀測的節點訂之,例如季節、歷史事件、地理位置 等等,再藉由模型選擇準則如似然比檢驗 (likelihood ratio test),判斷是否接受此類有 斷點的模型。 估計斷點位置的類似模型,在逐段迴歸 (piecewise regression,或稱 broken-stick regres-. sion) 中已有類似的討論 (McGee & Carleton, 1970; 及 Oosterbaan, Sharma, Singh, & Rao, 1990),其基本問題是僅單一斷點模型,考慮對於資料 (X, Y ) = {(xt , yt )|t =. 1, 2, . . . , n} 服從下列關係式: yt = β0 + β1 xt + β2 Iβ3 (xt )(β4 + xt ) + ϵt 其中 ϵt ∈ ϵ1 , ϵ2 , . . . , ϵn. iid ∼. (2.8). N (0, σ) ,而其估計方法則可以由下列步驟實現:. 1. 對 x1 , x2 , . . . , xn 重排序成:. min{xt |t = 1, 2, . . . , n} = x(1) ≤ x(2) ≤ · · · ≤ x(n) = max{xt |t = 1, 2, . . . , n} (2.9) (i) 2. 對 i = 2, . . . , n,令 βˆ3 = x(i) ,以化簡模型. yt = β0 + β1 xt + β2 Iβˆ (i) (xt )(β4 + xt ) + ϵt 3. (i). (i). (i). (2.10). (i). 進行 MLE 估計,取得其餘估計參數 βˆ0 , βˆ1 , βˆ2 , βˆ4 ,估計 yt 在此模型下的 (i). 預測值 yˆt ,以此估計均方根誤差 (root-mean-square error,簡稱 RMSE):. RMSE(i) =. v uP (i) u n (ˆ t t=1 yt. − yt )2. n. (2.11). 3. 尋找使 RMSE 最小的序號 i,令其為 i∗ :. i∗ = arg min(RMSE(i) ) i. (2.12).

(16) 第二章. 模型與方法. 8. 以該 i∗ 之簡化模型的參數估計 βˆ0 位置 βˆ3. (i∗ ). (i∗ ). , βˆ1. (i∗ ). , βˆ2. (i∗ ). , βˆ4. (i∗ ). 及該簡化模型給定之斷點. 為原始模型的參數估計。. 實際上,逐段迴歸估計斷點位置的演算法並不限於此 (例如:Ferrari Trecate & Muselli. (2002)、Stephen (2017)、Yang et al. (2019)),其概念都是藉由搜尋中可能之斷點位置或 將資料嘗試分區處理,將模型簡化成不須估計斷點位置之形式,再估計目標函數 (ob-. jective function) 值 (此例為估計 RMSE),最後再比較斷點處於何處或資料如何分區時 能最佳化目標函數。 無母數之逐段分析 類似於逐段迴歸分析之斷點研究亦有無母數 (nonparametric) 方法 (Avanesov, 2019; Brod-. sky & Darkhovsky, 1993),其主流探討的假設檢定為:. H0 ∀i : yi = f (Xi ) + εi   y i. H1 ∃τ, f1 ̸= f2 :  . = f1 (Xi ) + ϵi. yi = f2 (Xi ) + ϵi. (2.13). if i < τ. (2.14). otherwise. 其中 ϵi 為獨立同分佈之某隨機變數,此類檢定之方法使用無母數統計量為目標函數, 藉由搜尋使目標函數最佳化之 τ 進行斷點位置估計此。此方法主要用做及時判斷時間 序列資料是否發生轉折點,亦可視 f1 , f2 為位置參數函數、ϵi ∼ GEV(0, σ, ξ),以此方 式應用無母數方法於僅位置參數非靜止之廣義極端值分佈模型之斷點估計。但在其餘 參數非靜止時,將違反 ϵi 獨立同分佈之假設,若要利用無母數方法可能還需考慮其他 假設前提之方法。. 2.1.3. 斷點廣義極端值分佈的最大概似估計. 今 若 欲 對 觀 測 資 料 Z = {(zti , ti )|i = 1, 2, . . . , m} (其 中 i = 2, . . . , m 滿 足. ti − ti−1 = d),進行未知斷點位置之廣義極端值分佈模型估計,其使用之模型亦 為 GEV(µ(t, Itb (t)), σ(t, Itb (t)), ξ(t, Itb (t))),但其對數概似函數稍有不同:. l(β, tb ; Z). (2.15). 其中原本於式 (2.7) 給定之 tb 參數變為待估參數 (β 在式 (2.7) 表示所有待估之參數形成 之向量,此處定義稍微修改為 tb 外待估之參數),此為需考慮之完整模型。.

(17) 第二章. 模型與方法. 9 (i). 仿照逐段迴歸,將除最小之 t1 外的所有相異的 ti 都先視為可能的斷點 tb ,則有 m − 1 (i). 種化簡模型,以 i 為索引值之化簡模型,其對數概似函數即為將 tb 帶入式 (2.7) 中 tb (i). 者 (l(β; Z, tb )),由於 MLE 實際進行數值估計時較常使用負對數概似值 (negative log-. likelihood value,亦簡稱 NLL),故使用化簡模型之目標函數以最小化負對數概似值為 目標: n. (i). o. NLL(i) = min −l(β; Z, tb ). (2.16). β. 搜尋能使 NLL(i) 最小化之索引值 i∗ : n. i∗ = arg min NLL(i). o. (2.17). i. 則 tb 之估計值為:. (i∗ ). tbb = tb. (2.18). 其餘參數 β 之估計則直接使用索引值 i∗ 之化簡模型估計: n. (i∗ ). o. βb = βb(i ) = arg min −l(β; Z, tb ) ∗. (2.19). β. 總結而言,最後完整模型之參數估計,除斷點位置估計是使用搜尋最佳化目標函數之 (i∗ ). 索引值 i∗ 下將完整模型修改成化簡模型之斷點位置條件 tb. 之外,其餘估計皆直接沿. 用該索引值下化簡模型之估計結果。唯須注意若後續有需要估計模型選擇準則時,參 數個數需要將 tb 占用之參數個數做考量,而非直接使用化簡模型之參數個數作為準則 估算之用。. 2.1.3.1. 斷點位置估計範例. 今以位置參數函數為 µ(t) = β0 + β2 Itb (t) 之 GEV(β0 + β2 Itb (t), σ, ξ) 模型為例,設定 參數 β0 = 0, β2 = 4, σ = 1, ξ = 0 產生下列之模擬資料 x:.

(18) 第二章. 模型與方法. 10. i. x. t. i. x. t. 1. 1.522. 0.033. 11. -0.081. 0.367. 2. 1.015. 0.067. 12. -0.072. 3. 0.977. 0.100. 13. 4. -0.979. 0.133. 5. -0.711. 6. i. x. t. 21. 4.286. 0.700. 0.400. 22. 3.776. 0.733. 1.277. 0.433. 23. 4.181. 0.767. 14. 2.143. 0.467. 24. 4.581. 0.800. 0.167. 15. 4.972. 0.500. 25. 5.232. 0.833. 0.042. 0.200. 16. 4.677. 0.533. 26. 4.572. 0.867. 7. 3.523. 0.233. 17. 3.278. 0.567. 27. 6.363. 0.900. 8. 3.320. 0.267. 18. 4.312. 0.600. 28. 5.900. 0.933. 9. 0.768. 0.300. 19. 4.056. 0.633. 29. 7.493. 0.967. 10. -0.248. 0.333. 20. 4.028. 0.667. 30. 3.045. 1.000. 其散佈圖如下。. 6. x. 4. 2. 0. 0.00. 0.25. 0.50. 0.75. 1.00. t. 今欲對此資料以模型 GEV(β0 + β2 Itb (t), σ, ξ) 做 MLE 以估計其參數 (β0 , β2 , tb , σ, ξ), (i). 則對 i = 2, . . . , 30 假設 tb = ti ,估計簡化模型 GEV(β0 + β2 It(i) (t), σ, ξ) 之 NLL(i) 如 b. 下表:.

(19) 第二章. 模型與方法. NLL(i). i. 11 (i). tb. (i). NLL(i). tb. 11. 59.08. 0.367. i. (i). NLL(i). tb. 21. 58.24. 0.700. i. 2. 66.17. 0.067. 12. 56.53. 0.400. 22. 58.89. 0.733. 3. 65.75. 0.100. 13. 52.22. 0.433. 23. 58.58. 0.767. 4. 65.26. 0.133. 14. 48.54. 0.467. 24. 58.27. 0.800. 5. 63.77. 0.167. 15. 46.10. 0.500. 25. 57.97. 0.833. 6. 62.03. 0.200. 16. 49.32. 0.533. 26. 59.27. 0.867. 7. 60.47. 0.233. 17. 52.02. 0.567. 27. 58.76. 0.900. 8. 61.61. 0.267. 18. 53.21. 0.600. 28. 63.27. 0.933. 9. 62.17. 0.300. 19. 55.37. 0.633. 29. 64.15. 0.967. 10. 61.09. 0.333. 20. 57.04. 0.667. 30. 66.39. 1.000. 可知於 i = 15 時,NLL(i) 有最小值 46.10,故對應之斷點位置估計為 tbb = 0.5, c, β c, σ b 其餘估計參數為 GEV(β0 + β2 It(15) (t), σ, ξ) 時其他參數之估計值 (β 0 2 b , ξ) = b. (βc0. (15). , βc2. (15). , σb (15) , ξb(15) ) = (0.20(0.28), 4.00(0.35), 0.94(0.15), 0.03(0.16)) (估計值後. 方之 () 內數據為估計變異數),與最初模擬給定之參數接近。.

(20) 第二章. 模型與方法. 12. 2.2 模型選擇 前述理論僅能在已知模型下,估計僅有一個斷點之斷點位置與其他模型參數,若欲分 辨模型有無斷點,或是探討斷點影響模型之形式 (如 h0 (t), h(t) 之設定),為模型選則 方法之範疇。 廣義極端值分佈之模型選擇方法,Coles (2001) 使用概似比檢定 (likelihood ratio test) 作為兩模型對比選擇之依據。而後 Kim, Kim, Shin, & Heo (2017) 將常見之模型選則 準則應用於自多組候選廣義極端值分佈模型中選擇正確之模型,其使用之模型選則準 則,包含赤池信息量準則 (Akaike information criterion,簡稱 AIC) 與貝氏信息量準則. (Bayesian information criterion,簡稱 BIC),其定義分別如下:. AIC = 2k − 2 ln(L). (2.20). BIC = ln(n)k − 2 ln(L). (2.21). 其中 k 為參數個數,n 為樣本資料數,L 為最大化概似函數值。AIC 之概念為於模型複 雜度與配適度 (goodness of fit) 中取得平衡 (Akaike, 1973),BIC 則是藉由推導統計模型 的後驗 (posterior) 最大化概似值衍生的估計量 (Schwarz, 1978)。兩準則皆為越小越好, 由於 log(n) = 2 時,n = e2 ≈ 7.39 且 log 為單調遞增函數,故在 n ≥ 8 時 BIC 給予的 懲罰比 AIC 多,使的 BIC 在大樣本下給予參數的懲罰比 AIC 多,選擇傾向較 AIC 保 守 (conservative)。 不同準則之表現狀況在不同條件下未知,該研究使用蒙地卡羅方法 (Monte Carlo. method),觀察其感興趣之模型在給定之參數範圍下,以不同準則從候選模型中選擇正 確模型之正確率,做為衡量各準則之基準,評估不同參數範圍內何種法則較佳,其範 例待第 3 章解釋完模型設定後演示。. 2.2.1. 模型設定. 包含斷點之廣義極端值分佈模型無盡,本研究先著手於其基礎者且常用者,即僅有單 一斷點或無斷點,而斷點僅影響位置參數,斷點影響參數函數之形式也僅對函數之常 數值產生影響 (即造成斷層)。 首先,考慮斷點作用於靜止廣義極端值分佈模型 (即為 2.1.3.1 之範例所演示者),其位 置參數函數為 µ(t) = β0 + β2 Itb (t)。對應的無斷點模型為靜止廣義極端值分佈模型, 位置參數函數為 µ(t) = β0 。另一組模型為斷點作用於位置參數函數為一次線性函數之.

(21) 第二章. 模型與方法. 13. 廣義極端值分佈模型,其位置參數函數為 µ(t) = β0 + β1 t + β2 Itb (t),對應的無斷點模 型其位置參數函數為 µ(t) = β0 + β1 t。 上述四個模型皆可視為 µ(t) = β0 + β1 t + β2 Itb (t) 的簡化模型,故本研究後續以 β1 , β2 是否為零,將四個模型以 GEV(a, b) 記之,其中 a 為 β1 是否為零,其中 b 為 β2 是否 為零,兩者皆以 1 為該參數為非零、以 0 為該參數為零。 由於為 GEV 模型,故皆需參數對規模參數 σ 、形狀參數 ξ 進行估計,表 2.1 為此四模 型之基本概述。 表 2.1: 候選 GEV 模型一覽表 模型. 位置參數函數. 模型待估計參數 (β ). 參數個數. GEV(0, 0) µ(t) = β0. β0 , σ, ξ. 3. GEV(1, 0) µ(t) = β0 + β1 t. β0 , β1 , σ, ξ. 4. GEV(0, 1) µ(t) = β0 + β2 Itb (t). β0 β2 , tb , σ, ξ. 5. GEV(1, 1) µ(t) = β0 + β1 t + β2 Itb (t) β0 , β1 , β2 , tb , σ, ξ. 2.2.1.1. 6. 模型選擇範例. 續以 2.1.3.1 節之範例說明,沿用相同位置參數函數為 µ(t) = β0 + β2 Itb (t) 之. GEV(β0 + β2 Itb (t), σ, ξ)(即 GEV(0, 1)) 模 型 以 及 2.1.3.1 產 生 之 模 擬 資 料, 若 以 GEV(0, 0)、GEV(1, 0)、GEV(0, 1)、GEV(1, 1) 對其進行最大概似估計,結果如下 表:. βc0. βc1. βc2. tbb. σb. ξb. GEV(0, 0). 2.18(0.46). NA. NA. NA. 2.29(0.46). -0.35(0.13). GEV(0, 1). 0.20(0.28). NA. 4.00(0.35). 0.5. 0.94(0.15). 0.03(0.16). NA. NA. 1.48(0.26). -0.49(0.19). 3.66(0.82). 0.5. 0.95(0.15). -0.0030(0.17). Model. GEV(1, 0) -0.421(0.56) 5.78(0.80) GEV(1, 1). 0.078(0.39). 0.63(1.38). Model. NLL. AIC. BIC. GEV(0, 0) 66.39 138.8. 143.0. GEV(0, 1) 46.10 102.2. 109.2. GEV(1, 0) 51.04. 110.1. 115.7. GEV(1, 1) 45.99 102.0. 109.0. 我們可以看到,無論是 NLL、AIC、BIC,最小者皆為 GEV(1, 1),故最後三準則選擇 到的都是 GEV(1, 1) 這個模型。.

(22) 第二章. 模型與方法. 14. 假如重複這樣的模擬 1000 次,紀錄三準則對此四模型選擇之累計次數表並估計選擇. GEV(0, 1) 之次數比率如下: Model. NLL. AIC. BIC. GEV(0, 0). 0. 1. 2. GEV(0, 1)∗. 13. 722. 828. GEV(1, 0). 0. 1. 3. 987. 276. 167. 1.30%. 72.20%. 82.80%. GEV(1, 1) Select rate of. ∗. 可以發現在 AIC、BIC,多數模擬還是會選擇到參數給定之 GEV(0, 1) 模型。.

(23) 第三章. 模擬測試. 為初步驗證前章 2.1, 2.1 節之估計方法,本研究選擇位置參數函數 µ(t) 為 β0 +. β1 t + β2 Itb (t) (GEV(1, 1)) 及 其 簡 化 形 式 β0 (GEV(0, 0)), β0 + β1 t (GEV(1, 0)), β0 + β2 Itb (t) (GEV(0, 1)) 之四種廣義極端值模型為候選模型。探討在樣本數 n 為 {30, 40, 50, 70, 90, 110, 150},實際模型之形狀參數 ξ 為 {0, ±0.1, ±0.2}、規模參數 σ 固定為 1 時、位置參數函數常數值 β0 固定為 0,兩方法之表現,詳細選擇之理由與模 擬之程序概要參見本章 3.1 節。. 3.2 節為驗證 2.1 斷點位置估計方法之模擬,對 GEV(0, 1) 以 β2 ∈ {±1, ±2, ±4}, tb ∈. {0.25, 0.5, 0.75} 為參數組合;對 GEV(1, 1) 以 β1 , β2 ∈ {±1, ±2, ±4}, tb = 0.5 為參數 組合,各組合分別迭代模擬 1000 次斷點位置估計,計算斷點位置估計之平均值與變異 數,並以之與模型給定之 tb 做比較。. 3.3 節 為 驗 證 2.2 模 型 選 擇 準 則 區 別 模 型 有 無 斷 點 之 模 擬, 對 參 數 β1 , β2. ∈. {0, ±1, ±2, ±4}, tb = 0.5 之 所 有 組 合 計 算 四 種 候 選 模 型 每 次 迭 代 估 計 之 NLL, AIC, BIC 值,並統計此三準則自四種模型中選擇正確模型之選擇率。 3.2, 3.3 兩節將詳述其模擬步驟,使用之參數組合,以及作為觀察之估計統計量之定 義,並簡報其模擬結果,詳細之程式碼與模擬成果之概要表列於論文附錄,詳細模擬 成果表則公開放置於 GitHub 之 PeterHsi/EBP-in-GEV1 專案內。. 3.1 3.1.1. 模擬測試之共通架構. 模擬流程. 無論哪個主題,本研究使用的模擬框架皆相同: 首先,對於一組模型內的某組參數 (β0 , β1 , β2 , tb , σ, ξ ),以設定好的資料樣本數 n 進行 該模型的模擬隨機變數資料產生。 1. https://github.com/PeterHsi/EBP-in-GEV. 15.

(24) 第三章. 模擬測試. 16. 第二,以該模擬隨機變數資料,進行對應主題的估計,並記錄供後續估計指標統計量 使用之資訊。 第三,重複前述兩步驟,累計重複模擬至本研究設定之迭代次數 N = 1000 次,並估 計此參數條件下欲觀測個方法表現狀況之指標統計量。 第四,更換另一組須模擬之參數組合 (β0 , β1 , β2 , tb , σ, ξ ),重複前三步驟,直至模擬完 成。 關於上述提及之參數組合說明如下:. 3.1.2. 自變數之處理. 關於自變數 t,一般預設為帶入第 t 筆資料,但由於模擬使用之 extReme 擴展包,預設 每個資料間隔之週期為一年,故 n 筆資料將視為有 n 個年度之區間最大值資料,如此 前提進行估計將使 β1 隨樣本數越大,相較於 β2 對位置之影響產生越大之影響,為了 讓兩者對整體變數函數影響不變,便將自變數 t 進行標準化處理,其處理之公式為:. ti = i/n, for i = 1, 2, . . . , n. (3.1). 其中 i 為該筆資料為此次模擬之亂數資料之生成順序,n 為此次模擬設定之樣本數。 若將 t 視為時間變數,則標準化後之資料可以視為,在同樣時間週期內,取 n 等份區 間之區間最大值之資料。. 3.1.3. 共通參數設定. 3.1.3.1. 形狀參數. 形狀參數 ξ 會影響 MLE 估計,故考慮之形狀參數將會嘗試三種類型的參數,Gumbel 型 (型 I ) 將嘗試 ξ = 0;Fréchet 型 (型 II ) 將嘗試 ξ = 0.1, 0.2;而 Weibull 型 (型 III ) 將 嘗試 ξ = −0.1, −0.2,共計五種不同之 ξ 之設定。. MEL 估計在 ξ 超過正負 0.5 時,經驗上會容易產生概似值估計無法收斂之情況,研究 者可藉由變數轉換之技巧避免參數估計落在此範圍之外,故模擬僅考量在估計安定之 正負 0.2 區間之內。 由於 Fréchet 型 (型 II )GEV 分佈資料的離散程度相對其他型 GEV 分佈更為離散,預想 應相對於其他兩種類型更容易估計失準。.

(25) 第三章 3.1.3.2. 模擬測試. 17. 樣本數. 另一個影響 MLE 估計之重要因素為樣本數 n,本研究使用之樣本數有 30, 40, 50, 70, 90, 110, 150 共計七種設定,由於前述自變數處裡已經將資料之時間區間定義在單位週期內,樣本 數可是為不同區間大小下形成之取樣數,粗略以一年 360 日為計算,樣本數 30 即代表 每 12 日取一最大,樣本數 150 可視為 2 到 3 日取一最大值數據。一般來說,樣本數越 多估計表現越良好,故預想所有估計應該依樣本數越大越好 (變異數下降、估計值與設 定值平均差距越少、模型選擇至參數設定之模型比例越高)。 在模型選擇準則之探討上,由於 BIC 之處罰較 AIC 更受樣本數影響大,預想在大樣本 時,BIC 表現會比 AIC 更不容易選擇複雜模型,從而提升 GEV(0, 0), GEV(0, 1), GEV(1, 0) 之選擇正確模型比率的效果比 AIC 顯著,使 GEV(1, 1) 不易因提昇樣本數提升選擇正 確比率。. 3.1.3.3. 規模參數、位置參數函數之常數值. 規模參數 σ ,可視為位置參數函數之變動範圍參考比例,由於本研究主要探討為位置 參數,故將規模參數固定在 σ = 1,以方便觀察變動位置參數函數之超參數時,會對 其他估計產生何種效應。 位置參數函數之常數值 β0 ,亦非估計重心,故統一設定 β0 = 0。. 3.1.3.4. 共通參數設定歸納. 上述本段落提及之共通參數設定歸納如下:. • 位置參數函數之常數值 β0 :固定為 0。 • 規模參數 σ :固定為 1。 • 形狀參數 ξ :下列參數皆會模擬 – Gumbel 型 (型 I ):0。 – Fréchet 型 (型 II ):0.1, 0.2。 – Weibull 型 (型 III ):−0.1, −0.2。. • 樣本數 n:將模擬 30, 40, 50, 70, 90, 110, 150。 • 迭代次數 N :1000。.

(26) 第三章. 模擬測試. 18. 3.2 斷點位置估計模擬 此模擬測試目的是驗證以正確之包含斷點之模型假設,進行廣義極端值分佈模型之參 數估計,其對於斷點位置 tb 之估計是否堪用。本研究將對設定之兩組包含斷點之模型. GEV(0, 1), GEV(1, 1) 之下的所有考慮的參數組合進行迭代次數 N = 1000 次之模擬。 並在模擬之後估計此 N 次之平均估計值與估計值變異數作為評價估計與母體值之偏誤 程度與離散程度。. 3.2.1. 模擬詳細設定. 斷點位置估計模擬程序如下圖 (圖 3.1):. 模擬開始. 設定模 型參數. 計算估計 斷點位置 之平均值 與變異數. 是. 以對應模型 估計斷點並 紀錄估計之 斷點位置. 模擬生成服 從設定模型 的抽樣資料 否. 同一參數 是否已迭 代 N 次. 是 是否尚有 需測試的 參數組合. 否 模擬結束. 圖 3.1: 斷點位置估計模擬流程圖. 其詳細設定如本節後續小節所述。. 3.2.1.1. 模擬參數. 除 3.1.4 節提及之共用參數組合設定 (β0 , σ, ξ, n, N ),模擬斷點位置估計所用的參數組 合依模型,做以下設定:.

(27) 第三章. 模擬測試. 19. • 對於 GEV(0, 1),其位置參數函數對 t 之一次項參數 β1 ,因為模型預設沒有斜率, 故設定為 0;其位置參數函數之斷點指示函數係數 β2 ,則考慮 ±1, ±2, ±4,共計 六種組合;而斷點位置 tb 則考慮位於變數 t 之三個四分位數處,即 0.25, 0.5, 0.75, 共計三種組合。. • 對於 GEV(1, 1),β1 , β2 兩參數皆考慮 ±1, ±2, ±4,各六種組合;斷點位置 tb 則 僅考慮位於中間處,即 0.5。. 總合而言,使用的參數設定如下表: 表 3.1: 斷點位置估計模擬使用之參數設定 (除共通參數外) 模型. β1. β2. GEV(0, 1). 0. −4, −2, −1, 1, 2, 4 0.25, 0.5, 0.75. tb. GEV(1, 1) −4, −2, −1, 1, 2, 4 −4, −2, −1, 1, 2, 4 0.5. 配合 3.1.4 節提及之共用參數組合,GEV(0, 1) 共嘗試 5 (ξ 之種類)×7 (n 之種類)×6 (β2 之種類)×3 (tb 之種類) 共 630 種參數組合 (其中各 tb 各有 210 種組合);GEV(1, 1) 則嘗 試 5(ξ 之種類)×7(n 之種類)×6 (β1 之種類)×6 (β2 之種類)×1 (tb 之種類) 共 1260 種參 數組合,每種組合各 1000 次迭代模擬,每次迭代模擬紀錄其估計斷點位置,並在最後 計算同參數組合下,下節所述之模擬平均值與模擬均方差為成果。. 3.2.1.2. 估計指標統計量定義. 為衡量斷點位置估計值 tbb ,本研究使用模擬平均值觀測估計期望值、使用模擬均方差 觀測估計變異數,其定義分別為: 模擬平均值 (E ):. E=. N b X tbi i=1. N. (3.2). 模擬均方差 (MSE ):. MSE =. N X (tbbi i=1. 範例. − E)2 N. (3.3).

(28) 第三章. 模擬測試. 20. 作為模擬程序之舉例,吾人將模擬 GEV(0, 1) 模型下之參數為 (β0 , β1 , β2 , tb , σ, ξ, n) =. (0, 0, 4, 0.5, 0, 30) 之 1000 次迭代成果作為說明: 在這 1000 次迭代中,每次估計斷點位置就如 2.1.3.1 節示範的一樣,於是這 1000 次迭 代將產生 1000 個斷點位置估計,此 1000 個模擬估計斷點之近似分布圖如下: Estimate tb in GEV(0,1): tb = 0. 5 , β2 = 4, ξ=0, n=30. 30. density. 20. 10. 0 0.00. 0.25. 0.50. 0.75. tb. 圖 上 綠 色 線 條 為 估 計 分 布, 藍 色 點 即 為 模 擬 平 均 值 E , 而 紅 色 之 區 間 為 [E −. √. √ MSE, E + MSE],這兩個模擬統計值 E , MSE 是之後模擬結果作為呈現之統計值。. 視覺化呈現說明 除文字方式呈現以外,另有提琴圖與熱度圖兩種呈現形式: 提琴圖做為概觀主要影響參數與統計值之間的分布關係,每個提琴是同樣主參數下. (GEV(0, 1) 以 tb 、GEV(1, 1) 以 β2 為主參數) 混合所有參數之統計值分佈狀況,每 個提琴在縱軸的「琴寬」(圖形橫向寬度) 代表該主參數下,估計出縱軸對應數值的統計 量的參數組合數。舉例而言,若今總計有六種組合,共三種參數組合估計為 3 (占整體 比例 1/2)、兩種估計為 2 (占 1/3)、一種估計為 1 (占 1/6),則以縱向刻度為 1 處之寬 度為 1 單位,在縱向刻度為 3 處提琴寬度將為 3 單位、2 處寬度為 2 單位。 熱度圖做為呈現所有參數組合下統計值的表現,其分圖上方標籤、分圖右方標籤、橫 軸刻度、縱軸刻度標示對應的參數組合,該格內色塊色彩即為統計值,模擬平均值與 給定之 tb 一樣會是白色、高估會偏紅、低估會偏藍,模擬均方差則是與 0 做比較,越 遠離 0 色塊顏色越黑。.

(29) 第三章. 模擬測試. 3.2.2. 模擬結果. 3.2.2.1. GEV(0, 1) 之結果. 21. 斷點位於前段處 tb = 0.25 下模擬之 210 種組合之中,估計平均最大值為 0.55090、最 小為 0.24465。有 90%(189 種) 組合之估計平均值介於區間 [0.24, 0.34] 之內,僅有 8 種 組合估計平均值低於 tb 。平均值最極端之 5 種組合其設定 β2 皆為 4 ,ξ 介於 0 ∼ 0.2 之間,n 皆大於等於 110,其估計平均值範圍介於 [0.40, 0.55] 區間內。估計值變異數 有 90% 組合落於 [2.79 × 10−6 , 5.28 × 10−2 ] 區間之內,變異數最小之 25 種組合其 β2 皆為 −4,變異數最大之 13 種組合其 β2 為 4。 在設定斷點位於相反處之 tb = 0.75 下之 210 種組合之中,估計平均最大值為 0.87525、 最小為 0.49437。有 90%(189 種) 組合之估計平均值介於區間 [0.69, 0.86] 之內,有. 47.1%(99 種) 組合介於 [0.74, 0.76] 之間。有 111 種組合估計平均值高於 tb ,99 種組合 平均值低於 tb 。平均值最兩端之組合有兩種型態,一為其設定 β2 皆為 −4 ,而為其設 定 β2 為 ±1 且 n 小於等於 50。估計值變異數有 90% 組合落於 [3.18×10−6 , 6.81×10−2 ] 區間之內,變異數最小之 24 種組合其 β2 皆為 4,變異數最大之 24 種組合其 β2 為 −4。 在斷點位於正中間之 t = 0.5 模擬之 210 種組合之中,其估計較為安定,整體均落在. [0.47, 0.53] 之區間內。估計值變異數全體落於 [3.73 × 10−6 , 3.55 × 10−2 ] 區間之內。 整體而言,斷點位於正中間估計狀況皆良好,即便斷點位於前後四分位數,多數情況 下估計仍表現良好 (圖 3.22 )。從熱度圖來看 (圖 3.3-3.83 , 表 A.1-A.7),只要提高樣本數. n 估計皆會越來越準,唯有當斷點位置 tb 靠前且斷層 β2 大幅上移,或斷點 tb 靠後且斷 層 β2 大幅下移,才會出現即使 n 越大估計越來越失準之情況。 2. 此提琴圖為同 tb 設定 (x 軸) 下,混合所有參數設定之觀察統計量 (y 軸) 的分配圖,之後圖 3.9 亦類 似僅 x 軸更動為不同 β2 。 3 此熱度圖各色塊之色階為對應統計量之值,各色塊之位置為給定之參數值,後續圖 3.10-3.11 亦同。.

(30) 第三章. 模擬測試. 22. Mean of Estimate Breakpoint Position in GEV(0,1). Mean of estimate position. 0.8. 0.6. 0.4. 0.25. 0.5. 0.75. Setting position of breakpoint. Variance of estimate position. Variance of Estimate Breakpoint Position in GEV(0,1). 0.15. 0.10. 0.05. 0.00 0.25. 0.5. 0.75. Setting position of breakpoint. 圖 3.2: 模擬 GEV(0, 1) 斷點位置估計之平均值與變異數分布提琴圖 (violin plot). Breakpoint Estimation Mean of GEV(0,1),tb = 0.25 β2 = −4. ξ. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. ~ E(tb) 0.50. 0.2 0.1 0.0 −0.1 −0.2. 0.25. 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 0.00. n. 圖 3.3: 模擬 GEV(0, 1) 給定斷點位置 tb = 0.25 在各參數下估計之平均值. Breakpoint Estimation Mean of GEV(0,1),tb = 0.5 β2 = −4. ξ. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. ~ E(tb) 0.55. 0.2 0.1 0.0 −0.1 −0.2. 0.50. 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. n. 50. 90 150 30. 50. 90 150 30. 50. 90 150 0.45. 圖 3.4: 模擬 GEV(0, 1) 給定斷點位置 tb = 0.5 在各參數下估計之平均值.

(31) 第三章. 模擬測試. 23. Breakpoint Estimation Mean of GEV(0,1),tb = 0.75 β2 = −4. ξ. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. ~ E(tb) 1.00. 0.2 0.1 0.0 −0.1 −0.2. 0.75. 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 0.50. n. 圖 3.5: 模擬 GEV(0, 1) 給定斷點位置 tb = 0.75 在各參數下估計之平均值. Breakpoint Estimation Variance of GEV(0,1),tb = 0.25 β2 = −4. ξ. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. 0.2 0.1 0.0 −0.1 −0.2. ~ Var(tb). 0.10 0.05 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150. n. 圖 3.6: 模擬 GEV(0, 1) 給定斷點位置 tb = 0.25 在各參數下估計之變異數. Breakpoint Estimation Variance of GEV(0,1),tb = 0.5 β2 = −4. ξ. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. 0.2 0.1 0.0 −0.1 −0.2. ~ Var(tb) 0.03 0.02 0.01. 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150. n. 圖 3.7: 模擬 GEV(0, 1) 給定斷點位置 tb = 0.5 在各參數下估計之變異數. Breakpoint Estimation Variance of GEV(0,1),tb = 0.75 β2 = −4. ξ. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. 0.2 0.1 0.0 −0.1 −0.2. ~ Var(tb) 0.15 0.10 0.05. 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150. n. 圖 3.8: 模擬 GEV(0, 1) 給定斷點位置 tb = 0.75 在各參數下估計之變異數.

(32) 第三章 3.2.2.2. 模擬測試. 24. GEV(1, 1) 之結果. 在 GEV(1, 1) 模型模擬之 1260 種組合之中,估計平均最大值為為 0.55723、最小為. 0.45627。有 90%(1134 種) 組合之估計平均值介於區間 [0.48, 0.53] 之內,分散在兩端者 以斷層大小 β2 為 ±1 者居多 (圖 3.9)。估計值變異數全體落於 [2.39 × 10−6 , 6.80 × 10−2 ] 區間之內,值高者亦為 β2 為 ±1 者居多。 從熱度圖觀之 (圖 3.10, 3.11, 表 A.8-A.14),一次項係數 β1 並不明顯影響斷點位置估計, 形狀參數 ξ 大於等於 0 時,估計偏誤或離散度皆會稍微增加,但影響估計最顯著的因 子仍為樣本數 n 與斷層大小 β2 ,兩者離 0 越遠,估計越安定。 Mean of Estimate Breakpoint Position in GEV(1,1). Mean of estimate position. 0.54. 0.51. 0.48. −4. −2. −1. 1. 2. 4. 2. 4. Setting gap size of breakpoint. Variance of Estimate Breakpoint Position in GEV(1,1). Mean of estimate position. 0.06. 0.04. 0.02. 0.00 −4. −2. −1. 1. Setting gap size of breakpoint. 圖 3.9: 模擬 GEV(1, 1) 斷點位置估計之平均值與變異數分布提琴圖.

(33) 第三章. 模擬測試. 25. Breakpoint Estimation Mean of GEV(1,1) β2 = −4. β2 = −1. β2 = 1. β2 = 2. β2 = 4 β1 = −4. 0.2 0.1 0.0 −0.1 −0.2. β1 = −2. 0.2 0.1 0.0 −0.1 −0.2. β1 = −1. ξ. β2 = −2. 0.2 0.1 0.0 −0.1 −0.2. 0.2 0.1 0.0 −0.1 −0.2. ~ E(tb) 0.55. 0.50 β1 = 1 0.45. β1 = 2. 0.2 0.1 0.0 −0.1 −0.2. β1 = 4. 0.2 0.1 0.0 −0.1 −0.2 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150. n. 圖 3.10: 模擬 GEV(1, 1) 給定斷點位置 tb = 0.5 在各參數下估計之平均值. Breakpoint Estimation Variance of GEV(1,1) β2 = −4. β2 = −1. β2 = 1. β2 = 2. β2 = 4 β1 = −4. 0.2 0.1 0.0 −0.1 −0.2. β1 = −2. 0.2 0.1 0.0 −0.1 −0.2. β1 = −1. ξ. β2 = −2. 0.2 0.1 0.0 −0.1 −0.2. ~ Var(tb) 0.06 0.04. β1 = 1. 0.2 0.1 0.0 −0.1 −0.2. β1 = 2. 0.2 0.1 0.0 −0.1 −0.2. 0.02. β1 = 4. 0.2 0.1 0.0 −0.1 −0.2 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150 30. 50. 90 150. n. 圖 3.11: 模擬 GEV(1, 1) 給定斷點位置 tb = 0.5 在各參數下估計之變異數.

(34) 第三章. 模擬測試. 26. 3.3 模型選擇準則模擬 此 模 型 選 擇 準 則 模 擬 測 試 之 目 的, 在 於 驗 證 不 同 模 型 選 擇 準 則, 從 候 選 模 型. GEV(0, 0), GEV(0, 1), GEV(1, 0), GEV(1, 1) 中選擇資料生成使用之模型的正確 率,評估不同準則之表現。此模擬將針對資料以所有候選模型進行 MLE 估計,記錄其. NLL,再以 NLL 估計 AIC 及 BIC,以 NLL、AIC、BIC 三準則下統計值最優者為選擇 之模型,統計每個模型於迭代模擬被選中之比率,以評估在不同條件下,何種模型選 擇準則較佳。. 3.3.1. 模擬詳細設定. 模型選擇準則模擬程序如下圖 (圖 3.12):. 模擬開始. 設定模 型參數. 計算各模型之 AIC、BIC,統 計各準則選擇 各模型幾次. 是. 以所有候選 模型進行估 計並紀錄各 模型之 NLL. 模擬生成服 從設定模型 的抽樣資料 否. 同一參數 是否已迭 代 N 次. 是 是否尚有 需測試的 參數組合. 否 模擬結束. 圖 3.12: 模型選擇模擬流程圖. 其詳細設定如本節後續小節所述。. 3.3.1.1. 模擬參數. 除 3.1.4 節提及之共用參數組合設定 (β0 , σ, ξ, n, N ),模擬斷點位置估計所用的參數組 合依模型,做以下設定:.

(35) 第三章. 模擬測試. 27. • 對於需要設定 tb 之 GEV(0, 1) 及 GEV(1, 1),皆僅設定在較安定之 0.5 處。 • 由於 GEV(0, 0), GEV(0, 1), GEV(1, 0), GEV(1, 1) 皆須模擬,故 β1 , β2 ,兩參數 皆須考慮 0, ±1, ±2, ±4,各七種組合。 總合而言,使用的參數設定如下表: 表 3.2: 模型選擇準則模擬使用之參數設定 (除共通參數外) 模型. β1. β2. tb. GEV(0, 0). 0. 0. None. GEV(0, 1). 0. ±1, ±2, ±4. 0.5. 0. None. GEV(1, 0) ±1, ±2, ±4. GEV(1, 1) ±1, ±2, ±4 ±1, ±2, ±4. 0.5. 配合 3.1.4 節提及之共用參數組合,共嘗試 5(ξ 之種類)×7(n 之種類)×7(β2 之種 類)×7(β2 之種類)×1(tb 之種類) 共 1715 種參數組合,其中 GEV(0, 0) 嘗試 35 種、. GEV(0, 1), GEV(1, 0) 各嘗試 210 種、GEV(1, 1) 嘗試 1260 種,每種組合各 1000 次 迭代模擬,每次迭代模擬紀錄其以四模型估計之 NLL、AIC、BIC,並在最後計算同參 數組合下,下節所述之選擇正確率為成果。. 3.3.1.2. 估計指標統計量定義. 為衡量正確選擇模型之機率,本研究使用估計選擇正確率統計之,其計算程序為: 在參數完全相同的迭代模擬中,無論此次參數下符合假設之模型為何,皆以候選之. GEV(0, 0), GEV(0, 1), GEV(1, 0), GEV(1, 1) 各模型,進行廣義極端值分佈的最大概 似估計,記錄各模型估計之 NLL 並計算 AIC 及 BIC,比較在此三準則下各準則哪一模 型之準則值最小,以各準則最小者為該次當準則選擇之模型。 最後統計與模擬資料假設相同之模型於各準則選擇之次數 s,則正確選擇率為: Ns 範例、視覺化呈現說明 延續 2.2.1.1 之範例,給定參數 (β0 , β1 , β2 , tb , σ, ξ) = (0, 0, 4, 0.5, 0),樣本數 n 則採. 30、40、50、70、90、110、150 共七種組合為例,下圖是不同準則下各模型被選擇之 比例:.

(36) 第三章. 模擬測試. 28. Model selection ratio of GEV(0,1), ξ = 0, β1 = 0, β2 = 4 AIC. BIC. NLL. Model selection ratio. 100%. Model. 75%. GEV(0,0) GEV(0,1). 50%. GEV(1,0) 25%. GEV(1,1). 0% 30. 40. 50. 70. 90 110 150. 30. 40. 50. 70. 90 110 150. 30. 40. 50. 70. 90 110 150. n. 由於 GEV(0, 1) 才是此七組合下給定之模型,故各準則之正確選擇率就是 GEV(0, 1) 在表上之高度。 結果呈現採用的是選擇正確率之折線圖,即將上圖各準則正確模型的高度整合到一張 圖上畫三條折線,一條代表一種準則之正確選擇率,每個分圖都僅樣本數 n 不同,其 餘參數相同,折線之高度即該準則之選擇正確率。. 3.3.2. 模擬結果. 對於 GEV(0, 0),僅 BIC 選擇正確模型之比例超過 50%,其餘準則即使在樣本數最大 之 150 時,正確率亦沒有超過 50%,BIC 之正確率在 GEV(0, 0) 下大致受形狀參數 ξ. Proper Selection Ratio of GEV(0,0) ξ = −0.2. ξ = −0.1. ξ=0. ξ = 0.1. ξ = 0.2. Method. 100% 75% 50% 25% 0%. AIC BIC. 0. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 0. 15. 70. NLL. 11. 30. Proper model selection ratio. 影響不大,而是受樣本數 n 影響較大。(圖 3.13, 表 A.15). n. 圖 3.13: 各模型選擇準則於模擬 GEV(0, 0) 時選擇正確率. 而對於與 GEV(0, 0) 對應之有斷點模型 GEV(0, 1),BIC、AIC 皆有不錯的表現,在斷 層差 β2 之絕對值大於等於 2 以上且樣本數 n 大於 40 時正確比例皆超過 75%,僅在樣 本數 n 較少 (30, 40, 50) 且斷層差 β2 亦較小 (±1) 時有出現正確率略低於 50% 之情況。 整體而言,BIC 表現仍優於 AIC,僅在斷層差 β2 接近零且樣本數 n 小時,AIC 能表現 得比 BIC 好。(圖 3.14, 表 A.15).

(37) 第三章. 模擬測試. 29 Proper Selection Ratio of GEV(0,1) β2 = −4. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. 100% ξ = −0.2. 75% 50% 25% 0% 100% 50% 25% 0% 100%. Method. 75% ξ=0. 50% 25%. AIC BIC NLL. 0% 100% 75%. ξ = 0.1. Proper model selection ratio. ξ = −0.1. 75%. 50% 25% 0% 100%. ξ = 0.2. 75% 50% 25%. 0 15. 70. 11 0. 0 30. 0. 15. 70. 11. 15 0 30. 70. 11 0. 15 0 30. 70. 11 0. 0. 0 30. 15. 70. 11. 0. 0 30. 15. 70. 11. 30. 0%. n. 圖 3.14: 各模型選擇準則於模擬 GEV(0, 1) 時選擇正確率. 在對 t 有一次線性關係的模型 GEV(1, 0) 下,其表現亦類似 GEV(0, 0),AIC 普遍表現 不佳,甚至整體正確率難以突破 25% 以上,反觀 BIC 雖然在樣本 n 小或 β1 絕對值小 時表現也不慎理想,但在增加樣本 n 或使 β1 絕對值增加的情況下,整體正確率能仍超 過 60% 以上。(圖 3.15, 表 A.15) Proper Selection Ratio of GEV(1,0) β1 = −4. β1 = −2. β1 = −1. β1 = 1. β1 = 2. β1 = 4. 100% ξ = −0.2. 75% 50% 25% 0% 100% 50% 25% 0% 100%. Method. 75% ξ=0. 50% 25%. AIC BIC NLL. 0% 100% 75%. ξ = 0.1. Proper model selection ratio. ξ = −0.1. 75%. 50% 25% 0% 100%. ξ = 0.2. 75% 50% 25%. 0 15. 0 11. 70. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0 11. 70. 30. 0%. n. 圖 3.15: 各模型選擇準則於模擬 GEV(1, 0) 時選擇正確率. 與之相對的包含斷點模型 GEV(1, 1),則是 AIC 表現優於 BIC,尤其在 β1 或 β2 絕對 值靠近 0 時,兩準則表現都不太理想,尤其是 BIC 在此情況下選擇正確模型的比例大 多沒有跨越 50%。(圖 3.16-3.20, 表 A.15).

(38) 模擬測試. 30 Proper Selection Ratio of GEV(1,1), ξ = −0.2 β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0%. β1 = −4 β1 = −2 β1 = −1. Method AIC BIC. β1 = 1. NLL. β1 = 2. 0. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 15. 70. 11 0. 15 0 30. 70. 11 0. 0. 0 30. 15. 11. 70. β1 = 4. 30. Proper model selection ratio. β2 = −4. n. 圖 3.16: 各模型選擇準則於模擬 GEV(1, 1), ξ = −0.2 時選擇正確率. Proper Selection Ratio of GEV(1,1), ξ = −0.1 β2 = −4. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. β1 = −2 β1 = −1. Method AIC BIC. β1 = 1. NLL. β1 = 2. 0 15. 0 11. 70. 0 30. 15. 0 11. 70. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0 11. 70. β1 = 4. 30. 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0%. β1 = −4. Proper model selection ratio. 第三章. n. 圖 3.17: 各模型選擇準則於模擬 GEV(1, 1), ξ = −0.1 時選擇正確率.

(39) 模擬測試. 31 Proper Selection Ratio of GEV(1,1), ξ = 0 β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0%. β1 = −4 β1 = −2 β1 = −1. Method AIC BIC. β1 = 1. NLL. β1 = 2. 0. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 15. 70. 11 0. 15 0 30. 70. 11 0. 0. 0 30. 15. 11. 70. β1 = 4. 30. Proper model selection ratio. β2 = −4. n. 圖 3.18: 各模型選擇準則於模擬 GEV(1, 1), ξ = 0 時選擇正確率. Proper Selection Ratio of GEV(1,1), ξ = 0.1 β2 = −4. β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. β1 = −2 β1 = −1. Method AIC BIC. β1 = 1. NLL. β1 = 2. 0 15. 0 11. 70. 0 30. 15. 0 11. 70. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0. 70. 11. 0 30. 15. 0 11. 70. β1 = 4. 30. 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0%. β1 = −4. Proper model selection ratio. 第三章. n. 圖 3.19: 各模型選擇準則於模擬 GEV(1, 1), ξ = 0.1 時選擇正確率.

(40) 第三章. 模擬測試. 32 Proper Selection Ratio of GEV(1,1), ξ = 0.2 β2 = −2. β2 = −1. β2 = 1. β2 = 2. β2 = 4. β1 = −2 β1 = −1. Method AIC BIC. β1 = 1. NLL. β1 = 2. 0. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 0. 15. 70. 11. 0 30. 15. 70. 11 0. 15 0 30. 70. 11 0. 0. 0 30. 15. 11. 70. β1 = 4. 30. β1 = −4. Proper model selection ratio. β2 = −4 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0% 100% 75% 50% 25% 0%. n. 圖 3.20: 各模型選擇準則於模擬 GEV(1, 1), ξ = 0.2 時選擇正確率. 整體而言,無論哪種模型,形狀參數 ξ 對所有模型選擇準則沒有明顯影響,提升樣本 數 n 或模型本身參數顯著遠離 0 可以提升選擇正確率。.

(41) 第四章. 結論. 斷點位置估計之驗證範圍內的參數組合,無論是 GEV(0, 1) 或是 GEV(1, 1),估計平 均值有九成之參數組合皆在給定斷點位置之上下 0.1 區間之內,估計離散程度之變異數 則大致小於 0.05 以下,代表其結果在驗證範圍內大致尚可接受。當斷點位於資料中點 附近時,估計平均值相對準確且變異數較小,而當斷點靠近資料兩側時,其估計平均 值會出現向內靠攏之偏誤 (圖 3.2),同時斷點產生之斷層方向 (β2 之正負值) 會以負關係 之形式影響位置估計,當 β2 為負時會高估斷點位置,反之當 β2 為正時會低估斷點位 置,此種斷點估計向斷層低處偏誤之現象,會隨著形狀參數 ξ 增加而放大,導致此現 象之因素可能基於廣義極端值分布之正偏態之情形會隨會隨形狀參數 ξ 越大越發明顯, 造成數值偏高之離散資料出現的可能性增加,若此數據出現於斷層附近較低側,將之 納為斷層較高側同區會使目標函數較選擇真實斷點位置更佳,從而造成估計上斷點較 高側區域較容易侵蝕斷點較低側所致。另外在 (tb , β2 ) 設定為 (0.25, 4) 或 (0.75, −4) 兩 組合下,出現大量估計不收斂之情況,由於若將此分佈視為靜止廣義極端值分佈,斷 層較高如同大量離散資料,在此兩設定下都有斷層較高側皆占了總體三分之四的樣本 量,等於增加了 ξ 之大小,由於 Coles (2001) 已指出 ξ 太大太小都都會導致最大概似估 計不收斂,此設定應是觸發了此區間導致估計發散。 透過增加樣本數 n,在多數情況下可降低估計誤差與偏誤,與一般統計不同的是,區 間最大值資料可以藉由修改區間大小增加資料量,但需要注意的是區間最大值之近似 分布條件為增加區間大小,故如何拿捏區間大小以兼顧資料特徵能服從 GEV 分布且有 足夠資料量,需要使用者自行斟酌。雖然增加斷層大小估計大致也會越準確,但模擬 斷點位置在斷點位置偏於兩側且斷層出現與偏側相反之較大斷層時,有出現斷點估計 變異數飆高之情況,可能是此參數範圍遇到數值 MLE 估計之極限所致,同時若欲利 用變數變換技巧標準化觀測資料,雖能藉此調整斷層大小但同時也會依比例連動調規 模參數,藉由此方法試圖改善估計並不實際,故仍只有增加樣本數能提升估計準確度, 變數變換技巧僅能將參數調整至 MLE 估計範圍內使用。 模型選擇準則分辨模型有無斷點之分析模擬,在考慮的區間範圍之內,GEV(0, 0) 僅 有 BIC 可以接受,其模擬正確模型選擇率在所有條件下大致超過 75%,同時隨樣本數 越大表現越好;對應之有斷點模型 GEV(0, 1) 除斷層大小較不顯著之 ±1 外,AIC, BIC 表現大致皆有超過 75% 之正確模型選擇率,但 BIC 仍比 AIC 正確率高。GEV(1, 0) 時. 33.

(42) 第四章. 結論. 34. BIC 表現與 GEV(0, 1) 時相仿,但 AIC 整體選擇正確率皆無法超過 50%,且提升樣本 數無法改善。最複雜之 GEV(1, 1) BIC 表現不如 AIC,且在斷層大小或斜率參數為較 不顯著之 ±1 時正確選擇率皆沒有超過 50%。雖然不同模型表現互有不同,但整體而 言 BIC 表現優於 AIC,僅在最複雜模型任一參數設定較不顯著時容易失效,故還是建 議在兩者之間選擇 BIC。 提升樣本數 n 或模型選擇有關之參數 (指候補模型間定義不同之參數,此四候補模型 特指 β1 , β2 ) 顯著遠離 0 都可以提升選擇正確率。而形狀參數 ξ 雖然會影響斷點位置估 計之偏誤程度,但卻不明顯影響模型選擇正確率,故變數變換將資料縮放至適當規模, 可能可以增加模型選擇正確率。由於以模型選擇準則不僅 AIC 與 BIC 兩者,研究者若 感興趣應可嘗試將其他準則應用於區別模型有無斷點,可能可以得到更佳之成果。 本研究考慮僅對基本之模型做探討,雖然模擬成果在多數情況下表現尚為理想,但無 論是模型之種類或參數之範圍皆力有未逮,建議若循此框架評估極端值資料有無斷點 者,仍應以專業知識設定模型與欲分辨模型之模型選擇準則,探查可能的參數範圍, 仿照本研究之模擬方法分析斷點位置估計與模型選擇準則區別合適模型之表現,再實 際應用於真實資料之評估。 另外,雖本研究未考慮以無母數逐段估計方法分析極端值分布資料,但在文獻回顧階 段亦發現無母數方法可供評估形狀、規模參數靜止之廣義極端值模型的逐段分析,此 類分析之目標函數設計可能有利用無母數方法對其進行改進的空間。 最後,雖在建構斷點極端值分析時已經揭示逐段之極端值分析可應用逐段迴歸分析之 框架搜尋最適之斷點位置,但本研究尚未使用任何演算法進行有效率之斷點位置搜尋, 在當今逐段迴歸分析已有利用各式不同聚類分析演算法的成果,已能於多維空間估計 資料斷層或在單維空間尋找多個斷點,盼未來能嘗試將其他演算法導入逐段極端值分 析,使逐段的極端值分析更趨於自動化。.

(43) 參考文獻 Akaike, H. (1973). Information Theory and an Extension of the Maximum Likelihood Principle. In Selected Papers of Hirotugu Akaike (pp. 199–213). New York, NY: Springer New York. Avanesov, V. (2019).. Nonparametric Change Point Detection in Regression.. arXiv:. 1903.02603 [Math, Stat]. Retrieved from http://arxiv.org/abs/1903.02603 Brodsky, E., & Darkhovsky, B. S. (1993). Nonparametric Methods in Change Point Prob-. lems. Springer Netherlands. Chen, S., Li, Y., Kim, J., & Kim, S. W. (2017). Bayesian change point analysis for extreme daily precipitation. International Journal of Climatology, 37(7), 3123–3137. https://doi. org/10/gbnrv8 Cheng, L., AghaKouchak, A., Gilleland, E., & Katz, R. W. (2014). Non-stationary extreme value analysis in a changing climate. Climatic Change, 127(2), 353–369. https://doi.org/10. 1007/s10584-014-1254-5 Coles, S. (2001). An introduction to statistical modeling of extreme values. London: Springer. Dierckx, G., & Teugels, J. L. (2010). Change point analysis of extreme values. Environ-. metrics, 21(7-8), 661–686. https://doi.org/10/ck6w6p Ferrari Trecate, G., & Muselli, M. (2002). A New Learning Method for Piecewise Linear. Regression (Vol. 2415). https://doi.org/10.1007/3-540-46084-5_72 Gill, R. D. (2014, January). File:GevDensity 2.Svg. wikimedia. https://commons.wikimedia.org/ wiki/File:GevDensity_2.svg. Kim, H., Kim, S., Shin, H., & Heo, J.-H. (2017). Appropriate model selection methods for nonstationary generalized extreme value models. Journal of Hydrology, 547, 557–574. https: //doi.org/10.1016/j.jhydrol.2017.02.005 35.

(44) 第四章. 結論. 36. McGee, V. E., & Carleton, W. T. (1970). Piecewise Regression. Journal of the American. Statistical Association, 65(331), 1109–1124. https://doi.org/10/dhgwrd Mohtadi, H., & Murshid, A. P. (2009). Risk of catastrophic terrorism: An extreme value approach. Journal of Applied Econometrics, 24(4), 537–559. https://doi.org/10.1002/jae. 1066 Nelder, J. A., & Mead, R. (1965). A Simplex Method for Function Minimization. The Com-. puter Journal, 7(4), 308–313. https://doi.org/10/bkqf Oosterbaan, R. J., Sharma, D. P., Singh, K. N., & Rao, K. V. G. K. (1990). Crop production and soil salinity: Evaluation of field data from India by segmented linear regression. Symposium on Land Drainage for Salinity Control. Schwarz, G. (1978). Estimating the Dimension of a Model. The Annals of Statistics, 6(2), 461–464. https://doi.org/10/d9mzdb Stephen, K. (2017, July). Piecewise regression: When one line simply isn’t enough. Piece-. wise regression: when one line simply isn’t enough. https://www.datadoghq.com/blog/ engineering/piecewise-regression/. Yang, X., Yang, H., Zhang, F., Zhang, L., Fan, X., Ye, Q., & Fu, L. (2019). Piecewise Linear Regression Based on Plane Clustering. IEEE Access, 7, 29845–29855. https://doi.org/10/ gf4gv6.

(45) 附錄 A. A.1 A.1.1. 模擬成果表. 斷點位置估計模擬. GEV(0, 1). 表 A.1: 斷點位置估計成果表,GEV(0, 1): Overall β2 (以 “平均值 (變異數)” 之形式表 達,e 為 ×10ˆ之簡寫) tb. n. Average. Range. 0.25. Overall n. 0.2836(1.80e−2). [0.2447, 0.5509]([2.79e−6, 1.47e−1]). 30. 0.3052(2.14e−2). [0.2632, 0.3832]([1.99e−4, 5.57e−2]). 40. 0.2784(1.82e−2). [0.2447, 0.3418]([4.31e−5, 4.88e−2]). 50. 0.2805(1.53e−2). [0.2520, 0.3204]([4.33e−5, 3.45e−2]). 70. 0.2777(1.54e−2). [0.2502, 0.3339]([1.67e−5, 6.02e−2]). 90. 0.2774(1.67e−2). [0.2486, 0.3741]([1.01e−5, 8.35e−2]). 110. 0.2822(1.96e−2). [0.2479, 0.4436]([4.78e−6, 1.21e−1]). 150. 0.2835(1.97e−2). [0.2461, 0.5509]([2.79e−6, 1.47e−1]). Overall n. 0.5008(5.75e−3). [0.4718, 0.5329]([3.73e−6, 3.55e−2]). 30. 0.5020(1.30e−2). [0.4718, 0.5329]([9.51e−5, 3.55e−2]). 40. 0.5008(9.16e−3). [0.4744, 0.5314]([7.16e−5, 2.68e−2]). 50. 0.5001(7.04e−3). [0.4730, 0.5206]([3.66e−5, 2.21e−2]). 70. 0.5006(4.41e−3). [0.4819, 0.5214]([1.89e−5, 1.30e−2]). 90. 0.5008(2.89e−3). [0.4833, 0.5195]([7.41e−6, 7.78e−3]). 110. 0.5010(1.97e−3). [0.4850, 0.5129]([8.77e−6, 5.59e−3]). 150. 0.5007(1.82e−3). [0.4889, 0.5110]([3.73e−6, 5.89e−3]). Overall n. 0.7456(2.19e−2). [0.4944, 0.8753]([3.18e−6, 1.81e−1]). 30. 0.7331(2.46e−2). [0.6389, 0.8078]([1.73e−4, 5.63e−2]). 40. 0.7312(2.23e−2). [0.6699, 0.7776]([6.03e−5, 5.48e−2]). 50. 0.7431(2.37e−2). [0.6900, 0.7944]([3.47e−5, 8.80e−2]). 70. 0.7468(2.24e−2). [0.6537, 0.8309]([2.16e−5, 1.17e−1]). 90. 0.7575(1.83e−2). [0.6745, 0.8744]([8.35e−6, 1.07e−1]). 110. 0.7575(1.94e−2). [0.6630, 0.8636]([5.55e−6, 1.17e−1]). 150. 0.7504(2.31e−2). [0.4944, 0.8753]([3.18e−6, 1.81e−1]). 0.5. 0.75. 37.

(46) 附錄 A. 模擬成果表. 38. 表 A.2: 斷點位置估計成果表,GEV(0, 1): β2 = −4 (以 “平均值 (變異數)” 之形式表達,. e 為 ×10ˆ之簡寫) β2 = −4 tb. n. Average. Range. 0.25. Overall n. 0.2581(8.06e−5). [0.2503, 0.2712]([2.79e−6, 4.18e−4]). 30. 0.2700(3.10e−4). [0.2684, 0.2712]([1.99e−4, 4.18e−4]). 40. 0.2521(1.27e−4). [0.2503, 0.2536]([4.31e−5, 2.16e−4]). 50. 0.2614(6.51e−5). [0.2606, 0.2625]([4.33e−5, 9.58e−5]). 70. 0.2582(2.87e−5). [0.2572, 0.2591]([1.67e−5, 3.98e−5]). 90. 0.2563(1.68e−5). [0.2557, 0.2573]([1.01e−5, 2.76e−5]). 110. 0.2551(1.09e−5). [0.2547, 0.2557]([4.78e−6, 1.58e−5]). 150. 0.2538(5.21e−6). [0.2534, 0.2542]([2.79e−6, 8.37e−6]). Overall n. 0.5005(3.99e−4). [0.4955, 0.5043]([3.73e−6, 1.75e−3]). 30. 0.5032(4.69e−4). [0.5007, 0.5043]([9.51e−5, 7.71e−4]). 40. 0.5018(3.21e−4). [0.5006, 0.5032]([7.16e−5, 7.91e−4]). 50. 0.5012(3.00e−4). [0.4999, 0.5022]([3.66e−5, 8.07e−4]). 70. 0.5003(3.32e−4). [0.4999, 0.5010]([1.89e−5, 7.71e−4]). 90. 0.4997(2.23e−4). [0.4985, 0.5001]([7.41e−6, 5.10e−4]). 110. 0.4989(4.05e−4). [0.4968, 0.5003]([8.77e−6, 9.46e−4]). 150. 0.4983(7.40e−4). [0.4955, 0.5002]([3.73e−6, 1.75e−3]). Overall n. 0.7741(7.59e−2). [0.4944, 0.8753]([1.86e−2, 1.81e−1]). 30. 0.7933(2.63e−2). [0.7809, 0.8078]([1.86e−2, 3.47e−2]). 40. 0.7682(4.71e−2). [0.7520, 0.7776]([3.61e−2, 5.48e−2]). 50. 0.7600(7.26e−2). [0.7204, 0.7944]([5.63e−2, 8.80e−2]). 70. 0.7527(9.19e−2). [0.6537, 0.8309]([7.24e−2, 1.17e−1]). 90. 0.7978(8.14e−2). [0.6745, 0.8744]([6.09e−2, 1.07e−1]). 110. 0.7946(9.36e−2). [0.6630, 0.8636]([7.60e−2, 1.17e−1]). 150. 0.7521(1.19e−1). [0.4944, 0.8753]([8.28e−2, 1.81e−1]). 0.5. 0.75.

(47) 附錄 A. 模擬成果表. 39. 表 A.3: 斷點位置估計成果表,GEV(0, 1): β2 = −2 (以 “平均值 (變異數)” 之形式表達,. e 為 ×10ˆ之簡寫) β2 = −2 tb. n. Average. Range. 0.25. Overall n. 0.2662(2.34e−3). [0.2543, 0.2979]([7.12e−5, 1.16e−2]). 30. 0.2924(9.33e−3). [0.2885, 0.2979]([7.62e−3, 1.16e−2]). 40. 0.2646(3.91e−3). [0.2620, 0.2681]([2.40e−3, 4.95e−3]). 50. 0.2692(1.67e−3). [0.2651, 0.2722]([1.19e−3, 2.36e−3]). 70. 0.2631(6.88e−4). [0.2610, 0.2652]([5.38e−4, 1.08e−3]). 90. 0.2603(3.70e−4). [0.2575, 0.2621]([2.50e−4, 4.64e−4]). 110. 0.2582(3.17e−4). [0.2565, 0.2595]([1.86e−4, 7.71e−4]). 150. 0.2556(9.63e−5). [0.2543, 0.2569]([7.12e−5, 1.24e−4]). Overall n. 0.5078(2.65e−3). [0.4995, 0.5147]([2.58e−4, 5.89e−3]). 30. 0.5117(4.62e−3). [0.5064, 0.5147]([3.84e−3, 5.89e−3]). 40. 0.5101(2.95e−3). [0.5086, 0.5128]([1.82e−3, 4.67e−3]). 50. 0.5076(1.86e−3). [0.5039, 0.5113]([1.03e−3, 2.46e−3]). 70. 0.5080(2.14e−3). [0.5032, 0.5111]([9.22e−4, 3.55e−3]). 90. 0.5065(2.32e−3). [0.5007, 0.5119]([8.50e−4, 4.20e−3]). 110. 0.5059(2.08e−3). [0.4995, 0.5122]([4.11e−4, 5.59e−3]). 150. 0.5046(2.59e−3). [0.5012, 0.5098]([2.58e−4, 5.20e−3]). Overall n. 0.7600(7.55e−3). [0.7307, 0.7772]([7.02e−4, 2.92e−2]). 30. 0.7638(9.68e−3). [0.7503, 0.7772]([4.78e−3, 1.25e−2]). 40. 0.7574(4.59e−3). [0.7507, 0.7613]([2.67e−3, 6.54e−3]). 50. 0.7675(4.41e−3). [0.7606, 0.7719]([2.03e−3, 6.73e−3]). 70. 0.7659(3.79e−3). [0.7587, 0.7709]([7.02e−4, 6.99e−3]). 90. 0.7610(6.49e−3). [0.7491, 0.7669]([2.57e−3, 9.29e−3]). 110. 0.7569(9.51e−3). [0.7459, 0.7627]([1.68e−3, 1.53e−2]). 150. 0.7475(1.44e−2). [0.7307, 0.7588]([1.08e−3, 2.92e−2]). 0.5. 0.75.

參考文獻

相關文件

It has been well-known that, if △ABC is a plane triangle, then there exists a unique point P (known as the Fermat point of the triangle △ABC) in the same plane such that it

1 Generalized Extreme Value Distribution Let Y be a random variable having a generalized extreme- value (GEV) distribution with shape parameter ξ, loca- tion parameter µ and

(In Section 7.5 we will be able to use Newton's Law of Cooling to find an equation for T as a function of time.) By measuring the slope of the tangent, estimate the rate of change

Estimate the sufficient statistics of the complete data X given the observed data Y and current parameter values,. Maximize the X-likelihood associated

11[] If a and b are fixed numbers, find parametric equations for the curve that consists of all possible positions of the point P in the figure, using the angle (J as the

Based on [BL], by checking the strong pseudoconvexity and the transmission conditions in a neighborhood of a fixed point at the interface, we can derive a Car- leman estimate for

Population: the form of the distribution is assumed known, but the parameter(s) which determines the distribution is unknown.. Sample: Draw a set of random sample from the

Co-teaching has great potential when defined as a form of collaboration that involves equal partners contributing different types of expertise to the process of planning,