• 沒有找到結果。

基於累積殘差之廣義線性模型的模型檢查 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "基於累積殘差之廣義線性模型的模型檢查 - 政大學術集成"

Copied!
85
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計學系 碩士學位論文. 指導教授:鄭宗記博士. 立. 政 治 大. ‧ 國. 學 ‧. 基於累積殘差之廣義線性模型的模型檢查. sit. y. Nat. Model-checking techniques based on cumulative. n. er. io. residuals for the generalized linear model al v i n Ch engchi U. 研究生:林宜蓉 中華民國一百零二年七月.

(2) 摘要. 基於累積殘差(cumulative sum of residuals)的廣義線性模型檢查方法,由 Su 和 Wei (1991)所提出。在本次研究中利用蒙地卡羅(Monte Carlo simulation)模擬的 方式探討,在各種模型下該檢定方法的成效,當中包含:卜瓦松迴歸模型( Poisson regression model )、羅吉斯迴歸模型( Logistic regression model )及負二項迴歸模型 ( Negative binomial regression model )。由於負二項分配相較於卜瓦松分配及二項 分配多了一個參數 r,其中負二項分配之隨機變數定義為:直到第 r 次成功之失. 政 治 大. 敗次數。因此,亦探討了在不同參數 r 下,基於累積殘差的廣義線性模型檢查方. 立. 法是否有成效上的差異。結果發現,當 r 較小時,該模型檢查方法,需要較多的. ‧ 國. 學. 樣本數;而當參數 r 過大時,由於參數 r 的估計結果與實際值差異過大,便會導 致檢定結果成效不佳。另一部分,亦將基於累積殘差的廣義線性模型檢查方法輔. ‧. 以傳統的迴歸模型參數 T 檢定,使得模型的適合度檢定流程趨於完善。. er. io. sit. y. Nat. al. v. n. 關鍵詞:累積殘差、蒙地卡羅、卜瓦松迴歸模型、羅吉斯迴歸模型、負二項迴歸 模型. Ch. engchi. 1. i n U.

(3) 目錄. 第一章 研究目的與動機 ………………………………7 第二章 文獻回顧 ………………………………………8 第一節 廣義線性模型 ………………………………8 第二節 檢定方法 ……………………………………11. 政 治 大. 第三章 模擬研究 ………………………………………21. 立. 第一節 卜瓦松迴歸模型 ……………………………21. ‧ 國. 學. 第二節 羅吉斯迴歸模型 ……………………………32. ‧. 第三節 負二項迴歸模型 ……………………………42. Nat. io. sit. y. 第四章 實證研究 ………………………………………69. er. 第五章 結論與建議 ……………………………………82. al. n. v i n Ch ………………………………………………..83 engchi U. 參考文獻. 2.

(4) 圖表目錄 圖 1、 Draper 和 Smith 的蒸氣資料模型之累積殘差過程圖.........18 圖 2 、模型中各解釋變數函數型態錯誤範例圖.............................20 圖 3、卜瓦松迴歸模型模型一之累積殘差過程圖...........................24 圖 4、卜瓦松迴歸模型模型二之累積殘差過程圖...........................27 圖 5、卜瓦松迴歸模型模型三之累積殘差過程圖...........................30. 政 治 大. 圖 6、羅吉斯迴歸模型模型一之累積殘差過程圖...........................34. 立. 圖 7、羅吉斯迴歸模型模型二之累積殘差過程圖...........................37. ‧ 國. 學. 圖 8、羅吉斯迴歸模型模型三之累積殘差過程圖...........................40. ‧. 圖 9、不同參數 r 下,平均數為 5 之負二項分配分布圖.................44. Nat. io. sit. y. 圖 10、負二項分配參數 r 變化與卜瓦松分配關係圖.......................44. er. 圖 11、負二項迴歸模型模型一之累積殘差過程圖( r =2) ...............47. al. n. v i n Ch 圖 12、負二項迴歸模型模型二之累積殘差過程圖( r =2) ...............50 engchi U 圖 13、負二項迴歸模型模型三之累積殘差過程圖( r =2) ...............53 圖 14、實證研究-卜瓦松迴歸模型(4.1.1)之累積殘差觀測圖..........71 圖 15、實證研究-卜瓦松迴歸模型(4.1.2)之累積殘差觀測圖..........71 圖 16、實證研究-負二項迴歸模型(4.2.1)之累積殘差觀測圖..........73 圖 17、實證研究-負二項迴歸模型(4.2.2)之累積殘差觀測圖..........74 圖 18、實證研究-負二項迴歸模型(4.2.3)之累積殘差觀測圖..........74 3.

(5) 圖 19、實證研究--羅吉斯迴歸模型(4.3.1)之累積殘差觀測圖........77 圖 20、實證研究--羅吉斯迴歸模型(4.3.2)之累積殘差觀測圖…....77 圖 21、實證研究--羅吉斯迴歸模型(4.3.3)之累積殘差觀測圖........78 圖 22、實證研究--羅吉斯迴歸模型(4.3.4)之累積殘差觀測圖........78 圖 23、實證研究--羅吉斯迴歸模型(4.3.5)之累積殘差觀測圖........80 圖 24、實證研究--羅吉斯迴歸模型(4.3.6)之累積殘差觀測圖........80. 政 治 大. 圖 25、實證研究--羅吉斯迴歸模型(4.3.7)之累積殘差觀測圖........81. 立. ‧ 國. 學. 表 1、Draper 和 Smith 的蒸氣資料...................................................15 表 2、Draper 和 Smith 的蒸氣資料模型參數估計結果...................15. ‧. 表 3、卜瓦松迴歸模型模型一的參數估計結果...............................24. sit. y. Nat. 表 4、卜瓦松迴歸模型模型一模擬結果...........................................25. er. io. n. al 表 5、卜瓦松迴歸模型模型二的參數估計結果...............................27 iv. n U engchi 表 6、卜瓦松迴歸模型模型二模擬結果...........................................28. Ch. 表 7、卜瓦松迴歸模型模型三的參數估計結果 .............................30 表 8、卜瓦松迴歸模型模型三模擬結果 .........................................31 表 9、羅吉斯迴歸模型模型一的參數估計結果 .............................34 表 10、羅吉斯迴歸模型模型一模擬結果 .......................................36 表 11、羅吉斯迴歸模型模型二的參數估計結果.............................37 表 12、羅吉斯迴歸模型模型二模擬結果.........................................38 4.

(6) 表 13、羅吉斯迴歸模型模型三的參數估計結果............................39 表 14、羅吉斯迴歸模型模型三模擬結果........................................41 表 15、負二項迴歸模型模型一參數估計結果( r =2) ......................47 表 16、負二項迴歸模型模型一模擬結果( r =2) ..............................48 表 17、負二項迴歸模型模型二參數估計結果( r =2) ......................50 表 18、負二項迴歸模型模型二模擬結果( r =2) ..............................51. 政 治 大. 表 19、負二項迴歸模型模型三參數估計結果( r =2) ......................53. 立. 表 20、負二項迴歸模型模型三模擬結果( r =2) ..............................54. ‧ 國. 學. 表 21、負二項迴歸模型模型一模擬結果( r =1) ..............................55. ‧. 表 22、負二項迴歸模型模型二模擬結果( r =1) ..............................56. Nat. io. sit. y. 表 23、負二項迴歸模型模型三模擬結果( r =1) ..............................57. er. 表 24、負二項迴歸模型模型一模擬結果( r =0.05) .........................58. al. n. v i n Ch 表 25、負二項迴歸模型模型二模擬結果( U .........................59 e n g c h ir =0.05) 表 26、負二項迴歸模型模型三模擬結果( r =0.05) .........................60 表 27、負二項迴歸模型模型一模擬結果( r =30) ............................61 表 28、負二項迴歸模型模型一模擬結果( r =30) (以 30 代入參數 r ) ...........................................................62 表 29、負二項迴歸模型模型二模擬結果( r =30) ............................63 表 30、負二項迴歸模型模型三模擬結果( r =30) ............................64 表 31、負二項迴歸模型模型一模擬結果( r =500) ..........................65 5.

(7) 表 32、負二項迴歸模型模型一模擬結果( r =500) (以 500 代入參數 r ) .........................................................66 表 33、負二項迴歸模型模型二模擬結果( r =500) ..........................67 表 34、負二項迴歸模型模型三模擬結果( r =500) ..........................68 表 35、實證研究-卜瓦松迴歸模型 .................................................70 表 36、實證研究-負二項迴歸模型 .................................................73 表 37、實證研究-羅吉斯迴歸模型...................................................76. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 6. i n U. v.

(8) 第一章、 研究目的與動機 本次研究的主要目的為探討廣義線性模型(generalized linear model, glm)的適 合度檢查。Su 和 Wei (1991)提出了一項廣義線性模型的模型檢查方法,其利用累 積殘差(cumulative sum of residuals)的想法。殘差(residuals)定義為實際值與估計 值間的差距,而累積殘差,便是將殘差依照資料中解釋變數的大小順序,依序由 小至大累加的隨機過程(stochastic process)。在檢定廣義線性模型的適合度時,虛 無假設(null hypothesis)為,模型的平均函數(mean function)為正確的,並且在虛 無假設下,殘差應在零的上下變動。因此,當模型的平均函數為正確時,將殘差. 政 治 大 若過程中出現過大或過小的數值,便表示模型的適合度是有問題的。 立. 依照解釋變數的大小進行累加,累加的隨機過程應當亦在零的上下變動。因此,. ‧ 國. 學. 根據這個想法,Su 和 Wei (1991)提出了基於累積殘差的廣義線性模型檢查方 法。取絕對值後的殘差累加過程中,最大的數值便是其檢定統計量,當統計量過. ‧. 大時,便拒絕虛無假設。而在衡量統計量是否過大為異常值時,Su 和 Wei (1991). sit. y. Nat. 使用的方法為蒙地卡羅模擬(Monte Carlo simulation)方法。利用在虛無假設下模. al. er. io. 擬出來的數值與觀測到的檢定統計量做比較,便可以判斷觀測到的檢定統計量是. v. n. 否過大為異常值。此外,基於累積殘差的模型檢查方法,除了提供數值上也提供. Ch. engchi. i n U. 圖形上的模型適合度診斷(Lin、Wei 和 Ying 2002)。在虛無假設下,由於累加的 隨機過程會在零的上下跳動,因此,若針對觀測到的累積殘差過程作圖,圖形應 呈現隨機的在零的上下變動。因此,若圖形出現特定的趨勢時,便可以合理懷疑 模型的適合度是有問題的。而利用圖形檢查模型適合度的方式,特別是針對模型 中各個解釋變數的函數型態(function form)的適合度檢查。如,解釋變數 X1 在模 型中正確的函數型態應為二次式,即 X 12 ,但卻誤適配為一次式 X1 。這時,累積 殘差過程圖便能夠有效地提供訊息用以改進模型。. 7.

(9) 在本次研究中,一共分為五章,第一章為研究目的與動機;第二章為文獻回 顧,包含模型檢定方法詳細介紹及如何依據累積殘差過程圖判斷模型的適合度; 第三章為模擬研究,分別探討基於累積殘差的模型檢查方法,在卜瓦松迴歸模型、 羅吉斯迴歸模型及負二項迴歸模型的應用;第四章為實證研究;第五章為總結及 建議。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i n U. v.

(10) 第二章、 文獻回顧 累積殘差,其意為,將殘差依照資料中解釋變數的大小順序,由小至大依序 累加的過程。在虛無假設下,累積的過程應在零的上下變動。因此,當過程中出 現過大或是過小的數值,便表示模型是有問題的。Su 和 Wei (1991)提出了一項廣 義線性模型的模型檢查方法,便是利用累積殘差的想法。本章將詳細介紹該模型 檢查方法是如何執行及運作。 一、廣義線性模型. 政 治 大 f  y |  ,    exp  y         y,   立. 假設 Y 為應變數,並且服從以下機率密度函數. ‧ 國.  y      l  ; y  =      y,    i=1  . 學. 其對數概似函數(log-likelihood function)為. (2.1.1). n. ‧. (2.1.2). Nat. io. sit. y. y  yi , i  1,, n ,其中   . 和  . 為給定函數,  為有興趣的參數而  為干擾參. er. 數(nuisance parameter),並假設  的參數空間  為凸空間(convex space)且    的. al. n. v i n 各階導數及 Y 的動差(moments)皆存在於參數空間 Ch  中。假設觀察到的解釋變數 engchi U 向量 x 透過 Y 的平均函數    與連結函數(link function) h 與參數  以下列函數 做連結:. h       xT β. (2.1.3). 其中 β 為 p1 的固定向量。  假設 β 為 β 的最大概似估計量(maximum likelihood estimator);x1 ,, xn 為 n 筆.  觀測到之解釋變數向量,則在正規條件(Regularity condition)下, n1 2 β  β 會與. . 9. .

(11)  Λ  β  S n  β  漸進相等(asymptotically equivalent) (Hogg, McKean, Craig , 2005),.  1 S n  b  Λ 1  β    n b bβ. 1 n xiU  xTi b  Yi    xTi b    n i 1. Sn  b  . (2.1.4). 其中,   xTi β   h 1  xT β  為 Y 在給定 x  xi 下之平均值; U  r   u '  r  為 u  r  的 1. 一階導數, u   h    。式(2.1.4)為將(2.1.2)對  j ; j=1,  ,p 偏微分。假設,單一. 政 治 大. 觀測值的對數概似函數為. 立l =  y        y, . ‧ 國. 學. . 從鏈鎖律(chain rule)便可以得到. ‧. l l         . y. Nat. n. al. er. io. sit. 其中,      , h     xTi β   ,並假設 V  V    為變異數,則. 由於    '   ,則. i n U. v. ' l y      ;  .        1  ,  xi   ''    V ,因此  ;   V   . Ch. engchi. 則 l l          T  y   '     1     x i β     xi       V    .    xTi β    xi  y    x β     V    T i.  xi  y    xTi β   U  xTi β  10.

(12) 便可以得到(2.1.4)的結果(McCullagh 和 Nelder 1989),根據以上的假設,便 能從中定義檢定方法的統計量。 二、檢定方法 設立虛無假設 H 0 為:模型中(2.1.3)為正確的。基於累積殘差之模型檢定方 法,主要為檢定模型中(2.1.3)的適合度,則對立假設(alternative hypothesis) H1 為 反對虛無假設。針對虛無假設及對立假設,考慮以下統計量.  1 n  Wn  t   Yi   xTi β I  xi  t    n i 1 .  . 立. T. (2.2.1). 政 治 大. 其中 t   t1 ,  , t p   R p ; I . 為指標函數(indicator function), xi  t  所指為 x i 中. ‧ 國. 學. 的元素小於或等於 t ,因此 Wn  t  為一個多元參數(multiparameter)的隨機過程。. ‧. 在此隨機過程中,便是將模型的殘差依照每一筆解釋變數向量的大小順序,. sit. y. Nat. 由小至大進行累加。而在虛無假設為正確的情況下,期望累加的過程會在零的上. io. al. n. 兆。. er. 下變動,因此當過程中出現過大的 Gn 值,便可以視為模型在配度上有問題的癥. C. hn e t n g c h i Gn  sup tR p W. i n U. v. (2.2.2). p. 其中,可以將 t 的範圍 R p 縮減為 S   k 1 S k 。 S k 為收集,觀測到的 n 筆解 釋變數向量 x1 ,, xn 中第 k 個元素的集合,而 S 即為 S1 ,, SP  所組成的積空間 (product space)。因此(2.2.2)可以改寫為. Gn  sup tS Wn  t  而要檢查模型是否為合適,就必須了解,在虛無假設的情況下 Gn 的觀測值 g n 是否過大為異常值,則可以依據檢定的 P-value= Pr  Gn  g n  做判斷。然而,在 11.

(13) 虛無假設的情況下,可以透過蒙地卡羅模擬的方式計算 P-value= Pr  Gn  g n  。 本章節旨在說明,如何用蒙地卡羅模擬方法計算檢定方法中的 P-value。首 先,利用泰勒展開式將(2.2.1)展開,即  Wn  t   Wn  t; β   Wn'  t; β  β  β. .  . . 1 n 1 Yi    xTi β  I  xi  t     n i 1  n 1 n.   x β  x I  x '. T i. T i. i.   t β  β. . . i 1.  1 n ' T T T   x Y   β I x  t   x β x I x  t n β β           i i i i i i   n i 1 i 1 n. .    Vn  t   ηT  t;β  n β  β. . 其中 Vn  t  . n. 1 n. n. . 政 e β治   Y  大 x β..  ei  β I  xi  t  ,. 立. i 1. . i. i. T i. ‧ 國. 學. 1 n  η  t;β      '  xTi β xi I  xi  t  , n i 1.   便可以得到 Wn  t  與 Vn  t   ηT  t;β  n β  β 漸進相等的結果,即. . . y. (2.2.3). sit. Nat. . ‧.   Wn  t   Vn  t   ηT  t;β  n β  β. . n. al. . Ch. .   Wn  t   Vn  t   ηT  t;β  Λ  β  S n  β . engchi. 12. er. io.   再利用第二章第一節的結果,知道 n β  β  Λ  β  S n  β  ,將(2.2.3)改寫為. i n U. v. (2.2.4).

(14) 當 n 夠大時 (Su 和 Wei 1991) , Vn  t  . 1 n. n.  e  β I  x i. i.  t. i 1. n. n. 1 2.  Z Y    x β   I  x i. T i. i. i.  t. (2.2.5). i 1. 1 n xiU  xTi β  Yi    xTi β    n i 1. Sn β   . 1 n xiU  xiT β  ei  β   n i 1. . 1 n xiU  xTi β  Z i Yi    xTi β   n i 1. . . (2.2.6). 其中 Z1 ,, Zn  為一組來自標準常態的隨機變數,並且與 Yi , xi , i  1,, n 相互獨. 治 政 大 立。因此,利用(2.2.5)及(2.2.6),在大樣本之下 立  ‧ 國. 學. Wn  t   Vn  t   ηT  t;β  Λ  β  S n  β . n    n1 2  Zi Yi    xTi β  I  xi  t   ηT  t;β  Λ  β  S n  β  n. .  Z Y    x β    I  x i. i 1. T i. i. Nat. 1 n. i.       t   ηT t ;β Λ β xiU xiT β. .   . a    1 n  T i v   T T t;β  Zi Yil  x β I x  t  η t ; β Λ β x U x β    n i i i i Ch n i 1 i U e n. Wn. . . er. io. .  . sit. ~  如此, Wn  t  的分配便可以使用 W n t;β 估計. ~. ‧. . . y. . i 1. . .  . . ngch.  .  .   則, Gn  sup tS Wn  t  便會與 Gn  sup tS Wn t; β 有相同的漸進分配(Su 和. . . ~. Wei 1991)。因此,在計算 P-value, Pr  G n  gn  時,便可以利用模擬 W n 估計。 ~    代換,以及產生來自標準常態分配 將 W n 中的 Y 、 β 、 Λ 以觀測到的 y 、 β 、 Λ ~.  g 。 的隨機變數 Z1 ,, Zn  。因此在重複地模擬 W n 下,便可以計算 Pr G n n. . .   sup W t; β G n tS n.  . ~ 1 W n t;β  n. . . n.  Z  y    x β   I  x i. i. T i. i 1. 13. i.   β x U xT β  t   ηT t;β Λ i i. .   . . .

(15) 上述的 P-value 計算方法,雖為在大樣本下之結果,但透過模擬研究顯示, 在一般樣本數情況下,該檢定方法仍舊表現良好(Su 和 Wei 1991)。以下,將上 述方法應用在實際資料上,資料為來自 Draper 和 Smith (1998),呈現如下表 1。 資料中包含 25 筆觀測值,每一筆觀測值中包含三個變數:(Y)每月蒸氣的使用磅 數(the pounds of steam used monthly, Steam)、( X 1 )每個月的操作天數(the operating days per month, Days)、( X 2 )每個月的平均大氣壓力(the average atmospheric temperature, Temp)。經由 Draper 和 Smith(1998)分析,使用的模型為. 政 治 大 (2.2.7). Y   0  1 X1   2 X 2  . 立. 透過 Durbin-Watson 檢定及殘差圖分析,結果顯示(2.2.7)對於表 1 的資料是. ‧ 國. 學. 適配的(Draper 和 Smith 1998)。然而,若使用檢定統計量 Gn , Gn 的觀測值. ‧. ~. gn  0.503 。根據 10,000 組來自 N  0,1 隨機樣本 Zi , i  1,, 25 估計的 G n 之分. Nat. n. al. Ch. engchi. 14. er. io. 顯示拒絕虛無假設,即模型是不合適的。. sit. y. 配,計算得 P-value 為 0.045。表示模擬的 10000 組資料中僅有 4.5%的 g n  0.503 ,. i n U. v.

(16) 表 1、Draper 和 Smith 的蒸氣資料. 35.3 29.7 30.8 58.8 61.4 71.3 74.4 76.7 70.7 57.5 46.4 28.9 28.1 39.1 46.8 48.5 59.3 70 70 74.5 72.1 58.1 44.6 33.4 28.6. y. ‧ er. n. al. sit. 立. io. 若將模型改變為. 10.98 11.13 12.51 8.4 9.27 8.73 6.36 8.5 7.82 9.14 8.24 12.19 11.88 9.57 10.94 9.58 10.09 8.11 6.83 8.88 7.68 8.47 8.86 10.36 11.08. 政 治 大. Nat. 20 20 23 20 21 22 11 23 21 20 20 21 21 19 23 20 22 22 11 23 20 21 20 20 22. 學. ‧ 國. Days( X1 ) Temp( X 2 ) Steam(Y). Ch. engchi. Y   0  1 X 1   2 X 2   3 X 22  . iv n U (2.2.8). 並使用迴歸參數 T 檢定,檢查是否 X 22 的係數 3 為零,結果顯示 P-value 為 0.05753。 結果呈現如表 2,(Su 和 Wei 1991)。 表 2、Draper 和 Smith 的蒸氣資料模型參數估計結果. 模型(2.2.7). 模型(2.2.8). 參數估計值. P-value. 參數估計值. P-value. Days. 0.203. 0.00021. 0.206. 9.71e-05. Temp. -0.072. 7.19e-09. -0.197. 0.00481. 0.0012. 0.05753. Temp 2 AIC. 55.094. 52.697 15.

(17) 上述的檢定方法,Lin、Wei 和 Ying (2002)做了更進一步的延伸,除了模型 的適合度檢查,將累積殘差的想法應用在個別的解釋變數上,檢查該解釋變數在 模型中是否合適,即解釋變數的函數型態(functional form)是否正確。Lin、Wei 和 Ying (2002)提出下列統計量 W j t  . 1 n. n.  Y    x β  I  x T i. i. ji.  t  , i  1,  , n , j  1,  , p. (2.2.9). i 1. 為每一筆殘差根據第 j 個解釋變數的大小,由小至大累加的過程。假設 xi 為 第 i 筆解釋變數向量, x ji 即為 xi 第 j 個元素; t  R , I . 為指標函數, W j  . 為. 政 治 大. 階梯函數(step function),而可能的跳動點會出現在相異的 x ji 值上。在虛無假設下,. 立. ‧ 國. 學. 即模型中解釋變數 x j 的函數型態為正確的情況下,上述的隨機過程會在零的上下 變動,因此在累加的過程中,過大或過小的值出現都可視為解釋變數 x j 在模型中. ‧. 是不合適的。因此,定義 S j  sup xR W j  t  , 當 S j 過大時,即可視為變數 x j 在. y. Nat. er. io. sit. 模型中的函數型態是不正確的徵兆。 由於(2.2.9)即為(2.2.1)的特例. n. al. Wn  t  . i n U. Ch  e n g c h i.  1 n  Yi   xTi β I  x i  t    n i 1 . v. (2.2.1). 其中 I  xi  t  可以表示為 I  x1i  t1 ,, x pi  t p  ,當 tk   k  j 時,即為 (2.2.9)。因此,根據先前的結果,相同可以透過蒙地卡羅模擬方法估計 P-value。 假設 s j 為 S j 之觀測值,則 P-value = Pr  S j  s j  。 ~. W. j. .  1 t ;β  n. . n.  Z Y    x β   I  x i. i. T i. ji.      t   ηT t;β Λ β xiU  xTi β . .  . i 1. i  1,  , n , j  1,  , p. 16.  (2.2.10).

(18) ~  便能用 W j 估計 W j  x  的分配,而 S j 則會與 S j 有相同的漸進分配(Lin、Wei. 和 Ying 2002)。如此,同樣可以透過產生標準常態隨機變數 Z1 ,, Zn  ,並將    代換,得到 (2.2.10)式中 Y 、 β 、 Λ 以觀測值 y 、 β 、 Λ ~. W. j.  t;β  . 1 n. n.  Z  y    x β  I  x i. T i. i. ji.   x U xT β  t   η T x ;β Λ i i. .   . i 1.  . i  1,  , n , j  1,  , p (2.2.11). 便可以透過模擬,計算 Pr S j  s j 估計 P-value = Pr  S j  s j  。其中. . S j  sup t W j t ; β. . . . 政 治 大. ( Lin、 Wei 和 Ying 2002)。. 立. 除了利用 P-value 檢查模型適合度及模型中解釋變數之函數型態的正確性外,. ‧ 國. 學. 由於在虛無假設下可以透過模擬,以 W j  . 估計 W j  . 之分配。因此,要評估 W j .. ‧. 的觀測值, w j . 在虛無假設下是否為異常,亦可以透過圖形檢查的方式,將 w j .. io. sit. y. Nat. 與模擬出來的 W j  . 一同作圖輔助檢查判斷。當 w j . 圖形偏離模擬結果時,便暗. er. 示解釋變數 X j 在模型中的函數型態是不正確的。如下圖 1,以 Draper 和 Smith. al. n. v i n Ch w  t  的圖形, 的蒸氣資料模型(2.2.7)作累積殘差過程圖為例。圖(1a)中黑色線條為 engchi U n. ~. 而灰色線條為 50 組模擬 W n 的圖形;圖(1b)中黑色線條為 w2  x  的圖形,將(2.2.7) 的殘差依照解釋變數 Temp 的大小,由小至大累加的過程圖,灰色線條即為 50 ~. 組模擬 W 2  x  的圖形。可以發現兩張圖皆呈現出,觀測到的圖形偏離模擬的圖形 之結果,因此造成 P-value 皆非常的小,表示模型是有問題的,解釋變數的函數 型態亦是不正確的。 接著,做模型(2.2.8)的累積殘差過程圖,如圖(1c)與(1d)。 可以發現,當模型加入解釋變數 Temp 的二次項後 wn  t  與 w2  x  的圖形震盪幅度 變小,且呈現隨機的在零上下變動,P-value 值也明顯提高許多,表示模型(2.2.8) 17.

(19) 較為模型(2.2.7)合適。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i n U. v. 此外,當在配適模型,不確定其解釋變數之函數型態時,可以透過觀測到的. Ch. engchi. 累積殘差 w j . 之圖形,從中找到蛛絲馬跡協助判斷解釋變數之函數型態(Patrick 和 Lin 2005)。 (一) Patrick 和 Lin (2005)為探討分層之控制組與對照組研究(stratified case-control studies),因此第一個例子便為模擬分層之控制組與對照組資料。共分為兩層, Q= 0 / 1,其中 Q 來自二項分配,成功機率為 0.25。假設. =(. ,. ), X1 來. 自常態分配,標準差為 1。當 Q= 0 時 E  X 1   4 ;當 Q= 1 時 E  X1   5 ,共 '. 產生 500 筆資料。設定    0.25, 0.25  , 1  7.2 ,  0  6.2 。 18.

(20) 正確模型如下,其中Pr Y = 1 為第 j 層出現 case 的機率。 ′. Pr Y = 1. ;. 在適配模型時,忽略. ,. =. ′. ,. j=0,1. 項,則所得之累積殘差過程圖(2a),其中黑色線. 條為測到之累積殘差過程圖及 50 組灰色線條為模擬之積殘差過程圖。可以發 現,觀測到的累積殘差過程圖形軌跡明顯偏離模擬的累積殘差過程圖,且 P-value 僅為 0.021,表示模型中解釋變數 X1 的函數型態是不正確的。當 重新將. 項加入模型時,得到累積殘差過程圖(2b),觀測到的累積殘差過程. 治 政 大 0.571。因此,當在配適模型,不確定其解釋變數之函數型態時,便可以透過 立. 圖形明顯融入模擬結果,且圖形如期望中在零的上下變動,P-value 也提升至. 觀測到之累積殘差過程圖,如圖(1a)便可以從中獲得有效的提示。確切地說,. ‧ 國. 學. 當觀測到之累積殘差過程圖出現如圖(1a)之 S 形軌跡,便表示其解釋變數的. ‧. 正確函數型態為二次式,卻誤適配為一次式。如先前 Draper 和 Smith 的蒸氣. y. Nat. 資料,模型(2.2.7)的累積殘差過程圖(1b)出現與模擬結果(2a)有相似的軌跡,. al. er. io. sit. 便可以猜測,解釋變數 Temp 在模型中正確的函數型態應為二次式。. v. n. (二) 當解釋變數正確的函數型態為對數時(以 10 為底)。共產生 100 筆資料。假設 = (log(. i n U. C )h來自標準常態分配,正確模型如下,其中 engchi. )),其中log(. α = −0.4,β = 1,Pr(Y = 1)為出現 case 的機率。. Pr(Y = 1 在適配模型時,將解釋變數. ;. )=. 1+. 以函數型態為一次式放入模型。圖(2c)中觀測. 到之累積殘差過程圖軌跡,便是呈現當配適的模型中解釋變數正確的函數型 態為對數時(以 10 為底),卻誤適配為一次式。圖(2c)中 P-value 僅為 0.007, 當重新將解釋變數. 之函數型態改為對數時,如圖(2d),P-value 便提升為. 0.368,(Patrick 和 Lin 2005)。 19.

(21) (a). (b). (c). (d). 立. 政 治 大. ‧ 國. 學 ‧. 圖 2、模型中各解釋變數函數型態錯誤範例圖. sit. y. Nat. al. er. io. 基於累積殘差的模型檢查方法,分別提供了數值上及圖形上的模型檢查。可. v. n. 以透過模擬的方式估計其檢定統計量在虛無假設下的分配,並且計算 P-value。. Ch. engchi. i n U. 此外,透過圖形輔助檢查,當模型中解釋變數的函數型態未知時,能夠有效的提 供幫助。但由於基於累積殘差的檢定方法在檢查各個解釋變數的函數型態是否有 問題時,為根據各個解釋變數的大小,由小至大進行殘差的累加,因此對於類別 變數則無法進行檢定。 下一章節將透過模擬的方式,分別以卜瓦松迴歸模型(Poisson regression model)、羅吉斯迴歸模型(Logistic regression model)、負二項迴歸模型(Negative binomial regression model) 以及迴歸參數 T 檢定,探討上述模型檢查方法之成 效。. 20.

(22) 第三章、模擬研究 在本次的模擬研究中,每次的模擬次數為 1000 次。並且在不同的迴歸模型 中,皆探討下列三種模型. . . . . . . 模型一: h E Y | X†    0  1 X 1   2 X 2 模型二: h E Y | X†    0  1 X 1   2 X 2  3 X 3 模型三: h E Y | X†    0  1 X 1  3 X 3. 政 治 大. 正確模型為模型三,其中 X 3 為 X 22 ;模型一為解釋變數 X 2 的函數型態錯誤的狀. 立. 學. ‧ 國. 況。. 一、 卜瓦松迴歸模型 ( Poisson regression model ). yi !. sit. y. e   i  i yi. Nat. f  y ;  . ‧. 假設 Y 為應變數,其機率密度函數如下. n. al. er. io.  exp  yi ln  i   i  ln  yi ! , i  1,, n ;  > 0. 期望值(mean)= i. ;. Ch. 變異數(variance)= i. engchi. i n U. v. 對數概似函數(log-likelihood function) n. l   ; y     yi ln  i   i  ln  yi ! , i  1, , n ;  > 0 i=1. 連結函數(link function). i  h  i   ln  i   xTi β , i  1,, n 連結反函數(inverse link function).   xTi β   h 1  xTi β   exp  xTi β   i 其 Sn  b  . 1 n  xi  yi  exp  xiT b    n i 1 21. ,. i  1, , n.

(23) (一) 模擬研究 假設 X† = (. ),. ,. 來自常態分配,平均數為 2 標準差為 1.2 ,其中. 來. 自均勻分配(uniform distribution)。 Y   Y1 ,, Yn  , Yi 來自卜瓦松分配;. β  1,0.75,1.32  ,即正確模型為. . . h E  Y | X†   1  0.75 X 1  1.32 X 3 ,. 針對模擬的資料,分別適配三種模型,如下. h  E Y | X 1 , X 2     0  1 X 1   2 X 2. (3.1.1). h  E Y | X1 , X 2 , X 3    0  1 X 1  2 X 2  3 X 3. (3.1.2). h  E  Y | X 1 , X 3     0  1 X 1  3 X 3. (3.1.3). 學. ‧ 國. 立. 政 治 大. 其中(3.1.1)忽略. 的平方項;(3.1.3)為正確的模型。針對以上三種模型,分別產. ‧. 生 n =50、200、500 組樣本。結果如下. al. er. io. sit. y. Nat. 1. 模型(3.1.1). v. n. 將模擬產生出的資料以(3.1.1)適配,並分別以累積殘差的模型檢定方法及迴. Ch. engchi. i n U. 歸參數 T 檢定,檢查其模型的適合度。在圖 3 累積的殘差過程圖中,(3a)、(3b)、 ~. (3c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(3d)、(3e)、(3f)為各樣本數 n 下, ~. ~. 觀測到的之 W 1  x  圖形;(3g)、(3h)、(3i)為各樣本數 n 下,觀測到的之 W 2  x  圖 形。發現,由於模型一中的解釋變數 X 2 其正確的函數型態應為二次式,但卻誤 適配成一次式。故其觀測到之累積殘差過程圖並沒有隨機的在零的上下變動,且 呈現如圖(2a)之 S 型,即透漏其正確的函數型態應為二次式。並且其 P-value 隨 著樣本數的增加明顯遞減。要注意的是,針對統計量 W2  x  ,虛無假設為:模型. 22.

(24) 中解釋變數 X 2 其函數型態是正確的。因此,P-value 及圖形呈現的結果便是透漏 模型中解釋變數 X 2 其函數型態是不正確的。 表 3 為各樣本數 n 下,(3.1.1)參數估計結果。從結果中發現,在各樣本數下 解釋變數 X 2 均為顯著。但是,在正確的模型中是沒有 X 2 項的,應為 X 2 的平方 項 X 3 ,表示迴歸參數 T 檢定並無法偵測模型中解釋變數的函數型態是否正確。 針對這項結果,透過模擬 1000 次的方式檢驗。結果呈現如表 4,在表 4 中發現, 在 1000 次的模擬中解釋變數 X 2 的 T 檢定均呈現顯著,而基於累積殘差的模型檢. 政 治 大 定方法,由於解釋變數 X 在模型中的函數型態是錯誤的,因此其 P-value 隨著樣 立 2. ‧. ‧ 國. 學. 本數增加,呈現顯著的狀況。. n. er. io. sit. y. Nat. al. Ch. engchi. 23. i n U. v.

(25) 表 3、卜瓦松迴歸模型模型一的參數估計結果. n =50. n =200. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. P-value. 截距項 X1. 0.5324. 3.56e-10. 0.709. <2e-16. 0.732. <2e-16. 0.7662. <2e-16. 0.770. <2e-16. 0.753. <2e-16. X2. 1.61143. <2e-16. 1.364. <2e-16. 0.1435. <2e-16. AIC. 314.033. 1243.877. (a). (d). 立. (g). 政 治 大. ‧. ‧ 國. 學. (b). 3008.315. (e). n. al. er. io. sit. y. Nat. (c). (h). Ch. engchi. i n U. v. (f). (i). 圖 3、卜瓦松迴歸模型模型一之累積殘差過程圖. 24.

(26) 表 4、卜瓦松迴歸模型模型一模擬結果. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 截距項. X1 X2. P-value 大於 0.1 的比例. n =50. n =200. n =500. 1000. 1000. 1000. 1000. 1000. 1000. 1000. 1000. 1000. n =50. n =200. n =500. X1. 0.865. 0.876. 0.885. X2. 0.223. 0. 0. 0.864. 0.842. 0.823. Predicted 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.05 的次數 n =50. n =200. 1000. 1000. 1000. X2. 1000. 立. ‧ 國. 999. 1000. n =50 治 政 大 1000. n =500. n =500. 0.940. 0.944. X1. 0.939. 1000. X2. 0.400. 0.001. 0. Predicted. 0.945. 0.930. 0.91. ‧. n. er. io. sit. y. Nat. al. n =200. 1000. 學. 截距項 X1. P-value 大於 0.05 的比例. Ch. engchi. 25. i n U. v.

(27) 2. 模型(3.1.2) 將模擬產生出的資料以(3.1.2)適配,並分別以累積殘差的模型檢定方法及迴 歸參數 T 檢定,檢查其模型的適合度。在圖 4 的累積殘差過程圖中,(4a)、(4b)、 ~. (4c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(4d)、(4e)、(4f)為各樣本數 n 下, ~. ~. 觀測到的之 W 1  x  圖形;(4g)、(4h)、(4i)為各樣本數 n 下,觀測到的之 W 2  x  圖 ~. 形;(4j)、(4k)、(4l)為各樣本數 n 下,觀測到的之 W 3  x  圖形。發現,各個累積 殘差過程圖均隨機地在零的上下變動,且其 P-value 均為不顯著即不拒絕虛無假. 政 治 大 配的結果。但是在迴歸參數 T 檢定中,解釋變數 X 均呈現顯著的狀況,表示解 立. 設,表示透過累積殘差的模型檢定方法檢查模型(3.1.2)的適配度,呈現模型為適 2. ‧ 國. 學. 釋變數 X 2 在(3.1.2)中是不合適的。. ‧. 針對這項發現,模擬結果如表六,結果顯示(3.1.2)中解釋變數 X 2 的迴歸參. y. Nat. 數 T 檢定結果僅有少部分呈現顯著的狀況,而基於累積殘差的模型檢定方法決. al. er. io. sit. 大部分皆為不顯著的狀況。因此,根據模擬結果,T 檢定雖然無法檢查模型中解. n. 釋變數其函數型態的正確性,但在加入正確的解釋變數 X 2 後便能判斷出解釋變. Ch. engchi. i n U. v. 數 X 3 較解釋變數 X 2 具有解釋力,因此模型是不需要解釋變數 X 2 的。而基於累 積殘差之模型檢定方法,雖能有效地判斷模型中解釋變數其函數型態的正確性, 卻無法判斷其解釋變數在模型中的重要性。. 26.

(28) 表 5、卜瓦松迴歸模型模型二的參數估計結果. n =50. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. P-value. 截距項. 1.056. 1.7e-12. 0.993. <2e-16. 1.008. <2e-16. X1. 0.740. <2e-16. 0.755. <2e-16. 0.750. <2e-16. X2. -0.252. 0.585. 0.052. 0.764. 0.029. 0.809. X3. 1.531. 4.7e-5. 1.229. 1.3e-14. 1.293. <2e-16. AIC. (a). n =200. 300.081. 1187.248. (d). 立. 2866.140. (g) 政 治 大. ‧. ‧ 國. 學 sit. (k). n. al. er. io. (c). y. (h). (e). Nat. (b). (j). Ch. engchi. i n U. v. (i). (f). 圖 4、卜瓦松迴歸模型模型二之累積殘差過程圖. 27. (l).

(29) 表 6、卜瓦松迴歸模型模型二模擬結果. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 1000. 1000. 1000. X1. 1000. 1000. 1000. X2. 91. 105. X3. 953. 1000. P-value 大於 0.1 的比例 n =50. n =200. n =500. X1. 0.856. 0.883. 0.881. 102. X2. 0.922. 0.907. 0.885. 1000. X3. 0.922. 0.907. 0.885. Predicted. 0.876. 0.879. 0.885. 政 治 大 基於累積殘差方法 P-value 小於 0.05 的次數 P-value 大於 0.05 的比例 立. 迴歸參數 T 檢定. n=200. n=500. n=50. n=200. n=500. 0.944. 0.938. 學. ‧ 國. n=50. 1000. 1000. X1. 1000. 1000. 1000. X1. 0.941. X2. 46. 47. 52. X2. 0.966. 0.961. 0.943. X3. 905. 1000. 1000. X3. 0.966. 0.961. 0.943. Predicted. 0.946. 0.946. 0.941. n. y. sit. er. io. al. ‧. 1000. Nat. 截距項. Ch. engchi. 28. i n U. v.

(30) 3. 模型(3.1.3) 將模擬產生出的資料以正確的模型(3.1.3)適配,並分別以累積殘差的模型檢 定方法及迴歸參數 T 檢定,檢查其模型的適合度。在圖 5 的累積殘差過程圖中, ~. (5a)、(5b)、(5c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(5d)、(5e)、(5f)為各 ~. 樣本數 n 下,觀測到的之 W 1  x  圖形;(5g)、(5h)、(5i)為各樣本數 n 下,觀測到 ~. 的之 W 3  x  圖形。發現,各個累積殘差過程圖均隨機地在零的上下變動,且其 P-value 均為不顯著即不拒絕虛無假設,表示透過累積殘差的模型檢定方法檢查. 治 政 大 果,如表 7,均顯示為顯著,拒絕虛無假設。表示模型(3.1.3)亦為合適的。針對 立. (3.1.3)的適配度,呈現模型為適配的結果。而在模型(3.1.3)的迴歸參數 T 檢定結. 這項結果,透過模擬顯示,如表 8,(3.1.3)的迴歸參數 T 檢定均呈現顯著,而基. ‧ 國. 學. 於累積殘差的模型檢查方法決大部分呈現不顯著,亦表示模型為合適的。. ‧. 根據以上卜瓦松迴歸模型的三種模型模擬結果,發現,基於累積殘差的模型. y. Nat. 檢查方法雖能有效地判斷模型中解釋變數其函數型態的正確性,卻無法判斷其解. er. io. sit. 釋變數在模型中的重要性;而迴歸參數 T 檢定雖然無法檢查模型中解釋變數其 函數型態的正確性,但在加入正確函數型態的解釋變數後便能判斷出解釋變數其. al. n. v i n 在模型中的重要性;而在正確的模型之下,基於累積殘差的模型檢查方法及 T Ch engchi U. 檢定均能做出正確的判斷,因此在檢查模型的適合度時,若能應用兩種檢定方法, 便能更有效地判斷模型的合適度。以下應用羅吉斯迴歸模型及負二項迴歸模型檢 驗,是否有相同的結果出現。. 29.

(31) 表 7、卜瓦松迴歸模型模型三的參數估計結果. n =50. n =200. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. P-value. 截距項. 0.984. <2e-16. 1.005. <2e-16. 1.014. <2e-16. X1. 0.743. <2e-16. 0.755. <2e-16. 0.750. <2e-16. X3. 1.330. <2e-16. 1.276. <2e-16. 1.318. <2e-16. AIC. 298.376. 1185.338. (a). 2864.198. (d). 立. ‧. ‧ 國. 學 y. Nat. io. n. al. sit. (e). (c). (h). er. (b). (g). 政 治 大. Ch. engchi. i n U. v. (f). (i). 圖 5、卜瓦松迴歸模型模型三之累積殘差過程圖 30.

(32) 表 8、卜瓦松迴歸模型模型三模擬結果. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 1000. 1000. 1000. X1. 1000. 1000. 1000. X3. 1000. 1000. 1000. P-value 大於 0.1 的比例 n =50. n =200. n =500. X1. 0.868. 0.879. 0.890. X3. 0.912. 0.900. 0.900. Predicted. 0.885. 0.882. 0.892. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.05 的次數. P-value 大於 0.05 的比例. n=50. n=200. 截距項. 1000. 1000. 政 治 大 n=50 1000. X1. 1000. 1000. 1000. X1. 0.941. X3. 1000. 1000. X3 Predicted. 1000. n=200. n=500. 0.948. 0.945. 0.963. 0.955. 0953. 0.953. 0.940. 0.948. 學. ‧ 國. 立. n=500. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 31. i n U. v.

(33) 二、羅吉斯迴歸模型 ( Logistic regression model ) 假設 Y 為應變數,其機率密度函數如下 1 yi. f  y ;    i yi 1  i . . .    ln 1     exp yi ln  i  i 1    i. , i  1, , n ; 0    1. 期望值(mean)= i 變異數(variance)= i 1  i  對數概似函數(log-likelihood function) n. . 政 治 , i  1,大 , n ; 0    1.    ln 1    l   ; y    yi ln  i  i 1    i i=1. 立.    xT β  i  h  i   ln  i  i  1  i . ,. 學. ‧ 國. 連結函數(link function). i  1,  , n ; 0    1. ‧. 其中  x1 ,, x n  為 n 筆觀測到之解釋變數向量, β 為 (p+1)  1 之未知參數向量。. y. Nat. n. al. . 1  exp  xTi β    i  . C h 1  exp  x b U n i engchi. 1 n xi yi  exp  xTi b 其 Sn  b    n i 1. . ,. i  1,  , n. er. io.   xTi β   h 1  xTi β   exp  xTi β. sit. 連結反函數(inverse link function). v. T i. (一) 模擬 假設. =(. ),. ,. 來自常態分配,平均數為 0.75 標準差為 1.5,其中. 來自. 常態分配,平均數為 1 標準差為 1.2。 Y   Y1 ,, Yn  , Yi 來自二項分配(binomial distribution); β  1,0.75, 1 ,即正確模型為. . . h E Y | X†   1  0.75 X 1  X 3 ,. 針對模擬的資料,分別適配三種模型,如下. 32.

(34) h  E Y | X 1 , X 2     0  1 X 1   2 X 2. (3.2.1). h  E Y | X1 , X 2 , X 3    0  1 X 1  2 X 2  3 X 3. (3.2.2). h  E  Y | X 1 , X 3     0  1 X 1  3 X 3. (3.2.3). 其中(3.2.1)為忽略. 的平方項而模型(3.2.3)為正確的模型。針對以上三種模型,. 分別產生 n =50、200、500 組樣本。結果如下 1. 模型(3.2.1). 治 政 大 及迴歸參數 T 檢定,檢查其模型的適合度。圖 6 累積的殘差過程圖,(6a)、(6b)、 立. 將模擬產生出的資料以模型(3.2.1)適配,並分別以累積殘差的模型檢定方法. ~. ‧ 國. ~. 學. (6c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(6d)、(6e)、(6f)為各樣本數 n 下, ~. 觀測到的之 W 1  x  圖形;(6g)、(3h)、(6i)為各樣本數 n 下,觀測到的之 W 2  x  圖. ‧. 形。發現,由於模型(3.2.1)中的解釋變數 X 2 其正確的函數型態應為二次式,但. y. Nat. er. io. sit. 卻誤適配成一次式。故其觀測到之累積殘差過程圖並沒有隨機的在零的上下變動, 如卜瓦松迴歸模型(3.1.1)檢定結果相同,呈現如圖(2a)之 S 型,即透漏其正確的. al. n. v i n 函數型態應為二次式。並且其 C P-value 隨著樣本數的增加明顯遞減。要注意的是, hengchi U 針對統計量 W2  x  ,虛無假設為:模型中解釋變數 X 2 其函數型態是正確的。因. 此,P-value 及圖形呈現的結果便是透漏模型中解釋變數 X 2 其函數型態是不正確 的。下表 9 為各樣本數 n 下,模型(3.2.1)的參數估計結果。從結果中發現,在各 樣本數下解釋變數 X 2 均為顯著。但是,在正確的模型中是沒有 X 2 項的,應為 X 2 的平方項 X 3 ,表示 T 檢定並無法偵測模型中解釋變數的函數型態是否正確。針 對這項結果,透過模擬的方式檢驗。結果呈現如表 10,在表中發現,1000 次的 模擬中解釋變數 X 2 的 T 檢定隨著樣本數的增加均呈現顯著結果,而基於累積殘 33.

(35) 差的模型檢定方法,由於解釋變數 X 2 在模型中的函數型態是錯誤的,因此其 P-value 隨著樣本數增加,呈現顯著的狀況。 表 9、羅吉斯迴歸模型模型一的參數估計結果. n =50. n =200. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. P-value. 截距項. 1.568. 0.015. 0.417. 0.076. 0.612. 9.25e-05. X1. 1.459. 0.003. 0.661. 1.7e-06. 0.576. 2.24e-11. X2. -2.171. 0.0005. -1.147. 8.9e-10. -1.197. <2e-16. AIC. 38.752. 204.672. 立. (a). 政 治 大 (d). (g). ‧. ‧ 國. 學 sit. n. al. er. io. (c). y. Nat. (b). 496.282. (e). Ch. engchi. i n U. v. (f). (h). (i). 圖 6、羅吉斯迴歸模型模型一之累積殘差過程圖 34.

(36) 表 10、羅吉斯迴歸模型模型一模擬結果. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 274. 553. 0.205. X1. 803. 1000. 1000. X2. 945. 1000. 1000. P-value 大於 0.1 的比例 n =50. n =200. n =500. X1. 0.873. 0.868. 0.83. X2. 0.464. 0.011. 0. Predicted. 0.786. 0.377. 0.035. 迴歸參數 T 檢定. 基於累積殘差方法. 政 治 大 n =500. P-value 小於 0.05 的次數 n =200. 截距項. 169. 444. X1. 680. X2. 890. 立. n =50. n =200. n =500. 728. X1. 0.936. 0.926. 0.908. 1000. 1000. X2. 0.643. 0.021. 0. Predicted. 0.880. 0.503. 0.081. ‧ 國. 1000. ‧. 999. 學. n =50. P-value 大於 0.05 的比例. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(37) 2. 模型(3.2.2) 將模擬產生出的資料以模型(3.2.2)適配,並分別以累積殘差的模型檢定方法 及迴歸參數 T 檢定,檢查其模型的適合度。圖 7 的累積殘差過程圖中,(7a)、(7b)、 ~. (7c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(7d)、(7e)、(7f)為各樣本數 n 下, ~. ~. 觀測到的之 W 1  x  圖形;(7g)、(7h)、(7i)為各樣本數 n 下,觀測到的之 W 2  x  圖 ~. 形;(7j)、(7k)、(7l)為各樣本數 n 下,觀測到的之 W 3  x  圖形。發現,各個累積 殘差過程圖均隨機地在零的上下變動,其 P-value 均為不顯著,即不拒絕虛無假. 政 治 大 配的結果。但是在 T 檢定中,解釋變數 X 均呈現顯著的狀況,表示解釋變數 X 立. 設,表示透過累積殘差的模型檢定方法檢查模型(3.2.2)的適配度,呈現模型為適 2. ‧ 國. 學. 在模型(3.2.2)中是不合適的。. 2. 針對這項結果,透過模擬檢驗。如表 12,結果顯示中解釋變數 X 2 的 T 檢定. ‧. 結果僅有少部分呈現顯著的結果,而基於累積殘差的模型檢定方法決大部分皆為. y. Nat. io. sit. 不顯著的狀況。因此,模擬結果顯示,T 檢定雖然無法檢查模型中解釋變數其函. er. 數型態的正確性,但在加入正確函數型態的解釋變數 X 3 後便能判斷出解釋變數. al. n. v i n Ch X 具有解釋力,因此模型中是不需要解釋變數 engchi U. X 3 較為解釋變數 X 2. 2. 的。而基於. 累積殘差之模型檢定方法,雖能有效地判斷模型中解釋變數其函數型態的正確性, 卻無法判斷其解釋變數在模型中的重要性。. 36.

(38) 表 11、羅吉斯迴歸模型模型二的參數估計結果. n =50. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. P-value. 截距項. 1.24. 0.073. 1.5. 3.44e-08. 0.881. 1.35e-07. X1. 1.2. 0.008. 0.605. 2.71e-05. 0.637. 2.08e-11. X2. 0.457. 0.115. -0.536. 0.498. -0.052. 0.725. X3. -1.77. 0.003. -0.785. 0.0004. -0.957. 4.07e-15. AIC. 40.626. 186.926. 立. (d). 448.766. 政 治 大 (j). (g). 學 (h). n. al. (c). Ch. er. io. (e). sit. y. Nat. (b). ‧. ‧ 國. (a). n =200. i n U (a). engchi. (f). v. (i). 圖 7、 羅吉斯迴歸模型模型二之累積殘差過程圖. 37. (k). (l).

(39) 表 12、羅吉斯迴歸模型模型二模擬結果. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 573. 982. 1000. X1. 864. 1000. 1000. X2. 79. 103. X3. 839. 1000. 迴歸參數 T 檢定. 立. P-value 大於 0.1 的比例 n =50. n =200. n =500. X1. 0.858. 0.877. 0.889. 104. X2. 0.901. 0.879. 0.898. 1000. X3. 0.882. 0.867. 0.884. Predicted. 0.863. 0.878. 0.895. 政 治 大基於累積殘差方法. P-value 小於 0.05 的次數. X3. 749. 1000. 1000. 1000. 36. 1000. io. 0.936. 0.940. 0.941. 53. X2. 0.960. 0.941. 0.943. 1000. X3. 0.950. 0.934. 0.949. Predicted. 0.957. 0.936. 0.949. n. al. X1. y. 73. n =500. Ch. engchi. 38. sit. X2. n =200. er. 757. 968. ‧ 國. X1. n =50. ‧. 401. n =500. Nat. 截距項. n =200. 學. n =50. P-value 大於 0.05 的比例. i n U. v.

(40) 3. 模型(3.2.3) 將模擬產生出的資料以正確的模型,模型(3.2.3)適配,並分別以累積殘差的 模型檢定方法及迴歸參數 T 檢定,檢查其模型的適合度。在圖 8 的累積殘差過 ~. 程圖中,(8a)、(8b)、(8c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(8d)、(8e)、 ~. (8f)為各樣本數 n 下,觀測到的之 W 1  x  圖形;(8g)、(8h)、(8i)為各樣本數 n 下, ~. 觀測到的之 W 3  x  圖形。發現,各個累積殘差過程圖均隨機地在零的上下變動, 且其 P-value 均為不顯著即不拒絕虛無假設,表示透過累積殘差的模型檢定方法. 治 政 大 檢定結果中,如表 13,隨著樣本數增加,均顯示為顯著,拒絕虛無假設。表示 立. 檢查模型(3.2.3)的適配度,呈現模型為適配的結果。而在模型(3.2.3)的迴歸參數 T. 模型(3.2.3)亦為合適的。針對這項結果,透過模擬方式檢驗,如表 14。結果顯示,. ‧ 國. 學. T 檢定均呈現顯著,而基於累積殘差的模型檢查方法決大部分呈現不顯著,亦表. ‧. 示模型為合適的。. y. Nat. 根據以上羅吉斯迴歸模型的模擬結果,得到與卜瓦松迴歸模型模擬研究相同. er. io. sit. 的發現。基於累積殘差的模型檢查方法雖能有效地判斷模型中解釋變數其函數型 態的正確性,卻無法判斷其解釋變數在模型中的重要性;而迴歸參數 T 檢定雖. al. n. v i n 然無法檢查模型中解釋變數其函數型態的正確性,但在加入正確函數型態的解釋 Ch engchi U. 變數後,便能判斷出解釋變數其在模型中的重要性;而在正確的模型之下,基於 累積殘差的模型檢查方法及迴歸參數 T 檢定均能做出正確的判斷。因此在檢查 模型的適合度時,若能應用兩種檢定方法,便能更有效地判斷模型的合適度。最 後,將基於累積殘差的模型檢查方法應用在負二項迴歸模型。. 39.

(41) 表 13、羅吉斯迴歸模型模型三的參數估計結果. n =50. n =200. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. P-value. 截距項. 2.467. 0.001. 1.263. 1.3e-05. 0.917. 7.03e-08. X1. 0.867. 0.026. 0.668. 6.67e-06. 0.848. <2e-16. X3. -1.8. 0.003. -1.329. 6.03e-10. -0.893. <2e-16. AIC. 36.591. (a). 158.130. 立. 437.081. 政 治 大. (d). y. ‧. ‧ 國. 學. Nat. io. n. al. (c). (h). sit. (e). er. (b). (g). Ch. engchi. (f). i n U. v. (i). 圖 8、 羅吉斯迴歸模型模型三之累積殘差過程圖. 40.

(42) 表 14、羅吉斯迴歸模型模型三模擬結果. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數. P-value 大於 0.1 的比例. n=50. n=200. n=500. 截距項. 584. 983. 1000. X1. 865. 1000. 1000. X3. 999. 1000. 1000. n=50. n=200. n=500. X1. 0.881. 0.887. 0.898. X3. 0.899. 0.870. 0.893. Predicted. 0.862. 0.881. 0.885. 基於累積殘差方法 治 政 P-value 小於 0.05 的次數 大 P-value 大於 0.05 的比例 n=50 n=200立 n=500 n=50 n=200 n=500 迴歸參數 T 檢定. X1. 0.947. 0.940. 0.945. 1000. 1000. X3. 0.959. 0.938. 0.949. Predicted. 0.950. 0.940. 0.942. Nat. y. 995. 1000. io. sit. X3. 1000. n. al. er. 767. 1000. ‧ 國. X1. 971. ‧. 443. 學. 截距項. Ch. engchi. 41. i n U. v.

(43) 三、負二項迴歸模型 ( Negative binomial regression model ) 負二項迴歸模型,在本次基於累積殘差之廣義線性模型的模型檢查方法研究 中,與卜瓦松迴歸模型及羅吉斯迴歸模型最大不同的地方為:卜瓦松迴歸模型及 羅吉斯迴歸模型所使用的連結函數即為標準連結函數(canonical link function),而 負二項迴歸模型在廣義線性模型中其連結函數並不為標準連結函數。但是,這樣 的差異並不會影響累積殘差的模型檢查方法應用(Su, Wei 1991)。透過模擬結果, 也驗證了此模型檢查方法在負二項迴歸模型的應用上是合適的。 除了連結函數的差異外,在決定一個負二項分配時,也比卜瓦松分配及二項. 政 治 大 模型檢定的結果。負二項分配之隨機變數定義為:直到第 r 次成功,所需之失敗 立. 分配多了一個參數 r 。因此在模擬研究中亦分別探討,不同的參數 r 是否會影響. 假設 Y 為應變數,其機率密度函數如下 1.  f  y ;  ,    C1yi 11 1  1   1  i .  i     1  i  . yi. ,  0. Nat. y. ‧. ‧ 國. 學. 次數,其成功機率為 p 。. sit. al. n. 其中  . er. io.     1 ln 1    ln  yi  1   1  , i  1, , n ;   0  exp  yi ln  i   i 1  i      1   1   1 r. Ch. 期望值= 1  pi   pi   i. engchi. i n U. v. 變異數= r 1  pi  pi2  i  i 2 對數概似函數.     1 ln 1    ln  yi  1   1  , i  1,, n ;   0 l   ; y     yi ln  i i   1  i     i=1    1   1  n. 42.

(44) 標準連結函數   g     ln  i  1   i  . i  1,  , n ;   0. ,. 連結函數. i  h  i   ln  i   xiT β , i  1,, n ;   0 其中  x1 ,, x n  為 n 筆觀測到之解釋變數向量, β 為 (p+1)  1 之未知參數向量。 連結反函數.   xTi β   h 1  xTi β   exp  xTi β   i. i  1, , n. 治 政  大.   1 T x y  exp x b   i  1   exp xT b   i i n i 1   i  . 1. n. . 立. 學. ‧ 國. 其 Sn  b  . ,. 由於負二項分配會受參數 r 的影響,因此探討基於累積殘差的模型檢查方法 在負二項迴歸模型的應用時,分別討論了 r =0.05、1、2、30、500 等五種情況。. ‧. 下圖九為在不同 r 下,平均數為 5 的負二項分配的分布狀況。從圖中可以發現,. y. Nat. sit. 隨著 r 的增加,負二項分配的分布會朝平均數 5 集中,且變化逐漸減少。這是由. n. al. er. io. 於當 r 增加,逐漸趨近於無限大時,負二項分配會收斂至卜瓦松分配(Hilbe ,2011)。. i n U. v. 因此,隨著 r 增加,圖形的變化也隨之逐漸減少。如圖十,當 r 越大時,負二項. Ch. engchi. 分配的圖型越趨近平均數為 5 的卜瓦松分配圖形。而當 r 為 500 時,圖形已幾乎 與卜瓦松分配圖形吻合。因此,根據圖九,利用模擬探討基於累積殘差的模型檢 查方法在負二項迴歸模型的應用時,分別討論 r =0.05、1、2、30、500 的情況。. 43.

(45) 學. ‧ 國. 立. 政 治 大 Y. 圖 9、不同參數 r 下,平均數為 5 之負二項分配分布圖. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Y 圖 10、負二項分配參數 r 變化與卜瓦松分配關係圖. 44.

(46) (一) 模擬研究 假設. =(. ), 來自常態分配,平均數為 0.75 標準差為 1,其中. ,. 來. 自常態分配,平均數為 0.65 標準差為 1。 Y   Y1 ,, Yn  , Yi 來自負二項分配;. β  1,0.75, 1 ,即正確模型為. . . h E Y | X†   1  0.75 X 1  X 3. 針對模擬的資料,分別適配三種模型,如下. h  E Y | X 1 , X 2     0  1 X 1   2 X 2. ,. (3.3.1). 政 治 大 h  E Y | X , X , X       X   X   X , 立 1. 2. 3. 0. 1. 1. 2. 2. 3. (3.3.3). 的平方項而模型(3.3.3)為正確的模型。針對以上三種模. ‧. ‧ 國. 學. h  E  Y | X 1 , X 3     0  1 X 1  3 X 3 , 其中模型(3.3.1)為忽略. (3.3.2). 3. n. al. er. io. sit. y. Nat. 型,以 r =2 為例,分別產生 n =50、200、500 組樣本。結果如下. Ch. engchi. 45. i n U. v.

(47) 1. 模型(3.3.1) 將模擬產生出的資料以模型(3.3.1)配適,並分別以累積殘差的模型檢定方法 及迴歸參數 T 檢定,檢查其模型的適合度。在圖 11 的累積殘差過程圖中,(11a)、 ~. (11b)、(11c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(11d)、(11e)、(11f)為各樣 ~. 本數 n 下,觀測到的之 W 1  x  圖形;(11g)、(11h)、(11i)為各樣本數 n 下,觀測到 ~. 的之 W 2  x  圖形。發現,由於模型(3.3.1)中的解釋變數 X 2 其正確的函數型態應 為二次式,但卻誤適配成一次式。故其觀測到之累積殘差過程圖並沒有隨機的在. 政 治 大 (2a)之 S 型,即透露其正確的函數型態應為二次式。並且其 P-value 隨著樣本數 立. 零的上下變動,與卜瓦松迴歸模型與羅吉斯迴歸模型的檢定結果相同,呈現如圖. ‧ 國. 學. 的增加明顯遞減。表 15 為各樣本數 n 下,模型(3.3.1)的參數估計結果。從結果中 發現,在各樣本數下解釋變數 X 2 均為顯著。但是,在正確的模型中是沒有 X 2 項. ‧. 的,應為 X 2 的平方項 X 3 。與先前模擬研究結果相同,表示 T 檢定並無法偵測模. y. Nat. er. io. sit. 型中解釋變數的函數型態是否正確。. 針對這項結果,透過模擬方式檢驗。呈現如表 16,在表中發現,1000 次的. al. n. v i n Ch 的 T 檢定隨著樣本數的增加呈現顯著結果的比例次數也隨 engchi U. 模擬中,解釋變數 X 2. 之增加,而基於累積殘差的模型檢定方法,由於解釋變數 X 2 在模型中的函數型 態是錯誤的,因此約九成的 P-value 呈現顯著的狀況,與先前的結果相同。值得 注意的是,在表十六中的 r 平均,為模擬一千次中 r 估計值的平均數值。由於模 型(3.3.1)為錯誤的模型,因此影響了 r 的估計,但 r 的平均估計值並沒有與正確 值 r =2 有過大的差距,因此並不會影響到模型檢定結果。. 46.

(48) 表 15、負二項迴歸模型模型一參數估計結果( r =2). n =50. n =200. n =500. 參數估計值. P-value. 參數估計值. P-value. 參數估計值. 截距項. 1.187. 1.1e-06. 0.476. 0.0001. 0.637. <2e-16. X1. 0.62. 8.8e-05. 0.898. 8.13e-20. 0.818. <2e-16. X2. -0.851. 3.65e-05. -0.800. 1.13e-15. -0.96. <2e-16. AIC. 235.121. (a). 778.155. 立. 1925.973. 政 治 大. (d). ‧ 國. ‧ (h). sit. y. (e). n. al. er. io. (c). (g). 學. Nat. (b). Ch. engchi. (f). i n U. v. (i). 圖 11、負二項迴歸模型模型一之累積殘差過程圖( r =2). 47. P-value.

(49) 表 16、負二項迴歸模型模型一模擬結果( r =2). 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 748. 999. 1000. X1. 988. 1000. 1000. X2. 978. 1000. r 平均. 1.1909. 1.0083. P-value 大於 0.1 的比例 n =50. n =200. n =500. X1. 0.913. 0.538. 0.052. 1000. X2. 0.674. 0.009. 0. 0.9706. Predicted. 0.930. 0.734. 0.018. 迴歸參數 T 檢定. 基於累積殘差方法 P-value 大於 0.05 的比例 治 政 大 n =50 n =200 n =500 n =500. P-value 小於 0.05 的次數 n =200. 截距項. 659. 995. X1. 960. X2. 961. ‧ 國. 立. 1000. 學. n =50. 1000. X1. 0.968. 0.733. 0.164. 1000. 1000. X2. 0.813. 0.040. 0. Predicted. 0.969. 0.857. 0.358. ‧. 1000. n. er. io. sit. y. Nat. al. Ch. engchi. 48. i n U. v.

(50) 2.. 模型(3.3.2) 將模擬產生出的資料以模型(3.3.2)配適,並分別以累積殘差的模型檢定方法. 及迴歸參數 T 檢定,檢查其模型的適合度。在圖 12 的累積殘差過程圖中,(12a)、 ~. (12b)、(12c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(12d)、(12e)、(12f)為各 ~. 樣本數 n 下,觀測到的之 W 1  x  圖形;(12g)、(12h)、(12i)為各樣本數 n 下,觀測 ~. ~. 到的之 W 2  x  圖形;(12j)、(12k)、(12l)為各樣本數 n 下,觀測到的之 W 3  x  圖形。 發現,各個累積殘差過程圖均隨機地在零的上下變動,且其 P-value 均為不顯著,. 政 治 大. 即不拒絕虛無假設,表示透過累積殘差的模型檢定方法檢查模型(3.3.2)的適配度,. 立. 呈現模型為適配的結果。但是在 T 檢定中,解釋變數 X 2 均呈現顯著的狀況,表. ‧ 國. 學. 示解釋變數 X 2 在模型(3.3.2)中是不合適的。. ‧. 針對這項結果,透過模擬的方式檢驗。如表 16,結果顯示模型(3.3.2)中解釋. sit. y. Nat. 變數 X 2 的 T 檢定僅有少部分呈現顯著的結果,而基於累積殘差的模型檢定方法. n. al. er. io. 決大部分皆為不顯著的狀況。因此,模擬結果顯示,T 檢定雖然無法檢查模型中. i n U. v. 解釋變數其函數型態的正確性,但在加入正確函數型態的解釋變數 X 3 後便能判. Ch. engchi. 斷出解釋變數 X 3 較為解釋變數 X 2 具有解釋力,因此模型中是不需要解釋變數. X 2 的。而基於累積殘差之模型檢定方法,雖能有效地判斷模型中解釋變數其函 數型態的正確性,卻無法判斷其解釋變數在模型中的重要性。也發現,雖然摸型 (3.3.2)非為正確模型,但是重要變數皆在模型中,因此 r 的平均估計值隨著樣本 數增加,而越準確趨近實際值 2。. 49.

(51) 表 17、負二項迴歸模型模型二參數估計結果( r =2). n=50. n=200. 參數估計值. P-value. 參數估計值. 截距項. 1.144. 0.0001. 1.110. <2e-16. 0.879. <2e-16. X1. 0.456. 0.009. 0.568. 3.18e-11. 0.823. <2e-16. X2. 0.726. 0.052. 0.061. 0.665. 0.009. 0.904. X3. -1.505. 2.3e-5. -0.98. 4.11e-12. -0.958. <2e-16. AIC. 173.485. 政 治 大 (j). ‧. ‧ 國. 學. (g). (d). y. sit. al. (h). n. (e). Ch. er. io. (c). P-value. 1715.135. Nat. (b). 參數估計值. P-value. 760.191. 立 (a). n=500. n U engchi. iv. (i). (f). 圖 12、負二項分配模型模型二之累積殘差過程圖( r =2). 50. (k). (l).

(52) 表 18、負二項迴歸模型模型二模擬結果( r =2). 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數. P-value 大於 0.1 的比例. n =50. n =200. n =500. n =50. n =200. n =500. 截距項. 976. 1000. 1000. X1. 993. 1000. 1000. X1. 0.945. 0.904. 0.912. X2. 118. 124. 115. X2. 0.912. 0.899. 0.906. X3. 996. 1000. 1000. X3. 0.907. 0.883. 0.895. r 平均. 3.0796. 2.1909. 2.0666. Predicted. 0.942. 0.919. 0.916. 迴歸參數 T 檢定. 基於累積殘差方法. 截距項. 954. 1000. 1000. X1. 981. 1000. 1000. X1. X2. 49. 67. 52. X2. X3. 991. 1000. 1000. X3. io. v ni. Predicted. n. al. n =50. Ch. engchi U. 51. n =200. n =500. 0.983. 0.970. 0.961. 0.972. 0.957. 0.957. 0.963. 0.953. 0.963. 0.964. 0.958. sit. n =500. er. n =200. Nat. n =50. ‧. ‧ 國. P-value 大於 0.05 的比例. 學. P-value 小於 0.05 的次數. y. 立. 政 治 大. 0.988.

(53) 3.模型(3.3.3) 將模擬產生出的資料以正確的模型,模型(3.3.3)適配,並分別以累積殘差的 模型檢定方法及迴歸參數 T 檢定,檢查其模型的適合度。在圖 13 的累積殘差過 ~. 程圖中,(13a)、(13b)、(13c)為各樣本數 n 下,觀測到的之 W n  t  圖形;(13d)、(13e)、 ~. (13f)為各樣本數 n 下,觀測到的之 W 1  x  圖形;(13g)、(13h)、(13i)為各樣本數 n ~. 下,觀測到的之 W 3  x  圖形。發現,各個累積殘差過程圖均隨機地在零的上下變 動,且其 P-value 均為不顯著即不拒絕虛無假設,表示透過累積殘差的模型檢定. 治 政 大 均顯示為顯著,拒絕虛 參數 T 檢定結果中,如表 17,隨著樣本數增加,P-value 立 方法檢查模型(3.3.3)的適配度,呈現模型為適配的結果。而在模型(3.3.3)的迴歸. 無假設。表示模型(3.3.3)亦為合適的。. ‧ 國. 學. 針對這項結果,透過模擬的方式檢驗,如表 18。結果顯示,模型(3.3.3)的 T. ‧. 檢定約九成呈現顯著,而基於累積殘差的模型檢查方法決大部分呈現不顯著,亦. y. Nat. 表示模型為合適的。. er. io. sit. 根據以上負二項迴歸模型的模擬結果,得到與卜瓦松迴歸模型、羅吉斯迴歸 模型,模擬研究相同的發現。基於累積殘差的模型檢查方法雖能有效地判斷模型. al. n. v i n 中解釋變數其函數型態的正確性,卻無法判斷其解釋變數在模型中的重要性;而 Ch engchi U. T 檢定雖然無法檢查模型中解釋變數其函數型態的正確性,但在加入正確函數型 態的解釋變數後,便能判斷出解釋變數其在模型中的重要性;而在正確的模型之 下,基於累積殘差的模型檢查方法及 T 檢定均能做出正確的判斷。因此在檢查 模型的適合度時,若能應用兩種檢定方法,便能更有效地判斷模型的合適度。並 且,在多了一個參數 r 的負二項分配中,基於累積殘差之模型檢查方法依舊是可 以運行的。 以下針對,在不同參數 r 下,利用模擬的方式探討基於累積殘差之模型檢查 方法在負二項迴歸模型的成效。. 52.

(54) 表 19、負二項迴歸模型模型三的參數估計結果( r =2). n =50. n =200. n =500. 參數估計值. P-value. 參數估計值. 截距項. 1.100. 6.7e-05. 0.971. <2e-16. 1.072. <2e-16. X1. 0.587. 0.0008. 0.775. <2e-16. 0.768. <2e-16. X3. -0.897. 0.0003. -0.958. <2e-16. -1.014. <2e-16. AIC. 182.626. 702.676. (a). ‧. ‧ 國. 學 (h). n. er. io. sit. y. Nat. (c). (g). 政 治 大. (e). al. Ch. engchi. i n U. v. (i). (f). 圖 13、負二項分配模型模型三之累積殘差過程圖( r =2) 53. P-value. 1800.778. (d). 立. (b). 參數估計值. P-value.

(55) 表 20、負二項迴歸模型模型三擬結果( r =2). 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數. P-value 大於 0.1 的比例. n =50. n =200. n =500. n =50. n =200. n =500. 截距項. 980. 1000. 1000. X1. 993. 1000. 1000. X1. 0.940. 0.913. 0.913. X3. 1000. 1000. 1000. X3. 0.899. 0.887. 0.896. r 平均. 2.8954. 2.1647. 2.0575. Predicted. 0.944. 0.914. 0.912. 基於累積殘差方法 治 政 P-value 小於 0.05 的次數 大 P-value 大於 0.05 的比例 立 n =500 n =50 n =200 n =50 n =200 n =500. 1000. 1000. X1. 1000. 1000. 0.980. 0.964. 0.963. X3. 0.967. 0.955. 0.963. Predicted. 0.983. 0.965. 0.956. Nat. y. X3. 1000. io. sit. 991. 1000. n. al. er. X1. 1000. ‧. 959. 學. 截距項. ‧ 國. 迴歸參數 T 檢定. Ch. engchi. 54. i n U. v.

(56) (一) r =1 在負二項迴歸模型參數 r =1 的模擬研究中,得到與負二項迴歸模型 r =2 時 相同的結果。在正確的模型之下,T 檢定及基於累積殘差之模型檢定方法皆能做 出正確的判斷。但是,在不正確的模型之下,T 檢定無法檢查模型中其解釋變數 函數型態的正確性,而基於累積殘差之模型檢定方法無法判斷模型中解釋變數的 重要性。 1. 模型一. 政 治 大 基於累積殘差方法. 表 21、項迴歸模型模型一模擬結果( r =1). 立. 迴歸參數 T 檢定. 970. r 平均. 0.7507. 989. 1000. 1000. 1000. X1. 1000. 1000. 0.64734. 0.63115. io. 0.862. 0.354. 0.033. X2. 0.6. 0.027. 0. Predicted. 0.871. 0.529. 0.111. n. al. n =500. y. X2. n =200. sit. 941. n =50. er. X1. n =500. 迴歸參數 T 檢定. ‧. 658. n =200. Nat. 截距項. ‧ 國. n =50. P-value 大於 0.1 的比例. 學. P-value 小於 0.1 的次數. Ch. engchi. P-value 小於 0.05 的次數 n =50. n =200. n =500. 截距項. 565. 978. 1000. X1. 105. 1000. 1000. X2. 939. 1000. 1000. 55. iv 基於累積殘差方法 n U. P-value 大於 0.05 的比例. n =50. n =200. n =500. X1. 0.947. 0.568. 0.096. X2. 0.794. 0.074. 0. Predicted. 0.947. 0.681. 0.226.

(57) 2. 模型二. 表 22、負二項迴歸模型模型二模擬結果( r =1). 迴歸參數 T 檢定 P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 919. 1000. 1000. X1. 971. 1000. 1000. X2. 124. 125. X3. 990. 1000. r 平均. 1.3246. 1.0711. n =50. n =200. n =500. X1. 0.957. 0.916. 0.905. 109. X2. 0.916. 0.893. 0.885. 1000. X3. 0.905. 0.888. 0.887. 0.931. 0.917. Predicted 0.953 政 治 大. 1.0272. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.05 的次數. X2. 69. X3. 978. 1000. 1000. 1000. X1. 58. X2. 74. al. 1000. n =50. n =200. n =500. 0.991. 0.967. 0.958. 0.97. 0.96. 0.951. X n C h1000 U e n g Predicted 0.984 chi. 0.947. 0.941. 0.978. 0.959. y. 949. 999. n. X1. n =500. io. 858. n =200. Nat. 截距項. P-value 大於 0.05 的比例. er. n =50. Predictor. ‧. Predictor. P-value 大於 0.1 的比例. 學. ‧ 國. 立. Predictor. 3. 56. sit. Predictor. 基於累積殘差方法. v i0.951.

(58) 3. 模型三. 表 23、負二項迴歸模型模型三模擬結果( r =1). 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數 n =50. n =200. n =500. 截距項. 937. 1000. 1000. X1. 974. 1000. 1000. X3. 1000. 1000. 1000. r 平均. 1.2662. 1.0605. 1.0234. n =50. n =200. n =500. X1. 0.958. 0.919. 0.903. X3. 0.905. 0.891. 0.882. 0.927. 0.914. 治 0.954 政 Predicted 大. 迴歸參數 T 檢定. 基於累積殘差方法. n =500. 截距項. 872. 999. 1000. X1. 953. 1000. 1000. X1. 0.987. X3. 999. 1000. X3. 0.959. Predicted. 0.983. io. n. al. Ch. engchi. 57. i n U. v. n =200. n =500. 0.965. 0.964. 0.948. 0.939. 0.977. 0.961. er. 1000. n =50. sit. n =200. Nat. n =50. ‧. ‧ 國. P-value 大於 0.05 的比例. 學. P-value 小於 0.05 的次數. y. 立. P-value 大於 0.1 的比例.

(59) (二) r =0.05 在負二項迴歸模型參數 r =0.05 的模擬研究中,得到與負二項迴歸模型 r =2、 r =1 時相同的結果。在正確的模型之下,T 檢定及基於累積殘差之模型檢定方法. 皆能做出正確的判斷。但是,在不正確的模型之下,T 檢定無法檢查模型中其解 釋變數函數型態的正確性,而基於累積殘差之模型檢定方法無法判斷模型中解釋 變數的重要性。 但是,由於負二項分配的參數 r =0.05 時為極端的數值,在一般 的情況下,參數 r 極少小於 0.25 (Hilbe ,2011),因此在負二項迴歸模型中其解釋 變數的函數型態出現錯誤時,需要在較大的樣本之下  n  500  才能做出正確地模 型適合度判斷。. 立. 1. 模型一. 政 治 大. ‧ 國. 學. 表 24、負二項迴歸模型模型一模擬結果( r =0.05). ‧. 基於累積殘差方法. Nat. y. 迴歸參數 T 檢定. al. 截距項. 349. X1. 358. 518. X2. 418. 820. r 平均. 0.1082. 0.0584. n. 238. n =500. n =50. n =200. n =500. 0.683. 0.437. 0.881. 0.552. 0.236. 0.928. 0.745. 0.473. er. n =200. io. n =50. P-value 大於 0.1 的比例. sit. P-value 小於 0.1 的次數. 350. C h822 X engchi X 983. 1. v i0.907 n U. 2. 0.0535. Predicted. 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.05 的次數. P-value 大於 0.05 的比例 n =500 n =50 n =200. n =50. n =200. n =500. 截距項. 261. 156. 248. X1. 260. 425. 745. X1. 0.974. 0.79. 0.573. X2. 312. 747. 968. X2. 0.968. 0.73. 0.382. Predicted. 0.982. 0.843. 0.604. 58.

(60) 2. 模型二. 表 25、負二項迴歸模型模型二模擬結果( r =0.05). 迴歸參數 T 檢定. 基於累積殘差方法. P-value 小於 0.1 的次數. P-value 大於 0.1 的比例. n =50. n =200. n =500. n =50. n =200. n=500. 截距項. 349. 336. 628. X1. 403. 547. 860. X1. 0.918. 0.93. 0.924. X2. 230. 158. 138. X2. 0.869. 0.844. 0.86. X3. 504. 909. 1000. X3. 0.854. 0.82. 0.831. r 平均. 0.1301. 0.0643. 0.0582. 0.939. 0.93. 立. 治 政 Predicted 大 0.951. ‧ 國. 基於累積殘差方法. 學. 迴歸參數 T 檢定. 520. 455. 802. 81. X1. 316. X2. 144. X3. 348. 836. io. 263. n. al. n =200. n =500. X1. y. 243. 截距項. n =50. 0.966. 0.97. 0.969. 72. X2. sit. n =500. Nat. n =200. 0.930. 0.918. 0.923. 999. X3. 0.897. 0.914. 0.977. 0.966. Ch. ‧. n =50. P-value 大於 0.05 的比例. er. P-value 小於 0.05 的次數. Predicted. engchi U. 59. 0.932. iv n0.977.

參考文獻

相關文件

[7] C-K Lin, and L-S Lee, “Improved spontaneous Mandarin speech recognition by disfluency interruption point (IP) detection using prosodic features,” in Proc. “ Speech

由於本計畫之主要目的在於依據 ITeS 傳遞模式建構 IPTV 之服務品質評估量表,並藉由決

以角色為基礎的存取控制模型給予企業組織管理上很大的彈性,但是無法滿

在軟體的使用方面,使用 Simulink 來進行。Simulink 是一種分析與模擬動態

則巢式 Logit 模型可簡化為多項 Logit 模型。在分析時,巢式 Logit 模型及 多項 Logit 模型皆可以分析多方案指標之聯合選擇,唯巢式 Logit

譚志忠 (1999)利用 DEA 模式研究投資組合效率指數-應用

在做容忍度的分析時,又有四種的分析方法可以選擇:極值分析 (Extreme Value Analysis,簡稱 EVA),和方根(Root-Sum-Square,簡稱 RSS)分析,快速蒙地卡羅分析(Fast Monte

Lauterbach and Schultz(1990)檢定 Black-Scholes 認購權證定價模 型則發現,Black and Scholes