台灣六都之健保就醫支出地區性差異:以變異數成分模型分析

全文

(1)國立台灣師範大學數學系碩士學位論文. 台灣六都之健保就醫支出地區性差異: 以變異數成分模型分析 Variance Component Analysis of Medical Treatment Expenses in Six Municipality of Taiwan. 指導教授: 程毅豪教授研究生 : 黃冠瑋. 中華民國一百零五年七月.

(2) 致謝兩年的時間過得很快，感覺沒做太多事情，就準備要畢業了。當初我是服完兵役，發現數學系加上師範體系，工作機會不是太好，家人支持我唸研究所，才著手準備研究所的考試；接連幾間學校的考試讓我知道我準備的並不夠，於是我開始找工作，過程中接到同學的祝賀電話，我才知道，我和師大數學系的緣分還沒結束。研究所以前，我沒有接觸過統計軟體，也沒有接觸過程式語言，我知道我需要在此時開始，剛開始上手的很慢，常常需要請教老師、同學和網路論壇；後來聽了我的指導教授程毅豪老師資料採礦的課，做了不少練習，慢慢地能夠寫出一些簡單的數據分析；從沒接觸過程式語言到能夠做一些基本的分析，很感謝老師、同學和網路的幫助。還有提供我資料做分析的台北護理健康大學健康事業管理系李佩珍老師，感謝他的幫助，讓我能開始做研究。研究的過程中，我的進度不是很快，有時是自己太混，總覺得時間來的及，和接連病了幾次；有時是遇到瓶頸需要克服，感謝指導教授程毅豪老師適時的給予我建議與方向；感謝蔡蓉青老師讓我知道自己還有很大的努力空間，同學陳冠宏和賴國棟時常幫助我這個程式不太厲害的人，隊友吳宗倫陪我解悶，和家人無條件的支持，我才能順利的完成這篇論文。最後感謝在口試當天，給我很多建議的程毅豪老師、蔡蓉青老師和林惠文老師，幫忙我記錄的同學陳建宇和吳宗倫。兩年的日子裡，感謝一路上陪伴與幫助的人們，不管你的名字有沒出現於此，在此也都一併感謝於心中。黃冠瑋. 僅致. 中華民國 105 年 7 月. I.

(3) 摘要一般線性模型是統計學上在對資料進行變異數分析時常用的模型，以往通常將欲估計的參數以固定效應的形式進行估計；而變異成分模型是階層線性模型的一種。在生物統計學中，我們以固定效應和隨機效應分別代表不同參數的效應，再對特定因子進行變異數分析。在本文中，我們先回顧兩種模型的估計方式，再對台灣六都西元 2012 年健保資料庫的醫療費用與個人資料之間的關係進行分析，利用兩種模型比較不同直轄市與行政區於醫療費用的差異，再對變異成分模型進行兩種得分檢定，了解地區差異。最後再從實際數據分析的結果進行說明。. 關鍵字 : 變異成分模型、隨機效應、分數檢定. II.

(4) Abstract In statistics, general linear model is a common model to execute analysis of variance; in the past, we usually estimate the parameters in the form of fixed effects. The variance component model is also named as the random effects model, and is a kind of hierarchical linear models.We use “fixed effects” and “random effects” to denote the effects of different parameters, and then making inference on these effects. In this thesis, we first review the ways to estimate the two models, and then analyze the difference between medical treatment expenses in six municipality of Taiwan in 2012 adjusting for basic personal information of patients And then use two kinds of score test to test the difference among municipalities. Finally, we provide a conclusion for the data analysis.. Key word：variance component model 、 random effects 、 score test. III.

(5) 目錄致謝................................................................................................................................. I 摘要................................................................................................................................ II Abstract ......................................................................................................................... III 目錄...............................................................................................................................IV 表目錄 ............................................................................................................................V 圖目錄 ...........................................................................................................................VI 第一章緒論.................................................................................................................. 1 1.1 研究動機 ....................................................................................................................... 1 1.2 研究目的 ....................................................................................................................... 1. 第二章. 模型簡介.................................................................................................... 3. 2.1 一般線性模型(general linear model) ................................................................... 3 2.2 變異成分模型(variance components model) ......................................................... 3 2.3 變異成分 ....................................................................................................................... 4. 第三章. 統計分析方法............................................................................................ 5. 3.1 混和模型 ....................................................................................................................... 5 3.2 準概似函數 ................................................................................................................... 6 3.3 變異成分檢定 ............................................................................................................... 7 3.4 第二種得分檢定 ............................................................................................................ 8. 第四章. 實際數據與分析結果.............................................................................. 11. 4.1 固定效應 ..................................................................................................................... 11 4.2 反應變量 ..................................................................................................................... 15 4.3 隨機效應 ..................................................................................................................... 19 4.4 兩模型分析結果 ......................................................................................................... 21 4.5 兩模型與兩得分檢定結果 ......................................................................................... 24. 第五章結論與討論.................................................................................................. 26 參考文獻 ...................................................................................................................... 27 附錄.............................................................................................................................. 28 IV.

(6) 表目錄表表表表表表表表. 1 性別資料 .................................................. 11 2 年齡資料 .................................................. 12 3 教育程度資料 .............................................. 12 4 婚姻狀況資料 .............................................. 12 5 宗教信仰資料 .............................................. 13 6 全家收入資料 .............................................. 13 7 職業資料 .................................................. 13 8 健康狀況自覺資料 .......................................... 14. 表 9 有無慢性病資料 ............................................ 14 表 10 有無重大傷病卡資料 ....................................... 14 表表表表表表表表. 11 台北市各行政區人數 ....................................... 19 12 新北市各行政區人數 ....................................... 20 13 桃園市各行政區人數 ....................................... 20 14 台中市各行政區人數 ....................................... 20 15 台南市各行政區人數 ....................................... 21 16 高雄市各行政區人數 ....................................... 21 17 一般線性模型分析結果 ..................................... 23 18 變異成分模型分析結果 ..................................... 24. 表 19 變異成分估計 ............................................. 24 表 20 模型檢定結果 ............................................. 24 表 21 得分檢定結果 ............................................. 25. V.

(7) 圖目錄圖圖圖圖圖圖圖圖. 1 2 3 4 5 6 7 8. 101 年台灣六都門診醫療費用金額分布(1) ..................... 15 101 年台灣六都門診醫療費用金額分布(2) ..................... 16 101 年台北市門診醫療費用金額分布 .......................... 16 101 年新北市門診醫療費用金額分布 .......................... 17 101 年桃園市門診醫療費用金額分布 .......................... 17 101 年台中市門診醫療費用金額分布 .......................... 18 101 年台南市門診醫療費用金額分布 .......................... 18 101 年高雄市門診醫療費用金額分布 .......................... 19. VI.

(8) 第一章緒論 1.1 研究動機台灣的健保制度在國際上可說是很出名，從 1995 年推行至今，徹底改變了台灣的醫療生態；事實上醫療人才與技術需要長時間的培養，但台灣的健保制度讓人民都認為是便宜又方便的，也造就了許多醫. 療資源的浪費，養成台灣人民大病小病都看病，藥沒吃完就亂丟的習慣；而國民醫療健保支出的年年攀升，也讓健保制度出現了危機。感謝由台北護理健康大學健康事業管理系李佩珍老師提供的台灣健保資料庫，由於筆者對不同地區這項因子有興趣，便想分析台灣的醫療支出在不同地區之間的差異。. 1.2 研究目的以往常見的固定效應模型中，變異數分析所考慮的因子為固定的形式，也就是說，感興趣的因子源於特定的範圍；例如要比較六種不同的飲料銷售量的差異，反應變量為銷售量，感興趣的因子為六種不同的飲料，這樣便限定了特定的範圍，因此推論的結果便會在六種飲料的銷售量的差異上，這種情況下的因子就會被稱為固定效應。而隨機效應模型中，我們考量的因子是來自於母群體中可能的一組樣本，因此對因子進行變異數分析所推論的重點不在所選定的因子上，而是推論到樣本背後的母群體上；一樣以飲料的銷售量為例，假設從一間飲料店中所有的飲料品項中，隨機挑出六種飲料，用於比較銷售量的差異，最後推論到這間飲料店的銷售情況，因此隨機效應關心的並非侷限在所選定的因子上，而是希望藉由這些隨機選出的因子，去推論母群 1.

(9) 體中的情形。本文希望使用的實際資料去分析台灣的醫療費用與地區間的差異，由於部分縣市與行政區所抽樣到的人數有限，遂取出人口較多的六都進行分析，推論這六個主要都市的醫療費用與地區間的差異。. 2.

(10) 第二章模型簡介此部份我們介紹兩種欲使用的模型，以及變異成分的估計。. 2.1 一般線性模型(general linear model) 一般線性模型是一個統計學上常見的線性模型，公式為 Y = 𝜇 + Xβ + E 其中 Y 是一個包含反應變量的矩陣，𝜇 為截距，X 是一個包含獨立自變量的設計矩陣，β是一個包含多個估計參數的矩陣，E 是一個包含誤差和餘項的矩陣；E 通常假設為獨立且服從常態分布(normal distribution)。. 2.2 變異成分模型(variance components model) 此模型由 Henderson 於 1953 年提出，變異成分模型又稱隨機效應模型(random effects model)，是階層線性模型(Hierarchical Linear Model)的一種。它假定被分析的數據中，不同的人群的差異涉及到層次結構。在生物統計學定義中，生物學家使用固定和隨機效應來分別指人口平均和特定因子的效應，後者通常被假定為未知、潛在的變量。假設從一個國家所有的小學中隨機選出 m 間小學，也假設從學校中的同年級選出 n 個小學生也是隨機，而他們對於標準能力測驗的分數已經確定。而Y𝑖𝑗 表示第 j 個學生在第 i 個學校所得的分數，以這些量建構出的模型公式為 Y𝑖𝑗 = 𝜇 + 𝑈𝑖 + 𝑊𝑖𝑗 其中 𝜇 表示所有小學生標準能力測驗的平均成績，𝑈𝑖 為各個小學特定的隨機效應；它能衡量第 i 個學校的平均分數和整個國家的平均分 3.

(11) 數之間的差異，因為 m 間小學已經從更大數量的學校間抽取出來，所以它是隨機的；而 𝑊𝑖𝑗 為第 i 個學校中第 j 個學生的分數偏差，同樣也被認為是隨機的，因為學校內的學生也是隨機抽取。變異成分模型可透過增加解釋變量，進行延伸的分析。例如 Y𝑖𝑗 = 𝜇 + 𝛽1 𝑋1𝑖𝑗 + 𝛽2 𝑋2𝑖𝑗 + 𝛽3 𝑋3𝑖𝑗 + 𝑈𝑖 + 𝑊𝑖𝑗 其中𝑋1𝑖𝑗 為性別變量，𝑋2𝑖𝑗 為瞳孔顏色變量，𝑋3𝑖𝑗 為家長的學歷變量，這樣就變成了混和模型，而非單純的隨機效應模型。. 2.3 變異成分從上個章節我們提到的公式 Y𝑖𝑗 = 𝜇 + 𝑈𝑖 + 𝑊𝑖𝑗 中，假設 𝑈𝑖 的變異數為 𝛿 2 ，𝑊𝑖𝑗 的變異數為 𝜌2 ，則顯然 Y𝑖𝑗 的變異數為 𝛿 2 + 𝜌2 。假設 1 ̅̅̅̅ 𝑌𝑖∎ = 𝑛 ∑𝑛𝑗=1 𝑌𝑖𝑗. 為某個學校的平均，且包含在隨機樣本之中。假設 𝑚. 𝑛. 1 ̅̅̅̅̅ 𝑌∎∎ = ∑ ∑ 𝑌𝑖𝑗 𝑚𝑛 𝑖=1 𝑗=1. 為全平均。假設 𝑚. 𝑛. 𝑚. ̅̅̅̅ ̅̅̅̅̅ 2 SSW = ∑ ∑(𝑌𝑖𝑗 − ̅̅̅̅ 𝑌𝑖∎ ) 、SSU = n ∑(𝑌 𝑖∎ − 𝑌∎∎ ) 2. 𝑖=1 𝑗=1. 𝑖=1. 則我們可得到 1 1 𝜌2 2 𝐸(𝑆𝑆𝑊) = 𝜌 、 𝐸(𝑆𝑆𝑈) = + 𝛿2 𝑚(𝑛 − 1) 𝑛(𝑚 − 1) 𝑛 這些期望值為我們估計 𝛿 2 和 𝜌2 的重要基礎，而 𝛿 2 即為變異成分。. 4.

(12) 第三章統計分析方法此部份我們介紹混和模型與兩種得分檢定。. 3.1 混和模型由 XiHong Lin 在 1995 年提出的模型，假設y𝑖 為一個有 n 個觀測值的反應變量，𝑥𝑖 為p × 1 固定效應的共變異向量，𝑧𝑖 為q × 1隨機效應的共變異向量，a 為一 p × 1 的固定效應估計參數向量，b 為一 q × 1 的隨機效應估計參數向量。在未觀測到的隨機效應估計參數向量 b 的條件下，我們假定y𝑖 間互相獨立且 E(y𝑖 |𝑏) = 𝜇𝑖𝑏 、var(y𝑖 |𝑏) = 𝜙𝛼𝑖−1 𝜐(𝜇𝑖𝑏 ) ，其中𝜙 為尺度參數，𝑎𝑖 先驗權重，𝜐(∙) 為一變異函數；假設y𝑖 會服從一條件廣義線性模型 g(𝜇𝑖𝑏 ) = 𝜂𝑖 𝑏 = 𝑥𝑖𝑇 𝑎 + 𝑧𝑖𝑇 𝑏. (1). 其中g(∙) 為一單調可微分連結函數，則令 𝜇 𝑏 = (𝜇1𝑏 , 𝜇2𝑏 , … , 𝜇𝑛𝑏 )𝑇 、𝜂𝑏 = (𝜂1𝑏 , 𝜂2𝑏 , … , 𝜂𝑛𝑏 )𝑇 、g(𝜇 𝑏 ) = {g(𝜇1𝑏 ), g(𝜇2𝑏 ), … , g(𝜇𝑛𝑏 )}𝑇 我們可以將上述模型改寫成矩陣形式 g(𝜇 𝑏 ) = 𝜂𝑏 = X𝑎 + Z𝑏. (2). 上述提到的隨機效應 𝑏，我們假設它生成於某個分布 F ，其中期望值為 0 變異數 θ ，其中θ 為未知變異成分。我們進一步假設隨機效應 𝑏 的三階和更高階動差為 o(‖ θ‖)。若要滿足這樣的假設，隨機效應𝑏 必須為指數族分布(McCullagh & Nelder, 1989, p.350)或是混和指數族分布(Johnson & Kotz, 1970, p.88)。接下來，概似函數的部分，(𝑎, θ) 的積分準概似函數我們採取以下形式. 5.

(13) 𝑛. ℒ(𝑎, θ) = 𝑒𝑥𝑝{ℓ(𝑎, θ)} = ∫ 𝑒𝑥𝑝{∑ ℓ𝑖 (𝑎 ; b)} 𝑑F(b ; θ ). (3). 𝑖=1. 其中在𝑏 的條件下定義𝑎 的條件對數準概似函數為. ℓ𝑖 (𝑎 ; θ) ∝ ∫. 𝜇𝑖𝑏. y𝑖. 𝑎𝑖 (y𝑖 − 𝑢) 𝑑𝑢 𝜙𝜐(u). (4). 這樣的假設源於再求得得分函數的過程中，會把概似函數對 θ 做偏微分的動作，因此得分函數偏微分前的形式應該可以用積分式表示。. 3.2 準概似函數為了進行虛無假設為θ = 0 的得分檢定，我們必須計算. 𝜕ℓ(𝑎 ,θ) 𝜕𝜃. 和帶入. θ = 0 時的結果；然而這樣的計算在上述積分式(3)是相當困難的，涉及多維度的積分，因次我們採取拉普拉斯方法。依循 Solomon & Cox(1992)和 Breslow & Lin(1995)的論點，我們在進行對很小的變異成分積分之前，先對上述積分式(3)中的 𝑒𝑥𝑝{∑𝑛𝑖=1 ℓ𝑖 (𝑎 ; b)} 在隨機效應𝑏 的期望值(b = 0)，做二階泰勒展開式，我們可以得到 𝑛. 𝑒𝑥𝑝{∑ ℓ𝑖 (𝑎 ; b)} 𝑖=1 𝑛. 𝑛. = exp{∑ ℓ𝑖 (𝑎 ; 0)}(1 + ∑. ∂ℓ𝑖 (𝑎 ; 0) 𝑇 𝑧𝑖 𝑏 𝜕𝜂𝑖. 𝑖=1. 𝑖=1. 𝑛. 𝑛. 𝑖=1. 𝑖=1. 1 ∂ℓ𝑖 (𝑎 ; 0) ∂ℓ𝑖 (𝑎 ; 0) 𝑇 + 𝑏 𝑇 [{∑ 𝑧𝑖 }{∑ 𝑧𝑖 } 2 𝜕𝜂𝑖 𝜕𝜂𝑖 𝑛. +∑ 𝑖=1. ∂2 ℓ𝑖 (𝑎 ; 0) 𝑇 𝑧𝑖 𝑧𝑖 ]𝑏 + 𝜀) 𝜕𝜂𝑖 2. 6.

(14) 其中殘差𝜀 包含隨機效應𝑏 的三階和更高階動差，因此我們可以將上述積分式(3)寫成ℒ(𝑎, θ) = 𝐸(𝑒𝑥𝑝{∑𝑛𝑖=1 ℓ𝑖 (𝑎 ; b)}) ，再利用 3.1 節提及的動差假設，我們可以得到 𝑛. ℒ(𝑎, θ) = 𝑒𝑥𝑝{∑ ℓ𝑖 (𝑎 ; 0)} × {1 𝑖=1 𝑛. 𝑛. 𝑖=1. 𝑖=1. 1 ∂ℓ𝑖 (𝑎 ; 0) ∂ℓ𝑖 (𝑎 ; 0) 𝑇 + 𝑡𝑟([{∑ 𝑧𝑖 } {∑ 𝑧𝑖 } 2 𝜕𝜂𝑖 𝜕𝜂𝑖 𝑛. ∂2 ℓ𝑖 (𝑎 ; 0) 𝑇 +∑ 𝑧𝑖 𝑧𝑖 ])θ + o(‖ θ‖)} 𝜕𝜂𝑖 2 𝑖=1. 而我們在𝑏 的條件下定義𝑎 的條件對數準概似函數則可改寫為 𝑛. 1 𝜕ℓ(𝑎 ; 0) 𝜕ℓ(𝑎 ; 0) 𝜕 2 ℓ(𝑎 ; 0) 𝑇 ℓ(𝑎 ; θ) = ∑ ℓ𝑖 (𝑎 ; 0) + 𝑡𝑟 [𝑍 { + } 𝑍θ] 2 𝜕𝜂 𝜕𝜂𝑇 𝜕𝜂𝜕𝜂𝑇 𝑖=1. + o(‖ θ‖) 其中. 𝜕ℓ(𝑎 ,0) 𝜕𝜂. (5). 為一n × 1 向量，其元素為. 矩陣，其元素為. 𝜕 2 ℓ𝑖 (𝑎 ;0) 𝜕𝜂𝑖2. 𝜕ℓ𝑖 (𝑎 ,0) 𝜕𝜂𝑖. 𝜕2 ℓ(𝑎 ;0). ；. 𝜕𝜂𝜕𝜂 𝑇. 為一n × n 對角. 在對角線上。. 3.3 變異成分檢定在這個小節，我們利用 3.2 節的結果和模型(2)去導出一個虛無假設為θ = 0 的得分檢定。為了方便我們觀察得分函數，我們先做以下假設: 令Δ 和W 皆為n × n 對角矩陣，其中元素分別為 Δ ∶ δ𝑖 =. 1 𝑔′(𝑢𝑖 ). W ∶ 𝑤𝑖 = [𝑉(𝑢𝑖 ){𝑔′(𝑢𝑖 )2 }]−1 = 𝑉(𝑢𝑖 )−1 δ𝑖 2 其中在虛無假設的情況之下𝜇𝑖 = E(y𝑖 ) 且g(𝜇𝑖 ) = 𝑥𝑖𝑇 𝑎 7.

(15) 同時在虛無假設的情況之下令 W0 = −. 𝜕 2 ℓ(𝑎 ; 0) = 𝑑𝑖𝑎𝑔{𝑤0𝑖 } = 𝑑𝑖𝑎𝑔{𝑤𝑖 + 𝑒𝑖 (𝑦𝑖 − 𝜇𝑖 )} 𝜕𝜂𝜕𝜂𝑇. 其中 {𝑉 ′ (𝑢𝑖 )𝑔′ (𝑢𝑖 ) + 𝑉(𝑢𝑖 )𝑔′′ (𝑢𝑖 )} 𝑒𝑖 = [𝑉 2 (𝑢𝑖 ){𝑔′(𝑢𝑖 )}3 ] 且W = E(W0 ) 。從上述對數準概似函數(5)，和接下來做實際數據分析時我們僅討論一種隨機效應時的特殊情況，我們可以計算得分函數 U𝜃 (𝑎 ̂) 0 =. 𝜕ℓ(𝑎 ̂0 ,0) 1 = 𝑡𝑟[{WΔ−1 (𝑦 − 𝜇)(𝑦 − 𝜇)𝑇 Δ−1 𝑊 − W0 }𝑍𝐷̇𝑍 𝑇 ] 𝜕𝜃 2 1 = {(𝑦 − 𝜇)𝑇 Δ−1 W𝑍𝐷̇𝑍 𝑇 WΔ−1 (𝑦 − 𝜇) 2 − 𝑡𝑟(W0 𝑍𝐷̇𝑍 𝑇 )}. (6). 𝜕D 其中𝜇 = (𝜇1 , 𝜇2 , … , 𝜇𝑛 )𝑇 、𝐷̇ = 𝜕𝜃 ；而𝑎 ̂0 為𝑎 在θ = 0 時的最大概似估. 計。接著進行檢定H0 ∶ θ = 0 時，我們建構一個整體得分統計量 𝑇̃ −1 𝒳𝐺2 = U𝜃 (𝑎 ̂) ̂) U𝜃 (𝑎 ̂) 0 𝐼 (𝑎 0 0. (7). 其中𝐼̃ 為虛無假設的情況下θ 的訊息矩陣，我們採取以下形式 𝑇 −1 𝐼̃ = 𝐼𝜃𝜃 − 𝐼𝑎𝜃 𝐼𝑎𝑎 𝐼𝑎𝜃. 在此形式中 𝜕ℓ 𝜕ℓ 𝜕ℓ 𝜕ℓ 𝜕ℓ 𝜕ℓ 𝐼𝜃𝜃 = 𝐸 ( ) ，𝐼𝑎𝜃 = 𝐸 ( ) ，𝐼𝑎𝑎 = 𝐸 ( ) 𝑇 𝑇 𝜕𝜃 𝜕𝜃 𝜕𝑎 𝜕𝜃 𝜕𝑎 𝜕𝑎𝑇 𝜕ℓ. 𝜕ℓ. 其中ℓ = ℓ(a, 𝜃)，且𝜕𝜃、𝜕𝑎 皆計算於θ = 0 的情況之下。接著我們就會以𝒳𝐺2 這個統計量去進行卡方檢定。. 3.4 第二種得分檢定在此部份我們介紹第二種得分檢定，由 Verbeke 和 Molenberghs 在 8.

(16) 2003 年時提出。此處的得分檢定，我們考慮常用的形式將檢定統計量設為 𝑇𝑆 = {. 𝜕ℓ(𝜃) 𝜕 2 ℓ(𝜃) |𝜃=0 }2 { | }−1 𝜕𝜃 𝜕𝜃 2 𝜃=0. 由於此檢定統計量隱藏著調整成雙尾檢定的假設，因此我們必須重新給他適當的定義去區別正或負的 𝜃 值，將上述檢定統計量改寫為 𝜕ℓ(𝜃) 𝜕 2 ℓ(𝜃) 2 { | } { | }−1 𝑇𝑆 = { 𝜕𝜃 𝜃=0 𝜕𝜃 2 𝜃=0 0 ,𝜃 < 0. ,𝜃 ≥ 0. (8). 我們可得到相對應的漸進虛無假設分布的形式 P(𝑇𝑆 > c|𝐻0 ) = P(𝑇𝑆 > c|𝐻0 , 𝜃 ≥ 0)P(𝜃 ≥ 0|𝐻0 ) + P(𝑇𝑆 > c|𝐻0 , 𝜃 < 0)P(𝜃 < 0|𝐻0 ) =. 1 1 P(𝒳12 > c) + P(𝒳02 > c) 2 2. 接下來此方法從 Silvapulle & Silvapulle(1995)提出的理論延伸而來，它讓單尾的得分檢定非常有用；他們考慮透過 θ 參數化模型，並將假設檢定寫為 𝐻0 ∶ θ = 0 、𝐻1 ∶ θ ∈ C 這種形式的情況。在我們的分析情況之下，參數空間 C 為非負實數。此處使用一般形式的得分檢定統計量，再加上 Silvapulle & Silvapulle 的理論去推論結果；令對數概似函數為 ℓ(θ) ，則得分函數 𝜕ℓ. 為𝑆𝑛 (θ) = 𝜕θ 。假設有一連結函數 H(θ) 使得當 n 趨近於無限大時， 𝑑. 𝑛−1/2 𝑆𝑛 (θ) → 𝑁{0, H(θ)} 在虛無假設的情況之下，定義θ𝐻 = 0 。θ𝐻 可被估計且設為θ̂𝐻 。最後令 𝑍𝑛 = 𝑛−1/2 𝑆𝑛 (θ̂𝐻 ) 則我們可以重新定義單尾的得分統計量為 𝑇𝑆 = 𝑍𝑛′ 𝐻 −1 (θ̂𝐻 )𝑍𝑛 − inf{(𝑍𝑛 − b)′ 𝐻 −1 (θ̂𝐻 )(𝑍𝑛 − b)|b ∈ C}. (9). 在這種特例之下，若θ 為正，則𝑇𝑆 為正且屬於 C；若θ 為負，則取𝑇𝑆 = 0 。 9.

(17) 接下來，若觀測到的𝑇𝑆 值等於𝑡𝑠 則p 值可寫為 p = ξ{𝑡𝑠 , H(θ𝐻 ), C} −1. 其中函數ξ 表示ξ{t, B, C} = P[𝑍 ′𝐵 𝑍 − inf{(Z − b)′ 𝐵 −1 (Z − b)|b ∈ C} ≥ t] 且𝑍~𝑁(0, 𝐵) 。Shapiro 已在 1988 年證明1 − ξ{t, B, C} 為卡方機率的加權和；因此我們在第五章做的兩種得分檢定皆為卡方檢定，檢定統計量分別為第(7)式與第(9)式。. 10.

(18) 第四章實際數據與分析結果本章節介紹本文進行變異數分析時使用的實際數據與分析結果，數據來源為台灣健保資料庫。資料為隨機訪問受訪者單次看診的醫療費用與個人基本資料，其中個人基本資料包含性別、年齡、教育程度、婚姻狀況、宗教信仰、全家收入、職業、健康狀況自覺、有無慢性病、有無重大傷病卡與居住地共 11 項，其中只取出欲分析居住在六都地區的人，並刪除部分題目未作答的少數受訪者，以利分析，最後分析的受訪者人數為 4096 人。. 4.1 固定效應由於原始數據的某幾種個人基本資料分類眾多，像是年齡分為九類 (0~14,15~19,20~29,30~39,40~49,50~59,60~69,70~79,80 以上)，每個分類所包含的人數也就越少，為了能得到更準確的分析結果，我們對原始數據作分類上的調整，如表 1 至表 10；性別、有無慢性病則不做分類調整，重新分類結果如下: 性別直轄市. 總人數. 男生. 女生. 台北新北桃園台中台南. 667 860 433 865 510. 259 357 182 319 205. 408 503 251 546 305. 高雄六都. 761 4096. 298 1620. 463 2476. 表 1. 11.

(19) 年齡直轄市. 總人數. 0~19 歲. 20~59 歲. 60 歲以上. 台北新北桃園台中台南高雄六都. 667 860 433 865 510 761 4096. 79 133 81 142 68 95 598. 420 583 277 569 331 498 2678. 168 144 75 154 111 168 820. 表 2. 教育程度直轄市. 總人數. 僅完成義務教育. 義務教育以上. 台北新北. 667 860. 158 300. 509 560. 桃園台中台南高雄六都. 433 865 510 761 4096. 166 313 204 256 1397. 267 552 306 505 2699. 表 3. 婚姻狀況直轄市. 總人數. 未婚. 已婚. 台北新北桃園台中台南高雄六都. 667 860 433 865 510 761 4096. 232 315 161 281 154 227 1370. 435 545 272 584 356 534 2726. 表 4. 12.

(20) 宗教信仰直轄市. 總人數. 無信仰. 東方宗教. 西方宗教. 台北新北桃園台中台南高雄六都. 667 860 433 865 510 761 4096. 238 293 158 306 137 232 1364. 373 525 252 523 347 473 2493. 56 42 23 36 26 56 239. 表 5. 全家收入直轄市. 總人數. 45000 以下. 45000~90000. 90000 以上. 台北新北. 667 860. 169 279. 261 351. 237 230. 桃園台中台南高雄六都. 433 865 510 761 4096. 142 299 229 309 1427. 186 406 195 286 1685. 105 160 86 166 984. 表 6. 職業直轄市. 總人數. 有業. 無業. 台北新北桃園台中台南高雄六都. 667 860 433 865 510 761 4096. 353 446 220 423 270 353 2065. 314 414 213 442 240 408 2031. 表 7. 13.

(21) 健康狀況自覺直轄市. 總人數. 好. 普通. 不好. 台北新北桃園台中台南高雄六都. 667 860 433 865 510 761 4096. 400 517 277 520 301 477 2492. 189 229 110 246 132 197 1103. 78 114 46 99 77 87 501. 表 8. 有無慢性病直轄市. 總人數. 有慢性病. 無慢性病. 台北新北. 667 860. 184 219. 483 641. 桃園台中台南高雄六都. 433 865 510 761 4096. 95 195 150 219 1062. 338 670 360 542 3034. 表 9. 有無重大傷病卡直轄市. 總人數. 有. 無. 台北新北桃園台中台南高雄六都. 667 860 433 865 510 761 4096. 33 29 12 31 20 27 152. 634 831 421 834 490 734 3944. 表 10. 14.

(22) 4.2 反應變量我們可以發現下圖一台灣六都的醫療費用呈現明顯的右偏，為了使醫療費用的分布更接近模型使用上假設的常態分佈，以利分析，我們把醫療費用帶入一個連結函數 f(𝑦) = ln(𝑦 + 1) 其中 𝑦 為醫療費用，經過這個轉換使的醫療費用較接近常態分佈，進而進行分析；而經過轉換的台灣六都醫療費用分布，則為以下圖 1 至圖 8 所示。. 2000 1000 0. Frequency. 3000. 4000. 101年台灣六都門診醫療費用金額分布. 0. 20000. 40000 支出金額圖 1. 15. 60000.

(23) 1000 500 0. 0. 2. 4. 6. 8. 10. log(支出金額+1). 圖 2. 0. 100. 200. 300. 101年台北市門診醫療費用金額分布. Frequency. Frequency. 1500. 2000. 101年台灣六都門診醫療費用金額分布. 0. 2. 4. 6 log(支出金額+1). 圖 3. 16. 8. 10.

(24) 300 200 0. 100. Frequency. 400. 101年新北市門診醫療費用金額分布. 0. 2. 4. 6. 8. 10. log(支出金額+1). 圖 4. 150 100 50 0. Frequency. 200. 250. 101年桃園市門診醫療費用金額分布. 0. 2. 4. 6 log(支出金額+1). 圖 5 17. 8. 10.

(25) 0. 100. 200. Frequency. 300. 400. 101年台中市門診醫療費用金額分布. 0. 2. 4. 6. 8. 10. log(支出金額+1). 圖 6. 100 50 0. Frequency. 150. 200. 101年台南市門診醫療費用金額分布. 0. 2. 4. 6. log(支出金額+1). 圖 7 18. 8.

(26) 150 0. 50. 100. Frequency. 200. 250. 300. 101年高雄市門診醫療費用金額分布. 0. 2. 4. 6. 8. 10. log(支出金額+1). 圖 8. 4.3 隨機效應表 11 至表 16 為六都人數與六都之各行政區樣本數，由表可見部分行政區樣本過少，以至於在隨機效應的部分無法再做第二層的分析。. 台北市各行政區人數松山區. 信義區. 大安區. 中山區. 中正區. 大同區. 萬華區. 41 文山區 71. 55 南港區 30. 81 內湖區 65. 54 士林區 83. 33 北投區 60. 31 總人數 667. 63. 表 11. 19.

(27) 新北市各行政區人數板橋區. 三重區. 中和區. 永和區. 新莊區. 新店區. 樹林區. 鶯歌區. 134 三峽區 20 林口區 3 雙溪區 2. 89 淡水區 34 深坑區 8 貢寮區 2. 91 汐止區 50 石碇區 2 金山區 1. 46 瑞芳區 7 坪林區 0 萬里區 6. 105 土城區 49 三芝區 3 烏來區 0. 67 蘆洲區 48 石門區 1 總人數 860. 36 五股區 14 八里區 8. 20 泰山區 13 平溪區 1. 表 12. 桃園市各行政區人數桃園市. 中壢市. 大溪鎮. 楊梅市. 蘆竹鄉. 大園鄉. 龜山鄉. 73 八德市. 97 龍潭鄉. 28 平鎮市. 28 新屋鄉. 23 觀音鄉. 21 復興鄉. 29 總人數. 34. 33. 46. 6. 12. 3. 433. 表 13. 台中市各行政區人數中區. 東區. 南區. 西區. 北區. 西屯區. 南屯區. 北屯區. 3 豐原區 61 潭子區. 26 東勢區 10 大雅區. 48 大甲區 26 新社區. 40 清水區 33 石岡區. 50 沙鹿區 29 外埔區. 74 梧棲區 14 大安區. 44 后里區 21 烏日區. 77 神岡區 20 大肚區. 45 龍井區 27. 27 霧峰區 29. 4 太平區 41. 3 大里區 61. 9 和平區 0. 10 總人數 865. 18. 15. 表 14. 20.

(28) 台南市各行政區人數新營區. 永康區. 鹽水區. 白河區. 麻豆區. 佳里區. 新化區. 善化區. 19 學甲區 7 西港區 14 楠西區 2 南區 48. 61 柳營區 8 七股區 2 南化區 1 北區 49. 4 後壁區 4 將軍區 2 左鎮區 0 安南區 50. 7 東山區 3 北門區 3 仁德區 17 安平區 17. 12 下營區 12 新市區 12 歸仁區 18 中西區 24. 18 六甲區 9 安定區 3 關廟區 6 總人數 510. 10 官田區 5 山上區 2 龍崎嶇 2. 9 大內區 2 玉井區 2 東區 46. 表 15. 高雄市各行政區人數鹽埕區. 鼓山區. 左營區. 楠梓區. 三民區. 新興區. 前金區. 苓雅區. 5 前鎮區 52 大寮區 35 阿蓮區 8 甲仙區. 28 旗津區 7 大樹區 13 路竹區 19 杉林區. 58 小港區 29 仁武區 23 湖內區 7 內門區. 46 鳳山區 91 大社區 14 茄萣區 13 茂林區. 92 岡山區 32 烏松區 9 永安區 2 桃源區. 20 旗山區 10 橋頭區 7 彌陀區 3 那瑪夏. 8 美濃區 10 燕巢區 8 梓官區 15 總人數. 72 林園區 10 田寮區 0 六龜區 7. 1. 區 1. 761. 1. 2. 3. 0. 表 16. 4.4 兩模型分析結果接下來我們用上述介紹的兩種模型做變異數分析，比較兩種模型在分析醫療費用與個人基本資料和居住地的差異；在一般線性模型的情況下，我們將 11 種個人基本資料視為固定因子，在變異成分模型的情況下，我們把居住地視為隨機因子，其餘個人基本資料依舊視為固定因子。由本文 3.1 節介紹的模型中，我們將醫療費用帶入y𝑖 ，個人資料(性別、年齡、教育程度、婚姻狀況、宗教信仰、全家收入、職業、健康狀 21.

(29) 況自覺、有無慢性病、有無重大傷病卡)帶入𝑥𝑖，居住地帶入𝑧𝑖，其中𝑖 從 1 至 4096，因此寫成矩陣形式g(𝜇 𝑏 ) = 𝜂𝑏 = X𝑎 + Z𝑏之後，我們可以知道 𝜂𝑏 為4096 × 1的矩陣，X 為4096 × 10 的固定效應矩陣，𝑎 為10 × 1 的固定效應估計參數矩陣，Z 為4096 × 1 的隨機效應矩陣，𝑏 為1 × 1的隨機效應估計參數矩陣。由表 17 以及表 18，我們可以發現固定效應的估計值、標準誤、t 值和 p 值在兩模型間不同且差距很小，源於使用的概似函數不同，而變異成分估計(表 19)0.01788312 還需要後面的檢定來佐證。在一般線性模型中，從 p 值可得到醫療費用在台南與高雄這兩個都市與台北有較顯著的差異，事實上平均醫療費用在台北市約 778 元是遠高於台南約 238 元和高雄約 282 元兩市的。一般線性模型. 固定效應估計值. 標準誤. t 值. P值. 截距. 2.893. 0.131. 22.016. 0.000 ***. 女生(性別). 0.065. 0.037. 1.754. 0.079. 20~59 歲(年齡). 0.248. 0.078. 3.184. 0.001 **. 60 歲以上(年. 0.136. 0.084. 1.623. 0.105. -0.109. 0.046. -2.350. 0.019 *. 已婚(婚姻狀況). -0.065. 0.048. -1.351. 0.177. 東方宗教(宗教. -0.017. 0.040. -0.433. 0.665. 0.077. 0.079. 0.974. 0.330. 0.005. 0.042. 0.107. 0.914. 齡) 義務教育以上 (教育程度). 信仰) 西方宗教(宗教信仰) 45000~90000(全. 22.

(30) 家收入) 90000 以上(全. 0.035. 0.049. 0.713. 0.476. 無業(職業). -0.033. 0.043. -0.768. 0.443. 普通(健康自覺). 0.072. 0.041. 1.752. 0.080. 不好(健康自覺). 0.066. 0.057. 1.141. 0.254. 無(慢性病). -0.002. 0.045. -0.053. 0.958. 無(重大傷病卡). 0.273. 0.095. 2.861. 0.004 **. 高雄市. -0.372. 0.060. -6.215. 0.000***. 新北市. -0.160. 0.058. -2.746. 0.006 **. 台中市. -0.115. 0.058. -1.976. 0.048 *. 桃園市. -0.106. 0.069. -1.531. 0.126. 台南市. -0.321. 0.067. -4.816. 0.000 ***. 家收入). 表 17. 變異成分模型. 固定效應估. 標準誤. t 值. P值. 計值截距. 2.7129. 0.136. 19.940. 0.000. 女生(性別). 0.0657. 0.037. 1.766. 0.077. 20~59 歲(年齡). 0.2473. 0.078. 3.174. 0.002. 60 歲以上(年. 0.1373. 0.084. 1.638. 0.102. -0.1074. 0.046. -2.326. 0.020. 已婚(婚姻狀況). -0.0664. 0.048. -1.374. 0.170. 東方宗教(宗教. -0.0183. 0.040. -0.463. 0.643. 齡) 義務教育以上 (教育程度). 信仰) 23.

(31) 西方宗教(宗教. 0.0764. 0.079. 0.961. 0.643. 0.0070. 0.042. 0.165. 0.869. 0.0389. 0.049. 0.792. 0.428. 無業(職業). -0.0339. 0.043. -0.781. 0.435. 普通(健康自覺). 0.0732. 0.041. 1.774. 0.076. 不好(健康自覺). 0.0659. 0.057. 1.147. 0.251. 無(慢性病). -0.0016. 0.045. -0.035. 0.972. 無(重大傷病卡). 0.2713. 0.095. 2.848. 0.004. 信仰) 45000~90000(全家收入) 90000 以上(全家收入). 表 18. 變異成分模型. 縣市. 變異成分估計. 0.01788312 表 19. 4.5 兩模型與兩得分檢定結果接著我們來看醫療費用與地區間差異的檢定。一般線性模型使用我們常見的變異數分析，隨機效應模型使用的是我們上述介紹的第一種方法，兩者的假設檢定皆假設𝐻0 : 𝜃 = 0，𝐻1 : 𝜃 ≠ 0，其結果如下表 20 檢定. 一般線性模型. 隨機效應模型. P值. 6.529e-10. 5.209098e-09 表 20. 由此可見一般線性模型相較於隨機效應模型的檢定是比較顯著的，但由於此隨機效應模型的限制較多，所以我們不一定能說這種檢定方式 24.

(32) 比較差；那一樣在隨機效應模型中有沒有更加顯著的檢定方法呢?使用 Verbeke 和 Molenberghs 在 2003 年發展的檢定方法，一樣使用的是得分檢定且假設𝐻0 : 𝜃 = 0，𝐻1 : 𝜃 ≠ 0，結果如下表 21 檢定. LinScore. VM03. P值. 5.209098e-09. 2.168088e-23. 表 21. 由此可見此隨機效應模型在兩種得分檢定之下，以 Verbeke 和 Molenberghs 在 2003 年發展的檢定方法較為顯著，而不管用的是哪一種檢定方法。都顯示台灣的醫療費用在不同地區確實有差異。. 25.

(33) 第五章結論與討論由上述檢定我們可知醫療費用在六都之間是有顯著差異的，而我們不禁好奇，如果只專注在單一城市的各個行政區之間又或者是全台灣所有的縣市之間會不會醫療費用也有所差異；但是從第四章的實際數據我們可以看到，由於資料只有 4096 筆，某些行政區的樣本就會相當少；且原始的資料中，部分縣市如連江縣樣本也是相當少，這讓我們在此無從分析；於是我們猜測如果樣本數夠大的話，或許台北因為各行政區都市化較完整，醫療費用與各行政區差異會比較小；而台南各行政區間較有城鄉差異，或許在醫療費用與各行政區間差異會比較大。而全台灣的部分，都市化較為完整的六都醫療費用已有地區差異的現象，我們也猜測，若分析至全台灣所有縣市的情況下，醫療費用也會有地區間的差異。. 26.

(34) 參考文獻 Breslow, N. E. & LIN, X. (1995). Bias correction in generalised linear mixed models with a single component of dispersion. Biometrika 82, 81-91. Henderson, C. R. (1953). Estimation of variance and covariance components. Biometrics 9, 226-252. Johnson, N. L. & Kotz, S. (1970). Distributions in Statistics, Continuous Univariate Distributions—1. Boston: Houghton-Mifflin. Lin, X.H.(1997) Variance component testing in generalised linear models with random effects. Biometrika 84, 2, 309-326. McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models, 2nd ed. London; Chapman and Hal. Shapiro, A. (1988). Towards a unified theory of inequality constrained testing in multivariate analysis. International Statistical Review 56, 49-62. Silvapulle, M. J. and Silvapulle, P. (1995). A score test against one-sided alternatives. Journal of the American Statistical Association 90, 342-349. Solomon, P. J. & Cox, D. R. (1992). Nonlinear components of variance models. Biometrika 79, 1-11. Verbeke, G. & Molenberghs, G. (2003) The use of score tests for inference on variance components. Biometrics 59, 254–262. White, H. (1982). Maximum likelihood estimation of misspecified models. Econometrica 50, 1-25.. 27.

(35) 附錄我們使用 R 統計軟體進行統計分析，其中使用到”varComp”這個軟件，以下為使用到的指令: tw101_var=varComp(log(as.numeric(cost)+1)~gender+age+educatio nalbackground+marriage+faith+income+occupation+health+chronic +injuries,random=~county,data.frame(tw101)) tw101_var_test_L=varComp.test(tw101_var, test = "LinScore", LinScore.wt = "InvSTD", LinScore.acc = 1e-08, LinScore.lim = 1e+06L, LinScore.method = c("AS155", "SSAS155")) tw101_var_test_VM= varComp.test(tw101_var, VM03.method = c("SSChiBarSq", "pboot"), VM03.nsim = 10000L) tw101_var_fixef=fixef(tw101_var). 28.

(36)