No. 36, June 2008, pp. 67-98
電腦模擬、隨機方法與人口推估的
實證研究
郭孟坤
*余清祥
** * 政治大學統計系碩士 ** 政治大學統計系教授 收稿日期:2007.06.27;接受刊登:2008.05.21中文摘要
人口推估(Population Projection)涉及國家的政策及規劃,精確 的結果可協助國家適時制訂政策,提高國民福祉。臺灣現在使用的方 法為人口變動要素合成法(The Cohort Component Method),可歸類 為情境推估(Scenario Forecast)的一種,作法是在參酌專家意見之 後,以決定性模型(Deterministic Model)的方式,提供未來生育、死 亡、遷移三要素的變動範圍。除了情境推估外,近年為了決定三要素 的未來趨勢而發展出三種新的隨機方法:一為隨機推估(Stochastic Forecast)、一為模擬情境(Random Scenario Method)、一為推估誤 差(ex post Method)。近十餘年美國及聯合國的推估仍以人口變動要 素合成法為主,但未來生育、死亡、遷移趨勢的決定,隨機方法的使 用比例逐漸增加。 為 探 討 隨 機 方 法 的 實 用 性,本 文 使 用 區 塊 拔 靴 法(Block Bootstrap)電腦模擬,代入生育、死亡、遷移變化不盡相同的臺灣、 美國、日本、法國四國資料,以交叉驗證評估隨機方法的限制,並探 討如何修正既有方法。另外,由於缺乏機率詮釋是傳統專家意見的缺 點之一,本文採用 Stoto(1983)提出的推估誤差法,給予區塊拔靴法 和人力規劃處的推估在機率上的詮釋,彌補傳統情境推估的缺點,以 提供使用專家意見與隨機方法的參考。研究發現區塊拔靴法在未來變 化類似過去趨勢時,穩定性及準確性都相當不錯;傳統依賴專家意見 的高、中、低三種推計,藉由推估誤差法發現高、低推計接近 68%的 預測區間,區塊拔靴法的推估也有類似的詮釋。 關鍵詞:人口推估、人口變動要素合成法、區塊拔靴法、預測、電腦 模擬
壹、前言
人口推估(Population Projection)在於預估一個國家或地區的人 口總數及結構,以瞭解未來人口成長趨勢,洞悉社會脈動及需求,進 而擬定適當政策因應、防範問題於未然。聯合國定期公佈全世界人口 的推估數字,最近一次公佈的預估值即認為在 2050 年前,世界人口 將達到 92 億人,比現在的 67 億多了約 40%的人口,人數增加最多的 地區仍是開發中國家,但值得注意的是高齡社會的問題,其中 60 歲 以 上 的 人 數 將 倍 增 1。另 外,上 述 的 推 估(Projection)與 預 測 (Forecast)在人口研究領域,不少人在預估未來人口時將兩個名詞輪 流使用,其中推估通常指定對未來的假設,可視為在某些假設條件成 立下的條件計算值(Conditional Calculation),而預測指的是最有可 能情形下的結果(Siegel and Swanson 2004)。因為學術研究多半使用 「推估」,而且我國對於未來人口的預期也指定某些假設條件(未必 是最有可能的情形),比較合乎推估的定義,本文使將用人口推估這 個名詞,作為對於未來人口數的預期。 無論是應用在哪一個領域,除非掌握所有可能變因,預測的結果 通常會有誤差,誤差也會隨著預測時間的拉長而增加。除了掌握變因 外,影響預測精確度還有預測方法及資料兩個因素,臺灣地區近幾年 即因資料變動幅度較大,影響人口推估的精確。例如:臺灣地區的男 性零歲平均餘命由 1991 年的 71.8 歲延長至 2005 年的 73.9 歲,女性 也從 77.2 歲延長至 80.2 歲,平均每年約延長 0.2 歲壽命,已經與美國 居民的平均壽命相當;總生育率在近幾年更是屢創新低,2005 年底降 至 1.115,只有 50 年前的 1/6。生育率及死亡率的劇烈變化,加上外 1 參考聯合國 2006 年更新的資料庫「World Population Prospects: The 2006 Revision Population Database」(http://esa.un.org/unpp/),可以取得全世界及各國至 2005 年前 的推估數字。本文引述數字為 2008 年 6 月 10 日下載。籍配偶人數增加快速,大為提高人口推估的難度及複雜程度。 臺灣地區的人口推估由行政院經濟建設委員會人力規劃處負責, 每隔兩至三年公布一次新的推估結果,最近一次公佈的結果,顯示臺 灣地區將於民國 107 年(西元 2028 年)達到人口零成長(圖一)。 其中的死亡率、生育率、移入及移出等假設通常不只依賴歷史資料, 也會加上專家意見(Expert Opinion),使用的方法為人口變動要素合 成法(The Cohort Component Method),可算是情境推估(Scenario Forecast)的一種。其起源可追溯至 1920 年代,分成高(High)、中 (Medium)、低(Low)推計三種可能,其中高、低推計代表推估數 值的可能範圍,中推計為最有可能的未來結果,而中推計不純粹是最 有可能的結果,也代表政府對未來的期許。 圖 1 臺灣未來人口成長趨勢圖 資料來源:行政院經濟建設委員會人力規劃處「中華民國臺灣 95 年至 140 年人口推計」 臺 灣 官 方 的 人 口 推 估 可 歸 類 為 決 定 性 模 型(Deterministic Model),雖然廣為世界各國使用,但也有兩個缺點:其一為無法提 供三種情境的未來發生機率,其二為以不同情境給予未來生育、死 亡、遷移等數值的發生可能,這些情境之間不見得有一致的結果(換
言之,未考慮變數之間的相關性)。細節可參考 Lee(1998)對人口 推估方法的討論。 臺灣於人口推估所遭遇到的挑戰,在許多國家也有相同的問題, 過去十年來不少人口學者積極研發新的人口推估方法,以解決日趨複 雜的問題。近幾年關於人口推估的研究仍以人口變動要素合成法為 主,新方法多半以改進情境推估為主,改進的方法大致可以分成三個 方向:一為隨機推估(Stochastic Forecast)、一為模擬情境(Random Scenario)、一為應用實證估計誤差(Historical Projection Errors), 或稱為推估誤差(ex post Method),以上三種方法統稱為機率人口推 估(Probabilistic Probability Forecasting)。這三種方法除了傳統的以 歷史資料建立統計模型、參酌專家意見外,對人口推估也採取不同的 觀念或處理方式,美國及聯合國不再採取傳統的高、中、低推計,轉 而使用這些新的推估方法。其中使用推估誤差可參考 Stoto (1983), Stoto 由總人口的角度,分析美國及聯合國過去人口推估的誤差,進而 求得美國情境推估的預測區間。 本文主旨在於探討近年新研發的方法,評估隨機方法的穩定性及 使用限制,並探討如何修正既有方法,尋求合適臺灣地區的人口推估 方法,並嘗試提供臺灣官方推估的機率涵義。本文不以推估準確性為 研究目標,也無意比較推估方法的優劣。本文選用可歸類為隨機推估 的無母數區塊拔靴法(Block Bootstrap)進行電腦模擬,以交叉驗證 (Cross Validation)討論區塊拔靴法在預測時的穩定性,實證上代入 臺灣、日本、美國、法國的資料,探討區塊拔靴法的可能限制,再以 參數方法(Lee-Carter 模型)配合模擬,評斷這個方法的可行性。另 外,本文也使用 Stoto(1983)提出的預測誤差估計,由過去推估誤差 來未來推估的預測區間,並提出修正推估系統性誤差的方法,並以美 國為例,探討修正模型的實用性。
貳、文獻回顧
最早的人口推估大多採用數學模式,像是以羅吉士曲線(Logistic Curve)預測未來人口數,或是著名的馬爾薩斯《人口論》,其中提到 幾何級數、算數級數的成長,都屬於數學模式。這類型的方法只能提 供人口總數的預測,較難給定詳細及穩定的人口結構,而且推估的結 果通常誤差較大。Cannan 在 1895 年首先提出人口變動要素合成法, 應用於英格蘭與威爾斯的人口預測,這個方法在 Whelpton 的推廣後, 廣泛使用於世界各國。 以下依序介紹人口變動要素合成法的原理,以及近幾年使用這個 方法的新的研究結果,之後介紹本文採用的區塊拔靴法。一、人口變動要素合成法
人口變動要素合成法是目前最常使用於人口推估的方法。執行 時,年齡組及時間的單位必須相同,在這裡我們使用單齡的年齡組以 及一年的間隔,若是使用五齡組的資料時,則每個預測年度的單位則 為五年。 預測的時候,第 t 年的人口數指的是年初人口數;定義基年人口 數(Jump-off Population)是 t = 0 年的人口;第 t 年的生育率及死亡率 為在(t , t+1)之中的各項數值,因此第一個所預測的人口是發生在 t = 1 年,而第一個所預測的生育率及死亡率是發生在 t = 0 年。第 x 歲 指的是在年齡介於區間〔x, x+1)的人。令 0 < < < ,其中 、 分 別為女性最低和最高的生育年齡, 為最高可能的年齡,臺灣地區通 常將育齡婦女定為滿 15 歲至滿 50 歲之前。 以矩陣符號表達,第 t 年的人口資料可表為 V(t)=(V(0,t)Tr, …, V ( ,t)Tr)Tr,其中 V(x,t)Tr= (V1(x,t), V2(x,t)),V1(x,t),V2(x,t) 和分別為女 性和男性在第 t 年 x 歲的人口數,符號「Tr」為矩陣運算中的轉置(Transpose)。如此可以表示為 V(t+1) = R(t) V(t) 其中 R(a, b, t)為 b 歲存活至 a 歲的機會, 為生存年齡的上限,因 此令 R( , , t)=0,臺灣地區的推估通常假設生存年齡的上限為 100 歲。另外,由於一般男女嬰兒出生性比例為 1.05:1,通常由生育率求 出嬰兒總數後,再分別求出男女嬰人數。 若我們有基年人口數的估計值 ‹ V 0 ,並且預測了R t ,t =0,…,‹ T 1 共 T 年的死亡率,則 V(T) 的人口變動要素合成法的預測值V T‹ 可表示成 ‹ V T =R ( T 1) …‹ R (0)‹ V 0‹ 若加入各年度的人口淨遷徙(Net Migration),令 N(t) = (N(0,t)Tr, …, N( ,t)Tr)Tr,其中 N(x,t)Tr= (N1(x,t), N2(x,t)),N1(x,t) 和 N2(x,t) 分別 為女性和男性第 t 年 x 歲的淨人口遷徙數,。如此則可以表示成 V(t+1) = R(t)V(t) + N(t) 經由疊代(Iteration),可表示成 V(T)= t=0 T 1 R t V(0)+ k=0 T 1 t=k+1 T 1 R t N(t)。
(2006)。
二、機率人口推估
近年來機率推估已成為歐美各國考慮人口推估的必備方法之一, 依此決定未來生育、死亡、遷移等要素,再配合人口變動要素合成 法。各種機率推估方法的出發點雖然不同,但最大的共同點就是都以 預測區間(Prediction Interval)來捕捉人口的可能變動範圍,幫助使 用者更瞭解未來人口趨勢。以下先介紹三種機率人口推估的方法,其 中隨機推估和模擬情境是可與人口變動要素合成法結合,推估誤差法 則是著重於衡量推估結果的誤差。 1. 隨機推估(Stochastic Forecast)隨機推估最典型的例子是 Lee and Tuljapurkar(1994)的美國人口 推估,利用過去的資料針對生育率和死亡率建立時間數列(Time Series)模型進行人口推估。其最大的優點在於由模型和資料本身反映 出生命參數的不確定性,並且捕捉生命參數隨時間震盪的特性,而缺 點則為若預測的時間過長,預測區間可能會有過寬而不切實際的情 形。 2. 模擬情境(Random Scenario)
Lutz, Sanderson and Scherbov(1996)藉由研究過去資料及專家的 意見,經由專家研究討論之後,選定總生育率和平均餘命等生命參數 的可能範圍(90%),設定一個符合此範圍的亂數(例如常態分配或 均勻分配),並假定一線性函數插補開始和欲推估的日期中所需要的 資料,重複模擬許多次再求出其預測區間。模擬情境的優點是容易結 合專家意見,例如考慮生育率死亡率變化的趨勢,可將人口相關知識 納入考慮;這個方法的使用彈性也較大,能針對各種不同的目的進行 預 測 以 得 之 可 能 的 結 果(Sanderson, Scherbov, O'Neill and Lutz
2004)。但這個方法的最大爭議點在於:專家該如何決定生育率死亡 率所可能的變化範圍(例如 90%和 95%)。至於模擬情境不太能反映 出生命參數隨時間波動,Lutz et al.加入時間數列模型改善了此一缺 點。相關討論可參考 Tuljapurkar, Lee and Li(2004)。
3. 推估誤差法(ex post Method)
推估誤差法研究過去推估的誤差,進而瞭解未來推估誤差可能的 範圍,最早由 Stoto 於 1983 年提出。Stoto 分析美國及聯合國過去人 口推估的誤差,發現只有基年人口數有影響,亦即視為推估時最後一 年的年度有影響,若假設未來的推估誤差會和過去的推估誤差類似, 則美國 1977 年所做出之人口推估的高、中、低推計結果,與 68%的 預測區間非常接近,表示美國的情境推估約等於 68%的預測區間。推 估誤差的優點在於能夠瞭解過去推估的正確性,由資料及以前的推估 結果來衡量未來推估的誤差,但 Stoto 的研究需假設各年度的誤差為 獨立的,且只探討到總人口數的預測區間,並沒辦法得知人口年齡結 構的預測區間。
三、區塊拔靴法
區塊拔靴法(Block Bootstrap)的概念最早由 Hall(1985)提出, 於 Künsch(1989)中有完整的討論。區塊拔靴法在統計上,一般使用 於估計時間數列參數進行統計推論,對區塊抽樣的方法模仿時間數列 資料的行為,在隨機抽取的區塊內保留變數相關的情形,以解決傳統 拔靴法無法處理一連串相依資料的情形。至於人口統計方面的應用, Denton, Feaver and Spencer(2005)將區塊拔靴法應用於推估加拿大的 平均餘命,國內則有何正羽(2006)應用於推估平均餘命與年金現 值。最佳的區塊長度的選取尚無定論,一般認為最佳區塊長度決定於 資料長度、資料抽樣模式、所抽取的統計量和區塊拔靴法的用途,相 關討論可參考 Bühlmann(2002)。另外,Politis and Romano(1994)
將 區 塊 長 度 視 為 隨 機,以 幾 何 分 配 選 取 區 塊 長 度;Denton et al. (2005)則建議在預測平均餘命時可依照情勢任意決定一個合理的區 塊長度,區塊長度對於預測的中位數幾乎沒有影響,而縮短區塊長度 則會使預測區間稍微膨脹。
參、實證研究與資料來源
本節介紹區塊拔靴法執行的流程,再說明本文使用的人口資料及 其來源,區塊拔靴法的評估及分析將在下一節詳細探討。一、區塊拔靴法在人口推估上的應用
本文運用區塊拔靴法結合人口變動要素合成法預測未來 45 年的 人口數,其執行方法如下: 1. 如果有 n 個年度的資料,令 t = 1, …, n,若為生育率資料時,令 vt=(1og(f ), log(f +1), …, log(f )), 、 為生育年齡的上下限, 若為死亡率資料,vt= (log (m0F), log (m1F), …, log (mF), log (m0M), log (m1M),…, log (mM)), 為年齡的上限。 2. 令 vt= vt vt 1,t = 2, …, n,若區塊長度為 l,令 Vt= ( vt, vt+1, K, vt+l 1),所以我們共會 n l 有個區塊。 3. 隨機抽出一個 V(t)。 4. 由最後一個年度開始,依序計算未來年的預測值,其中第一個 預測年度的值為最後一個年度的 vt加上 vt,第二個預測年度 的則再加上 vt+1,以此類推。 5. 重複步驟 3 和步驟 4 直到最後的預測年度。 6. 重複步驟 3 至步驟 5 共 1,000 次,可得 1,000 次預測的生育率 及死亡率。 7. 將生育率和死亡率代入人口變動要素合成法,則可得 1,000 次 預測的人口數。8. 使用電腦模擬計算總人口數、總生育率、零歲平均餘命(Life Expectancy at Birth)等數值之估計值以及預測區間。 區塊拔靴法屬於隨機推估的一種,假設未來的變化與過去趨勢類 似,和其他隨機推估的方法相比,最大的優點在於不需要另外提供模 型假設,由歷史資料反映未來趨勢,且保留了各年齡組和性別之間的 相關。本文在區塊長度和隨機樣本的抽樣沿用何正羽(2006)的做 法,區塊長度選擇為 5,假設未來趨勢會和原始資料的年代遠近有關, 也就是假設各年度資料被抽取的權重(Weight)與 1/t 有關,其中 t(t=1, 2, …) 為原始資料與推估年的距離。
二、資料說明
由於人口遷徙資料取得不易,因此在本研究中並沒有加入人口遷 徙的因素。臺灣、美國、日本及法國四個國家的生育率的年齡區間為 15 歲至 49 歲,人口數及死亡率的年齡區間為 0 歲至 99 歲。其中臺灣 地區的資料來源為各年度內政部所公佈的台閩地區人口統計資料中的 臺灣資料,生育率使用民國五十年至民國九十四年(西元 1961 年至 西元 2005 年)育齡婦女年齡別生育率(五齡組),死亡率使用民國 六十年至民國九十四年(西元 1971 年至西元 2005 年)零歲、一~四 歲及其餘五齡組的中央死亡率資料。除了法國生育率資料為 1960 ~ 2001 年,美國及日本的生育率資料為 1960 ~ 2003 年。由於本文推計 以單齡為單位,需經由內插(Interpolation)或外推(Extrapolation) 的方式來估計出單齡生育率及死亡率。 美國、日本及法國的人口數及死亡率使用美國柏克萊大學的死亡 資料庫 (Human Mortality Database;HMD)一年期的單齡年代資料 (Period Data),不需要內插或外推。其中美國死亡率使用西元 1946 年至西元 2003 年的資料,日本死亡率使用西元 1947 年至西元 2003 年 的資料,而法國死亡率則使用西元 1947 年至西元 2001 年的資料。使 用這四個國家作為比較對象,主要是因為這幾個國家生育、死亡、遷移的近年趨勢不完全相同:其中生育率以臺灣的變化最大,日本及法 國有些微變動,美國大致維持不變;死亡率在四個國家大抵都下降, 臺灣及日本下降幅度較大,美國的幅度最小;遷移則以美國最為明 顯,其他三國在人口推估時多假設淨遷移為 0。
肆、研究結果
本節將分成兩個部分評估區塊拔靴法,第一部份先以交叉驗證探 討區塊拔靴法在臺灣、美國、日本和法國的實證結果,討論使用這個 方法的相關問題。本節第二部份探討區塊拔靴法的穩定性,以及延伸 這個方法的可能方向及詮釋,其中在死亡率符合 Lee-Carter 模型的假 設下,以區塊拔靴法預測未來死亡率,再與理論值比較,確定實證上 區塊拔靴法的穩定性。一、區塊拔靴法的人口推估結果
本節運用交叉驗證(Cross Validation)探討區塊拔靴法在不同資 料型態之下的表現差異,比較臺灣和美國、日本、法國四個人口趨勢 不盡相同的國家。臺灣近五年來生育率快速下降;美國雖然生育率和 死亡率穩定,但有大量移入人口;日本近年來生育率死亡率皆呈現穩 定變化,且人口遷徙的影響不大;法國人口遷徙的影響也不大,但卻 是少數近年來生育率上升的歐美國家。此處藉由區塊拔靴法進行人口 推估,比較各國以現有最新年度的資料和其五年前的資料推估出來的 總人口數、總生育率、零歲平均餘命和三階段年齡結構之預測區間。 限於篇幅,以下討論未提及的推估項目,請參考本文最後附錄的圖 形。 實證分析發現,當資料變動幅度較大時,區塊拔靴法將有較大的 誤差,實際的數值也偏離預測區間。以臺灣地區的推估為例,2000 年 的推估與 2005 年的結果差異非常大,2001-2005 年的實際結果在 2000年的 95%預測區間之外,2005 年的平均推估數值也多在 2000 年的 95% 預測區間之外(圖 2),這麼大的差異主要因為是近五年來生育率的 急速下降(圖 3),2000 年及 2005 年平均壽命的預測區間非常接近。 圖 2 臺灣總人口的預測區間(區塊拔靴法) 美國的推估結果也類似(圖 4),近五年的實際數值也偏離 1998 年的 95%預測區間,2003 年平均推估數值的前幾年也與 95%預測區間 沒有交集,推估差異應該來自於移民,因為近幾年美國的移入人數較 之前多。另外,1998 年及 2003 年的區塊拔靴法預測區間,無論是平 均壽命或是總生育率,均維持固定的趨勢,顯示區塊拔靴法可用於美 國的平均壽命或總生育率之預測。 日本與法國的區塊拔靴法則較為穩定,總人口數在差距 5 年的兩 次推估並無明顯差異,顯示這兩個國家的生育、死亡變化較為和緩, 雖然日本生育率略微下降、法國上升,以區塊拔靴法仍足以捕捉整體 的變化趨勢。由於這兩個國家的移民人數相對較少,考慮生育、死亡 兩個因素已足夠,區塊拔靴法在這兩個國家的結果一致,實證上可視
圖 3 臺灣總生育率預測區間(區塊拔靴法)
為可用的推估方法之一。 臺灣、美國、日本、法國四個國家的交叉驗證結果列於表 1,前 五年的預測區間若可涵蓋未來的實際結果,則定義為「符合」預期; 反之,則「不符合」預期。臺灣因為生育率變動較大,美國因為未考 慮遷移因素,以致於兩個國家的人口推估結果不如預期,區塊拔靴法 的推估在僅僅前後五年就有顯著的不同。臺灣的生育率變化快速,單 憑統計模型很難捕捉所有變因,國際間的作法多半綜合專家意見、隨 機模型,以獲取更為中肯的推估值。美國每年遷入人數較多,一般認 為淨遷移人數大約介於 50 萬至 100 萬人,但官方統計僅有合法移民 的紀錄,本節接下來將提出修正方法,以補遷移資料的不足。 表 1 區塊拔靴法的交叉驗證結果(是否符合預期) 臺灣 美國 日本 法國 總生育率 不符合 符合 符合 符合 平均壽命 符合 符合 符合 符合 總人口數 不符合 不符合 符合 符合
二、區塊拔靴法的評估
(一)Lee-Carter 模型與區塊拔靴法預測死亡率之比較 除了上述實證分析的交叉驗證,以下也以電腦模擬檢驗區塊拔靴 法的穩定性。因為區塊拔靴法屬於無母數方法,在此假設真實值服從 某個參數假設,如果使用區塊拔靴法的推估結果與理論值接近,表示 電腦模擬方法實證上可行。本節僅以死亡率為代表,在死亡率服從 Lee-Carter 模型的假設下,驗證區塊拔靴法。Lee-Carter 模型由 Lee and Carter(1992)提出,用於配適美國地 區的死亡率,是各國最常見的死亡率模型之一,臺灣地區應用 Lee-Carter 模型配適死亡率資料(曾奕翔、余清祥 2002)亦有不錯的結
果。模型為:
ln(mx,t) = ax+bxkt+ x,t
mx,t為 t 年時,x 年齡組的中央死亡率(Central Death Rate),ax、bx、
kt為模型的參數, x,t為誤差項,其中 ax代表各年齡組的平均死亡率, bx代表各年齡組死亡率的變化率,kt 為所對應時間死亡率的強度(In-tensity of Mortality)。由於我們需要處理的臺灣死亡率資料在高齡時 有遺漏值,且在配適時 SVD 近似法和 Wilmoth (1993)提出的參數 修正法結果並無太大差異,因此本文選用操作較為方便的 SVD 近似 法。 模擬的操作為假設死亡人數服從二項分配 Bin(Nx, mx,t),其中 Nx 設定為民國 94 年各年齡的人口數,mx,t 為過去資料在第 t 年的死亡 率。模擬出 1,000 筆模擬的死亡率資料,用這些資料模擬出 1000 個區 塊拔靴法的預測區間,Lee-Carter 模型的蒙地卡羅預測區間則是假設kt 服從時間數列模型 kt= kt 1 z + t,其中 t~N(0, ),由 1000 次模擬建 立的區間。 圖 5 為假設死亡率服從 Lee-Carter 模型,分別以理論模型得出的 蒙地卡羅預測區間和以模擬資料得出的區塊拔靴法預測區間,模擬次 數 1,000 次。兩者的預測區間在女性部分幾乎是重合的,而男性區塊 拔靴法的預測則稍微高了一點,但直到最後一個年度仍在 Lee-Carter 的 68 %預測區間之內,表示以無母數的區塊拔靴法仍可得出接近理 論值的推估結果,區塊拔靴法堪稱可行。 除了預測區間,我們也考慮隨機區間涵蓋真實值的機率。也就是 在 Lee-Carter 模型的 1,000 次模擬中,計算預測區間涵蓋真實值的機 率,稱此機率為涵蓋率(Coverage Probability),藉此瞭解區塊拔靴 法和 Lee-Carter 模型在預測死亡率的關係。圖 6 為 95%區塊拔靴法的 預測區間之涵蓋率,如果涵蓋率接近 95%,表示區塊拔靴法與理論值 接近。由圖中可看出女性的涵蓋率從一開始的 99%下降至 90 %,之
圖 5 區塊拔靴法與 Lee-Carter 模型零歲平均餘命預測區間
後則是維持在 90 %附近,而男性在第一年涵蓋率有 95 %,之後則是 緩慢的下降,但在第 45 年也仍有約 82.5 %。由涵蓋率的標準來看, 區塊拔靴法大致接近理論值,但建議以推估時間不超過 10 年較佳。 (二)Stoto 的推估誤差法與區塊拔靴法預測總人口數之比較 未來不見得如預期發展,人口推估或多或少會有誤差,如果選用 適合的模型及推估方法,推估誤差應該會具有某種隨機分配,分配的 期望值應該為 0(也就是平均而言,推估算是準確)。Stoto(1983) 以美國、聯合國計算過去人口推估的誤差,驗證推估誤差的期望值為 0,以誤差的變異數驗證美國的低推計、高推計大致與 68%預測區間 吻合,給予專家意見的預測區間在統計上的意義。本節也將採用 Stoto 的方法,驗證經建會人力規劃處的低推計、高推計是否也有類似的統 計含意,同時也以 Stoto 與前一節以區塊拔靴法得出的推估比較,討 論兩者得出的預測區間之異同。另外,我們修正 Stoto 的方法,以推 估誤差計算出移民人數,以此修正美國區塊拔靴法的推估,並檢驗修 正效果。 Stoto 方法的基本假設是推估誤差符合期望值為 0 的隨機分配,以 確定推估方法沒有系統誤差。其操作需先蒐集過去推估誤差,以美國 資料為例,Stoto 使用了 1945 至 1970 年每隔 5 年的推估,計算未來 5 至 30 年每隔 5 年的推估誤差,一共蒐集 21 個推估誤差(詳見 Stoto 的 Table 1)。這些資料代入二因子變異數分析(Two-way Analysis of Variance, 簡稱 2-Way ANOVA),檢驗推估誤差是否因為預測年度、 未來預測年數這兩個因子而不同,以確定估計誤差沒有系統偏誤。 Stoto 發現美國推估只有基期年度有影響,但無隨著基期年度而產 生遞增或遞減的系統偏誤,可將推估誤差拆成兩項,一個是基期年度 的誤差,另一個是隨機誤差。而在研究聯合國其他 24 個國家,開發 中國家的基期年度的誤差和殘差的變異數都較已開發國家來的大。 臺灣地區推估誤差研究使用區塊拔靴法,每 5 年為單位,共先前
推計二十五年,採用 1980 至 2000 年五個推估年度,未來 5 至 25 年 共 15 個推估誤差2。臺灣研究結果和美國一樣只有基期年度有顯著影 響,但無系統偏誤,其中基期年度為 2001 年的預測誤差特別大,反 映出近五年生育率驟然下降對推估準確性所造成的影響,而主效應的 平均接近於零(0.023),代表就過去臺灣地區推估的結果而言,未考 慮人口遷徙的情形對於推估總人口並不會有太大的影響。 圖 7 2005 年人力規劃處與推估誤差法的比較 圖 7 為人力規劃處 2005 年的推估結果,與推估誤差建立的預測 區間之比較。和美國的情形相同,中長期的高、低推計所包含的區 間,也類似推估誤差法的 68 %預測區間,但人力規劃處預測的前幾 個年度包含的區間略為狹窄。圖 8 為區塊拔靴法和推估誤差法之比 較,由於推估誤差法加入常態之假設,其預測區間會表現出相當漂亮 的對稱性,相較之下區塊拔靴法的預測區間呈現右偏且較為狹窄,應 2 我們也嘗試單一年度的推估誤差,一共有 75 筆推估誤差,分析結果也類似。
是百分位數較不受離群值影響之結果。 圖 8 2005 年區塊拔靴法與推估誤差法的比較 由於進行美國推估的時候未考慮大量移入人口,在推估的時候會 造成系統性的低估,因此持續時間也會對推估誤差造成顯著影響。在 不給定移入、移出人口的資料下,我們以 Stoto 的推估誤差估計出系 統誤差(即遷移人數),因為除了遷移外,推估誤差的期望值為 0。 圖 9 為西元 2003 回溯 25 年,以 2-Way ANOVA 得出的主效應(Main Effect)估計值,發現低估的情形隨著推估的持續時間越長而增加,而 如之前分析結果,基期年度沒有系統誤差。我們可以根據模型的平均 誤差修正以作為加入移民人口之推估模型。 圖 10 為經過推估誤差修正之總人口預測區間之比較(西元 1993 與 2003 年)。可看出 1994 年至 2003 年的人口數落在修正後的 68% 預測區間,雖然略微高估,但已經比之前的推估改進不少(參考圖 4)。另外,加入了推估誤差修正後的區塊拔靴法的推估,2003 年預 測的結果與在 1993 年的預測結果相近,兩者中位數也非常接近,表
示經過修正後,區塊拔靴法可用於美國之人口推估。 圖 9 美國西元 2003 年推估誤差法主效應 圖 10 美國總人口預測的推估誤差修正(1993 與 2003 年比較)
伍、結論與討論
人口推估涉及國家的政策及規劃,精確的結果可協助國家適時制 訂政策,提高國民福祉。臺灣現在使用的方法為人口變動要素合成法,藉由專家意見給定未來生育、死亡、移民人數的假設,其中生育 率分成低、中、高推計三種情境。因為由專家提供的情境推估缺乏機 率上的意涵,而且專家意見也會有主觀的疑慮,近年歐美各國積極發 展新的隨機方法,希望可以彌補其中的不足。本文探討無母數的區塊 拔靴法,屬於近年發展的隨機方法之一,用於決定生育、死亡、移民 的未來趨勢後,再結合人口變動要素合成法。本文主要在於評估區塊 拔靴法的穩定性,並提供推估結果的機率意義,希冀能提供臺灣地區 人口推估的另一種選擇,以及推估結果的機率詮釋,並不在於比較不 同隨機方法的推估準確性,或是檢查經建會的推估精確與否。 研究發現若未來變化與過去趨勢較為一致時(例如:日本、法國 兩國的生育率及死亡率),區塊拔靴法可提供相對穩定及可靠的人口 推估結果,而且由其得出的預測區間,也與參數假設的 Lee-Carter 模 型接近。另外,我們也嘗試給予經濟建設委員會人力規劃處推估值的 統計涵義。在 Stoto (1983)的推估模型下,經建會在民國 95 年公佈 的的高、低推計值,大致與推估誤差的 68%預測區間接近,等於一倍 標準差的預測區間,但短期的預測區間較為狹窄。換言之,如果以機 率的角度衡量,經建會的推估區間較為保守,可以藉由推估誤差法適 度放寬高、低推計的上下限,此與 Betz and Lipps (2004)的德國人 口推計結果類似。另外,我們也修正了 Stoto 提出的方法,僅考慮過 去人口、生育、死亡資料,以過去的估計誤差計算出每年移入美國的 人數,彌補了移民資料的不足,修正後的區塊拔靴法可以較一致、準 確地推估美國未來的人口。 雖然本文研究發現區塊拔靴法在實證上可行,但這些結果建築在 生育、死亡、移民等人口特質的變化較為穩定的假設下,用於臺灣地 區仍有不足。主要原因是臺灣近年的生育率下降速度非常快,下降幅 度出乎大家意料之外,即使學者專家都不見得預見,更何況是使用統 計模型。這種現象並非是臺灣特有,許多國家也遭遇到類似的問題, 像是亞洲四小龍(Four Tigers)、歐洲地中海沿岸各國(如:義大利、
西班牙),這幾年的生育率下降尤為明顯,其中香港的生育率在 2005 年更降低至 0.7 與 0.8 之間,低於臺灣在 2005 年 1.12。另外,如果推 估的目標侷限為某個地區(例如:台北市),或是遷入、遷出人口頻 繁的國家(例如:美國),遷移人口對人口總數及結構會有重要影 響,則需要蒐集詳細的移民及遷移資料,人口推估的考量將更為複 雜。本文的研究只是一個起步,無法面面俱到,希冀拋磚引玉,未來 如有更多學者專家提供精闢的建議,應可發展出適合臺灣特性的推估 方法。 雖然本文使用的機率人口推估可彌補傳統情境推估的不足,但具 有前瞻性的專家意見仍然是機器無法比擬,尤其人為意見可綜合未來 社會情勢及政府法令的判斷。未來也可朝向合併專家意見及計量模型 發展,使得方法能兼具兩者之長;或是如何有系統(標準操作程序; Standard Operating Procedures)取得具有專業知識、且又不流於個人 主觀的專家意見,也是我國人口推估可以思索的方向之一,這方面的 研究可參考 Lutz et al.(2000)的專家意見相關討論。 本文使用的區塊拔靴法為拔靴法的方法之一,用於預測與時間相 關的事件。未來研究將考量使用其他拔靴法,例如:Sieve Bootstrap, 確定哪一種方法較適合於人口推估。除此之外,本文只使用隨機推估 與模擬情境的其中一種方法,許多新方法及新觀念仍有待探索,下一 步將探討與無母數方法有關的推估,配合生育、死亡、移民等資料本 身可能具有高度相關的特性,繼續尋求適合臺灣人口特性的人口推估 方法。
參考文獻
中文部分
內政部統計資訊網(2008)http://www.moi.gov.tw/W3/stat/ (取用日 期:2008 年 6 月 10 日)。 行政院經濟建設委員會建會網站(2008)中華民國臺灣 95 年至 140 年 人口推計。http://www.cepd.gov.tw/index.jsp (取用日期:2008 年 6 月 10 日)。 內政部 (1949 ~ 2005) 中華民國台閩地區人口統計,內政部編印。 何正羽 (2006) 高齡人口 Gompertz 死亡率推估模型的建構與應用, 東吳大學商用數學系碩士論文。 曾奕翔、余清祥(2002)台灣地區死亡率推估的實證方法之研究,中 華民國人口學會年會研討會論文,台北:政治大學。英文部分
Alho, J.M. and B.D. Spencer. 2006. Statistical Demography and Forecas-ting, Springer.
Betz, F. and O. Lipps. 2004. "Stochastic Population Projection for Ger-many-based on the QS-approach to Modeling Age Specific Fertility Rates." No 4059, MEA Discussion Paper Series from Mannheim Re-search Institute for the Economics of Aging, University of Mannheim. Bühlmann, P. 2002. "Bootstraps for Time Series." Statistical Science 17(1):
52-72.
Denton, F.T., C. H. Feaver, and B.G. Spencer. 2005. "Time Series Analysis and Stochastic Forecasting An Econometric Study of Mortality and Life Expectancy." Journal of Population Economics 18: 203-227.
Hall, P. 1985. "Resampling a Coverage Pattern." Stochastic Processes Ap-plications 20: 231-246.
Künsch, H.R. 1989. "The Jackknife and the Bootstrap for General Station-ary Observations." The Annuals of Statistics 17: 1217-1261.
Lee, R.D. 1998. "Probabilistic Approaches to Population Forecasting." Population and Development Review 24, Supplement: Frontiers of Popu-lation Forecasting: 156-190.
Lee, R.D. and L. Carter. 1992. "Modeling and Forecasting U. S. Mortality." Journal of the American Statistical Association 87: 659-671.
Lee, R.D. and S. Tuljapurkar. 1994. "Stochastic Population Forecasts for the United States: Beyond High, Medium and Low." Journal of the American Statistical Association 89:1175-1189.
Lutz, W., W. Sanderson, and S. Scherbov. 1996. "Probabilistic Population Projections Based on Expert Opinion." Pp. 397-428 in The Future Popu-lation of the World- What Can We Assume Today? edited by W. Lutz, Re-vised Edition, London: Earthscan.
Lutz, W., P. Saariluoma, W. Sanderson, and S. Scherbov. 2000. "New De-velopments in the Methodology of Expert- and Argument-Based Proba-bilistic Forecasting." IIASA Interim Report, IR-00-020.
Politis, D.N. and J.P. Romano.1994. "The Stationary Bootstrap." Journal of the American Statistical Association 89: 1303-1313.
Sanderson, W.C., S. Scherbov, B.C. O'Neill, and W. Lutz. 2004. "Condi-tional Probabilistic Population Forecasting." Interna"Condi-tional Statistical Re-view 72(2): 157-166.
Siegel, J.S. and D.A. Swanson. 2004. The Methods and Materials of
De-mography, 2ndEdition, London: Elsevier.
Stoto, M.A. 1983. "The Accuracy of Population Projections." Journal of the American Statistical Association 78: 13-20.
Tuljapurkar, S., R.D. Lee, and Q. Li. 2004. "Random Scenario Forecasts Versus Stochastic Forecasts." International Statistical Review 72(2): 185-199.
United Nations. 2006. Population Division, World Population Prospects: The 2006 Revision Population Database, Retrieved June 12, 2008 (http:/ /esa.un.org/unpp/).
Wilmoth, J. 1993. Computational Methods for Fitting and Extrapolating The Lee-Carter Model of Mortality Change, Technical Report, Depart-ment of Demography, University of California-Berkeley.
附錄
圖 11 臺灣零歲平均餘命預測區間 圖 12 臺灣 65 歲以上人口比例 預測區間 圖 13 臺灣 0~14 歲人口比例 預測區間 圖 14 臺灣 15~64 歲人口比例 預測區間圖 15 美國總生育率預測區間 圖 16 美國零歲平均餘命預測區間 圖 17 美國 65 歲以上人口比例 預測區間 圖 18 美國 0~14 歲人口比例 預測區間 圖 19 美國 15~64 歲人口比例預測區間 圖 20 日本總人口預測區間
圖 21 日本總生育率預測區間 圖 22 日本零歲平均餘命預測區間 圖 23 日本 65 歲以上人口比例 預測區間 圖 24 日本 0~14 歲人口比例 預測區間 圖 25 日本 15~64 歲人口比例預測區間 圖 26 法國總人口預測區間
圖 27 法國總生育率預測區間 圖 28 法國零歲平均餘命預測區間 圖 29 法國 65 歲以上人口比例 預測區間 圖 30 法國 0~14 歲人口比例 預測區間 圖 31 法國 15~64 歲人口比例預測區間
An Empirical Study of Simulation and
Stochastic Methods on Population
Projections
Meng-Kung Kuo
*Jack C. Yue
**Abstract
Population Projection is essential to policy planning, especially to social welfare. The cohort component method is the most popular method for population projection. The future trends of fertility, mortality, and immigration are often determined by the experts' opinions, which are also known as scenario forecasts, and then plugged into the cohort component method. However, the projections derived via the experts' opinions are deterministic and do not have implications in probability. To let the population projections possess the meaning of probability by renovating the scenario forecasts, researchers have developed three types of probabilistic forecasting methods, including the stochastic forecast method, random scenario method, and ex post method.
In this paper, we study the block bootstrap method, a computer simulation method and also a stochastic forecast method, and evaluate the possibility of applying this method in population projection. Specifically, employing data from Taiwan, the U.S., Japan, and France, we use cross-validation and computer simulation to explore the limitations of the block
* Master, Department of Statistics, National Cheng Chi University ** Professor, Department of Statistics, National Cheng Chi University
bootstrap, and check if this method can produce reasonable projections. Based on the empirical results, we found that the block bootstrap is a feasible method and can produce stable population projections. In addition, we also study the ex post method proposed by Stoto (1983) and give the probability implications to projections from the Council for Economic Planning and Development (a scenario forecast).
Keywords: population projection, cohort component method, block bootstrap, forecast, computer simulation