1
空間分析於公共衛生研究上之應用
莊定武 副教授 地理資訊系統 (Geographic Information System, GIS) 在醫藥衛生研究的應 用與日俱增,地理資訊系統結合空間分析有助於將各種健康事件的時空分佈進 行資料視覺化,並探討相關環境危險因子。現今公衛相關領域的GIS 應用多聚 焦於疾病地圖的繪製與呈現,然而,進一步整合空間統計與空間流行病學評估 危險因子或進行風險預測已成為疾病研究的一個重要領域。地圖的產製在過去 文章中已有過相關介紹,因此本篇文章將進一步介紹基本空間分析常用之方 法,並以台灣登革熱疫情作為範例,介紹分析流程。 [應用軟體簡介] 當前地理資訊系統的商業軟體仍以ESRI 的 ArcGIS 為主流,過往由於 ArcGIS 軟體價格過於昂貴,一般研究室或學生難以負擔,而許多免費軟體如 R、Python 或 QGIS 也在不同程度上支援空間分析或地圖繪製,成為替代方案。 但近年來ESRI 代理商變更價格策略,使得大專院校乃至於研究室能以合理的
價格取得完整功能的ArcGIS,因此本文章將以最新版的 ArcGIS Pro 作為主要
介紹的平台。不過,現階段在進階空間分析的應用上,ArcGIS 所支援的空間統
計模型有限,因此,若欲進行較複雜的統計模型仍需搭配R 或 Python 相對應的
空間統計套件來使用,則不在本文介紹的範疇。
[空間自相關]
空間自相關 (spatial autocorrelation) 是處理空間資料上會遇到的第一個問 題。根據地理學第一定律 (Tobler's first law of geography) 所描述,所有事件都 與其他事物都有關連性,但是近處的事物會比遠端的事物有更高的相關性 (everything is related to everything else, but near things are more related than distant things)。舉例來說,台北市與新北市的平地氣溫一定較為接近,而與屏東市的 氣溫相比差異較大,此等環境參數便具有空間上的相依性。一旦資料性質具有 空間自相關,觀察值間便不是相互獨立的狀態,因此在統計值估算上就必須要 考量自相關所帶來的影響。也因為空間自相關的存在,傳統線性迴歸模型的係
2 數估計也會出現誤差,因此必須使用空間迴歸模型調整空間自相關之後來分析 資料。雖然空間自相關的特性的在統計模型的建置上需要謹慎評估,但是在疾 病研究上卻可做為檢驗疾病是否發生空間聚集的現象。 圖 1. 不同程度的空間自相關 空間自相關的影響可由成對觀察值間的共變異量與距離的關係來評估 (圖 1)。一般而言,空間自相關會隨著距離的增加而減少,但減少的趨勢因資料而 異,也不一定是線性關係。圖1 中當 lambda=1 的時候,空間自相關僅發生在短 距離之內,而且隨著距離增加便急速消失,然而在lambda=0.01 的狀況下,空 間自相關所影響的距離就相對遠的多。空間自相關為空間上非隨機分布的結 果,也具有正負之分,一般的空間自相關指的是相鄰的區域較為相似(圖 2),而 負向的空間自相關則是展現出與相鄰區域相異的趨勢,也就是呈現離散 (dispersed)的概念。 圖2. 空間自相關的型態
3 實務操作上評估空間自相關最常用的統計量為半變異函數 (semivariogram),藉由半變異量圖的繪製來了解空間資料所呈現的空間自相關 趨勢 (圖 3)。 圖3. 半變異函數圖 半變異函數主要是計算不同距離下成對觀察值間的半變異數 (semivariance),圖 中有幾個重要的參數,如Nugget 所代表的是成對觀察值間不受距離所影響的變 異量,Sill 為變異量極大值,而 Range 則代表半變異量不再增加的距離閥值, 超過此一距離,便不存在空間相關。半變異函數的估算是建立在個別空間資料 可得的情形下,然而在許多公衛研究上的空間解析度因受限於患者隱私的問 題,多半僅能取得行政區層級的總和數據 (如村里或鄉鎮),此時便無法估算各 觀察值間的半變異量。在這種情形下,定義空間中的相鄰關係 (spatial neighborhood) 便是評估空間自相關相當重要的步驟。空間中相鄰關係的定義方 式非常多樣,其中在公衛研究中最常用的便是利用行政區間的相鄰 (adjacency) 特性來定義。圖4 中 Rook 代表僅選取邊界相鄰者為相鄰者,而 Queen 的定義 除了邊界相鄰外也包含頂點相鄰者,其中紅色格子為觀察值本身,藍色格子便 是相鄰之觀察值。名稱上利用Rook 及 Queen 是取材於西洋棋中城堡與皇后的 移動法則。相鄰關係的定義可以視研究需求拓展為第二階 (second order) 的相
4
鄰範圍。一旦相鄰關係清楚定義之後,便可推估空間加權矩陣 (spatial weight matrix),並檢驗空間自相關及其統計顯著性。
圖4. 空間相鄰關係之定義
檢驗空間自相關最常使用的統計量為全域型 (global) 的 Moran’s I test[1], 其計算式如下:
式一
式子中𝑤𝑖𝑗即為兩兩觀察值間所構成的空間加權矩陣,Global Moran’s I test 估值
介於1 與-1 之間,其值越接近於 1 代表越明顯的空間自相關,若以健康事件來
說便是有明顯的聚集 (clustered),若越接近-1,則代表事件具有離散的性質。 計算出來的Moran’s I 值可藉由 Z 檢定或是 Monte Carlo simulation 的方式來進 行統計檢定,其虛無假說為資料具有空間上的隨機性 (complete spatial
randomness, CSR),若統計結果拒絕虛無假說,則可視 Moran’s I 值的正負性來 評估資料為顯著聚集或離散。
5
全域型的Moran’s I test 雖可用來檢定資料空間自相關的存在與否,但是無
法確切地告知研究者空間自相關發生在何處,因此若想進一步了解疾病發生聚 集在何處,則須進一步進行熱點偵測 (hotspot detection)。
[熱點偵測]
區域型 (local) 的 Moran’s I test 為疾病熱點偵測常用的方法之一,在 1995 年由Luc Amselin 所提出,也被稱為 Local Indicators of Spatial Association (LISA)[2]。Local Moran’s I test 與全域型的計算方式類似 (式二),
式二 差別在於呈現每個觀測點i 的 I 值,並且藉由散佈圖的四個象限來判斷聚集特 性 (圖 5)。位於第一與第三象限分別代表熱點(hotspot)與冷點(coldspot),第二與 第四象限則代表離群值(outlier)的存在,在疾病分析上的概念為,高發生率的相 鄰區域為低發生率,或是低發生區域被高發生率區所包圍。 圖5. Local Morans’I 散佈圖 0.0 0.2 0.4 0.6 0.8 1.0 0 .2 0 .4 0 .6 0 .8 pfor90 sp a ti a ll y la g g e d p fo r9 0 24019 34025 36011 36025 36071 37001 37029 37061 37081 37095 37103 37163 37169 37171 51760
6
在LISA 的統計檢定上為了避免多重比較 (multiple testing) 所產生放大 alpha error 的問題,會使用 Monte Carlo simulation 的方式來產生 p-value。藉由 LISA 的檢定,便可清楚呈現出在區域上達統計顯著性疾病熱點的分佈位置。 [範例--2015 年台南登革熱疫情] 2015 年台南市爆發了前所未有的登革熱疫情,確診病例數超過兩萬人,本 文便利用該年台南市都會區之登革熱發生率作為範例,用以檢驗登革熱在台南 市區之空間自相關與疾病熱點偵測。在ArcGIS 中,可利用空間統計套件中的 功能來檢驗空間自相關,其結果呈現統計上顯著的聚集 (Moran’s I=0.72, p<0.001) (圖 6)。此結果代表台南市登革熱的發生率在空間上的分佈並非隨機。 圖6. 2015 年台南市登革熱發生率空間自相關 在驗證台南都會區登革熱疫情的空間自相關特性之後,我們進一步想了解 疾病的發生熱點可能分佈在那些地理區塊,便可運用local Moran’s I test 來進行 分析。結果明顯呈現台南登革熱發生率熱點主要位於北區與中西區,而北部的 安南區為疾病發生的冷點 (圖 7)。分析結果清楚呈現出疾病發生率的特殊地理 聚集,因此可作為防疫政策施行的參考。在研究上,尚可進一步探討各種環境 危險因子與疾病熱區的關聯性,並針對研究區域進行風險預測。
7 圖7. 2015 台南登革熱發生率熱點偵測 [結語] 本文對於空間自相關與熱點偵測做了簡單的介紹。後續環境危險因子的探 討可透過空間迴歸模型、貝式時空模型或者機器學習等技術可作為進階分析。 若模型配式表現良好,更可進一步進行風險預測。進階空間統計的進行便需要 搭配其他軟體如R 或 Python,待結果分析完成後可再利用 GIS 軟體進行圖層堆 疊與地圖繪製,將分析結果視覺化。 References
1. Getis A, Ord JK: The Analysis of Spatial Association by Use of Distance
Statistics. Geographical Analysis 1992, 24:189-206.
2. Anselin L: Local Indicators of Spatial Association—LISA. Geographical