群集類型的分類,並且詳細介紹常用的偵測方法 SaTScan;第二節則介紹多重群 集的處理方法,並討論方法適用時機。
第一節 群集檢測方法
在檢測群集的問題上,Marshall (1991)指出兩個主要的議題,第一項為研究 區域中是否存在不尋常高的事件數,第二項則是研究區域中是否發生群集及發生 的位置。一般而言,群集檢測方法依目的的不同可分為總體檢定(Global Test)、
局部檢定(Local Test)及焦點檢定(Focused Test)。
(一) 總體檢定
總體檢定是指在不考慮群集位置的狀況下,檢定整體研究區域是否有群集的 傾向。而使用空間自相關(Spatial Autocorrelation)的量度以檢驗空間單元與其相鄰 的空間單元的屬性間是否具相似性是較為典型的做法。 (Cliff and Ord, 1981)。此方法除了可應用在連續型資料亦可應用在離散型資料,
在使用上較為廣泛。
但此方法在研究區域中人口密度有異質性(Non-homogenuous)時,Moran I 判
‧
Z-scores 或蒙地卡羅亦可檢定空間是否有自相關性。Waldhör (1996)則在檢定 Moran I 時,在變異數上允許每一區不同,而每一區的變異數與該區人口數成反 比,重新對 Moran I 的 Moments 作調整。另外,Tango (1995)的 Excess Events Test 採用距離矩陣(Distance Matrix)衡量 區域間是否相近,計算第 i 區事件數超過第 i 區期望發生數與第 j 區事件數超過 第 j 區期望發生數,兩者相乘的加權總和,權重為指數型函數。由於必須決定參 數λ(與空間群集大小有關),λ 一般不知道,所以透過檢定不同的 λ 值以便判斷 是否有群集現象,但又衍生出重複檢定上的問題,故 Tango (2000)提出 Maximized Excess Events Test(MEET)修正此問題,在檢測形成群集的現象上檢定力較佳 (Song and Kulldorff, 2005)。Tango (2000)的 MEET 及 Oden (1995)的I∗pop兩種方法 在檢測 Global Clustering 檢定力較佳,而原始的 Moran I 較差(Jackson et al., 2009)。
(二) 局部檢定
局部檢定用來偵測在研究區域中發生群集現象的位置。在總體檢定中,可以 評估 Global Clustering,在局部檢定中亦有類似作法。檢測局部區域自相關程度 Local Indices of Spatial Association(LISA),以 Moran I 而言,此時不再只計算一個 值,必須針對每一個地理單位(Geographic Unit)如:鄉、鎮,計算 Moran I。或是 以概似函數配合蒙地卡羅檢定研究區域是否存在群集,如 Kulldorff and
Nagarwalla (1995)的 SaTScan 及 Tango and Takahashi (2005)的 FlexScan。
Kulldorff and Nagarwalla (1995)的 SaTScan 是目前被廣為使用的方法之一,
同時解決過去在多重檢定及人口密度上的異質性的問題。此方法主要採用圓形窗 格堆疊的方式搭配概似函數的想法找出顯著的區塊,在檢定力上也比過去方法更
‧
為有效(Kulldorff et al., 2003; Song and Kulldorff, 2003),但此方法對於非圓形或橢 圓形的群集形狀,檢定力較差(Kulldorff et al., 2006)。有鑑於此,陸陸續續有其 他學者針對奇形怪狀的群集提出解決之道,如 Demattei et al. (2007)及 Cucala (2009)從維度縮減的角度,將 Spatial Data 轉換單一維度,並透過 Scan Statistic 進行單一維度的分析,但此方法在轉換的過程中可能會造成點順序上的不一致,
因而偵測上產生過多的 False Positive。
Tango and Takahashi (2005)的 FlexScan 與 SaTScan 最大的不同點在於 SaTScan 採用圓形窗格堆疊的方式而 FlexScan 以鄰區相連結的方式執行群集偵 測,所以為了避免找到局部解,在 K 個鄰近區塊上都必須討論所有的可能性,
因此在對奇形怪狀的群集偵測時有不錯的效果(王泰期, 2006),但有計算繁複的 問題,除此之外 FlexScan 只在群集大小不大的情況下偵測效果較佳(Tango and Takahashi, 2005)。
(三) 焦點檢定
焦點檢定用於檢測某一特定位置周圍是否有顯著較高的事件發生率,在使用 時,通常需要了解疾病的影響範圍、傳染的強度等等,由於在近幾年並沒有新方 法的提出,近期焦點檢定的方法上多採用 Stone (1988)的 Stone’s Test 及 Diggle (1990)的 Diggle’s Test,以 Stone’s Test 為主(Auchincloss et al. 2012)。Diggle’s Test 為一種適合度檢定(Goodness-of-fit Test),比較原始資料的空間分布及在控制可能 的汙染源位置下所生成的分布是否一致(Diggle, 1990; Diggle, 1994),但其主要用 於 Individual-level Data。Stone (1988)提出 Maximum Likelihood Ratio (MLR)及 Poisson Maximum (Pmax) tests,兩種方法皆假設隨著離可能的汙染源位置越遠風 險就越小的情況下使用 Isotonic Regression Estimator。Stone 提到 MLR Test 的檢 定力通常大於 Pmax 的檢定力,但當群集範圍較小時,Pmax 的檢定力會大於 MLR test 的檢定力。由於在 MLR 檢定方法中,估計各區塊相對風險值可能會出現小
‧
由於本文探討群集分析採用 Kulldorff and Nagarwalla (1995)的 SaTScan,所 以底下介紹 SaTScan 在群集分析時的步驟如下:
Step1:建立 I 個格子點,使這些格子點能包含全部的研究區域。
Step2:訂定擴散半徑 R,以格子點為中心向外圓形擴張半徑為 R,找出多個圓 形區塊,作者建議最大半徑 R 所涵蓋總人口數不要超過 50%。
Step3:計算每個圓形區塊的概似比,以獲得最大概似比。
Step4:針對每個格子點重複 Step2 到 Step3 Step5:利用 Monte Carlo 檢定哪些區塊顯著。
透過上述步驟,即可檢定研究區域是否有群集及群集的位置。SaTScan 在面 對群集的相對風險較小時,主要是以群集面積來判斷,亦即必須要達到一定的區 塊檢定才會顯著,如相對風險為 1.2 下,群集區塊必須達研究區域 30%以上,Power 才會達 90%以上;隨著相對風險的提高下,群集區塊所佔研究區域就不需達到 30%,以相對風險為 1.6 而言,只要達 15% Power 便達 90%以上。所以當群集相 對風險很低,隨著所占研究區域面積比例下降,檢定力也會隨之下降,且檢定顯 著的群集都容易涵蓋過多的 False Positive。在提高相對風險後,偵測涵蓋過多的 False Positive 才會得到改善。在下一章研究方法會介紹 SaTScan 的檢定統計量並 改寫逐次分析下,SaTScan 的檢定統計量。
第二節 多重群集檢測方法
在一般情況下,研究區域往往存在不只一個群集,如何使用局部檢定找出所 有顯著群集,為局部檢定中一個重要的議題。目前在局部檢定中,多重群集的偵 測方式以一次性偵測及逐次分析為主。一次性偵測若在得知群集個數下,透過改
‧
寫 Scan Statistic,確實能避免風險較小群集受到其他發生率較高群集的影響,然 而在大多數的情況下,無法得知準確的群集數目,此時利用一次性偵測同時比較 所有疑似群集的內外風險,相對風險較小群集會受到其他發生率較高群集的影響,
在檢測上會過於保守(Zhang et al., 2010)。故 Zhang et al. (2010)提出以 Sequential Method 亦即逐次分析,如此確實能修正相對風險較低的群集的 Type I Error。
然而此方法無法消除其它潛在的群集對最顯著群集的影響 (Li et al., 2011),
故 Li et al. (2011)提出新的 Spatial Scan Statistic,此方法屬於一次性偵測的一種,
透過逐次分析初步決定潛在群集個數後,進一步透過作者的 Spatial Scan Statistic 重新檢定。另一方面 Wan et al. (2012)提出新的演算法,在不規則的多重群集上 有不錯的檢定力,但此方法在運算複雜度上 O(N4),相當耗時且此方法只能針對 累計型資料作分析,所以對於 Individual-level Data 必須先轉換。
在研究動機裡提到,逐次分析以降低顯著群集的影響為思考方向,此問題類 論,所以本文即著重在這兩方面上進行討論。本文以 Kulldorff and Nagarwalla (1995)的 SaTScan 作為檢測群集的方法,以逐次分析的方式修正 SaTScan,並在 第四章的電腦模擬分析比較改進的成果。
‧
念基本上可套用在 SaTScan 或是 FlexScan 等群集偵測的方法上。雖然 FlexScan 在群集的形狀上,相對於 SaTScan 較具彈性,但計算上較為耗時,所以本文以 Kulldorff and Nagarwalla (1995)的 SaTScan 作為群集檢測方式。由於在逐次分析 的概念上與 Zhang et al. (2010)的概念類似,所以以下將會參考 Zhang et al. (2010) 的模型。第一節 空間統計模型
在大多數疾病群集研究中,經常為累計型資料(Aggregate Data),像是臺灣地 區常以縣市、鄉鎮市區、村里等為單位。首先將研究區域分割成 K 個小區塊,
也就是地理分割,通常會是普查研究區塊(Census Tract)。考慮 Kulldorff and Nagarwalla (1995)的 SaTScan,以下令 Z 表示選取的區塊,G 代表研究區域,o(Z) 表示區塊內發生的事件數,o(G)表示研究區域內發生的事件數,n(Z)表示區塊內
若空間存在多重群集,並採取逐次方法(Sequential Method)進行群集檢測,
則應如何改寫檢定統計量,以下以兩個群集為例。在群集沒有相互重疊的情況下,
對於最顯著的群集 Z,其檢定統計量如下: