• 沒有找到結果。

協和配對樣本在McNemar檢定中的角色扮演探討

N/A
N/A
Protected

Academic year: 2021

Share "協和配對樣本在McNemar檢定中的角色扮演探討"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

協和配對樣本在 McNemar 檢定中的角色扮演探討

計畫類別: 個別型計畫 計畫編號: NSC91-2118-M-004-005- 執行期間: 91 年 08 月 01 日至 92 年 07 月 31 日 執行單位: 國立政治大學統計學系 計畫主持人: 江振東 報告類型: 精簡報告 處理方式: 本計畫可公開查詢

中 華 民 國 92 年 11 月 7 日

(2)

行政院國家科學委員會專題研究計畫成果報告

協和配對樣本在 McNemar 檢定中的角色扮演探討

On Concordant Paris in McNemar’s Test

計畫編號:NSC 91-2118-M-004-005

執行期限:91 年 7 月 1 日至 92 年 8 月 31 日

主持人:江振東 國立政治大學統計系

一、計畫中文摘要 如果我們想要就一組相依樣本前後兩 次調查所得到的比例是否有所差異進行探 討,最常用的方法莫過於 McNemar 的檢 定方法。然而 McNemar 檢定統計量基本 上是一個非協和配對樣本的函數,與協和 配對樣本完全無關。這個與直覺有些不符 的想法,常常造成實際應用的困擾。在此 計畫中,我們藉由絕對多數和相對多數的 思考模式來重新詮釋此一問題。此外我們 也推導出一個新的統計量,並利用模擬實 驗與 McNemar 檢定來作比較。 關鍵詞:相依樣本、McNemar 檢定、非協 和配對樣本、協和配對樣本 Abstract

When data arise as matched binary pairs, it is often of interest to compare the two correlated binomial proportions. McNemar’s test is perhaps the best known for this matter. McNemar’s test statistic itself, however, has nothing to do with the concordant pairs. It is somewhat counter-intuitive, and often frustrating for practitioners to learn that only the discordant pairs are necessary, given the effort to collect all the data. In this study, we clearify the ambiguity through the

derive a new test statistic and compare its small-sample behavior with McNemar’s test through simulation.

Keywords: concordant pairs, correlated pairs, discordant pairs, McNemar’s test. 二、計畫緣由與目的 在日常生活中,我們常常可以藉由媒 體的報導,得到下列類似的訊息:「在某 項政策採行之後,民眾對政府的施政滿意 度的比例由 59%降為 55%;相對的不滿意 的程度則由 41%提高為 45%。」假設前述 的資料是針對同一組樣本在事件發生前後 的兩次訪談之後所得到的結果,則 4%的 差距是否足以說明民眾對於政府的施政滿 意程度在該項政策施行之後有明顯的轉變 呢? 就 這 一 類 有 關 相 依 樣 本 (correlated sample)的處理方式,在統計上最常用的工 具莫過於 McNemar 的檢定方法(McNemar (1947))。假定針對一組樣本數為 n 的樣 本,依據前後兩次的訪談的結果,我們可 以整理得到一個 2×2 的列聯表如下: 第二次調查 第一次調查 滿意(0) 不滿意(1) 總和 滿意(0) n00 n01 n0+ 不滿意(1) n10 n 11 n1+ 總和 n+0 n+1 n 其中 = 表示在第一次調查中選

(3)

擇第 i 個選項,而第二次選擇第 j 個選項 的樣本數。我們的目的是想要瞭解藉由前 後兩次調查結果是否可以反應出滿意程度 有 所 改 變(亦 即 H00++0)。 由 於 McNemar 的 檢 定 統 計 量 為 10 01 2 10 01 2 ( ) n n n n X + − = , 因 此 只 要 2 , 1 2 α χ > X (其中α為右尾機率),則就統計 的觀點而言,我們便可以說兩次調查的結 果有所不同。但是在使用 McNemar 的檢 定 過 程 中 , 我 們 也 可 以 發 現 只 要 n01, 10 n (非協和配對樣本(discordant pairs))的 數據不變,縱然n00, n11(協和配對樣本 (concordant pairs))有所改變,檢定統計量 的值也永遠不會改變。這似乎與我們的直 覺有些違背,因為n00相較的越大,我們 似乎會越傾向於不拒絕虛無假設H0。然 而 McNemar 的檢定結果,直觀上顯然與 00 n , n 的大小完全無關,因而常會導致11 「主對角線上(亦即協和配對樣本)所呈現 的資訊似乎有被浪費掉的感覺」的疑惑, 從而質疑 McNemar 檢定的好壞,因此我 們希望能夠藉由此研究計畫的執行,對此 困惑有所澄清。 針對如何引進協和樣本的資訊來作檢 定,相關文獻似乎並不太多。Liang and Zeger(1988) 曾 提 出 統 計 量 ) ( ) ( ˆ 10 01 11 00 10 10 01 11 00 01 n n n n nn n n n n nn LZ + − + = ω ω ϕ ,其中ω 是一個{n00,n01,n10,n11}的函數。由於 LZ ϕˆ 是 優 勢 比ϕ (odds ratio)的 一 個 估 計 式,因此檢定H00++0相當於檢定 1 : 0 ϕ = H 。 不過ϕˆLt 這個統計量只有在 0 10 01 11 00nn n > n ,也就是0 1 11 00 10 01 n n n n 時才能適用,因此減弱了它的實用性。此 外 一 般 所 熟 知 的 Wald 檢 定 統 計 量 n n n w n n n n X 2 10 01 ) ( 10 01 2 10 01 2 ( ) − − + − = , 由 於 包 含 有 n(=n00 +n01 +n10 +n10 +n11),因此的確 考慮了n00n 的影響。但是在樣本總數11 不夠大的情形下,使用Xw2來作為檢定會 導致較大的型 I 誤差。於此,我們可以了 解 2 w X 或 者ϕˆLZ 都 是 著 眼 於 如 何 引 進 00 nn 於11 H00++0的檢定中。 此 外 Randles (2001)針 對 符 號檢定(Sign Test) 中 的 零 值 (zeros) 及 Wilcoxon-Mann-Whitney 檢定中的同分值 (ties)是否捨棄不用的問題提出另一種思 考方向。假定x1, ⋅⋅⋅⋅,xn是一組隨機樣本。 令 π+ =P(xi >0) , π =P(xi <0) , ) 0 ( 0 =P xi = π ;而n+,n,n0則分別表示樣 本中大於 0,小於 0 及等於 0 的個數。 Randles 認為傳統的檢定方法應該只適用 在我們想要回答的問題是H0+ ≤π vs. − + >π π : 1 H ,也就是xi >0是否是相對多 數。但是如果我們想要瞭解的是xi >0是

否是絕對多數(the majority preferance),則

0 0:π+≤π−+π H vs. H1+0,或 者是 2 1 : 0 π+ ≤ H vs. 2 1 : 1 π+ > H ,應該才 是 正 確 的 陳 述 方 式 。 依 據 這 個 想 法 , Randles 從而推導出另一個統計量來回答 這個問題。儘管這種思維模式未必完全能 為大家所接受,但也不失為一種可行方 式。由於在這裡有關零值的取捨問題,和 前述相依樣本的處理過程中所衍生出來的 協和樣本之取捨問題,基本上的想法是類 似的,因此也提供了我們另外一種思考的 方向。 三、計畫結果與討論 假設有兩筆資料如下:

(4)

A B 5 45 455 45 35 15 35 465 我們想要分別討論π+0是否等於π0+。 依據 McNemar 的檢定原則,由於檢 定統計量 10 01 2 10 01 2 ( ) n n n n X + − = ,因此就這兩 組資料而言,儘管資料結構不盡相同(就A 而言,πˆ0+ =0.5,πˆ+0 =0.4;就B而言, 5 . 0 ˆ0+ = π ,πˆ+0 =0.49),然而X 都等於2 25 . 1 35 45 ) 35 45 ( 2 = + − ,以致於不論α值如何選 取,二者的結論完全相同。雖然由文獻中 我們可以得知 McNemar 檢定統計量具有 有效性(effecticiency),然而在總樣本數增 加的情形下,檢定力(power)卻維持不變。 既然無法得到預期的好處,那我們又何必 大費周章的增加樣本。這個事實對多數應 用學者而言,常常會造成困惑和不解,而 這也是這個研究計畫主要想要探討的焦點 所在。 針對前述疑惑,我們可以說明如下: (一)其實主對角線上的資料雖然表面上並 未出現在檢定統計量之中,但它們對檢定 統計量的影響卻是存在的。這是由於檢定 統計量其實可以表示為: 10 01 2 10 01 10 01 2 10 01 12 01 2 10 01 2 ˆ ˆ ) ˆ ˆ ( ˆ ˆ ) ˆ ˆ ( ) ( π π π π π π π π + − = + − = + − = n n n n n n n n n X 其中

∑∑

= i j ij n nn nij ij = πˆ 。 因此這個統計量實際上與樣本總數n是有 關的。藉此我們可以發現當主對角線上的 資料增加時,除非π01−π10 =0,否則隨著 n 變大,檢定統計量 10 01 2 10 01 ˆ ˆ ) ˆ ˆ ( π π π π + − n 的值也會放 大。因此就 McNemar 檢定統計量而言, 主對角線上的資料並非完完全全沒有提供 任何訊息。 (二)令 (ˆ ˆ ) 2 1 10 01 π π − = s 和 (ˆ ˆ ) 2 1 10 01 π π + = t 為 兩個新的座標軸,則 t s n n X 2 10 01 2 10 01 2 2 ˆ ˆ ) ˆ ˆ ( = + − = π π π π 棄卻域因而變成 2 , 1 2 2 2 α χ > = t s n X 亦即 2 , 1 2 2 1 α χ n s > ,其中χ12,α為一常數 由此我們可以瞭解棄卻域是一個邊界為一 個拋物線所組成的區域,該拋物線的正焦 弦長為 n 2 2 , 1α χ ,且拋物線和πˆ01軸、πˆ10軸的 交點分別為       0 , 2 , 1 n α χ 、      n 2 , 1 , 0χα 。所以當n為有 限數時,n 的大小會對拋物線的開口大小 有所影響,進而影響棄卻域的範圍。當 n 大時開口就小,棄卻域較大;反之,當 n 小時開口就大,棄卻域也就較小。這一點 與我們一般對樣本數大小與棄卻域大小之 間關係的認知其實是一致的。 (三)問題的整個癥結其實在於前述 A 與 B 兩種資料結構所對應之虛無假設表面上看 起來雖然是相同的,但實際上卻不盡如 此。就資料A而言,其實 45 . 0 ˆ01 = π 35πˆ10 =0. 但是,就資料B而言 045 . 0 ˆ01 = π 035πˆ10 =0. 所以,儘管觀測值n01都是45,而n10都是 35,但是對 A、B 而言這兩個數字所代表 的意義並不相同。因此雖然針對A我們想 檢定的虛無假設是: 0 0 0 π + =π+ : H 而B所對應的虛無假設也是:

(5)

0 0 0 π + =π+ : H 乍看之下二者完全相同,但是其實二者所 要作的檢定並不相同。A 所對應的虛無假 設其實是: A A A A A A H:0 π0+ =π00 +π01 =π00 +π10 =π+0 亦即 A A H0 π0110 同理,B所對應的虛無假設實際上是: B B B B B B H0 π0+00010010+0 亦即 B B H:0 π01 =π10 換句話說,A、B 兩組資料所得到的檢定 統計量的值是用來檢定不同的虛無假設, 只是兩個檢定問題所對應得到的檢定統計 量的值恰巧相同罷了,因此儘管檢定結果 相同亦無須驚訝。 (四)若要探討的是同一個虛無假設,則樣 本數增加時所對應的資料結構的改變應該 是對應格子的觀測值會呈現倍增的情況才 是,亦即 A ij B ij kn n = ,其中k是一個正整數。 若資料等量放大(比方 A ij B ij kn n = ),由於檢定 統計量變成 A A A A B B B B n n n n k n n n n 10 01 2 10 01 10 01 2 10 01 ) ( ) ( + − = + − , 因此較容易拒絕虛無假設。但是這種資料 等量放大導致總樣本數增加的現象,與變 動對角線數目所導致的總樣本數變動的情 形,直觀上常被混為一談,以為其特性一 致,事實上則相去甚遠。這一點應該清楚 瞭解,才不致有所混淆。 此外我們也引進了一個新的統計量 10 01 10 01 1 1 log n n n n L + = 。 在 虛 無 假 設 成 立 的 前 提 下,這個統計量可以證明具有近似標準常 態分配的一個分配。我們同時也藉由模擬 實驗來比較這個統計量與 McNemar 檢定 統計量的差異。兩個主要結論如下: 1.當格內的數值期望值很小時,無法計算 出檢定統計量L的頻率很高。所以當資 料格內的數值期望值很小時,檢定統計 量L的檢定能力並不是很好。 2.當 McNemar 與L 以其真實分配,(嚴格 來說是藉由模擬實驗所得到的近似分配) 來決定臨界值時,L 擁有較好的檢定 力;但若以其極限分配(卡方分配或常態 分配)來決定臨界值時,則是 McNemar 具有較好的檢定力。 四、計畫成果自評 藉由這個計畫的執行,我們得到的最 主要結論可以歸納如下: 1.主對角線上所呈現的資訊並未被浪費 掉,而是蘊含在檢定統計量中,並且會 影響棄卻域的範圍。 2.在非主對角線上的數據為固定,只變動 主對角線上的數據的情形之下,其實虛 無假設是完全不同的。所以儘管檢定過 程之中會有完全相同的檢定結果,但是 在解釋上卻是截然不同。 誠如這個計畫的題目:「協和配對樣 本在McNemar檢定中的角色扮演探討」, 我想我們應該已經達到這個計畫最初設定 的原始目標。至於新的統計量 10 01 10 01 1 1 log n n n n + , 雖然在大樣本的情形下與 McNemar 檢定 統計量具有相同的近似分配,藉由模擬實 驗可以發現其表現雖無法超越 McNemar 的原始檢定統計量,但也在伯仲之間。不 過藉由實驗的過程,我們能夠更進一步了 解McNemar檢定的特性,也是收獲之一。

(6)

五、參考文獻

1.Bennett, B.M. and R.E. Underwood (1970). On McNemar Test for the 2×2 Table and Its Power Function. Biometrics, Vol.26, 339-343.

2.Coakley, C.W. and M.A. Heise (1996). Versions of the Sign Test in the Presence of Ties. Biometrics, Vol.52, 1242-1251. 3.Flerss, J.L. (1981). Statistical Methods for

Rates and Proportions. New York: Wiley. 4.Liang, K-Y, and S.L. Zeger (1988). On the

Use of Concordant Pairs in Method Case-Control Studies. Biometrics, Vol.44, 1145-1156.

5.McNemar, Q. (1947). Note on the Sampling Error of the Difference Between Correlated Proportions or Percentages.

Psychometrika, Vol.12, 153-157.

6.Pratt, J.W. (1959). Remarks on Zeros and Ties in the Wilcoxon Signed Rank Procedures. Journal of the American

Statistical Association, Vol.54, 655-667. 7.Randles, R.H. (2001). On Neutral

Responses (Zeros) in the Sign Test and Ties in the Wilcoxon-Mean-Whitney Test.

參考文獻