• 沒有找到結果。

09-02 R-web資料分析應用:相關暨列聯表分析 – 列聯表檢定方法

N/A
N/A
Protected

Academic year: 2021

Share "09-02 R-web資料分析應用:相關暨列聯表分析 – 列聯表檢定方法"

Copied!
9
0
0

加載中.... (立即查看全文)

全文

(1)

第 1 頁

R-web 資料分析應用:相關暨列聯表分析–列聯表檢定方法

陳逸萱 副統計分析師 上一期的生統 eNews 向大家介紹了【雲端資料分析暨導引系統】 (R-web, http://www.r-web.com.tw) 分析方法中的『相關暨列聯表分析-相關 係數』功能。『相關係數』主要用來衡量兩個連續型變數間的線性關聯性高 低,但若資料為”類別型變數”,則無法用相關係數來評估。接下來,本期 的生統 eNews 將跟大家介紹:檢定兩個類別型變數間是否存在關聯性的 『列聯表檢定方法』。 若我們想觀察兩類別變數之間的關聯性,我們可以先將資料整理成『列 聯表(Contingency Table)』的形態。假設A類別變數有𝑟個分組,B類別變 數有𝑐個分組,計算資料中在此兩個變數產生的𝑟 × 𝑐個類別組合的樣本次 數,即可構成𝑟 × 𝑐列聯表。列聯表檢定方法依據樣本的特性不同,可分為: 卡方獨立性(或稱齊一性)檢定、費雪精確檢定、McNemar檢定,本期的生 統eNews將依序跟大家介紹這些方法的應用。本系列分析將統一使用源自 基隆社區為基礎的整合篩檢計畫 (Keelung Community-based Integrated Screen Program, KCIS)的心血管疾病資料作為範例資料檔,有關此資料的 詳細資訊及變數定義請參閱首期生統eNews。

 卡方獨立性檢定(

Wilcoxon signed-rank test)

當我們想評估資料中兩類別變數的關聯性,且資料樣本數較大時,即

可使用『卡方獨立性檢定』。此方法的概念在比較列聯表中觀察次數和期望

次數是否有差異,若兩變數獨立時,觀察次數和期望個數應很接近。以範 例資料檔為例,在我們篩選其中有抽菸的族群資料中,”CVD”(個人心 血管疾病史)為兩組分類的類別變數,”Tobacco_Consumption”(菸草消

(2)

第 2 頁 費量)為三組分類的類別變數,我們便可來檢定資料檔中是否罹患心血管 疾病與菸草消費量分組是否存在關聯性。 在R-web 主選單中依序點選【分析方法】→【相關暨列聯表分析】→ 【卡方獨立性(或稱齊一性)檢定】即可進入分析頁面。 操作畫面如上圖所示。第一步,先選擇要進行分析的資料檔,點選”使 用者個人資料檔”後選擇”cvd_tobacco”的檔案(篩選好的吸菸者資料),系 統將自動帶出參數設定畫面。在步驟二選擇要進行分析的變數,在此設定 列變數為”CVD”(個人心血管疾病史)、行變數為”Tobacco_Consumption” (菸草消費量)。最後,點 選【進階選項】如右圖,勾 選”顯示列聯表”,分析結 果便會呈現整理好的列聯 表資料,【儲存設定】後即 可【開始分析】。

(3)

第 3 頁 下圖為分析結果,左上方可以看到檢定的變數及相關設定,檢查沒問 題即可往下看分析結果。第一個表格為整理好的2 × 3列聯表;第二個表格 顯示檢定統計量與p 值,本分析之虛無假設為兩變數之間無關聯,而 p-值 0.027441*表顯著,拒絕虛無假設,我們可推論資料中是否罹患心血管疾病 與菸草消費量的高低分組有關。在分析結果的列聯表中,藍色框框圈出了 各個菸草消費量分組罹患心血管疾病的比例,除了檢定結果告訴我們這個 比例在各個菸草消費量分組的分布不同以外,我們還可以觀察到菸草消費 量越高的分組(1:每日一包、2:每日兩包、3:每日三包以上),其罹患 心血管疾病的比例越高,根據這個現象,研究者可以嘗試再做進一步的分 析。

(4)

第 4 頁

 費雪精確檢定(

Fisher's exact test)

當資料樣本數較小(以樣本筆數<30 為區分標準)時,卡方獨立性檢 定的p 值較不可靠,此時我們可改用『費雪精確檢定』來檢定兩類別變數 的關聯性。費雪精確檢定是透過”超幾何分配”的公式來檢定兩變數的相關 性,比起卡方獨立性檢定較精確,但是樣本數很大時會耗費較久的運算時 間。比照前面的例子,我們可以嘗試用費雪精確檢定來檢定是否罹患心血 管疾病與菸草消費量分組是否存在關聯性,雖然此範例的樣本數夠大,我 們仍可大略比較兩方法的差異。

(5)

第 5 頁 在 R-web 主選單中依序點選【分析方法】→【相關暨列聯表分析】→ 【費雪精確檢定】即可進入分析頁面。 在此例中,我們可以透過前面得到的列 聯表數值來進行分析,操作畫面如上圖所示。 首先,選擇”以列聯表型態直接輸入資料”, 並調整列聯表為:2 列*3 行,點選”輸入資料” 後,系統將自動帶出列聯表的空白格式。接者,將列聯表中兩變數的類別 項目名稱與對應觀察個數填入,完成後點選【進階選項】如左圖,在此依 據自己需求設定行、列變數名稱,勾選”顯示列聯表”,分析結果便會呈現 整理好的列聯表資料,【儲存設定】後即可【開始分析】。 下圖為分析結果,左上方可以看到檢定的變數及相關設定,檢查沒問 題即可往下看分析結果。第一個表格為2 × 3列聯表;第二個表格顯示費雪 精確檢定的 p 值,本分析之虛無假設為兩變數之間無關聯,而 p-值 0.028289*表顯著,拒絕虛無假設,我們可推論資料中是否罹患心血管疾病 與菸草消費量的高低分組有關。此分析結果與前面卡方獨立性檢定的趨勢

(6)

第 6 頁

相同,我們可知在大樣本的情況下,兩方法可得到相同的結論。

 McNemar 檢定(

McNemar's test)

當我們想比較類別為兩類的配對(matched pairs)資料,我們可以將資料 轉換為成對資料的列聯表,並用『McNemar 檢定』進行分析。由於範例資 料並非配對資料,在這邊我們改用生統教科書中的例子[1]來說明:某一臨

床試驗欲比較 A 和 B 兩種乳癌化療藥物的療效,納入了 621 對經過年齡

(7)

第 7 頁 些病人五年的存活狀況,觀察的結果整理成下表:有90 對的病人無論進行 A 治療或 B 治療五年內皆死亡,而有 510 對的病人五年內皆存活;有 16 對的病人進行A 治療者在五年內存活,但進行 B 治療者在五年內死亡;另 有 5 對的病人進行 B 治療者在五年內存活,但進行 A 治療者在五年內死 亡。 進行B 治療的病人 進行A 治療的病人 是否在五年內死亡 Total No Yes 是否在五年內死亡 No 510 16 526 Yes 5 90 95 Total 515 106 621 在 R-web 主選單中依序點選【分析方法】→【相關暨列聯表分析】→ →【McNemar 檢定】即可進入分析頁面。 操作畫面如上圖所示,先選擇”以列聯表型態直接輸入資料”,點選”輸

(8)

第 8 頁 入資料”後,系統將自動帶出列聯表 的空白格式。而後參考本例的成對 列聯表,將兩變數的類別項目名稱 與對應觀察個數填入,完成後點選 【進階選項】如右圖,在此可依據自己需求設定行、列變數名稱及是否”顯 示列聯表”,若樣本數較小或有細格(cell)數≤ 5時,建議勾選”使用連續性修 正(correctness of continuity)”,【儲存設定】後即可【開始分析】。 下圖為分析結果,左上方可以看到檢定的變數及相關設定,檢查沒問 題後即可看分析結果。第一個表格為成對的2 × 2列聯表;第二個表格顯示 McNemar 檢定的 p 值,本分析之虛無假設為兩變數之間無關聯,而 p-值 0.029096*表顯著,拒絕虛無假設,我們可推論五年存活狀況與 A、B 治療 種類有關。此資料中我們感興趣的為存活狀況不一致的配對,即下圖藍色 框框圈出的21(15 + 6)對病人,其中進行 A 治療者在五年內存活、但進 行 B 治療者在五年內死亡的 16 對病人占多數,我們可以推論 A 治療的療 效比B 治療好。

(9)

第 9 頁 本期生統eNews 的介紹到此告一段落,這次介紹了列聯表檢定的三種 方法:卡方獨立性(或稱齊一性)檢定、費雪精確檢定、McNemar 檢定,希 望大家能更加熟悉這些檢定方法的使用時機與操作方式。下一期的生統 eNews 將為大家介紹更進階的分析方法-『迴歸分析』,敬請期待! 參考資料

參考文獻

相關文件

相關分析 (correlation analysis) 是分析變異數間關係的

[r]

[r]

Zivot and Andrews(1992) 將 Perron(1989) 擴充成考慮未知結構性 轉變的單根檢定 , 其概念與之前 max-Chow 檢定一樣 : 找出一個轉 變點

許多時間序列資料在公布時已經做過季節調整 , 如美國普查局 (the U.S. Census Bereau) 發展並使用 X-11 與 X-12 調整法。. EViews

即使各種新檢定並不能適用在每一個模型設定 , 這些新檢定的表現 都遠勝過傳統 ADF/PP 檢定。 因此 , Maddala and Kim (1998) 建議 應該揚棄 ADF/PP 檢定 (it is time to completely

樣本重抽法 (resampling method) 則是一個與實際抽樣分配或是 大樣本漸近分配完全迥異的做法 , 其統計推論的基礎 , 來自 「原有樣

由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用