12-02 R-web資料分析應用:無母數分析方法

10  Download (0)

全文

(1)

R-web 資料分析應用:無母數方法

沈彥廷 副統計分析師 R-web 資料分析應用專欄自首期生統 eNews 刊載至今,基本上已將一 般基礎統計學的範疇含括在內,包括有簡單的描述性統計、視覺化呈現以 及在各式資料形態下的參數檢定和模型建立。 然而,我們先前介紹過的方法大多皆是建立在母體分配為常態分配或 某一特定分配的假設下。若是當樣本資料太少、母體分配不明或是違反分 配假設時,我們即必須改考慮採用「無母數(Non-Parametric)方法」進行分 析。無母數分析方法最大的特點顧名思義即為不需假設母體的分配,其統 計量的抽樣分配與母體分配無關,雖然因為缺乏分配的訊息而導致推論可 能較不精確,但對於資料型態適用性的限制也能保有相對較大的彈性。 本期內容就將為讀者介紹一些常見的無母數分析方法:連檢定、機率 分配檢定、適合度檢定,並搭配「雲端資料分析暨導引系統」(R-web, http://www.r-web.com.tw/)作為分析工具,以實際資料進行案例演示和操作 說明。

(2)

臺北醫學大學生物統計研究中心 eNews 第 12 期 無母數方法 2016/04 在進行連檢定時,首先要將數值資料依特定集中量數(如平均數、中位 數)為切點將資料切分為兩個組別,小於切點值的樣本給予”-”符號;大於切 點值的樣本則定義為”+”。緊接著計算「連數」,一個「連」代表具有一個 或多個連續相同符號的數列,例如”+++”為一個連,”+++--”有兩個連,”+++--++”則為三個連。透過連數的多寡我們即可衡量資料的隨機性,過多或過 少的連數可能都代表著資料存在不隨機的情形。 底下以一個實際資料進行案例說明。我們在本章節將統一使用「源自 基隆社區為基礎的整合篩檢計畫」(Keelung Community-based Integrated Screen Program, KCIS)作為範例資料檔,有關此資料的詳細資訊及變數定

義請參閱首期生統eNews。 假設資料中各受試者的年齡(Age)是依資料順序收集而得,試問此資料 中年齡是否為一隨機樣本? 我們可以在選單中點選【分析方法】→【無母數方法】→【單一樣本 連檢定】來進行分析。首先選擇 CVD 作為要進行分析的資料檔,接著選 擇Age 作為要進行檢定的變數。在進階選項中,可以設定使用平均數、中 位數或任意自訂值作為資料切點,預設為使用平均數。確認參數設定無誤 後,點選開始分析。

(3)

在連檢定中,虛無假設𝐻0為:資料順序為隨機產生。根據分析結果可 以看到,以平均數46.82 為切點的情況下,資料共有 4736 個連數,p 值遠 小於我們所設定的顯著水準0.05,因此可拒絕虛無假設,也就是說年齡並 不是一組隨機資料。

(4)

臺北醫學大學生物統計研究中心 eNews 第 12 期 無母數方法 2016/04 K-S 檢定的原理是比較樣本資料和理論分配的累積分佈函數(CDF)之 間的最大差異,若資料確實服從於某特定分配,則此差異值就不應該會太 大;反之,若兩者的累積分佈形狀或位置出現明顯的偏離,則表示資料來 自於該分配的可能性並不高。 以實際資料為例,欲了解範例資料檔中空腹葡萄糖(AC)變數是否服從 常態分配,可以由R-web 選單點選【分析方法】→【無母數方法】→【單 一樣本機率分配檢定】來進行分析。選擇資料檔和欲進行分析的變數,檢 定分配則依題意選擇常態分配。進階選項中可自訂理論分配的參數,若未 設定則系統自動以樣本估計,此處可設定的參數會因選擇的檢定分配不同 而有所差異。確認參數設定無誤後,點選開始分析。

(5)

在單一樣本機率分配檢定中,虛無假設𝐻0為:母體分配為常態分配。 根據檢定結果,樣本資料和理論常態分配的累積分佈最大差異D 值為 0.264 且 p 值趨近於 0。因此可拒絕虛無假設,表示空腹葡萄糖樣本並不服從於 常態分配。

 (獨立)雙樣本機率分配差異檢定

有時研究者感興趣的並不是樣本資料是否服從某特定分配,而是兩組 資料是否來自於相同的母體分配,此時我們就可以使用雙樣本K-S 檢定來

(6)

臺北醫學大學生物統計研究中心 eNews 第 12 期 無母數方法 2016/04

來進行分析。首先在步驟一選擇資料檔,接著由於我們要依照資料中的性 別變數區分兩組高密度脂蛋白樣本,因此在步驟二中可選擇資料型態為 「一檢定變數及一分組變數」,最後在步驟三中選擇 HDL 為檢定變數、 Gender 為分組變數。確認參數設定無誤後,點選開始分析。

(7)

在雙樣本機率分配差異檢定中,虛無假設𝐻0為:兩組資料來自相同母 體分配。根據檢定結果,兩組樣本資料的累積分佈最大差異D 值為 0.4426 且 p 值趨近於 0。因此可拒絕虛無假設,表示不同性別下的高密度脂蛋白 並非來自於相同分配。

 卡方適合度檢定

在第九期生統eNews中,我們曾介紹過如何使用列聯表分析方法中的 卡方獨立性檢定來檢視兩類別變數間的相關性。現在要為各位讀者說明的

(8)

臺北醫學大學生物統計研究中心 eNews 第 12 期 無母數方法 2016/04 母體機率分配求算而得。此統計量越大,代表觀察次數和期望次數之間的 差異很大,則此時可認為樣本資料的次數分配異於理論上的分配。 同樣以CVD 資料為例,研究者希望透過卡方檢定檢驗三酸甘油酯(TG) 變數是否服從於常態分配。則我們可以點選 R-web 選單中的【分析方法】 →【無母數方法】→【卡方適合度檢定】來進行分析。選擇資料檔和欲進 行分析的變數,由於三酸甘油酯為一連續型數值變數,因此需設定資料分 組的切割方式,檢定分配則依題意選擇常態分配。進階選項中可自訂理論 分配的參數,若未設定則系統自動以樣本估計,此處可設定的參數會因選 擇的檢定分配不同而有所差異。確認參數設定無誤後,點選開始分析。

(9)

在卡方適合度檢定中,虛無假設𝐻0為:母體分配為常態分配。根據檢 定結果,卡方檢定統計量為 27231.37、自由度為 2,p 值遠小於顯著水準 0.05,因此可拒絕虛無假設,也就是說三酸甘油酯並不服從於常態分配。

(10)

臺北醫學大學生物統計研究中心 eNews 第 12 期 無母數方法 2016/04 無母數性質的檢定方法,有興趣進一步了解的讀者歡迎前往參閱,我們就 不在此多加著墨了。 在實務的資料分析案例中,無母數方法經常是相當實用的工具之一, 希望本篇的說明能對您有所幫助。也期望讀者可以親自嘗試使用R-web 熟 悉本次所介紹的各項方法操作,相信一定能更加掌握各方法的使用時機和 其意義!

數據

Updating...

參考文獻