• 沒有找到結果。

08-02 R-web資料分析應用:相關暨列聯表分析 – 相關係數-

N/A
N/A
Protected

Academic year: 2021

Share "08-02 R-web資料分析應用:相關暨列聯表分析 – 相關係數-"

Copied!
12
0
0

加載中.... (立即查看全文)

全文

(1)

1 R-web 資料分析應用:相關暨列聯表分析 – 相關係數 蔡靜雯 副統計分析師 生 統 eNews 【 雲 端 資 料 分 析 暨 導 引 系 統 】 ( R-web, http://www.r-web.com.tw)截至目前為止,介紹了圖表繪製和多種資料特性(平均數、中 位數、變異數…)的檢定方法,本期將接著介紹分析方法中的「相關暨列聯 表分析-相關係數」。欲了解兩個連續型變數間的關係,除了可以用散佈圖 來表達,還可以用數值性指標來衡量兩個變數間的相關程度和其相關方向 ( 正 相 關 或 負 相 關 ) , 常 用 的 相 關 性 指 標 有 皮 爾 生 相 關 係 數 (Pearson's correlation coefficient) 和 斯 皮 爾 曼 等 級 相 關 係 數 (Spearman's rank correlation coefficient),以下將分別對這兩種相關係數做介紹,並使用源自 基隆社區為基礎的整合篩檢計畫( Keelung Community-based Integrated Screen Program, KCIS)的心血管疾病資料作為範例資料檔,示範相關係數 的使用方法,有關此資料的詳細資訊及變數定義請參閱首期生統eNews。

 皮爾生相關係數(Pearson's correlation coefficient)

皮爾生相關係數是用來測量兩連續型變數 X 和 Y 之間的線性關係。 母體的相關係數通常以表示,其定義為 ) ( ) ( ) , ( Y V X V Y X Cov   , 其中,Cov(X,Y)E(XY)E(X)E(Y)。在實務的應用上,母體的相關係數 通常都是未知的,便用樣本皮爾生相關係數rxy來估計,其定義為

(2)

2



 

        n i i n i i n i i i xy Y Y X X Y Y X X r 1 2 1 2 1 皮爾生相關係數特性: 1.1rxy 1:由於母體相關係數是以樣本相關係數rxy來估計,若 真正值 等於 1, rxy 的值雖然未必等於 1,但會很靠近 1。因此,當rxy 很接近 1 時,便可接受 X 和 Y 之間具有線性關係存在。 rxy 越接近 1,則表示 X 和 Y 兩變數間的直線關係越強。 2.rxy 1:表示 X 和 Y 兩變數間有完全正相關的線性關係。 rxy 1:表示 X 和 Y 兩變數間有完全負相關的線性關係。 0  xy r :表示 X 和 Y 兩變數間存在正相關的線性關係。 0  xy r :表示 X 和 Y 兩變數間存在負相關的線性關係。 0  xy r 或很接近 0:則表示 X 和 Y 兩變數間不具有線性關係,但並不 代表沒有其他關係存在 除了計算出樣本相關係數來估計母體相關係數外,通常會對檢定母體 相關係數是否為 0 感到興趣。若兩變數的樣本資料所來自的母體為常態 分配,則虛無假設和對立假設分別為H0: 0 vs. H0 : 0,在虛無假設 下,其檢定統計量為 2 ~ 2 1 2     n xy xy t r n r T , 其 中 n2 為 t 分 配 的 自 由 度 , 在 顯 著 水 準 為  下 , 拒 絕 域 為

(3)

3

         2 2 n t T C ,或用p值檢定方法

         2 2 2 n t T P p ,決定是否拒 絕虛無假設。

 斯皮爾曼等級相關係數(Spearman's rank correlation coefficient)

斯皮爾曼等級相關係數是依據 X 和 Y 兩變數資料,分別依大小排序 後的兩列成對等級(rank),再以各對等級差來進行計算,是一種無母數方法,其 定義為



 

        n i Y Y n i X X n i Y Y X X s R R R R R R R R r i i i i 1 2 1 2 1 其中, i X R i Y R 分別為兩變數資料的等級,RX R 分別為兩變數等級的平均值。 Y 斯皮爾曼等級相關係數特性: 1. 斯皮爾曼等級相關係數rs界於 1 和 -1 之間。 2.rs 1:表示 X 和 Y 兩變數完全正相關。 rs 1:表示 X 和 Y 兩變數完全負相關。 0  s r :表示 X 和 Y 兩變數間存在正相關。 0  s r :表示 X 和 Y 兩變數間存在負相關。 0  xy r 或很接近 0:則表示 X 和 Y 兩變數間不具有相關性。 若兩變數的樣本資料所來自的母體不是常態分配,或是資料中具有極 端值,或是一個變數會隨著另一個變數增加(減少)的趨勢為非線性相關, 此時,就適合用斯皮爾曼等級相關係數來對母體相關係數是否為 0 做檢

(4)

4 定。其虛無假設和對立假設分別為H0 : 0 vs. H0 : 0,在虛無假設下, 其檢定統計量為 2 2 ~ 1 2     n s s t r n r T , 其 中 n2 為 t 分 配 的 自 由 度 , 在 顯 著 水 準 為  下 , 拒 絕 域 為

         2 2 n t T C ,或用p值檢定方法

         2 2 2 n t T P p ,決定是否拒 絕虛無假設。  範例應用與 R-web 操作方式 皮爾生相關係數 想了解 KCIS 範例資料檔中,年齡和腰圍是否存在相關性?若有相關, 其相關程度是高還是低?相關方向為何? 在 R-web 主選單中依序點選【分析方法】→【相關暨列聯表分析】→ 【皮爾生相關係數】即可進入分析頁面。

(5)

5 操作畫面如上圖所示。首先,在步驟一:資料匯入的地方選擇要進行 分析的資料檔,點選”使用者個人資料檔”後選擇”CVD”(KCIS 範例資料檔) 的檔案。接著,在步驟二:參數設定中,選擇要進行分析的變數”Age” (年 齡)、”Waist”(腰圍)。 接著,點選【進階選項】如下圖,選擇檢定方向設定為”雙尾”;若有需 要敘述統計量的資訊,可勾選顯示樣本敘述統計量,點選後儲存設定,即 可【開始分析】。 下圖為分析結果,左上方可以看到檢定的變數及相關設定,檢查沒問 題後即可看分析結果。第一個表格為樣本”Age”和”Waist”的敘述統計量; 第二個表格顯示皮爾生相關係數矩陣,每一個格子內的值依序為皮爾生相 關係數、P-值和樣本數,”Age”和”Waist”的相關性資訊可看矩陣的右上方或 左下方的格子,這裡”Age”和”Waist”的皮爾生相關係數為 0.347,表示年齡 和腰圍存在低度正相關。P-值為 0,可拒絕虛無假設,表示資料中年齡和腰 圍的相關係數顯著不為 0。

(6)

6 若要同時看多個變數間的相關程度,例如:同時看年齡與腰圍、心臟 收縮壓、心臟舒張壓、空腹葡萄糖、高密度脂蛋白和三酸甘油酯的相關性, 可在步驟二:參數設定中,同時選擇多個要進行分析的變數 Age、Waist、 SysBP、DiaBP、AC、HDL 和 TG,操作畫面如下圖所示 分析結果如下圖,年齡與其他變數的皮爾生相關係數,除了”HDL”(高 密度脂蛋白)為負相關,其他變數皆為正相關。p值都很小,可拒絕虛無假 設,表示資料中年齡與腰圍、心臟收縮壓、心臟舒張壓、空腹葡萄糖、高

(7)

7 密度脂蛋白和三酸甘油酯的相關係數皆顯著不為 0。 斯皮爾曼等級相關係數 沿用 KCIS 範例資料檔中相同的變數,使用斯皮爾曼等級相關係數看 年齡與腰圍、心臟收縮壓、心臟舒張壓、空腹葡萄糖、高密度脂蛋白和三 酸甘油酯的相關性。 在 R-web 主選單中依序點選【分析方法】→【相關暨列聯表分析】→ 【斯皮爾曼等級相關係數】即可進入分析頁面。

(8)

8 操作畫面如上圖所示。同樣,在步驟一:資料匯入的地方選擇要進行 分析的資料檔,點選”使用者個人資料檔”後選擇”CVD”(KCIS 範例資料檔) 的檔案。接著,在步驟二:參數設定中,選擇要進行分析的變數”Age” (年 齡)、”Waist”(腰圍)。”SysBP”(心臟收縮壓)、”DiaBP”(心臟舒張壓)、”AC”(空 腹葡萄糖)、”HDL”(高密度脂蛋白)和”TG”(和三酸甘油酯)。 接著,點選【進階選項】如下圖,選擇檢定方向設定為”雙尾”;若有需 要敘述統計量的資訊,可勾選顯示樣本敘述統計量,點選後儲存設定,即 可【開始分析】。 分析結果如下圖,同樣先確認左上方欲檢定的變數及相關設定是否正 確,檢查沒問題後即可看分析結果,斯皮爾曼等級相關係數結果和皮爾生 相關係數分析結果差不多,年齡與其他變數的斯皮爾曼等級相關係數,除 了”HDL”(高密度脂蛋白)為負相關,其他變數皆為正相關。p值都很小,可

(9)

9

拒絕虛無假設,表示資料中年齡與腰圍、心臟收縮壓、心臟舒張壓、空腹 葡萄糖、高密度脂蛋白和三酸甘油酯的相關係數都顯著不為0。

(10)

10 皮爾生相關係數和斯皮爾曼等級相關係數的比較 從以上兩個圖表可以看出,年齡和其他六個變數的皮爾生相關係數值 和斯皮爾曼等級相關係數值,除了”AC”和”TG”這兩個變數相差稍微比較 大,其他變數的差異都很小,有可能是”AC”和”TG”這兩個變數不為常態分 配或有極端值。運用前幾期介紹過的散佈圖,回頭看這幾個變數的資料分 佈情況。從下圖結果可以清楚看到,”AC”和”TG”這兩個變數的分配的確是 比較不符合常態分配的圖形。建議在做相關性分析前,可以先畫散佈圖, 從散佈圖的大概情況來初步決定要用皮爾生相關係數或斯皮爾曼等級相 關係數分析。皮爾生相關係數主要是測量符合常態分配下的兩變數間是否 有線性關係,當兩變數間有相關,但資料不符合常態或非線性關係或是有 極端值,此時斯皮爾曼等級相關係數就是較為適合的一個方式。

(11)

11 本期生統 eNews 的介紹到此,這次介紹了兩種相關係數以衡量連續型 變數間的相關性,兩種相關係數有不同的使用時機,希望大家能清楚了解 且能更加熟練操作方式,根據不同的資料型態找到合適的分析方法。下一 期生統 eNews 將為大家介紹分析方法中的「相關暨列聯表分析-檢定方法』, 更深入探討變數間的關係,敬請期待! 參考資料 1. 華泰書局,現代統計學 第十章 相關係數

2. Higgins, Introduction to Modern Nonparametric Statistics, 1st Edition. 153-158

3. Woodward, M(2004).Epidemiology-Study Design and Data Analysis, 2nd Edition.Chapman & Hall/CRC, London. 456-459

(12)

12 http://amebse.nchu.edu.tw/new_page_517.htm 5. Pearson 相關係数和 Spearman 秩相關系数介绍 http://wenku.baidu.com/view/ad01681cb7360b4c2e3f64fd.html 6. 皮爾森相關係數與斯皮爾曼相關係數。 http://wenku.baidu.com/view/ad01681cb7360b4c2e3f64fd.html

參考文獻

相關文件

在數位系統中,若有一個以上通道的數位信號需要輸往單一的接收端,數位系統通常會使用到一種可提供選擇資料的裝置,透過選擇線上的編碼可以決定輸入端

動態時間扭曲:又稱為 DTW(Dynamic Time Wraping, DTW) ,主要是用來比

勾選確認資料無誤,並點選

●報名資料填寫完畢後,於首頁可點選欲列印之報名表,即可進入列印檢視頁面,請利用瀏覽器列

搜集 / 分析 再作探究 資料.. 一起試教

上傳後的資料。倘若 於上傳初選檔案截止 日(2/24)前,仍有必 要更換評選檔案,請

所以 10 個數字 個數字 個數字 個數字 pattern 就產生 就產生 就產生 就產生 10 列資料 列資料 列資料 列資料 ( 每一橫 每一橫 每一橫

參加者有權要求查閱和改正有關的個人資料,包括在支付費用 後索取表格內個人資料部分的副本。如欲改正或查閱本表格內 所填報的個人資料,可向教育局提出申請(地址:香港灣仔皇