第 1 頁
R-web 資料分析應用:存活分析方法
陳逸萱 副統計分析師 生統 eNews 1-12 期之 R-web 資料分析應用專欄已向大家介紹了 【雲端資料分析暨導引系統 】 (R-web, http://www.r-web.com.tw)中『初 階使用者』的各類分析方法,分析的資料類型包含連續型變數與類別型變 數。在『線性迴歸分析』中,我們可以評估應變數對於連續型結果變數的 影響(如:血壓、BMI);而『邏輯斯迴歸分析』則可用來評估應變數對於 類別型結果變數之影響(主要針對二元變數,如:是否罹病、)。然而,在 研究中,另一種常見的結果變數為『時間變數』,即研究開始到產生我們感 興趣結果的時間長短(Time to event),如:治療後到發生死亡的時間(存 活時間)、疾病復發的時間、燈泡使用壽命等,但實務上受限於研究時間的 限制,以至於我們無法觀察到完整的存活時間,所以在『存活分析』的方 法中,便會先定義"事件變數值"來表示觀察時間是否為存活時間的指標(即 設限指標)。本期的生統 eNews 將跟大家介紹:R-web 裡面存活分析常見的 方法,包含『Kaplan-Meier 存活函數估計』、『兩個(含)以上存活函數的比 較』、『Cox 比例風險模式』。本系列分析將使用Survival Analysis: A Self-Learning Text [1] 書中的例 子“anderson.dat” [2] 來說明。此資料包含了42位血癌(leukemia)病人, 其中一半接受標準治療(Rx=1),另一半則接受新治療(Rx=0),此研究欲 觀察病人在治療後多久產生復發(Relapse=1),若在研究結束前未發生復 發,則為設限資料(Relapse=0);紀錄產生復發時間或最後觀察時間的時 間變數為Surv(單位為週數);同時,此研究亦記錄了病人的白血球數目 (logWBC)與性別(Sex)變數,資料型態可見下頁【表一】。
第 2 頁 欲使用R-web的『存活分析』模組,須先將使用者調為「專家使用者」 (如下圖),再開始進行分析。
【表一】: anderson.dat 前五筆資料樣式
變數名稱 Subj Surv Relapse Sex logWBC Rx
變數型態 數值 數值 數值 數值 數值 數值 1. 1 35 0 1 1.45 0 2. 2 34 0 1 1.47 0 3. 3 32 0 1 2.2 0 4. 4 32 0 1 2.53 0 5. 5 25 0 1 1.78 0 。 。
第 3 頁
Kaplan-Meier 存活函數估計
(
Kaplan-Meier survival
function estimation)
當我們想觀察樣本的存活狀況時,即可使用『Kaplan-Meier 存活函數 估計』。此方法的概念是在考量設限資料的狀況下,估計每個時間點的存活 率,將各個時間的存活率同時於一張圖表示,將形成一階梯狀的函數圖形。 以範例資料檔為例,我們想比較標準治療與新治療影響復發與否或復發時 間的快慢,我們便可來繪製Kaplan-Meier 存活函數圖形來比較兩種治療的 復發時間差異。 在R-web 主選單中依序點選【分析方法】→【存活分析】→【Kaplan-Meier 存活函數估計】即可進入分析頁面。 操作畫面如上圖所示。第一步,先選擇要進行分析的資料檔,點選”使 用者個人資料檔”後選擇”Anderson_dat”的檔案(須先自行匯入此範例資料), 系統將自動帶出參數設定畫面。在步驟二選擇要進行分析的變數,在此設 定時間變數為”Surv”(Time to event)、事件變數為”Relapse”(是否發 生復發)。最後,點選【進階選項】如下圖,選擇”分組變數”為”Rx”,勾第 4 頁 選”顯示存活函數估計表”、與繪製”存活函數圖(y)”,接著點選【儲存設 定】後即可【開始分析】。 下圖為分析結果,左上方可以看到設定的分析變數與相關設定,檢查 沒問題即可往下看分析結果。第一個表格為兩組樣本之復發時間之百分位 數估計值;第二個表格呈現兩組樣本之存活函數估計表,最後一部分即可 看到兩組樣本之存活函數圖。由此我們可觀察血癌病人的新治療組(Rx=0) 的療效比標準治療組好(Rx=1),較不易復發。
第 6 頁
兩個(含)以上存活函數的比較(Comparison for two or more
survival functions)
先前的『Kaplan-Meier 存活函數估計』可提供一組或多組的樣本存活 函數估計,但並未進一步檢定各組存活函數有無差異。依照本次範例資料, 若想我們檢定標準治療組與新治療組影響復發與否或復發時間的快慢的 存活函數有無差異時,則可直接使用『兩個(含)以上存活函數的比較』的功 能。 在 R-web 主選單中依序點選【分析方法】→【存活分析】→→【兩個 (含)以上存活函數的比較】即可進入分析頁面。第 7 頁 操作畫面如上圖所示,首先,先選擇要進行分析的資料檔,點選”使 用者個人資料檔”後選擇”Anderson_dat”的檔案(須先自行匯入此範例
資料),系統將自動帶出參數設定畫面。在步驟二選擇要進行分析的變數,
在此設定時間變數為”Surv”(Time to event)、事件變數為”Relapse”(是
否發生復發),並且選擇欲檢定的分組變數”Rx”。完成後點選【進階選 項】如下圖,在此可選擇欲使用的檢定方法,亦可依據自己需求設定是否 顯示”存活函數估計 表”、與繪製各類存活 函數圖型,【儲存設 定】後即可【開始分 析】。
第 8 頁 下圖為分析結果,左上方可以看到檢定的變數及相關設定,檢查沒問 題後即可看分析結果。第一個表格顯示存活函數比較所用的檢定方法的與 檢定結果的 p 值,本分析之虛無假設為兩組存活函數無差異,而 p-值< 0.0001 表顯著,拒絕虛無假設,我們可推論標準治療組與新治療組的復發 狀況達顯著差異,且由存活函數圖我們可得知血癌病人的新治療組(Rx=0) 的療效比標準治療組好(Rx=1),較不易復發。
第 9 頁
Cox 比例風險模式(Cox proportional hazards model)
前一方法『兩個(含)以上存活函數的比較』雖可檢定存活函數的差異, 但卻無法控制其他干擾因子的影響。依照本次範例資料,若想我們知道在 調整性別與白血球值的影響下,選擇標準治療組與新治療組是否仍會影響 復發時間的快慢,則可使用『Cox 比例風險模式』的功能來建立模型。 在 R-web 主選單中依序點選【分析方法】→【存活分析】→→【Cox 比例風險模式】即可進入分析頁面。 操作畫面如上圖所示,首先,先選擇要進行分析的資料檔,點選”使 用者個人資料檔”後選擇”Anderson_dat”的檔案(須先自行匯入此範例 資料),系統將自動帶出參數設定畫面。在步驟二選擇要進行分析的變數,
在此設定時間變數為”Surv”(Time to event)、事件變數為”Relapse”(是
否發生復發),並且選擇欲放入模型的解釋變數”Rx”、”Sex”、”
第 10 頁 數(若不進行分層分析則可忽略),亦可依據自己需求設定是否進行”變數 選取”、是否顯示”存活函數估計表”等資訊,另外亦可選擇依照 Cox 比例風 險模式繪製各類存活函數圖型,繪製的圖型可參照各變數的平均值或是使 用者自行給定,在本次分析中,我們嘗試繪出新治療(Rx=0)的女性(Sex=0) 患者,其logWBC 值為平均值(2.93)的狀況下,所估計出的存活函數圖, 設定好後,點選【儲存設定】後即可【開始分析】。 下圖為第一部份分析結果,左上方可以看到檢定的變數及相關設定, 檢查沒問題後即可看分析結果。第一個表格顯示Cox 比例風險模式之參數 估計結果與檢定的 p 值,本次分析結果顯示 Rx 變項的 Hazard Ratio 與其 95%CI 為:4.01(1.64-9.83),表示在控制性別與白血球值的狀況下,標準治
第 11 頁 療 組(Rx=1) 相 較 於 新 治 療 組 (Rx=0) 復 發 的 風 險 為 4.01 倍 , p 值 為 0.0023<0.05 達統計上的顯著,意即兩治療組復發的風險達顯著差異,標準 治療組的復發風險較高。第二個表格則呈現模式訊息,可用來判斷本次分 析的Cox 比例風險模式的解釋能力。 第二部份分析結果可見下圖,由於在我們有在進階選項中,勾選”繪製 存活函數圖(共變數=給定值)”,在此便會顯示在給定新治療(Rx=0)、女 性(Sex=0)、logWBC 值為平均值(2.93)的狀況下,所估計的存活函數估 計表以及存活函數圖。
第 13 頁 本期生統eNews 的介紹到此告一段落,這次介紹了 R-web 存活分析的 三種功能:Kaplan-Meier 存活函數估計、兩個(含)以上存活函數的比較、 Cox 比例風險模式,希望大家能更加熟悉這些方法的使用時機與操作方式。 存活分析的方法尤其常用於醫學相關領域,若讀者對於這些方法的概念尚 不熟悉,建議先閱讀相關參考書,再實際進行分析。 參考資料
1. David G. Kleinbaum, Mitchel Klein (2006), Survival Analysis A
Self-Learning Text,2nd Edition.
2. Freireich et al.(1996), The effect of 6-mercaptopurine on the duration of