衛生福利部加值中心實作經驗分享
醫學研究部 生統小組 陳俊朋 #4081
105.05.04
大綱
•
加值中心簡介•
申請流程•
備審文件•
經費評估•
處理分析資料分享(SPSS)–串聯檔案、函數運用 –樣本配對
簡介
•
2015/05/05–「健康資料加值應用協作中心」自即日起更名為「衛生福利資 料統計應用中心」
•
2015/08/12–「衛生福利資料統計應用中心」自即日起更名為「衛生福利資 料科學中心」
衛生福利部統計處網頁
•
統計處首頁>衛生福利資料科學中心資料申請使用
•
申請資格–政府機關之業務需求
–學術研究及其他專業機構之研究用途需求。
•
申請資格限制–申請者與實際資料處理人員需為同單位。若不同單位時,申請 者或委託單位應提出證明,該人員確實有參與該項研究計畫。
–申請者及實際處理資料人員不可為產業所雇用之人員,惟公務 機關委託非公務機關執行法定職務,依據個人資料保護法規定
,該非公務機關視同委託機關得於符合相關要件後進行資料處 理作業。
資料庫申 請使用流 程圖
申請注意事項
• IRB送審文件中頇載明申請資料檔作為研究使用
–IRB內文中,應提及『衛生福利資料科學中心』(以全名呈現) –申請之資料檔案名稱應與資料使用申請單(APP001)相同,如「
健保資料庫門急診檔」需寫全名為「全民健保處方及治療明細 檔_門急診」(此部分可參考資料檔欄位勾選表填寫)。
–攜入分析檔案,頇敘明檔案全名、檔案來源、攜入原因、用途
、檔案粗筆數及欄位說明(以一次提供為原則)。特殊需求申請單
IRB內文範例
•
「……本研究向「衛生福利部衛生福利資料科學中心」申請全民健保處方及治療明細檔_門急診、全民健保處 方及治療明細檔_住院、全民健保處方及治療明細檔_藥 局、全民健保處方及治療醫令明細檔_門急診、全民健 保處方及治療醫令明細檔_住院、全民健保處方及治療 醫令明細檔_藥局、全民健保承保檔、死因統計檔、全 民健保重大傷病檔、癌症登記檔 LF、癌症登記檔 SF 與 癌症登記檔 TCDB 等資料,以進行研究分析……」
申請資料檢附文件
• APP002 申請案重點檢核表
• APP001 使用資料申請單
•
資料檔欄位勾選表(依資料檔分)• IRB相關文件
–IRB許可證書
–IRB審查通過之申請單 –IRB審查通過之計畫書
APP001
使用資料 申請單-1APP001
使用資料 申請單-2資料檔分檔
•
衛生福利資料檔–全民健保處方及治療明細檔、全民健保處方及治療醫令明細檔(
門急診、住院、藥局)、全民健保承保檔
–出生通報檔、台灣出生世代調查、家庭與生育率研究調查、青 少年健康行為調查、罕見疾病通報資料庫、人工生殖資料庫、
延遲申報多重死因檔
–癌症登記檔(LF、 SF、 TCDB、年報)
–健康行為危險因子監測調查、遺傳疾病資料庫、國民健康訪問 調查檔、老人福利機構需求概況調查
–癌症篩檢檔(子宮頸抹片篩檢、大腸癌篩檢、乳癌篩檢、口腔癌 篩檢)…………
資料檔分檔
1
欄位勾選表
預約注意事項
•
每月15日開放下個月的預約(如遇假日順延至下個上班 日),每次(每日)預約以五個工作天為限;並於2015 年3月份起,全面使用e-mail預約分析,並請注意擋信狀 況,若有疑慮,請至少於三日前寄發測試信件。首次分析需準備文件
•
資料處理人員預約完成,首次前來分析需繳交:–正本保密切結書(SEC001)
–正本資料使用聲明書(SEC002) –分析人員兩吋照片一張
–含照片之身分證明證件<僅作識別,不需繳交>
•
※資料檔確認切結書(若第一次資料分析即完成資料檔確 認並繳交切結書,則當日預約時段不酌收設備使用費)獨立作業區作業方式-空間及設備
•
獨立作業區為設有門禁管制並裝置監視設備之獨立使用 空間。•
提供電腦設備供資料使用者使用,各使用者配賦不同之 電腦帳號及開機密碼。•
若資料使用者頇使用其他軟體者,應簽署使用軟體聲明 書,並經本中心檢查軟體授權文件後,由本中心人員協 同資料使用者進行安裝建置。分析人員資料使用規定
•
進入獨立作業區前頇先填寫「獨立作業區使用登記表」,向現場人員索取識別證,方能進入獨立作業區,識別 證頇全程配戴。離開前於使用登記表中記錄離開時間,
並繳回識別證。
•
獨立作業區內禁止飲食,嚴禁攜入紙筆、手機、攝(錄) 影機、筆記型電腦、隨身碟及各類可攜式儲存設備。攜 帶之所有物品均頇放置於獨立作業區外之置物櫃。•
本中心提供相關程式書籍,如需參考可自行登記借閱,但不能攜出獨立作業區,閱畢請歸還原位。
•
可攜入電子檔參考文件、程式,惟頇將檔案先交予管理 人員。若參考文件非電子檔,可提供紙本請現場人員掃申請變更情形
•
因業務調整或人員異動,需變更資料處理人員時,變更 後資料處理人員仍以4人為限。•
原申請之資料檔檔案年份、欄位數等因需求變更時,變 更資料檔以4次為限,其中申請變更資料檔部分欄位以 申請變更之欄位數計費且以1次為限;變更第2次起,以 申請變更後之資料檔總欄位數計費。•
於核准之使用期間內,原申請之使用日數已用罄仍未完 成分析者,需申請增加工作日數,新增之工作日數若於 資料使用期限結束後尚未用罄,僅能移轉至相同申請者 其他研究案使用或持原收據(正本)辦理退費。申請展延
•
申請案於資料使用期限結束後,因期刊、論文資料審查 需求,得檢具證明文件於資料檔保存狀況許可下,填具「APP004 案件展延申請單」提出申請。
資料外釋申請
•
申請釋出本中心二級資料,應填具「資料釋出使用申請 單」(附件9),本中心得視情況調整資料檔外釋內容及權 限。•
申請單位不設限,不需檢附IRB證明文件。•
特定資料檔之申請,需另備檔案提供單位同意函,方得 進行申請。•
申請模擬數據檔:應填具「APP008 模擬數據檔使用申 請單」及「SEC005 申請使用模擬數據檔保密切結書」攜出統計分析結果之規定
•
變項分類過細少於3單位、可回推出少於3單位、或以特 殊符號註記之統計結果均不得攜出,不得自行利用核可 攜出之資料,產製3單位以下之統計結果。•
攜出之統計結果表由專人審查內容,審查通過者以電子 郵件寄予申請者,所攜出之程式或執行記錄(LOG),不 可含筆數及個人資訊之記錄,攜出審查時程以5個工作 日為原則資料檔收費標準
•
臨場使用–資料使用費:按各年度每一資料檔,每一欄位收取新臺幣二百 五十元,每一年度每一資料檔費用合計最低以新臺幣三千元計
。
–設備使用費:資料申請人需自行使用電腦設備時,每一工作站 每四小時收取新臺幣九百元;未滿四小時者,以四小時計;申 請夜間執行者每日收取新臺幣一千八百元。
–資料代處理分析費:每人日收取新臺幣一萬五千元,未滿一人 日者,以一人日計。
•
非臨場使用–申請之統計項目資料量不足一百MB者收費新臺幣二千元,一 百MB至不足五百MB者收費新臺幣四千元,五百MB以上者收
範例-費用試算
•
癌症登記年報檔(1979-2012)–不分年度、13個欄位
•
癌症登記檔TCDB(2002-2006)–不分年度、66個欄位
•
癌症登記檔LF(2007-2012)–不分年度、107個欄位
•
死因統計檔(1971-2014)–分年度、18個欄位
•
自行分析(30日)250 × 13 = 3,250
250 × 66 = 16,500
250 × 107 = 26,750
250 × 18 × 44年 = 198,000
交通費??
實作經驗分享
短表 vs 長表資料庫
短長資料庫(SF) 長表資料庫(TCDB+LF) 申報單位 50床以上醫院 每年申報500例以上醫院 申報癌症 包含長表醫院申報所有癌
症外的所有癌症
96年六大癌症:子宮頸癌、乳癌、
結直腸癌、口 腔癌、肺癌、肝 癌
97年新增癌症:攝護腺癌、胃癌、
食道癌和膀胱癌
98年新增癌症:鼻咽癌、主唾液 腺癌、子宮體癌、卵巢癌和血液 腫瘤
欄位數 2007-2010(30欄位) 2007-2010(88欄位)
資料檔說明
•
癌症登記檔長表TCDB (2002-2006年)–檔名:h_bhp_crslf99
•
癌症登記檔長表LF (2007-2010年)–檔名:h_bhp_crflf99
•
死因統計檔(2002-2012年)–檔名: h_ost_death
–依申請年度分檔,ex: 申請99-101年→ h_ost_death99、
h_ost_death100、 h_ost_death101
•
※熟悉各資料檔的譯碼簿(欄位說明)資料前處理
•
重複個案•
資料串檔–新增觀察值 (Add Cases)--適合變項名稱相同、增加樣本數
• 如癌症登記TCDB檔&癌症登記LF檔 ex: 有無放射治療
• 合併不同年度的死因統計檔
–新增變數 (Add Variables)--適合變項名稱不同
• 如癌症登記TCDB-LF檔&死因統計檔 ex: 死亡日期
• 利用重新編碼(recode),將未串聯個案(存活個案)重新分組
•
日期格式–利用計算變數(compute),將死亡日期及最後追蹤日期整併
重複個案(1)
•
資料檔型態重複個案(2)
•
識別重複觀察值(資料→識別重複觀察值)※保留最初診斷日期最早的個案
2 1
3
4
資料串檔- Add Cases
•
新增觀察值 (資料檔型態)Part I
操作步驟- Add Cases
•
新增觀察值 (資料→合併檔案→新增觀察值)※變數屬性頇完全相同(類型
1
2
3
語法:
RECODE RTINSTI ('0'=0) ('1'=1) ('2'=1) ('3'=1) ('4'=1) ('5'=1) ('6'=1) ('7'=1) ('8'=1) ('9'=9) INTO RT.
語法- Add Cases
•
新增觀察值 (多個檔案同時合併)•
※不同年度死因統計檔可用此方式合併資料串檔- Add Variables
•
新增變數 (資料檔型態)Part I Part II
操作步驟- Add Variables
•
新增變數 (資料→合併檔案→新增變數)1. 將ID、病歷號等變項放入關鍵 變數
1
2
3 4
日期變數處理(1)
•
日期整併(轉換→計算變數)語法:
STRING END_DATE (A8).
COMPUTE END_DATE=FU_DT.
IF (STATUS = 1)
END_DATE=D_DATE.
EXECUTE.
日期變數處理(2)
※新增字串欄位設定為 字串變項;數值欄位=
數值變項
1 2
2 3
日期變數處理-2
•
日期/時間計算 (函數說明)–月或日為99時,利用計算變數轉換數值。月=99轉為7、日=99 轉為15。
–保留特定區段的字串(CHAR.SUBSTR)
• CHAR.SUBSTR(變數,起始位置,保留長度)。
• EX: CHAR.SUBSTR(20090731,1,4) = 2009
–合併各字串變數
• CONCAT(變數1,變數2,變數3,…)。
• EX: CONCAT(‘2003’, ’/’ , ’09’ , ’/’ , ’21’ )=‘2003/09/21’
日期變數處理-2
※合併後的日期需於變數檢視中,
1
2
4
Taiwan Cancer Registry
配對樣本-Propensity score matching
配對(Matching)
•目的
–降低兩組研究族群的選樣誤差 –控制干擾因子所產生影響
•優缺點
–提高研究效率、增加危險性估計的準確性 –成本高,需蒐集較多的對照組
•避免過度配對
–中介變項不可配對
–與疾病無關的因素不可配對
干擾因子(Confounding factor)
•定義
–為研究之外在因子 –與假說之果有關 –與假說之因有關 –分布不均衡
Confounder
Exposure (X) Disease (Y)
Ex: Age
解決干擾作用方式:
△事前:限制、配對
▲事後:標準化、分層分析、迴歸分析
Association of perioperative β- blockade with mortality and cardiovascular
morbidity following major noncardiac surgery. JAMA
309.16 (2013): 1704- 1713.
PS matching
PS matching- 操作步驟
•配對樣本(分析→PS Matching)
1 2 3
4 5