真實世界數據之可靠性會受其來源與品質影響,評估面相包含 數據蒐集(data accrual)及數據品質管制(data quality control)或數據保
證(data assurance)。可靠性的評估考量為:數據是如何蒐集?及數據 蒐集與分析過程中,操作人員和流程是否能確保錯誤最小化,所蒐 集的數據品質和完整性是否足夠?亦即,是否有充分的數據品質管 制或數據保證。
(一) 數據蒐集(Data Accrual)
如前所述,真實世界數據的蒐集可為提取已經存在之數據,
或累積將產生之數據。數據蒐集之目的並非為了要獲得巨量數 據,而是要獲得有用的數據,因此須事先於計畫書定義要獲取 之重要變項,已於前一章節闡述。值得注意的是,若忽略了某 些會影響研究結果的重要因子,可能導致研究結果被干擾而造 成錯誤推論。因此,必須事先找出重要的干擾變項,透過研究 設計或使用適當統計分析方法,來控制這些干擾對研究結果的 影響。
數據蒐集的核心包含數據來源(where)、蒐集時間(when)及 蒐集條件(how)。不同數據來源、提取時間或蒐集條件皆可能 造成數據結果不一致。為確保真實世界數據可靠性,須先保證 數據可溯源性,亦即可以追本溯源到數據之原始樣貌,包含數 據型態、產生時間、條件、格式、內容、長度、限制條件等。
此外,需將數據轉化為通用格式進行數據蒐集,數據標準化是
數據蒐集的最重要關鍵。因此,蒐集數據前應先制定詳細的操 作手冊或文件,詳細定義要蒐集的數據變項與單位(即提供通 用定義框架的數據字典)、數據匯集(data aggregation)方法(例如:
常見的案例報告表單)及數據蒐集的時間區間(time windows)等。
(二) 數據品質管制(Data Quality Control)
真實世界研究可以快速蒐集到巨量的數據,惟如果無法控 制數據的品質,即便蒐集足夠的數據,亦無法獲得有效的推論,
而無效的推論將無法被接受用於法規決策。因此,必須確保以 良好的數據品質為基礎進行數據分析,才能產生有價值的證據。
使用品質不佳的數據,再多的統計分析工具改善亦有限。
若由既有的數據庫蒐集數據,要注意不同數據庫的建立,
各有其不同的目的,所涵蓋的資訊也有所不同,且數據庫品質 也有良莠的問題。因此進行數據蒐集前,必須先確認由數據庫 所擷取的臨床資訊是否針對目標人群具有代表性,數據是否充 分且品質良好。若品質不佳,分析結果的可信度將受到質疑。
真實世界數據與傳統臨床試驗數據最大的差別,在於各自 的原始數據來自於不同的研究環境,惟對於數據品質的管控與 評估則須採取相同的標準。數據品質是評估數據分析結果可信 度最重要的根據。真實世界研究之數據品質管控目前雖無法規
可循,然其研究設計、執行、處理、監測、稽核、報告、各項 書面紀錄的標準及研究之科學合理性與符合倫理原則,仍應遵 循藥品優良臨床試驗作業準則之精神。
如前段所述,數據蒐集前須明訂標準作業流程,且應制定 詳細的操作手冊或文件,以確保過程中數據的產生、紀錄、報 告均符合法規要求,所產生的數據能準確、可靠,以回答欲探 討的問題。數據蒐集後,必須先針對數據的品質進行評估,品 質評估的標準與規則須事先清楚地訂定,評估結果應有詳細的 文 件 紀 錄 。 一 般 而 言 , 數 據 品 質 評 估 內 容 包 括 完 整 性 (completeness)、準確度(accuracy)、一致性(consistency)與透明 度(transparency)。數據品質須達到何種水準應視其用途而定。
例如:用於精進及輔助傳統臨床試驗設計(例如:設定貝氏統計 的先驗機率)的用途,相較於作為上市後其他仿單資訊的變更 用途,其數據品質要求可以較為寬鬆。
1. 數據完整性(Completeness)
資料蒐集後,常常會發現某些欄位具有缺失的的數據。
數據的完整性是評估所蒐集的數據在各個變項缺失的程 度。缺失數據形成的原因可能有以下情況:
(1) 數據原本就不存在。例如:在特定的常規照護中未能蒐
集到該數據。
(2) 數據已測量但卻不存在。例如:病人接受實驗室檢查,
但檢查結果並不在可供研究的數據來源中。
(3) 數據於擷取、轉移、串聯、匯集的過程中遺失。
由於數據造成數據缺失的原因多樣,因此必須要能夠 溯源,才能判斷數據是疏漏輸入,還是原本就不存在。宜 事先於數據輸入規則中明確設定以特定數值代替原本就 不存在的數據,避免以空白或0 代替,並作註記說明,如 此可以避免解讀或分析的錯誤。
真實世界研究無法避免數據缺失的問題,了解數據缺 失的程度及其缺失的機制,有助於評估缺失數據可能導致 的評估偏差。重要變項缺失的比例越高,其分析結果的可 信度就越低。有些變項可以由不同數據來源中蒐集,例如 手術可由健康保險給付資料庫中的處置代碼(procedure code)中獲得,也可由電子健康紀錄中的病歷紀錄獲得。為 提高真實世界數據的完整性及減少數據缺口(gap),也許可 以考慮同時納入不同數據來源之相同數據變項。
處理缺失值的方法本身可能就是偏差的來源。目前雖 有很多統計方法可以處理缺失數據,惟多在某些假設基礎
下直接插補數據,或以統計模式進行插補。為避免事後 (post-hoc)探索性地選擇有利的方法,必須預先於計畫書設 定處理的方法。處理缺失數據的方法是否能被接受,取決 於該方法所做的假設以及該等假設針對該項研究是否合 理。撰寫研究報告時,須詳細記錄缺失數據的數量、比例、
發生的時間點、型態、發生的原因以及所採用的處理方式。
值得注意的是,若僅有少量的缺失數據,並以適當的方法 進行插補,的確可以提升數據的完整性,惟大量或高比例 的缺失數據,不論以何種方法進行插補,皆已失去原始數 據的樣貌,分析所得結果若提供法規用途,將難以被採用。
2. 數據準確度(Accuracy)
數據準確度是在檢視數據是否是正確無誤,對於極端 值必須釐清為例外情形,或是人為錯誤所導致。數據在輸 入、擷取、串聯、匯集、處理的過程中可能由於不同的因 素導致數據異常或錯誤。常見的錯誤包括病歷資料抄錄錯 誤、表格評分錯誤、電腦輸入或傳送錯誤、或數據轉換公 式使用錯誤。為確保數據的正確性,應於蒐集前,建置標 準蒐集/處理流程與規範,明確定義欄位的變項名稱、數據 的屬性、型態及長度(length)。
數據準確度評估,可藉由邏輯規則來識別數據是否異 常。常見的異常有以下幾種:
(1) 數據有亂碼或錯誤的符號、文字等。
(2) 數據和指定欄位的屬性與型態不相符。例如:數值型欄 位錯誤輸入類別型數據。
(3) 數據超出合理範圍。例如:就診日期的年份為未來年、
10 歲兒童身高數值為 40 cm 或懷孕婦女的年齡超過 80 歲等。
(4) 數據欄位有唯一性卻有重複數據。例如:不同病人的去 連結編碼的編號相同。
(5) 推導的數據,欄位間演算的公式不正確。
發現有疑義的數據應溯源至原始數據,找出問題並更 正數據,且要有完整的紀錄。數據異常的比例與校正的次 數可以反應數據的品質。少量錯誤的數據可以視為雜訊,
但大量錯誤的數據將大幅降低數據的品質,其分析的結果 將令人存疑。
3. 數據一致性(Consistency)
數據一致性主要是評估數據的紀錄、格式是否遵循統 一的規範,若所收的變項間有關連,則須檢視同一病人於
關聯變項間訊息的一致性。當真實世界研究使用不同的數 據來源時,數據一致性更要被檢視。常見同一變項因不同 的數據來源間數據格式的不同,於串聯時發生不一致的情 形。因此,當使用不同來源的數據時,須先查明變項在不 同數據來源的定義,以及數據紀錄的格式與規則。
數據不一致可能有以下情況:
(1) 同一變項欄位或變項值表示法不一致。例如,糖尿病 飯前空腹血糖值(fasting plasma glucose,FPG)的測定 單位可以 mg/dl 或 mmol/L 表示。不同數據來源可能 使用不同單位,因而造成數據不一致。
(2) 不同欄位間訊息不一致。例如,針對第二型糖尿病的 研究,病人篩選欄位顯示符合納入條件(HbA1c>7%),
惟在篩選時間點所登錄的糖化血色素(HbA1c)值卻為 4.5%。
(3) 事件發生時序不一致。檢查數據一致性時,也要注意 各項紀錄時間是否互相抵觸,尤其是有因果關係的變 項。例如,腫瘤復發所記錄的時間,若在電腦斷層掃 描(computerized tomography,CT)影像蒐集時間之前,
則在時序上將有所存疑。
數據一致性須檢視數據紀錄格式的一致性,以及數據 間邏輯的一致性。針對有疑問的數據須溯源去找出問題並 更正數據,同時要有完整的紀錄。不一致的比例與校正的 次數可以反應數據的品質。若數據不一致比例過高,將會 嚴重影響數據的可信度。
4. 數據透明度(Transparency)
真實世界研究不論數據來源為何,數據之蒐集、處理、
分析等所有步驟所須遵循的原則,皆與傳統臨床試驗相似,
必須事先制定標準作業程序,規範且持續執行品質保證及 品質管控系統,以確保研究的進行及數據的產生、紀錄與 報告皆遵循計畫書的要求。
數據透明度係指數據自產生點移至各數據集,其起源 和轉換過程必須清楚明白。必須限定經授權的使用者才能 執行相關作業。對於由多個數據來源始能蒐集的變項,則 每筆數據應記錄來源為何及何時記錄,而非僅僅是登錄數 據。數據不論是輸入、更正、修改或刪除等動作,都應有 完整的作業紀錄(包括相關作業人員的電子簽名),且應於 執行當下即能記錄。而各項紀錄必須能識別紀錄者、且須
數據透明度係指數據自產生點移至各數據集,其起源 和轉換過程必須清楚明白。必須限定經授權的使用者才能 執行相關作業。對於由多個數據來源始能蒐集的變項,則 每筆數據應記錄來源為何及何時記錄,而非僅僅是登錄數 據。數據不論是輸入、更正、修改或刪除等動作,都應有 完整的作業紀錄(包括相關作業人員的電子簽名),且應於 執行當下即能記錄。而各項紀錄必須能識別紀錄者、且須