真實世界數據—關聯性與可靠性之評估考量

(1)

真實世界數據—關聯性與可靠性之評估考量

中華民國 110 年 3 月

(2)

目錄 (Table of Contents)

一、前言 ... 3

二、目的及應用範圍 ... 6

三、建立真實世界數據之數據處理 ... 6

四、真實世界數據適用性 ... 9

五、數據關聯性 ... 11

六、數據可靠性 ... 13

(一) 數據蒐集 (二) 數據品質管制七、不同真實世界數據來源之數據關聯性和數據品質的考量 ... 22

(一) 電子病歷或電子健康紀錄 (二) 健康保險給付資料庫 (三) 經由病人產生的健康數據 八、結語 ... 29

九、相關文獻 ... 31

(3)

一、前言

支持藥品療效與安全性之證據多來自於隨機對照試驗 (Randomized Controlled Trial，RCT)。傳統隨機對照試驗為維護受試者的安全，避免試驗病人過度異質性，影響試驗的結果，通常採用嚴格的納入/排除篩選條件來控制變異，並擬訂各項降低偏差之措施 (例如：隨機、對照、盲性)及嚴謹的執行程序，以確保數據品質，提高試驗結果的可靠性。毫無疑問地，隨機對照試驗為藥品療效安全評估的黃金準則。惟由於上述各項的限制，又臨床試驗情境與真實臨床實務情境的差異，導致臨床試驗結果外推至真實世界時可能存在侷限性。

相反地，真實世界研究(Real World Study，RWS)係在真實臨床情境下，系統性地蒐集常規健康照護產生的臨床數據，呈現真實臨床情境下藥品使用的情況。然而，多數真實世界提供的數據仍無法作為回答研究問題的證據，唯有蒐集適當的數據，運用科學的方法處理與分析數據，才能針對研究問題，提供有效的證據，以支持相關的結論。

近年來，產業界和法規單位對於如何將真實世界數據轉化為法規科學證據，以作為藥品療效與安全性的輔助資料，補強傳統臨床試驗的不足，皆相當地關注。衛生福利部食品藥物管理署公告之「真

(4)

實世界證據支持藥品研發之基本考量」，將真實世界數據及真實世界證據定義如下：

真實世界數據(Real World Data， RWD) ：係指常規性蒐集 (routinely collect)與病人健康狀態相關或來自於健康照護過程所得之多種數據。

真實世界證據(Real World Evidence，RWE)：係指使用真實世界數據為資料來源，經適當分析方法產生的臨床證據，此證據可用於協助說明醫藥品之使用及其效益風險。

真實世界數據的來源可包含電子病歷或電子健康紀錄 (Electronic health records，EHRs)、全民健康保險資料庫或其他健康保險給付資料庫、上市後研究資料、病人登記(patient registry)資料庫、疾病或藥品登記(disease or product registry)資料庫、經由病人產生的健康數據資料 (patient-generated health data，PGHD)(例如：居家照護生理監測系統)或穿戴式行動裝置所產生的數據等。

根據上述定義，真實世界數據與傳統臨床試驗數據最大的差別，

在於數據的來源、納入研究樣本的條件及蒐集與管理數據的方法。

然而真實世界數據來源是多元且分散的，通常無法直接作為有效的證據。唯有適當的數據來源，且經由客觀完整地蒐集，並運用科學方法處理和分析數據，才能提供有價值的證據，以支持相關的結論。

(5)

過去，真實世界證據常用於藥物安全性的評估，例如藥品上市後安全監視，幫助研發單位及法規單位了解藥品於真實世界使用的安全性。尤其某些發生率極低或於長期使用後才會發生之不良反應，

更須仰賴真實世界數據作為評估的來源。截至目前為止，各國法規單位採用真實世界證據於支持藥品療效的審查經驗仍然有限。真實世界證據可能的應用範圍包含：精進及輔助臨床試驗的設計、輔助藥品上市前的療效證據、藥品上市後的監視與安全性評估及輔助支持藥品上市後其他仿單資訊的變更等。

真實世界證據之研究可以是介入性(interventional)或觀察性 (observational) 研究；可以是前瞻性 (prospectively) 或回溯性 (retrospectively)研究。數據可由既有的數據庫中取得，或蒐集未來執行之研究所產生的數據。不論哪種研究，對於預設的假說，皆須清楚訂定研究目標，擬訂適當的研究設計與統計分析方法。依照研究設計來蒐集適當的真實世界數據，執行數據分析，方可產生符合研究目標之研究結果，進而形成證據。證據力的強度取決於以下三個關鍵因素：真實世界數據的適用性(fit for use)、研究設計的適切性(adequacy)及研究執行的合規性。

適用性係指收集的真實世界數據是否能用來回答所提出的研究問題，為證據力強度的基本。真實世界數據的適用性可由數據的

(6)

關聯性(data relevance)及可靠性(data reliability)兩個面向來考量。數據關聯性確保蒐集的數據符合研究目標，而高可靠性的數據則為數據價值的前提，也是真實世界證據的基礎。因此，真實世界數據適用性的判定，以數據關聯性和數據可靠性為關鍵。

二、目的及應用範圍

本指引係基於「真實世界證據支持藥品研發之基本考量」及國際相關指引，提出對數據關聯性和數據可靠性評估的建議，且延伸探討建立真實世界數據之數據處理與注意事項，並針對不同真實世界數據之來源，討論與研究目的之契合度及評估其數據品質。

本指引所闡述的原則適用於所有類別的真實世界研究，不論是介入性或觀察性、前瞻性或回溯性，數據來源可由既有的數據庫中取得，或蒐集未來執行之研究所產生的數據。

三、建立真實世界數據之數據處理

蒐集適合特定用途之真實世界數據，建議遵循「真實世界證據支持藥品研發之基本考量」所提出的流程，如下圖所示：

(7)

真實世界產生巨量的醫療相關數據，並非皆適用於法規用途，

必須經由設計良好的真實世界研究以蒐集合適的數據。研究設計的原則與傳統臨床試驗相同，須清楚訂定研究目標，並事先擬定研究計畫書(protocol)與統計分析計畫(statistical analysis plan)。

計畫書的內容必須完整，其中須具體說明數據的來源及其合理性，數據蒐集的方式可由既有已存在的數據庫中取得，或經由所擬訂執行的研究所產生。不論採用方式為何，皆須訂定符合醫學診斷常規的納入/排除條件，如此才能由複雜多樣的醫療照護體系中，篩選出適當的研究族群，取得有意義的臨床數據。計畫書須詳列要蒐集的重要數據變項，且其定義與測量方式應清楚明確。

計畫書應說明擬收納的研究群體人數，且所選取的人數應合理以支持研究目標之關鍵問題。例如，若有正式假說檢定，宜考量檢定力(power)以估算樣本數。

依據計畫書所蒐集之數據需經過處理後才能進行分析。數據處理的步驟包含數據清理(clean)、數據轉換(transform)與數據串聯 (link)。

明確研究目標

制定計畫書

選擇合適的數據來源

數據蒐集

(Data accrual)

數據處理

清理轉換串聯

適合特定用途的

RWD

(8)

(一) 數據清理：意指發現並糾正數據中可識別之錯誤。檢查數據是否有超出正常範圍之異常、是否有重複、或是否有遺漏。

評估數據蒐集過程中可能發生的錯誤，包含數據之輸入、測量與合併等。建議事先制定數據清理程序，根據預先設定好的標準來檢驗數據並處理錯誤數據。數據清理完成應擬訂相關報告，說明數據完整性及所偵測到之錯誤。

(二) 數據轉換：目的是將數據轉換成通用格式，通用表達方式(如專有名詞、編碼等)，使數據成為適合進一步統計分析之數據格式。步驟可以包含將數據集(dataset)轉換為通用數據模型 (common data model)，數據去標識化，對記錄的數值進行標準化，對臨床事件進行分類，對缺失數據進行插補及使用演算法來計算複合或匯總變項(composite or summary variables) 等。原始數據轉換過程應完整記錄，包括轉換目的、歷史用途、轉換決策、所採用的轉換方法、插補方法等。

(三) 數據串聯：目的是藉由數據串聯來連結個別病人紀錄在不同數據庫之數據，以增加數據豐富性與完整性，或結合不同數據來源之病人以增加樣本數。當串聯不同數據庫之相同病人數據時，須注意病人隱私保護及可識別性。數據串聯過程須完整記錄，包含不同來源間之數據不一致處(例如：個別病人

(9)

在同一時間兩個不同數據來源之同一變數之紀錄不同)，及比較不同數據庫的關鍵差異，包含測量方法、選擇偏差及數據標準等。若真實世界數據來自多個不同醫療照護系統(例如不同國家)，則應考量不同醫療照護系統間數據差異，及其他醫療照護系統之數據能否具備足夠的關聯性及可靠性，來提供我國病人使用藥品的真實世界證據。若不同醫療照護系統間數據差異大，可考慮預先制定解決數據差異的計畫。

數據蒐集與處理過程中，應將錯誤率減至最低，以確保數據的品質。數據處理完成後，宜先評估適用性。若所蒐集的數據具備相當的適用性，方可進入後續統計分析作業。後續章節將對評估適用性做進一步闡述。

四、真實世界數據適用性(Fit for Use)

適用性係指蒐集的真實世界數據是否能用來回答所提出的研究問題，為證據力強度的基本。真實世界數據的適用性可由數據的關聯性及數據的可靠性兩個面向來考量。數據關聯性確保蒐集的數據符合研究目標；而數據可靠性確保蒐集的數據不偏離事實。

不同的數據來源、取得時間或採集條件的不同，則所蒐集到的數據亦將有所不同。並非所有的真實世界數據都能產生真實世界證

(10)

據，尤其數據在蒐集過程中可能會導入偏差，若偏差太大，恐造成數據偏離事實，數據的可靠性將令人存疑。而適合用於某一法規用途的數據，可能對於其他用途並不適用。因此，真實世界數據適用性的判定，數據關聯性和數據可靠性扮演關鍵性的角色。

因此，若欲以真實世界證據支持特定法規用途，申請者宜先針對所蒐集到的真實世界數據，評估其關聯性與可靠性，並提供完整的評估報告，包含：

1. 真實世界數據來源先前使用與數據處理的紀錄。

2. 數據源之選擇偏差評估。

3. 數據源之資訊偏差評估。

4. 假設及數據清理、轉換、去識別和連結過程的影響。

5. 重要數據變項的採集和編碼隨時間改變的評估。

6. 關鍵數據變項準確性的測量，例如：與數據來源的一致性、

計算及/或摘錄的靈敏度(sensitivity)與特異性(specificity)。

7. 關鍵數據變項先前或經過驗證的有效性測量。

8. 各個變項在不同時間的完整性評估。

以下段落將分別說明數據關聯性及數據可靠性的評估考量，針對不同真實世界數據來源，討論與研究目標之契合度用以評估其數據品質。

(11)

五、數據關聯性(Data Relevance)

數據關聯性是指所蒐集的數據與研究目標之契合度，也就是數據與特定法規用途之關聯。真實世界數據來源多樣化，且各數據集皆可能為真實世界中之片段數據，不可能蒐集到所有的數據，為避免選擇偏差，宜根據研究目標，結合臨床相關資訊，以選擇合適的數據來源。

在評估真實世界數據與研究目標之關聯性時，考量的要素有：

1. 納入的研究群體須能充分代表欲探討的目標族群。

2. 真實世界數據必須涵蓋足夠資訊，且內容真實、準確，能如實反映目標族群之特徵及藥品使用的狀況。

3. 研究群體樣本數要足夠，追蹤時間也要合理，始能滿足研究的主要目標，如偵測到預期的治療效果，或潛在的安全事件。

依據真實世界證據預期闡明的目標，訂定合宜的納入/排除條件，

廣泛、合理且客觀地選取研究群體，不應有所偏頗，以確保研究群體可以充分代表目標人群。篩選條件必須符合臨床實務下病人的特性，否則無法蒐集到藥品在目標人群之真實臨床使用狀況，將不符合研究目標。如果有數據代表性或完整性不夠的疑慮，串連或匯集多個不同數據來源可作為一種解決的辦法。惟須考量不同數據來源

(12)

的差異性、數據品質及病人層級的數據是否能準確地連結。

數據蒐集可由既有的數據庫取得(如健保資料庫)，或由研究中逐漸累積數據。必須全面廣泛地蒐集與研究目標相關的資訊，以獲得足夠且有用的數據。因此，計畫書須依研究目標詳列研究之重要變項，例如：

1. 病人基礎人口學特徵：性別、年齡、區域、種族、身高、

體重、生活習慣等。

2. 疾病變項：疾病診斷、嚴重度、先前的治療、疾病相關預後因子等。

3. 藥品變項：給藥時間、給藥劑量、給藥種類與途徑、藥品的暴露量等。

4. 治療結果變項：主要療效指標、次要療效指標，變項須清楚地定義，測量方法亦應於計畫書中詳述。

5. 安全性評估變項：理學檢查項目、生命跡象、心電圖、放射影像學檢查、實驗室檢測、不良事件及嚴重不良事件等。

若重要的變項無法由數據源直接地擷取，則須確認可由其他變項經合理的推導獲得，並評估潛在的偏差。

由於療效變項為真實世界證據中非常重要的數據，而療效變項常為非結構性文字資料或影像，例如：電子健康紀錄中的病歷、病

(13)

理、影像檢查等報告。由於此類變項的數據編碼目前仍無公認的標準，因此須注意所擷取數據的一致性。另外，治療結果也會受到治療以外其他因素(例如：年齡、性別、種族、疾病嚴重度)的影響，若能由臨床文獻中事先找出影響藥品治療結果的重要干擾因子，並將此等因子列入數據蒐集的變項，則對分析結果的詮釋將會有助益。

就統計的觀點，事先找出影響研究結果之重要干擾因子加以校正調整，將有助於避免錯誤的結論。

樣本數估計仍為真實世界研究設計中不可缺少的一環。不同的研究目標，應有不同的樣本數考量。計畫書應說明擬收納的研究群體人數，且所選取的人數應合理以支持研究目標之關鍵問題。例如，

若有正式假說檢定，宜考量檢定力以估算樣本數。另外，除了足夠的樣本數外，追蹤時間亦是影響數據關聯性的因素。有些治療的療效或副作用短期內不會很快地呈現，若追蹤時間不足，可能對療效結果與安全性有不正確的觀察與測量。因此，計畫書須根據疾病與治療的特質，依臨床經驗的判斷，訂定合宜的追蹤時間。

六、數據可靠性(Data Reliability)

真實世界數據之可靠性會受其來源與品質影響，評估面相包含數據蒐集(data accrual)及數據品質管制(data quality control)或數據保

(14)

證(data assurance)。可靠性的評估考量為：數據是如何蒐集？及數據蒐集與分析過程中，操作人員和流程是否能確保錯誤最小化，所蒐集的數據品質和完整性是否足夠？亦即，是否有充分的數據品質管制或數據保證。

(一) 數據蒐集(Data Accrual)

如前所述，真實世界數據的蒐集可為提取已經存在之數據，

或累積將產生之數據。數據蒐集之目的並非為了要獲得巨量數據，而是要獲得有用的數據，因此須事先於計畫書定義要獲取之重要變項，已於前一章節闡述。值得注意的是，若忽略了某些會影響研究結果的重要因子，可能導致研究結果被干擾而造成錯誤推論。因此，必須事先找出重要的干擾變項，透過研究設計或使用適當統計分析方法，來控制這些干擾對研究結果的影響。

數據蒐集的核心包含數據來源(where)、蒐集時間(when)及蒐集條件(how)。不同數據來源、提取時間或蒐集條件皆可能造成數據結果不一致。為確保真實世界數據可靠性，須先保證數據可溯源性，亦即可以追本溯源到數據之原始樣貌，包含數據型態、產生時間、條件、格式、內容、長度、限制條件等。

此外，需將數據轉化為通用格式進行數據蒐集，數據標準化是

(15)

數據蒐集的最重要關鍵。因此，蒐集數據前應先制定詳細的操作手冊或文件，詳細定義要蒐集的數據變項與單位(即提供通用定義框架的數據字典)、數據匯集(data aggregation)方法(例如：

常見的案例報告表單)及數據蒐集的時間區間(time windows)等。

(二) 數據品質管制(Data Quality Control)

真實世界研究可以快速蒐集到巨量的數據，惟如果無法控制數據的品質，即便蒐集足夠的數據，亦無法獲得有效的推論，

而無效的推論將無法被接受用於法規決策。因此，必須確保以良好的數據品質為基礎進行數據分析，才能產生有價值的證據。

使用品質不佳的數據，再多的統計分析工具改善亦有限。

若由既有的數據庫蒐集數據，要注意不同數據庫的建立，

各有其不同的目的，所涵蓋的資訊也有所不同，且數據庫品質也有良莠的問題。因此進行數據蒐集前，必須先確認由數據庫所擷取的臨床資訊是否針對目標人群具有代表性，數據是否充分且品質良好。若品質不佳，分析結果的可信度將受到質疑。

真實世界數據與傳統臨床試驗數據最大的差別，在於各自的原始數據來自於不同的研究環境，惟對於數據品質的管控與評估則須採取相同的標準。數據品質是評估數據分析結果可信度最重要的根據。真實世界研究之數據品質管控目前雖無法規

(16)

可循，然其研究設計、執行、處理、監測、稽核、報告、各項書面紀錄的標準及研究之科學合理性與符合倫理原則，仍應遵循藥品優良臨床試驗作業準則之精神。

如前段所述，數據蒐集前須明訂標準作業流程，且應制定詳細的操作手冊或文件，以確保過程中數據的產生、紀錄、報告均符合法規要求，所產生的數據能準確、可靠，以回答欲探討的問題。數據蒐集後，必須先針對數據的品質進行評估，品質評估的標準與規則須事先清楚地訂定，評估結果應有詳細的文件紀錄。一般而言，數據品質評估內容包括完整性 (completeness)、準確度(accuracy)、一致性(consistency)與透明度(transparency)。數據品質須達到何種水準應視其用途而定。

例如：用於精進及輔助傳統臨床試驗設計(例如：設定貝氏統計的先驗機率)的用途，相較於作為上市後其他仿單資訊的變更用途，其數據品質要求可以較為寬鬆。

1. 數據完整性(Completeness)

資料蒐集後，常常會發現某些欄位具有缺失的的數據。

數據的完整性是評估所蒐集的數據在各個變項缺失的程度。缺失數據形成的原因可能有以下情況：

(1) 數據原本就不存在。例如：在特定的常規照護中未能蒐

(17)

集到該數據。

(2) 數據已測量但卻不存在。例如：病人接受實驗室檢查，

但檢查結果並不在可供研究的數據來源中。

(3) 數據於擷取、轉移、串聯、匯集的過程中遺失。

由於數據造成數據缺失的原因多樣，因此必須要能夠溯源，才能判斷數據是疏漏輸入，還是原本就不存在。宜事先於數據輸入規則中明確設定以特定數值代替原本就不存在的數據，避免以空白或0 代替，並作註記說明，如此可以避免解讀或分析的錯誤。

真實世界研究無法避免數據缺失的問題，了解數據缺失的程度及其缺失的機制，有助於評估缺失數據可能導致的評估偏差。重要變項缺失的比例越高，其分析結果的可信度就越低。有些變項可以由不同數據來源中蒐集，例如手術可由健康保險給付資料庫中的處置代碼(procedure code)中獲得，也可由電子健康紀錄中的病歷紀錄獲得。為提高真實世界數據的完整性及減少數據缺口(gap)，也許可以考慮同時納入不同數據來源之相同數據變項。

處理缺失值的方法本身可能就是偏差的來源。目前雖有很多統計方法可以處理缺失數據，惟多在某些假設基礎

(18)

下直接插補數據，或以統計模式進行插補。為避免事後 (post-hoc)探索性地選擇有利的方法，必須預先於計畫書設定處理的方法。處理缺失數據的方法是否能被接受，取決於該方法所做的假設以及該等假設針對該項研究是否合理。撰寫研究報告時，須詳細記錄缺失數據的數量、比例、

發生的時間點、型態、發生的原因以及所採用的處理方式。

值得注意的是，若僅有少量的缺失數據，並以適當的方法進行插補，的確可以提升數據的完整性，惟大量或高比例的缺失數據，不論以何種方法進行插補，皆已失去原始數據的樣貌，分析所得結果若提供法規用途，將難以被採用。

2. 數據準確度(Accuracy)

數據準確度是在檢視數據是否是正確無誤，對於極端值必須釐清為例外情形，或是人為錯誤所導致。數據在輸入、擷取、串聯、匯集、處理的過程中可能由於不同的因素導致數據異常或錯誤。常見的錯誤包括病歷資料抄錄錯誤、表格評分錯誤、電腦輸入或傳送錯誤、或數據轉換公式使用錯誤。為確保數據的正確性，應於蒐集前，建置標準蒐集/處理流程與規範，明確定義欄位的變項名稱、數據的屬性、型態及長度(length)。

(19)

數據準確度評估，可藉由邏輯規則來識別數據是否異常。常見的異常有以下幾種：

(1) 數據有亂碼或錯誤的符號、文字等。

(2) 數據和指定欄位的屬性與型態不相符。例如：數值型欄位錯誤輸入類別型數據。

(3) 數據超出合理範圍。例如：就診日期的年份為未來年、

10 歲兒童身高數值為 40 cm 或懷孕婦女的年齡超過 80 歲等。

(4) 數據欄位有唯一性卻有重複數據。例如：不同病人的去連結編碼的編號相同。

(5) 推導的數據，欄位間演算的公式不正確。

發現有疑義的數據應溯源至原始數據，找出問題並更正數據，且要有完整的紀錄。數據異常的比例與校正的次數可以反應數據的品質。少量錯誤的數據可以視為雜訊，

但大量錯誤的數據將大幅降低數據的品質，其分析的結果將令人存疑。

3. 數據一致性(Consistency)

數據一致性主要是評估數據的紀錄、格式是否遵循統一的規範，若所收的變項間有關連，則須檢視同一病人於

(20)

關聯變項間訊息的一致性。當真實世界研究使用不同的數據來源時，數據一致性更要被檢視。常見同一變項因不同的數據來源間數據格式的不同，於串聯時發生不一致的情形。因此，當使用不同來源的數據時，須先查明變項在不同數據來源的定義，以及數據紀錄的格式與規則。

數據不一致可能有以下情況：

(1) 同一變項欄位或變項值表示法不一致。例如，糖尿病飯前空腹血糖值(fasting plasma glucose，FPG)的測定單位可以 mg/dl 或 mmol/L 表示。不同數據來源可能使用不同單位，因而造成數據不一致。

(2) 不同欄位間訊息不一致。例如，針對第二型糖尿病的研究，病人篩選欄位顯示符合納入條件(HbA1c>7%)，

惟在篩選時間點所登錄的糖化血色素(HbA1c)值卻為 4.5%。

(3) 事件發生時序不一致。檢查數據一致性時，也要注意各項紀錄時間是否互相抵觸，尤其是有因果關係的變項。例如，腫瘤復發所記錄的時間，若在電腦斷層掃描(computerized tomography，CT)影像蒐集時間之前，

則在時序上將有所存疑。

(21)

數據一致性須檢視數據紀錄格式的一致性，以及數據間邏輯的一致性。針對有疑問的數據須溯源去找出問題並更正數據，同時要有完整的紀錄。不一致的比例與校正的次數可以反應數據的品質。若數據不一致比例過高，將會嚴重影響數據的可信度。

4. 數據透明度(Transparency)

真實世界研究不論數據來源為何，數據之蒐集、處理、

分析等所有步驟所須遵循的原則，皆與傳統臨床試驗相似，

必須事先制定標準作業程序，規範且持續執行品質保證及品質管控系統，以確保研究的進行及數據的產生、紀錄與報告皆遵循計畫書的要求。

數據透明度係指數據自產生點移至各數據集，其起源和轉換過程必須清楚明白。必須限定經授權的使用者才能執行相關作業。對於由多個數據來源始能蒐集的變項，則每筆數據應記錄來源為何及何時記錄，而非僅僅是登錄數據。數據不論是輸入、更正、修改或刪除等動作，都應有完整的作業紀錄(包括相關作業人員的電子簽名)，且應於執行當下即能記錄。而各項紀錄必須能識別紀錄者、且須有稽查蹤跡和稽核路徑。任何修正，應記錄其修正日期及

(22)

修正原因，且不得覆蓋原先之紀錄。

數據由其來源轉換為可分析檔案的過程必須是透明的，亦須揭露給法規單位，故能於數據有疑慮時，法規單位可溯源檢視數據的完整度、準確度與一致性。數據蒐集、

處理過程若缺乏透明度，數據篡改問題就很難被發現，將影響數據的可信度。保留原始數據並設立適當管控措施是必要的，可以防止數據被不當地修改與刪除。

七、不同真實世界數據來源之數據關聯性和數據品質的 考量

真實世界數據可來自電子病歷或電子健康紀錄、全民健康保險資料庫或其他健康保險給付資料庫、藥品登記或上市後研究資料、

疾病或藥品登記資料庫、經由病人產生的健康數據資料等。不同的數據來源各自有其優勢及限制。以下將針對幾種常見的數據來源，

包括電子健康紀錄、健康保險給付資料庫及經由病人產生的數據，

分別討論其數據關聯性與數據品質。

(一) 電子病歷或電子健康紀錄

一般而言，電子病歷或電子健康紀錄為病人於醫療機構就醫過程中產生的各種健康資訊之醫療紀錄，如人口學資料、

(23)

病史、疫苗接種日期、疾病診斷、放射醫學影像、藥物處方、

實驗室檢驗、檢查結果報告等。電子病歷或電子健康紀錄產生的數據相當龐大，須以電子資料擷取(electronic data capture，

EDC)系統，以電子化格式來蒐集並管理數據。數據可能來自單一醫療機構(如電子病歷)或不同醫療機構。由於醫療照護系統所產生的臨床數據複雜且多樣，不同的醫療機構間的醫療紀錄可能會有很大的差異，此為使用電子病歷或電子健康紀錄來蒐集真實世界數據的主要挑戰。

使用電子病歷或電子健康紀錄作為真實世界數據的來源有許多優點，例如：所蒐集的數據涵蓋的內容豐富、多元，

可合併、匯集，且可分析不同類型的數據，以利真實世界研究；透過電子健康紀錄系統來蒐集數據，有利於大型研究的長期追蹤。

電子病歷或電子健康紀錄是基於臨床診療需求而蒐集的，

因此病人使用何種藥物、進行何種檢查以及回診的次數等均與醫師的抉擇有關，甚至於與病人本身也有關，不同的抉擇可能影響病人臨床藥物的使用及治療的效果。某些特定的醫療機構之病人群體可能存在侷限性或提供醫療資訊不足，此時可以串聯多個醫療機構數據，以提升研究群體的代表性與

(24)

資訊的完整度。在使用電子病歷或電子健康紀錄從事真實世界研究時，須先評估病人的年齡、性別、種族及其他人口學特徵是否符合目標人群，並檢視是否存在影響研究群體代表性的潛在偏差。

電子病歷或電子健康紀錄不僅包括個人的就醫紀錄(即門診、住院的所有醫療訊息)，還包括個人的健康記錄，如疫苗接種、身體檢查、健康狀態等。由於在不同的醫療機構或相同的機構之不同的時間，醫療診斷的標準或實驗室檢查結果的記錄格式可能存在著差異，因此在評估數據之完整性與一致性前，須先針對數據的標準化過程進行評估。

電子病歷或電子健康紀錄的數據，依其格式可區分為結構化與非結構化數據。結構化數據通常有固定的格式，以有意義的數值(numerical)或類別(categorical)來呈現，處理與分析較為方便，例如：年齡、心跳、血壓、血糖、輸血次數、診斷代碼等。非結構化數據，如病歷之醫師診療紀錄、影像檢查圖像、病理檢查報告等，皆為診斷和治療的重要訊息。這些非結構化數據必須經由電腦的文字分析系統和影像數位化系統將其轉換為結構化數據，才能進行後續的數據分析。另外，非結構性數據之原始數據的品質及轉換為結構性數據的

(25)

方法，亦會影響所蒐集之真實世界數據的品質。

有些就診紀錄關於病人的預後或重要結果可能未被記載，

也可能因為病人轉往其他醫療機構治療，造成就醫資訊蒐集的不完整。例如死亡的記載往往僅限於在該醫療機構發生的病例。因此，為增加資訊蒐集的完整性，須連結其他數據系統(如死亡登錄系統)，以避免數據的缺失。

由於電子健康紀錄並非為特定的研究目標而設，因此須先根據研究目標評估其作為數據來源的可行性，包括研究群體是否符合、關鍵變項是否有紀錄及擬蒐集的時間範圍等。

(二) 健康保險給付資料庫

健康保險給付資料庫之建置目的主要提供各醫療院所醫療費用的申報。資料庫內容包括醫療機構與醫師對病人當次門診或住院的診斷和醫療處置、及提報支付的費用。一般而言，每個醫療保險皆會設定保險給付項目，及其對應的支付標準。以台灣全民健康保險為例，資料庫蒐集的數據涵蓋全國民眾，是台灣最大的醫療保險資料庫。醫師每次診療皆根據病人的病徵，將每個檢查、診斷以及處置的項目，依據「全民健保給付標準」申請給付。

健康保險給付資料庫的優勢是被保險人來自不同的區域，

(26)

數據的代表性足夠。且申報所需記錄的項目其數據完整性通常很高，與其他數據庫相比，保險給付資料庫所收載的數據是高度結構化及標準化的。一般而言，健康保險給付資料庫之疾病診斷編碼的一致性很高，通常以標準化之 ICD/9/10 的編碼，但其他項目編碼可能因保險公司而異。

雖然健康保險給付資料庫具有多項優點，惟仍有許多研究上的限制。例如：醫師因擔心申請之醫療處置會被核刪而傾向給予較嚴重的診斷，此部份往往造成保險給付類型資料庫的記錄偏差。國外健康保險給付資料檔常因被保險人退保，

中斷該保險人就醫的資訊紀錄，此狀況在台灣健保資料庫較不易發生。此外，保險給付資料庫收錄的臨床資訊往往較電子健康紀錄為少。例如，缺少實驗室檢驗及放射線檢查等相關數據，無法得知病人共病的狀況，一些影響治療效果的干擾變項諸如疾病的期別與嚴重程度，也往往無法由資料庫中獲得。關鍵數據不夠完整或與病歷紀錄的不一致，均會影響數據的品質。更重要的是，保險給付資料庫僅有申請保險給付項目相關的資訊，不包括非保險給付之自費支出項目(如自費心臟支架)，亦缺乏治療後的結果與不良反應(例如死亡與死因)。

(27)

若單採用健康保險給付資料庫做為數據來源，可以回答的研究問題相當有限。假使能以健康保險給付資料庫為主體，

串聯其他資料庫(如癌症登記檔)，將有助於提升數據的完整性及數據品質。惟不同數據源之登錄格式及數據型態的差異則是串聯時務必注意的事項。

(三) 經由病人產生的健康數據

經由病人產生的健康數據泛指由病人或其他照護者測量、

記錄和蒐集之健康相關資訊。此等數據可包括來自病人自我報告結果(patient reported outcome，PRO)，醫療器材監測報告，

穿戴式裝置測量結果、網站資料、社交媒體資料及藥局會員資料等等。其中有些數據，例如病人自我報告結果已經成為電子健康紀錄的一部分。

然而，隨著科學的進步，及各種居家監測醫療器材、穿戴式裝置、行動應用程式(Mobile Application，或稱 Mobile App) 與網站的開發，由病人產生健康數據的方式趨向多元，應用的領域也越來越廣。例如，透過居家監測醫療器材，記錄使用者的血糖值和血壓值，或透過移動式穿戴裝置、行動應用程式蒐集使用者的心率、血壓、體適能(如計步)、睡眠品質和飲食等資訊。除此之外，更有醫療及診斷用途的行動醫療應

(28)

用程式(Medical App)。舉例來說，可攜式無線超音波掃描儀，

結合智慧型手機或平板(當成顯示器)，並使用所開發的應用程式，可不受場地的限制進行特定功能的超音波掃描，協助即時診斷。透過這些裝置也許較容易蒐集到較具臨床意義的病人數據。例如，利用穿戴式裝置蒐集24 小時連續步行紀錄，

可能比在醫院進行 6 分鐘的步行測試更具臨床意義。

當真實世界研究擬由這些裝置蒐集數據加以運用時，可能需就研究和法規層面加以考量。在研究方面，須花更多心力訂定數據使用標準；法規方面，除須避免參與研究的病人資料被再識別(re-identification)，個人健康數據的傳輸、分享與接收也須遵守相關法律規範，並預先告知病人此等數據之預期用途。此外，也要遵循行動健康裝置(mobile health devices) 及行動應用程式之相關規範。另外，亦應啟動上市前認證機制，確保行動醫療軟硬體的安全性和有效性。

此外，使用從此等裝置蒐集數據，往往需要病人長期持續地參與。病人的積極度，及對於裝置與應用程式的熟悉度，

皆會影響病人的中途退出率，進而影響數據的代表性與完整性。數據蒐集程序繁複及數據格式缺乏標準化為此類數據來源最大的難題，同時也是準確度與一致性評估的挑戰。因此，

(29)

必須詳實記錄此類真實世界數據之數據來源，以及蒐集原始數據時所使用的裝置、應用程式以及數據格式。採用法規單位驗證過的硬體與軟體，可以間接支持數據測量的準確度，

有助於提升數據的可靠性。

八、結語

真實世界數據是真實世界證據的基石，沒有好的數據，難以產生令人信服的證據。真實世界數據應該透過設計良好的真實世界研究進行蒐集，故要針對欲探討的問題，具體且清楚地設定研究目標及欲探討的目標人群，參考臨床相關資訊，選擇合適的數據來源。

於撰寫研究計畫書時，宜詳細描述研究對象的篩選條件、抽樣方法、

須蒐集的研究變項、樣本數及統計方法等。統計分析計畫亦須事先制定，內容須包括缺失值的處理方式，不遺漏任何重要細節。

為確保真實世界數據的可靠性，須能溯源至原始數據，包括數據的型態、產生的時間、條件、格式、內容、長度、限制條件等。

重要的是，須將數據轉化為通用格式，才能進行數據的蒐集。因此，

在蒐集數據前應先制定詳細的操作手冊或文件，詳細定義欲蒐集的數據變項、單位、數據匯集與串聯的方法，以及數據蒐集的時間區間等。唯有在進行研究前做好充分的準備，才能蒐集到準確、完整、

(30)

可靠的真實世界數據。

真實世界數據蒐集完成後，必須從兩個面向來評估其適用性，

分別為該數據與預期法規用途的關聯性，以及數據的可靠性。數據的關聯性則須考量研究群體的代表性、數據的涵蓋的資訊是否足夠、

以及樣本數與追蹤期。數據的可靠性則包含數據蒐集以及數據品質管制或數據保證，會受其來源與品質影響。數據的品質必須考量數據之完整性、準確度、一致性與透明度等。所有評估的過程與結果皆應有詳細文件紀錄，包括數據來源之合適性評估、數據來源所涵蓋資訊之關聯性評估，及數據整體品質的評估。唯有具備充分關聯性及高度可靠性的真實世界數據，才能產出有效的真實世界證據。

(31)

九、相關文獻

1. 真實世界證據支持藥品研發之基本考量, July 2020, FDA 藥字第 1091405905-A 號

2. 採用電子病歷資料進行臨床研究指引, November 2020, FDA 藥字第1091410993-A 號

3. Corrigan-Curay J, Sacks L, Woodcock J. Real-world evidence and real-world data for evaluating drug safety and effectiveness. JAMA.

2018; 320(9): 867-868.

4. Duke-Margolis Center for Health Policy. Characterizing RWD quality and relevancy for regulatory purposes. October 2018.

5. Duke-Margolis Center for Health Policy. Determining Real-World Data’s Fitness for Use and the Role of Reliability. September 2019 6. Jarow JP, LaVange L, Woodcock J. Multidimensional evidence

generation and FDA regulatory decision making: Defining and using

“real-world” data. JAMA. 2017; 318(8): 703-704.

7. US FDA. Use of real-world evidence to support regulatory decision- making for medical devices. Guidance for industry and Food and Drug Administration staff. August 2017.

8. US FDA. Framework for FDA’s real-world evidence program.

December 2018.

9. US FDA. Submitting documents using real-world data and real-

(32)

world evidence to FDA for drugs and biologics. Guidance for industry (Draft). May 2019.

10. US FDA. Policy for Device Software Functions and Mobile Medical Applications. Guidance for industry and Food and Drug Administration staff. September 2019.

真實世界數據—關聯性與可靠性 之評估考量