• 沒有找到結果。

元件型 XML 文件資料庫在臨床文件架構(CDA)上的應用研究

N/A
N/A
Protected

Academic year: 2021

Share "元件型 XML 文件資料庫在臨床文件架構(CDA)上的應用研究"

Copied!
1
0
0

加載中.... (立即查看全文)

全文

(1)

元件型 XML 文件資料庫在臨床文件架構(CDA)上的應用研究

林耀仁 趙家振

育達商業技術學院資訊管理研究所

lyr@ms1.ydu.edu.tw chao.cloud@msa.hinet.net 摘要

現 在 已 經 有 許 多 元 件 型 的 XML 應 用 標 準 , 例 如 HL7/CDA,以高階的觀點定義需求,但現行 XML 資 料庫均未能以元件為單位處理資料。本研究依元件型 XML 文件特性,識別出需要能處理文件解構成元件 , 及元件建構成文件的功能與介面。並開發一個原型系 統,定義了「領域維護」、「領域元件集維護」、「類型 文件集維護」及「XML 資料庫維護」,來實現解構 XML 文件成為元件,及建構元件成為文件的需求,

並以 HL7/CDA 這一個元件型 XML 文件的應用標準,

來驗證功能與介面需求。

關鍵字:元件,XML 資料庫,HL7/CDA Abstract

There are existing component based XML application standards, such as HL7/CDA. They use high-level, component based views to define requirements. But there is no XML database currently can manage component based data. This study is based on feature of component centric XML document, to identify functions and interfaces for decomposing documents into components, and composing components into documents. We develop a prototype system to implement these functions and interfaces, and certify it by the components centric document stand HL7/CDA.

Keywords: Component, XML Database, HL7/CDA.

壹. 緒論

XML 文件常被分類為資料型(資料為主,data-centric) 和文件型(文件為主,document-centric)兩大類,前者 的 XML 定義必須是完整的格式(well-structured),類 似關聯式資料庫的欄位綱要,大多用來作資料的處 理及交換。後者僅包含詮釋資料 (metadata)的部份,

真正的資料處理是由「內容管理」來完成,而且通常 使用的是全文檢索之類的技術。[1][2]

但現在已經有一些介於兩者之間 XML 的應用 標準的出現,它有一部份類似文件型的詮釋資料,

可以彈性的引用一些資料,但這些資料其實是資料 型的元件,被定義得很仔細,例如 HL7 (健康七層組 織 Health Level 7)裡的 CDA (臨床文件架構 Clinical Document Architecture)。

HL7 制定了一系列的臨床資訊的標準,其中以 第二版本系列(V2.x)推廣的最為成功。在第二版中,

訊息的定義是採「由下往上」的方式定義的,各訊息 單位依各自的需求定義訊息,再整合成一整套的格式

第二版也保留了許多的資料欄位供各醫院擴充之用。

但這些保留欄位造成互相交換時,即使雙方擴充了 相同的功能,也因各自擴充而不能直接交換,必須 另外製作一個交換界面。

第三版(V3)就這個問題,及其他的考量,建構 了一個標準的參考模型 RIM (Reference Information Model)作為基礎。第三版使用 UML (Unified Modeling Language)方法論和 RIM 來定義訊息。RIM 是第三版 中必要的元件,提供精確的語意和文法的表示規則 , 來表達 HL7 訊息中的所涵蓋的資訊。

臨 床 文 件 架 構 CDA (Clinical Document Architecture, 或 病 歷 文 件 架 構 PRA, Patient Record Architecture)提供了另一個以病歷交換臨床文件(例如 出院病摘),作為接近實際醫院運作的電子版本模式。

新版本的 CDA 引用 XML,HL7 V3 的 RIM 和 語彙,將一份文件視為一群元件的集合,一個元件 則相當於一個傳統的訊息。CDA 文件同時包括兩個部 分,提供設備讀取的資料,以及提供使用者閱讀的 資訊,以便單一文件可供人及設備同時使用。CDA 亦 可以在 XML 的瀏覽器上,包括 PDA 和手機,以不 同的樣式(Style Sheet)方便的瀏覽。[3][5]

目前以資料處理作法的 XML 資料庫無法有效 的處理元件型 XML 文件,而是以文件型的 XML 資 料庫為主要做法,在資料庫這一個層級並不特意處 理元件內部的資料,而是提供儲存、全文檢索、XML 查詢等文件存取的界面,再由應用程式來完成一切 的功能及需求。雖然說這些功能與需求有許多是跟應 用相關的(application-dependent),但應用程式仍然要 負擔許多文件與元件的拆解、尋找、重組、管理等一般 性的工作,相對造成應用開發的障礙。

從直觀上來說,元件型 XML 文件像是一個文 件夾,而不是像傳統 XML 的觀念是一個檔案一個文 件。例如每位病友每次就診都有一個病歷紀錄,在 CDA 上線後,每個病歷紀錄即為一個 CDA 文件,內 容包含病友之基本資料及診斷治療所相關的紀錄,

如主訴、檢驗及醫令等。如果我們需要某位病友在醫 療過程中,某項檢驗(例如心肺檢查)的歷次檢驗的摘 要報告,不只是把所有的 CDA 從資料庫裡調出來,

而是希望有一份就只有該項檢驗資訊的新的 CDA 文 件。

本研究即是以元件管理的精神,分析元件管理 的需求、功能及界面,並以開放原始碼之 XML 資料 庫 Exist 為基礎[4],實作具元件管理能力的元件型 XML 資料庫雛型。除了文件型 XML 資料庫的傳統功 能及元件管理的能力外,並提供對架構文件及元件 的內容資料處理的能力,以及全文件與元件之間的 組合關係的操作。

本研究以對標準化推動較積極,有較多公開的 標準測試資料,並且比較容易區分應用相關技術及 一般資訊技術之元件型 XML 文件標準 CDA 為對象,

分析元件型 XML 資料庫所應提供的功能及界面,並 2

(2)

且根據開放原始碼的 XML 資料庫及 Web 伺服器,挑 選合適的系統,加以包裝所需的功能,並且根據應 用建立使用範例,作為示範之用。

本研究將提供未來元件型 XML 文件在資料交 換上進一步的發展,使得未來資料交換的規劃可以 更偏重於大架構及 metadata,而元件化的資料交換將 使得資料交換更具彈性,交換項目的變動只要更動 元件,而不必造成整個標準的變動。

貳. 引用詞彙

本文所謂的元件,是類似於 XML 片段 (fragment) , 都是 XML 文件中的部份,但是元件有更多的意涵,

如重複使用性、符合 XML 定義的良好格式 (Well- formed-ness),是為了編輯、格式化而截取的適當區塊 等。

元件之所以異於片段,在於它有一個描述元件 的 Metadata 稱為領域元件,它除了記錄資料庫存取 的位置,也記錄當載入 XML 文件時,系統如何識別 那個部份是屬於那個領域元件管轄。例如「出院病摘 報告」中,有段「入院診斷」敘述,會被系統定義成為

「出院病摘報告-入院診斷」的領域元件,當載入「出 院病摘報告」文件時,有關於「入院診斷」的元件,就 會被集中管理。

除元件外,本研究基於元件管理的觀點,定義 了許多詞彙,茲說明如下:

集合 (Collection):XML 資料庫用來承載子集合 或資源的虛擬容器。

資源 (Resource):可以儲存在 XML 資料庫中的 物件,以 eXist 而言,它支援 XML 文件及二進 位物件。

領域 (Domain):特定的範圍。領域用來區隔不 同的 XML 應用標準制定組織所提出的標準 (如 HL7/CDA),並約束領域內的 XML 實例文件,

需符合該標準的定義。

元 件 (Component) : 有 意 義 可 以 重 複 使 用 的 XML 子樹。

領域元件 (Doamin Component):描述同性質元 件特性的詮釋資料,它記錄了給人看及給系統 看的資訊,其中給人看就是特性的說明,而給 系統看的是元件存放位置。

領域元件集 (Domain Components):領域元件的 聚集體,以 XML 文件型態儲存在資料庫內。

類型文件 (Class Document):堆砌元件成為文件 時,系統記錄的資訊。資訊大體可分為領域元件 結構及條件等資料。

類型文件集(Class Documents):類型文件的聚 集體,以 XML 文件型態儲存在資料庫內。

參. 研究內容

本研究其中會引用 XML 文件應用標準 HL7/CDA,

雖然元件型 XML 文件應用並不侷限於 HL7/CDA,

但引用的目的在避免研究結果與實務應用無法配合。

研究重點分述如下:

1. 領域畫分:因為不同的 XML 應用標準制定組織,

所提出的標準 (如 HL7/CDA)個有特色,若資料庫 不予適當區隔,會造成不必要的衝突,也會影響 未來擴充性,所以用領域畫分不同。

2. 文件驗證 (Validation):XML 應用標準制定組織提 出的規範,太多會提供 W3C XML Schema (XSD) 或 Document Type Definition (DTD 不在本研究討 論),來驗證 XML 文件是否正確合法 (Validity),

驗不驗證會影響系統分割、查詢文件及組合元件。

3. 元件的定義:切割 XML 文件的方式不同,會影響 XML 介面與功能,什麼方式適合本研究,必需分 析研究。最後結果的 XML 文件如同一棵樹狀結構,

元件是樹中的子樹,是由元素節點切下來的,單 獨的子樹必需符合良好格式。元件不能被亂切,它 必需遵某個規範,由人介入設定切割規則,且只 要設定一次。

4. 描述同性質元件的詮釋資料:元件只是符合良好 格式的 XML,系統不會讀取它而知道應該做什麼,

人也不會想要直接讀它,必需有個抽象的敘述,

來告訴兩方有關於同性質元件的特性,而這個抽 象的敘述,內容要如何表達,才能支援研究目的。

5. 文件解構成元件:當有了文件切割設定資訊,及 描述同性質元件的詮釋資料的定義,系統如何執 行切割並將元件存入資料庫端,如何維護同性質 元件的詮釋資料,才能充份表達文件切割成元件。

6. 元件建構成文件:有了描述同性質元件的詮釋資 料,提供人易懂的資訊,使用者可以直接操作詮 釋資料,排列新文件的結構,另外可再賦了條件 使結果更符合需要。當使用者完成新文件的設定,

系統如何取得符合條件的元件,依前設定的文件 結構,產生新的文件。

肆. 系統架構

元件型 XML 文件的特徵有三,一是,它有一個由元 素組成的結構 (簡稱結構元素),結構得被定義成數個 層級,例如款、項、目、節,或頭文件、主體。其二,結 構元素會被定義可不可以掛載元件。其三,元件會被 資料模型清楚定義。

當有了這些特徵,就可以從 XML 文件中,分 析出元件的特性。而這些特徵需要由使用者告訴系統,

在此稱為「領域參數設定」。當處理分割 XML 文件成 為元件時,其分割順序,是依據參數中結構層級設 定切割,而切下來的子樹只是結構的表示,並不足 以表達元件,需從子樹中找到元件類型相關資訊。此 等相關資訊在此稱為「領域元件」,可以提供系統儲 存元件的指示,及方便使用者判讀的資訊,且會被 系統儲存管理。

當處理組合領域元件成為新的 XML 文件時,

需要提供階層式的排列順序,如此才能產生樹狀結 構的 XML。為了產生更有意義的結果,排除非需要 的部份,得加入條件。必為了能夠重複使用這些設定,

得命名儲存,在此稱為「類型文件」。

系統主軸就是要能處理文件分解成為元件,元 件重組成為文件,而要能處理元件,先要設定前述 的資料並儲存 (設定領域參數),使能夠達成「一次設 定無限再用」的目標。其次要有載入 XML 文件功能,

當系統執行此功能時,會參考設定接續執行分割 XML 文件動作,再將元件存入資料庫,另外也會將 元件的特性記錄在領域元件中。而當重組文件時,首 先操作排列領域元件,使系統了解要到何處理取元 件,及取回後排列方式。其次決定是否要加上條件,

使取得的資料更為所需。最後交由系統,產生新的 XML 文件。

為使系統更加週延,加入領域維護,使系統不 因多領域而產生衝突,且可以在領域內載入 XSD 文 件,對爾後載入的 XML 文件可以進行驗證。另外因 為系統延用 eXist 的安全管理機制,使用者必需設定 連結上資料庫,才能使用其他功能。

系統區分為四大子系統,分別為領域維護、領 域元件維護、類型文件維護及 XML 資料庫維護。其主 要功能分別為劃分領域、切割 XML 文件成為元件、重 組元件成為文件及資料庫管理。其系統架構圖如下

3

(3)

圖 1: 系統架構圖 伍. 研究結果

本章節主要說明投入資料,及經過系統操作後的產 出,來說明在元件型 XML 資料庫中扮演的角色,並 分別按照以下小節說明

壱. 領域維護 壱.1產生領域

產生領域視窗畫面如圖 2,當按下新建按鈕,就會產 生新的領域,而資料庫端也會產生必要的集合,用 來承載後續作業所需子集合或文件。

當選取一個領域後,如 CDA,系統會視為進入 領域,來提供後續作業一個進入點。

圖 2: 載入 XSD 視窗畫面 壱.2載入 XSD

當從外部載入 XSD 後,即賦予系統對該領域有驗證

的能力,載入 XSD 視窗畫面如圖 3。

壱.3參數設定

使系統得以對後續載入的文件,進行切割產生元件。

當完成編輯儲存後,它會在資料庫端建立領域參數 文件,達成一次設定的目的。

弐. 領域元件集維護

領域元件集維護視窗畫面如圖 4,當載入 XML 文件 時,視窗畫面會顯示處理狀況等資訊。其主要功能是 將載入的文件,按照參數設定執行元件分割的工作。

参. 類型文件集維護

類型文件維護視窗畫面如圖 5,提供元件建構成為文 件的介面,當從選單中選取特定類型文件時,會將 之前存檔的類型文件取出,並顯示在建構區及條件區 圖 5 為當要產生一個診斷段落,並限制病友名字為 Henry 的文件時,按下產生 XML 文件按鈕,會得到 組合之 XML 檔案(為 CDA Body 部份)。

圖 3: 參數設定視窗畫面

圖 4: 領域元件集維護視窗畫面

4

(4)

圖 5. 類型文件維護視窗畫面 陸. 結論

目前實務上對的 XML 準則的制定,不僅要用資料模 型定義元件,也要有足夠的彈性架構來掛載元件,

元件型的 XML 應用已是時勢所需。但從高階觀點定 義元件的應用,如果實作上還是停留舊方法,不是 存取整份文件,再篩選重組,就是徹底支解文件,

再由元素、元件併成文件,都不是適當處理方法。

本研究以另一個角度思考,只要一次設定,就 可以按人的角度,將文件分割成為元件,而且只要 分解一次。重組元件成為新文件時,是以元件為單位 建構文件。且當環境改變準則修改,只要修正設定不 用改程式,其所帶來的彈性與及時性,足以跟上應 用環境進步的腳步。

本研究依元件型 XML 文件特性,識別出需要 能處理文件解構成元件,及元件建構成文件的功能 與介面。並開發一個原型系統,定義了「領域維護」、

「領域元件集維護」「類型文件集維護」及「XML 資料 庫維護」,來實現解構 XML 文件成為元件,及建構 元件成為文件的需求,並以 HL7/CDA 這一個屬於元 件型 XML 文件的應用標準,來驗證功能與介面,並 證明符合系統規劃時需求,達成一次設定無限再用 的目標。

柒. 討論

本研究在元件型 XML 文件應用中,尚屬基礎階段,

著重於 XML 文件的元件的分解與組合操作。未來展 望有以下三點:

提供格式化元件的功能,如此可以配合人或裝 置,提供適合的視覺效果,與操作方式。

提供資料交換的功能,當大家都遵循特定規範 經由系統定義的領域元件也會一樣。如此資料 交換可以用元件的角度,組成交換文件,而更能 符合需要。

在應用層提供更多的事件處理,使文件能依商 業邏輯(business logic)重組元件,產生適當文件。

捌. 致謝

本研究承蒙國科會自由軟體專案計畫「元件型 XML 文件資料庫的元件管理介面之研究」(計劃編號 NSC- 92-2218-E-412-001)支持,特此致謝。

參考文獻

[1] Bourret, Ronald. “XML Database Products,”

Internet article of http://www.rpbourret.com/xml/ XMLDatabaseProd s.htm, 2004.

[2] Chaudri, Akmal B., Rashid, Awais., Zicari, Roberto., “XML Data Management: Native XML

and XML-Enabled Database Systems”, Addison Wesley Professional, 2003.

[3] Health Level Seven Structured Documents Technical Committee, “Documents and Presentations,” Internet Article of http://www.hl7.org/lib_admin/docs.cfm?

dir=library\committees\structure&comm=structure .

[4] Meier, Wolfgang M., “eXist: Open Source XML Database,” Internet article of http://exist-db.org/, 2004

[5] Piggott, David. “Reporting Experiences from Using the HL7 Clinical Document in the PICNIC,”

Technical report of Professionals and Citizens Network for Integrated Care, 2002.

5

數據

圖 1: 系統架構圖 伍. 研究結果 本章節主要說明投入資料,及經過系統操作後的產 出,來說明在元件型 XML 資料庫中扮演的角色,並 分別按照以下小節說明 壱. 領域維護 壱.1產生領域 產生領域視窗畫面如圖 2,當按下新建按鈕,就會產 生新的領域,而資料庫端也會產生必要的集合,用 來承載後續作業所需子集合或文件。 當選取一個領域後,如 CDA,系統會視為進入 領域,來提供後續作業一個進入點。 圖 2: 載入 XSD 視窗畫面 壱.2載入 XSD 當從外部載入 XSD 後,即賦予系統對該領域有驗證 的能力
圖 5. 類型文件維護視窗畫面 陸. 結論 目前實務上對的 XML 準則的制定,不僅要用資料模 型定義元件,也要有足夠的彈性架構來掛載元件, 元件型的 XML 應用已是時勢所需。但從高階觀點定 義元件的應用,如果實作上還是停留舊方法,不是 存取整份文件,再篩選重組,就是徹底支解文件, 再由元素、元件併成文件,都不是適當處理方法。 本研究以另一個角度思考,只要一次設定,就 可以按人的角度,將文件分割成為元件,而且只要 分解一次。重組元件成為新文件時,是以元件為單位 建構文件。且當環境改變準則修改,只要修正設定

參考文獻

相關文件

使用人工智慧框架基礎(Frame-based)的架構,這些努力的結果即為後來發展的 DAML+OIL。DAML+OIL 是 Web Resource 中可以用來描述語意的 Ontology 標 記語言,它是以 W3C

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

” 影格速率(Frame Rate )是指 Flash 動畫每 秒鐘播放的影格數,預設是 12 fps(frame per second),也就是每秒播放 12

• 內建元件庫(Common Libraries)則存放了 Flash 提供 的元件,讓使用者自由使用。Flash 內建的元件庫共有 3

It is based on the goals of senior secondary education and on other official documents related to the curriculum and assessment reform since 2000, including

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

The objective of this study is to analyze the population and employment of Taichung metropolitan area by economic-based analysis to provide for government

本研究所開發的 XML-base ECG Management System 架構及流程 如圖 1-3 所示。ECG 的來源是地區醫院所收集的 SCP-ECG 檔案,解 碼後取得內含資訊及各導程原始電位數據,經過 XML-based