一、研究設計
本研究設計的步驟如圖 3-1,各步驟說明將於本章各節詳述。
理解資料與定義資料
確定目標資料與來源
資料的濃縮與轉變
資料整理
發展模型
建立貝氏網路
測試與預測
圖 3-1 研究設計步驟
二、理解資料與定義資料
以資料挖掘的技術應用於實證醫學上的研究,受限於現有醫療資 訊系統的設計,大都只考慮醫護人員操作的簡便,以及健保費用申報 的需要,並未整體考量日後資料統計分析的可近性與可利用性,因此 使得可以選擇的研究主題捉襟見肘,加上醫師依個人習慣隨性輸入不 標準化的詞彙,使得研究的美意大打折扣。
由於醫療資訊系統在複雜度與不確定性方面有別於一般資訊系 統,所以在了解過醫療資訊系統後,整理出一些和本研究較具相關的 資料格式內容:
1.原始資料以病人每次診療的每個處方或處置為一筆記錄。
2.記錄中會記載身份證號、出生日期、費用日期、醫師代碼、DRG 碼、主診斷、次診斷、主手術、次手術、申報類別、部分負擔、
處置編號、處方藥品、檢驗檢查等等資料。
3.本研究以臨床路徑為主要研究對象,因此選擇記錄中的醫師代 碼、主要診斷、主要手術、處方藥品、檢驗檢查等項目來做為 發展貝氏網路的標的。
4.由於資料來源的限制,以及論病例計酬與非論病例計酬的選擇 需要,所以我們選擇闌尾炎、疝氣、糖尿病、胃出血等四種疾
病為研究對象。
三、確定目標資料與來源
本研究的資料是以某醫院之臨床歷史資料為樣本,以 2001 年為 訓練樣本資料範圍,並以 2002 年 1-3 月資料為測試樣本,「論病例計 酬」案件選擇「闌尾炎」和「疝氣」,「非論病例計酬」案件選擇「論 量計酬」的「糖尿病」和「胃出血」。資料選擇的原則是:1.案例數 量不宜太少,2.治療模式單純。
四、資料的濃縮與轉變
經由醫院資訊系統的資料庫(Oracle),先將欲取出的資料範圍與 類別屬性,以 SQL 工具反覆交叉篩選,最後產生 Text File,產生出 來的 Text File 與實際要應用的資料內容還相差很遠,再利用 Clipper 程式語言撰寫程式,對資料做進一步處理,以產生更接近需求的資料 檔,最後再由 Excel 做最後整理,如圖 3-2 是未進一步處理前的 Text File 範例,圖 3-3 則是經過處理後的檔案範例。
未進一步處理前的資料是一個處方或處置一筆資料記錄,且有些 資料需要經過整理和簡化,以方便發展貝氏網路的需要,所以利用 Clipper 程式語言撰寫程式,將同一次醫療的多筆記錄整合成一筆記 錄,並將許多欄位內容以代碼表示。如費用部分,以 0 表示未超過健
保給付,以 1 表示已超過健保給付;藥品處方部分,以 0 表示該次診 療未使用該藥品,用 1 表示有使用該藥品。
圖 3-2 未進一步處理前的 Text File 範例
圖 3-3 經過處理後的檔案範例
五、資料整理
由於建構貝氏網路的工具 Belief Network PowerSoft 對 Excel的檔 案格式也相容,所以運用 Excel 來整理最終所要的資料。因為一般病 人的治療程序不外乎以「次」或「天」為時間間隔,住院病患一天內,
可能會有多次治療,為了解各次治療間彼此之考量與關連,所以資料 分析時,以「次」的時間間隔來做為貝氏網路的「節點」(node)。
另由於 Belief Network PowerSoft 對同一群屬性但順序不同的節 點,會產生不同的貝氏網路圖,所就某些醫療項目具有先後從屬關 係,為求正確慎重起見,可經由醫療專人員再次確認順序,再行重排。
以「疝氣」為例,表 3-1 為輸入資料格式,樣本是欄位1為醫師 碼、欄位2-5為診斷碼、欄位6以後則為藥品代碼,而藥品欄位前 兩碼表示「次」,如「1’307271」中的「1’」表示第 1 次,此欄位中 內容部分為 1 者表示有處方,為 0 者表示未開立此處方。
表 3-1 「疝氣」資料格式
Dr S1 S2 S3 S4 1’307271 2’314141 2’30713 2’21109
D153 550.91 1 1 1 1
D027 550.90 0 0 0 0
D153 550.90 465.9 0 1 1 0
D02B 550.90 715.36 533.90 0 0 0 1
D155 550.90 605 0 0 1 1
六、研究方法與理論模型
目前臨床路徑的發展大都以「論病例計酬」為發展重點,是因為
「論病例計酬」的醫療模式和申報金額受到健保局的約束,在醫療資 源有限的情況下,發展適合自己醫院的臨床路徑,成了眾醫院的熱門 話題,因此為「疝氣」建構貝氏網路,以做為制定或修改臨床路徑的 參考;而健保局擴大「論病例計酬」的涵蓋範圍是既定政策,所以現 有「非論病例計酬」的疾病,將來都有可能成為「論病例計酬」的成 員,所以我們也嘗試為「非論病例計酬」的疾病發展貝式網路模型,
以為將來制定臨床路徑的參考。
使用貝氏網路為本研究的樣本訓練工具,主要是因為貝氏網路結 合了機率理論,以圖形模式呈現事件間的 Sequential Relation,它具備 了以下的特性【8】,可以做為臨床路徑建構方法的研究:
1.貝氏網路可以將變數和變數間的相依關係加以編碼,並且很快 的掌握不完整的資料。
2.貝氏網路可以學習相關領域的因果關係,所以可以得知相關領 域的問題,並提早介入其預測結果。
3.因為貝氏網路包含因果關係及此因果關係的機率值,所以適合 有事前知識和資料的問題領域。
4.貝氏統計法結合圖形模式可以提供有效的資料以及在理論上
可以避免過度配合的資料。
SC:診斷碼數量,M:費用,O:主手術碼,OC:手術碼數量。
1. 在圖 3-5 中,醫師是影響費用高低的主要原因。其中醫師
與主手術碼的關係表示成 P(Si|E)= P(主手術碼|醫師)。
由於貝氏定理可以結合事前機率 P(Si)(經驗值)與樣本機 率 P(E|Si),能有效的利用有限的樣本資訊,並且引入經驗值,所 以若以 P(Si|E)的事前機率和條件機率理論來看,使用如圖 3-6 Hugin Lite 5.4 預測推論畫面,則我們可以反向做以下的推論:
1.從費用 P(Si)的高低可以判斷醫師 P(E)各項資料相對出現 的機率。即求得樣本機率 P(E|Si)=P(醫師|費用)。
2.可以從手術碼數量 P(Si)判斷診斷碼數量 P(E)高低。即求得 樣本機率 P(E|Si)=P(診斷碼數量|手術碼數量)。
3.可以從診斷碼數量 P(Si)判斷醫師 P(E)各項資料相對出現 的機率。即求得樣本機率 P(E|Si)=P(醫師|診斷碼數量)。
4.診斷碼數量和費用並無直接的關連性,所以在確定醫師的 條件下,費用高低和診斷碼數量互不影響。
圖 3-4「疝氣」費用預測訓練資料來源
圖 3-5「疝氣」費用預測網路圖
圖 3-6 Hugin Lite 5.4 預測推論畫面
本研究使用 Cheng 三階段演算法【6】所發展的工具軟體 Belief Network PowerSoft ,從兩個方向建構貝氏網路,一為事 先將節點排列順序,另一為不排列順序,後來經證明節點經事先 確認順序,可以減少貝氏網路建構的複雜程度,如圖 3-7 和圖 3-8 的比較,因此本研究皆以事先為節點排列順序的方式整理資料。
節點順序可以在「資料整理」階段由專業醫療人員確認診療項目 的執行順序來得知。
圖 3-7 事先將節點排列順序的網路圖
圖 3-8 未事先將節點排列順序的網路圖
七、研究前題與限制
由於本研究使用的是醫院臨床歷史資料中,並未完整記載所有臨 床路徑的相關資訊,所以在貝氏網路建構過程中存在下列的前題與限 制:
1.手術項目因其手術當日往往區分為術前、術中、術後三階段,
由於資料輸入人員未及時登錄資料,所以診療項目的前後順序 與時間間距無法有效區分,需要醫療專業人員確認診療項目分 屬術前、術中、術後。
2.「論病例計酬」和「非論病例計酬」案件由於健保支付與規定 不同,所以在治療項目有不同的篩選策略。例如:「論病例計 酬」因為健保有規定首日必要的治療項目,所以就不以「醫師」
來預測其首日醫療項目;而「非論病例計酬」則以「醫師」來 預測其首日醫療項目。再由首日的醫療項目來往後推測第二次 以後的醫療項目。
3.治療項目數量過於複雜時需要作 Cluster。即在沒有預先定義好 類別的情況下,將治療項目先做分群。例如:有些治療項目,
可能因為患者本身有其他疾病,而必須採取不同的醫療處置或 處方,若沒先做分群,可能導致某種數量較多的群聚影響整體 研究結果。
4.由於醫療資料庫中並未完整記錄每個醫療過程細節,在資訊不 完整下,所以不宜選擇治療模式太過複雜的疾病。其中以藥品 處方、檢驗檢查、手術、費用等項目在資料庫中較為完整,所 以本研究選擇以上幾項為研究重點。