研究設計與方法 - 資料挖掘在實證醫學上之研究－以闌尾切除、疝氣、糖尿病、胃出血為例; Data Mining Technique Researching on Evidence-Based

一、研究設計

本研究設計的步驟如圖 3-1，各步驟說明將於本章各節詳述。

理解資料與定義資料

確定目標資料與來源

資料的濃縮與轉變

資料整理

發展模型

建立貝氏網路

測試與預測

圖 3-1 研究設計步驟

二、理解資料與定義資料

以資料挖掘的技術應用於實證醫學上的研究，受限於現有醫療資訊系統的設計，大都只考慮醫護人員操作的簡便，以及健保費用申報的需要，並未整體考量日後資料統計分析的可近性與可利用性，因此使得可以選擇的研究主題捉襟見肘，加上醫師依個人習慣隨性輸入不標準化的詞彙，使得研究的美意大打折扣。

由於醫療資訊系統在複雜度與不確定性方面有別於一般資訊系統，所以在了解過醫療資訊系統後，整理出一些和本研究較具相關的資料格式內容：

1.原始資料以病人每次診療的每個處方或處置為一筆記錄。

2.記錄中會記載身份證號、出生日期、費用日期、醫師代碼、DRG 碼、主診斷、次診斷、主手術、次手術、申報類別、部分負擔、

處置編號、處方藥品、檢驗檢查等等資料。

3.本研究以臨床路徑為主要研究對象，因此選擇記錄中的醫師代碼、主要診斷、主要手術、處方藥品、檢驗檢查等項目來做為發展貝氏網路的標的。

4.由於資料來源的限制，以及論病例計酬與非論病例計酬的選擇需要，所以我們選擇闌尾炎、疝氣、糖尿病、胃出血等四種疾

病為研究對象。

三、確定目標資料與來源

本研究的資料是以某醫院之臨床歷史資料為樣本，以 2001 年為訓練樣本資料範圍，並以 2002 年 1-3 月資料為測試樣本，「論病例計酬」案件選擇「闌尾炎」和「疝氣」，「非論病例計酬」案件選擇「論量計酬」的「糖尿病」和「胃出血」。資料選擇的原則是：1.案例數量不宜太少，2.治療模式單純。

四、資料的濃縮與轉變

經由醫院資訊系統的資料庫(Oracle)，先將欲取出的資料範圍與類別屬性，以 SQL 工具反覆交叉篩選，最後產生 Text File，產生出來的 Text File 與實際要應用的資料內容還相差很遠，再利用 Clipper 程式語言撰寫程式，對資料做進一步處理，以產生更接近需求的資料檔，最後再由 Excel 做最後整理，如圖 3-2 是未進一步處理前的 Text File 範例，圖 3-3 則是經過處理後的檔案範例。

未進一步處理前的資料是一個處方或處置一筆資料記錄，且有些資料需要經過整理和簡化，以方便發展貝氏網路的需要，所以利用 Clipper 程式語言撰寫程式，將同一次醫療的多筆記錄整合成一筆記錄，並將許多欄位內容以代碼表示。如費用部分，以 0 表示未超過健

保給付，以 1 表示已超過健保給付；藥品處方部分，以 0 表示該次診療未使用該藥品，用 1 表示有使用該藥品。

圖 3-2 未進一步處理前的 Text File 範例

圖 3-3 經過處理後的檔案範例

五、資料整理

由於建構貝氏網路的工具 Belief Network PowerSoft 對 Excel的檔案格式也相容，所以運用 Excel 來整理最終所要的資料。因為一般病人的治療程序不外乎以「次」或「天」為時間間隔，住院病患一天內，

可能會有多次治療，為了解各次治療間彼此之考量與關連，所以資料分析時，以「次」的時間間隔來做為貝氏網路的「節點」(node)。

另由於 Belief Network PowerSoft 對同一群屬性但順序不同的節點，會產生不同的貝氏網路圖，所就某些醫療項目具有先後從屬關係，為求正確慎重起見，可經由醫療專人員再次確認順序，再行重排。

以「疝氣」為例，表 3-1 為輸入資料格式，樣本是欄位１為醫師碼、欄位２－５為診斷碼、欄位６以後則為藥品代碼，而藥品欄位前兩碼表示「次」，如「1’307271」中的「1’」表示第 1 次，此欄位中內容部分為 1 者表示有處方，為 0 者表示未開立此處方。

表 3-1 「疝氣」資料格式

Dr S1 S2 S3 S4 1’307271 2’314141 2’30713 2’21109

D153 550.91 1 1 1 1

D027 550.90 0 0 0 0

D153 550.90 465.9 0 1 1 0

D02B 550.90 715.36 533.90 0 0 0 1

D155 550.90 605 0 0 1 1

六、研究方法與理論模型

目前臨床路徑的發展大都以「論病例計酬」為發展重點，是因為

「論病例計酬」的醫療模式和申報金額受到健保局的約束，在醫療資源有限的情況下，發展適合自己醫院的臨床路徑，成了眾醫院的熱門話題，因此為「疝氣」建構貝氏網路，以做為制定或修改臨床路徑的參考；而健保局擴大「論病例計酬」的涵蓋範圍是既定政策，所以現有「非論病例計酬」的疾病，將來都有可能成為「論病例計酬」的成員，所以我們也嘗試為「非論病例計酬」的疾病發展貝式網路模型，

以為將來制定臨床路徑的參考。

使用貝氏網路為本研究的樣本訓練工具，主要是因為貝氏網路結合了機率理論，以圖形模式呈現事件間的 Sequential Relation，它具備了以下的特性【8】，可以做為臨床路徑建構方法的研究：

1.貝氏網路可以將變數和變數間的相依關係加以編碼，並且很快的掌握不完整的資料。

2.貝氏網路可以學習相關領域的因果關係，所以可以得知相關領域的問題，並提早介入其預測結果。

3.因為貝氏網路包含因果關係及此因果關係的機率值，所以適合有事前知識和資料的問題領域。

4.貝氏統計法結合圖形模式可以提供有效的資料以及在理論上

可以避免過度配合的資料。

SC:診斷碼數量，M:費用，O:主手術碼，OC:手術碼數量。

1. 在圖 3-5 中，醫師是影響費用高低的主要原因。其中醫師

與主手術碼的關係表示成 P(S_i|E)= P(主手術碼|醫師)。

由於貝氏定理可以結合事前機率 P(S_i)（經驗值）與樣本機率 P(E|S_i)，能有效的利用有限的樣本資訊，並且引入經驗值，所以若以 P(S_i|E)的事前機率和條件機率理論來看，使用如圖 3-6 Hugin Lite 5.4 預測推論畫面，則我們可以反向做以下的推論：

1.從費用 P(S_i)的高低可以判斷醫師 P(E)各項資料相對出現的機率。即求得樣本機率 P(E|S_i)＝P(醫師|費用)。

2.可以從手術碼數量 P(S_i)判斷診斷碼數量 P(E)高低。即求得樣本機率 P(E|S_i)＝P(診斷碼數量|手術碼數量)。

3.可以從診斷碼數量 P(S_i)判斷醫師 P(E)各項資料相對出現的機率。即求得樣本機率 P(E|S_i)＝P(醫師|診斷碼數量)。

4.診斷碼數量和費用並無直接的關連性，所以在確定醫師的條件下，費用高低和診斷碼數量互不影響。

圖 3-4「疝氣」費用預測訓練資料來源

圖 3-5「疝氣」費用預測網路圖

圖 3-6 Hugin Lite 5.4 預測推論畫面

本研究使用 Cheng 三階段演算法【6】所發展的工具軟體 Belief Network PowerSoft ，從兩個方向建構貝氏網路，一為事先將節點排列順序，另一為不排列順序，後來經證明節點經事先確認順序，可以減少貝氏網路建構的複雜程度，如圖 3-7 和圖 3-8 的比較，因此本研究皆以事先為節點排列順序的方式整理資料。

節點順序可以在「資料整理」階段由專業醫療人員確認診療項目的執行順序來得知。

圖 3-7 事先將節點排列順序的網路圖

圖 3-8 未事先將節點排列順序的網路圖

七、研究前題與限制

由於本研究使用的是醫院臨床歷史資料中，並未完整記載所有臨床路徑的相關資訊，所以在貝氏網路建構過程中存在下列的前題與限制：

1.手術項目因其手術當日往往區分為術前、術中、術後三階段，

由於資料輸入人員未及時登錄資料，所以診療項目的前後順序與時間間距無法有效區分，需要醫療專業人員確認診療項目分屬術前、術中、術後。

2.「論病例計酬」和「非論病例計酬」案件由於健保支付與規定不同，所以在治療項目有不同的篩選策略。例如：「論病例計酬」因為健保有規定首日必要的治療項目，所以就不以「醫師」

來預測其首日醫療項目；而「非論病例計酬」則以「醫師」來預測其首日醫療項目。再由首日的醫療項目來往後推測第二次以後的醫療項目。

3.治療項目數量過於複雜時需要作 Cluster。即在沒有預先定義好類別的情況下，將治療項目先做分群。例如：有些治療項目，

可能因為患者本身有其他疾病，而必須採取不同的醫療處置或處方，若沒先做分群，可能導致某種數量較多的群聚影響整體研究結果。

4.由於醫療資料庫中並未完整記錄每個醫療過程細節，在資訊不完整下，所以不宜選擇治療模式太過複雜的疾病。其中以藥品處方、檢驗檢查、手術、費用等項目在資料庫中較為完整，所以本研究選擇以上幾項為研究重點。

在文檔中資料挖掘在實證醫學上之研究－以闌尾切除、疝氣、糖尿病、胃出血為例; Data Mining Technique Researching on Evidence-Based Medicine:Case Study of Appendectomy,Hernia,diabetes,Gastric Hemorrhage (頁 36-50)