本研究之目的在於對門診就診病患之屬性,以資料探勘之叢集方式做一深入 之探討。其重要屬性之取得,初期將以統計之線形圖,並依各曲線斜率之變化分 析,找出與醫師看診時間可能有關之屬性。如病患本身就診之屬性:包括新病患、
初診、複診病患、性別與年齡等,以及提供予病患服務之屬性:如醫師、科別、
就診時間、時段與星期等。其次再將可能會影響醫師看診時間之屬性,以資料探 勘之叢集分析方法,以建立各醫師與病患看診時間模式,以作為病患預約掛號看 診時間預估之參考。
4.1 資料收集
因醫院醫療資訊系統資訊化程度不同,資料之收集方式將有所差別,本研究 因某區域醫院其電腦化之程度較高,故其資料之取得乃以電腦資料為主,醫師看 診時間之取得以一筆交易完成後取得電腦主機時間為準。因醫師為連續看診,故 每一位病患之看診時間為:目前病患看診結束電腦時間,減去前一位病患看診結 束電腦時間。對於第一位看診病患因醫師實際看診時間之差異,故第一位病患不 予計算。為有效獲取正確之資料,加上資料探勘時亦需龐大的資料做為分析。本 研究以主從式之架構,在PC 端以 SQL 直接至資訊系統主機取得相關資病患就 診屬性,資料範圍為整個月之門診就診資料,約五萬多筆,其欄位資料包括病歷 號、新病患、初複診、就診序號、就診預定時間、實際醫師看診完成時間、性別、
年齡、疾病別與疾病名稱。而目前各醫院之醫師排班均以週為主,故一個月可有 四次之重複性資料取得,以確保資料之可用性。
資料收集期間:以2001 年 10 月份之門診就診資料為主。
研究對象:為資料蒐集期間,至該院就診的門診掛號病患。
4.2 研究材料與設備
本研究所採用之資料來源,以北部某區域教學醫院一個月之門診電腦資料,
為本研究範圍。所使用之軟體包括Oracle Database 及 SQL Plus,此作為原始資 料取得與初步過濾,其次用Excel 再次過濾資料並產生所需欄位。然為便於研究 與資料型態之轉變,將Excel 的資料集轉至 Access 以檔案方式儲存資料,此兩 含有相同資料內容之資料集將作為以後統計與叢集分析之資料來源。
針對與醫師看診有關的屬性以SPSS 10.0 版,開啟 Excel 檔案並以線性圖斜 率之關係,以了解整體統計之相關分析以獲取所需之屬性特性。資料探勘叢集分 析則利用Index Software Inc.之Index Miner軟體,透過ODBC 與Access 資料庫連接,以 獲取各屬性與醫師看診有關之叢集模式。
多屬性間之族群關係與相似性則以資料探勘之叢集方法,以建立醫師看診時間叢 集理論之EM (Estimation-Maximization)演算法,給予適當之參數與屬性後,最後 依叢集結果之Maximum Likelihood 與領域經驗之評估,歸納出醫師看診時間 (ΔT)之叢集結果。
HIS Database
叢集參數設定 No of Clusters 叢集群組產生
與結果評估
(Max. Likelihood)
評估醫師看診 時間 (ΔT)之 叢集結果
編碼與 轉換
4.4 研究步驟與流程
圖4.3 為叢集方式評估醫師看診時間研究流程,整個流程中主要有兩個判定 點,其一為判斷資料是否充實?此一階段之重點在於完成資料的收集、過濾、篩 選、及必要之編碼與轉換。另一為評估預測結果的正確性,主要依門診病患之相 關屬性與叢集結果,以判定資料之正確性。
醫院門診病患就診資料收搜集
門診病患就診資料過濾與篩選
充實資料與必要之資料編碼與轉換
建立門診病患與看診時間之 相關分析
以叢集方式建立醫師看診時間預測 模式
資訊報告 評估預測模式 結果之正確性?
判斷資料是否充實?
否
是
是
否
圖4.3 以叢集方式評估醫師看診時間研究流程
4.5 Index Miner 之使用
本研究採用Index Miner 作為資料探勘之工具,在此檢述其使用方式:
1.
啟動Index Miner:首先須安裝 JDK1.3 以上之 Java 開發工具,之後才可 啟動此軟體。2.
資料連接:因Index Miner 提供多種資料載入方法,本研究採用 Open Database 之方式,此方式須先設定好 ODBC 與資料庫之連接,之後在 Data Processing 中選取 Open Database 將其放置於 Project 之畫面中。3.
資料載入:於Project 中,將游標指在 Open Database 按右鍵,選取「Load data」,其參數設定如圖 4-4 所示。此時於「Query」中輸入所需 SQL 查詢語言。4.
Scheme 之選擇:在 Clustering 中選取 EM 將其放至於 Project 中。5.
資料與方法之關聯:於Project 中選擇 Open Database 使其產生一箭頭指 向EM。如圖 4-4 左邊之紅色箭頭。6.
參數設定:在EM 之小圖示下按右鍵,如圖 4-5 於此可設定執行時所需 參數,一般只設定叢集數目即可。7.
執行叢集運算:圖4-6 選擇「Start」即可。圖4-4 Index Miner 資料載入方式
在圖4-5 中,“-1”代表叢集數是由系統設定。“max. iterations”表示最大重複
執行次數,若未達minStdDev 所設定值,則系統將以此設定值之大小,作為重複 執行次數。若系統未達最大重複執行次數,但已達minStdDev 所設定值,系統將 停止運算。“seed”則為任意種子之數目。
圖4-5 參數設定
圖4-6 為 EM 之屬性選擇與執行,若欲忽略不需要之屬性,可由「Ignore attributes」中選擇,如圖 4-6 之右邊所示。當參數與屬性選擇好後,按「start」
即可開始從集之運算。
圖4-6 EM 之參數設定與執行