• 沒有找到結果。

實驗設計

在文檔中 中 華 大 學 (頁 54-59)

本論文提出一個漸進式資料探勘演算法,將以醫院門診資料做為實驗資料進 行實驗,在不同的支持度 0.5%、0.3%、0.1%下,對我們所提出的演算法的實驗 效能進行討論。

第一節 實驗平台

本論文所使用的實驗平台與開發工具如下:

z 個人電腦:Intel Pentium 4 1.6 G & Memory 1G z 作業系統:Microsoft Windows 2000 Server Edition

z 資料庫伺服器:Microsoft SQL Server 2000 & service pack 3 z 開發工具:Microsoft Visual Basic .NET

第二節 資料來源、內容

本論文所進行實驗的數據為北部某教學醫院的門診資料,利用該院 90 年度 醫生問診的紀錄檔進行實驗。該醫院於 1995 年成立,為透過 ISO 9002 國際品質 認證的醫院,平均每日看診人數為 2500 人,其包含的門診科別有:心臟血管外 科、胸腔外科、一般外科、泌尿外科、神經外科、大腸直腸外科、整形外科、骨 科、腫瘤科、過敏免疫風濕科、心臟內科、胸腔內科、腸胃肝膽科、腎臟科、新 陳代謝科、神經內科、婦產科、小兒科、中醫科、眼科、牙科、皮膚科、耳鼻喉 科、呼吸胸腔科、家庭醫學科、精神科、急診醫學科、營養諮詢等共計有 28 種 不同科別的門診服務。

醫院的門診診斷資料檔中,醫師對病患所下的診斷結果共有 1~7 欄可供填 入,而此 7 個欄位並無前後順序的問題,完全以醫師個人主觀的判斷作為填寫的 準則。醫生會以醫院內部的診斷編號來填寫對病患的診斷結果,門診診斷的資料 格式如表 4-1。

表 4-1:門診診斷紀錄檔資料格式

欄位名稱 欄位型態 長度 說明 病歷號碼 int 10 病歷號碼 日期 char 6 病患看診日期

看診順序 char 2 病患在同一天的看診順序 診斷順序 Char 2 醫師診斷的代碼順序 診斷代碼 char 6 醫師的診斷代碼 診斷說明 Char 20 診斷代碼的說明

病歷號碼:每位病患第一次就診時由醫院所給予的唯一編號。

日 期:該位病患至醫院門診就診的日期。

看診順序:該位病患在該日可能會不只在一個門診科別中就診,此欄位為記錄該 病患其就診科別的順序。例如該病患在當日分別至內科及耳鼻喉科,

其在內科就診時醫師所下之診斷此欄位的值為 0,而耳鼻喉科醫師所 下之診斷則為 1,以此類推。

診斷順序:由於醫師所下之診斷可能不只一個,在本論文中,醫院所提供之門診 診斷資料,醫師的診斷最多可達七個,此欄位便是記錄醫師所下診斷 的順序。

診斷代碼:此診斷代碼為醫師對此病患目前症狀所下的診斷,此診斷代碼為固定 的編號。

診斷說明:為該筆診斷代碼的說明,可能是英文上的術語,或是中文說明。

除了以上的資料外,還包含了如診斷醫師代碼、病患性別等基本資料,此部 份的資料與本論文目的較無直接關聯,因此在進行資料探勘時便不需考慮此部份

的資料。

依照門診診斷資料格式,我們就可以很清楚獲得醫師對每一門診病患診斷所 下的紀錄,但由於輸入資料的過程中,可能發生錯誤(人為錯誤、資料不齊全 等…),因此在進行資料探勘前,仍必須先行處理這一類的資料不符規範或錯誤 的問題,必須將所有錯誤或不符的資料刪除後,方能進行資料轉換。而經過去除 錯誤與不符資料之後,其轉換後的資料格式如表 4-2。

表 4-2:轉換後的門診診斷資料表格式 欄位名稱 欄位型態 長度 說明

ID Int 4 Primary key

診斷 1 Char 10 醫師診斷代碼 診斷 2 Char 10 醫師診斷代碼 診斷 3 Char 10 醫師診斷代碼 診斷 4 Char 10 醫師診斷代碼 診斷 5 Char 10 醫師診斷代碼 診斷 6 Char 10 醫師診斷代碼 診斷 7 Char 10 醫師診斷代碼

在表 4-2 之中,每一筆紀錄是指該病患在一天內單一門診的門診紀錄,而現 實狀況中每位病患在一天之內,可至不同的門診就診,因此某位病患在一天內可 能會有多筆的門診診斷紀錄。另外,由於病患可能因為住院或長期回診之故,會 產生許多相同的診斷,因此,若是發生所有的診斷代碼皆相同,但就診日期不同 或是病患不同的情況,本論文中將視為兩筆不同的紀錄。

因為本論文需進行漸進式資料探勘的實驗,因此我們會把資料轉換後的門診 資料依月份分類。本實驗共採用一年份的門診診斷資料,以不同月份做分類,共 分成十二個月份,轉換後各個月份的有效資料量統計如下表 4-3。

表 4-3:門診診斷資料每月資料量統計表

月份 當月資料量 累積資料量

一月 67204 筆 67204 筆

二月 65997 筆 133201 筆

三月 78535 筆 211736 筆

四月 74667 筆 286403 筆

五月 81564 筆 367967 筆

六月 77643 筆 445610 筆

七月 76685 筆 522295 筆

八月 78148 筆 600443 筆

九月 67850 筆 668293 筆

十月 78156 筆 746449 筆

十一月 74323 筆 820772 筆 十二月 74453 筆 895225 筆

每月資料量

0 20000 40000 60000 80000 100000

1 2 3 4 5 6 7 8 9 10 11 12

月份

月資料量 資料量

圖 4-1:門診診斷資料每月資料量圖

第三節 實驗設計

本實驗主要針對我們所提出的漸進式演算法進行與 DFPBT 演算法及 AFPIM 演算法的漸進式探勘效能比較,依序選擇每一月份進行漸進式的資料探勘動作並 記錄所需要的時間表現。而針對本論文的實驗,會以支持度 0.3%、0.1%等兩種 不同支持度,來比較這三種演算法的效能表現。圖 4-2 為本研究實作 PDBA 演算 法所開發出的系統畫面:

圖 4-2:系統介面

在文檔中 中 華 大 學 (頁 54-59)

相關文件