• 沒有找到結果。

實驗設計

在文檔中 中 華 大 學 (頁 55-59)

表 4-1:門診診斷記錄檔資料格式 欄位名稱 欄位型態 長度 說明

病歷號碼 int 10 病歷號碼 日期 char 6 病患看診日期

看診順序 char 2 病患在同一天的看診順序 診斷順序 Char 2 醫師診斷的代碼順序 診斷代碼 char 6 醫師的診斷代碼 診斷說明 Char 20 診斷代碼的說明

病歷號碼:每位病患第一次就診時由醫院所給予的唯一編號。

日 期:該位病患至醫院門診就診的日期。

看診順序:該位病患在該日可能會不只在一個門診科別中就診,此欄位為紀錄 該病患其就診科別的順序。例如該病患在當日分別至內科及耳鼻喉 科,其在內科就診時醫師所下之診斷此欄位的值為 0,而耳鼻喉科 醫師所下之診斷則為 1,以此類推。

診斷順序:由於醫師所下之診斷可能不只一個,在本論文中,醫院所提供之門 診診斷資料,醫師的診斷最多可達七個,此欄位便是紀錄醫師所下 診斷的順序。

診斷代碼:此診斷代碼為醫師對此病患目前症狀所下的診斷,此診斷代碼為固 定的編號。

診斷說明:為該筆診斷代碼的說明,可能是英文上的術語,或是中文說明。

除了以上的資料外,還包含了如診斷醫師代碼、病患性別等基本資料,此 部份的資料與本論文目的較無直接關聯,因此再進行資料探勘時便不需考慮此 部份的資料。

依照門診診斷資料格式,我們就可以很清楚的獲得醫師對每一門診病患診

斷所下的記錄,但由於輸入資料的過程中,可能發生錯誤(人為錯誤、資料不齊 全等…),因此在進行資料探勘前,仍必須先行處理這一類的資料不符規範或錯 誤的問題,必須將所有錯誤或不符的資料刪除後,方能進行資料轉換。而經過 去除錯誤與不符資料之後,其資料轉換後的資料格式如表 4-2。

表 4-2:轉換後的門診診斷資料表格式

欄位名稱 欄位型態 長度 說明

ID Int 4 Primary key

診斷 1 Char 10 醫師診斷代碼 診斷 2 Char 10 醫師診斷代碼 診斷 3 Char 10 醫師診斷代碼 診斷 4 Char 10 醫師診斷代碼 診斷 5 Char 10 醫師診斷代碼 診斷 6 Char 10 醫師診斷代碼 診斷 7 Char 10 醫師診斷代碼

在表 4-2 之中,每一筆記錄是指該病患在一天內單一門診的門診紀錄,而 現實狀況中每位病患在一天之內,可至不同的門診就診,因此在實際情況中,

每一位病患在每一天內可能會看不同門診,因此會有多筆的門診診斷記錄。另 外,由於病患可能因為住院或長期回診之故,會產生許多相同的診斷,因此,

若是發生所有的診斷代碼皆相同,但就診日期不同或是病患不同的情況,本論 文中將視為兩筆不同的紀錄。

因為本論文需進行漸進式資料探勘的實驗,因此我們會把資料轉換後的門 診資料。本實驗共進行一年份的門診診斷資料,以不同的月份分類,共分成十 二個月份,而每個月份的資料量都差不多,轉換的每個月份資料統計如下表 4-3。

表 4-3:門診診斷資料每月資料量統計表

月份 當月資料量 累積資料量

一月 67204 筆 67204 筆

二月 65997 筆 133201 筆

三月 78535 筆 211736 筆

四月 74667 筆 286403 筆

五月 81564 筆 367967 筆

六月 77643 筆 445610 筆

七月 76685 筆 522295 筆

八月 78148 筆 600443 筆

九月 67850 筆 668293 筆

十月 78156 筆 746449 筆

十一月 74323 筆 820772 筆 十二月 74453 筆 895225 筆

第三節 實驗設計

本實驗主要針對我們所提出的演算法與漸進式演算法進行實驗,非漸進部 分的探勘,依探勘的月份把資料合在一起放在同一資料表格後進行探勘;漸進 式的部分依序選擇每一月份,即可進行漸進式的探勘。而針對本論文的實驗,

會以支持度 0.5%、0.3%、0.1%等三種不同支持度,來探討演算法在不同情況下 的效能表現。

在文檔中 中 華 大 學 (頁 55-59)

相關文件