• 沒有找到結果。

本研究中針對 Apriori、STD、FUP 及 I-STD 四種方式,分別利用醫院 90 年 度的門診診斷資料進行資料探勘,以月為單位依次將該月份的門診診斷資料加入 資料探勘的分析中,分析 Apriori、STD、FUP 及 I-STD,在以漸進式增加資料的 情況下進行資料探勘效率上的比較。

第一節、關聯式法則的驗證、解釋

本研究之實驗,分別利用 Apriori、STD、FUP 及 I-STD 針對該醫院 90 年度 的門診資料進行探勘,在支持度 0.3%的情況下,獲得 55 筆的高頻項目集合,其 信賴度如表 22 表示。

表 22:信賴度分布表

信賴度 高頻項目集合個數

70%以上 1

60%~70% 2

50%~60% 4

40%~50% 12

30%~40% 9

20%~30% 20

20%以下 81

而在信賴度 50%的情況下,可以得到七筆關聯式法則,其中以下五筆經過 該醫院醫師的驗證後證實具有臨床上的可信度。

l If Hypertrophy Of Nasal Turbinate then Acute Pharyngitis 鼻甲增生導致急性咽喉炎。

解釋:因鼻甲增生有可能是因為過敏性鼻炎,而過敏性鼻炎之人常容易有 呼吸道方面的疾病。

l If Hemiplegia, Unspecified then Cerebral Artery Occlusion, Unspec 若半身不遂則可能腦血管阻塞(中風)。

解釋:中風後容易半身不遂之症狀。

l If Asthma, Unspecified, Without M then Allergic Rhinitis Cause Unspec 若氣喘則可能過敏性鼻炎。

解釋:這兩者之間有很強相關(學理上已很清楚)。 l If Sciatica then Displacement Of Lumbar Interve

若坐骨神經痛可能椎間盤突出。

解釋:在未確診為椎間盤突出之前,醫師常用坐骨神經痛去描述此一病徵,

故兩者常指同一件事。

l If Multiple And Unspecified Open Wound and then Follow-up Examination 若開放性傷口則可能追蹤治療。

解釋:傷口需要追蹤治療。

以下兩筆關聯式法則則無尚無學理上的證實,因此需要進一步進行臨床上的驗 證。

l if Hypertrophy Of Nasal Turbinate then Functional Disorder Of Stomach 若鼻甲增生則可能胃部不適。

l if Hepatitis, Unspecified then Menopausal Or Female Climacter 若肝炎則可能婦女更年期(停經後)。

第二節、效能評估及相關數據分析 一、隨著資料的增加進行資料探勘:

下表為利用 apriori、STD、FUP 及 I-STD 進行資料探勘所需的時間之比較:

表 23:apriori、STD、FUP 及 I-STD 執行時間的比較

資料筆數 時間(分鐘) apriori STD FUP I-STD 67204 148 164 148 167

133201 306 245 145 218 211736 569 385 202 307 286403 696 456 182 265 367967 964 513 201 253 445610 1070 641 189 304 522295 1385 731 192 307 600443 1612 788 211 261 668293 1800 900 185 253 746449 2034 1033 194 277 820772 2218 1068 204 284 895225 2390 1091 218 278

探勘所需時間

0 500 1000 1500 2000 2500 3000

67204 133201 211736 286403 367967 445610 522295 600443 668293 746449 820772 895225 資料筆數

時間(分鐘)

apriori STD I-STD FUP

圖 18:apriori、STD、FUP 及 I-STD 執行時間之比較

由表 23 及圖 18 可以發現 apriori 及 STD 兩種資料探勘方式,隨著資料的增 加其所需的時間也跟著以線性的方式增加,而 I-STD 所需時間則維持在 400 分鐘 之內,因此當資料是以漸進式的方式新增時,以 I-STD 進行漸進式的資料探勘,

其所需的時間較 aprioi、STD 為少,其差距隨著資料筆數的增加而擴大。而 FUP 則與 I-STD 所需時間相近,FUP 與 I-STD 時間比較如圖 19 所示。表 24 為支持 度在 0.1%的情況下進行 FUP 及 I-STD 探勘所需時間的比較,

表 24:支持度為 0.1%下 FUP 及 I-STD 比較表 資料筆數 時間(分鐘) FUP I-STD

67204 591 167

133201 558 389

211736 565 474

286403 611 450

367967 721 491

445610 620 510

522295 657 509

600443 709 408

668293 612 410

746449 662 403

820772 680 402

895225 694 459

FUP及I-STD的比較

0 200 400 600 800

67204 133201 211736 286403 367967 445610 522295 600443 668293 746449 820772 資料筆數

時間(分鐘)

FUP(0.3%) I-STD(0.3%) FUP(0.1%) I-STD(0.1%)

圖 19:支持度為 0.5%及.1%中 FUP 及 I-STD 的比較

由圖 19 可以發現在支持度為 0.3%時 FUP 探勘所需時間較 I-STD 為短,推 測其原因應該是在 FUP 中所紀錄的資料量較 I-STD 為少,因此在資料庫處理方 面所需時間較少。而在支持度為 0.1%的情況下,分析所需時間 I-STD 比 FUP 為 少,因為當支持度降低時,FUP 所產生的候選項目集增多,因此針對資料庫的掃 描次數也跟著增加,分析所需的時間也隨之增加。由圖 19 中我們可以明顯的發 現,當支持度降低時,FUP 所需的時間明顯的增加了許多,所需時間也較 I-STD

為多。

二、支持度修改時探勘所需時間分析

支持度的改變可以分為提高與降低兩部分進行分析,將支持度提高的情況 下,FUP 與 I-STD 皆只須針對目前符合支持度的高頻項目集合進行篩檢,找出 符合提高後支持度的項目集合。當使用者將支持度降低時,FUP 便需要重新進行 資料的分析以找出符合的高頻項目集合,而 I-STD 則只須針對非高頻項目集合進 行搜尋即可,因此 FUP 所需的探勘時間,較 I-STD 為多。當支持度改變時 FUP 及 I-STD 分析所需時間如下:

l 支持度 0.3%à0.1%:FUP 需要 6758 分鐘、I-STD 需要 2 分鐘。

l 支持度 0.3%à0.5%:FUP 需要 2 分鐘,I-STD 需要 5 分鐘。

三、修改資料所需時間比較

當使用者發現先前所輸入的資料有所謬誤時,為避免繼續影響之後的探勘 結果,因此需要將錯誤的資料進行修正。在將錯誤資料刪除的部分,FUP 須先針 對高頻項目集合中是否有錯誤的資料存在進行確認,若存在於高頻區中,便修改 其次數及判斷是否仍屬於高頻項目集合,若不存在高頻區中,則至資料庫中將同 樣的項目集合刪除。I-STD 則是先將錯誤的紀錄進行拆解,以產生相同的子項目 集合來進行資料的修改,而將錯誤的資料由資料庫中刪除。

表 25:FUP 及 I-STD 刪除錯誤資料筆數時時間的比較 資料筆數 時間(分鐘) FUP I-STD

100 4 3

200 7 5

300 12 8

400 15 10

500 19 12

600 22 15

700 26 17

800 29 20

900 32 23

1000 39 26

篩除資料所需時間比較圖

0 10 20 30 40 50

100 200 300 400 500 600 700 800 900 1000 資料筆數

時間(分鐘)

FUP I-STD

圖 20:刪除資料所需時間比較 四、每月分析資料筆數比較

除了時間上的比較,針對分析時資料筆數的多寡進行分析可獲得如表 26 及 圖 21 的分析結果:

表 26:apriori、STD、FUP 及 I-STD 前置處理每月分析資料筆數 月份 資料 Apriori STD I-STD FUP

一月(67204) 67204 16133 16133 67204 二月(65597) 133201 24681 16422 65997 三月(78535) 211736 33461 18644 78535 四月(74667) 286403 40742 17822 74667 五月(81564) 367967 48343 19086 81564 六月(77643) 445610 55012 18301 77643 七月(76685) 522295 61374 18241 76685 八月(78148) 600443 67879 18395 78148 九月(67850) 668293 73215 16852 67850 十月(78156) 746449 79659 18638 78156 十一月(74323) 820772 98046 18388 74323 十二月(74453) 895225 107455 18425 74453

前置處理後每月分析資料筆數

0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000

一月 二月 三月 四月 五月 六月 七月 八月 九月 十月

十一月 十二月 月份

資料筆數

apriori STD I-STD FUP

圖 21:apriori、STD、FUP 及 I-STD 探勘資料筆數比較

I-STD 是在資料以漸進式增加的前提下進行資料探勘,在醫院的門診診斷紀 錄中,雖然每個月門診數量不盡相同但基本上仍有一固定總門診數量範疇,因此 由圖 21 以發現,在 I-STD 中,每月進行資料探勘時需要分析的門診診斷紀錄其 數量方面不會有太大的變動,反觀 apriori 分析所需的門診診斷紀錄隨著時間的 增加,而不斷的累積,在 STD 的部分則因為 STD 在進行資料探勘時,會先將門 診診斷紀錄做整理,並將相同的診斷進行合併計數,因此可以大幅減少門診診斷 紀錄,但隨著時間的增加,其分析所需的門診診斷紀錄筆數也會不斷的累積,而 每次分析所需的時間也就會不斷的增加。FUP 則與 I-STD 類似,只須針對新進 資料進行分析,由於 I-STD 所分析的資料經過前置處理的動作,因此 FUP 所需 分析的資料筆數較 I-STD 為多。

相關文件