利用資料探勘技術於醫療院所輔助病患就診科別之研究
7
0
0
全文
(2) (2) 以科別為群組的中心點:我們分別設定各科別. 作出一套醫療領域專門的資料探勘系統,藉以探究. 項目為群組的中心點,並將包含中心點之科別. 不同疾病之間的關係,以提供未來預防治療的參. 的就診資料,歸屬於同一群組中,然後分別從. 考;[3]以貝氏網路、決策樹與倒傳遞神經網路等演. 各群組中找出最常出現的 k 個症狀,再將此結. 算法針對乳部腫瘤、中醫舌診影像與糖尿病健康管. 果與此一病患症狀 X 做相似度的計算。我們將. 理紀錄進行處理,藉以證明資料探勘技術可以用於. 具有最大症狀相似度之群組中心點的科別項. 輔助醫生診斷的用途上,甚至診斷的準確率高過人. 目,做為輔助此一病患症狀 X 就診之科別項目. 為的診斷。. 的依據。 分群化是將物件根據相似度來進行分群,關於 我們根據所提出的方法,設計與建置一個輔助. 分群化的研究,主要可分為以下幾種:分割式. 病患就診科別的指引系統。此探勘結果,對病患選. (partitioning) 、 階 層 式 (hierarchical) 、 格 子 基 礎. 擇正確的就診科別、進而達到有效醫療並降低延誤. (grid-based)、密度基礎(density-based)與模型基礎. 就醫的風險,並對提昇醫療院所的服務品質及避免. (model-based)等幾種[4]。在本篇論文中,我們將修. 重複就診之醫療資源的浪費,都可以提供非常有用. 改分割式分群化的方法,做為分群化交易資料的方. 的參考資訊。. 法依據。. 本篇論文的架構如下:下一節中,我們說明資. 在眾多分割式分群化演算法中,較著名的有. 料探勘技術、及其在醫療應用上的相關研究;第三. PAM[6]、k-means[7, 8]及CLARANS[9]等,其目的. 節中,我們以某一病患症狀為群組的中心點,設計. 是分群成使用者所指定的k個群組,此分割方式可. 一個分群化方法來輔助此一病患就診之科別項目. 將每一物件歸屬於最相似的群組中。以下我們介紹. 的指引依據;第四節中,我們以各科別項目為群組. PAM(Partitioning Around Medoids)演算法的分群化. 的中心點,設計一個分群化方法來輔助病患就診之. 步驟。. 科別項目的指引依據;第五節中,我們依據所提出 的方法,設計與建置一個輔助病患就診科別的指引. PAM演算法由Kaufman and Rousseeuw[6]所提 出,為了將全部物件分群成k個群組,PAM的方法. 系統;最後,我們在第六節中做一結論。. 是先為每個群組決定一個代表物件(representative. 二、相關研究. objects),此代表物件稱之為medoid,一旦把k個. 資料探勘是在大量的資料中找出潛藏有用的. medoids選定之後,就依據相似度來決定非medoid. 資訊與知識,其可完成以下任務或是更多:關聯規. 物件是屬於那一個群組,其相似度是以物件彼此之. 則 (association rules) 、 分 群 (clustering) 、 分 類. 間的距離(Euclidean distance)來表示,d(Oa, Ob)表示. (classification) 、 次 序 相 關 分 析 (sequential pattern. 物件Oa與Ob之間的距離。例如Oi為medoid,而Oj為. analysis)等[5],在疾病診斷應用上,可藉由發掘病. 非medoid物件,如果d(Oj, Oi)=min{d(Oj, Oe)}, Oe. 患症狀與疾病之間的關聯性,做為診斷病患可能罹. 表示所有的medoids,則Oj歸屬於Oi群組。. 患之疾病的參考資訊,以便進行有效的治療及預 防。目前資料探勘技術已普遍地應用在醫療診斷. 對任一個非medoid物件Oj而言,當一個medoid. 中,其相關研究有:[1]從病歷資料著手,尋找病例. Oi被一個非medoid物件Oh取代時,所造成的改變成. 與用藥之間的關係,並希望藉由資料探勘的技術,. 本Cjih定義如下:. 防杜健保制度中用藥浮濫的問題;[2]透過資料探勘 的技術,以標準健保資料作為系統資料的來源,實. Cjih = d(Oj, Om) – d(Oj, On) 2.
(3) Om 表示以 Oh 取代 Oi 之後,與 Oj 有最大相似度(最. 項或以上科別項目所組成的項目組,即病患症狀. 短距離)的 medoid;. 為 X、及就診科別為 Y,如表 1。. On 表示以 Oh 取代 Oi 之前,與 Oj 有最大相似度(最 表 1 就診資料格式. 短距離)的 medoid。. 就診資料編號. 症狀項目. 科別項目. 以 Oh 取代 Oi 成為 medoid 之後,所造成的總改 變成本為:. 三、以病患症狀為中心點輔助病患就 診之科別項目. TCih = ∑ Cjih j. 在此一章節中,我們以病患每次就醫時之就診 若TCih>0時,表示以Oh取代Oi之後的總距離比. 資料做為探勘的資料來源,每一筆就診資料包含有. 取代前大,則Oi將不會被Oh所取代。以TCih為衡量. 病患的症狀項目及就診的科別項目,並以目前某一. 依據,PAM演算法說明如下:. 病患症狀為探勘目標,我們設計一個方法來分群化 就診資料,並從分群化後之群組所顯示出的傾向特. Algorithm PAM. 徵,做為輔助此一病患就診之科別項目的指引依. (1) 任意選取 k 個物件做為 medoids。. 據。此章節共分為兩小節如下:第一小節中,我們. (2) 對所有 Oi 與 Oh 之組合,計算出其 TCih,其中. 說明以某一病患症狀為群組之中心點的分群化過. Oi 表示任一個的 medoid,Oh 表示任一個非. 程;第二小節中,我們以一實例做說明。. medoid 物件。 (3) 選擇出 TCih 為最小值的 Oi 與 Oh 配對;假如. (一) 以某一病患症狀為中心點分群化就診資料. TCih<0,則以 Oh 取代 Oi 成為 medoid,並跳至. 我們設計一個簡單、快速的分群化方法,以某. (2)。. 一病患症狀為群組的中心點,然後將與中心點具有. (4) 否則停止執行,已完成分群。. 滿足最小症狀相似度的就診資料,歸屬於同一群組 中。假設 Tj1 及 Tj2 為兩筆就診資料,我們定義兩筆. 在本篇論文中,我們將修改分群化技術來做為. 就診資料之間的症狀相似度為:. 探勘就診資料的方法依據,並以某一病患症狀為探 勘的目標,從以下兩方面來探討輔助此一病患症狀. 症狀相似度 t = (就診資料 Tj1 與 Tj2 之間有相同. 之就診科別的指引:一是以此一病患症狀為中心. 症狀項目的個數)/(就診資料 Tj1 的症狀項目個數),. 點;二是以各科別項目為中心點。接下來,我們定. 當 t 愈大,表示就診資料 Tj2 包含有愈多與 Tj1 相同. 義一些名詞如下:. 的症狀項目。. S={s1, s2, …, sa},是全部症狀項目的集合,共有. 我們將兩筆就診資料中的症狀項目直接進行. a 項。. 比較計算,可以有效率地得到兩筆就診資料 Tj1 與. D={d1, d2, …, db},是全部科別項目的集合,共有. Tj2 之間的相似度。我們定義一函數 fetch-item(Tj, i1). b 項。. 表示可以擷取就診資料 Tj 中第 i1 個的症狀項目。例. T={T1, T2, …, Tj, …Tm},為全部就診資料的集. 如,T1={ABC, XY},A、B、C∈症狀項目,X、Y∈. 合,共 m 筆,其中 Tj 表示第 j 筆就診資料,1≤j≤m。. 科別項目,則 fetch-item(T1, 2)=B。每一就診資料中. 就診資料 Tj 之格式為 Tj=[X, Y],X⊆S、X 為一項. 所包含的症狀項目及科別項目,都已事先由小到大. 或以上症狀項目所組成的項目組,Y⊆D,Y 為一 3.
(4) 的排序過,例如 A<B<C 及 X<Y,因此計算兩筆就. X 具有 70%或以上症狀相似度的就診資料,就歸屬. 診資料 Tj1 與 Tj2 之間的症狀相似度,可表示成以下. 於 X-群組中。經由上述演算法的分群化步驟,即可. 的演算法:. 將具有滿足最小症狀相似度的就診資料歸屬於 X群組中。經由分群化之後,可在 X-群組中計算出現 次數最大的科別項目,其定義說明如下:. Float Per-Same-S-Item(Tj1, Tj2) { int same_item=0; /*相同症狀項目的數量變數*/ int i1=i2=1; /*表示就診資料 Tj1 中第 i1 個症狀 項目、及 Tj2 中第 i2 個症狀項目*/ while (fetch-item(Tj1, i1) <> ∅) and (fetch-item(Tj2, i2) <> ∅) { if (fetch-item(Tj1, i1) == (fetch-item(Tj2, i2) { same_item++; i1++; i2++; } elseif (fetch-item(Tj1, i1) > (fetch-item(Tj2, i2) i2++; else i1++; } return same_item/|Tj1|; /*|Tj1|為就診資料 Tj1 的 症狀項目個數*/ }. 病患就診科別項目=max{在 X-群組中各科別項 目出現的次數}。. 藉由從分群化之後的 X-群組中,找出出現次數最大 的科別項目,以做為輔助此一病患就診之科別項目 的指引依據。. (二) 實例說明 我們以一實例來說明輔助某一病患就診之科 別項目的探勘過程,表 2 為一就診資料庫,其包含 有 4 筆的就診資料,其中{A, B, C, D, E}表示所有 症狀項目的集合,{X, Y, Z}表示所有科別項目的集 合,{T1, T2, T3, T4}表示所有就診資料的集合。假設 目前欲探勘之病患症狀為 CE,設定最小症狀相似. 例如,Tj1={BCE, XY}及 Tj2={ABD, YZ},A、B、C、. 度為 60%。. D、E∈症狀項目,X、Y、Z∈科別項目,經由上述 表 2 就診資料庫. 演算法的計算,其症狀相似度=1/3=33%. 就診資料編號. 症狀項目. 科別項目. 假設目前欲探勘之病患症狀為 X,X 為一個或. T1. ABD. XZ. 以上症狀所形成的集合,設定 X 為一群組的中心. T2. BE. X. 點,依據之前所定義的症狀相似度,並設定一個「最. T3. ACE. Y. 小症狀相似度」,來將與 X 具有滿足此條件的就診. T4. BCE. XY. 資料 Tj 歸屬於同一群組,稱之為 X-群組,1≤j≤m, 表示共有 m 筆的就診資料,分群化的過程可表示成. 我們以此一病患症狀 CE 為一群組的中心點,. 以下演算法:. 經由 Clustering-1 演算法的計算,可得到以下的 CE群組:. Clustering-1(X) { for (j=1; j≤m; j++) if Per-Same-S-Item(X, Tj) ≥最小症狀相似度 Tj∈X-群組; }. CE-群組={T3, T4}. 在 CE-群組中出現次數最大的科別項目=max{X =1/2, Y=2/2}= Y。因此,藉由從分群化之後的 CE群組中,找出 Y 為輔助此一病患就診之科別項目的. 例如,假設所設定的最小症狀相似度為 70%,則與. 4.
(5) 指引依據。 然後,我們再找出此一病患症狀 X 與各科別群組的. 四、以科別項目為中心點輔助病患就 診之科別項目. 症狀項目之間症狀相似度的最大者,其定義如下:. 在此一章節中,我們仍以病患每次就醫時之就. 症狀相似度= max{(病患症狀 X∩各 di-群組的. 診資料做為探勘的資料來源,並以目前某一病患症. 症狀項目,1≤i≤b)的項目個數/k}。. 狀為探勘目標,我們以各科别項目為群組中心點, 設計一個分群化方法,從分群化後之各群組所顯示. 藉由計算具有症狀相似度最大者的科別群組中,我. 出的傾向特徵,做為輔助此一病患就診之科別項目. 們即以此群組之科別項目,以做為輔助此一病患就. 的指引依據。此章節共分為兩小節如下:第一小節. 診之科別項目的指引依據。. 中,我們說明以各科別項目為群組之中心點的分群 (二) 實例說明. 化過程;第二小節中,我們以一實例做說明。. 我們仍以表 2 之就診資料庫為例,假設目前欲 探勘之病患症狀為 BE,其輔助此一病患就診之科. (一) 以科別項目為中心點分群化就診資料. 別項目的探勘過程說明如下。. 我們設計一個簡單且快速的分群化方法,以各 科別項目為群組的中心點,然後將包含有中心點之 科別項目的就診資料,歸屬於同一群組中。假設共. 我們以各科別項目為群組的中心點,經由. 有 d1, d2, …, db 等 b 個科別項目,目前欲探勘之病患. Clustering-2 演算法的計算,可得到以下的科別群. 症狀為 X,X 為一個或以上症狀項目所形成的集合. 組:. 且其個數為 k,我們設定各科別項目 di 為群組的中 心點,1≤i≤b,將包含有中心點 di 的就診資料歸屬. X-群組={T1, T2, T4}. 於 di-群組中。就診資料 Tj 共有 m 筆,1≤j≤m,分群. Y-群組={T1, T3}. 化的過程可表示成以下演算法:. Z-群組={T1}. 計算各科別群組中症狀出現最大的前 2 項為:. Clustering-2() { for (j=1; j≤m; j++) for (i=1; i≤b; i++) if (di ⊆ Tj) Tj∈ di-群組; }. X-群組= max 前 2 個{A=1/3, B=3/3, C=1/3, D=1/3, E=2/3}= BE。 Y-群組= max 前 2 個{A=2/2, B=1/2, C=1/2, D=1/2, E=1/2}. 例如,假設就診資料包含有科別 d2,則將此就診資. = AB or AC or AD or AE。. 料歸屬於 d2-群組中。經由上述演算法的分群化步. Z-群組= max 前 2 個{A=1/1, B=1/1, D=1/1}. 驟,即可將包含有各科別項目之就診資料歸屬於各. = AB or AD or BD。. 科別的群組中。經由分群化之後,可在各科別群組 中計算出現次數最大的前 k 個症狀項目,其定義說. 再計算各科別群組與此一病患症狀之間的症狀相. 明如下:. 似度為: 各科別群組的症狀項目= max 前 k 個{在 di-群 組中各症狀項目出現的次數/在 di-群組中就診資料. X-群組= (BE∩BE)/2= 100%. 的總筆數},1≤i≤b。. Y-群組= (BE∩AB)/2 or (BE∩AE)/2= 50% 5.
(6) Z-群組= (BE∩AB)/2 or (BE∩BD)/2= 50%. 具有最大症狀相似度的科別群組為 X,因此,藉由 計算分群化之後的各科別群組之症狀相似度,找出 X 為輔助此一病患就診之科別項目的指引依據。. 五、輔助病患預診系統之實作 我們將前面章節所描述的探勘方法,應用到輔 助病患就診科別之指引系統的實作上,以C#為撰寫 的程式語言。在不失一般性的條件下,假設症狀項 目全部有26項,分別以A, B, C, …, Z來表示之,科 別項目全部有10項,分別以1, 2, 3, …, 9, 0來表示 之,並以亂數隨機產生每一筆就診資料,每一筆就 圖 2 以科別為群組之中心點的探勘執行畫面. 診資料包含有最多7個症狀項目與最多4個科別項 目,共產生500筆就診資料,以下為此一系統的探. 圖 3 表示點選「以某一病患症狀為群組的中心. 勘執行過程。. 點」的功能,並在「輸入病患症狀」欄位中輸入病 患症狀、及在「輸入最小症狀相似度」欄位中輸入. 圖1為此一系統的就診資料,包含「就診資料. 相似度值。假設目前輸入之病患症狀為 AB,最小. 編號」、「症狀」及「科別」等欄位資料。. 症狀相似度為 50%,經由第三章節演算法的探勘過 程,可在「群組」欄位中顯示出 AB-群組所包含的 就診資料,並在「就診科別指引」欄位中顯示出探 勘的結果,如圖 3。. 圖 1 就診資料. 圖 2 表示探勘畫面,其中包含有兩項功能選 項:「以科別為群組的中心點」與「以某一病患症 狀為群組的中心點」。假設目前點選「以科別為群 組的中心點」的功能,並在「輸入病患症狀」欄位 中輸入病患症狀。假設目前輸入之病患症狀為 AB,經由第四章節演算法的探勘過程,可在「群 組」欄位中顯示出各科別群組所包含的就診資料,. 圖 3 以病患症狀為群組之中心點的探勘執行畫面. 並在「就診科別指引」欄位中顯示出探勘的結果, 如圖 2。 6.
(7) 六、結論. 8.. K. Alsabti, S. Ranka, and V. Singh, “An Efficient. 隨著醫療的發展,醫療科別的分工也愈趨精. K-Means Clustering Algorithm,” PPS/SPDP. 細,在病患就診時,往往不知其症狀較合適於那一. Workshop on High Performance Data Mining,. 科別看診,如此結果不僅造成醫療資源的浪費,病. 1997.. 患也無法得到有效的醫療,甚至可能導致病情延誤. 9.. R. T. Ng and J. Han, “Efficient and Effective. 的情況。在本篇論文中,我們以病患每次就醫之就. Clustering Methods for Spatial Data Mining,”. 診資料為探勘的資料來源,並以目前某一病患症狀. Proceedings of the 20th International Conference. 為探勘目標,設計兩個簡單且快速的分群化方法,. on Very Large Data Bases, pp. 144-155, 1994.. 分別從以下兩方面來找出病患症狀與就診科別之 間的關聯性:一是以此一病患症狀為一群組的中心 點;二是以科別為群組的中心點。我們從以上兩個 方法所建立的群組中,分別找出與此一病患症狀最 具有關聯性的科別項目,藉此做為輔助此一病患症 狀應就診那一科別的依據。此探勘結果,對病患有 效就診並降低延誤就醫的風險、及提昇醫療院所的 服務品質,都可以提供非常有用的參考資訊。我們 根據所提出的方法,設計與建置一個輔助病患就診 科別的指引系統。. 七、參考文獻 1.. 陳世源,資料採礦技術在病例與藥品關連性之 研究,國立中山大學資訊管理研究所碩士論 文,1999。. 2.. 俞旭昇,以資料探勘技術發掘疾病隱藏關係之 研究,國立暨南國際大學資訊管理研究所碩士 論文,2002。. 3.. 吳國禎,資料探索在醫學資料庫之應用,中原 大學醫學工程研究所碩士論文,1999。. 4.. J. Han, and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2000.. 5.. M. S. Chen, J. Han and P. S. Yu, “Data Mining: An Overview from a Database Perspective,” IEEE. Trans.. on. Knowledge. and. Data. Engineering, Vol. 8, No. 6, pp. 866-883, 1996. 6.. L. Kaufman and P. J. Rousseeuw, Finding Groups in Data: an Introduction to Cluster Analysis, John Wiley & Sons, 1990.. 7.. R. C. Dubes and A. K. Jain, Algorithms for Clustering Data, Prentice Hall, 1988. 7.
(8)
相關文件
肺結核是可以治療的,必須長期服藥且連續規則服藥六個
而考量到 Covid-19 重症病患的需求,醫院的重症病床數量格外重要。根據統 計,在 OECD 國家間,每十萬人擁有之重症病床數量差距可達 10 倍(如下圖)。. 歐盟疾病管制局 (European
IRB 編號 SE20156A-1 計畫主持人 許佳茵 計畫名稱 思覺失調症病患疾病觀感對其遵囑服藥及精神症狀之影響 審查意見
liraglutide 對於第二型糖尿病病患的療效與安全性之臨床 試驗。 一個 26 週並再延長 26 週、隨機分配、三個治療
包含神經系統症狀及呼吸衰竭等 1 。腸病毒 D68 型最早是 1962 年時在美
(2) 「唯以分別安立」 ,表示對對象觀察透過分別心找出「性質」 「定
減少身體脂肪、降低患上癌症、心血管疾病和糖尿病的風險、促
减少身体脂肪、降低患上癌症、心血管疾病和糖尿病的风险、促