第二章 文獻探討
第三節 資料探勘
二、躁鬱症對醫療資源利用情況
躁鬱症除了造成國家財政的重大負擔外,也可能引發社會問題,如患者的攻 擊與犯罪行為…等事件,常成為許多研究者關注的焦點(蘇文碩,2002)。Frye, Calabrese, Reed, et al.(2005) 發現患有躁鬱症的老人常因未即時診斷出患有 躁鬱症而有使用其他醫療資源的情形(田維華,研究計畫)。美國國家心理健康協 會(National Mental Health Association)所作之實證研究(2001)亦發現,2001年 間美國境內約有283,000人飽受嚴重心理疾病(如躁鬱症、精神分裂症)等之影 響,每年約有113,000,000美金消耗在相關治療上,對個人生活與工作功能之正 常運作及社會之完整性均造成嚴重之影響(吳全峰,2009)。
第三節 資料探勘 一、資料探勘的定義
資料隨著時間的增加而與日俱增,在這大量的資料中隱含著有用之資訊,而 這些存在於電腦資料庫中的資料,如不經過處理、分析根本是一堆沒有用處的 垃圾,必須透過一些方法或技術,將資料整理、分析轉換成有用的知識、資訊,
稱之為資料探勘。
有人稱資料探勘為資料庫之知識發掘(Knowledge Discovery in Databases, KDD),即為從複雜大量的資料中,由儲存在資料庫的原始資料,經由選定目標、
資料前處理、資料轉換、資料探勘、解釋與評估至知識呈現的一連串過程,而 資料探勘為KDD 其中的一個重要過程,如圖2-1所示。
圖2-1 知識發掘流程圖
資料探勘就是從資料庫中找出有用資訊的一種過程與技術,針對大量的資料 進行處理,以發掘、萃取、得到存在於資料中的知識,找出隱含在其中的訊息、
人們事先不知道的、但又是潛在有用的資訊或知識,也就從資料中挖掘其寶貴 的資訊與知識。
Fayyad等人(1996)與Chen(1996)等者認為從資料中發現有用知識的過程又 稱為資料庫之知識探索(KDD, Knowledge Discovery in Databases),如圖2-1。
Brachman(1996)認為知識探索是由一組龐雜的工具支援以達成知識加強的工
作。資料庫知識探索運用智慧型和自動化工具支援分析大量資料以獲取重要知 識的技術,過程包括資料選取(Selection)、資料前置處理(Preprocessing)、資料 轉換(Transformation)、資料探勘、解釋與評估(Interpretation and evaluation) 等步驟(Fayyad, et al., 1996a)。根據Berry & Linoff(1997)的定義,資料探勘就 是針對大量的資料,利用自動化或半自動化的方式進行分析,以尋找出有意義 的關係或法則。
二、資料探勘之應用範圍
近年來資料探勘技術逐漸受到重視與發展,其研究應用範圍也相對的變廣,
是一種跨領域的技術,其包含了商業管理、生產控制、市場行銷分析、工程設 計、交通事故與生物醫學…等等科學研究(陳俊賓,2005)。
陳垂呈、戴良安、董志源、韓志賢、王筱薇(2005),利用資料探勘技術於醫 療院所輔助病患就診科別之研究,透過分群化技術來做為探勘就診資料的方法 依據,並以某一病患症狀為探勘的目標,從以下兩方面來探討輔助此一病患症 狀之就診科別的指引:一是以此一病患症狀為中心點;二是以各科別項目為中 心點。其分別找出與此一病患症狀最具有關聯性的科別項目,藉此做為輔助此 一病患症狀應就診那一科別的依據。
莊宗南、龔榮源、陳俊龍(2006),利用資料探勘技術建立病患就醫導引-以 胃腸科病患為例,透過高效率之關聯規則探勘演算法(QDT)來歸納出各疾病與其 可能症狀的高頻項目組,再以決策樹(Decision Tree)分類方法推論症狀與疾病兩
者之間的關係,可瞭解其可能發生的疾病。實驗結果顯示,可以幫助胃腸科患 CHAID(Chi-Square Automatic Interaction Detector), CART(Classification and Regression Trees)等(Hastie et al, 2001)。其中 CART 是由 Breiman, Friedman, Olshen, and Stone 所開發的資料探勘和預測演算法(1984)。
CART全名是「分類和迴歸樹」,如同ID3也是用來進行分類和提供決策的,
而CART以每個節點的動態臨界值作為判斷式。另外,CART決策樹的根到每一 個樹葉節點的分類路徑上,同一個屬性可以被重複檢驗,一級可以透過不斷分 割的方式,來提高分類的準確率,但也提升決策樹的複雜度和降低規則的可理 解性(丁一賢、陳牧言,2006)。
CART藉由單一輸入的變數函數,在每一個節點中選擇最佳分隔變數,我們 依次考量每一個解釋變數,在進行Binary Studies以後,希望找出降低分散度(或 稱亂度)最多的最佳分隔法(蔡瑾佩,2004)。
Gini Index主要是針對數值型態的屬性來做分類(曾憲雄、蔡秀滿、蘇東興、
曾秋蓉、王慶堯,2005)。則假設樣本集合D中包含n類樣本,pj為資料類別j出現 的機率,樣本集合D的Gini Index索引值定義為:
四、關聯法則(Association Rule Mining)
就零售業超級市場而言,針對每一交易項目,分析會一起交易的項目組 合有哪些,著名的例子是MBA(Market Basket Analysis),分析超級市場交易中,
很可能會與某一商品一起購買的其他商品(如牛奶與麵包、尿布與啤酒)。
關聯法則最早是由Agrawal et al. (1994)所提出。關聯法則的目的是找出資 料庫中可能相關聯的項目。假設X為一個項目集,一個項目集的支持個數被定義 為支持項目集X的交易總數而支持度則是支持項目集X的個數佔全部資料總數的 比例。所以關聯法則必須滿足事先設定的兩個參數,最小支持度(Minimum Support)和最小信心水準(Minimum Confidence),過程需使用Apriori演算法來找 尋出資料庫中經常出現項目集合且符合最小支持度和最小信心水準(張普瑞,
2009)。
其Apriori演算法主要在大量的資料集中建立關聯規則候選項目的集合,並且 計算每一個候選項目出現的數目,然後依據所設定的支持度來衡量此候選項目 使否符合成立關聯規則。Apriori演算法中常用的用詞之定義如下(丁一賢、陳牧 言,2006):
Itemset:項目的集合
K itemset:項目集合中包含有k個項目
Frequent itemset:頻繁項目集,符合最小支持度的項目集合 Lk:最大頻繁itemset的集合 Davidhizar(1986) 、 Mantoakis(1985) 研 究 精神分裂症病患對藥物 Therapeutic Chemical (ATC) index 作分類 修正版(Wecheler Adult Intelligence
Scale-Revised) 等 等 之
究之預測變數,再藉由 料庫1999-2003年之住 院醫療費用清單明細檔
與出生年月日串連門診
、變異數分析、Scheffe 氏事後檢定、複迴歸分
第三章 研究方法