文獻探討 - 資料挖掘在實證醫學上之研究－以闌尾切除、疝氣、糖尿病、胃出血為例; Data Mining Technique Researching on Evidence-Based Me

隨著組織資訊化程度的不同，過去一般都認為，用電腦替代手工，用電腦報表替代手寫資料就稱為資訊化，以現在的眼光而言，這些只能稱為「自動化」。自動化過程會在資料庫中產生無數龐大的資料，而這些資料一般都只是平時的交易記錄，有效的利用資料庫進行資訊的獲取，進一步產生知識或規則才是歷史資料的最大貢獻。隨著競爭環境的加劇，如何能夠快速有效的從資料庫中取得有用的資訊，

並從交易記錄中進行推論，即時反應市場或消費者的需求，成為各企業組織急欲尋找的答案。資料挖掘所要處理的問題，就是在龐大的資料庫中尋找出有價值的資訊，並且加以分析，以形成知識。

一、資料挖掘的意義

所謂資料挖掘也有人譯為資料採礦，就是「從大量的資料庫中，

找出相關的模式(Relevant Patterns)，並自動地萃取出可預測的資訊。」

【15】,而這當中最重要的是「自動化」的過程，否則組織很難有利可圖，Witten【9】等人認為「發現資料模式為自動化或半自動化過程，且必須有意義並帶來利益」，之所以譯為「採礦」，就是要從如山的龐大資料中，像開採寶物一樣的開採有用的資訊。這樣的概念並非首創，統計學裡的迴歸分析和盛行的資料庫管理系統也具備類似的功

能，但前者通常先有假設後再去驗證這個假設是否正確；後者對資料庫進一步的分析能力有限。只有資料挖掘是兼具統計與機器學習的技術，建立能自動預測的模型，同時可以與商業資料倉儲(Commercial Data Warehouse)結合，發展出有價值的商業用途。

資料挖掘必須搜集大量資料，理論上資料量愈多準確性越高，但各資料間卻不須要有明顯的關係。挖掘的特性是利用各種統計方法，

找出一些沒有預期的交易傾向，再按照分析所得來的知識調整商業運作的模式。

根據 Fayyad 等人的定義，資料挖掘是資料庫的知識探勘 (Knowledge Discovery in Database:KDD)過程中的一個步驟【7】，但事實上，KDD 也可視為是整個資料挖掘的過程，KDD 在 1989 年第一次被提出，它強調知識是資料導向的最終產品。由於傳統關聯式資料庫管理系統 (Relational Database Management System:RDBMS)的設計，是以組織功能的角度來定位，因此各種資料會以功能導向的方式被分別儲存在不同的資料庫中，彼此間並被定義成某程度的關聯。要分析的資料常是各欄位值彼此的關係，此分析方式不是關聯式資料庫的主要運作方式，使用者無法輕易的從中獲取有用的資訊。

在 Fayyad 等人的研究中，KDD 建構了完整的知識發現流程，如圖 2.1【7】所示，步驟說明如下：

1.理解資料與定義資料：準備並了解 KDD 相關領域的有關情況，熟悉有關的背景知識，並弄清楚用戶的需求。

2.創造目標資料：資料的選擇是根據用戶的要求從資料庫中擷取與 KDD 相關的資料，主要從這些資料中進行知識擷取，在此過程中，

會利用一些資料庫操作對資料進行處理。

3.去除錯誤資料與清理資料：資料需預先經過處理主要是對階段 2 ? 生的資料進行再加工，檢查資料的完整性及一致性，對其中的錯誤資料進行處理，對遺漏的資料可以利用統計方法進行填補，對繁蕪的資料進行清理。

4.資料的濃縮與轉變：資料濃縮是對經過預先處理的資料，根據知識發現的任務對資料進行再處理，主要透過鏡射的方式或資料庫中的其他操作減少資料量。

5.發展模式與假設：確定 KDD 的目標，根據用戶的需求確認 KDD 是發現何種類型的知識，因? 不同需求會在具體的知識發現過程中採用不同的知識發現演算法，選擇合適的演算法包括選取合適的模型和參數，並使得知識發現演算法與整個 KDD 的評判標準相一致。

6.資料挖掘：運用選定的知識發現演算法，從資料中擷取出用戶所需要的知識，這些知識可以用一種特定的或一些常用的方式表示。

7.測試與檢核所挖掘的資料：將發現的知識以用戶能了解的方式呈現出來。這期間也包含對知識一致性的檢查，以確信本次發現的知識不與以前發現的知識相抵觸。

8.解釋與運用挖掘的知識：對發現的模式進行解釋，在此過程中，?

了取得更? 有效的知識，可能會重複前面的處理步驟反覆擷取，從而提取出更有效的知識。

Data

Target Data

Preprocessed Data

Transformed Data

Patterns

Knowledge

Selection

Preprocessin g

Transformation

Data Ming

Interpretation Evaluation

圖 2-1 資料庫的知識探勘(KDD)流程資料來源：fayyad 等(1996)

二、資料挖掘的模型與方法

現有資料挖掘技術中，已有不少較為成熟且廣泛被應用的理論模型。不同的資料模式下，選擇不同的資料挖掘技術，將影響執行的效率與產出結果的適切性。現針對一些常見的資料挖掘模型與方法說明如下：

1.模型

在資料挖掘的一般理論中，藉由以下的模型來發揮其應用的功能：

A.分類(Classification)

根據不同的物件特性建立其屬性變數，當新物件加入時，可以利用屬性變數加以判斷分類。例如昂貴跑車及豪華房車的消費群可能多半是年輕的都會新貴及年紀稍長有錢人的不同分類。

B.推估(estimation)

推估所得到的結果通常是連續性的數值。藉由某些己知資料的輸入，我們可以利用推估來得知某未知連續變數的值，例如收入、高度或信用卡結餘。實際應用上，要進行分類常會用到推估，例如銀行要判定那些顧客需要房屋貸款，通常會利用模型將每個顧客評分，這些評分就是每位顧客對房屋貸款有興趣的機率推估【13】。

C.預測(Predictive Modeling)

以一個或多個獨立變數來找出某個標準(Criterion)或因變數的值

就叫做預測。任何預測都可視為分類或推估，但其中仍有不同點，因為在預測中，會根據某些未來行為的預測來分類，或推估某變數未來的可能值。在預測工作中，要檢視分類結果的正確性，只能等待其發生後再加以觀察。例如：預測那些電話用戶會申請加值服務，如三方通話或語音信箱。

D.群聚分群(Clustering Segmentation)

群集化是將許多不同的群組，分成一些更相似的子群組或群集。

群集化和分類的不同點在於群集化並沒有預先定義好類別【13】。它利用最近距離法做分群基礎，目的在於找出群與群之間的不同，以及同一群內各個個體的相似點【15】。

E.同質分組或關聯規則(Affinity grouping or association rule)

同質分組的目的是判定那些事物會一起出現，又稱聯合性分析 (Association Analysis)。典型的例子就是購物籃分析，即判定超市中，

那些物品會一起被購買。零售連鎖商店可以利用同質分組來規劃店內商品的擺設，也可以讓公司掌握交叉銷售的機會。

F.描述及視覺化(Description and visualization)

有時資料挖掘的目的，只是單純想用更容易瞭解的方式，來描述 一個複雜的資料庫中發生了什麼事。資料視覺化是一種強而有力的描述式資料挖掘。像一張適當的圖表，會比一千條關聯規則更有價值，

因為從圖像來粹取有意義的資訊對人類所言總是容易多了【13】。

G.順序(Sequential Modeling)

以金融業為例，到銀行開戶的顧客中有 70%的人同時也會申請提款卡，且平均在兩個月內會有申請信用卡的行為發生，這樣的分析就是「順序」的研究結果【15】。

2.常見方法

A.關聯式法則(Association Rule)

在資料挖掘技中，關聯式法則是最常被採用的方法之一，又稱購物籃分析（Marketing Basket Analysis），屬於資料導向的行銷

（Data-Driven Marketing），主要目的是在企業交易紀錄資料庫中，

找出銷售項目間的關聯性，以期獲取較高的利潤。初期是運用在超級市場上，藉由顧客以往的購買紀錄，分析那些產品通常是一起被購買。例如購買手電筒的顧客，有 86%的顧客會買電池。根據分析出的購物模式，將這些可能被一起選購的產品組合，放置在賣場位置相近的地方，以增加購買機會，並減少顧客尋找的時間。同時亦可以做為超商進貨或存貨的參考。

關聯式法則的表示形式為：T 代表顧客單次所採購的項目，假設交易資料庫 D 為所有交易記錄（transactions）T 的集合。令 I 是所有商品項目集合，I={i₁,i₂,i₃,… .,i_m}，其中 m 是資料庫之相異商

品。因此 T 為 I 中子集合，表示為 T

⊆

I。關聯法則的表示形式可以定義為：在已知一個集合 X

⊆

T 的情況下，若 X

⊆

I，Y

⊆

I，且 X

∩

φ

，則 X

⇒

Y。其中，X、Y 為項目集合【1】。

關聯式法則的產生可以籍由下個參數來決定：支持度

（Support）及可靠度（Confidence）；支持度定義物項在資料庫中所出現的比例，而可靠度定義此關聯式法則可信的程度。

現在假設一超市有六筆交易紀錄，所購買物品如下：

交易一：打火機、香菸、報紙交易二：報紙、速食麵

交易三：香菸、打火機交易四：報紙、可樂

交易五：打火機、香菸、速食麵交易六：香菸、可樂

現在假設發現一關連法則為「如果購買香菸的顧客，那麼也會購買打火機」其中，「購買香菸」稱為條件（condition），「購買打火機」稱為結果（result），相關參數的說明如下：

1.支持度：又稱涵蓋率（coverage），為資料庫中符合 X∪Y 的交易記錄佔全部交易之百分比，記為 support（X∪Y）。以上述六筆交易紀錄為例，有三筆交易包含了香菸和打火機，

因此支持度為 3/6=50% 。支持度表示法是非方向性的

（undirected），若關連法則從反方向思考，改為「如果購買打火機的顧客，那麼也會購買香菸」，支持度仍然是 50%。

2.可靠度：又稱準確率（accuracy），顯示出此關連法則的可信度。表示法為：在已知 X 出現的條件下，Y 也會出現的條件機率。數學式為 support（X∪Y）/support X。延續上述「如果購買香菸的顧客，那麼也會購買打火機」的例子，其支持度為 50%，顧客購買香菸為其條件，支持度為 66.67%，因此可靠度為 0.75（

≅

50%

÷

66.67%）。相較於支持度，可靠度

≅

50%

÷

66.67%）。相較於支持度，可靠度

在文檔中資料挖掘在實證醫學上之研究－以闌尾切除、疝氣、糖尿病、胃出血為例; Data Mining Technique Researching on Evidence-Based Medicine:Case Study of Appendectomy,Hernia,diabetes,Gastric Hemorrhage (頁 14-36)