• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
79
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

PIIR - 一種運用資料探勘技術進行學校護理 人員的傷病登錄錯誤預防及潛在疾病預防的

機制

PIIR - Using the data mining technology proposed a prevention mechanism of injury and

illness registration

系 所 別:資訊工程學系碩士班 學號姓名:E09602004 李天華 指導教授:游坤明教授

中 華 民 國 100 年 8 月

(2)

摘 要

提升學生健康及生活品質的工作,在目前台灣的教育環境中以學校健康中心為 主。但大部份學校健康中心護理人員的編制遠低於規定適當比例,使得學校護理人員 需投入更多的時間與精力在業務的推動上,造成了護理及健康諮詢的服務品質降低,

在目前護理人員編制無法立即改善的情況下,本研究希望藉由改善學校健康中心的運 作流程來減輕學校護理人員業務負擔。

本研究透過分析目前健康中心的工作現況,找出目前工作流程可能發生的問題,

並應用資料探勘之分類技術及關連式分析技術,提出了學生傷病管理之傷病登錄錯誤 預防及潛在疾病預防機制並建立簡易操作作介面,簡稱PIIR(prevention mechanism of injury and illness registration),透過這個系統健康中心護理人員於登錄學生傷病資料 時,可降低將學生傷病記錄登載錯誤的機率,以建立更完整且正確的學生傷病資料 庫,當護理業務需進一步的分析學生傷病資料時,可大幅的降低護理人員於資料處理 時所需花費的時間及精力。同時透過本系統的潛在疾病推導機制,護理人員可同時獲 得學生健康檢查資料中檢查異常的項目及未被檢查出的潛在疾病。

因此,於執行健康諮詢保健時除實施健康檢查異常項目的諮詢外,也可將本系統 所推導出的潛在疾病納入諮詢時的參考,將可能發生的疾病加以預防,以達到預防勝 於治療的精神。如此也可降低護理人員在處理疾病時,所需花費的時間及精力。

關鍵詞:健康檢查、資料探勘、分類技術、關連式法則

(3)

ABSTRACT

To improve the student’s health and life quality, school health center plays an important role in Taiwan’s education environment. However, in the most of school, the number of nurses in the health center is less than the necessity proportion, which causes the school nurses to invest more time and energy in the business impetus, led to cut the service quality of nursing and the health consultation. In the paper, we present a mechanism to ease the suffering by analyzing present health center's working situation, and to discover the problem which may possibly occur during the working flow. By adopting the techniques of data mining, classification and associate rule analysis, we proposed a mechanism to prevent the possibility of incorrect registration of injury and illness.and created a simple operation interface, referred to as PIIR(prevention mechanism of injury and illness registration ). Moreover, by the aid of the proposed system, we can give advice to some students, who have the same sign of illness, about the potential diseases, when the nurse executes consultation of health care and consultation of abnormal item of physical examination.

Keyword :Physical examination、Data mining、Classification、Association Rule

(4)

誌謝辭

本論文能夠順利完成,首先要感謝指導教授游坤明博士在學業上的指導與照顧,

使學生受益匪淺。在論文指導期間,無論是主題的確定、研究方向的指引以及觀念的 導正,均給予最大得協助與指導,使我獲益良多,僅向老師致上最深的謝意。同時,

也要感謝學校護士車光惠小姐於論文寫作期間給予非常多護理專業知識的建議,讓我 對於護理專業知識能更加的清楚、瞭解。再者要感謝口試期間楊武老師、張西亞老師、

莊東穎老師、歐陽雯老師對學生提供寶貴意見及指導,使本論文更臻完整,再此致上 最誠摯的敬意與致謝。

接者要感謝的是陪伴我的好友,順忠、冠榮、永耀、瑞明、慶釗、享旭在學業上 等各方面的幫忙,彼此相互砥礪、加油,順利將論文完成,謝謝你們。最後感謝家人 的支持與鼓勵,讓我能如期完成碩士學位,僅將此論文的成果與喜悅與你們分享。

(5)

目 錄

摘 要 ... i

ABSTRACT ... ii

誌謝辭 ...iii

目 錄 ... iv

表目錄 ... v

圖目錄 ... vi

第一章 緒論 ... 1

第一節 研究背景 ... 1

第二節 研究動機 ... 2

第三節 研究目的 ... 4

第四節 研究架構 ... 4

第二章 文獻探討 ... 6

第一節 健康檢查 ... 6

第二節 學校健康中心傷病處理 ... 8

第三節 資料探勘(Data Mining ) ... 11

第四節 分類法則分析(Classification Rule Analysis) ... 16

第五節 關連性法則分析(Association Rule Analysis) ... 22

第六節 WEKA(Waikato Environment for Knowledge Analysis)軟體簡介 ... 29

第三章 研究方法 ... 31

第一節 研究方法架構 ... 31

第二節 資料蒐集與前處理 ... 32

第三節 資料分類法則 ... 40

第四節 關連式法則分析 ... 42

第四章 結果分析與探討 ... 46

第一節 決策樹分類法則 ... 46

第二節 關連式法則分析 ... 57

第五章 結論與未來研究方向 ... 67

第一節 結論 ... 67

第二節 未來研究建議 ... 67

(6)

表目錄

表 2.1 健康檢查之實驗室檢查項目及對象 ... 8

表 2.2 近年資料探勘在醫療與學校方面的研究 ... 16

表 2.3 某一商店的商品交易資料庫 ... 25

表 2.4 1-項目集的支持個數... 26

表 2.5 1-項目集的大型項目集... 26

表 2.6 2-候選項目集的可能組合... 26

表 2.7 所示 2-項目集的支持個數... 27

表 2.8 2-項目集的大型項目集... 27

表 2.9 3-項目集的候選項目集組合... 28

表 2.10 3-項目集的候選項目集 ... 28

表 2.11 符合最小信心水準的大型項目集 ... 28

表 3.1 原始學生傷病登錄資料 ... 33

表 3.2 學生健康檢查資料屬性 ... 34

表 3.3 前處理階段後之學生健康檢查資料屬性 ... 39

表 3.4 前處理階段後之學生傷病資料屬性 ... 40

表 3.5 整合後的學生健康檢查資料與學生傷病資料 ... 41

表 3.6 整合後的學生健康檢查資料 ... 43

表 4.1 經痛及胃痛區域的分析實驗結果 ... 47

表 4.2 經痛及腹痛區域的分析實驗結果 ... 49

表 4.3 胃痛及腹痛區域的分析實驗結果 ... 51

表 4.4 暈眩及發燒區域的分析實驗結果 ... 52

表 4.5 頭痛及暈眩區域的分析實驗結果 ... 53

表 4.6 頭痛及發燒區域的分析實驗結果 ... 55

表 4.7 各類傷病的規則統計表 ... 57

表 4.8 針對全部學生健康檢查資料來進行關連式分析產生的規則 ... 58

表 4.9 與學生傷病有關係的關連分析實驗的相關參數設定 ... 59

表 4.10 各類別關連分析實驗之頻繁項目集及規則數 ... 59

表 4.11 暈眩類別下的學生健檢的資料關連分析實驗結果 ... 60

表 4.12 發燒類別下的學生健檢的資料關連分析實驗結果 ... 60

表 4.13 經痛類別下的學生健檢的資料關連分析實驗結果 ... 61

表 4.14 胃痛類別下的學生健檢的資料關連分析實驗結果 ... 61

表 4.15 腹痛類別下的學生健檢的資料關連分析實驗結果 ... 62

表 4.16 頭痛類別下的學生健檢的資料關連分析實驗結果 ... 62

(7)

圖目錄

圖 1.1 學生傷病就醫流程 ... 3

圖 2.1 學生傷病處理詳細流程 ... 10

圖 2.2 資料探勘的過程 ... 12

圖 2.3 申請信用卡核發的概念決策樹 ... 19

圖 2.4 Apriori 演算法的流程... 24

圖 2.5 WEKA 主程式介面畫面... 30

圖 3.1 研究方法架構 ... 31

圖 3.2 三酸甘油脂(TG) 參考值範圍 ... 38

圖 3.3 學生傷病類別登錄錯誤的預防機制流程圖 ... 42

圖 3.4 學生潛在疾病預防建議的機制 ... 45

圖 4.1 學生傷病登錄介面 ... 64

圖 4.2 健康檢查之衛生保健諮詢介面 ... 65

圖 4.3 基本學生資料相關介面 ... 65

圖 4.4 各項報表介面 ... 66

圖 4.5 健康檢查異常項目之衛生保健諮詢資訊介面 ... 66

圖 4.6 健康檢查資料轉換成可供介面推導之參數設定介面 ... 66

(8)

第一章 緒論

目前國內教育環境中,學生健康管理的工作除各處室相互合作外,主要執行 單位仍以健康中心為主,健康中心主要的工作有健康檢查與管理、緊急傷病處 理、衛生諮詢等工作。學校衛生法第七條規定,高級中等學校四十班以上(含)

需設置護理人員一員,且學校護士和學生人數的適當比例為 1:750[36],但目 前大部份學校編制遠超過規定適當之比例,所以健康中心護理人員在業務推動上 有非常大的負擔。因此本研究透過分析目前健康中心的工作現況,找出目前工作 流程可能發生的問題並應用資料探勘的技術從現有的資料環境找出改善及降低 護理人員負擔的方法,讓健康中心的運作更為流暢。本章將分別在第一節說明本 研究的研究背景、第二節研究動機、第三節研究目的及第四節研究流程。

第一節 研究背景

依行政院衛生署衛生白皮書中指出確保學生健康是國家未來的保障之一,而 學生健康的工作常以校園為基礎。因此行政院衛生署與教育部於民國八十五年十 月三十日發佈「國民小學學生健康檢查實施辦法」,辦理學生健康檢查。並提供 健康檢查項目,做為國中以上學生健康檢查實施的藍本[14]。九十一年二月六日 公佈之學校衛生法中第六條規定「學校應指定單位或專責人員,負責規劃、設計、

推動學校衛生工作」[36]。因此學校應有健康中心之設施,作為健康檢查與管理、

緊急傷病處理、衛生諮詢及支援健康教學之場所」;第八條規定,學校應建立學 生健康管理制度,定期辦理學生健康檢查;必要時,得辦理學生及教職員工臨時 健康檢查或特定疾病檢查[36]。九十二年六月二十五日正式頒佈學生健康檢查實 施辦法,清楚規定各級學校實施健康檢查之對象、時間、方法、合作之醫院及檢 查後的相關處理[35]。

中華民國學校護理人員協進會於2005 國際護士節中所提出的「校園南丁格 爾的心聲」文章指出目前全國約有 1000 多所學校,校護與學生人數比約為

(9)

1:1500~3600,甚至有一名校護服務 5000 多名學生的學校[ 02],因此學校校護的 負荷實在過重,雖然學校衛生法第七條規定高級中等學校四十班需設置護理人員 一員[36],但目前仍無法確實落實,因此如何去減輕目前的護理人員負荷是值得 本研究去探討的。

第二節 研究動機

學校護理人員和學生人數的適當比例為 1:750 [28][20],但目前大部份學校 編制遠低於規定之適當比例,所以護理人員在業務執行上需花費更多的時間與精 力。分析目前健康中心及護理人員的工作流程,找出目前工作流程可能加以改進 的地方 ,藉以降低學校護理人員的工作負荷,為本研究主要的研究動機。透過 實際觀察健康中心及訪談護理人員的工作流程方面來著手,發現有下面兩點問題 可加以改善:

一、從分析學生傷病就醫流程方面來看:學生傷病就醫流程可分為下列五個步 驟:

(一)學生在校園內發生身體不適時,會到學生健康中心尋求協助。

(二)學生在健康中心首先會自我描述身體不舒服的症狀及特徵。

(三)健康中心護理人員會依學生所描述的情況及自身專業知識進行判斷,

並給予合適的傷病處理。

(四)依實際傷病處理的狀況登錄於學生傷病資料卡中。

(五)最後給予學生相關的預防保健之建議。學生傷病就醫流程如圖1.1 所 示。

(10)

圖 1.1 學生傷病就醫流程 從上述的流程中,本研究發現可能發生的問題有:

(一)學生在健康中心針對身體不適情況描述時,因缺乏疾病相關的知識,

對於不舒服的描述上或許不完全準確,例如:很多學生搞不清礎「腹 痛」和「胃痛」的差別,造成不正確的描述情況產生。

(二)經實際觀察發現學生至健康中心的時間經常集中在下課時段,下課時 間平均為10 分鐘,若突然有多位學生同時需傷病處理時,常會導致 校護在詢問學生那裡不舒服的病徵的時間減少,造成護理的品質降 低,且無法立即登錄學生傷病資料,因此可能會造成護理人員在事後 登錄學生傷病處理記錄時產生登錄錯誤的發生。

二、從給予學生疾病預防建議方面來看

教育部(1997)則於學校衛生工作指引中明確指出學校健康中心的業務包含 了疾病的預防[01],因此學校護理人員對學生疾病預防的提醒與叮嚀是非常重要 的一環,護理人員面對大量的學生,在疾病預防的提醒上,其參考的依據為學生 健檢資料及學生傷病統計資料為主。因此本研究希望透過資料探勘的方式,找出

給予學生相關 預防保健建議 學生不舒服到 健康中心就診

學生自行描述 不舒服狀況

護理人員依描述狀況 及專知能給予適當處 處理

登錄學生傷病 資料

(11)

更多學生可能潛在的疾病關連,提供學校護理人員更多的參考資料。

第三節 研究目的

基於以上的動機,本研究主要的目的在於加強學校健康中心的功能為出發 點,透過實際觀察學校健康中心運作及實地訪談學校護理人員的作業流程,利用 資料探勘的技術將學生健康檢查資料及傷病登錄資加以分析,提出了學生傷病管 理之傷病登錄錯誤預防及潛在疾病預防機制,透過這個機制來改善學校健康中心 的工作流程及減輕護理人員的工作量,以促使健康中心的功能更為完善。本研究 所發展的系統包含下列兩點的機制:

一、在學生傷病管理上,對於護理人員於登錄學生傷病處理資料時,系統能 夠即時偵測出護理人員可能將學生傷病登錄到錯誤類別的機制。

二、在健康咨詢及預防保健上,護理人員除了提供學生傷病及健康檢查的衛 生保健的建議外,透過本系統的推導機制,發掘出學生可能的潛在疾 病,並提供更多的衛生保健參考。

本研究運用資料探勘技術提出一個傷病登錄錯誤預防及潛在疾病關聯性分 析,簡稱PIIR(prevention mechanism of injury and illness registration,透過這個機 制的使用來降低護理人員傷病記錄登載錯誤的機率及增加健康檢查潛在疾病諮 詢的參考。

第四節 研究架構

本研究架構分為五個章節,分別敘述如下:

第一章 緒論: 說明本研究之研究背景、研究動機、研究目的及研究架構。

第二章 文獻探討:從文獻上就健康檢查的定義、學校健康中心的傷病處理 流程、資料探勘、分類法則、關連法則及 WEKA 軟體簡介等主題 加以探討。

第三章 研究方法:針對研究的目的,提出本研究架構,接著說明資料蒐集

(12)

與前處理的方法,並說明如何將資料以資料探勘的分類技術及關連 分析技術萃取出可用的規則,將這些規則以規則庫的模式儲在於學 校傷病管理系統中,並建立學生傷病管理之傷病登錄錯誤預防及潛 在疾病預防系統,供護理人員於登錄傷病資料時可能發生的錯誤來 驗證及潛在疾病預防建議使用。

第四章 研究結果分析與探討:說明整個研究過程及研究結果。

第五章 結論與未來研究方向:提出本研究的結論及未來研究的方向。

(13)

第二章 文獻探討

本章就健康檢查的定義、學校健康中心的定義功能、傷病處理流程、資料探 勘、分類法則分析及關連法則分析等相關領域加以整理。

第一節 健康檢查

一、健康檢查的定義

所謂的健康檢查就是疾病還沒有發生明顯症狀前,就主動接受檢查,確保各 重要器官系統構造與功能的正常,健康檢查的資料是由多種檢測項目所集合而成 的報告,透過報告可取得身體的各種檢測項目的測量值,讓受測者來檢視自已目 前的身體狀況[10][32],健康檢查是一種積極的保健方法,透過檢查早期發現疾 病早期矯治。

二、健康檢查項目

健康檢查的類別一般來說包含生理檢查、血液常規檢查、尿液與糞便常規檢 查、免疫血清檢查及血液生化檢查[20][28]。生理檢查包含肥胖度、血壓、聽力、

肺機能(肺活量)、心胸廓比(心肺比率)、視覺、眼壓等。血液常規檢查包含血 紅素量、紅血球量、血球比容、白血球數、血液像、血小板數、出血時間、外在 凝血因子時間(PT)、活性化部份內在及共用因子時間(APTT)、紅血球沉澱速 度及網狀紅血球數等。尿液與糞便常規檢查包含尿量、尿比重、尿潛血、尿蛋白、

尿沉渣、尿糖、尿、尿黃疸、NGA(N-Acetyl B- D glucosaminidase)、尿中小球蛋 白值、酮體、便潛血及寄生蟲卵等。免疫血清檢查包含 HBs 抗原、抗體、HCV 抗體、RA 檢驗(乳膠凝集反應)CRP(C 反應性蛋白)HIV 抗體、梅毒血清檢 查、血中自我抗體、ASO(ASLO)IgE(RAST 法)等。血液生化檢查包含 GOT、

GPT、血清總蛋白(TP)、A/G 比、r-GTP 及 LAP 等[10][32]。

汽車依不同的里程數,有不同的檢修重點,人體的健康檢查也一樣,不應該 每一年或每一次都做一樣的健康檢查項目或每年都像大拜拜一樣做相同的一整 套檢查項目,可能有些項目是多做了浪費,有些項目是少做了冒險。在定期健康

(14)

檢查方面,可參考國際上最具權威的專家團體美國預防服務任務小組(USPSTF) 及加拿大預防健康照顧任務小組(CTFPHC)及我國目前實施現況來當作準則,因 此對於層出不窮新奇篩檢項目,要冷靜並參考相關資料,不要以為嶄新、昂貴的 檢查就一定可以全安、快速地篩檢出您重要的疾病。

三、學生健康檢查

學校實施的健康檢查可分為定期及臨時健康檢查兩種[35],定期健康檢查方 面,依我國政府規定凡在學學生都必須接受健康檢查,各級學校健康檢查的時間 如下:

(一)國民小學:第一、三、五學年各檢查一次。

(二)國民中學:入學及畢業時各檢查一次。

(三)高中職及大專院校:入學及畢業時各檢查一次。

臨時健康檢查方面[37],如教師或醫護人員認為有必要時,可隨時實施臨時 健康檢查,例如:傳染病流行期間、認為有檢查之必要時。

學生健康檢查的項目,依教育部頒佈之學生健康檢查工作手冊[34]規定,我 國學生健康檢查項目內容包含常規性檢查(如身高、體重、視力檢查)、全身性 理學檢查(頭頸、胸腹、皮膚、四肢、口腔等檢查)、實驗室檢查(寄生蟲、尿 液、血液)及臨時性檢查(或為傳染性疾病檢查);其實施方式為常規性檢查由 各校人員每學期在校內實施;全身性理學檢查、實驗室檢查、X 光檢查,乃由學 校每三年於指定時間內委託各科醫療技術人員共同完成。本研究針對實驗室檢查 的項目及對象整理如表2.1

(15)

表 2.1 健康檢查之實驗室檢查項目及對象

類別 檢查對象 檢查項目

寄 生 蟲 檢 查

國小一、四年級及其他 有必要者

一般腸內寄生蟲及蟯蟲檢查 尿液檢查 國民中小學、高中職及

大專校院學生

尿蛋白(Protein)、尿糖(Glucose)、潛血檢查(Occult Blood)、酸鹼值(pH)。

Hb 血色素 g/dl

WBC 白血球 103 /μL RBC 紅血球 106 /μL Platelet 血小板 103 /μL MCV 平 均 紅 血 球 容

fl 血液常規

檢查

※ Hct 血球容積比 ﹪ SGOT 血 清 麩 胺 酸 草

醋酸轉胺酶

U/L 肝功能檢

SGPT 血 清 麩 胺 酸 丙 酮酸轉胺酶

U/L

Creatinine 肌酸酐 mg/dl Uric acid 尿酸 mg/dl 腎功能檢

※ BUN 血尿素氮 mg/dl 血脂肪檢

Cholesterol 膽固醇 mg/dl HBs Ag B 型肝炎表面

抗原

HBs Ab B 型肝炎表面 抗體

血液檢查 高中職學生、大專校院 學生、高危險群學生

血清免疫 學

Anti-HCV Ab C 型肝炎抗體 X 光 影 像

檢查

高中職、大專校院學生 及其他階段視情況需 要之學生

透過胸部X 光攝影檢查,由專科醫師判讀是否有肺 結核、脊柱側彎、胸廓異常、心臟擴大、支氣管擴 張、肺部纖維化、鈣化、腫瘤或其他異常、疑似病 徵等。

第二節 學校健康中心傷病處理

一、 學校健康中心的定義與功能

學校衛生法第一條明確的規定為促進學生及教職員工健康,奠定國民健康基 礎及提升生活品質,特制定本法,為落實學校衛生之實施[36],於第六條指出學 校應有健康中心之設施,作為健康檢查與管理、緊急傷病處理、衛生諮詢及支援

(16)

健康教學之場所[36],這也就是各級學校健康中心編制的主要依據。

在學校衛生團隊中包括行政人員、教師及校護等,其中校護的專業背景及從 事之工作直接提供學生健康服務、健康諮詢、健康指導,因此可說是學校衛生工 作之關鍵人物[49]。

健康中心的設施依97 年 5 月 22 日所公佈之各級學校健康中心設施基準第四 條所提到健康中心設備應由專業人員負責妥善管理[06]。一般高中職(含)以下 學校均由學校校護來負責,而健康中心的設置以學校中心點為適中,並考慮急救 時的動線、學生每日人次與數量健康檢查時學生容量等因素,其基本設備依各級 學校健康中心設施基準第九條規定明定出各級學校應設置的項目,其概分為辦公 設備、急救設備、健康檢查設備、外傷器材與敷料及休養設備等五大項[06]。

二、學生傷病處理方法

依教育部(2003)年所頒佈之教育部主管各級學校緊急傷病處理準則第四 條第三款規定,學校應規劃緊急傷病處理作業流程[15],各學校對於傷病處 理的流程大致相同,其流程概略如下:

(一)當學生生病或發生意外傷害

(二)由健康中心護理人員判斷評估

(三)由護理人員依學生況狀評估是否送醫,並通知相關人員

(四)評估處理,評估情況如下:

1.若評估送醫且屬緊急狀況,由護理人員偕同有關人員送至醫院就 醫。

2.若評估送醫但屬一般疾病,由家長或導師協助送醫。

3.若評估不需送醫,則由健康中心進行簡易傷病處理或於健康中心 休息,並通導師或學務處。

(五)確實登錄學生各項傷病資料、處理方式及就醫情形於學生健康資 訊系統中,若為重大傷害則需進行後續之追蹤治療情況,並給予 適當協助。學生傷病處理詳細流程如圖2.1 所示。

(17)

事故發生班級 保健室 醫院 急救

送醫

處理情形 回報

圖 2.1 學生傷病處理詳細流程

目前常見的學生健康資訊系統適用的對象仍以國中小學學生為主,高級

Y

N

Y

N

Y N

Y Y

N

Y 事故發生

老師、同學判斷是 否需護士處理

使用急救箱自行處理

請護理老師或教官協助

護士是否在 校

護士處理

是否送醫院 是否送醫院

1.非緊急情況可 由公務車協助送 醫 2.嚴重情況聯 絡救護車

醫院急救

1. 將處理情形填寫於偶 發事件處理報告表。

2. 處理情形回報校長、

主任、導師、家長。

1.處理患處或觀察 2.視情況繼續追蹤該 生情況

(18)

中等學校及大專之學生健康資訊化作業仍由各校自行建置或與民間業者採 購,其中高中職學校,礙於資訊能力及經費限制,仍有學校目前採用傳統紙 本登錄,對於學生各項健檢資料的運用及分析需花費相當大的人力及物力,

不但缺乏即時性,對於各項健康問題的預防也難以推動。目前適用於國中小 學之健康檢查系統的建置由教育部委託台中縣政府之萬豐國民小學自行開發 完成,該系統主要分為以下四個主要功能,

(一)資料處理:其中包含基本資料、健康資料、傷病登錄、傳染病登錄 及其他資料等建立與維護。

(二)報表清單:包含視力、生長發育、口腔檢查、預防接種、傷病、全 身檢查及其它。

(三)附屬功能:包含班級座號轉換、名條標籤。

(四)系統維護:包含學校資料設定、班級設定、健檢設定、實驗室檢查 設定、醫院設定、學期轉換、原始資料上傳、變更密碼、備份還 原等。

第三節 資料探勘(Data Mining )

資料探勘(Data Mining )是隨著資料庫技術及人工智慧發展的一種新興的技 術,從大量的資料庫中找出潛在、未知、有用的知識或規則,以提供我們作有義 意的分析與使用[21][13][50]。近年來資訊快速的發展,對於各領域的資料量也快 速的累積,如何從大量的資料中找出隱含的知識或規則受到業界及學者注意,因 此也促使資料探勘的技術不斷的被提出及應用。以美國著名的 Wal-Mart 為例,

將大量的商品銷售記錄進行分析,發現性質差異很大的啤酒與尿布在每個星期四 的時候,同時被購買的機率很高,經過實際銷售實驗發現,這兩個商品銷售業績 都有顯著提升。

一、資料探勘的定義及步驟

(19)

關於資料探勘的定義,各家學者的解釋都不一樣,以下分別描述幾位學者所 提出的定義:Frawley(1992)指出資料探勘是從大量的資料庫中挖掘出潛在、明確 且有用的資訊[47];Fayyad,Gregoy,and Smyth(1997)認為資料探勘是在知識發掘 (knowledge discovery)過程中的一步,將大量的資料進行資料處理、轉換工作,

利用特殊的資料探勘演算法從資料中萃取出特別的樣式及評估[42];Berry and Linoff(1997)指出資料探勘利用自動或半自動的方法,在大量的資料中探勘、分 析挖掘出有用的規則[41];A.Berson、S.Smith、K.Thearling(1999)認為利用一些 特定的技術,從大量的資料中找出有用但尚未被發現的模式,以建立一個可以預 測未來行為的決策模型。Bose and Mahaptra(2001)則定義資料探主要是從資料庫 中發現有趣的樣式,在決策時提供有用之決策參考 [45]。綜合以上學者對資料 探勘的觀點可以概略整理成資料探勘的的三個區塊,分別為探勘前的大量資料整 理、探勘時的特定技術及探勘後有效資訊或規則的評估及展示。一般而言,資料 探勘過程如圖2.2 所示。

圖 2.2 資料探勘的過程

(一)資料收集:依問題之定義,將所需的資料收集,其資料的種類,可以是 資料庫系統、Excel 表格、一些文字檔或是網際網路上的資料等。

(二)資料前置處理:一般來說所收集的資料其格式、內容相對比較雜亂,有 些資料並不見得是我們所需要的,為了有高品質的探勘結果需將資料做 進一步的整理,其主要的步驟分別為將各種不同類型的資料進行整合,

接著將不完整及不正確資料做清理,最後將資料內容轉換成資料探勘所 需之格式。

( 三 ) 資 料 探 勘 :Fayyad 等 人 (1997) 資 料 探 勘 是 在 知 識 發 掘 (knowledge discovery)過程中的一部份,利用許多統計分析與模型化的方式,從整理

(20)

後的資料中找到有用的知識,也就是規則。

(四)知識(規則)的評估與展示:資料所產生的規則不見得每一個都符合需 求,有些是有意義的、有些是沒有意義的,舉例來說:天氣好,旅遊的 人數較多;天氣差,旅遊的人數較少,像這種較屬於一般性的常識,產 生的價值似乎相對較小。因此需將探勘的結果進行過濾,並將這些價值 性較高的規則,利用圖形化的方式做一呈現,讓決策者訊速了解結果並 加以應用[21]。

資料探勘的是一個不斷重複及修正的過程,若發現那一個步驟有問題就會回 到上一個步驟去進行檢討和修正。對於探勘的結果不是很理想,也需重新再檢查 是不是資料前處理處理的不是很適當、探勘時所選擇之屬性是否需調整等等,如 此不斷的測試,才會有高品質的探勘結果。

二、資料探勘的模型

依據問題的定義與決策者的需求,選擇合適的資料探勘模型,才會有高價值 的知識產出,探勘模型主要分為下列四種:資料分類(data classification)、群集 化(clustering)、關連規則(association rule)、.序列模式(Sequential Modeling)。

[18][27]

(一)資料分類(data classification)

分類是資料探勘中最常被應用的一種模型,依據分析對象的資料屬性加以 分類,從分類中的資料找出特徵值,並利用這些特徵值建立一套有系統的分類 規則,也就是「若則法則」,當未來收集到新的且未知的資料時,可以利用此分 類 規 則 按 照 其 屬 性 的 特 徵 值 來 預 測 它 是 屬 於 那 一 個 類 別 中 (Han and Kamber,2000) [43]。例如依據信用卡申請者的教育程度、工作及過去的消費記 錄等資料來推估及預測申請者風險屬性為高、中、低度那一類的風險,以提供 決策者參考使用。常用的技術有決策樹、貝式分類法、記憶基礎推理等。

(二)群集化(clustering)

依分析資料屬性之間的關連,將特性較接近的資料予以歸類分成同一群,

(21)

找出同一群資料的相同特徵及不同群別的差異特徵(Wei and Kung,1999)。例 如:某知名連鎖店要開分店,地點的選擇是重要的一環,它可以對客戶資料進 行分群研究,找出最佳的開店地點。分群分類不同之處在於分類是在已知的類 別中,找出各屬性的特徵值,利用這特徵值加以分類,屬於一種監督式的學習 (supervised learning),而分群則不知道它會分成多少群別及每個群別的特徵值,

而是透過資料本身的相關性自動區隔成同一群,所以多少群及特徵值是事後才 知道的,屬於非監督式的學習(unsupervised learning)。常見的技術有分割式叢集 法 (Partition Clustering) , 其 中 以 K- 平 均 值 (K-means)(Kaufman and Rousseeuw,1990)[ 46]應用最多、階層式叢集法(Hierarchical Clustering)、密度式 叢集法(Density Clustering)、網格式叢集法(Grid Clustering)及模型式叢集法 (Model Clustering)(Han,2001)[ 44]。

(三)關連規則(association rule)

關連規則主要是找出資料項目間的關係,也可說是找出各個項目之間彼此 同時出現頻率較高的規則,並分析這些規則是否有用。吳充平(2005)關連式分 析和分類法不一樣其輸出的屬性可以不只一個,而且每一規則的輸出屬性都可 以當作另一規則的輸入屬性,基於這個概念可以發展出數以百計的關聯規則 [ 07]。例如:當客人購買了電腦且同時購買隨身碟的機率,經分析後是很高的,

便可以考慮將電腦及隨身碟做聯合促銷的活動。購物籃分析(market basket analyses)是關連規則最典型的應用,透過分析來協助店家決定進貨存量、貨品 擺設及評估促銷活動等。目前最常用的關連技術以Apriori 演算法(Agrawal and Srikant ,1994)[40]或改良 Apriori 演算法的 FUP(Fast Update Algorithm)、STD (Summary Top-Down) 演算法為主。

(四)序列模式(Sequential Modeling)

Han(2001) 序列模式探勘(Sequential Modeling Mining)其目的是要探勘出在 序列資料庫中頻繁出現項目,找出各項目之間的關連性[ 44]。例如:當客人購 買了電腦之後,三個月後會加購隨身碟的機率很高,便可以考慮事先提高隨身

(22)

碟的庫存量。郭文建(2002)。序列模式和關連規則不同之處在於序列模式強調 以時間做為區隔的。[16]

三、資料探勘應用

資料探勘是在大量的資料中找出未知且有效的知識(規則),提供給使用者 做為預測未來或決策的參考使用,目前社會上成功的案例很多,例如加拿大皇家 銀行將顧客進行資料探勘,將其結果提出各種不同的行銷方案,最後獲得「值得 客戶信賴的銀行」[21]。資料探勘在各行各業被普遍的應用,概略描述以下各領 域之應用:

(一)一般商業上的應用:在資料探勘的領域中,最常看到的就是市場推動 廣的應用,如顧客關管理(Customer Relationship Management,CRM)、

目 標 市 場 分 析 (Targeted Marketing anlysis ) 及 購 物 籃 分 析

(Market-Basket Analysis)。

(二)銀行保險業的應用:如證券分析師針對大量的交易資料所建立之交易 風險評估、客戶資產管理,保險業者對潛在客戶名單分析,銀行業者 對持卡人消費行為分析、貸款信用評估分析等。

(三)醫療產業的應用:如健康照顧的應用、預防醫學的應用、診斷方面的 協助、醫療行政的應用,如健保費審查方面的協助。

(四)學校教育的應用:如學校招生策略的分析、學生學習評量分析、課程 規劃的策略,學校衛生的應用及推廣等。本研究針對近年資料探勘在 醫療與學校方面的研究整理如表2.2 所示。

(23)

表 2.2 近年資料探勘在醫療與學校方面的研究 學者 年份 研究題目 摘要

游坤明 2004

分 群 技 術 與 資 料 探 勘 應 用 於 肝 功 能 檢 驗 與 疾 病 關 係之研究 [ 23]

隨著資訊發達,各醫院也累積了大量的醫療資料,利用 分群及關連技術找出肝檢驗與疾病的規則並配合醫療 專家的分群,相互驗證兩者之間的共同點與差異性,找 出有用的知識成為醫療資訊領域的重要課題。

吳志宏 2004

應 用 資 料 探 勘 技 術 分 析 健 康 檢 查 資料[08]

利用資料探勘之關連性法則的技術找出學生健康 檢定項目之間的隱藏關連性,將研究結果提供給學 校衛生行政單位作為落實學生健康檢查工作之參 考

王秋婷 2009 健 檢 資 料 探 勘 系 統[03]

主要建立健檢資料探勘系統,利用關聯法則找出受 檢者健檢資料項目存在之關聯性,及各檢查項目之 各年年變動之情況。找出受檢者之潛在危險因子。

吳充平 2005

資 料 探 勘 技 術 於 台 灣 地 區 國 人 健 康 狀 況 之 研 究 [ 07]

利 用 資 料 探 勘(Data Mining) 之 決 策 樹 (Decision Tree)和關聯規則(Association Rule) 的技術來探討 個人基本概況、健康檢查狀況、健康行為、睡眠狀 況及醫療利用五個層面,找出生活型態和健康狀況 之間的關係。

黃怡詔 2009

類 神 經 網 路 於 醫 院 員 工 健 康 趨 勢 預測之應用[ 26]

利用基因演算法算及倒傳遞式類神經網路找出生 活型態與健檢結果的相關比例關係。

林伊珊 2009

運 用 資 料 探 勘 於 生 活 型 態 與 疾 病 相 關 性 之 研 究 [ 09]

透過問卷方式調查教學醫院之醫護人員之生活型 態並結合健康檢查結果,利用略集合理論分析找出 生活型態及膽固醇之間的關聯性

楊欣明 2009 資 料 探 勘 在 健 康 檢 查 後 續 追 蹤 之 應用[30]

利用資料探勘之關連性法則的技術,找出醫療檢查 結果異常與門診之間的關連性,以提供一般民眾於 健康檢查後續追踨的參考。

第四節 分類法則分析(Classification Rule Analysis)

一、分類法則的定義

所謂的分類是指在現有的資料中,根據資料的屬性,歸納出這些資料的特徵 值,也就是規則,再依據所整理出的規則,產生一個分類的模型,當有新的資料 產生時,就可以利用這個分類模型來預測新資料所屬之類別,例如銀行業將目前 卡友的職業、消費行為、還款方式等各種資料進行分析,得到信用評估的分類模

(24)

型,當有新的信用卡申請前,即可利用這個分類模型做為發放、拒絕申請或是待 評估的一個參考依據。

二、分類法則步驟

分類法則的步驟可概略分為以下四點:

(一)資料前處理:其中以資料一般化及特徵屬性的選取最為重要。

1.資料一般化:所謂的資料一般化主要目的就是將連續性的資料離散 化,而屬性特徵的選取則是找出對分類具有關鍵性影響的屬性,刪除 無關的屬性,避免過多的屬性值導致分類的品質不理想。

資料資料離散化常用到的技術有人工分離法及不需人工介入的裝箱 法。所謂的人工分離法是針對連續的資料透過專家的建議、普遍的現 象或是本身的認知,將資料予以區隔化,例如將年齡的屬性依普遍的 現象可分為青年、中年和老年等。裝箱法主要有等寬裝箱法及等深裝 箱法這兩種,寬裝箱法概念為給予特定的箱子個數 n,將排序後的資 料依其最大值和最小值切割成n 個等寬箱子,也就是依每個箱子的寬 度將資料離散化;等深裝箱法概念為給予特定的箱子個數 n,資料排 序後依資料的數量切割成n 個數量相等的箱子,也就是依每個箱子的 可裝的數量將資料離散化。

2.特徵屬性是作為分類法則的分類依據,也就是所有的資料是被所選擇 的屬性加以區隔分成不同的子集合。特徵屬性的選取常用到的技術有關 連性測量法(Association Measurement)、鑑別能力測量法(Discrimination Measurement)及資訊量測量法(Information Measurement)等。關連性測量 法是用來測量資料屬性之間的關連度,當兩個屬性的關連度愈高,也就 代表說兩個屬性相互影響的程度也愈高,透過反覆的計算,可以得知標 的屬性和其它屬性的關連度。例如:會員資料中收入、教育程度、年紀 三者和會員等級的關係,若經計算結果為收入屬性和會員等級屬性的關 連度最高,將收入設為優先考量的特徵屬性。鑑別能力測量法用來測量

(25)

資料表中的其它資料屬性,對於標的資料屬性中的資料數值之鑑別能 力,鑑別能力愈高的資料屬性對於標的資料屬性愈具有重要性和影響 力。資訊量測量法用來測量資料集合中的其他資料屬性對於標的屬性的 資訊獲利(information gain),資訊量愈多者,其重要性愈高。

(二)建立分類模型:

目前分類法的應用領域是相當廣泛的,常見分類法的技術可分為兩個 區塊,分別為以決策樹為基礎的分類法和非決策樹為基礎的分類法。決策 樹(discision tree)為基礎的分類法依探勘資料類型的連續與否所採用的演 算法也不同。以離散資料為主的演算法有 ID3(Iterative Dichotmizer 3)、

C4.5、PRISM、CHAID,連續資料為主的演算法有 CART。非決策樹為基 礎的分類法常見的有貝氏網路分類法、(Bayesian network)、類神經網路法 (Neural Network)、K 最鄰近分類(K-nearest neighbor classifiers)、遺傳演算 法(Genetic algorithms)、模糊邏輯技術(Fuzzy logic)和記憶基礎推論法 (Memory-Based Reasoning)等。本研究採用的分類探勘方法是決策樹分類 法。決策樹分類(discision tree)是使用樹狀圖形來解決分類決策的一種方 法,圖2.3 為一個申請信用卡核發概念的決策樹範例,樹狀圖形包含了樹 的內部節點(node),每一個內部節點都代表一個測試的屬性,如圖 2.3 中 的教育程度、年齡及平均月收入。每個節點的分支(branches)代表測試屬 性的條件,如圖2.3 中的大學以上及大學以下。葉節點(leaf nodes)代表 的是一個分類後的類別,如核發信用卡=是。

(26)

圖2.3

圖 2.3 申請信用卡核發的概念決策樹 決策樹建立的步驟如下:

1.將所有的資料分為訓練樣本及測試樣本兩類,訓練樣本資料用於建立 決策樹模型使用,測試樣本用於評估所建立模型的準確性。訓練樣本 及測試樣本的選擇直接影響模型的產生及準確率,樣本選擇常見的方 法有訓練測試法(training-and–testing)及交互驗證法(cross-validation)。

所謂的訓練測試法指的是直接將所有的樣本分為獨立的兩類,一般來 說通常會挑選2/3 的資料當作訓練樣本,1/3 當作測試樣本。交互驗證 法又稱K 疊交互驗證法,指將資料分為 K 個樣本子集,拿其中 K-1 個 子集當做訓練樣本,剩下的一個子集當作測試樣本,如此反覆建立K-1 個不同的模型及 K-1 次的評估,將準確性最高的模型當做分類的依 據。這種方法可避免選擇到較差的分類依據且用於樣本數不多的情 況,唯建立模型所需花費的時間較長。而本研究所採用的就是K 疊交 互驗證法。

2.將選擇好的訓練樣本放在根節點,接著將選擇好的屬性當作分類的條 件,一般決策樹中當做分類條件的屬性,常見產生方式如ID3 演算法的 資 訊 獲 利(Information Gain) 來 決 定 。 本 研 究 是 採 用 J48(C4.5) (Quinlan,1986)為 ID3 演算法的改良[ 48],是以獲利比(Gain-Ratio)來選

(27)

擇屬性,就是透過正規化的動作以減少資訊獲利的偏見,主要是避免只 有屬性值較多的屬性被選取,例如當子集合中只有一筆資料時,資訊獲 利最大,但這種分割是沒有意義的。以下簡單描述 c4.5 演算法對於特 徵屬性的選取方式[19][25]:

(1)計算每一個屬性的獲利比(Gain-Ratio),獲利比的公式如下:

) ( /

) ( )

(

C G C SplitE C

GR

= ,G(C):指某一選取屬性 C 的資訊獲利,

G(C) 公式為

G

(

C

)=

E

(

T

)−

E

(

C

);E T Ti T Ti T

i

/ log /

) (

1

2

=

×

= ,

其中T:總資料數、Ti:屬於 i 類的資料數。

Cj Cji Cj

Cji T

Cj C

E

j i

/ log /

/ )

( 2

1 1

×

×

=

∑ ∑

= =

, C:某一選取的屬性;

Cj:是在 C 的屬性中,屬於 j 類的資料數,Cji:是在 Cj 中,屬於 第i 類的資料數。

Split E(C):為 C 的屬性對資料集合 T 進行分割所得的資訊獲利,

公式為 ( / )log ( / )

1

2 Cj T T

Cj

n

j

=

− 。

(2)比較每一屬性的獲利比,以獲利比最大的屬性當作是特徵屬性 3 依分類條件將訓練的資料分成獨立的子集合中,也就是將條件屬性值相

同的的分在同一集合中。

4 接著子集合中的資料再利用相同的方法找出分類條件的屬性,繼續的往 下分,一直到所有的資料都被分到同一類或分到沒有條件屬性可用即停 止。

(三)進行分類模型的評估:

當分類模型建立後,即可用測驗資料來進行模型準確率的評估,若有10 筆的測試資料,透過分類模型所分到類別和已知資料的類別有8 筆相同,則 此分類模型的準確率為80%。分類模型的評估除了準確率外,還有從速度及 品質上來評估,速度的評估以分類預測時間的評估為主,預測時間愈短,代 表模型的效率愈高,品質上的評估應避免決策樹過於複雜,造成規則太過特

(28)

殊,導致產生的模型只對某一個資料或某一組資料集有效,這也就是所謂的 分類法中過度遷就(over-fitting)的問題產生。避免決策樹過於複雜常用的方法 可分為預先修剪(prepruning)和事後修剪(postpruning)。預先修剪法是指在決策 樹建立的過程中,先行設定訓練資料數量和節點數量的比值,當比值低於規 定時,即停止分類。事後修剪是指在由決策樹自行建立後,然後將葉節點資 料量過少或該分支準確率較低的刪除,以確保決策樹不會過於複雜的象現發 生。本研究分為使用事先修剪,也就是事先設定葉節點之最小比例及事後修 剪將準確性過低的刪除。C4.5 演算法所採用修剪分式為事後修剪方法,利用 預估錯誤率(Estimation Error Rates)的值作為判斷的條件,從樹的葉節點往上 測試上一個節點所形成的子樹,計算葉節點的聯合預估錯誤率及上一節點的 預估錯誤率,若上一節點的預估錯誤率小於葉節點的聯合預估錯誤率,則將 葉 節 點 刪 除 , 並 將 上 一 節 點 更 改 為 葉 節 點 。 預 估 錯 誤 率 的 公 式 為

) , (

E N U

N ErrorRates

Estimation

= × CF ,也就是以二項式分配機率上限值作為

預估錯誤率的值,以

) \

, (E N

UCF 表示,而 CF 為信心因素值(confidence factor),N 為練訓資料中屬於該節點的個數,而 E 則是 N 中分配錯誤的資料 個數。[ 33]

(四)模型建立後的使用:

一般來說分類模型建立後的使用方式可分為預測及解釋兩個方面,所謂 的預測就是當有新的資料產生時,可以利用已建立的模型,預測出新資料可 能所屬之類別,例如有新申辦信用卡的資料產生,透過分類機制,將預測的 結果給決策人員作為信用卡核發與否的參考使用,而解釋就是指利用已建立 的模型去分析並說明該資料屬於某一類之因果關係。本研究針對分類所產生 的規則,加以判別學生傷病可能類別,以減少因人為登錄而產生的錯誤,也 就是預防的機制。

(29)

第五節 關連性法則分析(Association Rule Analysis)

現代的交易市場上存在著大量的商品交易資料,利用已存的資料找出商品和 商品、商品和顧戶之間的潛在資訊,利用這些資訊來發展各種客製化服務策略、

銷售策略、價格策略、庫存策略及商品擺放策略等以提高競爭能力,這些都是目 前交易市場積極研究的領域。找出潛在資訊的技術有非常多種,其中以關連式資 料探勘的技術最為普遍。關連式資料探勘也可以說是購物籃分析最代表的技術。

一、關連性法則定義

所謂的關連性探勘法則指的就從商品的資料庫中,找出可能相關連商品項目 之間的規則,關連性法則的形式為X→Y,其中 X、Y 代表商品資料庫中的不同 兩個商品項目集,其意義為當購買 X 項目集時,也可能同時購買 Y 項目集 [21][11]。例如在 3C 賣場中,購買筆電腦的人有 80%也會同時購買噴墨印表機,

表示方式為電腦→噴墨印表的機率有 80%。為了說明關連性法則的定義,先簡單 說明下列幾個名詞:

(一)項目集(Item set)

指的是單筆交易記錄中,各自獨立商品項目的組合稱之為項目集(Item set),通常以 K-項目集表示,例如有一筆交易記錄中有 A、B、C 三個獨立的商 品項目,即可能的項目集包含{A}{B}{C}{AB}{BC}{AC}{ABC}等 7 種組合。項 目集的組合數量為2n-1 種,其中 n 指的是有 n 種商品項目。項目集{ ABC }表示 為3-項目集。

(二)支持度(Support)

在所有的商品交易的資料中,出現某一項目集合 X 的次數,這個次數可稱 為所有交易對項目集X 的支持個數,而支持度指項目集 X 的支持個數佔所有交 易總數的比例,通常以Support(X)來表示,即公式如下:Support(X)=

T

X,其中T

為所有交易,例如有100 筆商品交易中資料,其中有 25 筆資料包含{筆電、印表 機}的項目集,該項目集的支持個數為 25、支持度為 25/100=0.25,支持度愈高即

(30)

愈能代表該項目集的重要性。

(三)最小支持度(Min Support)及大型項目集(large itemset)

最小支持度(Min Support)指的是在關連性法則的探勘中,其項目集在所有交 易中,應出現的最低次數稱之,也就是關連性法則支持度的最低門檻值,這個門 檻值的訂定也是關連性法則研究的重點,當門檻值太低,會產生過多規則而無所 適從,門檻值太高也有可能將有價值的規則被刪除。大型項目集指的是支持度大 於或等於最小支持度的項目集稱之。

(四)信心水準(confidence)及最小信心水準(Min confidence)

信心水準(confidence)指的是關連性法則所產生項目集合間關係的重要性數 據,其計算項目集合間的信心水準公式為:

支持度 支持度

X

Y X

,其中

X

∪ 支持度指

Y

的是X 項目集與 Y 項目集同時出現的次數佔所有交易的比例,而信心水準指的 是X 項目集與 Y 項目集同時出現的次數佔 X 項目集出現的比例,舉例說明,有 一規則為XÆY,其信心水準為 89%,則就代表在 X 項目集中,有 89%會出現 Y 項目集,而最小信心水準(Min confidence)則是衡量所產生的關連規則是否有意義 的最低門檻值,和最小支持度一樣,若門檻值太低代表所產生的關連規則不具有 參考的性質[12]。因此我們可以說最小支持度(Min Support)及最小信心水準(Min confidence)是滿足關連性法則的最基本條件。

二、 關連性法則步驟

關連式探勘法則的產生步驟和其它探勘技術一樣,步驟為(一)資料前處理、

(二)模型(規則)建立、(三)評估模型(規則)、(四)使用模型(規則),目 前僅針對規則建立的部分來說明。關連式探勘法則常用到演算法有 Apriori 演算 法、FPGrowth(Frequent Pattern Growth)、DHP(Direct Hashing and Pruning)演算 法、Partition 演算法、隨機取樣(Sampling)演算法、DIC(Dyanmic Itemset Counting) 演算法等,其中以Apriori 演算法最常用也最容易了解。

Apriori 演算法於 1994 年由 Agrawal 等學者所提出,其主要的概念是透過對

(31)

資料庫的掃瞄,利用結合(join)及刪除(prune)兩個步驟找出候選項目集,將符合 最小支持度的候選項目集稱之為大型項目集,不斷重複上面的動作,一直到沒有 大型項目的產生才進行下一個動作,找出符合最小信心水準的大型項集並產生項 目集之間的關連規則,最後進行關連性分析,以確保該規則的效果是有效的 [22]。步驟如圖 2.4:

圖 2.4 Apriori 演算法的流程

候選項目集的產生主要有結合(join)與刪除(prune)兩個步驟,結合步驟指的 若有兩個是K-1-項目集合,分別為 X1 及 X2 兩個項目集合,X1 項目集合中包含 有K-1 個項目,分別以 X1[ 1]、X1[ 2]….、X1[ K-1]表示,X2 項目集合以 X2[ 1]、

X2[ 2]….、X2[ K-1]表示,若要將 X1 及 X2 兩個項目集結合要符合兩個條件,條 件一:X1[ K-2]=X2[ K-2]、條件二:X1[ K-1]< X2[ K-1],也就是說假如 X1[ 1]=

(32)

X2[ 1]、X1[ 2]= X2[ 2]、X1[ 3]= X2[ 3]…….、X1[ K-1]< X2[ K-1]的情況下,將 X1 及 X2 兩個 K-1-項目集合結合成 K 項目集合,該 K 項目集包含 X1[ 1]、

X1[ 2]….、X1[ K-1]及 X2[ K-1]。刪除步驟指的是將上一步驟所產生之項目集合 進行檢驗,減少資料庫的搜尋時間。經由結合步驟所產生的項目集合不一定是大 型項目集,其可能的情況有兩種,一、若項目集合中有任一子項目集合不屬於大 型項目集,即可推得該 K-項目集一定不是大型項目集,根據這個推論,即可將 該項目集予以刪除,以減少重複搜尋資料庫的時間。另一則是項目集合中,每一 個子項目集合均屬於大型項目集,即該項目有可能是大型項目集,因此將該項目 集納入候選項目集,候選項目集通常以Ck 表示。

接下來舉一個簡單例子說明Apriori 演算法的過程[21][04]。某一商店的商品交易 資料庫共10 筆交易,每一筆的交易分成兩個區塊,分別為交易編號及商品名稱,

如表2.3 所示。

表 2.3 某一商店的商品交易資料庫 交易編號 商品名稱

1 BEG 2 ACDF 3 BFG 4 BDE 5 CF 6 BDF 7 ADE 8 ACE 9 BCE 10 ACE

步驟一、由使用者依探勘需求自行擬定最小支持度及最小信心水準,假定 最小支持度為30%、最小信心水準為 70%,因交易總筆數為 10 筆,可以算出最 小支持個數為10 X 30%=3;這兩個參數值,可依探勘出來的結果進行調整,以 找出最符合需求的規則。

步驟二、進行交易資料庫掃瞄。配合「結合」及「刪除」的兩個步驟產生候

(33)

選項目集,將10 筆交易資料進行分析,分別計算各項目集的支持個數,如表 2.4 所示,接著將 1-項目集的支持個數小於最小支持個數的項目刪除,得到 1-項目 集的大型項目集,如表2.5 所示

表 2.4 1-項目集的支持個數

表 2.5 1-項目集的大型項目集

從 1-大型項目集中,進行 2-項目集的候選項目集的可能組合,可能組合如 表2.6 所示。

表 2.6 2-候選項目集的可能組合 1-項目集 支持個數

交易 商品

1 2 3 4 5 6 7 8 9 10 小計 A 1 1 1 1 4 B 1 1 1 1 1 5 C 1 1 1 1 1 5 D 1 1 1 1 4 E 1 1 1 1 1 1 6 F 1 1 1 1 4

G 1 1 2

1-項目集 支持個數 A 4 B 5 C 5 D 4 E 6 F 4

A B C D E F A AB AC AD AE AF B BC BD BE BF C CD CE CF

D DE DF

E EF

F

(34)

表 2.7 所示 2-項目集的支持個數

針對所產生的組合,再一次進行交易資料庫的掃瞄,可以得到2-項目集的支 持個數,如表2.7 所示,接著將 2-項目集的支持個數小於最小支持個數的項目刪 除,得到2-項目集的大型項目集,如表 2.8 所示

表 2.8 2-項目集的大型項目集

從 2-大型項目集,進行 3-項目集的候選項目集的可能組合,可能組合如表 2.9 所示,其中{ABE}其中的{AB}子集合不是大型項目集,故於刪除步驟中刪 除、{BCE}、其中的{BC}子集合不是大型項目集,故於刪除步驟中將之刪除,

以避免不必要的資料庫掃瞄,故 3-項目集的候選項目集只有{ACE },針對所產 生的組合,再一次進行交易資料庫的掃瞄,如表 2.10 所示。因 3-項目集{ACE}

的支持個數小於最小支持個數,故3-項目集的大型項目集是空的。

2-項目集 支持個數

AB 0

AC 3

AD 2

AE 3

AF 1

BC 1

BD 2

BE 3

BF 2

CD 1

CE 3

CF 2

DE 2

DF 2

EF 0

2-項目集 支持個數 AC 3 AE 3 BE 3 CE 3

(35)

表 2.9 3-項目集的候選項目集組合 AC AE BE CE AC ACE ACE AE ABE ACE

BE BCE

CE

表 2.10 3-項目集的候選項目集

步驟三、將步驟二所產生的大型項目集進行最小信心水準的比對,如表 2.11 所示可知可以 A→C 及 A→E 是符合最小信心水準。

表 2.11 符合最小信心水準的大型項目集 大型項目集 商品 支持個數 X→Y 的關連形式 信心水準

A 4 B 5 C 5 D 4 E 6 1-項目集

F 4

無 無

A→C

A C A

=3/4=0.75 AC 3

C→A 3/5=0.6

A→E 3/4=0.75 AE 3

E→A 3/6=0.5 B→E 3/5=0.6 BE 3

E→B 3/6=0.5 C→E 3/5=0.6 2-項目集

CE 3

E→C 3/6=0.5

步驟四、將步驟三所產生的關連來產生規則並加以解釋,關連 A→C 表 示,當A 商品被購買情況下 B 商品也時會購買的情況有 75%,關連 A→E 表 示,當A 商品被購買情況下 E 商品也時會購買的情況有 75%。

步驟五、進行關連分析(Correlation Analysis),所謂的關連分析是利用計 算項目集之間的相關程度來預測所產生規則的使用效益。關連分析的計算公

3-項目集 支持個數 ACE 2

(36)

式如下:

支持度 支持度

支持度

y x

y corr

xy

x

×

= ∪ ,若Correlation>1,表示項目集 X 和 Y 項目

集是正相關的,代表說項目集X 出現會造成 Y 項目集的機會增加。也就表示 使用該規則的效益是比較明顯的。若Correlation=1,表示項目集 X 和 Y 項目 集是無相關的。若Correlation<1,表示項目集 X 和 Y 項目集是負相關的,代 表說項目集X 出現會造成 Y 項目集的機會減少。也就表示使用該規則的效益 是比較不佳的,因此可以選擇不要使用這個規則。

將 步 驟 四 所 產 生 的 規 則 進 行 關 連 性 分 析 , 5 1.5

. 0 4 . 0

3 . 0 =

= ×

×

= ∪

支持度 支持度

支持度

C A

C

corr

AC

A

,代表 A→C 是正相關的,因此

可以知道該規則是有顯著效果的。

6 1.25 . 0 4 . 0

3 . 0 =

= ×

×

= ∪

支持度 支持度

支持度

E A

E

corr

AE

A

代表A→C 是正相關的,因

此可以知道該規則是有顯著效果的。因此可以將上面2 個規則提供相關人員 使用。

關連式資料探勘在探勘的過程中,為了找出大型項目集需不斷的重覆掃 描資料庫,當資料庫量越大時,所需花費的時間也越多,因此有很多學者提 出如何降低掃描資料庫的方式,來減少資料探勘所需的時間,例如基於降冪 高頻項目二元樹之快速資料探勘演算法(游坤明,2005)提出的利用二元樹的 方式將掃描資料庫的次數降至兩次。

第六節 WEKA(Waikato Environment for Knowledge Analysis)軟體簡介

資料探勘的技術中,常見的應用軟很多,例如微軟 SQL SERVER、曾憲雄 DMAS(Data Mining Assistant System)[ 8]、WEKA、SPSS 等。本研究所使用 WEKA 資料探勘軟體為紐西蘭Waikato 大學所發展的,該軟體提供完整的功能給使用者

(37)

進行資料探勘,其包括有資料預處理、分類法、迴歸分析、叢集分析、關聯規則 及視覺化介面,且每個功能也者提供相當多的演算法供使用者選擇。該軟體是使 用JAVATM程式語言發展出來,且具有跨平台執行之功能[39]。WEKA 是屬於 Open Source Software,使用者下載安裝後即可使用,由於此軟體為共享軟體且功能 佳,因此本研究即使用WEKA 當作研究資料探勘的分析工具。WEKA 主程式介 面畫面如圖2.5 所示。

圖 2.5 WEKA 主程式介面畫面

(38)

第三章 研究方法

本研究首先提出研究方法的架構,其次說明資料蒐集及資料前處理的方法,

接著說明利用決策樹分類法則找出學生在健康中心傷病資料與學生健康檢查資 料之間的規則,再利用關連式法則找出學生健康檢查資料之間的相關規則,將這 些規則儲存於學生傷病管理系統之規則庫中,提出了學生傷病管理之傷病登錄錯 誤預防及潛在疾病預防系統,以提供護理人員在登錄學生傷病類別驗證及學生潛 在疾病預防建議使用。

第一節 研究方法架構

本研究利用新竹某高職學生歷年的「學生健康檢查」及「學生傷病」資料,

透過資料探勘的技術加以分析,尋找出可用的規則及資訊以完成下列兩個機制:

一、學生傷病類別登錄錯誤的預防機制。

二、更多學生潛在疾病預防建議的機制,研究方法架構,如圖3.1 所示

圖 3.1 研究方法架構

資料收集

健檢資料庫 傷病資料庫

資料前處理

關連法則探勘 決策樹分類探勘

樣式評估及萃 取規則

傷病登錄錯誤 預防及潛在疾 病預防系統 學生傷病規

則資料庫 健康檢查推

論規則資料 庫

(39)

第二節 資料蒐集與前處理

資料蒐集前須先釐清研究的主題及定義所需要的資料,本研究的研究主題為 應用資料探勘分析來協助「降低護理人員在登錄學生傷病資料時可能發生的錯 誤」及「提供更多潛在的疾病預防資訊」。首先要收集研究主題相關的資料,但 所蒐集的資料有些是不完整、不一致或是錯誤的,為提高資料探勘的品質,需將 這些資料做前置處理的步驟。

一、資料蒐集

本研究的資料來源分為兩大區塊,(一)學生健康檢查資料,資料提供單位 為健康檢查配合醫院,時間是從95 學年度至 98 學年度一年級新生入學健康檢查 資料,資料量約3 千 8 佰多筆資料,本研究主要研究的標的為高中日校學生,故 將補校學生及國中部學生健檢資料予以去除,扣除後資料量為2 千 4 佰多筆。(二)

學生傷病登錄資料,資料提供單位為學校健康中心,時間是97 學年度至 98 學年 度一、二、三年級之學生傷病資料,涵蓋了95 至 98 四個年度的新生資料,資料 量約2 千 9 百多筆。原始學生傷病登錄資料包括有三個區塊,分別為學生基本資 料、傷病類別登錄資料及傷病處理資料區塊,合計十九個屬性。學生傷病登錄資 料屬性如表3.1 所示

(40)

表 3.1 原始學生傷病登錄資料

區塊名稱 屬性名稱 資料類型 屬性值或描述

姓名 文字 學生姓名

班級 文字 學生班級

座號 文字 學生座號

學生基本資料

日期 文字 年、月、日

頭痛 文字 是、否

暈眩 文字 是、否

發燒 文字 是、否

胃痛 文字 是、否

腹痛 文字 是、否

經痛 文字 是、否

傷病類別登錄

其他 文字 除頭痛等六項以外

之傷病類別

冷敷 文字 是、否

熱敷 文字 是、否

休息觀察 文字 是、否

通知家長 文字 是、否

轉送就醫 文字 是、否

衛生教育 文字 是、否

服藥 文字 是、否

傷病處理

其它處理 文字 除冷敷等七項以外

之傷病處理

原始學生健康檢查資料中,每一筆記錄的屬性名稱包括有九個區塊,分別為 基本資料、一般檢查、尿液常規檢查、血液常規檢查、肝功能檢查、腎功能檢查、

血脂肪檢查、肝炎檢查、牙科檢查,合計五十個屬性。學生健康檢查資料屬性如 表3.2 所示。

(41)

表 3.2 學生健康檢查資料屬性 區塊名

稱 屬性名稱 資料

類型 屬性值或描述

檢查序號 數值 流水號 班別 文字 學生班級 座號 數值 學生座號 姓名 文字 學生姓名 性別 文字 男、女 學生基

本資料

疾病史(中學) 文字 學生自我描述病史 身高 數值 學生身高

體重 數值 學生體重

理想體重 數值 依學生身高計算出的理想體重 男生:(身高-80)*0.7

女生:(身高-70)*0.6

BMI 指數 數值 依學生身高、體重計算出的 BMI 值 BMI=體重(KG)/身高的平方(M2

體型 文字 過輕、正常、過重、肥胖第一型、肥胖第二型、肥胖 第三型,其計算公式如下:

重高指數=體重(KG)/身高(CM)/重高常數 重高指數 評估

<0.89 過輕 0.9~1.09 正常 1.1~1.19 過重

>=1.2 肥胖(第一型)

>1.4 肥胖(第二型)

>1.6 肥胖(第三型)

重高指數(WLI)評估方法同時兼顧影響兒童及青少 年體重的三項因素:性別、年齡及身高

收縮壓 數值

舒張壓 數值 項目 收縮壓 舒張壓 高血壓 >140 >95 疑似高血壓 140-159 90-94 正常血壓 101-139 61-89 疑似低血壓 90~101

低血壓 <90 <50 視力 文字 裸、矯(參考值:0.7~2.0 正常)

右眼 數值 0.1~2.0 左眼 數值 0.1~2.0 一般檢

辨色力 文字 正常、色弱、異常

(42)

聽力(右) 文字 正常、異常 聽力(左) 文字 正常、異常 報告摘要 文字

U-PRO 文字 尿蛋白(正常人尿液中含有微量蛋白),分-(陰) -

+(偽陽性) +(陽性) ++(陽性過度異常)

參考值-~-+正常)

U-OB 文字 尿潛血(正常尿液中不含血液),分-(陰) -+(偽 陽性) +(陽性) ++(陽性過度異常)參考值

-~-+正常)

U-GLU 文字 尿糖(參考值-~-+正常)

尿液常 規檢查

U-PH 數值 酸鹼值 PH>8 酸性、PH<5 鹼性(參考值 5~9 正常)

WBC 數值 白血球(參考值 4.3~10k/ul 正常)

RBC 數值 紅血球(參考值 3.7~5.5m/ul 正常)

Hgb 數值 血紅素(參考值 11~16g/dl 正常)

HCT 數值 紅血球容積比(參考值 37~47%正常)

MCV 數值 平均紅血球容積(參考值 82~100fl 正常)

MCH 數值 平均紅血球容積色素量(參考值 27~32pg 正常)

MCHC 數值 平均紅血球容積色素濃度(參考值 31~36g/dl 正常)

血液常 規檢查

PLT 數值 血小板(參考值 120~400k/ml 正常)

SGOT 數值 麩草酸轉胺酵素,存於心肌、肝臟、骨骼、腎臟等器 官之酵素,數值過高代表這些部位可能有病變(參考 值5~40U/L 正常)

肝功能 檢查

SGPT 數值 麩丙酮轉胺酵素數值代表肝細胞受損程度。(參考值 5~40U/L 正常)

BUN 數值 尿素氮(參考值 5~25mg/dl 正常)

CREA 數值 肌酸肝(參考值 0.6~1.4mg/dl 正常)

腎功能 檢查

U.A 數值 尿酸(參考值 2.3~7.1mg/dl 正常)

T.CHOL 數值 膽固醇(參考值 120~200mg/dl 正常)

血脂肪

檢查 TG 數值 三酸甘油脂(參考值 35~170mg/dl 正常)

HBsAg、 文字 B 肝抗原(-陰性、+陽性)

肝炎檢

查 HBsAb 文字 B 肝抗體(-陰性、+陽性)

HBsAG HBSaB 臨床意義

陽性 陰性 通稱B 肝帶原者

陰性 陽性 曾經感染B 肝,已具免疫力 陰性 陰性 未曾感染或表面抗體過低 齲齒(C) 文字 指蛀牙

待拔牙(/) 文字 缺牙(X) 文字 已矯治( ) 文字 △ 口腔衛生、 文字 牙科檢

胸部X 光 文字 正常、異常

(43)

物理檢查 文字

二、資料前處理

為要有高品質資料探勘結果,需要有高品質的資料輸入, 因此需將資料作 前置處理,資料前處理步驟主要包括資料整合、資料清理及資料轉換等。

(一)資料整合

學生健康檢查之委託醫院,高中職階段由教育部中部辦公室委託中央信託局 辦理集中採購,以招標公告得標醫院名單由學校自行聯絡後雙方合作辦理,學校 學生健康檢查的合作醫院需經過公開公正的原則招標,基於這個原因,各年度新 生健康檢查的合作醫院都不一樣,各醫院輸出的格式及檢查項目也略有不同,因 此需進行屬性名稱一致性的調整。例如紅血球容積比有些醫院以HCT 表示有些 則以HT 表示,有些年度有進行 ABO 血型及 RH 檢查,但有些沒有。接著進行 將重複的屬性去除動作。所謂的屬性重複是指某一屬性資料可由其它屬性資料透 過推導計算而得到,如「體型」是透過身高、體重及 BMI 值推導出來,為減少 資料探勘所花費的時間,所以可將身高、體重之屬性加以去除。

(二)資料清理

1.減少資料集的資料量:首先刪除與本研究無關或與學生隱私有關的屬性,

如檢查序號、齲齒(C) 、待拔牙(/)、 缺牙(X) 、 已矯治( 、)口腔衛生、△ 胸部X 光物理檢查等以減少資料量。

2.專業護理人員建議:健康檢查項目概分為一般檢查、尿液檢查、血液常規 檢查、肝功能檢查、肝炎病毒檢查、血脂肪檢查、腎功能檢查等,每一 區塊檢查都包括不同的檢查項目,如尿液檢查中包含有酸鹼度(U-PH)、

尿蛋白(U-PRO)、尿血清(U-OB)、尿糖(U-GLU),為減少資料探勘所花的 時間及成本,進行資料屬性的精簡,依據專業護理人員的建議,從各檢 查區塊中, 挑選一到二個檢查項目來代表此區塊,如尿液檢查則以尿蛋 白(U-PRO)來代表。

參考文獻

相關文件

temperature T (in C) as a function of the height h (in kilometers), assuming that a linear model is appropriate.. (b) Draw the graph of the function in

Textbook Chapter 4.3 – The substitution method for solving recurrences Textbook Chapter 4.4 – The recursion-tree method for solving recurrences Textbook Chapter 4.5 – The master

Textbook Chapter 33.4 – Finding the closest pair of points.. Closest Pair of

‹ ‹ A product term A product term implicant implicant is called a prime is called a prime implicant implicant if it cannot be combined with another term to. if it cannot be

Textbook Chapter 4.3 – The substitution method for solving recurrences Textbook Chapter 4.4 – The recursion-tree method for solving recurrences Textbook Chapter 4.5 – The master

Just as for functions of one variable, the calculation of limits for functions of two variables can be greatly simplified by the use of properties of limits. The Limit Laws can

Particles near (x, y, z) in the fluid tend to rotate about the axis that points in the direction of curl F(x, y, z), and the length of this curl vector is a measure of how quickly

The Vertical Line Test A curve in the xy-plane is the graph of a function of x if and only if no vertical line intersects the curve more than once.. The reason for the truth of