• 沒有找到結果。

資料蒐集與前處理

在文檔中 中 華 大 學 (頁 39-47)

第三章 研究方法

第二節 資料蒐集與前處理

資料蒐集前須先釐清研究的主題及定義所需要的資料,本研究的研究主題為 應用資料探勘分析來協助「降低護理人員在登錄學生傷病資料時可能發生的錯 誤」及「提供更多潛在的疾病預防資訊」。首先要收集研究主題相關的資料,但 所蒐集的資料有些是不完整、不一致或是錯誤的,為提高資料探勘的品質,需將 這些資料做前置處理的步驟。

一、資料蒐集

本研究的資料來源分為兩大區塊,(一)學生健康檢查資料,資料提供單位 為健康檢查配合醫院,時間是從95 學年度至 98 學年度一年級新生入學健康檢查 資料,資料量約3 千 8 佰多筆資料,本研究主要研究的標的為高中日校學生,故 將補校學生及國中部學生健檢資料予以去除,扣除後資料量為2 千 4 佰多筆。(二)

學生傷病登錄資料,資料提供單位為學校健康中心,時間是97 學年度至 98 學年 度一、二、三年級之學生傷病資料,涵蓋了95 至 98 四個年度的新生資料,資料 量約2 千 9 百多筆。原始學生傷病登錄資料包括有三個區塊,分別為學生基本資 料、傷病類別登錄資料及傷病處理資料區塊,合計十九個屬性。學生傷病登錄資 料屬性如表3.1 所示

表 3.1 原始學生傷病登錄資料

區塊名稱 屬性名稱 資料類型 屬性值或描述

姓名 文字 學生姓名

班級 文字 學生班級

座號 文字 學生座號

學生基本資料

日期 文字 年、月、日

頭痛 文字 是、否

暈眩 文字 是、否

發燒 文字 是、否

胃痛 文字 是、否

腹痛 文字 是、否

經痛 文字 是、否

傷病類別登錄

其他 文字 除頭痛等六項以外

之傷病類別

冷敷 文字 是、否

熱敷 文字 是、否

休息觀察 文字 是、否

通知家長 文字 是、否

轉送就醫 文字 是、否

衛生教育 文字 是、否

服藥 文字 是、否

傷病處理

其它處理 文字 除冷敷等七項以外

之傷病處理

原始學生健康檢查資料中,每一筆記錄的屬性名稱包括有九個區塊,分別為 基本資料、一般檢查、尿液常規檢查、血液常規檢查、肝功能檢查、腎功能檢查、

血脂肪檢查、肝炎檢查、牙科檢查,合計五十個屬性。學生健康檢查資料屬性如 表3.2 所示。

表 3.2 學生健康檢查資料屬性 區塊名

稱 屬性名稱 資料

類型 屬性值或描述

檢查序號 數值 流水號 班別 文字 學生班級 座號 數值 學生座號 姓名 文字 學生姓名 性別 文字 男、女 學生基

本資料

疾病史(中學) 文字 學生自我描述病史 身高 數值 學生身高

體重 數值 學生體重

理想體重 數值 依學生身高計算出的理想體重 男生:(身高-80)*0.7

女生:(身高-70)*0.6

BMI 指數 數值 依學生身高、體重計算出的 BMI 值 BMI=體重(KG)/身高的平方(M2

體型 文字 過輕、正常、過重、肥胖第一型、肥胖第二型、肥胖 第三型,其計算公式如下:

重高指數=體重(KG)/身高(CM)/重高常數 重高指數 評估

<0.89 過輕 0.9~1.09 正常 1.1~1.19 過重

>=1.2 肥胖(第一型)

>1.4 肥胖(第二型)

>1.6 肥胖(第三型)

重高指數(WLI)評估方法同時兼顧影響兒童及青少 年體重的三項因素:性別、年齡及身高

收縮壓 數值

舒張壓 數值 項目 收縮壓 舒張壓 高血壓 >140 >95 疑似高血壓 140-159 90-94 正常血壓 101-139 61-89 疑似低血壓 90~101

低血壓 <90 <50 視力 文字 裸、矯(參考值:0.7~2.0 正常)

右眼 數值 0.1~2.0 左眼 數值 0.1~2.0 一般檢

辨色力 文字 正常、色弱、異常

聽力(右) 文字 正常、異常 聽力(左) 文字 正常、異常 報告摘要 文字

U-PRO 文字 尿蛋白(正常人尿液中含有微量蛋白),分-(陰) -

+(偽陽性) +(陽性) ++(陽性過度異常)

參考值-~-+正常)

U-OB 文字 尿潛血(正常尿液中不含血液),分-(陰) -+(偽 陽性) +(陽性) ++(陽性過度異常)參考值

-~-+正常)

U-GLU 文字 尿糖(參考值-~-+正常)

尿液常 規檢查

U-PH 數值 酸鹼值 PH>8 酸性、PH<5 鹼性(參考值 5~9 正常)

WBC 數值 白血球(參考值 4.3~10k/ul 正常)

RBC 數值 紅血球(參考值 3.7~5.5m/ul 正常)

Hgb 數值 血紅素(參考值 11~16g/dl 正常)

HCT 數值 紅血球容積比(參考值 37~47%正常)

MCV 數值 平均紅血球容積(參考值 82~100fl 正常)

MCH 數值 平均紅血球容積色素量(參考值 27~32pg 正常)

MCHC 數值 平均紅血球容積色素濃度(參考值 31~36g/dl 正常)

血液常 規檢查

PLT 數值 血小板(參考值 120~400k/ml 正常)

SGOT 數值 麩草酸轉胺酵素,存於心肌、肝臟、骨骼、腎臟等器 官之酵素,數值過高代表這些部位可能有病變(參考 值5~40U/L 正常)

肝功能 檢查

SGPT 數值 麩丙酮轉胺酵素數值代表肝細胞受損程度。(參考值 5~40U/L 正常)

BUN 數值 尿素氮(參考值 5~25mg/dl 正常)

CREA 數值 肌酸肝(參考值 0.6~1.4mg/dl 正常)

腎功能 檢查

U.A 數值 尿酸(參考值 2.3~7.1mg/dl 正常)

T.CHOL 數值 膽固醇(參考值 120~200mg/dl 正常)

血脂肪

檢查 TG 數值 三酸甘油脂(參考值 35~170mg/dl 正常)

HBsAg、 文字 B 肝抗原(-陰性、+陽性)

肝炎檢

查 HBsAb 文字 B 肝抗體(-陰性、+陽性)

HBsAG HBSaB 臨床意義

陽性 陰性 通稱B 肝帶原者

陰性 陽性 曾經感染B 肝,已具免疫力 陰性 陰性 未曾感染或表面抗體過低 齲齒(C) 文字 指蛀牙

待拔牙(/) 文字 缺牙(X) 文字 已矯治( ) 文字 △ 口腔衛生、 文字 牙科檢

胸部X 光 文字 正常、異常

物理檢查 文字

二、資料前處理

為要有高品質資料探勘結果,需要有高品質的資料輸入, 因此需將資料作 前置處理,資料前處理步驟主要包括資料整合、資料清理及資料轉換等。

(一)資料整合

學生健康檢查之委託醫院,高中職階段由教育部中部辦公室委託中央信託局 辦理集中採購,以招標公告得標醫院名單由學校自行聯絡後雙方合作辦理,學校 學生健康檢查的合作醫院需經過公開公正的原則招標,基於這個原因,各年度新 生健康檢查的合作醫院都不一樣,各醫院輸出的格式及檢查項目也略有不同,因 此需進行屬性名稱一致性的調整。例如紅血球容積比有些醫院以HCT 表示有些 則以HT 表示,有些年度有進行 ABO 血型及 RH 檢查,但有些沒有。接著進行 將重複的屬性去除動作。所謂的屬性重複是指某一屬性資料可由其它屬性資料透 過推導計算而得到,如「體型」是透過身高、體重及 BMI 值推導出來,為減少 資料探勘所花費的時間,所以可將身高、體重之屬性加以去除。

(二)資料清理

1.減少資料集的資料量:首先刪除與本研究無關或與學生隱私有關的屬性,

如檢查序號、齲齒(C) 、待拔牙(/)、 缺牙(X) 、 已矯治( 、)口腔衛生、△ 胸部X 光物理檢查等以減少資料量。

2.專業護理人員建議:健康檢查項目概分為一般檢查、尿液檢查、血液常規 檢查、肝功能檢查、肝炎病毒檢查、血脂肪檢查、腎功能檢查等,每一 區塊檢查都包括不同的檢查項目,如尿液檢查中包含有酸鹼度(U-PH)、

尿蛋白(U-PRO)、尿血清(U-OB)、尿糖(U-GLU),為減少資料探勘所花的 時間及成本,進行資料屬性的精簡,依據專業護理人員的建議,從各檢 查區塊中, 挑選一到二個檢查項目來代表此區塊,如尿液檢查則以尿蛋 白(U-PRO)來代表。

3.錯誤資料刪除:為確保資料之正確性,將有缺漏或錯誤的資料予以直接去 除,例如學生傷病資料部份,只登記到了該生的班級座號,而沒有登記到 最重要的傷病種類,或是明明是男性學生,但傷病類別卻是登記在「經痛」

的類別,這些會直接影響到資料探勘品質的部份,將直接予以刪除。

(三)資料轉換

不同類型的資料探勘技術,其需求的資料型態也不一樣,因此將原始整理 後的資料作轉換成合適的資料型態才進行探勘的工作。

依研究目的其使用的資料探勘技術為資料分類法則及關連式法則兩種,因此 需進行資料轉換的動作。第一步將連續的資料進行離散化,使得數值資料得以精 簡。資料數值分離的技術採人工分離法,人工分離法的依據如下:

1 由醫院所提供之「健康檢查報告參考」,例如,白血球(WBC)檢查,其 正常的參考值範圍為 4.3-10K/ul,因此依據這個參考值先行將數值資料 作初步的分類,白血球檢查值<4.3 以白血球過低來表示、白血球檢查值

>=4.3~<=10 以白血球正常來表示、白血球檢查值>10 以白血球過高來表 示。

2.現行的健康檢查項目參考值範圍常被分為過高、正常及過低這三種型 態,為了發掘出更多可能潛在的疾病,因此參考專業護理人員及相關文 獻(藍國誠,2009)的建議[39],修改部份健康檢查值的參考範圍,增加 了「疑似過高」及「疑似過低」兩個區域,這兩區域範圍的計算為該檢 查項目參考值範圍的15%為主,以血脂肪檢查項目中的三酸甘油脂(TG) 為例,其參考值範圍為35-170mg/dl(毫克/分升)為正常範圍,<35 mg/dl 以過低表示、>35~<=55.25 以疑似過低表示、>55.25~<=149.75 以正常 表示、>149.75~<=170 以疑似過高表示,>170 以過高表示。如圖 3.2 所 示

圖 3.2 三酸甘油脂(TG) 參考值範圍

經資料整合、資料清理及資料轉換等資料前處理階段後,所得資料如下:

(一)學生健康檢查部份:該資料的每筆資料所包含的屬性有檢查序號、班 別、姓名、性別、體型、血壓、視力、U-PRO、WBC、Hgb、SGOT、

SGPT、T.CHOL、TG、HBsAg、HBsAb 共計 17 個屬性,資料筆數為 2,341 筆。學生健康檢查資料屬性如表 3.3 所示[ 29]。

表 3.3 前處理階段後之學生健康檢查資料屬性 屬性 資料類型 屬性值描述

檢查序號 數值 流水號

班別 文字 學生班級

姓名 文字 學生姓名

性別 文字 男生及女生

體型

文字 體型-正常、、體型-肥胖(第一型)、體型-肥胖(第 二型)、體型-肥胖(第三型)、體型-過重、體型 -過輕

血壓

文字 血壓-正常、血壓-低血壓、血壓-低血壓疑似低血 壓、血壓-高血壓、血壓-高血壓疑似高血壓、疑似 低血壓、疑似高血壓

尿蛋白(U-PRO) 文字 尿蛋白-偽陽性、尿蛋白-陰性、尿蛋白-陽性、尿蛋 白-陽性(過量)

白血球(WBC) 文字 正常、過低、過高、疑似過低、疑似過高 血紅素(Hgb) 文字 正常、過低、過高、疑似過低、疑似過高 麩 草 酸 轉 胺 酵 素

(SGOT)

文字 正常、過高、疑似過低、疑似過高 麩丙酮轉胺酵素數

(SGPT)

文字 正常、過高、疑似過低、疑似過高 膽固醇 (T.CHOL) 文字 正常、過高、疑似過低、疑似過高 三酸甘油脂(TG) 文字 正常、過高、疑似過低、疑似過高

B 型肝炎 文字 B 肝帶原者、未感染或具有抗體、曾經感染 B 型 肝炎

(二)學生傷病資料部份:該資料的每筆資料所包含的屬性有班級名稱、姓名、

座號、頭痛、暈眩、發燒、經痛、胃痛、腹痛共計8 個屬性,資料筆為 2 千 2 佰 多筆。學生傷病登錄資料屬性如表3.4 所示。

在文檔中 中 華 大 學 (頁 39-47)

相關文件