• 沒有找到結果。

第三章 研究方法與步驟

第三節 資料處理及分析

本研究所有資料均以 SAS(Statistical Analysis System)統計套裝軟體 8.2 版進行各項資料之統計分析,結果表格整理使用Microsoft Excel 2003。本節共分成七 大部分,分別為:

第一部分:電焊技術士世代資料檔建立

第二部分:電焊技術士各項癌症之標準化發生率比

(standardized incidence ratios, SIRs)

第三部分:電焊技術士各項癌症證照年累積發生率比

(cumulative incidence ratios, CIRs)

第四部分:電焊技術士各項癌症之標準化死亡率比

(standardized mortality ratios, SMRs)

第五部分:電焊技術士各項系統器官疾病之標準化疾病發生率比(standardized incidence ratios, SIRs)

第六部分:電焊技術士罹患人體各系統器官之所有疾病盛行率(prevalence)

第七部分:電焊技術士團體職業傷亡之統計分析

第一部分:電焊技術士世代資料檔建立

個人基本資料,由現有之 63 年至 93 年 3 月通過行政院勞工委員會中部辦公室一 般手工電焊、氬氣鎢極電焊及半自動電焊技能檢定考試並持有執照之技術士共16,512 位。其中,一般手工電焊技術士為13,979 位、氬氣鎢極電焊技術士 1,741 位及半自動 電焊技術士為 792 位(表 1)。所有個案之基本資料由行政院勞工委員會中部辦公室 技術師證照資料庫中以職類搜尋一般手工電焊、氬氣鎢極電焊及半自動電焊技術士之 各項個人基本資料,並以勞保單位被保險人檔串聯至勞保事業單位資料檔以區分其業 別及工作縣市;其中個案之存殆情況及主要死因,係以行政院衛生署疾病死亡登記檔

取得(該項資料是以死亡診斷書為依據;其包含死亡原因及死亡日期);職業傷病資 料則以勞保住診查保結果檔及勞保現金給付主檔取得;並進一步取的所有個案之住院 及門診資料檔與各項癌症登記檔。住院資料檔係以勞工保險局住院資料與中央健康保 險局住院資料中取得。各項癌症登記檔則以行政院衛生署自68 年迄今所建立之癌症 登記資料檔中取得。

一、世代資料庫處理

此部分主要在說明原始資料結構、變項形態,以及資料庫軟體化後關於資料庫正 規化處理原則。

1. 資料格式

由勞委會所得之相關原始資料庫為純文字格式檔案,本研究以SAS 8.2 進行資料 讀取、切割及轉檔,主要取其 1.可容納大量資料;2.資料處理速度快;3.可將處理資 料過程以程式記錄下來;4.可依照研究需要進行資料檢查及無效資料清除。處理完成 的資料一律輸出為dBase IV 格式(副檔名 dbf),可確保處理時的資料內容及格式獲 得紀錄,並相容於多種軟體,以利後續相關的資料處理。

2. 資料結構處理

涉及個人隱私的資料庫在實際使用上有相當程度的困難,由於資料庫是以資料表 形式(Data table)散佈,在實際應用時必須透過連結兩個以上的資料表來取得研究需 求的變項資料,這些變項中往往不乏個人資料,若未得原始同意之範圍或隱私保護不 當 , 很 可 能 因 此 侵 犯 了 個 人 隱 私 權 。 因 此 資 料 管 理 單 位 大 多 保 持 高 度 機 密 性

(confidentiality)及高度安全性(security),國內目前大多一「個人資料保護法施行 細則」進行。一般來說,處理方式大致分為三類:

1) 不提供個人隱私資料:由於流行病學研究大多是觀察族群的狀態,非著眼單一個 人現象,因此資料管理單位會將個人隱私資料例如:姓名、身份證號、電話、地 址、收入等保留,不提供給資料索取者,由資料管理單位依據資料索取者的需求

進行資料庫連結,這往往也限制了資料索取者後續研究的範圍。

2) 資料轉碼:將隱私資料透過一定複雜規則進行轉碼(scramble),例如身份證號,

再提供給資料索取者,這種作法可以提供研究者可自行透過轉碼後的欄位進行資 料庫連結,但也因此無法與外部其他資料庫連結,降低了資料庫擴充性。

3) 簽署同意書:資料索取者透過簽署同意書保證資料的安全性,而資料管理單位則 提供完全詳細的資料庫,但同意書審查嚴密不易取得,時效短。

本研究由於日後資料庫形式將以軟體方式儲存使用,顧及整體資料隱私及安全 性,將採取資料轉碼的方式。而各資料檔案之間串檔利用「序號」進行,此序號乃由 技術士證號依照特殊規則所轉檔產生,各資料檔案使用相同規則,因此可應用作為串 檔的索引欄位,主要是考量個人資料隱私保護,因此在本研究最後的資料庫軟體中,

將無詳細的個人資料。

3. 資料處理原則

為了保持原始來源資料的完整性,本研究資料庫軟體建立過程中將不做任何的資 料清除動作,因此在 SAS 處理的語法中,沒有任何清除指令。另外,為了避免資料 庫過大所造成的風險,除了記錄個人資料的「勞工委員會中部辦公室技術士證照資料 庫」、「勞保單位被保險人檔」、「勞保事業單位資料檔」三個檔案因為同屬於個人資料,

因此合併為單一「個人基本資料檔」以外,其餘的檔案將不再做任何合併動作,按資 料分類來儲存獨立檔,可以避免資料毀損的風險,也是正規化工作中的重點。

二、資料品質控制 1. 程式自動化轉檔

許多錯誤的發生往往是因為人為的疏失造成,因此為了避免處理這類龐大資料時 所產生的失誤,影響資料的正確性及完整性,在資料的轉檔整理過程中採用SAS 8.2 以程式語法來進行轉檔,將所有處理過程以程式撰寫紀錄,直接套上來源純文字檔案 資料進行轉檔,如此可避免過多程序造成的人為失誤。

2. 譯碼簿製作

資料庫軟體程式撰寫時採用主動式資料索引,也就是先於程式中建立各資料表的 譯碼簿,其中記錄了欄位名稱、欄位代號、格式、字元長度、相關備註等資訊,當使 用者操作時軟體將依照所建立的譯碼簿連結取得實際對應的資料庫資料,這樣的作法 可以確保資料庫及譯碼簿絕對一致,不一致將無法輸出資料。

3. 資料儲存安全性

為確保資料安全性及尊重資料隱私,本研究資料處理過程全程在單一電腦完成,

該電腦並設定密碼防止他人進入,資料庫程式並設定資料庫密碼,專人管理並定時備 份檔案。

三、資料庫軟體製作

本資料庫軟體以Microsoft Visual Basic 6.0 為開發工具,Microsoft Access 2000 為 系統資料庫,結合SC Grid Control V.6.6 物件強化資料表功能,可適用於 Microsoft Window 2000/XP 等單機作業系統。

系統開發原則:

1) 本系統由於內含個人資料,因此系統設計兩段密碼,第一段於進入系統時輸入,

第二段於資料輸出時輸入,兩道密碼不相同,取其雙重防護,並且若密碼輸入錯 誤超過三次,將會強制關閉系統,以防止他人利用攻擊程式入侵。

2) 密碼透過程式強化編碼,不同於傳統程式密碼未加密記錄而容易遭破解。

3) 突破單一資料庫限制,本程式開發之初即規劃為多世代資料庫模式,而本研究重 點於「電焊技術士世代」,但若未來有其他世代資料庫亦可整合於本軟體中。

4) 程式採取完全開放式變項選擇,使用者可依照欲輸出的資料欄位進行勾選,並可 跨資料表選取,程式會自動進行連結輸出。

5) 資料輸出前顯示個人資料保護法,警惕使用者資料保護原則。

6) 資料輸出格式為 dBaseIV 檔案,並同時建立對應的 Microsoft Excel 譯碼簿檔案,

使用者能方便對應尋找資料欄位意義及格式。

7) 提供資料維護功能方便管理者日後新增資料使用,新增採取批次處理,可避免資 料干擾及錯誤,並紀錄新增過程以方便未來追溯及刪除等動作。

8) 資料新增模組中設置資料格式檢查功能,若外部來源資料錯誤將中斷新增動作,

以防傷害原始資料,並可依照處理結果產生報告。

9) 設置資料庫之統計分析功能,可直接透過軟體功能得到即時資料庫之統計報告。

四、系統硬體規格及管理建議

本研究所開發之資料庫軟體由於資料量龐大,因此對於電腦硬體需有一定程度的 要求,本系統建議最低電腦配備如下:

z Intel Pentium 4 時脈 1GHz 或同等級 CPU z 記憶體 512MB

z 硬碟 40G / 7200RPM z 52X CD-ROM/CD-R

z 全彩顯示器,解析度 800*600 以上 z Mircrosoft Windows 2000/XP 作業系統 z Microsoft Excel XP 以上

軟體建議安裝於單一電腦,該電腦並設定密碼及存放於安全場所,電腦主機固定 或加鎖防止任何人取得內部資料或拆解主機取得儲存媒體(如:硬式磁碟機),系統 密碼謹慎管理,使用者亦可列冊管理。

第二部分:電焊技術士各項癌症之標準化發生率比(standardized incidence ratios, SIRs)

電焊技術士世代資料檔中,依 ICD9-CM 及 A-code 中各項癌症之代碼篩選出,所 有新發生特定(全部)癌症之研究個案為暴露族群。條件限制一般手工電焊、氬氣鎢 極電焊及半自動電焊技術士新發癌症個案,該癌症須為原位癌,若發生當時並未考取 電焊技術士之證照者,則不予計算。而對照族群為行政院衛生署癌症登記檔中,全國 因特定(全部)癌症新發癌之個案,由於暴露族群性別皆為男性,因此對照族群將只 篩選男性族群使用。進一步以間接標準化方式計算電焊技術士因特定(全部)癌症之 各年代標準化發生率比(standardized incidence ratios, SIRs)。若以上各項癌症中標準 化發生率比計算後大於1 時,則意謂電焊技術士之標準化發生率比相對於其他勞工或 全國民眾高,其計算公式如下:

= ∑

se ExpectedCa

se ObservedCa SIRs

ObservedCase=電焊技術士於特定時間新發病之特定癌症個案數

ExpectedCa se

= ⎛ ×

B A C

A=各年齡層之台灣地區特定時間新發病之特定癌症個案數 B=各年齡層之台灣地區特定時間內之總人口數

A=各年齡層之台灣地區特定時間新發病之特定癌症個案數 B=各年齡層之台灣地區特定時間內之總人口數