名詞定義

一、緒論

1.4 名詞定義

本研究所提及的重要名詞說明如下：

一、雇主，事業主或事業經營負責人。

二、勞工，受僱從事工作獲致工資者。

三、職業災害，勞工就業場所之建築物、設備、原料、材料、化學物品、氣體、蒸汽、

粉塵等或作業活動及其它職業上原因引起之勞工疾病、傷害、殘廢或死亡。

四、重大職業災害，依勞動檢查法施行細則第三十一條所稱重大職業災害為下列之一：

(一) 發生死亡災害者

(二) 發生災害之罹災人數在三人以上者

(三) 氨、氯、硫化氫、光氣、二氧化硫等化學物質之洩漏，發生一人以上罹災勞工需住院治療者。

五、職業安全衛生，在工作場所中影響員工、臨時性工作人員、承包商、訪客及其它人員福祉的狀況和因素。

六、資料探勘，採取自動或半自動的方法來分析資料，找出有意義的特徵。

七、關聯法則，關聯法則分析主要是從資料中找出滿足一定條件的關係，滿足這樣條件的關聯法則會被末端使用者或管理決策者依據其經驗挑選出有意義的 pattern 作為決策的參考。

第二章、文獻探討

以上十個原因，其中一到九都是管理上造成的人為疏失，若是能加強管理監控便能降低營造業的職業災害。第十個原因則是環境的因素，除了 Kartam 指出氣候會影響職災發生機率之外，Oglesby 等人也指出夏天氣溫太高會影響勞工的精神狀況和注意力 [9]；King 等人則指出勞工會在天氣好的時候拉長工時趕工，這時事故的發生率比平常高出 2.5 倍[10]。從上面文獻資料可以瞭解到，自然因素與管理疏失是造成職業災害的主要因素，所以本研究中將會對管理及自然因素這兩個因素進行分析。關於職災的記錄方式，台灣與美國均採取美國國家標準協會（ANSI Z16.2-1962）訂定的標準，

將事故分為以下三大原因[11]：

1. 直接原因：非預期的能量或危害物溢出 2. 間接原因：不安全行為和不安全狀況 3. 基本原因：不良管理制度

本篇研究主要是探討墜落致死的職業災害，在墜落職災的文件記錄中直接原因都是墜落，因此分析的標的會放在間接原因的不安全行為與不安全狀況，和基本原因中的不良管理制度。從前人的經驗我們可以知道必須整合多數的意外事件來做分析才是發現普遍致災因素的的唯一途徑[12]，因此本論文引用我國於民國 90-94 年，五年間的營造業墜落職業災害案例作為分析內容，經由文獻探討選取以下四個探討因素，自然因素、勞工不安全行為、不安全狀況、不良管理制度作為探討項目，其中自然因素可以從時間記錄進行探討，本篇論文以統計的方式作分析；而不安全行為、不安全狀況、

不良安全管理制度這三者將以資料探勘技術來作分析。

2.2 資料探勘

2.2.1 資料探勘的簡介

當資料量日積月累不斷增加時，使用一般傳統統計分析必須逐一分析變數才能找出模型，而且必須找出各變數對結果之影響。為了使分析資料更加便利，目前各領域在資料探勘的應用上越來越多，例如行銷、網路、企業商務、醫療、體育等方面，主要是希望能夠利用資料探勘找出有用的資訊。一個很有名的例子就是美國超級市場 Wal-Mart，對其經年累月的交易紀錄進行分析，發現在星期四時消費者經常會同時購買尿布和啤酒，所以將兩樣商品擺設在鄰近的陳列架上一起做促銷，結果兩樣產品都有更高的業績成長。所謂的『資料探勘』是在大量的資料中採取自動或半自動的方法來分析資料，發現有用資訊的過程。資料探勘工具的發展則是為了在大量資料中找出尚未發現但具有意義的特徵（Patterns）以及關聯性（Relationships），同時也能提供預測的功能，例如預測哪一位顧客將會在百貨公司消費超過 100 美元。

但是並不是所有的資訊發現過程都是『資料探勘』，例如，使用資料庫管理系統或網頁搜尋引擎找尋特定的資料，這是屬於資料探索『Information Retrieval』的範圍，

這些方法可能需要使用複雜的演算法和資料架構，他們依賴傳統電腦科學技術。只是因為傳統的資料分析工具和科技有很多侷限，尤其是在碰到大量資料且形式都有所不同的時候，甚至有時即使資料數量不多也不容易使用工具分析，所以資料探勘技術就是因應這個需求而產生。簡而言之，企業從以往著重於資料的蒐集和整理，轉而專注

於如何有效利用存有龐大歷史資料的資料庫取得有用的資訊，也就是透過資料探勘的技術，從資料庫中挖掘有用的資訊和知識[13]。

2.2.2 資料探勘的定義

資料探勘最早是由 Fayyad 提出，其目的是在大量的維修資料裡找出規則。有許多學者也曾對資料探勘做過定義。Frawley 等人認為資料探勘是指從資料庫中挖掘出潛在、明確且有用資訊的過程；Fayyad 等人定義資料探勘只是知識發現中的一個步驟；Grupe＆ Owarng 認為資料探勘是從資料庫中挖掘專家仍未知的資訊；Berry＆

Linoff 則定義資料探勘是採取自動或半自動的方法來分析資料，找出有意義的特徵 [14]。一般而言，資料探勘（data mining）可解釋為知識發掘的一環（knowledge discovery database，KDD）[13]，知識發生的過程，如下所示。

知識發掘的過程：

知識發現的過程可分為以下五個步驟，也就是將未處理過的資料轉換成有用的資訊，

包含了一連串的過程，其中資料探勘為知識發掘的一個步驟如下[13]：

Data

preprocessing

Data mining

Data

postprocessing

information Input

data

圖2.1 資料探勘發掘步驟圖。

1. 輸入資料(Input data):

第一步驟是蒐集原始資料，而資料的來源可能有很多，像資料庫系統和網際網路就是兩個主要的資料蒐集工具；資料也可能是很多形式，像是Excel 表格或一些文字檔，有可能是集中也有可能是分散在各點，將收集到原始資料儲存於資料庫系統中以便進行之後的資料前置處理。

2. 資料前置處理(Preprocessing) :

目的是將未處理過的資料轉成適當的形式以供後續的研究，包括『將來自各處的資料混合』、『資料潔淨（移除noise 和重複的觀察值）』、『選擇data mining 所需的紀錄和屬性』，這個過程通常會是最耗時的。

3. 資料探勘(data mining):

資料潔淨和轉換後，使用資料探勘的技術將隱藏的資訊挖掘出來，所以資料探勘其實是所謂的知識發現（knowledge discovery）的一部份，它使用許多統計分析與模

型化的方法，在資料中尋找有用的樣式及關聯性。

4. 樣式評估 Postprocessing:

此步驟的目的是確定只有有效的、有用的結果會被管理決策系統應用。資料探勘萃取的知識不見得每一個都是我們需要的，因此需要再經過一個步驟，去評估資料探勘所挖掘出來的知識是不是有用的，通常需藉由各領域的專家依據經驗加以判斷。

5. 結果展示 information:

結果展示主要有以下兩種：

(1) predictive tasks：目的是為了從一個屬性來預測另一個屬性。

(2) descriptive tasks:：目的是取得一種模型（相關，趨勢，分群，軌道，不規 則）來解釋資料間的關係[13]。

另外Peacock(1998)[15]則是從狹義與廣義的角度來定義資料探勘，可歸納出以下三種：

第一種為狹義的資料探勘，主要是從資料庫中發現出隱藏的資訊，這些資訊又能影響策略或決策，其重視的是發現的過程。

第二種是廣義的資料探勘，強調過程中欲研究或是測試發現兩者或是多者的關係，以統計、設定研究項目的方法來確認關係以支持狹義資料探勘中發現的模式。

第三種是最廣義的資料探勘，即與資料庫知識發現相同，主要包括內部與外部資料獲取、資料轉換、清理、格式化、分析、確認、賦予資料意義、建立與執行決策支援工具與系統，使得資料探勘的結果對決策者發生作用。

上述的說明可以瞭解資料探勘就是在資料或是資料庫中，利用資料探勘的技術發掘出超越歸納範圍外的新的未知樣式或規則。本篇論文採取第二種廣義的資料探勘定義，

以設定研究項目的方法來確認關係以支持狹義資料探勘中發現的模式。

2.2.3 資料探勘的技術

Data Miming 的工具是利用資料來建立一些模擬真實世界的模式，利用這些模式來描述資料中的特徵以及關係。瞭解資料的特徵與關係可以提供做決策時所需要的資訊，譬如關聯模型可以幫助賣場如何擺設貨品，或是可以利用資料探勘提供顧客個人

化的產品及服務。一般而言，根據資料探勘的分析方式跟目的，資料探勘的技術可以分為下列五種模型[14]：

• 資料分類-Classification

• 群集分析-Clustering

• 關聯法則-Association

• 推估-Estimation

• 預測-Prediction 1.資料分類 Classification

所謂分類（classification）是指根據已知的資料及其類別屬性來建立資料的分類模型。分類模型可以讓我們瞭解屬於各種屬性的資料具備哪些特徵，同時也可以用來預測新進資料的類別屬性。以分類法應用在信用額度核准時，根據信用等級將信用卡用戶做分類，找出信用狀況不佳的用戶屬性並建立分類模型，某新用戶申請信用卡時，發卡銀行便可根據此分類模型來決定該用戶的信用額度等級。其它像目標行銷（target marketing）或醫療診斷上分類法也都被廣泛應用，常使用的方法有決策樹（Decision tree）或類神經網路（Neural Network）等。

2.群集分析 Clustering

群集分析（cluster analysis）又稱為資料切割（data segmentation），它是一種多變量統計分析（multivariate statistical analysis）的技術，主要的目的是將資料集合中的資料紀錄加以分群成數個群集（cluster），使的每個群集中的資料點間相似程度高於與其它群集中資料點的相似程度，因此群集分析主要目的在於分析資料彼

在文檔中應用資料探勘研究營造業重大墜落工安事件發生原因-以台灣為例 (頁 12-0)

一、 緒論

1.4 名詞定義

第二章、文獻探討

2.2 資料探勘

一、緒論