• 沒有找到結果。

一、 緒論

1.4 名詞定義

本研究所提及的重要名詞說明如下:

一、雇主,事業主或事業經營負責人。

二、勞工,受僱從事工作獲致工資者。

三、職業災害,勞工就業場所之建築物、設備、原料、材料、化學物品、氣體、蒸汽、

粉塵等或作業活動及其它職業上原因引起之勞工疾病、傷害、殘廢或死亡。

四、重大職業災害,依勞動檢查法施行細則第三十一條所稱重大職業災害為下列之一:

(一) 發生死亡災害者

(二) 發生災害之罹災人數在三人以上者

(三) 氨、氯、硫化氫、光氣、二氧化硫等化學物質之洩漏,發生一人以上罹災勞 工需住院治療者。

五、職業安全衛生,在工作場所中影響員工、臨時性工作人員、承包商、訪客及其它 人員福祉的狀況和因素。

六、資料探勘,採取自動或半自動的方法來分析資料,找出有意義的特徵。

七、關聯法則,關聯法則分析主要是從資料中找出滿足一定條件的關係,滿足這樣條 件 的 關 聯 法 則 會 被 末 端 使 用 者 或 管 理 決 策 者 依 據 其 經 驗 挑 選 出 有 意 義 的 pattern 作為決策的參考。

第二章、文獻探討

以上十個原因,其中一到九都是管理上造成的人為疏失,若是能加強管理監控便能降 低營造業的職業災害。第十個原因則是環境的因素,除了 Kartam 指出氣候會影響職 災發生機率之外,Oglesby 等人也指出夏天氣溫太高會影響勞工的精神狀況和注意力 [9];King 等人則指出勞工會在天氣好的時候拉長工時趕工,這時事故的發生率比平 常高出 2.5 倍[10]。從上面文獻資料可以瞭解到,自然因素與管理疏失是造成職業災 害的主要因素,所以本研究中將會對管理及自然因素這兩個因素進行分析。關於職災 的記錄方式,台灣與美國均採取美國國家標準協會(ANSI Z16.2-1962)訂定的標準,

將事故分為以下三大原因[11]:

1. 直接原因:非預期的能量或危害物溢出 2. 間接原因:不安全行為和不安全狀況 3. 基本原因:不良管理制度

本篇研究主要是探討墜落致死的職業災害,在墜落職災的文件記錄中直接原因都是墜 落,因此分析的標的會放在間接原因的不安全行為與不安全狀況,和基本原因中的不 良管理制度。從前人的經驗我們可以知道必須整合多數的意外事件來做分析才是發現 普遍致災因素的的唯一途徑[12],因此本論文引用我國於民國 90-94 年,五年間的營造 業墜落職業災害案例作為分析內容,經由文獻探討選取以下四個探討因素,自然因 素、勞工不安全行為、不安全狀況、不良管理制度作為探討項目,其中自然因素可以 從時間記錄進行探討,本篇論文以統計的方式作分析;而不安全行為、不安全狀況、

不良安全管理制度這三者將以資料探勘技術來作分析。

2.2 資料探勘

2.2.1 資料探勘的簡介

當資料量日積月累不斷增加時,使用一般傳統統計分析必須逐一分析變數才能找 出模型,而且必須找出各變數對結果之影響。為了使分析資料更加便利,目前各領域 在資料探勘的應用上越來越多,例如行銷、網路、企業商務、醫療、體育等方面,主 要是希望能夠利用資料探勘找出有用的資訊。一個很有名的例子就是美國超級市場 Wal-Mart,對其經年累月的交易紀錄進行分析,發現在星期四時消費者經常會同時購 買尿布和啤酒,所以將兩樣商品擺設在鄰近的陳列架上一起做促銷,結果兩樣產品都 有更高的業績成長。所謂的『資料探勘』是在大量的資料中採取自動或半自動的方法 來分析資料,發現有用資訊的過程。資料探勘工具的發展則是為了在大量資料中找出 尚未發現但具有意義的特徵(Patterns)以及關聯性(Relationships),同時也能提供預 測的功能,例如預測哪一位顧客將會在百貨公司消費超過 100 美元。

但是並不是所有的資訊發現過程都是『資料探勘』,例如,使用資料庫管理系統 或網頁搜尋引擎找尋特定的資料,這是屬於資料探索『Information Retrieval』的範圍,

這些方法可能需要使用複雜的演算法和資料架構,他們依賴傳統電腦科學技術。只是 因為傳統的資料分析工具和科技有很多侷限,尤其是在碰到大量資料且形式都有所不 同的時候,甚至有時即使資料數量不多也不容易使用工具分析,所以資料探勘技術就 是因應這個需求而產生。簡而言之,企業從以往著重於資料的蒐集和整理,轉而專注

於如何有效利用存有龐大歷史資料的資料庫取得有用的資訊,也就是透過資料探勘的 技術,從資料庫中挖掘有用的資訊和知識[13]。

2.2.2 資料探勘的定義

資料探勘最早是由 Fayyad 提出,其目的是在大量的維修資料裡找出規則。有許 多學者也曾對資料探勘做過定義。Frawley 等人認為資料探勘是指從資料庫中挖掘出 潛在、明確且有用資訊的過程;Fayyad 等人定義資料探勘只是知識發現中的一個步 驟;Grupe& Owarng 認為資料探勘是從資料庫中挖掘專家仍未知的資訊;Berry&

Linoff 則定義資料探勘是採取自動或半自動的方法來分析資料,找出有意義的特徵 [14]。一般而言,資料探勘(data mining)可解釋為知識發掘的一環(knowledge discovery database,KDD)[13],知識發生的過程,如下所示。

知識發掘的過程:

知識發現的過程可分為以下五個步驟,也就是將未處理過的資料轉換成有用的資訊,

包含了一連串的過程,其中資料探勘為知識發掘的一個步驟如下[13]:

Data

preprocessing

Data mining

Data

postprocessing

information Input

data

圖2.1 資料探勘發掘步驟圖。

1. 輸入資料(Input data):

第一步驟是蒐集原始資料,而資料的來源可能有很多,像資料庫系統和網際網路就 是兩個主要的資料蒐集工具;資料也可能是很多形式,像是Excel 表格或一些文字 檔,有可能是集中也有可能是分散在各點,將收集到原始資料儲存於資料庫系統中 以便進行之後的資料前置處理。

2. 資料前置處理(Preprocessing) :

目的是將未處理過的資料轉成適當的形式以供後續的研究,包括『將來自各處的資 料混合』、『資料潔淨(移除noise 和重複的觀察值』、『選擇data mining 所需的紀 錄和屬性』,這個過程通常會是最耗時的。

3. 資料探勘(data mining):

資料潔淨和轉換後,使用資料探勘的技術將隱藏的資訊挖掘出來,所以資料探勘其 實是所謂的知識發現(knowledge discovery)的一部份,它使用許多統計分析與模

型化的方法,在資料中尋找有用的樣式及關聯性。

4. 樣式評估 Postprocessing:

此步驟的目的是確定只有有效的、有用的結果會被管理決策系統應用。資料探勘萃 取的知識不見得每一個都是我們需要的,因此需要再經過一個步驟,去評估資料探 勘所挖掘出來的知識是不是有用的,通常需藉由各領域的專家依據經驗加以判斷。

5. 結果展示 information:

結果展示主要有以下兩種:

(1) predictive tasks: 目的是為了從一個屬性來預測另一個屬性。

(2) descriptive tasks::目的是取得一種模型(相關,趨勢,分群,軌道,不規 則)來解釋資料間的關係[13]。

另外Peacock(1998)[15]則是從狹義與廣義的角度來定義資料探勘,可歸納出以下 三種:

第一種為狹義的資料探勘,主要是從資料庫中發現出隱藏的資訊,這些資訊又 能影響策略或決策,其重視的是發現的過程。

第二種是廣義的資料探勘,強調過程中欲研究或是測試發現兩者或是多者的關 係,以統計、設定研究項目的方法來確認關係以支持狹義資料探勘中發現的模 式。

第三種是最廣義的資料探勘,即與資料庫知識發現相同,主要包括內部與外部 資料獲取、資料轉換、清理、格式化、分析、確認、賦予資料意義、建立與執 行決策支援工具與系統,使得資料探勘的結果對決策者發生作用。

上述的說明可以瞭解資料探勘就是在資料或是資料庫中,利用資料探勘的技術發掘出 超越歸納範圍外的新的未知樣式或規則。本篇論文採取第二種廣義的資料探勘定義,

以設定研究項目的方法來確認關係以支持狹義資料探勘中發現的模式。

2.2.3 資料探勘的技術

Data Miming 的工具是利用資料來建立一些模擬真實世界的模式,利用這些模式 來描述資料中的特徵以及關係。瞭解資料的特徵與關係可以提供做決策時所需要的資 訊,譬如關聯模型可以幫助賣場如何擺設貨品,或是可以利用資料探勘提供顧客個人

化的產品及服務。一般而言,根據資料探勘的分析方式跟目的,資料探勘的技術可以 分為下列五種模型[14]:

資料分類-Classification

群集分析-Clustering

關聯法則-Association

推估-Estimation

預測-Prediction 1.資料分類 Classification

所謂分類(classification)是指根據已知的資料及其類別屬性來建立資料的分類 模型。分類模型可以讓我們瞭解屬於各種屬性的資料具備哪些特徵,同時也可以用 來預測新進資料的類別屬性。以分類法應用在信用額度核准時,根據信用等級將信 用卡用戶做分類,找出信用狀況不佳的用戶屬性並建立分類模型,某新用戶申請信 用卡時,發卡銀行便可根據此分類模型來決定該用戶的信用額度等級。其它像目標 行銷(target marketing)或醫療診斷上分類法也都被廣泛應用,常使用的方法有決 策樹(Decision tree)或類神經網路(Neural Network)等。

2.群集分析 Clustering

群集分析(cluster analysis)又稱為資料切割(data segmentation),它是一種 多變量統計分析(multivariate statistical analysis)的技術,主要的目的是將資料集 合中的資料紀錄加以分群成數個群集(cluster),使的每個群集中的資料點間相似 程度高於與其它群集中資料點的相似程度,因此群集分析主要目的在於分析資料彼

群集分析(cluster analysis)又稱為資料切割(data segmentation),它是一種 多變量統計分析(multivariate statistical analysis)的技術,主要的目的是將資料集 合中的資料紀錄加以分群成數個群集(cluster),使的每個群集中的資料點間相似 程度高於與其它群集中資料點的相似程度,因此群集分析主要目的在於分析資料彼

相關文件