• 沒有找到結果。

中華大學

N/A
N/A
Protected

Academic year: 2022

Share "中華大學"

Copied!
79
0
0

加載中.... (立即查看全文)

全文

(1)

中華大學

資訊工程所碩士在職專班

以資料探勘為基礎之製造業退貨問題管理 偵測及分析系統之研製

研 究 生:呂錦松

指導教授:曾秋蓉 博士

中華民國九十三年七月

(2)
(3)
(4)
(5)
(6)

中文摘要

隨著企業間愈來愈劇烈的競爭壓力,資訊系統在在企業經營中所扮演的角色益形

重要。然而傳統資料庫系統並無法滿足一些決策支援上的需求,資料探勘技術遂隨之興 起。本研究主要的目的,在於探討應用資料探勘技術於電腦週邊組裝業之光儲存媒体的 退貨管理問題,以提供退貨問題分析工程師由光儲存媒存故障的資訊中,找出故障問題 與零組件的關係,以快速了解決問題的針結所在。研究過程包括三個階段,在第一階段 中為蒐集及歸納光儲存媒體製程的知識及處理退貨問題的程序流程;第二階段中結合對 專家的訪談結果,建構光儲存媒體品質問題特徵及萃取的資料庫;第三階中為應用資料 探勘技術來發掘退貨問題診斷規則此外,本研究成果已實際應用於電腦週邊產業,並實 驗分析證明其效果。

關鍵字:資料探勘(Data Mining)、資料倉儲(Data Warehouse)、關聯法則(Association rules)。

(7)
(8)

誌謝

首先感謝我的指導教授曾秋蓉博士,在曾老師的敦敦教誨之下讓我在每個相關知 識領域中能夠有更深一層的認知,以及遇到瓶頸時所給予的提示與指導,讓我能夠順利 地完成本論文。

其次要感謝在光寶科技資訊處楊協理修一先生,由於他在我報考碩士專班時,給與 我最大的支持及幫忙,讓我能夠順利完成碩士學業。

最後十分感謝我的家人,因為家人的全力支持才能讓我沒有牽掛地專心於此論文的 研究與撰寫。

(9)

目錄

中文摘要 ... 2

誌謝 ... 3

目錄 ... 4

表目錄 ... 6

圖目錄 ... 7

第一章 緒論 ... 8

1.1 研究背景與動機... 8

1.2 研究目的... 9

1.3 論文架構... 10

第二章 研究背景 ... 11

2.1 產業製程簡介與常見之品質問題... 11

2.1.1 光儲存媒体產業概述... 11

2.1.2 產業製造流程簡述... 15

2.1.3 常見之品質問題... 17

2.2 資料探勘的理論架構... 17

2.3 資料探勘的問題類型... 21

2.3.1 關連模型... 21

2.3.2 分類模型... 22

2.3.3 叢集模型... 23

2.3.4 預測模型... 24

2.3.5 循序性模型... 24

2.3.6 時間順序預測模型... 24

2.4 Apriori 關連法則探勘演算法... 25

2.5 資料探勘應用... 28

第三章 研究方法 ... 30

3.1 問題定義... 30

3.2 資料準備... 31

3.3 建立探勘模式... 34

3.4 結果分析... 38

第四章 系統實作 ... 39

4.1 系統架構... 39

4.2 資料擷取... 40

4.3 資料淨化處理... 43

4.4 資料轉換處理... 48

(10)

5.1 評估模式... 66

5.2 評估結果... 66

第六章 結論與未來展望 ... 71

6.1 結論... 71

6.2 未來展望... 71

參考文獻 ... 73

(11)

表目錄

表 2.5 造成退貨之前 10 大問題... 17

表 3.1 故障問題一覽表... 32

表 3.2 故障問題代碼表... 35

表 3.3 退貨資料範例... 36

表 3.4 各項目支持度... 37

表 3.5 探勘結果... 37

表 4.1 退貨問題資料檔格式... 錯誤! 尚未定義書籤。 表 4.2 資料淨化程式邏輯... 44

表 4.3 資料前處理之資料範例... 47

表 4.4 資料清理統計一覽表... 48

表 4.5 故障問題一覽表... 49

表 4.6 退貨交易資料 I ... 50

表 4.7 退貨交易資料示意圖 II... 51

表 4.8 探勘資料檔格式... 53

表 4.9 各種支持度、信賴度及關聯規則數量... 54

表 5.1 系統滿意度問卷調查... 66

表 5.2 退貨問題診斷正確率統計表... 69

(12)

圖目錄

圖 2.1 光儲存媒體年成長趨勢圖-唯讀型光碟機 ... 12

圖 2.2 光儲存媒體年成長趨勢表-記錄型光型機 ... 13

圖 2.3 全球唯讀型光碟機價格變動趨勢表... 14

圖 2.4 光碟機製造流程圖... 15

圖 2.5 資料探勘處理流程... 20

圖 2.6 資料探勘循環... 20

圖 3.2 產生候選項目集和準大項目集... 37

圖 4.1 系統架構圖... 39

圖 4.2 退貨管理問題系統資料輸入畫面一... 41

圖 4.3 退貨管理問題系統資料輸入畫面二... 41

圖 4.4 判斷輸入日期格式... 45

圖 4.5 程式中判斷日期格式的錯誤訊息... 46

圖 4.6 設定連接資料探勘平台... 55

圖 4.7 設定資料探勘名稱... 56

圖 4.8 設定資料探勘的資料表格... 56

圖 4.9 設定最小支持度及信賴度... 57

圖 4.10 資料探勘平台執行過程... 57

圖 4.11 檢視探勘結果... 58

圖 4.12 連接資料探勘資料庫登入畫面... 59

圖 4.13 執行收集退貨問題交易資料... 60

圖 4.14 跨平台的資料庫連接設定... 60

圖 4.15 執行資料前處理程式... 61

圖 4.16 執行資料轉入探勘的檔案... 62

圖 4.17 轉入後部份資料內容... 63

圖 4.18 退貨問題診斷系統登入畫面... 64

圖 4.19 查詢畫面... 65

圖 4.20 查詢結果... 65

圖 5.1 問卷調查結果統計圖 I ... 67

圖 5.2 問卷調查結果統計圖 II... 67

圖 5.3 問卷調查結果統計圖 III... 68

圖 5.4 問卷調查結果統計圖 IV ... 68

圖 5.5 問卷調查結果統計圖 V... 69

(13)

第一章 緒論

在企業經營的過程中,所面對的競爭壓力愈來愈越劇烈的,所以資訊系統在企業組 織中所扮演的角色也日形重要。然而傳統資料庫系統並無法滿足一些決策支援上的需 求,資料探勘技術遂隨之興起。本研究因此希望借由探討應用資料探勘技術於電腦週邊 組裝業之光儲存媒体的退貨問題管理系統中,以協助退貨問題分析工程師快速地了解退 貨問題與光儲媒体中之零組件的關係。

本研究將首先蒐集有關資料探勘及品質診斷系統之相關文獻,並針對產業相關系統 之現況進行觀察,進而提出一個以關連式為基礎之退貨問題管理系統架構。隨後再開發 雛形系統以說明所提架構之運作細節以及其可行性。

1.1 研究背景與動機

資訊科技的時代,想成為電腦週邊設備的代工大廠,能提供快速又可大量生產而且 產品多樣化的彈性製程來滿足世界級個人電腦大廠的需求,已經是必要的條件之一。但 對品質的要求,並不因為大量的生產製造、產量的提高、產品單價及成本的降低,而有 所改變,反而是要求的更加嚴格。如果一旦發生產品品質上的問題,往往會造成新產品 訂單的流失,而這流失的數量約佔企業營收的10%至15%,單季銷售收量也約減少二百 萬台,也因如此會與競爭對手的差距加大。目前企業資訊系統對退貨問題處理的支援只 限於退貨問題資料維護及線上分析,而這樣的系統支援往往無法快速及完整的找出問題 所在。所以,藉由大型資料庫平台及導入資料探勘的技術,來處理全球各地的產品技術 支援工程師所回饋的產品退貨資訊,並加以分析探討品質問題與製程技術、研發及原物

(14)

在考慮退貨問題分析時,除了讓負責人員能迅速的找到導致產品異常的原因之外,

如何並加以儲存過去所分析問題與處理問題的經驗與知識,使得退貨問題的處理不會受 到人員異動的影響而有所改變,亦是重要的考量之一。因此,在本研究中,我們嘗試運 用資料探勘技術,擷取過去退貨問題的資料內容,建立分析問題的診斷系統。其採用關 連式法則技術,針對退貨問題與光儲存媒體的零組件找出導致問題發生異常的診斷法 則,並建構發生異常原因之因應對策,以協助問題處理人員在接獲新的退貨問題時,能 快速且正確的做出判斷及處理。

1.2 研究目的

本研究的目的係針對目前光儲存媒体產業中反應退貨品質問題之退貨管理系統 (Failed Quality Management System,簡稱FQMS) 內所儲存的歷史資料,利用資料探勘 的技術,提出資料分群、特徵萃取與因應對策的架構,使得品質問題處理負責人員在下 次遇到相似的問題時,能夠快速找到原因並且採取適當合理的改善行動,本研究並以某 光儲存媒体業者之案例為實證,以驗證本研究所架構的方法與效度。根據本研究所提出 的系統架構,能在短時間內從龐大且複雜的客訴問題資料中發掘出問題特性的特徵概況 與其解決對策,以作為品質問題處理負責人員快速診斷與回應的參考。

本研究具體研究問題包含下列數項:

(1) 蒐集及歸納光儲存媒體製程的知識及處理退貨問題的程序流程。

(2) 結合對專家的訪談結果,建構光儲存媒體品質問題特徵及萃取的資料庫。

(3) 應用資料探勘技術來發掘退貨問題診斷規則並進行實證研究。

(15)

1.3 論文架構

本研究論文共分為五章,第一章為緒論,分別說明研究背景、研究動機以及研究

目的。第二章為文獻探討,針對本研究所須之相關知識作一番簡介。第三章研究方法,

針對本研究所用到資料探勘的演算法做一說明。第四章系統實作,首先說明退貨管理系 統建置之環境、範圍與架構和資料探勘引擎的實作,接下來則是評估每個節點的錯誤 率,然後解釋退貨管理系統之資料探勘的運作邏輯與展示退貨管理系統之資料探勘系統 的實作畫面,最後則對退貨管理系統資料探勘分析以及和過去的分析統計工具作比較與 討論。最後一章為本篇論文的結論與未來的發展及期許。

(16)

第二章 研究背景

在文章中將先針對本論文的研究背景做一介紹。2.1節介紹光儲存產業製程簡介與 常見之品質問題其中包括光儲存產業概述、光儲存生產製程、常見之品質問題做為未來 對問題定義及結果分析之依據。2.2節介紹資料探勘之定義、知識發現與資料探勘之流 程步驟,作為研究中的理論基礎。2.3節分析資料探勘的問題類型作為研究的參考。2.4 節介紹資料探勘中著名的Apriori關聯法則探勘演算法作為未來探勘系統的運算核心。

2.5節探討資料探勘可應用於那些領域。

2.1 產業製程簡介與常見之品質問題

資料探勘技術可運應在不同的產業與領域,而本研究主要是將資料探勘之技術應用 在於光儲存媒體業,建立該產業之退貨問題管理分析上。在進行資料探勘前要先了解探 勘對象的特色、產業特性及問題所在,透過了解產業的領域專業知識(Domain

Knowledge)及以與該領域專家的溝通合作,可使探勘的過程將更加順利。以下我們將 先對光儲存媒体產業現況及未來趨勢的變化進行了解,再來將對產業製造流進行簡述及 說明常見之品質問題。

2.1.1 光儲存媒体產業概述

光儲存媒體產業在台灣的電腦週邊的年產值為 93.06(百萬台)(以 2004 年為基準),

對台灣電腦週邊業的產業競爭力及外匯成長佔了很大的比重。在光儲存媒體中分為唯讀 型光碟機及記錄型光碟機其產業發展及趨勢如下:

(1)唯讀型光碟機

(17)

在低價電腦的帶動下,由表 2.1 中可得知 1998 年 CD-ROM 光碟機出貨量成長了 27.3%,市場達 91.9 百萬台的規模,由表 2.3 及 2.4 價格趨勢表中可得知 1999 年在碟機 廠商的劇烈競爭下,價格的快速下降更刺激了市場的發展,加上市場上低價電腦效應持 續,使得具備低價優勢的 CD-ROM 光碟機出貨量進一步突破了 1 億台的規模見(表 2.1),達到 102.9 百萬台的歷史高峰。

圖 2.1 光儲存媒體年成長趨勢圖-唯讀型光碟機

資料來源:Fujiwara 2001 年 3 月;工研院經資中心 IT IS 計劃 2001 年 5 月

但也由於產品品價的快速下滑,導致日本廠商相繼退出此一唯讀型市場,而原有市 場的產量供給則釋放出來由台灣及韓國等資訊代工廠來接手。但也隨著低價電腦潮流 下,唯讀型光碟機的價格快速下滑,由於國內廠商在保有系統設計及大量生產的能力 下,將生產外移至中國大陸,期藉中國大陸人力成本的優勢,來逹到優勢的競爭力。由 於產量大但價格低,所以毛利始終非常的低。另外,因受到 PS2、Xbox 及 GameCube 等搭配 DVD-ROM 的遊樂器持續熱賣,我國光碟機廠商也陸續提升 DVD-ROM 光碟機

91.9

102.9 101.9

91.7

80.7

72.6

64.6

56.2 47.2

55.7

67.4

34.5 40 31.4

15.3 6.1

23.6%

27.3%

33.1%

39.4%

46.3%

54.5%

12.9%

6.2%

0 20 40 60 80 100 120

1998 1999 2000 2001 2002 2003 2004 2005 年別

出 貨 量

: 百 萬 台

0%

10%

20%

30%

40%

50%

60%

比 重 CD-ROM光碟機 DVD-ROM光碟機 DVD-ROM比重

(18)

(2) 記錄型光碟機

台灣廠商在 CD 燒錄機部分的外移腳步亦逐漸加快中,台灣廠房以研發及高階產品 之生產為發展重心。台灣廠商部份,一方面因 Combo 機技術層次較高,另一方面則因 兩種規格權利金皆須繳納,使得台灣廠商投入生產的量並不大。至於 DVD 燒錄機部分,

在表 2.2 成長趨勢表中台灣廠商在 2002 年僅有微量出貨,但隨著全球市場逐漸轉移,

台灣廠商也在 2003 年開始強化 DVD 燒錄機的生產。

圖 2.2 光儲存媒體年成長趨勢表-記錄型光型機

資料來源:ITIS 2003/7 我國資訊用光碟機發展趨勢

資本市場有一句俗語:「光會跌價的機子」。來形容光碟機市場的價格,由於 CD-ROM 光碟機由 16 倍數到 52 倍數花了四至五年的時間,CD-RW 由 4 倍數到 52 倍 數也僅花了三年的時間,以目前市場上最新機種 DVD 燒錄器 4 倍數到 12 倍數,僅花 了不到一年的時間。由於產業進入的門檻變低目前在台灣的資訊代工廠就有 10 家以上

0 5 10 15 20 25 30 35 40 45 50

台灣CD-RW燒錄機 11.40 28.76 37.59 44.09 44.53 39.19 38.79 台灣Combo 0.08 1.52 1.74 2.47 4.49 5.16 5.68

台灣DVD燒錄機 - 0.01 0.15 0.98 2.14 5.22 6.83

2001 2002 2003 2004 2005 2006 2007

(19)

的代工廠在此產業中競爭力,在競爭的過程中價格下滑速度,原比想像中來的快,而廠 商的毛利也因此快速下滑。

圖 2.3 全球唯讀型光碟機價格變動趨勢表

資料來源: Fujiwara 1999 年 2 月;IT IS 1999 年 4 月

圖 2.4 全球記錄型光碟機價格變動趨勢表

資料來源: Fujiwara 1999 年 2 月;IT IS 1999 年 4 月

隨著資訊產品的低價風潮及快速的需求,光儲存產業也進入了割喉式的戰爭中,而 為有本身有立基型的產品及核心的競爭力,才能在這競爭激烈的市場生存下來。而台灣 的優勢在台灣的各大資訊代工廠皆有,唯讀在品質的控管,就是一爭長短的地方。

(20)

2.1.2 產業製造流程簡述

光碟機製程中大致可分為 11 大步驟,其流程圖 2.5 如下,以下為針對每一步驟做 簡述說明。

電路板 組裝製程

光學元件 組裝製程

半成品組裝 製程 功能

測試

音源 測試 維修

機芯組裝製程

外觀清潔 製程 成品包裝

成品檢驗 製程 成品完工入庫 製程

不良

重工

不良 不良

不良 機芯測試

電路板 組裝製程

光學元件 組裝製程

半成品組裝 製程 功能

測試

音源 測試 維修

機芯組裝製程

外觀清潔 製程 成品包裝

成品檢驗 製程 成品完工入庫 製程

不良

重工

不良 不良

不良 機芯測試

圖 2.4 光碟機製造流程圖

(1) 光學元件組裝製程 (Optical Material Assembly 簡稱 OMA):光學元件可分為讀 取、主軸馬達等。

(2) 電路板組裝製程 (PCB Assembly 簡稱 PCBA):將電阻、電容、及 IC 等元件,利 用自動插件機,先將一部的電子元件插入電路板,再透過表面黏著技術將印刷電路 板(PCB)上一層錫膏,送進回焊爐內加熱熔解 PC 板上的錫膏,使元件緊密地黏 著於印刷電路板上。而自動插件則是將元件穿透 PC 板,元件腳會扣住 IC 板,然 後進錫爐加熱,使元件固定在板上。再將另一部份無法利用自動插件機的元件,利 用人工的方式,插件再用人工焊鍚的方式固定。

(21)

(3) 機芯組裝製程:將上述兩項零配件經由組裝,成為一光碟機機芯(Kits) 。

(4) 機芯檢測製程:本檢測除檢查組裝是否有任何瑕疵,也要測試電路裝置與光學元件 是否正常運行,不因在組裝是而有所改變。

(5) 機芯功能測試製程:測試機芯的讀/寫是否正常。

(6) 沖壓:因光碟機的上下蓋為鐡片所包覆,所以先將鐵片放置在沖壓機上透過預先開 出的模具,壓製成為所需的上下蓋。

(7) 半成品組裝製程:將機芯部份組裝上外觀鐵蓋,再組裝上外觀面板,及托盤,如此 即成為一光碟機。

(8) 成品檢測製程:此一階段為成品線上的完整測試,進行光碟機所有的功能測試,包 含了讀取、寫入、音源播放及影像播放等測試。

(9) 外觀潔淨製程:將碟機的外觀進行擦拭等清潔工作,再貼上安檢及製造標籤。

(10) 包裝製程:為製成的最後一階段,將使用說明書、音源線、驅動程式再加一些防 碰撞泡棉及光碟機放置包裝紙盒。

(11) 品質檢驗製程:品質管制員針對完工之碟機進行隨機抽檢,檢驗碟機本身功能,

製程上是否有任何瑕疵。

以上所介紹之光碟機製造流程,大致上唯讀型及寫入型製程上相同,僅在測試功能 上有所不同,所以會針對各光碟機機種進行測試。

(22)

2.1.3 常見之品質問題

對於製程中有三個主要的檢測站: 機芯檢測製程、機芯功能測試製程、成品檢測製 程。每個工作站都有其相關的製造步驟以及檢驗項目。由於本研究擬定建構光碟機退貨 問題診斷系統,以品質的觀點而言,必須了解每個工作站中可能會影響生產品質的因 素,才會對日後退貨問題的判斷及維護有充份的了解。

由表2.5列出造成退貨問題的前十大問題。如此可以了解光碟機的退貨問題,可能 來自於不同原因,諸如來自於組裝製程、IC設計、電路設計、韌體設計等這些因素通常 會讓光碟機無法達到預期的功能或顧客想要的品質。因此,在進行診斷分析時,必須徹 底了解出生產流程,才能快速找出問題並回應顧客。

表 2.5 造成退貨之前 10 大問題 項次 常見問題

1 ATAPI 介面無法偵測 2 儲取時間錯誤

3 聲音出現爆音

4 光碟片運轉中發生爆滿

5 使用者本身操作而造成異常問題 6 資料轉換及壓縮時造成錯誤 7 LED 顯示燈閃爍時不正常 8 LED 顯示燈一直恆亮

9 無法偵測到 ATAPI 轉輸介面 10 軔體版本更新

2.2 資料探勘的理論架構

對於目前競爭激烈與科技技術的日益進步的企業環境,企業活動經常需要蒐集大 量資料,如在銷售資料、製程資料、退貨故障問題乃至到最終顧客之所有服務資料,每

(23)

一階段皆記錄著龐大的資料,此時,如何將這些資料有效地轉換成有用的資訊,以作為 決策的參考依據。將是企業擁有了高度的核心競爭能力及優勢。現在代企業成功的主要 關鍵在決策者以有效的方法從龐大的資料中粹取出有意義及可以供決策的資訊或知識。

資料探勘是資料庫領域上新的應用,簡單的來說就是將隱藏於資料庫中有用、有益 於使用者所需的資訊挖掘出來,以提供企業及使用者決策之需,幫助企業獲取商機,例 如根據顧客交易資料庫找出目標顧客群、從產品銷售資料庫中分析產品之間的關聯性,

幫助賣場產品的擺設等。不同專家學者對於資料探勘的定義雖各有所異,郤都有雷同之 處。Berry 和 Linoff [10] 指出:「資料探勘就是為了要發現有意義的樣型或法則,而以 自動或半自動的方式對資料進行分析」。資料探勘是將先前所未知得隱藏資訊,從大型 資料庫中有效地抽出以提供給高階主管做為決策的參考。依據 Michael 等人(2001)

之 整 理 , 資 料 探 勘 的 技 術 包 括 屬 性 分 析 ( Dependence Analysis ) 、 分 類 ( Class Identification)、概念描述(Concept Description)、差異偵測(Deviation Detection) 及 資料視覺化(Data Visualization)。而目前的應用多是在商業方面,如定義目標顧客、

分析顧客信用風險、預測市場走向等,而在教育單位的相關研究則相對甚少。然而在學 校的課程規劃資料庫也隱涵著大量豐富、有用的資料可供挖掘,這些資訊將能提供校方 及學生排課及選課之參考。

Han[15]曾將資料探勘曾將資料探勘的流程分七個步驟:

(1) 資料清理(Data Cleaning):資料清理的目的在於,將資料中遺漏資料及模糊不清 和錯誤的數值資料加以處理,讓資料探勘進行時,能縮短探勘的時間及增加結果的 正確度,因為資料探勘是一個非常消耗電腦系統的資源的一項技術。

(2) 資料整合(Data Integration):將分散性資料庫中的資料加以集中整合,對資料庫

(24)

(3) 資料選擇(Data Selection):依據問題的定義,來進行篩選找出適合且有用的資料。

(4) 資料轉換(Data Transformation):將所有的字母字元全部改成大寫、以目前資料 為基礎計算新的數值、將單一欄位資料數值拆成多個數值或者是將不同的資料整合 到一個欄位等。

(5) 資料探勘(Data Mining ):利用資料探勘演算法將一群看似不相關的資料集合加 以探索,近而挖掘出有用的資訊,來提供決策者進行決策使用。

(6) 樣式評估(Pattern Evaluation):探勘後的結果一定要有某些依據來加以評估,讓 結果可以被採信,因為在一群看似不相關的資料中要找出關連性是有一定的困難程 度,所以當探勘出來的結果就須要做評估,確定是否滿足一開始問題定義時的需求。

(7) 知識呈現( Knowledge Presentation):利用圖表或網頁的方式來表逹最後的探勘結 果,讓使用者能自行在這知識庫中搜尋相關領域上的知識。

資料探勘處理流程如圖2.5所示,首先一開始根據其需求建立探勘目標,接著再依

目標從現有資料庫的原始資料中選擇所需探勘的資料,而選擇到的資料必須做資料清 除、資料合併等前置處理,才能進一步將前置處理完成後的資料轉換到資料倉儲中,接 著才對資料進行探勘處理,而探勘所得的結果與知識可進行評估,以驗証探勘結果之效 益。

「資料探勘」實為整個知識發現過程中最重要的核心步驟,而對於整個資料探勘的 過程,不外乎確認問題、分析資料、執行探勘、評估結果。而以上四種方法也不是單單 執行一個循環,而是要不間斷地重複直到答案令人滿意為止。

(25)

目標資料庫 資料倉儲

轉換與處理過的資料 樣型 知識

淨化與整合 資料選擇與轉換 資料探勘 樣式評估及表現

目標資料庫 資料倉儲

轉換與處理過的資料 樣型 知識

淨化與整合 資料選擇與轉換 資料探勘 樣式評估及表現

圖 2.5 資料探勘處理流程

(1) 確認問題:了解產業流程問題及問題之定義、確定分析目標等。

(2) 分析資料:選擇合適的資料探勘工具及演算法以萃取出有用的資訊。

(3) 執行探勘:參考所萃取出的資訊以作出合理且正確的決策。

(4) 評估結果:根據實際執行成果以評估該次資料探勘之成效,並反覆修正資料探勘模 式。

確認問題

評估結果 分析資料

執行探勘

(26)

但在資料探勘循環圖 2.3 中,每個循環也不一定有順序性,因為要對當時的資料或 探勘結果來進行調整。

2.3 資料探勘的問題類型

在資料探勘的過程中,由於不同的問題定義會產生不同的探勘結果類型,以提供 作為不同決策時使用。以目前常見的問題類型,可分為關連法則(Association Rule)、分 類(Classification)、聚類(Clustering)、預測(Predication)、循序性模型(Sequence Based Model)、時間順序預測模型(Time Series Forecasting Model) 六大類型,本節主要針對這 六種問題類型做介紹。

2.3.1 關連模型

關連法則最主要的目的在於瞭解什麼樣的東西應該放在一起在商業上的應用在藉 由顧客的購買行為來瞭解顧客。和這些顧客為什麼會購買這些產找出其中相關的法則,

之後企業可藉由這些法則的發掘來獲得利益與建立競爭優勢。關連法則通常是針對交易 資料庫進行資料探勘,關連式模型(Association Model)主要是要找出這樣的資訊,亦即 為如果項目甲是某一事件的一部份,則項目乙也出現在該事件中的機率有? %,譬如:

如果顧客買了酒則這個顧客同時購買菸的機率是多少。

關聯法則應用的範圍包括有在金融服務業或電信業中,透過其設計出不同的服務組 合以擴大利潤;保險業利用其偵測出可能不尋常的投保組合加以預作防範;在醫療組合 上,藉由其發現哪些醫療組合會導致併發症,以作為判斷的依據等等。

在過去關於關聯法則的研究中,如Fayyad 等人[14] 利用顧客的購買行為等資訊,

進一步瞭解顧客購買模式,以協助零售業進行產品之位置擺放規劃,並提供產品進貨量

(27)

及庫存量等參考依據,以正確做出擴大利潤的決策,期達最大化利潤。洪紹鯤[8] 利用 關連法則的原理,發覺在半導體製造過程中,影響良率的原因來自於製造機器的組合。

該研究的作法是將經過每部機器的參數記錄下來,透過演算法之設計,來得到機器編號 組合及經累計運算之參數平均值,並判別哪些機器組合對產品良率有顯著影響,以作為 進行協助機器排程規劃之依據。

常用的關連式演算法有Apriori演算法[9],是Agrawal等在94 年所提出來的一個方 法,這個方法的主要概念是重複讀取資料庫,並且在每次讀取資料庫後產生長度相同的 大項目集合(Large Itemsets)。另外只針對候選項目集合(Candidate Itemsets),而非 所有可能的項目集合(Itemsets)來作支持度的計算,以減少計算時間來增進效率。再 Apriori演算法之後所提出的演算法,大致上與Apriori演算法理論相同,只是改進演算法 的效能,所以就用Apriori-Like來稱呼後續提出來的演算法,如FP Growth演算法[18]。

2.3.2 分類模型

分類模型(Classification Model),此模型可用來對一些已經分類的資料來研究它 們的特徵,再根據這些特徵對其他未經分類或是新的資料作預測。用以找出特徵的已分 類資料通常來自現有的歷史資料,或是對一個完整資料庫作部分取樣,再經由此模型作 預測,譬如:對一個大型的郵寄對象資料庫的部分來取樣建立分類模式(Classification Model),找出其特徵然後再對其他資料作預測。

分類模型是一種監督式(Supervised)的資料探勘演算法。所謂監督式資料探勘是 指從問題領域中取得現有資料(有輸入與輸出變數值),此一資料稱為訓練資料 (Training Data) ,並從中學習輸入變數與輸出變數的內在規則,以應用於新的案例,此 一資料稱為測試資料(Testing Data);非監督式資料探勘乃是從問題領域中取得現有 資料(只有輸入變數值),並從中學習資料的內在集群規則,以應用於新的案例(有輸

(28)

(Decision tree)是先行利用訓練資料建一個樹狀結構,產生雛型規則,以應用於新的 案例。

2.3.3 叢集模型

叢集模型(Clustering Model),此模型可以自動將資料庫區隔為幾個相關紀錄的 群組,其主要的功能是將組與組之間的差異找出來,同時也要將一個組之中成員們的相 似性找出來。叢集分析在不同的領域可能使用不同名稱,但在各種領域的研究者都面臨 一個問題是如何將看到的資料分成幾個有意義的群組,也就是叢集分析主要的工作。

例如,生物學家必須在對不同動物做有意義的描述前,會先對動物不同品種做分

組,如依據現在生物界的分法,人類是屬於靈長類、哺如類、脊椎類、動物類,在愈上 層的類別其相似性愈高。對於事先未知有幾個分群的資料時,通常會利用聚類分析將資 料根據相似程度來分成數群,希望聚類結果有同一群組內的個體在某種意義上有相近的 性質,以期在不同的群組間差異性大。通常當想要將一堆如山一樣多的資料分類,變成 可以管理且有意義的幾堆時,聚類分析就會變得很有用。

叢集模型是將資料分為幾組,其目的是要將組與組之間的差異找出來,同時也要將 一個組之中的成員的相似性找出來。叢集(Clustering) 與 分類(Classification) 不 同的是,你不曉得它會以何種方式或根據什麼來分類。所以你必須要有一個領域專家來 解讀這些分類的意義。常用的演算法有K-means。K-means演算法[24]是以重心為基礎的 叢集演算法,其主要的精神是以重心點或中心點為基礎的方式,將資料群體進行分群。

因為各群體的代表點不一定是群聚中的一點,所以可以在多數的情況下找到最佳群聚。

(29)

2.3.4 預測模型

根據對象屬性之過去觀察值來推估該屬性未來之值。在預測的工作中,要檢視推估 某變數未來值、分類結果的正確性,只能等待其發生後再加以驗證,無法事先得知其預 測的成效。預測應用的範圍十分廣泛,例如由顧客過去之刷卡消費量預測其未來之刷卡 消費量、股價的預測、地震預測、天氣預測等等。通常預測所分析的資料大都屬於時間 序列型的資料,此種資料的特性是資料量會隨著時間的增加而逐漸龐大,使用的技巧包 括有迴歸分析、時間數列分析以及類神經網路等。

預測模型與分類模型相類似不同的地方在於分類是將規則先行歸類,而預測模型是 採用一連續式的方式來分析預測。常用的演算法如類神經網路(Neural Nets)。

2.3.5 循序性模型

循序性模型(Sequence Based Model),此模型與關聯性模型很相似,所不同的是

循序性模型(Sequence Based Model)中所探討的是與時間順序有關的關聯性,在資料中 找出項目間的時間順序關係,譬如:降低某產品的售價之後,則增加其銷售量的機率是 多少。

2.3.6 時間順序預測模型

時間順序性預測模型(Time Series Forecasting Model),此模型能夠探索特殊時間順 序內的類似行為模式,與回歸預測模型所不同的地方是此模型所分析的數值皆與時間有 關,可以處理有關時間的一些特性,譬如:時間的階層性、季節性、節日以及一些特別

(30)

在了解以上各問題模型後發現,本研究退貨問題診斷系統適合用關聯式問題模型的 方法來探勘退貨問題中各退貨問題的關連性,以逹到退貨問題診斷的目的。

2.4 關連法則探勘演算法

在確定問題類型與資料探勘的方法之後,必須選擇合適的資料探勘工具,在資料探 勘中包含有許多的工具,諸如:統計分析(Statistical techniques)、線上分析處理(Online analytical process, OLAP)、決策樹、關聯法則、類神經網路、遺傳演算法(Genetic Algorithms) 等等。本研究所使用的方法乃為資料探勘工具中之關連式法則中的 Apriori 演算法,本身不須先有基本假設存在,且還具有處理大量資料的能力,並可對資料作更 進一步的分析,以下將詳細介紹此方法。

假設一商品物項集合(Itemset) A 包含了所有可能的商品物項{A1,A2,… Am},

並設D為一群商品交易紀錄的集合,且每一筆交易紀錄(Transaction) T 所包含的就是 一群物項的集合,所以所有的 T 出現的物項都是可以被 A 所涵蓋的,而不管該物項 的數量。

一個關聯式法則的形成,前題項目集合(Antecedent itemset),結果項目集合 (Consequent itemset)的前後兩種集合都是A 的子集合,且兩者的交集為空集合,對於一 個關聯式法則為X^ Y,X、Y 為兩個包含於A 的非空集合,則支持度S中包含了X^Y 的 交易所佔百分比。信賴度(confidence)S是同時包含XY 之交易數和包含X 之交易數的比 值。(支持度與信賴度都是介於0與1之間)。

(31)

一個有效的關聯式法則,必須滿足「信賴度大於等於使用者預設最小信賴度C且支 持度大於等於使用者預設最小支持度S」。對於一個項目集,我們定義其支持度為包含 該項目集合的交易個數。

頻繁項目集合(Frequent itemset 或Large itemset)為支持度大於等於使用者預設最小 支持度S 乘以交易總數D的物項集合。例:若{XY}是一個頻繁項目集合且{XY}的支持 度除以{X}的支持度C 則XY 是一個有效的關聯式法則。最後產生有效的關聯式法則,

是由頻繁項目集合推導而來。

Apriori 演算法探勘關聯式規則的步驟如下:

(1) 首先讓使用者設定最小支持度門檻值(Minimum Support)與最小信賴度門檻值 (Minimum Confidence)。

(2) 根據最小支持度門檻值掃描資料庫一次,找出滿足最小支持度的頻繁項目集

(Frequent 1-itemset)L1,利用頻繁項目集的所有子集也是頻繁的特性,所以只需要 組合這些頻繁單項目集即可產生候選 2 項目集(Candidate 2-itemset)C

(3) 掃描資料庫,計算所有候選2項目集C2的支持度,根據最小支持度找出頻繁2項目集 信賴度(confidence)=# of Transaction which contain X^Y

# of Transaction in contain X 支持度(support)=# of Transaction which contain X^Y

# of Transaction in contain

(32)

(4) 重覆掃描資料庫、計算候選項目集支持度與規則強度及產生下一層候選項目集,直 到無法再結合出新的候選項目集為止。

Apriori 核心演算法分析 (1)L1 = {large 1-itemsets};

(2) for (k=2; Lk-1; k++) do begin

(3) Ck=apriori-gen(Lk-1); //新的候選集

(4) for all transactions in Database do begin

(5) Ct=subset(Ck); //交易 T 中包含的候選集 (6) for all candidates Ct do

(7) count++;

(8) end

(9) Lk={ Ck |count(minsup)}

(10) end

(11) Answer=∪kLk;

以上所列出的即為Apriori 演算法,其中的Apriori-gen 函式主要的功能就是產生候 選項目集合,它利用Lk-1 來產生長度為K 可能是大項目集合的所有項目,在Apriori-gen 中可分為兩個步驟:

(1) 利用下列的規則來產生候選項目集合:

insert into Ck

select p.item1, p.item2,… ,p,itemk-1,q.itemk-1 from Lk-1 p, Lk-1

q

where p.item1=q.item1 AND p.item2=q.item2 AND … and p.itemk-2=q.itemk-2 AND p.itemk-1<q.itemk-1

(2) 刪除不可能成為大項目集合的項目:因為所有大項目集合的子集合必須一定是大項 目集合,根據這個規則,將上面所產生的候選項目集合中,不符合條件的予以刪除。

For all item-sets C in Ck do

For all (K-1)-subsets s of c do if (s is not in Lk-1) then

delete c form Ck

(33)

另外在計算候選項目集合的支持度時(subset 函式),需要從讀取的交易

(Transaction)中來比對候選項目集合,以計算支持度(Support),所以可以利用雜湊 樹(Hash-Tree)來儲存所有的候選項目集合,以便能夠快速地搜尋和比對。

2.5 資料探勘應用

資料探勘在任何產業上的應用都非常有潛在地價值,以下簡逑在各產業上的應用:

(1) 風險管理偵測(Fraud Detection):主要是利用在信用卡被盜刷及行動電話被盜打。利 客人在交易資料中,利用資料探勘技術找出是否有異常現象,如此能提早發現來減 少企業的損失。

(2) 財務投資分析(Investment Analysis):可以利用在股票即時報價或選股上。利用股票 的技術線型資料來分析當時的市場交易形情,來提供投資者選擇。

(3) 市場行銷與業務分析(Marketing and Sales data Analysis):主要是用來幫助零售業者

暸解客戶的消費行為,譬如哪些產品客戶會一起購買,或是客戶在買了某一樣產品 之後,在多久之內會買另一樣產品等等。利用Data Mining,零售業者可以更有效的 決定進貨量或庫存量,或是在店裡要如何擺設貨品,同時也可以用來評估店裡的促 銷活動的成效。

(4) 生產製程分析(Manufacturing Process Analysis):分析製造業的生產流程,由生產過 程中收集到的生產資料來加以分析,找出各生產流程上的問題來提供生產及研發人 員改進或解決問題的方法。

(34)

(5) 智慧型代理人與網際網路流覽分析(Intelligent Agents and WWW Navigation):主要是 應用在代理人機制,代理人機制是利用本身系統中的人工智慧來加以判斷當系統或 交易本身出現異常是發出警訊。而如何增加人工智慧的判斷能力,將原由的交易資 料利用資料探勘的技術來找出某些關連關係。而在網際網路的應用是在了解上網者 對網頁流覽時,能找出網頁與上網者在網路上所產生的交易的關係。

而本研究乃是應用資料探勘技術予退貨問題診斷上,利用資料探勘技術的關

連法則來探勘出退貨問題之間的相關連關係。

(35)

第三章 研究方法

本研究架構包含「問題定義」、「資料準備」、「建立探勘模式」、「結果分析」

四個部分。在問題定義與架構階段,根據問題的架構以及一般光碟機產業界對於退貨問 題的診斷過程,可以決定資料的準備內容及形式,並定義資料內容與涵蓋範圍。在資料 準備階段中,針對產品技術支援工程師回饋資訊進行處理,透過對於資料特性的瞭解 後,進行資料屬性之定義與探勘前處理的動作。在建立探勘模式階段中,利用關連式法 則中的 Apriori 演算法,來進行資料探勘。在結果分析,將萃取出的結論與領域專家進 行討論與溝通,以評估此探勘架構的效度。

3.1 問題定義

首先,在進行資料探勘前要先了解問題的定義及特性,再來定義出資料探勘的範

圍,接著依據問題的定義與目標蒐集的資料,來進行資料探勘。在進行退貨問題分析前,

我們首先了解目前處理退貨問題所遇到的瓶頸,如此才能將問題定義清楚。

(1) 經驗傳承的問題:退貨維修經驗的累積除了靠工程師本身的專業知識外,還需要由 資深的工程師來指導及經驗傳承,但由於企業內人才的異動(晉升)往往無法順利 的銜接而造成斷層,也導致資淺的工程師對退貨問題的處理及問題的了解,都無法 完整的掌握。

(2) 退貨維修資料庫的功能限制問題:目前的退貨維修資料庫是由過去及現在的工程師 將平常的維修記錄,輸入在 Lotus Notes 的資料庫中。此一資料庫將做為維修工程師 的知識庫來源。但 Lotus Notes 資料庫並非像大型資料庫的功能來的完整及強大,而

(36)

(3) 維修成本上的考慮:當企業的產品越來越多元化時,在退貨問題的處理上也就變得 來的複雜。如果無法正確的判斷問題所在,而消耗了相關維修零組件的成本,這樣 反而會造成企業無形及有形的損失。

根據以上三點得知,如果沒有一個完整而簡易操作的退貨維修知識庫,那在工程師 的技術養成將是一件困難的事,相對地對企業的營運及人才培養都將形成危機。

再觀察退貨問題資料中,發現如果能將退貨問題中的問題特徵如表3.1所示,找出 各問題特徵的相關連性並將關連規則儲存至退貨維修知識庫,那對資淺的工程師在維經 驗及問題判斷將有所幫助。假設1:目前有一退貨問題為”LED燈一直恆亮”,如果可以找 出此問題是與”ATAPI介面錯誤”的關係,那麼資淺的工程師只要對退貨維修知識庫進行 退貨問題搜尋的工作,這就可以解決或縮小其問題範圍,逹到快速解決問題的目的。假 設2:目前有一退貨問題為”碟機托盤無法進出”,如果可以找出此問題與”LED燈一直恆 亮”,這對資淺的工程師也是一大幫助。當然以上這兩種假設的成立是需要經由領域專 家的判斷才可以成立此一關連規則。

以上我們已經可以很明確地了解問題所在,就是利用資料探勘技術找出「各問題特 徵之間的相關連性」,來輔助資淺的工程師進行退貨問題處理,也提供一知識庫平台讓 經驗可以傳承。在初起並不一定可以如期按以上方法可以探勘出所要的資訊,唯有在反 覆修正才能釐清問題的本質,建構健全的探勘架構。將用其挖掘出來的法則建構知識 庫,用來訓練新進工程師,以達到減少重複學習的效果。

3.2 資料準備

了解問題及定義出資料的蒐集範圍,接下來便是資料準備的工作。專家曾經說過:

「一個好的資料探勘結果,資料的前處理及準備是很重要也是關鍵之一」。

(37)

表 3.1 故障問題一覽表

問題代碼 故障原因 中文說明

1 ATAPI error ATAPI 介面錯誤 2 Access time error 讀取時間錯誤

3 Access time error: CD-ROM 讀取時間錯誤 CD-ROM 的機種 4 Access time error: DVD-ROM 讀取時間錯誤 DVD-ROM 的機種 5 Audio noise 音源有雜訊

6 Broken disc 碟片斷裂

7 CND 無法定義異常原因

8 CND/NPF 無法定義韌體異常原因

9 Cosmetic - Unable to tell responsibility 使用者無法完整說明異常原因 10 Cosmetic - User fault 使用者操作異常

11 Data transfer rate error 資料傳輸錯誤

12 Data transfer rate error: CD-ROMto tell responsibility 資料傳輸錯誤 CD-ROM 的機種 13 Data transfer rate error: DVD-ROM 資料傳輸錯誤 DVD-ROM 的機種 14 LED Flash abnormal LED 燈號異常

15 LED always ON LED 燈號恆亮 16 LED always on LED 燈號恆亮 17 LED flash abnormal LED 燈號異常

18 No ATAPI 無法偵測 ATAPI 介面 19 No action 碟機無任何運轉 20 No audio signal 沒音源訊號 21 No ready 尚未啓動

22 Others - Unable to tell responsibility 其他不明異常但無法判斷

23 Others - User fault 其他不明異常可能為使用者操作問題 24 Single audio channel output 音源輸出異常

25 Tray in/out error 碟片托盤進出異常 26 Tray in/out noise 碟片托盤進出有異聲 27 Tray jam 碟片托盤卡死 28 Write CD-R media error CD-R 碟片寫入異常 29 Write CD-RW media error CD-RW 碟片寫入異常 30 Write DVD+RW media error DVD+RW 碟片寫入異常 31 Write error - CD-R media 寫入錯誤 CD-R 碟機 32 Write error - CD-RW media 寫入錯誤 CD-RW 碟機

(38)

為了能夠增加處理資料的效能與結果的正確性,通常會在取得資料之後進行下列的 資料準備動作:

(1) 資料彙整與篩選:由於所要分析之資料原先可能是雜亂而散置的,因此必須先將它 們彙整成一致的格式,並從中挑選出所要分析範圍中的資料項目。本研究中原先的 退貨問題資料是儲存在企業資源管理系統中(ERP),而於資料探勘資料庫存放不同主 機。故採用資料庫跨平台連接異質主機的方式,進行資料搬移。此目為將線上交易 資料(OLTP)與線上分析資料(OLAP)分開,而不會相互影響。

(2) 資料清理:

z 遺漏資料處理:如空數值、不存在的數值和不完整的資料調整與處理。

z 模糊的定義釐清:如不同欄位值卻代表相同的意義,故需透過資料之一致性 處理,以釐清前後一致的定義。

z 錯誤的數值處理:如欄位值不符合該欄位的有效數值,可能是輸入錯誤或程 式問題等,依其有效性而決定處理方式。

(3) 新資料產生與轉換:依據資料特性,將遺漏或錯誤資料更正,再將資料轉換為探勘 使用的格式,並定義出每一問題的代碼。此動作中有關資料維度的轉換對於建立探 勘架構有一定的影響,一般而言,維度越高的資料不僅計算複雜,所需花費的時間 也較多,且結果的解釋也較為困難,因此維度的降低乃是一門重要的課題。其目的 是將資料轉換成適合資料分析或探勘的形式,在此處理的方式有:

z 平滑(smoothing):消除雜亂的資料,如:廻歸法、分箱法。

z 彙集(Aggregation):對資料進行彙總運算,例如:總和(sum)、平均(avg)、最小值(Min value)。

(39)

z 廣義化(Generalization):以一個較高階層概念屬性項取代多個較低層概念的屬性項 集。

z 屬性建構(Attribute construction):因應需求,增加新的屬性項。

在此我們將應用上述資料轉換處理技術針對退貨問題資料進行轉換。

3.3 建立探勘模式

本階段之建立探勘模式即建立退貨問題診斷架構,主要是希望找出品質問題讓處

理負責人員能迅速的找到導致異常的原因,並儲存以往所分析的知識。本研究利用關連 式法則中的 Apriori 演算法,找出退貨問題與問題種類的關連,將特徵萃取與歸納,以 提供給維護工程師在最短時間內可以縮小問題範圍與快速回應問題所在的參考依據,如 圖3.1。

Apriori 演算法中,先行假設最小支持度(Minimum Support),經過關聯規則探勘後,

可以得到一些項目集(itemsets),若在項目集中的支持度是高於預設的最小支持度,那就 代表這些項目集為頻繁項目集(frequent itemsets),這些出現在同一個頻繁項目集中的故 障問題。這就是我們想要找出來的相同故障問題群。此演算法是按 Apriori 的原則先連 接(Join),找出 Lk-1的項目集 itemsets,再刪除(Prune),為何要刪除因為任何在 itemsets 中的 item 都要是頻繁的項目(frequent) ,而刪除的基準是最小的支持度(Minimum Support)是要大於或等於最小支持度。

(40)

以下我們將用一個範例來解釋資料探勘的過程。假設,在退貨交易中有三筆退貨 交易分別為 T1、T2、T3 等。表 3.1 為故障問題的代碼,表 3.2 為退貨交易資料。

表 3.2 故障問題代碼表

代碼 故障說明

1 ATAPI 介面無法偵測 2 無聲源訊號

3 無法運轉 4 LED 一直恆亮 5 托盤進出異常

先行定義支持度與 信賴度的門檻值

利用 Apriori 演算 進行資料探勘

利用 Apriori 演算 進行資料探勘

結合領域專家進行 規則修改

完成退貨問題 診斷的模型

圖 3.1 退貨問題診斷模型

(41)

表 3.3 退貨資料範例

交易代碼 故障問題集

T1 1,2,4 T2 1,4 T3 1,3,5

在表 3.2 裡的交易資料庫中在每一個重覆出現的項目,Apriori 演算法都會建立一個 頻繁的項目集的候選集,計算出每個候選項目集的出現次數。而後依據一個預先決定的 最小支持度(Minimum Support)來決定頻繁項目集。找出第一個重覆,Apriori 演算法搜 尋(Scan)所有的交易資料(Transaction)來計算出每個項目(Item)的出現次數。

圖 3.2 中,C1 為 候選項目集(Candidate 1-itemsets)的集合。假設最小支持度 (Minimum support)的限制是 0.4。L1 是由達到最小支持度(Minimum Support)限制的候選 項目組成的頻繁項目集(Frequent1-Itemset) 集合,依照這個方法就可產生。接下來我們 要找出第二個頻繁項目集(Frequent2-Itemsets)的集合,有鑑於任何頻繁項目集(Frequent Itemset)一定都有最小支持度(Minimum support),Apriori 演算法使用 L1*C1 來產生項目 集 C2 的候選項目集(candidate set)。這裡的*運算符號指的是連鎖運算(concatenation)。

接下來,搜尋資料庫中裡的交易資料,同時算出 C2 裡的候選項目集(Candidate Itemset) 的最小支持度值。圖 裡第二列裡中間的表格中就呈現出計算後的結果。因此依據 C2 裡每個候選項目集(Candidate 2-itemset)可決定出頻繁項目集(Frequent 2-itemsets 的集合 L2。因為 L2 中沒有候選項目集(Candidate 3-itemset)被構成,Apriori 演算法因此結束找 尋頻繁項目集 Frequent Itemset)。

產生侯選項目集(candidate itemsets),接著對每個候選目集合計算其支持度,將滿

足最小支持度的候選項目為大項目集,直到無法再產生新的候選項目集合為止。

(42)

{1,4}

Item set {1,4}

Item set

Scan D

0.33 {5}

0.66 {4}

0.33 {3}

0.33 {2}

1 {1}

Support Item set

0.33 {5}

0.66 {4}

0.33 {3}

0.33 {2}

1 {1}

Support Item set

C1

0.66 {4}

1 {1}

support Item set

0.66 {4}

1 {1}

support Item set

L1

0.66 {1,4}

support Item set

0.66 {1,4}

support Item set

C2

Scan D

0.66 {1,4}

support Item set

0.66 {1,4}

support Item set

L2

圖 3.2 產生候選項目集和準大項目集

表 3.4 各項目支持度

項目集 最小支持度

ATAPI 介面無法偵測 1

LED 一直恆亮 0.66

ATAPI 介面無法偵測, LED 一直恆亮 0.66

即 X U Y 的支持度達到最小支持度的集合,以 X U Y 的支持度除以支持度,以計 算出 X->Y 的信賴度。若信賴度達到使用者定義之最小信賴度(Minimum confidence),

則關聯法則 X->Y 成立。假設最小信賴度(Minimum confidence)為 0.1,由表三中經由關 聯規則探勘後,可以得到最後的關聯關係。在此 X 代表著: LED 一直恆亮、Y 代表著:

ATAPI 介面無法偵測。

表 3.5 探勘結果

先前問題 最後結果 最小支持度 最小信賴度

LED 一直恆亮 ATAPI 介面無法偵測 0.66 1

ATAPI 介面無法偵測 LED 一直恆亮 0.66 0.66

以上是按 Apriori 的原則:任何頻繁項目集中的項目都是要頻繁的出現在集合中。

(43)

根據表三可以得知當機台的 LED 一直恆亮時,代表可能 ATAPI 介面有問題,反 之,當 ATAPI 介面有問題時,代表的是有 66%會造成 LED 一直恆亮。

當然,在關聯式法則探勘中要找出關連式的規則,而規則的多少是決定於最小支

持值的門檻,而最小支持度的決定就需要領域專家不斷的反覆進行資料探勘挖掘的程 序,來找出一個適當的值。

3.4 結果分析

此階段主要是將結果加以分析,對於所發掘出之資訊,不斷與領域專家溝通討論,

以解讀出正確的原因及意義,並驗證其正確性及可應用性。此外領域專家也可提供本身 的專業知識與經驗,以作為進一步改良的意見,評估探勘模式是否仍有改進之處。在此 我們總共採用二種方法來計算工程師對退貨問題診斷系統的滿意度。分別是平均誤差值 (Mean Absolute Error,簡稱MAE)和工程師對系統的滿意度(Average Satisfaction)。

平均誤差值主要用來計算使用者對系統退貨診斷診斷系統所探勘出的結果與實際 問題(人工判斷)的符合程度。

平均滿意度的計算較為簡單,純粹統計讀者回應滿意度的平均值。先算出每個工程

師的滿意度平均值為其個人滿意度。再計算所有工程師個人滿意度的平均值,最後計算 出來的值即為我們需要的所有工程師對系統的平均滿意度。

在本研究所提出之資料探勘架構中,此四階段是以循環的方式進行,如此將可不斷 修正挖掘出來的資訊,使其結果更加精準。例如,對於一個促銷活動,在一開始可藉由 上述資料探勘步驟找出適合之推薦商品、目標客戶;而進行促銷後的結果,可再將其回

(44)

第四章 系統實作

本章將介紹,我們依前一章所提之研究方法以實際光碟機產業之退貨問題資料所進 行的實證研究,希望結合領域知識(Domain knowledge)以診斷退貨問題發生原因,達 到快速診斷與回應的目標,並可將其最後診斷結果進一步建立因應對策資料庫,以避免 重複學習,浪費不必要的時間與成本。

4.1 系統架構

系統建置之環境、範圍與架構如圖4.1中其中包含了企業資源規劃系統(Enterprise Resource Planning,簡稱ERP)、資料探勘(Data Mining)、退貨診斷系統雛型系統(Prototype System Environment) 、商業資料倉儲(Business Warehouse Server)、網頁化圖形介面(Web GUI) 及知識庫(Knowledge-base),其用途分述如下:

圖 4.1 系統架構圖

企業資源規劃 系統

資料前處理

資料倉儲 資料探勘引擎 知識庫

網頁伺服器 使用者

Auto Schedule

(45)

(1) 企業資料規劃系統(ERP):包含了 ERP 系統、退貨問題管理系統、資料庫與應用程 式等四部份,為退貨問題管理系統之核心所在。

(2) 商業資料倉儲資料庫(Data Warehouse):包含退貨資料倉儲,收集整合內部所 有的歷史資料資料倉儲之資料可為 OLAP 之資料來源。

(3) 資料探勘引擎(Data Mining Engine):為資料探勘運作之核心所在,內含資料 探勘演算法,用以將過去分析統計後的資料推算出預測結果。

(4) 網頁化圖形介面(Web GUI):提供Users利用網際網路的方式來瀏覽擷取出,最後資 料探勘的結果。

(5) 知識庫(Knowledge-base):儲存資料探勘後的結果,提供未來使用者使用。

在以下小節中,我們將分別介紹資料擷取、資料前處理、資料轉換處理及資料探勘 處理等之實作方法,在 4.6 節中說明整個系統執行步驟與執行結果。

4.2 資料擷取

在問題定義之後,接下來便是進行資料準備的工作。資料探勘是否真能發覺出潛 在有用的資訊,在資料準備階段中所進行的資料前處理動作將是重要因素之一。為了能 夠增加處理資料的效能與結果的正確性,本研究在資料準備階段將進行資料彙整與篩 選、資料清理與新資料產生與轉換等3個資料準備的動作。

資料彙整與篩選由企業原有退貨管理系統之資料,這部份包含了以下二種方法:

(1) 圖 4.2 及圖 4.3 為在原有系統的 ERP 所提供的退貨問題維護畫面。

(2) 使用者平時用文字編輯器如:微軟的試算表 Excel 等,將退貨問題資料先行匯整在 文字編輯器中,再利用退貨管理系統提供的將外部資料匯入的方式,將退貨問題

(46)

經由以上的輸入功能,目前所搜集的退貨問題資料為 10,182 筆,而每一筆資料 代表一種退貨的原因。

圖 4.2 退貨管理問題系統資料輸入畫面一

圖 4.3 退貨管理問題系統資料輸入畫面二

(47)

表4.1為退貨問題資料格式,其中在資料屬性的部分,定義成18個屬性(column),產 品名稱(Model Name)、問題描述(Error Description)、問題徵兆(Error Symptom) 等。

(1) 序號:在資料檔中,每一筆資料都會給予一個唯一的序號以示辨別。

(2) 批次序號:當每一次或每一批要輸入退貨資料時,系統會自動給與一組唯一的序號。

(3) 產品名稱:凡指光碟機倍數及型號,在每一次退貨過程中,為必要輸入的資料。

(4) 產品序號:每一產品皆有一個唯一的流水序號來以示辨別。

(5) 退貨日期:為客戶要求退貨時的日期。

(6) 退貨問題描述:說明產品被退貨原因,此資料為客戶所提供。讓維護工程師能完整 了解問題的核心。

(7) 問題發生日期:客戶發生故障的日期。

(8) 問題徵兆:根據問題描述,來判斷問題種類。此一部份由問題分析工程師來判定,

也就是將客戶所描述的問題,轉換成公司內部可以了解的 問題種類,明白點為問 題的歸納。

(9) 產品零組件:記錄維修後所更換的零組件。

(10) 處理行為:對於問題本身的處理動作例:更換IC,或是再經由測試發現沒有問題。

類似以上的處理動作來加以記錄。

(11) 問題類別:將問題歸納為是客戶操作、零組件等。

(12) 問題回覆:記錄回覆客戶的資訊。

(13) 韌體名稱版本:記錄每一台碟機的韌體名稱版本。

(14) 製造日期:記錄每一台碟機的製造日期。

(15) 建檔日期:記錄每一筆資料建檔的日期。

(16) 建檔人員:記錄每一筆資料建檔人員。

(17) 最後修改日期:記錄每一次修改資料的日期。

(18) 最後人員日期:記錄每一次修改資料的人員。

(48)

表 4.1 退貨問題資料檔格式

4.3 資料淨化處理

此階段主要在對於已經建立的資料進行一些資料清理的動作,諸如:遺漏資料的處 理、模糊值的定義釐清與錯誤數值的處理等,主要的目的在於減少與降低一些無用的資 料和雜訊,使得下一階段的資料探勘得以充分發揮。本研究在此階段也將配合領域專家 的意見,以增加資料清理的效能,如遺漏值、模糊值與錯誤數值的處理可更加適切。而 對於屬性資料中,關於「無」這個變數乃表示品質問題診斷人員在進行品質問題診斷時,

確定該屬性沒有發生可能原因,處理方式如下:

欄位名稱 資料型態 欄位長度 欄位描述

LINE_ID NUMBER 15 序號

HEADER_ID NUMBER 15 批次序號

MODEL_NAME VARCHRA2 30 產品名稱

SERIAL_NO VARCHRA2 30 產品序號

FAIL_DATE DATE 10 退貨時期 ERROR_DESC VARCHRA2 40 退貨問題描述

VERI_DATE DATE 10 問題發生日期 FAIURE_SYMPTOM VARCHRA2 100 問題特徵

DEFECTIVE_PART VARCHRA2 100 產品零組件

ACTION VARCHRA2 100 處理行為

FA_CATEGORY VARCHRA2 30 問題類別 RESPONSIBLE VARCHRA2 30 問題回覆

FIRMWARE VARCHRA2 10 韌體名稱版本

MFG_DATE DATE 10 製造日期

CREATION_DATE DATE 10 建檔日期

CREATED_BY NUMBER 10 建檔人員

LAST_UPDATE_DATE DATE 10 最後修改日期 LAST_UPDATE_BY NUMBER 10 最後修改人員

(49)

將原先由使用者輸入的資料來進行資料潔淨的工作,使用者在輸入資料時有可能輸 入空白或無效的日期或描述欄位過長的問題。經由潔淨的工作來增加,資料探勘的正確 率或執行速度。

(1) 空白資料部份:

在空白的資料中,有可能是工程師在輸入退貨資料時遺漏而造成。如果不在探 勘資料前先行處理,會造成探勘效能過差或結果差異過大等問題發生也會造成誤判 的情況發生。所以,經與領域專家討論及研究後,可再資料前處理中加入一段程式 邏輯判斷如表 4.2,將退貨特徵空白的部份,按問題描述的情況來加以判斷,並給 予適當的值,如此就可以解決空白資料部份的問題。以下兩種是避免空白資料發生 時的解決方法:

z 可由使用者自行定義後,再轉入資料探勘的資料庫 z 由程式中預設值來代入空白欄位

表 4.2 資料淨化程式邏輯

程式邏輯 領域專家建議值

IF 問題描述 = Can't open

THEN 退貨特徵 = LED always on 當光碟機面板無法開啓時,判斷為 LED 燈為恆亮 ELSIF 問題描述 = Can't close

THEN 退貨特徵 = Tray Jam 當光碟機面板關閉時,判斷為碟片托盤無法退回 ELSIF 問題描述 = Can't work

THEN 退貨特徵 = Not Ready 當光碟機無法正常運形時,判斷尚未準備完成 ELSIF 問題描述 = Not Read Disk

THEN 退貨特徵 = Access time error 當無法讀取碟片資料時,判斷為讀取異常 ELSIF 問題描述 = File Transfer Fail

THEN 退貨特徵 = Data transfer rate error 當無法正常檔案傳輸時,判斷為資料傳輸異常 ELSIF 問題描述 = Null(空白)

THEN 退貨特徵 = CND(Can not define) 當問題描述無以上問題時,判斷為無法定義問題

(50)

(2) 無效日期:

日期輸入時有可能因為工程師一時操作有誤造成異常,所以在維護退貨資料加 入了防呆機制,也就是讓工程師在輸入資料時,能立即檢查出資料是否輸入異常,

如此可避免資料探勘時造成異常問題發生。以下兩種為避免無效日期問題發生的解 決方法:

z 在資料輸入時,由輸入畫面先行執行防呆機制 z 在資料潔淨程式中,判斷日期是否為有效

圖 4.4 判斷輸入日期格式

圖中紅色框架為當輸入錯誤的日期時,有輸入資料當時,來進行判斷並提示工程師 資料有誤。

程式邏輯部份:呼叫系統日期函數,當所輸入的日期不符合邏輯時,程式會提供工 程師錯誤訊息。

(51)

圖 4.5 程式中判斷日期格式的錯誤訊息 目前每日平均判斷出日期不符合或人為輸入有誤約 5 筆。

(3) 資料長度問題:

在退貨管理系統中的資料庫定義的欄位長度有可能不會與資料探勘資料庫的 欄位長度所定的不同,因為兩者分別代表著不同目的的用途。所以,再資料前處理,

先與領域專家討論出解決資料長度的問題。以下為避免資料長度過長的解決方法:

z 在資料潔淨程式中,截取資料探勘上之有效長度。

程式邏輯部份:呼叫字串函數中計算字串長度的函數,來判斷是否在使用者輸入時 超出資料探勘資料庫所設定的長度。

IF length (‘XXXXXXXXXXX’) > 40 then

Fnd_message.debug (‘the description too long’);

End IF

在此對於以上三種資料處理方法,以退貨問題資料為例說明。

(52)

表 4.3 資料前處理之資料範例

Header_ID Model_Name Fail_date error_desc veri_date failure_symptom .. last_update_date 6582 LTR-48246S 16-Mar-04 CD POWER ERROR 15-Apr-04 Others - Unable to tell responsibility .. 9-Jun-04 6693 SDW-421S 3-Mar-04 can't detect by BIOS 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 can't define 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 can't detect by BIOS 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 Can't test 5-Mar-04 CND/NPF .. 17-Apr-04 6693 SDW-421S 3-Mar-04 srew loose 5-Mar-04 Cosmetic - User fault .. 17-Apr-04

6693 SDW-421S 3-Mar-04 5-Mar-04 No ready .. 17-Apr-04

6693 SDW-421S 3-Mar-04 Tray can't out by arm_emergency 5-Mar-04 Tray in/out error .. 17-Apr-04 6693 SDW-421S 3-Mar-04 Tray can't out by arm_emergency 5-Mar-04 Tray in/out error .. 17-Apr-04 6693 LTD-XXXX 3-Mar-04 Tray can't out by arm_emergency 5-Mar-04 Tray in/out error .. 17-Apr-04

... … … … …

(1) 不正確資料:在 ID=6693 之第九筆 Model_Name 的欄位值,所填入的資料為不正 確產品名稱。

(2) 空白資料未填:在 ID=6693 的第六筆資料中,在 ERROR_DESC 的欄位值,未完 填入值或遺漏。

(3) 無法鑑別的資料:在 ID=6693 的第二筆資料中,問題特徵的欄位值,出現 CND(Can not Define),這類的值對我們的資料探勘中,在搜尋關聯式規則時不 會有幫助。

表 4.4 為完成資料前處理的最後結果,以下結果可以得知如果沒有先對資料 前處理的動作,有可能會判斷異常或無法找出問題的相關連性,如此反而增加了工程師 處理問題的困擾。

參考文獻

相關文件

In case of non UPnP AV scenario, any application (acting as a Control Point) can invoke the QosManager service for setting up the Quality of Service for a particular traffic..

• A school with teachers strong in science can strengthen the learning of science and technology elements in GS by promoting reading in science and providing ample opportunities

Lecture 16: Three Learning Principles Occam’s Razor?. Sampling Bias Data Snooping Power

2 machine learning, data mining and statistics all need data. 3 data mining is just another name for

In developing LIBSVM, we found that many users have zero machine learning knowledge.. It is unbelievable that many asked what the difference between training and

TEACHERS: Supporting Students Facing Difficulties in Dating... 有人一齊同我做我想做嘅嘢

From literature review, the study obtains some capability indicators in four functional areas of marketing, product design and development, manufacturing, and human

[16] Goto, M., Muraoka, Y., “A real-time beat tracking system for audio signals,” In Proceedings of the International Computer Music Conference, Computer Music.. and Muraoka, Y.,