• 沒有找到結果。

資料探勘

在文檔中 中華大學 碩士論文 (頁 41-44)

第三章 資料探勘技術介紹

3.1 資料探勘

資料探勘是用來將資料中隱藏的資訊挖掘出來,所以資料探勘其 實是所謂的知識發現(Knowledge discovery)的一部份,它使用了許多統 計分析與模型化的方法,到資料中尋找有用的樣式及關聯性,這些發 現知識的過程對資料探勘的應用成功與否有決定性的影響[34]。資料探 勘是指在大量資料當中尋找隱藏知識或資訊,其中發掘之規則或相關 性都可能出乎意料,由探勘出有效知識規則亦可提供企業主管於決策 時之參考依據。

3.1.1 資料探勘步驟

資料採礦的過程會隨不同專業領域的應用,而有所變化,而每一 種資料採礦技術也會有各自的特性以及使用步驟,針對不同問題需求 所發展出的資料採礦過程也會有差異化的存在,如資料的完整程度、

專業人員支援的程度等都會對建立資料採礦過程有所影響;也因此造成 資料採礦在各不同領域間連用規劃整個流程上產生差異性,即使是同 一產業,也會因為不同分析技術結合不同涉入程度的專業知識,而產 生明顯的差異性,因此對於資料採礦過程的系統化、標準化就顯得格 外重要,如此一來不僅可以較容易跨領域應用,也可以結合不同的專

業知識,發揮資料採礦的真正精神。資料採礦完整的進行步驟如下[51]:

1. 理解資料與進行的工作

2. 獲取相關知識與技術(Acquisition)

3. 整合與查核資料(Integration and Checking) 4. 去除錯誤或不一致的資料(Data Cleaning)

5. 發展模式與假設(Mode\ and Hypothesis Development) 6. 實際資料採礦工作

7. 測試與檢核所採礦的資料(Testing and Verfication) 8. 解釋與使用資料(Interpretation and Use)

由上述步驟可看出,資料採礦牽涉了大量的準備工作與規劃過 程,事實上許多專家皆認為整套資料採礦的進行有 80%的時間精力是 花費在資料前置作業階段,其中包含資料的淨化與格式轉換甚或表格 的連結,由此可知資料探勘只是資料採礦過程中的一個步驟而已,在 進行此步驟前還有許多工作需要先完成。

3.1.2 資料探勘流程規劃

本研究針對資料採礦建模的標準 CRISP-DM,作為本研究探勘流 程規劃之準則,CRISP-DM 是 Cross-Industry Standard Process for Data Mining 的 簡 稱 , 中 文 翻 譯 為 「 資 料 採 礦 交 又 行 業 標 準 過 程 」,

CRISP-DM 是由歐洲委員會與幾家在資料採礦應用上有經驗的公司共 同籌劃組織的一個特別小組所提出,CRISP-DM 模型強調完整的資料 採礦過程,不能只針對在資料整理、資料呈現、資料分析以及建構模 式上,仍需要對企業的需求問題進行了解,以及後期對模式的評價與 模式的延伸應用都是一個完整的資料採礦過程不可或缺的要素[51]。本 研究探勘流程規劃,分別說明如下:

一、定義商業問題(Business Understanding)

此階段,本研究所設定問題為知識管理系統中所產生大量知 識案例背後所隱藏規則,若資料探勘技術適用此問題,將可使大 量知識案例轉換成有用之管理策略。

二、資料理解(Data Understanding)

此部分本研究所用資料為知識管理系統所產生之知識案例,

知識案例當中包含社群編號、案例編號、部門名稱、知識提供、

知識應用、知識加值、工技碼、日期之屬性,瞭解各個屬性之分 類,將大量資料建立成資料庫再進行資料分析。

三、資料預處理(Data Preparation)

本研究針對知識案例當中各項屬性作整合及去除雜質資料之 步驟,將各屬性差異性較大或資料不完全之部分作刪除,資料庫 當中大量資料有可能反映雜亂(Noise)、異常情況及資料不完全。

對於分析結果精確度亦可能相當差,所以資料處理將是不可或缺 之步驟。

四、建立模型(Modeling)

本研究選擇「決策樹」、「群集演算」、「類神經網路」、「關聯 規則」、「時序群集」、「時間序列」、「貝氏機率分類」、「羅吉斯迴 歸」及「線性迴歸」作為資料探勘之模式。資料探勘可依據不同 方法類型作分類、預測、推估、群集、關聯性等作分析,但每種 技術對資料有限制或要求,將於資料處理時做好轉換之動作。

五、評價和解釋(Evaluation)

透過不同分析技術所產生之探勘結果,無法每項規則都可應 用,針對有效規則需對於問題作解釋,本研究對於有效規則提出 案例工程顧問公司管理知識社群有效之策略應用。

六、實施(Do)

本研究提出改善管理知識社群之策略,可提供案例工程顧問 公司之高階主管做為參考,以及應用策略後之成效為何。皆需實 際執行才可得知成效。

在文檔中 中華大學 碩士論文 (頁 41-44)