2.1 資訊科技基礎架構庫
2.1.2 事件管理
在 ITIL 中,事件的定義為[6]:任何不屬於服務標準操作程序的 一部分,而導致或可能會導致服務中斷或是服務品質降低的狀況,就 稱為事件。因此,當使用者遭遇這些狀況時,就會向服務台提出事件 需求,服務台需要採取適當的處理動作,這些動作就稱為事件管理,
而這些事件管理的活動,就稱為事件管理流程。ITIL 將事件管理流程 定義為[6]:當 IT 服務事件發生直到服務回復到正常運作水準的過程 中,進行對事件的記錄、分類、診斷與回復等活動。事件管理的目標 是盡快解決事件,且讓 IT 服務回復到正常狀態的操作環境,確保最 佳等級的服務品質。
事件管理流程有相關的輸入、輸出與相關活動如圖 4 所示,其中 活動的步驟包含事件偵測、事件記錄、事件分類、事件診斷、事件解 決、系統回復、事件結案與事件擁有權指定等。
Incident
Known Error Database Incident
Details
資料來源: HP ITIL Foundation for IT Service Management[6]
事件管理中的各項活動可分為以下幾點來描述[6]:
1. 事件偵測(Detection):瞭解事件的發生情況,定義事件發生 的狀況或所在,可能的來源為從服務台取得的使用者回報,
或是由系統異常狀況管理偵測系統所引發,此事件詳細資料 是事件管理流程的輸入,而由服務台人員所引發。事件有可 能是使用者的服務需求,而非系統異常,若是服務需求則是 由服務需求的處理程序來進行這個服務請求。
2. 事件記錄(Recording):此活動需真實地記錄事件的資料,如 時間、反應人員、異常系統、異常狀況與影響範圍等等。
3. 事件分類(Classification):此活動是根據紀錄的事件細節來 進行,如根據事件的起源或者是症狀,將事件辨別為某個類 別的事件。另外針對事件資訊,需決定緊急程度以及影響程 度,進而判斷與決定事件處理的優先程度,如為 24 小時生 產使用的應用系統 MES 異常,且事件造成生產停線影響,
則優先程度為最高。
4. 事件診斷(Diagnosis):在這個階段所要進行的動作有,(1) 仔 細的評估事件的細節,(2) 收集和分析所有相關的資訊,以 及(3) 嘗試從已發生並處理完成的問題處理知識庫(Known Error Database) 中,找出相類似問題的暫時性解決方案,或 者 是 將 事 件 安 排 給 後 端 的 專 業 人 員 引 發 一 個 異 動 需 求 (Request For Change,RFC) , 交 由 問 題 管 理 (Problem Management)流程模組進行處理,來永久解決這個事件。
5. 事件解決(Resolution):在這個階段所要進行的動作為,採取 或使用取得的解決方案,或是暫時性解決方案(Workaround) 來進行事件的處理與解決,讓系統啟動(System Up)。
6. 事件恢復(Recovery):此活動是將系統回復到原先正常狀 態,且讓使用者可以使用系統(User Up)。
7. 事件結案(Closure):當事件解決後,需得到使用者或事件提 出者的結案確認訊息,確定事件已被正確解決後,才可以將 事件結案。
8. 所有權(Ownership):這個階段是要確認事件從起始到結束整 個過程的生命週期,所有的事件必須是沒有遺失,沒有被延 遲處理或者是被忘記等等,最後還要通知使用者事件的狀 況。
相關研究中,Hanemann[13]提出用反覆偵測 IT 服務狀態的模 式,找出其他相關服務受到影響的狀況。Bartolini 等人[14]提出事件 管理的重要性,將數種 IT 管理的效能指標(Key Performance Indicator, KPI) 對應到事件管理的結果,再對應到管理目標(Management of Business Objectives, MBO)做為整個企業與 IT 部門管理的評鑑項目。
Gupta 等人[15]也提出事件管理的自動化研究,但其事件來源範圍限 定於使用者回報的事件,且使用關鍵字方式來進行,讓服務台人員利 用關鍵字方式查詢相關事件的文件,或是查詢搜尋異常的根源物件。
周柏村[16]的研究中提出使用知識支援來提供對事件管理的幫助,並 利用資料探勘技術從事件紀錄中發掘出相關的事件管理知識,來協助 服務台的事件管理,但此研究是限定在服務台針對新事件已做完初步 的辨別與分類後,才可進行。李桄瑋[17]的研究中提出利用主題地圖 方式,提供事件管理者事件相關知識支援,透過服務台建立事件表單 方式,再由事件管理者進行判斷與事件解決。
在本研究中,將針對 ITIL 中的事件管理流程,將事件管理中原 本需人為操作的事件偵測、記錄、分類,以及診斷(尋找類似解決方 案)等步驟,轉化為利用自動化事件管理架構協助該等步驟的進行。
採取積極主動方式,且全面性掌握每一個細節,使事件管理流程可快 速處理與進行,加速回復系統至正常運行狀態,輔以 IT 服務運行最 大的幫助。