• 沒有找到結果。

第三章 系統設計

3.2 維運機制

3.2.6 監控與修復

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

30

3.2.6 監控與修復

本研究將監控維修功能分成 CPE 狀態監控修復及 DU 狀態監控修復兩個部分,透 過在 PerSAM 系統中加入 control point(CPE)與 CWMP 結合,除了 PerSAM 系統中 原本支援的家庭內部的服務與設備的偵錯與維修外,本架構所設計的監控與修復機制 將維修情境延伸至家庭外,使遠端的服務供應商也能夠即時得知家中設備故障資訊,

且若家中故障節點無法修復,則立即協助使用者維修,詳細說明如下:

(1) CPE 狀態監控修復:

CWMP 提供 ACS 對 CPE 狀態和性能的監控,ACS 可以監控與其相連的 CPE 的 各種參數,其中包含了設備狀態。CPE 會定期向 ACS 發出 event code 為“ 2 PERIODIC ” 的 Inform 通知,告知 ACS 自己存在,若 ACS 超過此週期未收到來自 CPE 的 event code 為“ 2 PERIODIC ”的 Inform 通知,ACS 會自動判定 CPE 的連線已中斷,並立即更新 資料庫(acsdb)的 cpe_information table 中的 cpe_status 欄位資訊,並且印出“ CPE has something wrong! ”的訊息,接著嘗試與 CPE 建立連線,步驟如圖 3.6。

圖 3.6 ACS 對 CPE 進行遠端維修監控程序

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

31 (2) DU 狀態監控:

在智慧家庭中安裝了許多的付費元件,稱為 DU(Deployment Unit),在 PerSAM 模型中的 PSM 與 Worker Node 都是 DU,ACS 會根據使用者所購買的 DU 對 CPE 進 行動態佈署。PerSAM 系統中,會隨機指定一個 PSM 作為 leader,使所有的 Manage Node 能擁有強健性。CPE 透過與 PerSAM 的 Manager Node 互動,從中得知模組的狀態,

並經由訂閱 PerSAM 上的錯誤診斷 topic(diagnoseDU)接收 DU 的錯誤訊息,透過 CWMP 回報給 ACS。在錯誤偵測與回復程序中,錯誤狀況可以分成下列三種:

Worker node 失效:

當 worker node 失效,leader 收到 PHM 傳來的 available information 時,若有 unavailable worker nodes,則 PSM 會比較這些 node 是否在自己管理的 PSC

(Pervasive Service Community)中,如果是,leader 會先要求 PHM 重新啟動這 些 worker nodes,並發送 ssdp:discover 尋找有無可替代的 worker node,若能找到 替代的 node,則 PSM 會將此失效的 node 更換為新的 node;反之,PSM 發送 psmp:discover 並啟動服務組成流程,若服務無法組成,則由 leader 將失效的 node 訊息送至 diagnoseDU topic,CPE 收到後會提醒使用者需購買新設備,流程如圖 3.7。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

PHM 失效:

當 PHM 失效,將沒有人監控 PHC members 的狀態,則可能會發生 PSM 管 理故障而無法回復之狀況。此時,leader 會要求此 PHM 所在的實體計算裝置(host) 之 worker node 重新啟動該 PHM,由於 PHM 失效時需由位在同台裝置上的 worker node 重新啟動,因此,若一裝置上所有的 PHM 及 worker node 都失效,則必須重 新啟動整個系統,若重啟系統後仍無法恢復 PHM 運作,leader 會在 diagnoseDU topic 發出 PHM 失效之訊息,CPE 收到後會發出 event code 為“ 13 PHM BROKEN ” 的 Inform 通知給 ACS,而 ACS 端則顯示“ PHM broken! Please fix it! ”訊息,告知 服務供應商此顧客需要軟體維修服務。

PSM 失效:

PSM 失效代表一個服務中止,即 DU 故障,因此當 PSM 被視為失效時,leader 必須根據設定檔內容找到此 PSM 位在哪台 device 上,並要求此 device 的 PHM

圖 3.7 Worker Node 失效流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

33

從 memory 中移除這個 PSM,接著重新啟動它,讓 PSM 恢復運作,若 PSM 仍無 法回復,則由 PHM 發送“14 PSM BROKEN” 訊息至 diagnoseDU topic,讓 CPE 將錯誤回報給 ACS。此外,如果所有的 PSM 都 failed,表示沒有人當 leader,系 統必須重新啟動;若重啟系統後仍無法恢復 PSM 運作,則由任ㄧ有效的 PHM 或 worker node 在 diagnoseDU topic 發出 PSM 失效之訊息,CPE 會發出 event code 為“ 14 PSM BROKEN ”之 Inform 通知給 ACS,而 ACS 端則顯示“ PSM broken!

Please fix it! ”訊息,告知服務供應商此顧客需要維修服務,流程如圖 3.8。

圖 3.8 PSM 失效流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

相關文件