實驗與評估

第五章物件導向式資料整合系統設計

6.2 實驗與評估

此程式提供了圖形化介面，方便我們建立資料庫與資料新增和修改。於是我們就在新增之資料中透過手動方式修改幾筆資料，模擬資料異動情況沒多久後資料整合系統便偵測資料庫資料異動，於是經由資料整合系統分析後，將同步訊息傳送到資料庫，進行資料更新動作(參見圖 6.3)，達到資料一致性整合之任務。

圖6.3 整合系統執行資料整合作業

( 2 )不受時間限制

真實企業各部門資料庫更新規則之評估需要長期觀察，長達好幾個月甚至好幾年，基於研究年限之限制，所以真實企業資料採集較不可行。

在實驗評估維度方面，我們參考文獻[Liu00]之方法，延伸出(1)同步及時度 (Synchronization-Timeliness)，(2)異動完整度(Change-Completeness)與本研究所定出(3)同步完整度(Synchronization-Completeness)，藉由上面三個維度以評估此自動化企業資料一致性整合系統的品質。而在實驗評比對照組有定期式代理人監控，

可代表目前現有利用批次處理資料更新方式。

接下來在下一小節先介紹模擬資訊變動之空間，於第二小節介紹系統評比之對象與流程，第三節介紹整合系統評比之維度，第四節介紹模擬執行環境，第五節是實驗結果之分析，驗證本系統之可行性。

6.2.1 模擬資訊

資訊空間變動模擬的更新時機，依據企業常見的資訊更新時機，採用「指數分配更新模式」（Exponential- Distribution Update）決定每一個時段資訊項目變動的機率。指數分配是一種常用的連續機率分配。它應用在任意兩個連續發生的事件間隔或等待時間。其公式定義如圖6.4 所示。

若x 為連續的隨機變數，其機率密度函數為：

為f (x) = λe^-λx，X 0, ≧ λ >0

則 f(x)為指數分配，式中：λ 為單位時間內事件發生的平均更新頻率

圖6.4 指數分配算式

因此給定λ，則該資訊項目於時間間隔α被更新之機率為P(X α) = 1≦ -e^{-λ α}。在

本實驗中，λ值採用隨機方式給定，但為了模擬高頻率、一般與低頻率時段資料量之差異，我們將高頻率時段其λ值介於 1/10 至 1/20，而一般時段則為 1/40 至 1/60，低頻率時段則為 1/80 至 1/100，更新時機如圖 6.5 所示。

End IF

else non update

IF (P>=Palow) then information item update Pallow=Math.random( )

//模擬時間內，每一資訊項目每一 Clock 亂數產生一允許機率 P=1-Math.exp[-1*1/ ( Math.ramdom( )*45+5)]

X=1 (每一 clcok 為間隔單位) Landa=1/timestamp

timestamp=(Math.ramdom( )*10)+10 //更新周期 10~20

Ex：

預先以亂數決定每一資訊項目更新周期 Landa=1/timestamp

//頻率(Landa)=1/周期(timestamp) x=多少間隔之內

公式：P=1-Math.exp(-x*Landa) p：發生更新的機率

圖6.5 模擬更新時機

於是我們設計實驗一回以模擬實際上一天的資料異動量，而每一回資料之異動頻率分佈以圖6.6 所示來做說明。以圖例來說，從半夜 23 點到隔天早上 6 點為企業休息時間，故此時段資料異動量少，所以此區間資料用來模擬低頻率時段；

而早上6 點至 8 點、中午 12 點至 13 點與傍晚 18 點至晚上 23 點間，為企業準備上班、中午休息和晚上加班時間，此時段資料異動量為一般，所以此區間資料用來模擬一般時段；早上8 點到中午 12 點和下午 13 點到傍晚 18 點間，為企業上班辦公時間，此時段資料異動量高，所以此區間用來模擬高頻率時段。

Frequency

Time

High

Normal Low

0 6 8 12 13 18 23 24

圖6.6 模擬資料頻率分佈圖

6.2.2 實驗評比對象和流程

本實驗共有二組評比對象︰適性化調整監控頻率(本系統架構)和定期監控 (Period)頻率。實驗共有個 100 代理人，各分別負責監控 100 個資訊項目。適性化監控方式採用前述之方法進行監控，而定期監控方式，乃採用固定之頻率監控，

每個代理人被隨機賦予固定之頻率其值介於40 ~ 60 資訊項目/單位時間，各代理人即依據各自之頻率去偵測其相關之資料庫。定期方式可分別代表目前一般常見之現有資料整合系統。模擬流程中共有三隻程式；(1)實驗組(2)定期(3)模擬資料。

分別獨立，模擬實驗流程如圖6.7 所示。

圖6.7 模擬流程圖定期資料

處理作業對照組

模擬環境

模擬資料模擬資料

複製

評估實驗數據 ADIS

實驗組

6.2.3 實驗評估維度

實驗之評估考量對整合系統管理員而言，也就是監控之品質方面來探討。資料整合系統必須同時兼具「及時度」與「完整度」之考量，才能有最佳效益。

所謂監控品質即是「及時度」與「完整度」是主要評估標準，如表 6.1 所示。

「同步及時度」主要在於評估系統偵測出異動發生的及時性，其值愈高，代表及時度愈佳，才能迅速地及時回應異動發生，進而即時完成同步化作業。「異動完整度」則是資訊項目所有異動次數中，系統偵測到異動次數之比率，其值愈高代表系統愈能測得較高比率之異動，對整合系統而言，更能完整掌握資訊項目異動。而「同步完整度」則是資訊項目所有更新次數中，系統達到更新次數之比率，

其值愈高代表系統愈能達到較高比率之更新，對整合系統而言，更能完整達到資訊項目更新。

表6.1 評估維度定義表

評估維度定義意義

Change- Timeliness (異動及時度)

異動延遲時間＝Σ{被偵測到的時間-真實更新時間}

平均異動延遲時間＝延遲時間/被偵測到的總次數

異動及時度＝1/平均延遲時間

讓資料整合系統對資料項目異動能較及時地做出同步更新回應

Change- Completeness (異動完整度)

異動完整度＝Σ 發現異動的總次數/Σ 資料項目異動的總次數

讓資料整合系統對資訊項目異動有完整脈絡的獲得，避免遺漏重大異動 Synchronization-

Completeness (同步完整度)

同步完整度＝Σ 產生同步的總次數/Σ 資料項目同步的總次數

讓資料整合系統對同步資訊有完整脈絡的獲得，避免遺漏重大更新

由上述之「及時度」與「完整度」與二個衡量標準看來，一個高效益之資料整合系統，應確保其在此三個評估維度上有一定水準以上之效能。

6.2.4 模擬執行環境

模擬程式之代理人是以執行緒(thread)技術寫成，每個代理人即為一執行緒，

所以整合系統是多執行緒(multi-thread)的架構。後端的資料庫採用 MySQL，而 Java 和MySQL 之連結的驅動程式是 JDBC。以執行緒開發代理人程式之原因，因代理人所表現之特質，如自主性、獨立性、移動性等，執行緒有輕量級程式 (Light-Process)之稱，正符合代理人所應具有特質，可完全發揮代理人之功能。

6.2.5 資料定義

我們在實驗模擬中設計兩表格，分別是代理人資料表格 (Agent_Table，參見表6.2)和模擬測試資料表格(Test_Table，參見表 6.3)，資料庫內有一個模擬測試資料表格和二種代理人行為表格（實驗組、定期）。表格內各欄位之定義如下圖所示。

表6.2 代理人行為記錄表

欄位型別說明

id int Agent ID

clock int monitor_frequency int 監控頻率

short_frequency int 高頻率異動之頻率 avg_frequency int 一般平均異動之頻率 long_frequency int 低頻率異動之頻率 real_updatetime int 真實更新時間 detect_time int 偵測發現更新時間 total_detect_time int 所有偵測次數總合 delay_time int 發現異動之延遲時間 Primary key：id & clock

表6.3 模擬測試資料表

欄位型別說明

clock int

update int 1：有更新；0：無更新 interest int 1：興趣異動；0：否 updatetime int 更新時間

Primary key：id & clock

6.2.6 實驗結果分析與結論

實驗每回都產生新的模擬資料，共執行了100 回，每一回各獨立執行 1620000 次迴圈以模擬實際上一天的資料量，以高頻率、一般與低頻率異動在每一回(天) 所發生時間，按照時間比率來產生模擬資料，此實驗共執行了100 回後再求出各維度之平均值。實驗後之及時度經理後資料以折線圖表示，如圖6.8 所示，線條較粗之曲線代表實驗組(ADIS)，線條較細之曲線代表對照組(定期資料處理作業)，由圖 6.8 之折線圖可以看出實驗組之及時度高於對照組。以圖例而言，本整合系統有著較佳的學習能力，故平均及時度而言大約在0.3 左右，而定期資料處理作業因其偵測之頻率固定，學習能力差，故及時度平均落差較大。

0 0.1 0.2 0.3 0.4

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 Clock

Timeliness ADIS 定期資料處理作業

圖6.8 異動及時度比較圖

而在在這樣的情形下所得之異動及時度、異動完整度和同步完整度之數值(參見表6.4)，其相關資訊如下。

表6.4 綜合比較表

異動延遲時間異動及時度異動完整度同步完整度 ADIS 3.144436 0.318022 1 1 定期資料處理作業 27.59495 0.036239 1 1

其實驗結果發現，本整合架構之優良表現來自於資訊更新頻率之學習與正確的將資料更新之能力。以異動延遲時間而言，其代表被偵測到的時間與真實更新時間之平均時間差，此處時間差所指的是迴圈數，所以異動延遲時愈小愈好，表示能夠較快發現異動資料。就及時度方面而言，因異動及時度為異動延遲時間之倒數，所以異動延遲時間愈小，及時度就愈好，而本整合系統能夠有較佳的及時度，起因於其對更新發生之預估能力，根據過去歷史資料偵測得之以訂定資訊更新週期，預估下次發生更新的時間點。就完整度而言，本整合架構皆有完整的能力發現所有資料異動與確實同步化更新資料庫資料，確保了資料完整性與一致性。綜合以上評估，本整合系統有相當高之可行性。

在文檔中中華大學 (頁 95-103)

第五章 物件導向式資料整合系統設計

6.2 實驗與評估

Frequency

Time

第五章物件導向式資料整合系統設計