實驗架構設計

第四章實驗設計

4.4 實驗架構設計

本實驗主要是利用架構於平行分散式系統上的 FP-Tree 演算法作為主要研究基礎，目的在於探討處理器間的負載平衡對於資料探勘所需時間效能及處理器間資料傳輸量之影響，因此將以同是以 FP-Tree 為架構的演算法 PFP-Tree 為比較依據，藉由收集在不同資料處理量下的探勘時間及傳遞資料量，進一步分析資料歪斜所造成之效能影響及負載平衡所帶來之改進效率。

另外，由於本論文之探討議題主要是處理器間之負載及效能，且由於探勘資料屬於醫療相關資料，對於結果之分析仍待醫療專家之檢驗才有所定論，因此對於探勘結果之分析將不做進一步之探討，而本論文演算法之結果正確性，在與另一演算法 Apriori 在相同支持度及資料下的比對後，以確認無誤。而為了能切確了解演算法之特性與效能之比較，本論文設計了以下四種實驗：

1. LFP-Tree 演算法之特性

此實驗設計主要是針對演算法本身之特性作測試，並且須確認在不同支持度下其演算效能並不會有太大幅度變動，也需要確定本演算法的負載計算方式能夠有效地平衡各處理器的負載，另外，針對在不同資料量下，演算法的效能是否有更好之表現，都是本實驗設計所探討之範圍，

因此將對本演算法於各種不同支持度及處理器個數下的總探勘時間做出分析。

2. 不同處理器個數對於演算法效率之比較

此實驗主要是在探討，在相同的支持度設定之下，由不同的處理器個數平行處理資料，探討兩種演算法對於資料探勘所需之時間需求，藉著將相同的醫療檢驗資料交由不同的演算法分別進行探勘，並於過程中記錄其所需相關時間及傳輸資料量，由這些資料進一步分析並解釋其演算法在效率與處理器個數上之差異。

3. 不同支持度對於本論文演算法之影響

此實驗主要目的在於利用不同的支持度去驗證本論文演算法之穩定度。由於在不同的支持度之下，所造成之處理資料量也隨之不同，因此本論文將會進行 3%、1%、0.5%及 0.3%不同支持度設定的實驗，藉由調整支持度來測驗演算法在不同資料量下的運作效能，並紀錄探勘過程所需時間，利用實驗結果來分析解釋演算法與效能變化之關係，也進一步驗證演算法之穩定度。而本實驗之信賴度之設定，由於探勘結果之分析並非本論文所探討之重點，因此設定為 0。

4. 資料歪斜對於演算法之影響

資料之歪斜乃指資料於處理分配的過程中，處理器所負擔資料內之

平均項目數與其他處理器相距太大，因而造成資料處理及探勘時間上之不均，使處理器之效能無法有效發揮之現象。因此本實驗之目的便是將相同之醫療檢驗項目透過不同的排列，造成資料歪斜現象，我們把資料庫交易紀錄中項目數量大於 4 的資料與項目數量小於 4 的資料分開，將其分配給不同的處理器做資料探勘，分別以不同之演算法資料進行探勘，並於探勘過程中完整記錄其時間，藉以分析負載平衡對於資料歪斜之改善程度，並驗證本論文演算法於各資料狀態下皆能保有穩定之效能。

在文檔中中華大學 (頁 53-56)

第四章 實驗設計

4.4 實驗架構設計

第四章實驗設計