資料歪斜對於演算法之影響

第五章實驗結果與分析

5.4 資料歪斜對於演算法之影響

在本節中，將針對資料歪斜對於平行分散探勘演算法之影響作分析探討。在資料歪斜的狀況下，LFP-Tree 演算法依舊可以維持良好的探勘效率，並不會因為資料有歪斜的情況而使得整體探勘時間大幅度上升，分析其原因，是因為在平衡的過程中就會針對資料歪斜所造成之影響加以化解，因此仍能有效地隨著處理器數量增加而降低探勘時間及資料傳遞量，圖 5-10 便是說明 LFP-Tree 在資料歪斜下，與 PFP-Tree 相較後仍有更佳之效能。

在本論文前面章節中有提到資料歪斜將會影響處理器的負載平衡，也因此在此實驗過程中，對此兩種演算法之負載平衡程度做出驗證，正如圖 5-11 所示，

LFP-Tree 即使在資料歪斜的情況下，仍可讓處理器間的探勘時間差距維持在穩定 範圍，因而達到負載平衡之效用。

0 5 10 15 20

Node 02 Node 04 Node 08 Node 16 處理器個數 (支持度 0.003，資料筆數 125877)

效能改善程度 (%)

改善效能

圖 5-10、資料歪斜下 LFP 所改善之效能

0 0.2 0.4 0.6 0.8 1 1.2

Node 02 Node 04 Node 08 Node 16 處理器個數 (支持度0.003，資料筆數 125877)

探勘差距時間 (秒)

LFP-Tree PFP-Tree

圖 5-11、資料歪斜情況下之處理器負載差異程度

在分析完以上的實驗結果之後，我們可以發現，LFP-Tree 的特性乃在於能夠有效平衡負載，並且在維護資料傳輸量的同時，在探勘時間上還能與非負載平衡演算法保持更良好之水準。仔細探究其運作過程，其差異乃在負載平衡之計算與保留項目之功用，其中，由於負載平衡計算並未佔用太多探勘時間並且使得處理

器得以均衡運算，抵銷了 PFP-Tree 演算法因為未處理負載平衡而造成的處理器閒置時間。

另外，由於 LFP-Tree 的保留項目發揮功能，有效維持了資料傳輸量，讓處理器可以減少處理傳遞資料之時間，這也是 LFP-Tree 能夠減少總探勘時間之間接因素之ㄧ。所以 LFP-Tree 雖然多花費時間於評估樹狀結構並且計算負載平衡，

但是因為維持資料傳輸量而使得處理時間得以降低，加上原先 PFP 無負載平衡的功能而造成處理器負擔不均衡，而在此一來一往之間互相抵消，這也是 LFP-Tree 能夠在增加負載平衡功能的同時，還能維持相當水準之探勘時間的主要原因。

第六章結論與未來展望

有鑒於今日科技發展所造成之數位資料大幅成長，致使資料探勘技術面臨瓶頸，因而使得運用多處理器運算之平行分散式技術得以被運用於資料探勘，協助解決其運算效能之問題；也因為資訊科技之進步，使得硬體資源之成本降低，促使平行分散式計算能夠快速且廣泛地發展，本論文利用 FP-growth 之特性，以樹狀結構之深度跟廣度作為評估準則，以快速之評估公式計算處理器之負載並平均分配探勘項目至各處理器，以達到平衡負載並加快探勘效率之目的。

透過實驗結果之證明，本論文所提出之 LFP-Tree 演算法在資料探勘上確實能有效降低探勘所需時間，即使在不同支持度下也能維持其探勘之穩定性，並且運用於不同之處理器架構下，也能確保各處理器之處理效能得以平衡，讓探勘過程能有良好效率且能不浪費地利用硬體資源來達到資料探勘之目的，此外在其探勘過程中，以 PFP-Tree 之群組溝通方式並搭配保留項目之作用，使得處理器在低次數溝通的同時，仍能保持資料傳遞之數量，使其未大幅增加進而維持整體探勘之效能，這也證明 LFP-Tree 演算法確實能同時做到平衡負載與保持傳輸量之演算法，為一相當具有效率之平行分散式資料探勘演算法。

本論文演算法之後續研究期望可透過修改其內部結構而有所改進，主要還是希望利用樹狀結構之特性，發展出對於處理器負載程度更有準確度之計算公式，

若能擁有更佳效率且更加準確之計算公式，則可減少計算負載時間，對於整體探勘時間的改善更是一大助益。另外，若可以在資料分割之時或是於 Header table 建立時即對資料做出歪斜程度之判斷，在不對資料庫多做掃瞄動作的情況下，增加判斷各處理器負載之功能，也可有助負載之平衡處理。期望未來可以經由這些方向，改良演算法並運用於資料探勘亦或是平行分散式領域之中，能有更好的結果。

參考文獻

[1]游坤明、盧展皓 “大量資料之關聯法則的快速發掘與應用—以醫院門診資料為例”，第八屆海峽兩岸資訊管理研討會，p. 294-298，2002.

[2]游坤明、盧展皓 “漸進式資料探勘技術在醫療上的應用—以門診為例”，中華理工學刊，Vol. 1，No. 2，p. 37-52，2003.

[3]游坤明、盧展皓、張煥禎、林年茂、謝泉發 “大量資料之關聯法則的快速發掘與應用—以醫院門診資料為例”，第八屆海峽兩岸資訊管理策略發展會議，p. 294-298，2002.

[4]游坤明、梅志航 “應用分群方式提升漸進式資料探勘效能之研究”，第十五屆國際資訊管理學術研討會，p. 37，2004.

[5]游坤明、莊文宗、蕭偉呈 “分群技術與資料探勘應用於肝功能檢驗與疾病關係之研究”，第十屆資訊管理暨實務研討會，p.146，2004.

[6]游坤明、林年茂、蕭偉呈、莊文宗 “結合關聯式資料庫的資料探勘方法運用於醫病資料之研究”，2005 資通技術管理與應用會議，pp. 42, 2005.

[7] R. Agrawal and R. Srikant, “Fast algorithms for Mining Association Rules in Large Database.”, Proceedings of the 20^th International conference on Very Large Data Base, pp. 487-499, June 1994.

[8] Ming-Syan Chen, Senior Member, IEEE, Jiawei Han, Senior Menber, IEEE, and Philip S. Yu, Fellow, IEEE, “Data Mining: An Overview from a Database Perspective”, IEEE Transactions on knowledge and data engineering, Vol. 8, No.

6, pp. 866-883, December, 1996.

[9] Vladimir Gorodetsky, Oleg Karasaeyv, Vladimir Samoilov, “Multi-agent Technology for Distributed Data Mining and Classification”, Proceedings of the IEEE/WIC International Conference on Intelligent Agent Technology, pp. 438-441,

在文檔中中華大學 (頁 62-67)

第五章 實驗結果與分析

5.4 資料歪斜對於演算法之影響

第六章 結論與未來展望

參考文獻

第五章實驗結果與分析

第六章結論與未來展望