• 沒有找到結果。

第五章、 結論

第二節、 未來研究方向

立 政 治 大 學

Na tiona

l Ch engchi University

46

似度與群內相似度之關係的方式,又較直接給定合併門檻值的方式為佳。而本研 究設計的平行化演算法當資料量極大時,更能夠展現其價值。

第二節、 未來研究方向

本研究以平行化方式運行 kNN 演算法,使其效率有大幅度的提升。;然而,

卻在同時喪失了部分的分群準確率。不過在本研究過程中,注意到不少還可調整 的部分,未來研究若針對這幾點切入,或許可得出更好的成果。

1. 各類可變數值的設定:

本演算法運作過程中涉及了大量數值的設定,諸如 kNN 的 k 值、決定納 入現有群集或獨立成群的門檻值、第二階段整合時的門檻值、第三階段重新 分群時,群內相似度與群間相似度的門檻值等。這些門檻值都會對分群結果 造成一定程度的影響,例如若提升第三階段群內相似度的門檻(即最低群內 相似度必須高過門檻值才可停止),雖然可使分群品質提升,但卻會相對花費 較為大量的時間來運算。

2. 第三階段中,群間相似度與群內相似度的關聯影響:

在第三階段中,本研究針對群間相似度與群內相似度分別取出未達門檻 值的資料進行拆分、合併與重新分群。不過群內相似度受到群內資料的影響;

而群間相似度受到各群質心的影響,各群質心受到群內資料的影響。也就是 說,只要調整一項資料,便會同時影響到群內與群間相似度。

本研究在第三階段時,僅針對此二相似度個別處理,然而若考量到二者 之間互相關聯的性質,若能針對這二者合併設定門檻值(例如某一群集的群 內相似度低於特定值,且同時其與其他群集的群間相似度高於一定值,便進 行重新分群),或許能夠獲得更好的結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

47

3. 訓練資料的使用:

在使用 kNN 分群時,受到早期進入分群的資料的影響非常大。kNN 的 分群可說是從最早進入分群的資料為核心慢慢成長,直到長成一龐大群集。

也因此,若早期的資料是真正類別邊緣的非典型資料,可能會發展成結合了 多個類別的巨大群集。例如一資料典 A 包含了 x 與 y 二群集特性的資料點,

那麼以此開始成長的群集,可能會使得 x 與 y 二群集的資料,皆以 A 為核心 開始發展,而成長出包含了 x 與 y 的巨型群集。

為了避免此類可能導致分群結果不穩定的狀況,推測也可透過訓練用資 料來減少。一般進行 kNN 分群前,會先用已知分群的代表性資料點,生成數 個具有代表性的資料群集,接著才將待分群的資料進行分群。由於各分群是 從訓練用資料(具備代表性的資料)為核心向外擴展,這可使後續資料分群 時有更為準確的分群結果。也較能避免二群集交接處的資料混合成一群集。

4. 平行前後之變化量研究:

為了測試本研究之演算法是否有效,在測試各種不同方法時均盡量維持 相同的門檻值,而未針對特定方法或資料採用最佳的門檻值,或許分群品質 的變化量之所以有正有負(或有高有低),也就是無法看出平行前後分群品質 的關聯性的原因正是由此而來。

本研究採用的門檻值,是以未平行化的演算法進行數次測試,並取各次 測試中獲得較多次較佳分群品質的數值。但由於該數值是針對大部分資料通 用的較佳門檻值,而非針對每一組資料的最佳門檻值設定,因此在部分資料 的分群品質會較低是可預見的。

不過假如平行化前採用最適合的門檻值,或是能使該分群達到一定品質 的門檻值,是否平行化之後的分群品質,能夠與平行前的分群品質有一定的 關聯性呢?而平行後的分群品質,相較於此極佳的平行前分群品質,又能否 維持一定的水準呢?這也是一個值得探討的議題。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

48

參考文獻

英文文獻

1. Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21–27.

2. Davis, N., Demetriou, G., Gaizauskas, R., Guo, Y., & Roberts, L. (2006). Web Service Architectures for Text Mining: An Exploration of the Issues via an

E-Science Demonstrator. International Journal of Web Service Research 3(4): 95–

112.

3. Dikaiakos, M.D., Katsaros, D., Mehra, P., Pallis, G., Vakali, A. (2009). Cloud Computing: Distributed Internet Computing for IT and Scientific Research. IEEE Internet Computing, 13(5):10–13.

4. Han, J., & Kamber, M. (2006). Data mining: Concepts and Techniques (2nd Edition), Morgan Kaufmann.

5. Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data Clustering: A Review. ACM Computing Surveys, 31(3), 264–323.

6. Lai, C. H., & Liu, D. R. (2009). Integrating knowledge flow mining and

collaborative filtering to support document recommendation. Journal of Systems and Software, 82(12), 2023–2037.

7. Laudon, J. P., & Laudon, K. C. (2011). Management Information Systems (12th Edition), Pearson.

8. National Institute of Standards and Technology. (2011). The NIST Definition of Cloud Computing. NIST Special Publication 800-145.

9. Ovum. (2011). 2011 Trends to Watch: Cloud Computing Technology.

10. Salton, G., Wong, A., Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613–620.

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

49

11. Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1), 1–47.

12. Song, Y. Huang, J. Zhou, D. Zha, H. Giles, C. L. (2007). IKNN: Informative K-Nearest Neighbor Classification. 11th European Conference on Principles and Practice of Knowledge Discovery in Databases, 248–264, Warsaw, Poland.

13. Wu, X, K umar, V., Q uinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.

J., Ng, A., Liu, B., Yu, P. S., Zhou, Z.-H., Steinbach, M., Hand, D. J., & Steinberg, D. (2008). Top 10 algorithms in data mining. Knowl Inf Syst, 14:1–37.

14. Weinberger, K. Q., Saul, L. K. (2009). Distance Metric Learning for Large Margin Nearest Neighbor Classification. Journal of Machine Learning Research, 10:207–

244.

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

50

中文文獻

15. 吳季桓(2010)。自動分類的實作:KNN 與 SVM。國立中正大學資訊工程研 究所碩士論文,未出版,嘉義縣。

16. 周宣光(譯)(2010)。管理資訊系統(原作者 Laudon, J. P., & Laudon, K. C.

(2009))。台北:東華書局。

17. 施雅月、賴錦慧(譯)(2008)。資料探勘(原作者 Tan, P. N., Steinbach, M., Kumar, V. (2006))。台北:歐亞書局。

18. 連偉志(2013)。雲端環境下應用 Google 電子試算表於分散式儲存架構平台 之研究。國立政治大學資訊管理學系碩士論文,未出版,台北市。

19. 陳仕斌(2012)。雲端運算之編譯排程系統設計與實作。國立成功大學電機工 程學系碩士論文,未出版,台南市。

20. 黃孝文(2010)。雲端運算服務環境下運用文字探勘於語意註解網頁文件分析 之研究。國立政治大學資訊管理學系碩士論文,未出版,台北市。

21. 黃冠中(2007)。應用 kNN 演算法之文件分類平台實作。第六屆離島資訊技 術與應用研討會論文,雲林:國立虎尾科技大學資工系主辦。

22. 曾國傑(2012)。運用 KNN 文字探勘分析智慧型終端 App 群集之研究. 國立 政治大學資訊管理學系碩士論文,未出版,台北市。

23. 薛弘業(2013)。應用文字探勘與文件分類分群技術於股價走勢預測之研究─ 以台灣股票市場為例。國立政治大學資訊管理學系碩士論文,未出版,台北 市。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

51

網路資料

24. Boss, G., Malladi, P., Quan, D., Legregni, L., & Hall, H. (2007). Cloud Computing. Retrieved April, 2013 from IBM Corporation Web site:

http://download.boulder.ibm.com/ibmdl/pub/software/dw/wes/hipods/Cloud_com puting_wp_final_8Oct.pdf

25. Google Drive. (2006). Overview of Google Sheets. Retrieved February, 2013 from

https://support.google.com/drive/bin/answer.py?hl=en&answer=140784&topic=2 0322&ctx=topic

26. Google Drive. (2013). Start Google Drive. Retrieved February, 2013 from https://www.google.com/intl/en/drive/start/index.html

27. Law of cosines - Wikipedia, the free encyclopedia Retrieved August, 2013 from http://en.wikipedia.org/wiki/Law_of_cosines

28. Parallel Programming for Multicore. Berkeley lecture. Retrieved March, 2013 from

http://www.cs.berkeley.edu/~yelick/cs194f07/

相關文件