• 沒有找到結果。

第五章 結論與未來展望

第二節 未來展望

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節未來展望

對資料進行分類分群是人類在做決策時的一個很基本的思考依據,而分類法 中的kNN 利用了自然界中物以類聚的特性處理分類分群,其幾乎不需訓練的特 性使得kNN 很容易應用在不同的領域中,若將其整合於分群流程,亦可作為分 群的方法之用。由於本研究所評估的標準為Google News 所分群的結果,並建立 在「分群結果越接近Google News 則越佳」的假設下做評估,未來可利用其他評 估方法作為比較與改善的依據,如專家審查、統計分析等

本研究證實了利用RTD-based kNN 處理新聞群聚為事件可以得到良好的效 果並大幅降低處理時間,對於其他領域需要同類群聚的資料理論上依然適用,因 此可思考應用於對於時間需求較為急迫的文字探勘運用,如即時性的媒體監測、

整合於對股票市場的當日預測和交易資料的即時反應處理等,但必須對於所分析 的資料特性有深入的瞭解才能得到較有價值的效果。

此外,將新聞群聚為事件的作法有助於幫助使用者瞭解完整事件的發生經過,

並且透過不同媒體的報導彙整出事件的真實發展,若能結合其他文字探勘技術,

透過將新聞事件的內容自動彙整出重點摘要,勢必能大大的減少閱聽人的負擔並 增進其資訊獲取的效率。

最後,資料探勘與文字探勘的目的同樣是在大量的資料中彙整出資訊,但也 因為其處理的資料量龐大,往往需要很長的運算時間。改進方法通常可以分為兩 大部份,一部分是透過運算資源的改善,如利用多執行緒、多核心,甚至是透過 分散式運算、導入於雲端運算等等;另一部份則是透過方法論上的改善,本研究 所提出的即是後者,因此可思考透過與前者的結合來減少更多RTD-based kNN 所需要的處理時間。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

參考文獻

中文部分

1. 巫啟台(2002)。文件之關聯資訊萃取及其概念圖自動建構 (碩士論文),國立 成功大學資訊工程學系碩士論文。

2. 陳克健、陳正佳、林隆基(1986)。中文語句的研究-斷詞與構詞。中央研究 院技術報告,TR-86-006。

3. 陳昱絃 (2007)。以螞蟻演算法探勘推薦系統上之分類規則,國立成功大學工 程科學系碩士論文。

4. 陳崇正 (2009)。應用網路書籤與VSM相似度演算法於強化實踐社群的形成,

國立中正大學資訊工程研究所碩士論文。

5. 黃孝文 (2010)。雲端運算服務環境下運用文字探勘於語意註解網頁文件分析 之研究,國立政治大學資訊管理研究所碩士論文。

6. 戴尚學 (2003)。運用事件偵測與追蹤技術於中文多文件摘要之研究,國立雲 林科技大學資訊管理系碩士論文。

7. 謝邦昌 (2006)。資料採礦與商業智慧,台北市:鼎茂圖書出版股份有限公司。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

英文部分

1. Allan ,J. , Papka, R. & Lavrenko , V. (1998). On-line New Event Detection and Tracking. In Proceedings of ACM SIGIR, pp37-45.

2. Chen, K. J., Kiu, S. H. (1992). Word Identification for Mandarin Chinese Sentences. Fifth International Conference on Computational Linguistics, pp.101-107.

3. Cover, T.M., Hart, P.E. (1967). Nearest Neighbor Pattern Classification, IEEE Transaction on Information Theory. v.IT-13 n.1, pp.21-27.

4. Fayyed, U., Piatetsky-Shapiro, G. and Smyth, P. (1996). The KDD Process of Extracting Useful Knowledge from Volumes of Data. , Communication of the ACM, v.39, pp. 27-34.

5. Fan, C.K., Tsai, W.H. (1998). Automatic Word Identification in Chinese Sentences by the Relaxation Technique. Computer Proceeding of Chinese and Oriental Languages, pp.33-56.

6. Feldman, R., Dagan, I. (1995). Knowledge Discovery in Textual Database(KDT).

Proceedings of the first ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.112-117.

7. Han , Jiawei, Kamber, Micheline (2006). Data Mining: Concepts and Techniques

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8. Jain, A.K., Murty, M.N. & Flynn, P.J.(1999). Data Clustering,A Review. ACM Computing Surveys, v.31 n.3, pp.264-323.

9. Joachims , T.(1998). Text Categorization with Support Vector Machines:

Learning with Many Relevant Features. Proceedings of the European Conference on Machine Learning Springer, pp. 137–142.

10. Krishnapuram, Raghu,Joshi, Anupam,Yi, Liyu (2001). Low-Complexity Fuzzy Relational Clustering Algorithm for Web Mining. IEEE Transactions on Fuzzy System, v.9 n.4, pp.595-607.

11. Li, B.Y., Lin, S., Sun, C.F. & Sun, M.S. (1991).A Maximal Matching Automatic Chinese Word Segmentation Algorithm using Corpus Tagging for Ambiguity Resolution. R.O.C. Computational Linguistics Conference, Taiwan, pp.135-146.

12. MacQueen, J. B.(1967). Some Methods for Classification and Analysis of Multivariate Observations. Proceedings of 5-th Berkeley Symposium on

Mathematical Statistics and Probability, Berkeley, University of California Press, pp.281-297.

13. Berry, M., Linoff, G. (2000). Mastering Data Mining, The Art & Science of Customer Relationship Management, Wiley Publishing.

14. Nie, Jian-Yun, Brisebois, Martin & Ren, Xiaobo (1996). On Chinese Text Retrieval. Conference Proceedings of SIGIR, pp.225-233.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15. Popescu, A.(2001). Implementation of Term Weighting in a Simple IR System.

Personal course project, University of Helsinki.

16. Roiger, Richard, Geatz, Michael (2003). Data Mining: A Tutorial Based Primer.

Addison Wesley Higher Education.

17. Rousseeuw, P.J., Kaufman, L., Trauwaert, E.(1996). Fuzzy Clustering using Scatter Matrices. Computational Statistics and Data Analysis, v 23, pp.135-151.

18. Salton, G., McGill, M. (1983). Introduction to Modern Information Retrieval, New York: McGraw-Hill.

19. Salton, G., Wong, A., Yang, C. S. (1975). A Vector Space Model for Automatic Indexing. Communications of the ACM, v.18 n.11, pp.613-620.

20. Sebastiani, F. (2002). Machine Learning in Automated Text Categorization.

ACM Computing Surveys, v.34 n.1, pp.1-47.

21. Singh, L., Scheuermann , P. & Chen , B. (1997). Generating Association Rules from Semi-Structured Documents Using an Extended Concept Hierarchy. ACM IKM, pp.193-200.

22. Sproat, R, Shih , C., 1990. A Statistical Method for Finding Word Boundaries in Chinese Text. Computer Processing of Chinese and Oriental Languages, pp.

336-351.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23. Teng, W.-G., Lee, H.-H.(2007). Collaborative Recommendation with

Multi-Criteria Ratings. Journal of Computers (Special Issue on Data Mining), v.17 n.4, pp.69-78.

24. Yang, Yiming (1997), An Evaluation of Statistical Approaches to Text

Categorization. Technical Report CMU-CS-97-127, Carnegie Mellon University.

25. Yang, Y., Pierce, T. & Carbonell, J.(1998). A Study on Retrospective And On-Line Event Detection. Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.28-36.

26. Yang , Yiming, Lin, Xin (1999). A Re-examination of Text Categorization

Methods. Proceedings of the 22nd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp.12-29.

27. Yang, Y., Carbonell, J.G., Brown, R., Pierce, T., Archibald, B. T. & Liu, X.

(1999). Learning Approaches for Detecting and Tracking News Events. IEEE Intelligent Systems, v.14 n.4, pp.32-43.

28. Yang, Y., Ault, T., & Pierce, T. (2000). Improving Text Categorization Methods for Event Tracking. Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.65-72.

29. You , Jia-Ming, Chen, Keh-Jiann (2006). Improving Context Vector Modelsby Feature Clustering for Automatic Thesaurus Construction , Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

附錄A:Google News新聞來源與事件

本附錄列出從資料來源Google News 所取得的其中兩篇事件(Event),包含新 聞編號(依下載順序排序)與新聞標題。

Google Event 1

1 : 共諜滲台不減國安局:查辦絕不手軟 2 : .週刊點名異動蔡得勝…

4 : 國安局長將異動?蔡得勝斥為創意小說

6 : 蔡得勝任期屆滿下?綠委點名前憲兵司令李翔宙上 8 : 週刊爆_國安局長將換__蔡得勝:創意性小說 9 : 蔡得勝:國安統合運作良好

10 : 周刊說國防部鬥國安局軍方否認

12 : 國安局長蔡得勝將調整職務?國防部否認部長高華柱介入

Google Event 2

13 : 免簽遭矮化立委︰馬衝「百國免簽」出賣主權 14 : 免簽疑遭矮化外長:持續交涉

15 : 百國免簽綠委怒:用矮化換的 16 : 綠委再爆馬政府出賣主權換免簽?

17 : 綠委疑:主權換免簽__外部:絕對沒有_

18 : 綠委疑:主權換免簽外部:絕對沒有 19 : 綠委批給我免簽國稱台灣屬於中國

20 : 馬政府笑納?綠委:克羅埃西亞給免簽,把台灣列中國一省 21 : 免簽疑遭矮化外交部積極交涉

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

附錄B:RTD-based kNN群聚事件結果

本附錄列出當k為30,事件偵測門檻0.175,文件偵測門檻值0.2,經事件合併 後的RTD-based kNN分群結果其中兩事件,包含新聞編號(依下載順序排序)與新 聞標題。

RTD-based kNN Event 1

1 : 共諜滲台不減國安局:查辦絕不手軟 2 : .週刊點名異動蔡得勝…

4 : 國安局長將異動?蔡得勝斥為創意小說

6 : 蔡得勝任期屆滿下?綠委點名前憲兵司令李翔宙上 9 : 蔡得勝:國安統合運作良好

10 : 周刊說國防部鬥國安局軍方否認

12 : 國安局長蔡得勝將調整職務?國防部否認部長高華柱介入

RTD-based kNN Event 2

13 : 免簽遭矮化立委︰馬衝「百國免簽」出賣主權 14 : 免簽疑遭矮化外長:持續交涉

15 : 百國免簽綠委怒:用矮化換的 16 : 綠委再爆馬政府出賣主權換免簽?

17 : 綠委疑:主權換免簽__外部:絕對沒有_

18 : 綠委疑:主權換免簽外部:絕對沒有 19 : 綠委批給我免簽國稱台灣屬於中國

20 : 馬政府笑納?綠委:克羅埃西亞給免簽,把台灣列中國一省 21 : 免簽疑遭矮化外交部積極交涉

相關文件