• 沒有找到結果。

結論與建議

5.2 研究限制

(1). 實驗資料限制

本研究以電子期刊論文實驗對象,逕行收集七個期刊一千四百篇論文進行實 驗,為求計算方便,各類別均挑選數量相等之文件。然而現實之應用情況,類別 與文件量往往大於本研究實驗數目,因此分類結果數值僅為檢定分類程序中,不 同方法之分類效果差異,實驗對象與環境不同可能會造成分類效果之落差,因此 本研究實驗之分類效果數值僅供參考,

(2). 分類過程限制

本研究在實驗期刊論文文件分類過程中,並未測試分類器建構分類模型與分 類推論之時間,因此對於必須考量時間效率之應用目的而言,本研究之結論僅能 提供部分參考價值。另外在分類中訓練資料與測試資料切割方面,本研究僅以 3:1 為比例進行分類器學習與測試,若在訓練資料與測試資料比例不同時,分類效果 可能會有所波動。

(3). 研究結論限制

本研究檢定在進行文件分類程序中,不同方法對分類效果之差異,分析過程 均採個別檢定,對於分類程序而言,分類結果的優劣必須同時考量分類程序中,

各種方法之組合,因此本研究並非提供分類最佳化程序組合之建議,僅以分類程 序中特定環節方法提供建議。

5.3 未來研究方向

(1). 多類別資料之測試

本研究實驗對象期刊論文均假設為單一類別進行探討,然而屬於多類別之文 件分類議題,如文件特性與分佈、分類器相似度採記方式與效果評估等並未收集 資料進行實驗與探討。未來則可以本研究之分析過程,針對多類別文件進行測試 與探討是否影響分類效果之因素有所差異。

(2). 特徵權重與選取方法之比較

許多文獻針對特徵權重與選取方法進行研究並提出各方法之效果比較。其主 要研究對象為新聞文集。然而新聞文集與專業領域文件,如期刊論文,其內容在 用詞上可能存在一定程度之落差,另外文章長度與結構亦為研究考量之一。未來 則可針對這些特徵權重與選取之方法,以期刊論文等專業領域文件進行測試,探 討其分類結果是否與新聞文集差異。

(3). 分類器與抽樣分配關係之探討

各種分類器理論架構不同,如決策樹與貝式機率分類器。基於本研究以統計 分析為出發點,未來研究可探討應用統計抽樣分配理論與信心水準之設定是否能 於分類過程輔助決策,進而達到較佳之分類效果。

(4). 抽樣分配分類器之改良

抽樣分配分類器在本研究中之分類效果表現不甚理想,經過實驗分析與討論 之結果認為若能朝判斷特徵分佈情形中是否存有極端值並加以刪除方向研究,則 可提升抽樣分配分類器之效用。

參考文獻

[1]. Fuller M., Zobel J., Conflation based Comparison of Stemming Algorithms, Proceedings of the Third Australian Document Computing Symposium Sydney, Australia, August, 1998.

[2]. Rish Irina, “An Empirical Study of the Naïve Bayes Classifier”, IJCAI2001 Workshop on Empirical Methods in Artificial Intelligence. 2001.

[3]. Margaret H. Dunham, “Data Mining: Introductory and Advanced Topics”, Prentice Hall, 2003.

[4]. Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Computing Surveys (CSUR), Vol.34, Issue 1, pp.1-47, 2002.

[5]. Sebastiani F., “Text Categorization”, Text Mining and its Applications, WIT Press, Southampton, UK, pp.109-129, 2005.

[6]. Yang Y., Pedersen J., “A Comparative Study on Feature Selection in Text Categorization”, International Conference of Machine Learning (ICML-97), pp.412-420.

[7]. Yang. Y, Liu X., “A re-examination of text categorization methods”, Proceedings of SIGIR’ 99: 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp.42-49.

[8]. Joachims T., “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, Proceedings of the European. Conference on Machine Learning, 1998.

[9]. Salton G., Buckley C., “Term Weighting Approaches in Automatic Text Retrieval”, Information Process, man, 24, 5, 1988, pp.513-523.

[10]. Burges C. “A tutorial on Support Vector Machines for Pattern Recognition”, Data

Mining and Knowledge Discovery, 1998, 2(2). pp.121-167.

[11]. Joachims T. “Transductive Inference for Text Classification Using Support Vector Machines”, Proceedings of ICML-99, 16th International Conference on Machine Learning, pp.200-209.

[12]. Coppin B., “Artificial Intelligence Illuminated” Jones and Barlett, 2003.

[13]. Aas K., Eikvil.L., “Text Categorization: A Survey”, Report No. 941, Norwegian Computing Center , June, 1999.

[14]. Garcia Adeva J.J., Pikatza J.M., Florez S., Sobrado F.J., “Intrusion Detection Using Text Mining in a Web-Based Telemedicine System”, Proceedings of the 18th

Australian Joint Conference on Artificial Intelligence, 2005.

[15]. Feldman R., Fresko M., “Knowledge Management: A Text Mining Approach”, Proceedings of the 2nd International Conference on Practical Aspects of Knowledge Management, 1998.

[16]. Felldman R., Dagan I., “Knowledge Discovery in Textual Databases (KDT) ”, 1st International Conference on Knowledge Discovery (KDD-95). 1995.

[17]. Lu W., Chien L. Lee H., “Translation of Web Queries Using Anchor Text Mining”, ACM Transaction on Asian Language Information Processing (TALIP), Vol. 1, Issue 2, pp.159-172, 2002.

[18]. Kao A. Poteet. S., “Text Mining and Natural Language Processing – Introduction for the Special Issue”, Springer-Verlag, New York, 2006.

[19]. Stumme G., Hotho A., Beremdt B., “Usage Mining for and on the Semantic Web”, The Semantic Web – ISWC 2002, 1st International Semantic Web Conference (2002), Vol. 2342 of Lecture Notes in Computer Science, pp.264-278.

[20]. Snowball Stemming Algorithms for Use in Information Retrieval, 2003. http://www.snowball.tartarus.org/

相關文件