第五章 結論與建議
第二節 建議與後續研究方向
以下將提出幾點目前研究中,有待改善之處作討論,同時提出本研究 可繼續延伸的議題與相關研究,以作為後續研究發展的方向。
1. 在比較知識特徵項目部分時,本研究只是很簡單地去比較最終的正 確率而已,但應可以更細部去探討整體分類過程,每份測試文件,
實際因為知識特徵項目所提升之效果。因為本方法是以計分方式為 分類基礎,因此應可以設計出一套指標,來衡量此部分實際提升的 效果。
2. 此外,參考現今一些文件分類方法,多具有加入使用者資訊(user information)的部分,以藉此提升正確率,而本方法原始架構並無包 含此特性,同時也無回饋機制(feedback)的設計,因此無法將每次分 類結果再進行學習與改進。如果針對此部分的概念再整合至本方法 中,應可對於整體分類效果有所助益。
3. 由於本分類方法主要是以追求最高正確率為目標,因此對於分類所 需花費的時間並無考慮,此部分對於後續研究者,亦是一個可繼續 探討之方向。
4. 在研究過程中,亦有發現同義字問題與多重分類問題,在本研究中,
只將此兩部分作簡單假設或放至附錄部分,並無深入探討之,如將 此問題解決,並整合至本研究方法之中,亦可使本方法更趨完備。
附錄 A:本研究原始收集之 XML 文件來源
本研究原始由 9 套不同的電腦軟體,共收集了 468 份的 XML 文件,
經過開啟並查看每一份文件實際內容之後,再將其歸類到不同的分類項目 之下。而表 A-1 則為原始從每一套軟體所收集的的 XML 文件數目及其各 自的版本。
表 A-1 本研究原始收集之 XML 文件來源
分類編號 來源軟體 版本 XML 文件數
Microsoft Search9.107.
SQL Server 200015 3
Microsoft ACT 1.025
Office XP20
.Net Framework 1.040
Matlab 6.561
Winamp 3.0 728
Dreamweaver MX86 9
XML Spy Enterprise version 5.0135
附錄 B:各分類項目 metadata 之來源
HTML editors:
Joyce, J. E. 2003. Dreamweaver MX :/complete course. Wiley Pub., New York.
Mathematics software:
Desmond, J. H., N. J. Higham. 2000. MATLAB guide. Society for Industrial and Applied Mathematics, Philadelphia.
Media player:
Ofiice suites:
Jodi, D., C. Greaves, M. Groh, B. Hallberg, M. Harding, F. Houlette, R.
Tidrow. 1994. Inside Microsoft Office professional. New Riders Pub., Indianapolis, Ind.
Web programming:
Eric, B., H. H. Feng, E. L. W. Soong, D. Zhang. S. S. Zhu. 2002. Fundamentals of Web applications using .NET and XML. Prentice Hall, Upper Saddle River, NJ.
附錄 C 多重分類功能
在本研究進行過程中,發現由於本方法是採用計算得分的方式,藉此 來對未知的文件作分類。而根據這個特色,可以設計出一套指標,來將該 未知文件不僅僅分成單一分類,而可以排出它在各個分類的相似度排名。
Scoreclass,除於所有分類中最大的得分數 Max(Scoreclass),如式子 C-1 所示:
Similarityclass = Scoreclass / Max(Scoreclass) class=1,2,3……n (C-1)
例如圖 C-1 所示,假設共有 9 個分類,則該份文件隸屬於第五個分類(因 為其在該分類得分最高),但它在其他的分類項目,都有不同的相似度數值。
圖 C-1 未知文件於各分類的相似度