• 沒有找到結果。

分類得分計算

在文檔中 XML 文件分類方法之研究 (頁 40-43)

第三章 以內容為基礎之 XML 文件分類方法

第三節 分類得分計算

至於知識陣列的大小將由使用者自行決定,如果參照的知識來源越 多,相對的該陣列也會越龐大。透過這樣一個流程,將可以為各個類別建 立起各自所屬的知識特徵項目陣列,並加入到本研究分類的過程之中。

而為了得分計算的需要,同時也需要準備一個該文件在各個類別得分 的陣列以便整個分類過程中使用,如表 3-7 所示。

表 3-7 一份測試文件的分類陣列內容

陣列內容 資料型態

類別編號或名稱 字元(char) 得分 整數(integer)

接著便開始整個得分的計算,首先將一般測試陣列的內容逐一比較每 個類別的一般特徵項目陣列內容,如果有相同的字彙被比對到時,則在分 類陣列該類別的得分加 1;至於階層測試陣列同樣用於比較每個類別的階 層特徵項目陣列內容,如果有相同的字彙被比對到時,則在分類陣列該類 別的得分值,根據該字彙擁有的權重值累加上去(如該字彙的權重為 4,則 得分值便加 4)。

這樣出來的結果並非最終結果,一般測試陣列與階層測試陣列還需要 繼續比較知識特徵項目陣列,這個部分的做法是依序置入兩個測試陣列,

逐一比對各類別所有存放於知識特徵項目陣列的內容,如果有相同的字彙 被比對到,則在該類別的得分值累加上該知識字彙所擁有的權重值。

3.3.2 總分計算與分類

經過上一個小節的計算,一份未知的 XML 文件將會獲得它在每一個 分類項目的得分值,由下面的圖 3-5 可以了解到本研究整個分類階段的過 程。依照本研究方法的設計,此份 XML 文件將被分類至得分最高的那個 類別。

圖 3-5 本研究分類未知文件的流程圖

本研究將在下一個章節,以實際足夠數量的 XML 文件進行訓練與測 試,藉此驗證本方法的可行性與正確率。

第四節 小結

以內容為基礎的文件分類方法,是根據分類文件總類的不同,配合每 種文件的特性當作特徵項目,藉此提升分類效果的一種方法。在本章節中 說明了本研究針對 XML 文件所提出的一套分類程序與方法,利用 XML 文件本身所擁有的獨特屬性,透過本研究所提出的拆解方法,將 XML 文 件分成兩個部分,並且透過訓練的過程建立出兩組不同的特徵陣列藉此代 表某一個分類項目。而除了由 XML 文件自身所取得的特徵項目外,在本 研究中還額外加入知識字彙,作為第三組特徵陣列的內容,藉此來輔助整 個分類的過程,進而提升整體分類的效果。依照本章節所提出的方法與架 構,在下一個章節,將會實際以一定數量的 XML 文件進行測試,以便驗 證本研究方法的可行性及正確率。

未知 XML

文件

一般測試陣列

階層測試陣列

知識特徵陣列

拆解 分類 B 類

XML 文件 一般特徵陣列

比對

比對

比對

比對

階層特徵陣列

分類陣列 得分

得分 得分

在文檔中 XML 文件分類方法之研究 (頁 40-43)

相關文件