一般特徵項目陣列

第三章以內容為基礎之 XML 文件分類方法

第一節訓練文件產生特徵項目陣列

3.1.3 一般特徵項目陣列

由於本研究著重於以內容為基礎的分類方法，因此針對 XML 文件的特性，本研究設計將其分成兩個部分，可以參考圖 3-2，本研究將一份 XML 文件分割成兩個重心，這樣做的目的將在第三節得分計算時作更進一步的說明，而第一個部分包含了文件中的

1. 項目文字部分(如 Franklin) 2. 屬性文字部分(如 autobiography) 3. 註解文字部分(如 the file represents 等)

than then that the their them therefore this those though through thus under until up

us very via was we well were what whatever when whole whose why will with without would where

這些文字的部分由於較為單純，所以一般特徵項目陣列將由這三個項目所產生。當所有訓練用的 XML 文件陸續被讀入時，上述三個部分的所有字彙將被預先存放於一個陣列裡面，並且紀錄它們的一些屬性，如表 3-3 所示，這個程序也必須同時去比對表 3-1 及表 3-2 的斷字內容，如果該字彙為該表格中的字彙，那麼就需要剔除掉不列入分類的計算。

表 3-3 存放一般特徵項目的陣列內容

陣列內容 資料型態

字彙名稱字元(char) 在該分類所有訓練文件

中出現次數

整數(integer)

在總訓練文件(所有分類) 中出現在多少文件次數

整數(integer)

在所有訓練文件都被讀完之後，產生出來上述的一般特徵項目陣列還要再經過一次運算，基本上這個部分就是利用上一章節所提過的 tf-idf 方法之精神，透過下列的運算：

D^pq=Tf^pq*IDF^q (3-1) 其中 Dpq代表某一字彙 Tq在文件 p 中的重要性，而 Tfpq代表 Tq在文件

p 中出現的頻率；IDF^q為字彙 T^q的反文件頻率，其計算方式為

IDF^q =log (N/D^q) (3-2) D^q代表了在所有文件集合中，含有字彙 T^q的文件篇數，而 N 則是此 文件集合的所有文件數目，透過重要性 Dpq的排名，就可以找出代表該分類文件的一般特徵項目陣列內容。在此也必須定義一個門檻值θ ，設定在第一個特徵項目陣列裡面，要取出前面多少個字彙以作為分類使用(越前面

的字彙代表其重要性越高)，而這個值應該視訓練及測試文件的多寡及規模而訂定適合的數值，例如在訓練完成後，共產生了包含 150 個字彙的陣列，

此時可以設定θ =100，只使用前 100 個字彙作為該陣列的內容，這樣做的目的是只使用重要性較高的字彙作為分類用，而捨棄後面較無法代表該分類的字彙。經過了這樣的一個流程，一般特徵項目陣列也會隨之產生。

3.1.4 階層特徵項目陣列

承上面小節所言，本研究將 XML 文件切割成了兩個部分，第一個部分包含了文件中所有純文字的部分，這個部分使用了 tf-idf 的基本觀念來作處理，藉由字彙的重要性排名，找出適合的特徵字彙陣列。而第二個部分就是將 XML 特有的結構性給加入進來。如圖 3-2 所示，一份 XML 文件除了文字部分，它還包含了項目及屬性兩個重要的標籤。因此第二個部份將包含了：

1. 項目標籤部分(如 Bookstore) 2. 屬性標籤部分(如 genre)

如圖 3-3 所示，正常字體部分就是上一小節所提及的項目文字及屬性文字，加上註解文字就是一般特徵項目陣列的來源，而斜體加粗體這個部分的文字，就是本小節所要擷取的階層特徵項目陣列的來源。它們不單純只是一般的文字，因為隨著 XML 特有的結構性，它們將隨著層級不同而呈現不同的重要性。

圖 3-3 本研究中 XML 文件的兩大部分(一般字體與特殊字體)

一樣由圖 3-3 可以得知，一份 XML 文件由具有唯一性的根節點(root node)(如 Bookstore)，採用分支的方式一路向下成長，扣除最底端項目文字部分的葉節點(leaf node)(如 Franklin)，每個項目及屬性標籤(如 Book 及 genre)的位置都有它的階層性。本研究也根據它這項特色制定了不同階層所各自擁有的重要性權重(weight)，計算的方式如下：

W^level=N^(5-evel) level=1.2.3.4 (3-3)

另外在本研究中為求計算的公平性，所以只計算到每份 XML 文件前 四層的內容，由根節點算起由上到下分別為第 1、2、3、4 層；W^level為各 個階層所擁有的權重值，而 N 為一個整數變數，可以讓使用者自行設定，

如果認為項目及屬性標籤的內容是相當重要的分類依據，將可以提高 N 的 值，本研究建議使用 N=2 作為權重值的評分標準。例如圖 3-3 的 Author 項目標籤，它位於第三層的位置，因此它所擁有的權重值為 2²=4。

在產生出上小節的一般特徵項目陣列之後，下一個步驟就是建立階層特徵項目陣列，如表 3-4 所示。這個陣列不同於上一個陣列的處理方式，

它不僅會紀錄所有該分類的訓練文件中，項目標籤及屬性標籤的字彙內

Book

Author Ttitle

first name last name

The Autobiography of Benjamin Franklin

8.99

Price

Benjamin Franklin

genre="autobiography" publication date="1981" ISBN="1-861003-11-0"

size="25"

Bookstore

在文檔中 XML 文件分類方法之研究 (頁 32-36)

第三章 以內容為基礎之 XML 文件分類方法

第一節 訓練文件產生特徵項目陣列