• 沒有找到結果。

由知識來源取得知識特徵項目陣列

在文檔中 XML 文件分類方法之研究 (頁 36-40)

第三章 以內容為基礎之 XML 文件分類方法

第二節 由知識來源取得知識特徵項目陣列

3. 知識庫(knowledge bank)

4. 字典(dictionary)或百科全書(encyclopedia) 5. 常見問答(FAQ)

6. 新聞討論群組(newsgroup)或電子佈告欄(BBS) 7. 實體論(ontology)

8. 資料庫(database)中的知識

以上為本研究整理出來的一些常見知識來源,為了增加分類的效果,

使用者可以從上述的知識來源找尋各種分類的知識字彙加入分類過程 中,配合上一小節所提及之一般特徵項目陣列與階層特徵項目陣列,成為 第三組知識特徵項目陣列。

3.2.2 書籍與文件之 metadata

在眾多知識來源中,本研究將採用書籍與文件之 metadata,metadata 就是以資料來解釋資料(data about data),其實書或文件中各種的標題部分 (書本的目錄就是該書完整的 metadata 集合)就是 metadata,每個 metadata 以簡短的文字就描繪出了這個章節或段落的主要內容,而從每個領域的書 籍或文件,就可以獲得該領域的知識字彙。為何選擇其作為分類過程的一 部份,原因如下:

1. 因為在各種知識來源中,各類書籍以及文件是最容易被取得的一 個方式,在書店、圖書館、甚至網際網路中就存在著大量的書籍 與文件,而且包括紙本以及電子檔,為數相當的龐大。

2. 它包含了各種領域的所有知識,不會像有些知識來源可能只有某 些領域的知識在內(例如知識庫與實體論等知識來源,現今可能 只有某些領域才有建立之)。所以它是相當完整的。

3. metadata 本身就具有以內容為基礎之概念存在,單純使用它來作 為某個分類項目的特徵項目是可行的,此外,本研究方法正是著 重於以內容為基礎之特性,因此將其納入分類過程是相當適合 的。

綜合以上的幾個理由,本研究建議採用這部分的知識來源作為分類依 據,圖 3-4 為一個由書本目錄所展示出來的 metadata 範例,由圖 3-4 可以 知道,由一本書中的目錄中的 metadata 便可以展示出各個分類所擁有的知 識字彙(例如 Whiskey 就是屬於蒸餾酒類(distilled liquors),而 Rose Wine 就 會被歸類到釀造酒類(fermentative liquors)),因此下面一個小節也將針對本 研究如何將此知識來源納入分類的過程,加以說明之。

圖 3-4 一個書本目錄內含之 metadata 範例

Content

Ch1 Distilled Liquors Whiskey

Brandy Gin Tequila Vodka Rum

Ch2 Fermentative Liquors Wine

Cooler Still

Wine-Red Wine White Wine Rose Wine Fortified Wine Malt Beer

Draft Beer Stout

.

.

.

3.2.3 知識特徵項目陣列

本研究嘗試加入知識字彙到分類的過程中,並預期會幫助提升分類正 確率,因為在每個分類項目的領域中,都一定會存在與其相關性高的字 彙,而這些字彙也代表了該分類的一些知識,舉例來說,與 MS Office 該 軟體分類相關的字彙,就可能包含了如 Word、Excel、Powerpoint 等字彙,

如果可以在未知文件中比對到這些字彙,那該份文件就應該越屬於該分 類。

因此本研究提出的方法,首先必須根據所要分類的領域,收集相關的 書籍以及文件,從中擷取出屬於 metadata 的部分,最容易取得的地方也就 是每篇文章的標題部分,包括所有子標題的部分。因為這些 metadata 同時 具有階層性(子標題下面可能還有更小的子標題,以此類推),所以在本研 究也特別針對它的這個特性,加入了權重的設計。另外為了公平性,不管 從任何一個知識來源取得知識字彙,一律只取前四層,由主標題一直延伸 分別為第 1、2、3、4 層。權重的給分方式如同上一小節的階層特徵項目 陣列一樣,列於下面的式子 3-4:

Wk_level=N(5-k_level) k_level=1.2.3.4 (3-4)

Wk_level為各個階層所擁有的權重值,而 N 為一個整數變數,可以讓使

用者自行設定。由上面的做法可以建立出如表 3-5 的陣列,同階層特徵項 目的做法,如果在處理過程中遇到相同的字彙,將保留最大的權重值。

表 3-5 存放知識特徵項目的陣列內容

陣列內容 資料型態

字彙名稱 字元(char) 所擁有的權重值 整數(integer)

至於知識陣列的大小將由使用者自行決定,如果參照的知識來源越 多,相對的該陣列也會越龐大。透過這樣一個流程,將可以為各個類別建 立起各自所屬的知識特徵項目陣列,並加入到本研究分類的過程之中。

在文檔中 XML 文件分類方法之研究 (頁 36-40)

相關文件