文件分類之應用 - 使用貝氏潛在語意分析於文件分類及資訊檢索

5.5.1 文件分類集合 Reuters-21578

Reuters-21578 是由路透社(Reuters Newswire)自 1987 年 2 月 26 日到 1987 年 10 月 9 日間收集的新聞文件，該文件集涵蓋 21578 篇新聞文件，

由 22 個 SGML 格式的檔案所組成，每一個檔案各包含 1000 篇文件，而最後一份則僅有 578 篇文件。如表十二所示，該資料集中每一篇文件都會以標籤<REUTERS>作為一篇文件起始，並以</REUTERS>作為一篇文件的結束。

<REUTERS TOPIC=?? LEWISSPLIT=?? CGISPLIT=?? OLDID=?? NEWID=??>

表十二 Reuters-21578 文集文件標籤

文件大多已經過人工區分類別， TOPIC 屬性紀錄該文件是否有存在主題，LEWISSPLIT 屬性則是為了符合 Modified Apte split[43]訓練-測試文件集區分法。NEWID 代表文件編號，OLDID 屬於早期的 Reuters-22173 文集編號，目前已不使用而僅作為新舊文集的對照。屬性 CGISPLIT 不在本實驗中使用，屬於另一種切分文件集的方法。

表十四是編號 5 的文件範例，可以看出單篇文件不單只屬於一個類別。實際上，在 Reuters-21578 中，一篇文件最多包含了 14 個 topic，總共區分出 135 個類別，其中僅有 120 個類別有文件對應。每個類別包含文件量不同，且每個類別所擁有的文件有可能重複。

實驗設計上，採用 Modified Apte split[43]，將文件集作出訓練、測試

以及不使用的三個主要集合。文件區分為訓練 9603 篇、測試 3299 篇以及不使用文件 8676 篇。但是每類別中數量不一，設定上採用類別數量較多的 5 個類別作為文件分類的訓練集。數量資訊如表十三

Acq crude earn money-fx trade

基礎訓練量

825 196 1447 284 189

單次調整量

275 65 475 85 60

總共訓練量

1650 391 2872 539 369

測試文件量

719 189 1087 180 117

表十三 Reuters-21578 資料使用情形

訓練過程中，文件基礎訓練量和文件調整量之間大約是 1/3 的比例，

而文件則是以隨機挑選不同組合，一共隨機挑選三組。每一個操作步驟

（epoch）使用一份調整量，QB PLSA 每次使用一份調整量，而對於 MAP PLSA，每一次調整的資料量則是累加的，也就是第二次調整是第一次調整量的兩倍，第三次調整則是第一次的三倍數量。

<TOPICS><D>grain</D><D>wheat</D><D>corn</D><D>barley</D><D>oat</D><D>sorghum</D></TOPICS>

C G

f0738reute

u f BC-average-prices 02-26 0095</UNKNOWN>

<TEXT>

<TITLE>NATIONAL AVERAGE PRICES FOR FARMER-OWNED RESERVE</TITLE>

<DATELINE> WASHINGTON, Feb 26 - </DATELINE><BODY>The U.S. Agriculture Department reported the farmer-owned reserve national five-day average

price through February 25 as follows (Dlrs/Bu-Sorghum Cwt) – Natl Loan Release Call Avge Rate-X Level Price Price Wheat 2.55 2.40 IV 4.65 -- V 4.65 -- VI 4.45 -- Corn 1.35 1.92 IV 3.15 3.15 V 3.25 -- X - 1986 Rates.

Natl Loan Release Call Avge Rate-X Level Price Price Oats 1.24 0.99 V 1.65 -- Barley n.a. 1.56 IV 2.55 2.55 V 2.65 -- Sorghum 2.34 3.25-Y IV 5.36 5.36 V 5.54 -- Reserves I, II and III have matured. Level IV reflects grain entered after Oct 6, 1981 for feedgrain and after July 23, 1981 for wheat. Level V wheat/barley after 5/14/82, corn/sorghum after 7/1/82. Level VI covers wheat entered after January 19, 1984. X-1986 rates. Y-dlrs per CWT (100 lbs).

n.a.-not available.

Reuter

</BODY></TEXT>

</REUTERS>

表十四 Reuters-21578 文件範例

5.5.2 Reuters-21578 文集實驗結果

評估採用分類正確率，PLSA-based 的方法都較單純使用 tf⁹的方式來的好。

1 2 3

88.0 88.5 89.0 89.5 94.5 95.0 95.5

C la s si fi ca tio n Ac cu ra cy (%)

Learning epoch

TF PLSA MAP PLSA QB PLSA

圖十七文件分類之結果

這個實驗結果顯示出一個 PLSA-based 的特性。也就是字詞之間的關聯性結構。可以稍微思考一下 IR 實驗中常使用的短查詢句和長查詢句兩

9 此處所謂的 tf 指的是字辭出現頻率除以文件長度，可以視為單一文件的 unigram Language Model，有簡單的 smooothing 操作避免機率為零

種方式。在本論文兩個主要的實驗中，文件檢索的查詢句實際上長度並不大，平均約有 10 字左右，可以視為短查詢的形式。文件分類的實驗，

使用單篇文件作為一個輸入，長度顯然大於文件檢索的查詢句，屬於一種長查詢方式。在這樣的考量下，相關字詞的出現就可以對於分類有直接的幫助，而測試文件則不一定需要有擁有關鍵詞，僅要有相關字詞就可以有效果的呈現。這樣的結果也顯示，所謂潛在語意事實上可以看成字詞和文件間的關聯。

在文檔中使用貝氏潛在語意分析於文件分類及資訊檢索 (頁 73-77)