• 沒有找到結果。

5.5.1 文件分類集合 Reuters-21578

Reuters-21578 是由路透社(Reuters Newswire)自 1987 年 2 月 26 日到 1987 年 10 月 9 日間收集的新聞文件,該文件集涵蓋 21578 篇新聞文件,

由 22 個 SGML 格式的檔案所組成,每一個檔案各包含 1000 篇文件,而 最後一份則僅有 578 篇文件。如表十二所示,該資料集中每一篇文件都 會以標籤<REUTERS>作為一篇文件起始,並以</REUTERS>作為一篇文 件的結束。

<REUTERS TOPIC=?? LEWISSPLIT=?? CGISPLIT=?? OLDID=?? NEWID=??>

表十二 Reuters-21578 文集文件標籤

文件大多已經過人工區分類別, TOPIC 屬性紀錄該文件是否有存在 主題,LEWISSPLIT 屬性則是為了符合 Modified Apte split[43]訓練-測試 文件集區分法。NEWID 代表文件編號,OLDID 屬於早期的 Reuters-22173 文集編號,目前已不使用而僅作為新舊文集的對照。屬性 CGISPLIT 不 在本實驗中使用,屬於另一種切分文件集的方法。

表十四是編號 5 的文件範例,可以看出單篇文件不單只屬於一個類 別。實際上,在 Reuters-21578 中,一篇文件最多包含了 14 個 topic,總 共區分出 135 個類別,其中僅有 120 個類別有文件對應。每個類別包含 文件量不同,且每個類別所擁有的文件有可能重複。

實驗設計上,採用 Modified Apte split[43],將文件集作出訓練、測試

以及不使用的三個主要集合。文件區分為訓練 9603 篇、測試 3299 篇以 及不使用文件 8676 篇。但是每類別中數量不一,設定上採用類別數量較 多的 5 個類別作為文件分類的訓練集。數量資訊如表十三

Acq crude earn money-fx trade

基礎訓練量

825 196 1447 284 189

單次調整量

275 65 475 85 60

總共訓練量

1650 391 2872 539 369

測試文件量

719 189 1087 180 117

表十三 Reuters-21578 資料使用情形

訓練過程中,文件基礎訓練量和文件調整量之間大約是 1/3 的比例,

而文件則是以隨機挑選不同組合,一共隨機挑選三組。每一個操作步驟

(epoch)使用一份調整量,QB PLSA 每次使用一份調整量,而對於 MAP PLSA,每一次調整的資料量則是累加的,也就是第二次調整是第一次調 整量的兩倍,第三次調整則是第一次的三倍數量。

<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5548" NEWID="5">

<DATE>26-FEB-1987 15:10:44.60</DATE>

<TOPICS><D>grain</D><D>wheat</D><D>corn</D><D>barley</D><D>oat</D><D>sorghum</D></TOPICS>

<PLACES><D>usa</D></PLACES>

<PEOPLE></PEOPLE>

<ORGS></ORGS>

<EXCHANGES></EXCHANGES>

<COMPANIES></COMPANIES>

<UNKNOWN>

&#5;&#5;&#5;C G

&#22;&#22;&#1;f0738&#31;reute

u f BC-average-prices 02-26 0095</UNKNOWN>

<TEXT>&#2;

<TITLE>NATIONAL AVERAGE PRICES FOR FARMER-OWNED RESERVE</TITLE>

<DATELINE> WASHINGTON, Feb 26 - </DATELINE><BODY>The U.S. Agriculture Department reported the farmer-owned reserve national five-day average

price through February 25 as follows (Dlrs/Bu-Sorghum Cwt) – Natl Loan Release Call Avge Rate-X Level Price Price Wheat 2.55 2.40 IV 4.65 -- V 4.65 -- VI 4.45 -- Corn 1.35 1.92 IV 3.15 3.15 V 3.25 -- X - 1986 Rates.

Natl Loan Release Call Avge Rate-X Level Price Price Oats 1.24 0.99 V 1.65 -- Barley n.a. 1.56 IV 2.55 2.55 V 2.65 -- Sorghum 2.34 3.25-Y IV 5.36 5.36 V 5.54 -- Reserves I, II and III have matured. Level IV reflects grain entered after Oct 6, 1981 for feedgrain and after July 23, 1981 for wheat. Level V wheat/barley after 5/14/82, corn/sorghum after 7/1/82. Level VI covers wheat entered after January 19, 1984. X-1986 rates. Y-dlrs per CWT (100 lbs).

n.a.-not available.

Reuter

&#3;</BODY></TEXT>

</REUTERS>

表十四 Reuters-21578 文件範例

5.5.2 Reuters-21578 文集實驗結果

評估採用分類正確率,PLSA-based 的方法都較單純使用 tf9的方式來 的好。

1 2 3

88.0 88.5 89.0 89.5 94.5 95.0 95.5

C la s si fi ca tio n Ac cu ra cy (%)

Learning epoch

TF PLSA MAP PLSA QB PLSA

圖十七 文件分類之結果

這個實驗結果顯示出一個 PLSA-based 的特性。也就是字詞之間的關 聯性結構。可以稍微思考一下 IR 實驗中常使用的短查詢句和長查詢句兩

9 此處所謂的 tf 指的是字辭出現頻率除以文件長度,可以視為單一文件的 unigram Language Model,有簡單的 smooothing 操作避免機率為零

種方式。在本論文兩個主要的實驗中,文件檢索的查詢句實際上長度並 不大,平均約有 10 字左右,可以視為短查詢的形式。文件分類的實驗,

使用單篇文件作為一個輸入,長度顯然大於文件檢索的查詢句,屬於一 種長查詢方式。在這樣的考量下,相關字詞的出現就可以對於分類有直 接的幫助,而測試文件則不一定需要有擁有關鍵詞,僅要有相關字詞就 可以有效果的呈現。這樣的結果也顯示,所謂潛在語意事實上可以看成 字詞和文件間的關聯。

相關文件