分類不一致之自動偵測:以農資中心資料
為例
Automatic Inconsistency Detection for the ASIC
Categorization Collection
അ̮ព!
઼ϲέ៉रቑ̂ጯྤੈ͕̚ࡁտࣶ!
Yuen-Hsien Tseng
Research Fellow, National Taiwan Normal University
E-mail:
[email protected]
ͳधᒩ!
̚රྺጯົྺຽྤੈڇચ͕̚Ї!
Chun-Shi Wang
Director, Agricultural Science Information Center
E-mail:
[email protected]
關鍵詞 (Keywords):
文件分類(Document Categorization);一致性(Consistency);主題分析(Subject
Analysis);分類錯誤更正(Inconsistency Correction);知識盤點(Knowledge
Audit)
【ၡࢋ】
͛І̶ᙷߏॲፂ͛І̰ट۞ᗟගؠᙷҾ
۞ۢᙊΐࣃ̍ү,็˯Ϥˠ̍ซҖ。҃צ
̶ᙷߛၹనࢍ、ᙷҾؠཌྷͽ̶̈́ᙷ۰ጯᙊࡦഀ
ඈᇆᜩ,ᗟ̰टᙷҬ۞͛І,̙֍ౌົజ
̶ᙷז࠹Т۞ᙷҾ,Я҃ౄј̶ᙷ̙˘۞ଐ
ڶ,ࢫҲ̶ᙷ͛І۞ᑕϡᆊࣃ。ώ͛ͽ९ּ۞
ԛё,ॲፂྺྤ͕̚۞ˠ̶̍ᙷྤफ़,ซҖ̶
ᙷ˘ّ۞ҋજរᙋ,Ӕன̈́ଣඕڍ,֭
ᄲځΞਕሕд۞ᑕϡ,ͽणϯѩี̍ү۞Ξ
Җّ̈́၁ᅫड़ৈ。ტЪ҃֏,̶ᙷ̙˘̝ҋ
જઍീ,Ξүࠎྤफ़ந、ۢᙊሹᕇඈۢᙊგ
ந၁ચ˯۞ᑕϡ,ٕߏޢᜈ̶ᙷߛၹ࣒ϒ、̶
ᙷඉரᑢؠ、ˠ̶̍ᙷቚ,ͽ͔̈́ซҋજ̶
ᙷ፟ט̝ણ҂ᄃ݈ཉүຽ。!
【Abstract】
Text categorization is a process of
assigning labels to documents according to
the contents or topics of the documents.
Traditionally text categorization is carried out
by human experts. However, due to factors
such as blurred category boundaries,
background bias, and personal judgment,
label inconsistency is often found in human
classified collections, thus reducing their
values in various applications. This article
described an automatic process to detect
such inconsistency based on the Agricultural
Science Information Center (ASIC ) collection.
In the article, important examples and results
are presented. Potential benefits and
applications are discussed.
一、緒論
在圖書資訊的實務工作中,常需要對大量的文件 進行主題分析與資訊組織的加值處理。其中,文件 分類(document categorization),是根據文件內容的 主題給定類別,以便利後續文件利用的工作[1,2]。 這些主題類別(category)常為事先定義、管理者用 以組織文獻的知識分類。由於牽涉到自然語言的詞 彙辨識與文意的分析與理解,傳統上文件分類都由 人工進行。然而受分類架構設計、類別定義範圍, 以及分類者學識背景、主題判斷認知差異等影響, 主題內容類似的文件,不見得都會被人工分類對應 到相同的類別,因而造成分類不一致的情況。 分類不一致的資料,會造成下列幾個影響: (一) 使用者不容易根據主題類別找到或找全相關 資料:不一致的分類,特別是此種分類運用 於文件排序時,容易造成使用者(甚至分類 者),從某個主題類別追查某份既有資料時, 發生找不到的情形。此外,在統計某個主題 類別的文件數量時,也會發生錯誤的統計數 字。 (二) 破壞分類架構的完整性與可用性:理想的分 類架構,應當要達到(同階層的)各類別, 在主題上「彼此獨立、互補不足」(mutually independent, collectively exhaustive)的境界。 然而,不一致的分類,將模糊類別之間的差 異,因而破壞此種性質,從而降低分類架構 的可用性與應用價值。 (三) 後續分類的困難:對人工分類而言,不管是 同一個分類者,或是不同的分類者,容易被 之前不一致的分類,混淆類別的主題定義, 而影響後續的分類一致性。對電腦的自動分 類而言,分類器無法在資料完全一致的環境 下獲得訓練,可能造成分類器混淆、難以收 斂、過度訓練(overfitting 或參數調整過度) 或訓練不足(underfitting 或參數調整不足)等 問題,而影響分類器的效果。此外,人工分 類的結果,通常也是分類器用來評估成效的 標準答案,當標準答案都不一致時,可能會 影響評分,造成結果難以預測或數據不可靠。 有鑑於此,我們認為在文件分類進行一段時間 後,應當要檢討既有文件分類的一致性,是否主 題相似的文件,被分在不同的類別,或檢討既有 分類架構的完整性,是否類別之間,在主題上盡 可能彼此獨立、互補不足。 然而,如何定期、有效率的進行分類一致性驗 證,過去的文獻,鮮有提及。根據我們過去的研 究成果[3],本文以案例的形式,實際進行分類一 致性的自動驗證,呈現及探討其結果,並說明其 可能潛在的應用,以展示此項工作的可行性及實 際效益。具體而言,我們根據中華農學會農業資 訊服務中心[4](以下簡稱「農資中心」或 ASIC) 的人工分類資料,進行文件分類不一致的自動偵 測,偵測結果提供分類者參考、校正,作為後續 分類架構修正、分類策略擬定、人工分類訓練, 或引進自動分類機制之參考與前置作業。 在知識管理的相關課題中,本文探討的是關於 「 資 料 清 理 」( data cleaning )、「 知 識 盤 點 」 (knowledge audit)[5]的問題與自動化解決方案。 我們以案例的形式,說明其對實施知識管理的機 構可能帶來的效益。希望本文的內容,能對相關 的課題,如圖書資訊領域的主題分析,與知識管 理領域的知識盤點,有實務上的啟發與貢獻。二、分類不一致的自動偵測方法
要自動偵測分類不一致,以快速有效的進行分類 文件的知識盤點,必須先給分類不一致一個操作型 定義,以便利電腦的自動偵測。以主題分類而言, 所謂不一致是指具有相同主題的不同文件,被分到 不同類別。因此,在實作上,必須先偵測「相同主 題」的文件出來,然後比對它們的類別,才可知道 分類是否一致。在本文中,只要類別有不一樣的情形,就視為不一致。例如文件 X 的類別為 A 與 B, 而與其相同主題的文件 Y 的類別為 A 與 C,雖然有 一個類別 A 是一致的,但類別 B 與 C 不同,則還是 視文件 X 與 Y 的分類不一致。 然而所謂「主題相同」是主觀的判斷,不適合電腦 的自動處理。本文承襲先前的研究[3,6],以文件的「相 似性」來近似主題的相同性,亦即大膽假設相似度高 的文件,即屬於相同的主題。 此點假設,對相似度極高的文件,例如複本、抄襲 稿等,相當適用,但對於不相似卻屬於相同主題的文 件,就不適用了。不過其可視為是一種比較嚴格的假 設:有複本關係的文件,卻分在不同的類別,顯然是 一種分類不一致的情況,而沒有爭議。相對的,不相 似的文件而屬同一主題的情況,是比較容易引起爭議 的。 有了上述的假設,我們便可運用相似文件自動偵測 技術,來比對具有相同主題的文件。在一份文件集(a collection of documents)中,偵測文件相似性的技術可 應用於複本偵測(重複文件剔除)、文件歸類、同案 追蹤、抄襲偵測等,因此是相當有應用價值的技術。 可惜目前這方面的探討不是很多。有鑑於此,我們提 出利用資訊檢索的技巧來偵測相似文件,此方法稱為 S-measure,其具有其他方法所沒有的優點。為完整呈 現本文的內容,我們整理此方法的細節如下。其他相 關的作法,可參考我們之前調查的文獻[3,7-8]。 此方法應用檢索系統,先對文件集建立索引,然後 將每一篇文件視為檢索字串依次送入檢索系統中,進 行相似度比對的查詢,蒐集每一個查詢結果,即可獲 得每一篇文件對其他文件的相似程度。如此,檢索系 統可對文件的標點符號、雜訊、詞彙等做前置的正規 化(normalization)處理,查詢時可選用不同的相似度 計算方法,只要其最後的數值可以正規化到 0 與 1 之 間代表其相似度即可。 此方法最重要的優點是:一、不受詞彙順序的影 響;二、可以藉由控制、調整比對的查詢字串,而定 義出不同的相似文件。例如,我們可以刪除文件所有 的停用詞(通常為虛詞、連接詞等無主題意義的詞 彙),或只留下出現頻次超過一定門檻的關鍵詞,進 行相似度比對,如此會容許較多的文件有較高的相 似度,即便這些文件在停用詞上有很多差異,只要 其關鍵詞相似即可。相對的,我們也可以拿文件的 全部字串送入檢索系統做相似比對,如此只有複本 或近似複本才可能有較高的相似度出現,因而定義 出比較嚴格的相似文件。 此方法需事先對文件集建立索引,一般設計良好的 檢索系統,建索引所花的時間大約跟文件總長度成正 比。在比對單一篇文件的相似度上,由於透過檢索系 統的反向索引檔運作,其需要的計算時間最長約 O(n*m),所需的記憶體最高也是約 O(n*m),其中 n 為該文件的詞彙數,m 為所有的文件篇數。在將一篇 篇文件依次送入查詢,以比對其與所有其他文件的相 似度時,所需的計算時間為 O(n*m2),而記憶體需求 為 O(n*m)。這個估計結果,是假設最糟糕的情況發 生,亦即每一篇文件的每個詞彙都出現在所有文件 裡。在自然語言的文字分佈上,這幾乎不可能,只會 有少數的詞彙出現在很多文件,而絕大多數的詞彙只 出現在少數的文件。因此,實際運用 S-measure 時, 其全部的計算量應該是遠低於 O(n*m2)(約 O(n*m), 甚至為 O(n)),所需的記憶體,則約 O(m)。
三、農資中心的分類文件集介紹
農資中心針對農業方面的中文學術文獻,已經進行 十幾年的人工分類工作。其類別架構為階層式,有五 個層級,每個類別均有類別編號與中文類別名稱,總 共約 722 類左右。此次農資中心提供盤點、等待一致 性檢驗的分類文件,包含文件編號(含年代)、論文標 題、論文摘要、論文關鍵詞、類別編號及類別名稱等。 其基本統計數據如表一,年代篇數統計如表二,表三 則列出最大與最小的十個類別的文件個數。 從表一可知,在類別標示方面,大部分文件只給一 類,少數給超過一類,最多到三類,亦即其多重分類 的比例很少。雖然農資中心的分類文件,有十幾年的 歷史,但從表二得知,此次給出的文件集只橫跨 7 年 的資料。然而,雖然只佔所有文件的一小部份,此文 件集仍然算是具有歷史性的資料,其類別標示的一致 性恐難保持[9]。至於其分類的一致性或不一致性到何 種程度,乃本文亟欲探討、瞭解的問題。表一 農資中心分類文件資料集之基本統計數據 表二 農資中心分類文件資料集之年代篇數分佈 年代 2000 2001 2002 2003 2004 2005 2006 篇數 1455 1814 1510 1530 1401 1168 1369 表三 農資中心分類文件資料集之最大與最小的十類文件統計表 項次 編號 類名 篇數 項次 編號 類名 篇數 1 E020101 漁業資源調查與評估 229 472 G010201 雞普通病 1 2 B0102 稻遺傳與育種 154 473 G010101 豬普通病 1 3 M0101 農作機械試驗與改良 140 474 G010109 其他家畜普通病 1 4 Y0101 動物生態保育 136 475 G0104 野生動物普通病 1 5 G0301 生物藥品 133 476 G0201039 羊傳染病-其他 1 6 J08 有機肥料及綠肥 126 477 B020402 麥類遺傳與育種 1 7 M0501 農產品處理加工機械 試驗與改良 122 478 H0101025 薊馬類生態學與生理學 1 8 E0203 漁船及漁撈機械 110 479 H0101026 鞘翅類生態學與生理學 1 9 C0101092 其他常綠果樹遺傳與 育種 107 480 H020101 類形態學與分類學 1 10 Y0202 廢棄物處理與利用 104 481 B020999 其他雜糧作物-其他 1 除了分類不一致的問題外,從我們過去的經驗得 知,一份分類文件集常出現的另一個問題,是類別 文件數分佈極不平均的現象。表三顯示其前十大 類,總共有 1361 篇,佔全部文件的 13.2819%,而最 後十小類,總共 10 篇,佔全部文件的 0.0976%。若 統計其前 10%的類別,48 類總共有 3976 篇,佔 38.8016%,而後 10%的類別,總共有 53 篇,佔 0.5172%,也是相差極大。從另一項統計數字看,文 件超過 100 篇的類別,只有 10 類,僅佔全部類別數 的 2.08%;超過 50 篇者(含)有 56 類,佔全部類別 數的 11.64%,約十分之一;超過 10 篇者(含)有 263 類,佔全部類別數的 54.68%,僅超過半數的類 別。 我們的觀察認為,此種類別大小不平均的現象, 人為的因素較少,自然的主題分佈因素較高。人為 因素是指,分類者根據各種知識之間的差異訂出一 套分類架構或類別定義,因此不會故意去定義出小
文件篇數:10247 篇,不計多重分類之相異文件則為 9673 篇
文件年代:2000 年-2006 年
類別數:481 類
各類別平均文件數:20.1 篇/類
各文件平均類別數:1.0593 類/篇(3 類者 19 篇,2 類者 536 篇,餘均 1 類)
最大類別資料量:229 篇(
「漁業資源調查與評估」)
最小類別資料量:1 篇(
「乳類處理」等 43 類)
類別或大類別。而自然的因素是指,某類主題其數 量就是比較少(較少人研究),但又與其他主題不 同,具有獨特性或獨立性,而難以跟別的主題合併 在一起來減少整體的主題數量。 此種類別不平均的影響,是多數的小類易遭人工 分類者或使用者忽略,而無法有實質的主題類別效 益。更嚴重的是,自動化的分類器,很難從其中獲 得足夠的訓練資料,而影響其對多數小類別的分類 成效。
四、分類不一致自動偵測結果
(一) 自動偵測系統
針對上述的分類文件集,我們利用 S-measure 來偵 測其相似文件。運用 S-measure 時,需要一套檢索系 統,我們以 WebGenie 系統 [10] 對文件建索引,並 進行整篇文件(標題、摘要與關鍵詞)的相似比對。 WebGenie 目前建索引的策略是,文件中任何單一字 符 ( token , 即 一 個 「 中 文 字 」 或 一 個 「 英 文 字 (word)」)、雙連字符(2-token,即文件中所有相連 的兩個字符)以及多字關鍵詞,都建為索引詞,而 且沒有停用詞(亦即所有的詞彙包含 the、of、我、 你等字或詞都建入索引,沒有因為該字或詞為停用 詞而沒有鍵入索引)。 除了提供布林(Boolean)查詢外,WebGenie 也提 供相似度比對的查詢,其計算公式乃參考 Singhal 等 人用以改良 Cosine 相似度的計算方法 [11],稱做 bytesize 正規化(bytesize normalization)公式,如下 所示: 其中 di代表文件 i,qj代表查詢 j,di,k代表詞彙 k 在 文 件 i 中 的 權 重 , 常 為 其 詞 頻 的 函 數 ( 如 log(1+tfi,k)),qj,k代表詞彙 k 在查詢 j 中的權重,常為 詞彙出現篇數的函數(如 log(1+n/dfk), n 為所有文件 的個數),而 bytesizedi表示文件 i 的長度(以 byte 為 單位)。此公式乃 Cosine 公式的近似,比 Cosine 容 易計算,且比較不受文件雜訊(如打錯字或 OCR 錯 字,造成詞頻統計錯誤)的影響。其值最小為 0, 最大超過 1。當超過 1 時,視需要可以切截成 1,使 其落在 0 與 1 之間,以表示相似度。在 Singhal 以及 我們過去的成效評估中 [12],此相似度公式可以得 到比 Cosine 更好的檢索成效。 除了上述性質外,bytesize 正規化相似度計算方 式,還有一個值得一提的性質。亦即其相似度是不 對稱的,此點與對稱型的 Cosine 相似度公式不同。 所謂不對稱,是指文件 X 到文件 Y 的相似度(用 X 當作查詢,得到與 Y 的相似度),與 Y 到 X 的相似 度(用 Y 當作查詢,得到與 X 的相似度)不同。例 如,當 X 與 Y 為複本關係時,X 到 Y 與 Y 到 X 的 相似度都一樣會是最高的 1.0。但當 X 是 Y 的一部 份時(如 X 是從 Y 節錄出來時),X 到 Y 的相似度 會大於 Y 到 X 的相似度。以數學關係表示,可簡要 表達如下:當 X=Y 時,Sim(X, Y) = Sim(Y, X) = 1.0 當 X<Y 時,Sim(X, Y) > Sim(Y, X)
若我們採用 Cosine 公式來計算相似度時,則情況 如下:
當 X=Y 時,Cos(X, Y) = Cos(Y, X) = 1.0 當 X<Y 時,Cos(X, Y) = Cos(Y, X) < 1.0
也就是說,從兩篇文件彼此的相似度來看,若為 Cosine 公式算出來的,將無法得知哪篇文件包含哪 一篇,但 bytesize 公式可以。 除 了 擁 有 上 述 優 良 的 性 質 之 外 , 我 們 採 用 WebGenie 系統的另一項理由,是此系統以 C 及 C++ 寫成,花費數年調整效能,因此其建索引的速度極 快,同時提供 200 多個功能完備的 API(Application Programming Interface)可供呼叫與運用。以程式設 計的角度而言,在整合不同平台與程式系統方面, 極為便利。當然,其他免費或商用的檢索系統,如 Lucene [13] 等,只要具備主題查詢功能而可輸出相 似度者,均可利用。 在建完索引後,我們將 WebGenie 裡全部的索引詞倒 出來,作為斷詞詞庫,並針對每一篇文件進行長詞優 先的斷詞處理後,再送入檢索系統,進行相似度比對 的查詢。如此,得出每一篇文件,跟所有其他文件的相
375
.
0
)
(
1
2
,
1
,
,
)
,
(
i
d
bytesize
T
k
q
j
k
T
k
q
j
k
d
i
k
i
d
j
q
Sim
∑ =
∑ =
=
似度矩陣。最後,給定一個相似度門檻後,可以把超過 門檻的文件全部過濾、歸類出來,其結果如表四所示。
(二) 不一致文件
表四中「校正前」的內容,係指上述的文件集,經 相似文件偵測、類別一致性比對後的結果。當 S-measure 的相似度門檻訂在 1.0 時,亦即系統認為某一篇文件跟 其他文件幾乎完全一樣時,這樣的相似文件總共有 749 篇。而在這 749 篇中,有 303 篇的類別跟其相似的文 件不同,有 446 篇則是跟其相似的文件一樣,所佔的 文件數比例,分別是 3.46%與 5.10%。當相似度門檻為 0.8 時,不一致與一致文件所佔的比例,分別為 14.44% 與 19.10%。而在 0.6 的相似度時,此數據分別為 24.71% 與 29.41%。整體的不一致性比例,雖不是太高,卻也 頗為明顯。 為了進一步瞭解系統偵測的可信度,表五到表七分 別列出相似度門檻為 1.0、0.8、0.6 的相似文件範例與 其人工給定的主題類別。這三個表的第一欄是系統給 的群組編號,第二欄是文件編號,其前兩碼為民國年 代,其餘欄位的意義可由其欄位標題得知。表五中三 篇文件幾乎一樣,但其類別都不一樣。經專家解讀 [14],可能是同一計畫的報告,而此計畫橫跨三個年 代,因此標題與摘要都一樣,但每一年度的計畫實質 內容可能不太一樣,以致於被分在不同的類別上。 表四 農資中心分類文件集一致性偵測人工校正前後之結果 表五 相似度門檻 1.0 時的相似文件範例與其主題類別 Gid 文號 標題 關鍵詞 摘要 類號 類名 13 923304 枇杷 穩定 產量 之研 究 枇杷; Loquat; 產 量 ;Yield; 催 花 ; Forcing Flower; 計畫目標:化學物質、拉枝、環刻等園藝技術提高枇杷開花 率,以增加著果率,達到穩定產量之目的.預期效益:增加枇杷 開花率、著果率,以穩定產量,達到穩定農家收益之目的.重要 工作項目:於 6-8 月間,分別利用拉枝、環刻及化學物質處理, 以增加枇杷之開花率,達到增加產量之目的. C0101093 其 他 常 綠 果樹栽培 13 931379 枇杷 穩定 產量 之研 究 枇 杷 ;Loquat; 產 量 ;Yield; 催 花 ; Forcing Flower; 計畫目標:化學物質、拉枝、環刻等園藝技術提高枇杷開花 率,以增加著果率,達到穩定產量之目的。預期效益:增加 枇杷開花率、著果率,以穩定產量,達到穩定農家收益之目 的。重要工作項目:於 6-8 月間,分別利用拉枝、環刻及化 學物質處理,以增加枇杷之開花率,達到增加產量之目的。 C0101093; C0101091 其 他 常 綠 果樹栽培; 其 他 常 綠 果 樹 形 態 與生理 13 941587 枇杷 穩定 產量 之研 究 枇 杷 ;Loquat; 產 量 ;Yield; 催 花 ; Forcing Flower; 計畫目標:化學物質、拉枝、環刻等園藝技術提高枇杷開花 率,以增加著果率,達到穩定產量之目的。預期效益:增加 枇杷開花率、著果率,以穩定產量,達到穩定農家收益之目 的。重要工作項目:於 6-8 月間,分別利用拉枝、環刻及化 學物質處理,以增加枇杷之開花率,達到增加產量之目的。 J060201 果 樹 營 養 及 土 壤 肥 力 S=1.0 S>=0.8 S>=0.6 文件集 相似程度 一致性 篇數 百分比 篇數 百分比 篇數 百分比 不一致 303 3.46 1253 14.33 2160 24.71 一致 446 5.10 1670 19.10 2571 29.41 校正前 總計 749 8.56 2923 33.44 4731 54.12 不一致 167 1.72 665 6.87 1339 13.84 一致 800 8.27 2636 27.25 3812 39.40 校正後 總計 967 9.99 3301 34.12 5151 53.25表六的五篇文件,根據年代判別,應該是屬於二 個計畫的報告,但不清楚為何標題與關鍵詞都一 樣,而且摘要內容也很像(如粗黑體字部份)。有可 能是整合型計畫裡的兩個分項子計畫,但計畫內容 有何差異,從這些給出的資料中,看不出來。這五 篇文件幾乎都給同樣的類別,只有第三篇不同。但 從其類號看,跟其他四篇的文件主題,算是相當接 近。 表六 相似度門檻 0.8 時的相似文件範例與其主題類別 Gid 文號 標題 關鍵詞 摘要 類號 類名 11 900659 水 稻 新 品 系 肥 效 反 應 試驗 水稻;Rice;產 量 ;Yield; 肥 料;Fertilizer 計畫目標: 以本場參加全省區域試驗之稉 稻新品系參試, 採 用裂區設計, 氮肥處理為主區, 品種為副區, 探求出最佳的稻 穀產量與經濟氮素施用量的關係.架構( 重要工作項目 ): 1.試 驗材料: 以參加區域試驗之稉 稻新品系參試, 以台農 67 號做 為對照品種.2.試驗設計: 採用裂區設計, 三重複, 氮肥處理為 主區, 品種為副區, 多本植.3.調查項目: 抽穗期、成熟期、株 高、分蘗、產量與產量構成要素等.預期效益: 探研出參試新品 種( 系 )獲得最高效益之氮素施用量與其對氮素的反應曲線 B0102 稻 遺 傳 與育種 11 910229 水 稻 新 品 系 肥 效 反 應 試驗 水稻;Rice;產 量 ;Yield; 肥 料;Fertilzer 計畫目標:以本場參加全省區域試驗之稉稻新品系參試,採用 裂區設計,氮肥處理為主區,品種為副區,探求出最佳的稻穀 產量與經濟氮素施用量的關係。架構(重要工作項目):1.試驗材 料:以參加區域試驗之稉 稻新品系參試,稉稻以台農 67 號做 為對照品種。2.試驗設計:採用裂區設計,三重複,氮肥處理 為主區,品種為副區,多本植。3.調查項目:抽穗期、成熟期、 株高、分蘗、產量與產量構成要素等。預期效益:探研出參試 新品種(系)獲得最高效益之氮素施用量與其對氮素的反應曲 線,供新品種命名時之參考。 B0102 稻 遺 傳 與育種 11 900979 水 稻 新 品 系 肥 效 反 應 試驗 水稻;Rice;產 量 ;Yield; 肥 料;Fertilizer 本試驗係以參加區域試驗之秈、稉 新品系為參試品系, 探討新 品系的最適氮肥施用量.田間採用裂區設計, 三重複, 氮肥處理 為主區, 品種為副區, 多本植.調查抽穗期、成熟期、株高、分 蘗、產量與產量構成要素等性狀.以探求出最佳的稻穀產量與經 濟氮素施用量關係. B0103 稻栽培 11 910290 水 稻 新 品 系 肥 效 反 應 試驗 水稻;Rice;產 量 ;Yield; 肥 料;Fertilizer 本試驗係以參加區域試驗之秈、稉稻新品系為參試品系,探討 新品系的最適氮肥施用量。田間採用裂區設計,三重複,氮肥 處理為主區,品種為副區,多本植。調查抽穗期、成熟期、株 高、分蘗、產量與產量構成要素等性狀。以探求出最佳的稻穀 產量與經濟氮素施用量關係,供新品種命名時之參考。 B0102 稻 遺 傳 與育種 11 922513 水 稻 新 品 系 肥 效 反 應 試驗 水稻;Rice;產 量 ;Yield; 肥 料;Fertilizer 本試驗係以參加區域試驗之秈、稉稻新品系為參試品系,探討新 品系的最適氮肥施用量.田間採用裂區設計,三重複,氮肥處理為 主區,品種為副區,多本植.調查抽穗期、成熟期、株高、分蘗、 產量與產量構成要素等性狀.以探求出最佳的稻穀產量與經濟 氮素施用量關係,供新品種命名時之參考. B0102 稻 遺 傳 與育種
表七 相似度門檻 0.6 時的相似文件範例與其主題類別 Gid 文號 標題 關鍵詞 摘要 類號 類名 9 902035 不同水稻栽 培模式對土 壤地力影響 之長期觀察 試驗 水 田 ;Paddy Field; 長 期 ;Long-term; 地 力 ;Soil Fertility 本試驗的目的在探討不同耕作模式對水田長期地力 之影響, 以台農 67 號、台稉 2 號、台中 189 號供試, 四 種耕種模式( 處理 )為不施肥、施有機肥、單期作及 施化學肥( 對照 ), 收穫時作土壤分析為調查產量. J060101 稻 營 養 及 土 壤 肥力 9 920138 不同水稻栽 培模式對土 壤地力影響 之長期觀察 試驗 水 田 ;Paddy Field; 長 期 ;Long-term; 地 力 ;Soil Fertiliy; 本試驗的目的在探討不同耕作模式對水田長期地力 之影響,以台農 67 號、台稉 2 號、台中 189 號供試, 四種耕種模式(處理)為不施肥、施有機肥、單期作及 施化學肥(對照),收穫時作土壤分析並調查產量. B0103 稻栽培 9 902037 添加苦土石 灰對有機米 品質之影響 苦土石灰;Dolomite;有機 栽培;Organic Culture; 水 稻;Rice 本試驗的目的在探討添加苦土石灰對有機栽培水稻 米質之影響, 苦土石灰在施基肥時施用, 以不施用為 對照, 水稻植體於乳熟期及黃熟期以及糙米取樣分 析鎂含量.收穫時調查產量及米質. J060101 稻 營 養 及 土 壤 肥力 9 910045 添加苦土石 灰對酸性土 壤稻米品質 之影響 有 機 栽 培 ;Organic Culture; 水 稻 ;Rice; 苦 土 石灰;Dolomite 本試驗的目的在探討添加苦土石灰對有機栽培水 稻米質之影響,苦土石灰在施基肥時施用,以不施用 為對照,水稻植體於乳熟期及黃熟期以及糙米取樣分 析鎂含量。收穫時調查產量及米質。 J060101 稻 營 養 及 土 壤 肥力 9 920180 添加苦土石 灰對酸性土 壤稻米品質 之影響 有 機 栽 培 ;Organic Culture; 水 稻 ;Rice; 苦 土 石灰;Dolomite; 本試驗的目的在探討添加苦土石灰對有機栽培水稻 米質之影響,苦土石灰在施基肥時施用,以不施用為對 照,水稻植體於乳熟期及黃熟期以及糙米取樣分析鎂 含量.收穫時調查產量及米質. J060101 稻 營 養 及 土 壤 肥力 9 932002 台南區水稻 栽培模式與 土壤改良 有 機 栽 培 ;Organic Culture; 水 稻 ;Rice; 苦 土 石 灰 ;Dolomite; 水 田 ;Paddy Field; 長 期 ;Long-term; 地 力 ;Soil Fertiliy; 1. 探討不同耕作模式對水田長期地力之影響,以台 農 67 號、台稉 2 號、台中 189 號供試,四種耕種模 式(處理)為不施肥、施有機肥、單期作及施化學肥(對 照),收穫時作土壤分析並調查產量。 2. 探討添加苦 土石灰對有機栽培水稻米質之影響,苦土石灰在施基 肥時施用,以不施用為對照,水稻植體於乳熟期及黃 熟期以及糙米取樣分析鎂含量。收穫時調查產量及米 質。 B0103; J060101 稻 栽 培 ; 稻 營 養 及 土 壤 肥 力 9 951823 台南區水稻 栽培模式與 土壤改良 水 田 ;Paddy Field; 長 期 ;Long-term; 地 力 ;Soil Fertiliy; 探討不同耕作模式對水田長期地力之影響,以台農 67 號、台稉 2 號、台中 189 號供試,四種耕種模式(處 理)為不施肥、施有機肥、單期作及施化學肥(對照), 收穫時作土壤分析並調查產量。 B0103; J07 稻 栽 培 ; 土 壤 管 理 與改良 表七的七篇文件,從其標題研判,可明顯看出是 屬於三個計畫,因為其關鍵詞與摘要,有蠻多相同 的地方(如粗黑體字與底線的部份),以致於被上述 偵 測 方 法 群 組 在 一 起 。 此 七 篇 文 件 , 大 多 屬 於 J060101 與 B0103 這兩類。
(三) 混淆類別
上述方法,除可偵測人工分類的不一致情況外, 從另一個角度觀察,也可以用來偵測容易被分類者 混淆的類別。亦即兩篇相似的文件,例如文件 X 與 Y,卻被分在不同類別,假設為類別 A 與 B,除了 可說文件 X 與 Y 的分類不一致外,也可以說類別 A 與 B 是被分類者混淆的類別對(confusion pair)。統 計此種混淆類別對的出現次數,再由多到少排序, 可以得出「容易被混淆」的類別。 表八顯示相似度門檻為 1.0、0.8 與 0.6 時,前十組 最容易被混淆的類別對。在 S=1.0 時,類別 H99(植 物保護類-其他)與 Y06(生物技術)被混淆的次數 最多,雖然值得注意與探究,但統計次數低,只有4 次,恐怕還不具代表性。在 S=0.6 時,B0102(稻遺 傳與育種)與 B0103(稻栽培)混淆過 22 次,從其類 名來看,的確容易如此。但 B0103(稻栽培)與 Y04 (農業氣象與災害)的主題差距似乎很大,其混淆次 數也同樣高達 22 次,就有點令人不解了。表九列出 此 22 組混淆情形,由於我們的相似度為非對稱型, 可看出他們是從 11 對相似文件得來。經調閱相關文 件後,如表十所示範例,發現這 11 對相似文件,分 屬兩、三個長期計畫,同一計畫中,某一年度的計畫 文件列在 B0103,而其他年度的文件列在 Y04,因而 造就此種統計結果。觀察表十中的內容,這些文件應 該同時具有 B0103 與 Y04 的兩個主題。 表八 相似度門檻為 1.0 時,前十組最容易被混淆的類別對 S=1.0 S>=0.8 S>=0.6 類別一 類別二 次 類別一 類別二 次 類別一 類別二 次 H99 Y06 4 B0103 Y04 19 B0102 B0103 22 C0101092 C0101093 3 E020101 E03 16 B0103 Y04 22 D0302 J01 3 B0102 B0103 16 E020101 E03 19 B0202022 B0202023 3 C0101092 C0101093 15 C0101092 C0101093 17 B0303011 B0303013 2 M0101 M0199 13 E020101 E020199 16 B0103 J060101 2 C0101091 C0101093 12 M0101 M0199 15 B0303013 K0102 2 K0101 Y0199 12 A99 Y0103 14 H010399 H050405 2 E0101 E020101 11 C0101091 C0101093 14 B020102 B020103 2 C020202 C020299 10 K0101 Y0199 14 B9999,C9999 C9902,K0102 2 E0103 E040101 9 E0103 E040101 13
表九 相似度門檻為 0.6 時,22 組相似文件的文號、類號與相似度 文件一文號 文件一類號 文件二文號 文件二類號 文件一到文件二之相似度 902044 Y04 910068 B0103 95 910068 B0103 902044 Y04 99 902044 Y04 920226 B0103 95 920226 B0103 902044 Y04 76 902044 Y04 931969 B0103 94 931969 B0103 902044 Y04 76 902044 Y04 940513 B0103 94 940513 B0103 902044 Y04 76 902298 Y04 922688 B0103 82 922688 B0103 902298 Y04 89 902298 Y04 942018 B0103 81 942018 B0103 902298 Y04 89 922688 B0103 932081 Y04 98 932081 Y04 922688 B0103 100 910754 Y04 922688 B0103 83 922688 B0103 910754 Y04 88 910754 Y04 942018 B0103 82 942018 B0103 910754 Y04 88 932081 Y04 942018 B0103 98 942018 B0103 932081 Y04 98 911457 Y04 921372 B0103 91 921372 B0103 911457 Y04 87
表十 類別 B0103 與 Y04 的相似文件範例 Gid 文號 標題 關鍵詞 類號 類名 43 902044 水稻豐歉因素測定試驗 水 稻 ;Rice; 產 量 ;Yield; 預 測;Forecast Y04 農業氣象與災害 43 940513 台南區水稻豐歉因素測定試驗 水 稻 ;Rice; 產 量 ;Yield; 預 測;Forecast B0103 稻栽培 44 902298 農業氣象觀測與資源規劃應用 水 稻 ;Rice; 產 量 ;Yield; 農 業 氣 象;Agrometeorological Y04 農業氣象與災害 44 942018 農業氣象觀測與資源規劃應用及水稻豐 歉因素測定試驗 水 稻 ;Rice; 產 量 ;Yield; 農 業 氣 象;Agrometeorological; B0103 稻栽培
(四) 不一致校正
由於有以上的不一致與混淆情形,我們將偵測出 的結果,送回給農資中心,將電腦判別不一致的測 試文件再重新檢視與校正。經過校正後,再次施行 不一致偵測,結果如表四中的「校正後」欄位,整 體的不一致性比例,下降為原先的一半左右。 分析校正前後的結果,發現資料不一致的主要原 因有: 1. 人員輸入錯誤; 2. 分類人員彼此的概念不一致; 3. 分類人員因時間或認知改變使概念不一致; 4. 多重主題造成分類不一致; 5. 新興技術造成概念的混淆。五、不一致性校正前後的自動分
類成效
如同前述,分類的不一致性,可能混淆了分類器 的學習,造成其效果降低。為了驗證其效應,底下 比較校正前、後的文件集,自動分類成效的差異。 在進行機器分類並評估成效時,針對農資中心的分 類文件集,我們將日期較前面的 2/3 文件約 6000 篇 切分成訓練文件集(用以訓練分類器),日期較晚的 1/3 文件約 3000 篇當作測試文件集(用以測試成效)。(一) 分類器
在文件自動分類的技術中,SVM(Support Vector Machine)與 KNN(K-Nearest Neighbor)是被驗證為 效果最好的兩種分類方法 [15]。在實驗中,我們選 用 Joachims 發展的 SVM 分類器[16],而 KNN 分類 器則自行開發。KNN 的分類原理算蠻簡單的:將輸 入文件與所有的訓練文件做比對,找出相似度最高 的前 K 篇文件,再從這 K 篇文件的類別,決定輸入 文件的類別。以公式表示如下:∑
∈=
KNN d j i i j ic
d
y
d
q
Sim
c
q
S
(
,
)
(
,
)
(
,
)
其中 Sim(q,di)為待分類文件 q 與訓練文件 di 的相 似度,y(di,cj)為 1 或 0 的值,代表訓練文件 di 是否 屬於類別 cj,而 KNN 表示跟文件 q 最相近的 K 篇訓 練文件的集合。上述的公式,可以計算出待分類文 件 q 在每個類別的分數 S。依此分數由大到小排序, 再取個門檻,就可以將待分類文件 q 分類到分數高 的類別了。此處的參數 K,在後面的實驗中,都取 20,而且由於大部分的訓練文件都只分到一類,因 此以 S 分數最大的類別,做為文件 q 的類別。 由於影響 KNN 分類成效的最大因素是相似性的 準確度,我們試驗了兩種相似度計算方式,一種是 前述的 bytesize 正規化公式,另一種是稱為 BM11 的 運算模式。BM11 是機率模式(Probability Model)的 相似度計算公式 [17],在近年的檢索實驗中,被驗 證為比 bytesize 或 Cosine 這種向量模式(Vector Space Model, VSM)的效果還好,其公式如下:彙 k 在文件集中的出現篇數,dli是文件 i 的長度(可 為任何單位),Avgdl 是所有文件的平均長度,其他 符號同 bytesize 公式。
(二) 成效評估
在成效評估方面,不同的度量方式有各自不同的 強調對象,因而容易導致偏向(bias)的結論。本文 以 MicroF 以及 MacroF 值同時呈現分類的效果,其 計算方式如下: 其中 C 是類別總數,i 代表某一類別,而 TPi(True Positive)、FPi(False Positive)、FNi(False Negative) 分別代表:是類別 i 而且也正確分為類別 i 的篇數、 不是 i 類卻分為 i 類的篇數、是 i 類卻沒有分為 i 類的 篇數。此 F 值乃從精確率(P)與召回率(R)的常見 公式:F = 2PR/(P+R) = 2TP/(2TP+FP+FN)演化而來,其 中 P = TP/(TP+FP)、R = TP/(TP+FN)。 由於 MicroF 是全部文件一起累加統計,不分類 別,因此容易受到少量的大類別(佔大多數文件) 表現好壞的影響。相對的,MacroF 考慮每個類別 的成效後再做平均,因此容易受到大量的小類別 影響。將兩種平均數據都報告出來,可以瞭解大 多數文件的分類效果(MicroF),以及大多數類別 的分類效果(MacroF)。(三) 自動分類結果
表十一顯示校正前文件集的自動分類成效。這 些分類數據,看起來成效偏低。經我們檢視分析, 發現機器分類的結果,儘管跟人工分類不一樣, 但 大 部 分 不 會 太 差 , 如 表 十 二 中 顯 示 的 一 些 範 例。甚至,我們認為,有些文件必須藉助領域專 家,而非分類專家,才能細微區分其類別。例如 表 十 二 中 的 最 後 一 列 , 到 底 該 文 件 在 談 蕈 類 育 種,或是蕈類栽培,還是兩者都有,需要領域專 家進一步解讀確定。總之,一個文件集的自動分 類成效好壞,不是看其絕對數據,而是要比較其 與不同人工分類成效的差距,才能確認[1]。如果 兩個人的分類結果差距很大,機器分類的成效數 據,通常也比較低。 表十一 校正前文件集之分類成效 MicroF Macro-F SVM 0.4404 0.2421 KNN-VSM 0.4230 0.2120 KNN-BM11 0.4226 0.2126 表十二 人工分類與機器分類對照範例 文號 標題 關鍵詞 人工分類 機器分類 952745 氣 候 變 遷 對 太 平 洋 鮪 資 源 之 影響研究氣候變遷;Climate Change;鰹鮪圍網;Tuna Purse Seine; 太平洋;Pacific Ocean;鮪延繩釣;Tuna Longline;
E020199 ( 漁 業 資 源-其他) E020101 ( 漁 業 資 源調查與評估) 952746 氣 候 變 遷 對 淺 海 養 殖 漁 業 衝 擊之解析
淺海養殖;Coastal Aquaculture;牡 蠣;Oyster;文蛤;Hard Clam; 九 孔 ;Abalone; 氣 候 變 遷 ;Climate Change; 鹽 度;Salinity;降雨;Precipitation; E040303(蟹貝類飼 養管理) E020101 ( 漁 業 資 源調查與評估) 951882 夏 季 耐 熱 蔬 菜 品種選育
不 結 球 白 菜 ;Non-heading Chinese Cabbage; 莧 菜;Amaranth;芥藍;Chinese Kale;蘿蔔;Radish;辣椒;Chilli; 馬鈴薯;Potato; C9902( 園 藝 類 - 其 他-遺傳與育種) C020302( 葉 菜 類 遺傳與育種) 951884 食 藥 用 菇 類 品 種 改 良 及 栽 培 技術之研究
杏鮑菇;Pleurotus eryngii;舞菇;Grifola frondosa;巴西蘑 菇;Agaricus blazei Murill;雞腿菇;Coprinus comatus;茶樹 菇;Agrocybe chaxingu; C020602(蕈類遺傳 與育種) C020603( 蕈 類 栽 培)
∑
∑
∑
=∑
= = = + + × × = C i i C i i C i i C i i FN FP TP TP MicroF 1 1 1 1 2 2∑
=×
+
+
×
=
C i i i i iFN
FP
TP
TP
C
MacroF
12
2
1
雖然 SVM 的初步成效較佳,但其訓練所需時間比 較不容易預測(有時很長有時很短),後續的實驗, 我們只用 KNN,而且是用機率模式(BM11)的相似 度,因為在我們過去的分類實驗中[18],此相似度常 有較好的成效。 表十三列出農資中心分類集,其分類不一致經人 工校正後之自動分類成效。從第二列數據可看出, 校正後的確對機器分類有幫助,MicroF 從 0.4226 提 升到 0.4702,而 MacroF 從 0.2126 提升到 0.2579。若 只針對訓練文件數達 20 篇的類別來分類(表中第 三、四行數據),則成效可從五成左右提升到接近 6 成。若針對訓練文件數達 40 篇的類別來分類(表中 第五、六行數據),則成效可從六成左右提升到 8 成 附近,提升的程度相當顯著。此結果顯示,文件越 多的類別,機器與人工分類的一致性會越高。 表十三 校正前、後文件集之分類成效 文件集 類別總數 測試文件 類別總數 測試文件數 MicroF Macro-F 校正前 482 474 2818 0.4226 0.2126 校正後 481 475 3071 0.4702 0.2579 校正前_20 156 155 1966 0.5341 0.4531 校正後_20 168 121 1943 0.6197 0.5710 校正前_40 67 67 1295 0.6448 0.5910 校正後_40 79 33 898 0.8073 0.7790
六、結語
根據前面的描述,自動偵測分類不一致,所能達 到的效益,整理如下: (一) 驗證分類一致性的程度:表五的例子顯示, 明顯不一致的情形,很容易被機器快速的找 到。而人工分類持續的越久,越有可能因為 分類人員調度、專業程度、認知判斷之不同, 造成分類不一致的情形。若能及早瞭解此種 分類品質,就越能及早改善其不當情形,而 提升已分類文件的利用價值。 (二) 辨識混淆類別之具體實例:表八的資料顯 示,B0102(稻遺傳與育種)與 B0103(稻栽 培)兩類主題,常造成人工分類的混淆;而 表十二顯示,C020602(蕈類遺傳與育種)與 C020603(蕈類栽培)兩類,則造成人工與機 器的混淆。在農業中「遺傳與育種」以及「栽 培」其實是相當明確的兩個概念,混淆的主 因是分類人員的認知不一致所致。透過機器 的偵測,可提醒分類人員彼此重新檢視類別 定義,達成一致的認識。 (三) 建議較佳的分類策略:由於農資中心的文 件,幾乎都只分成一類,因而像表八中,B0103 (稻栽培)與 Y04(農業氣象與災害)主題 差距大,卻容易混淆的情形,就比較嚴重。 事實上,此種情形,可藉由多重分類來改善。 亦即類別之間盡量達到「彼此獨立、互補不 足」的原則,若有新的主題出現,則可用多 個既有類別來描述。像文件 942018(農業氣 象觀測與資源規劃應用及水稻豐歉因素測定 試驗),就適合同時分配給 B0103(稻栽培) 與 Y04(農業氣象與災害)這兩個類別。 (四) 調整分類架構設計:表三的資料顯示,類別 文件數的分佈極不平均,有些類別數超過 200 篇,有些僅有 1 篇。雖然其代表的意義應為 研究主題的熱門與否,但由於知識的概念本 來就會隨著時間不斷的創新與融合,因此透 過簡單的盤點與分析,可適時建議調整分類 架構的設計與定義。(五) 預估自動分類的成效:表四以及表十三的結 果顯示,當分類不一致的情形較嚴重時,會 造成較低的自動分類成效。因此,在引入自 動分類機制前,分類不一致的自動偵測,可 用來預估自動分類帶來的效益。 (六) 提供資料清理、知識盤點的自動化作法:表 四至表十所提供的統計資料或範例,可作為 分類文件集的「複本偵測」(瞭解是否有資料 誤植而產生複本)、「案例追蹤」(根據內容主 題將相同計畫或類似計畫的文件串聯起來, 而不必仰賴其是否為同一單位或同時段所提 出)、「正確性驗證」(文件分類一致性、類別 定義獨立性等)的依據。很顯然的,本文描 述的自動化作法,可作為非結構化文件的資 料清理與知識盤點參考。 (七) 減輕分類人員的工作負擔:由於現今資訊量 爆增,新興技術不斷的創新,專業分工也越 來越細,因此專業資訊分析人員的養成越來 越不容易,願意投入靜態資料處理的人力也 越來越少,人員流動率相對增加。面對未來, 文件分類若只靠專業人力來進行,其分類不 一致現象將會越來越嚴重。雖然定期資料盤 點與檢討可以降低文件不一致的現象,但資 料盤點是很吃重的工作,除非有足夠的經費 與人力,否則文件分類不一致的現象很容易 發生。因此本文提供的方法,對加速資料盤 點、降低人力需求,有重要而實質的貢獻。
誌謝
本研究部份由國科會專題研究計劃補助:NSC 95-2221-E-003-016-。附註
[1] 曾元顯(2002)。 "文件主題自動分類成效因素 探討",「中國圖書館學會會報」, 68, 頁 62-83.[2] Fabrizio Sebastiani (2002), “Machine learning in automated text categorization” ACM Computing Surveys, 34(1),1-47. [3] 曾元顯(2005)。"分類不一致對文件自動分類 效果的影響",「大學圖書館」, 9(1), 頁 2-19. [4] 中華農學會農業資訊服務中心, http://www.asic.gov.tw/ [5] 陳永隆,“知識盤點與分享機制之建立", accessed at http://www.office.com.tw/200312/1.4.htm on 2007/8/27.
[6] Yuen-Hsien Tseng and William John Teahan (2004). "Verifying a Chinese Collection for Text Categorization," Proceedings of the 27th International ACM SIGIR Conference on Research and
Development in Information Retrieval - SIGIR '04, July 25 - 29 Sheffield, U.K., 2004, 556-557.
[7] Dmitry V. Khmelev and William J. Teahan (2003). “A Repetition Based Measure for Verification of Text Collections and for Text Categorization,” ACM SIGIR, 2003, 104-110.
[8] W Daniel Lopresti and Jiangying Zhou (1996). “Retrieval Strategies for Noisy Text,” Proceedings of the Fifth Annual Symposium on Document Analysis and Information Retrieval, April 15-17, 1996, 255-269.
[9] Tho Yuen-Hsien Tseng, “FJU Test Collection for Evaluation of Chinese Text Categorization”,
http://www.lins.fju.edu.tw/~tseng/Collections/Chinese _TC.html
[10] WebGenie Knowledge Search System, http://www.webgenie.com.tw/
[11] Amit Singhal, Gerard Salton, and Chris Buckley (1996). "Length Normalization in Degraded Text Collections," Proceedings of Fifth Annual Symposium on Document Analysis and Information Retrieval, April 15-17, 1996, 149-162.
[12] Yuen-Hsien Tseng and Douglas W. Oard (2001). "Document Image Retrieval Techniques for Chinese" Proceedings of the Fourth Symposium on Document Image Understanding Technology, Columbia Maryland, April 23-25th, 2001, 151-158.
[13] Lucence, http://lucene.apache.org/
[14] 阮明淑,世新大學資訊傳播學系助理教授, 臺灣大學園藝所博士,專長:主題分析、資訊組織 學、知識管理。
Re-Examination of Text Categorization Methods,” Proceedings of the 22nd Annual International ACM-SIGIR Conference on Research and
Development in Information Retrieval, 1999, 42 – 49. [16] Thorsten Joachims, SVMlight: Support Vector Machine, version 5, http://svmlight.joachims.org/. [17] S. E. Robertson and S. Walker (1994). “Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval,” Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 1994, 232-241.
[18] Yuen-Hsien Tseng, Da-Wei Juang, and Chi-Jen Lin (2005). "Automatic Categorization of Japanese Patents based on Surrogate Texts," Proceedings of the Fifth NTCIR Workshop on Evaluation of Information Access Technologies: Information Retrieval, Question Answering, and Cross-Lingual Information Access, Dec 6-9, 2005, Tokyo, Japan, 348-354.