分類不一致之自動偵測

(1)

分類不一致之自動偵測：以農資中心資料

為例

Automatic Inconsistency Detection for the ASIC

Categorization Collection

അ̮ព!

઼ϲέ៉रቑ̂ጯྤੈ͕̚ࡁտࣶ!

Yuen-Hsien Tseng

Research Fellow, National Taiwan Normal University

E-mail:

ͳधᒩ!

̚රྺጯົྺຽྤੈڇચ͕̚͹Ї!

Chun-Shi Wang

Director, Agricultural Science Information Center

E-mail:

關鍵詞 (Keywords)：

文件分類(Document Categorization)；一致性(Consistency)；主題分析(Subject

Analysis)；分類錯誤更正(Inconsistency Correction)；知識盤點(Knowledge

Audit)

【ၡࢋ】

͛І̶ᙷߏॲፂ͛І̰ट۞͹ᗟගؠᙷҾ

۞ۢᙊΐࣃ̍ү，็௚˯Ϥˠ̍ซҖ。൒҃צ

̶ᙷߛၹనࢍ、ᙷҾؠཌྷͽ̶̈́ᙷ۰ጯᙊࡦഀ

ඈᇆᜩ，͹ᗟ̰टᙷҬ۞͛І，̙֍଀ౌົజ

̶ᙷז࠹Т۞ᙷҾ，Я҃ౄј̶ᙷ̙˘࡭۞ଐ

ڶ，ࢫҲ̶ᙷ͛І۞ᑕϡᆊࣃ。ώ͛ͽ९ּ۞

ԛё，ॲፂྺྤ͕̚۞ˠ̶̍ᙷྤफ़，ซҖ̶

ᙷ˘࡭ّ۞ҋજរᙋ，Ӕன̈́ଣ੅׎ඕڍ，֭

ᄲځ׎Ξਕሕд۞ᑕϡ，ͽणϯѩี̍ү۞Ξ

Җّ̈́၁ᅫड़ৈ。ტЪ҃֏，̶ᙷ̙˘࡭̝ҋ

જઍീ，Ξүࠎྤफ़୻ந、ۢᙊሹᕇඈۢᙊგ

ந၁ચ˯۞ᑕϡ，ٕߏޢᜈ̶ᙷߛၹ࣒ϒ、̶

ᙷඉரᑢؠ、ˠ̶̍ᙷ੊ቚ，ͽ͔̈́ซҋજ̶

ᙷ፟ט̝ણ҂ᄃ݈ཉүຽ。!

【Abstract】

Text categorization is a process of

assigning labels to documents according to

the contents or topics of the documents.

Traditionally text categorization is carried out

by human experts. However, due to factors

such as blurred category boundaries,

background bias, and personal judgment,

label inconsistency is often found in human

classified collections, thus reducing their

(2)

values in various applications. This article

described an automatic process to detect

such inconsistency based on the Agricultural

Science Information Center (ASIC ) collection.

In the article, important examples and results

are presented. Potential benefits and

applications are discussed.

一、緒論

在圖書資訊的實務工作中，常需要對大量的文件進行主題分析與資訊組織的加值處理。其中，文件分類（document categorization），是根據文件內容的主題給定類別，以便利後續文件利用的工作[1,2]。這些主題類別（category）常為事先定義、管理者用以組織文獻的知識分類。由於牽涉到自然語言的詞彙辨識與文意的分析與理解，傳統上文件分類都由人工進行。然而受分類架構設計、類別定義範圍，以及分類者學識背景、主題判斷認知差異等影響，主題內容類似的文件，不見得都會被人工分類對應到相同的類別，因而造成分類不一致的情況。分類不一致的資料，會造成下列幾個影響： (一) 使用者不容易根據主題類別找到或找全相關資料：不一致的分類，特別是此種分類運用於文件排序時，容易造成使用者（甚至分類者），從某個主題類別追查某份既有資料時，發生找不到的情形。此外，在統計某個主題類別的文件數量時，也會發生錯誤的統計數字。 (二) 破壞分類架構的完整性與可用性：理想的分類架構，應當要達到（同階層的）各類別，在主題上「彼此獨立、互補不足」（mutually independent, collectively exhaustive）的境界。然而，不一致的分類，將模糊類別之間的差異，因而破壞此種性質，從而降低分類架構的可用性與應用價值。 (三) 後續分類的困難：對人工分類而言，不管是同一個分類者，或是不同的分類者，容易被之前不一致的分類，混淆類別的主題定義，而影響後續的分類一致性。對電腦的自動分類而言，分類器無法在資料完全一致的環境下獲得訓練，可能造成分類器混淆、難以收斂、過度訓練（overfitting 或參數調整過度）或訓練不足（underfitting 或參數調整不足）等問題，而影響分類器的效果。此外，人工分類的結果，通常也是分類器用來評估成效的標準答案，當標準答案都不一致時，可能會影響評分，造成結果難以預測或數據不可靠。有鑑於此，我們認為在文件分類進行一段時間後，應當要檢討既有文件分類的一致性，是否主題相似的文件，被分在不同的類別，或檢討既有分類架構的完整性，是否類別之間，在主題上盡可能彼此獨立、互補不足。然而，如何定期、有效率的進行分類一致性驗證，過去的文獻，鮮有提及。根據我們過去的研究成果[3]，本文以案例的形式，實際進行分類一致性的自動驗證，呈現及探討其結果，並說明其可能潛在的應用，以展示此項工作的可行性及實際效益。具體而言，我們根據中華農學會農業資訊服務中心[4]（以下簡稱「農資中心」或 ASIC）的人工分類資料，進行文件分類不一致的自動偵測，偵測結果提供分類者參考、校正，作為後續分類架構修正、分類策略擬定、人工分類訓練，或引進自動分類機制之參考與前置作業。在知識管理的相關課題中，本文探討的是關於「資料清理」（ data cleaning ）、「知識盤點」（knowledge audit）[5]的問題與自動化解決方案。我們以案例的形式，說明其對實施知識管理的機構可能帶來的效益。希望本文的內容，能對相關的課題，如圖書資訊領域的主題分析，與知識管理領域的知識盤點，有實務上的啟發與貢獻。

二、分類不一致的自動偵測方法

要自動偵測分類不一致，以快速有效的進行分類文件的知識盤點，必須先給分類不一致一個操作型定義，以便利電腦的自動偵測。以主題分類而言，所謂不一致是指具有相同主題的不同文件，被分到不同類別。因此，在實作上，必須先偵測「相同主題」的文件出來，然後比對它們的類別，才可知道分類是否一致。在本文中，只要類別有不一樣的情

(3)

形，就視為不一致。例如文件 X 的類別為 A 與 B，而與其相同主題的文件 Y 的類別為 A 與 C，雖然有一個類別 A 是一致的，但類別 B 與 C 不同，則還是視文件 X 與 Y 的分類不一致。然而所謂「主題相同」是主觀的判斷，不適合電腦的自動處理。本文承襲先前的研究[3,6]，以文件的「相似性」來近似主題的相同性，亦即大膽假設相似度高的文件，即屬於相同的主題。此點假設，對相似度極高的文件，例如複本、抄襲稿等，相當適用，但對於不相似卻屬於相同主題的文件，就不適用了。不過其可視為是一種比較嚴格的假設：有複本關係的文件，卻分在不同的類別，顯然是一種分類不一致的情況，而沒有爭議。相對的，不相似的文件而屬同一主題的情況，是比較容易引起爭議的。有了上述的假設，我們便可運用相似文件自動偵測技術，來比對具有相同主題的文件。在一份文件集（a collection of documents）中，偵測文件相似性的技術可應用於複本偵測（重複文件剔除）、文件歸類、同案追蹤、抄襲偵測等，因此是相當有應用價值的技術。可惜目前這方面的探討不是很多。有鑑於此，我們提出利用資訊檢索的技巧來偵測相似文件，此方法稱為 S-measure，其具有其他方法所沒有的優點。為完整呈現本文的內容，我們整理此方法的細節如下。其他相關的作法，可參考我們之前調查的文獻[3,7-8]。此方法應用檢索系統，先對文件集建立索引，然後將每一篇文件視為檢索字串依次送入檢索系統中，進行相似度比對的查詢，蒐集每一個查詢結果，即可獲得每一篇文件對其他文件的相似程度。如此，檢索系統可對文件的標點符號、雜訊、詞彙等做前置的正規化（normalization）處理，查詢時可選用不同的相似度計算方法，只要其最後的數值可以正規化到 0 與 1 之間代表其相似度即可。此方法最重要的優點是：一、不受詞彙順序的影響；二、可以藉由控制、調整比對的查詢字串，而定義出不同的相似文件。例如，我們可以刪除文件所有的停用詞（通常為虛詞、連接詞等無主題意義的詞彙），或只留下出現頻次超過一定門檻的關鍵詞，進行相似度比對，如此會容許較多的文件有較高的相似度，即便這些文件在停用詞上有很多差異，只要其關鍵詞相似即可。相對的，我們也可以拿文件的全部字串送入檢索系統做相似比對，如此只有複本或近似複本才可能有較高的相似度出現，因而定義出比較嚴格的相似文件。此方法需事先對文件集建立索引，一般設計良好的檢索系統，建索引所花的時間大約跟文件總長度成正比。在比對單一篇文件的相似度上，由於透過檢索系統的反向索引檔運作，其需要的計算時間最長約 O(n*m)，所需的記憶體最高也是約 O(n*m)，其中 n 為該文件的詞彙數，m 為所有的文件篇數。在將一篇篇文件依次送入查詢，以比對其與所有其他文件的相似度時，所需的計算時間為 O(n*m2)，而記憶體需求為 O(n*m)。這個估計結果，是假設最糟糕的情況發生，亦即每一篇文件的每個詞彙都出現在所有文件裡。在自然語言的文字分佈上，這幾乎不可能，只會有少數的詞彙出現在很多文件，而絕大多數的詞彙只出現在少數的文件。因此，實際運用 S-measure 時，其全部的計算量應該是遠低於 O(n*m2)（約 O(n*m)，甚至為 O(n)），所需的記憶體，則約 O(m)。

三、農資中心的分類文件集介紹

農資中心針對農業方面的中文學術文獻，已經進行十幾年的人工分類工作。其類別架構為階層式，有五個層級，每個類別均有類別編號與中文類別名稱，總共約 722 類左右。此次農資中心提供盤點、等待一致性檢驗的分類文件，包含文件編號（含年代）、論文標題、論文摘要、論文關鍵詞、類別編號及類別名稱等。其基本統計數據如表一，年代篇數統計如表二，表三則列出最大與最小的十個類別的文件個數。從表一可知，在類別標示方面，大部分文件只給一類，少數給超過一類，最多到三類，亦即其多重分類的比例很少。雖然農資中心的分類文件，有十幾年的歷史，但從表二得知，此次給出的文件集只橫跨 7 年的資料。然而，雖然只佔所有文件的一小部份，此文件集仍然算是具有歷史性的資料，其類別標示的一致性恐難保持[9]。至於其分類的一致性或不一致性到何種程度，乃本文亟欲探討、瞭解的問題。

(4)

表一農資中心分類文件資料集之基本統計數據表二農資中心分類文件資料集之年代篇數分佈年代 2000 2001 2002 2003 2004 2005 2006 篇數 1455 1814 ₁₅₁₀ 1530 1401 1168 1369 表三農資中心分類文件資料集之最大與最小的十類文件統計表項次編號類名篇數項次編號類名篇數 1 E020101 漁業資源調查與評估 229 472 G010201 雞普通病 1 2 B0102 稻遺傳與育種 154 473 G010101 豬普通病 1 3 M0101 農作機械試驗與改良 140 474 G010109 其他家畜普通病 1 4 Y0101 動物生態保育 136 475 G0104 野生動物普通病 1 5 G0301 生物藥品 133 476 G0201039 羊傳染病-其他 1 6 J08 有機肥料及綠肥 126 477 B020402 麥類遺傳與育種 1 7 M0501 農產品處理加工機械試驗與改良 122 478 H0101025 薊馬類生態學與生理學 1 8 E0203 漁船及漁撈機械 110 479 H0101026 鞘翅類生態學與生理學 1 9 C0101092 其他常綠果樹遺傳與育種 107 480 H020101 類形態學與分類學 1 10 Y0202 廢棄物處理與利用 104 481 B020999 其他雜糧作物-其他 1 除了分類不一致的問題外，從我們過去的經驗得知，一份分類文件集常出現的另一個問題，是類別文件數分佈極不平均的現象。表三顯示其前十大類，總共有 1361 篇，佔全部文件的 13.2819%，而最後十小類，總共 10 篇，佔全部文件的 0.0976%。若統計其前 10%的類別，48 類總共有 3976 篇，佔 38.8016%，而後 10%的類別，總共有 53 篇，佔 0.5172%，也是相差極大。從另一項統計數字看，文件超過 100 篇的類別，只有 10 類，僅佔全部類別數的 2.08%；超過 50 篇者（含）有 56 類，佔全部類別數的 11.64%，約十分之一；超過 10 篇者（含）有 263 類，佔全部類別數的 54.68%，僅超過半數的類別。我們的觀察認為，此種類別大小不平均的現象，人為的因素較少，自然的主題分佈因素較高。人為因素是指，分類者根據各種知識之間的差異訂出一套分類架構或類別定義，因此不會故意去定義出小

文件篇數：10247 篇，不計多重分類之相異文件則為 9673 篇

文件年代：2000 年-2006 年

類別數：481 類

各類別平均文件數：20.1 篇/類

各文件平均類別數：1.0593 類/篇（3 類者 19 篇，2 類者 536 篇，餘均 1 類）

最大類別資料量：229 篇（

「漁業資源調查與評估」）

最小類別資料量：1 篇（

「乳類處理」等 43 類）

(5)

類別或大類別。而自然的因素是指，某類主題其數量就是比較少（較少人研究），但又與其他主題不同，具有獨特性或獨立性，而難以跟別的主題合併在一起來減少整體的主題數量。此種類別不平均的影響，是多數的小類易遭人工分類者或使用者忽略，而無法有實質的主題類別效益。更嚴重的是，自動化的分類器，很難從其中獲得足夠的訓練資料，而影響其對多數小類別的分類成效。

四、分類不一致自動偵測結果

(一) 自動偵測系統

針對上述的分類文件集，我們利用 S-measure 來偵測其相似文件。運用 S-measure 時，需要一套檢索系統，我們以 WebGenie 系統 [10] 對文件建索引，並進行整篇文件（標題、摘要與關鍵詞）的相似比對。 WebGenie 目前建索引的策略是，文件中任何單一字符（ token ，即一個「中文字」或一個「英文字（word）」）、雙連字符（2-token，即文件中所有相連的兩個字符）以及多字關鍵詞，都建為索引詞，而且沒有停用詞（亦即所有的詞彙包含 the、of、我、你等字或詞都建入索引，沒有因為該字或詞為停用詞而沒有鍵入索引）。除了提供布林（Boolean）查詢外，WebGenie 也提供相似度比對的查詢，其計算公式乃參考 Singhal 等人用以改良 Cosine 相似度的計算方法 [11]，稱做 bytesize 正規化（bytesize normalization）公式，如下所示：其中 di代表文件 i，qj代表查詢 j，di,k代表詞彙 k 在文件 i 中的權重，常為其詞頻的函數（如 log(1+tfi,k)），qj,k代表詞彙 k 在查詢 j 中的權重，常為詞彙出現篇數的函數（如 log(1+n/dfk), n 為所有文件的個數），而 bytesizedi表示文件 i 的長度（以 byte 為單位）。此公式乃 Cosine 公式的近似，比 Cosine 容易計算，且比較不受文件雜訊（如打錯字或 OCR 錯字，造成詞頻統計錯誤）的影響。其值最小為 0，最大超過 1。當超過 1 時，視需要可以切截成 1，使其落在 0 與 1 之間，以表示相似度。在 Singhal 以及我們過去的成效評估中 [12]，此相似度公式可以得到比 Cosine 更好的檢索成效。除了上述性質外，bytesize 正規化相似度計算方式，還有一個值得一提的性質。亦即其相似度是不對稱的，此點與對稱型的 Cosine 相似度公式不同。所謂不對稱，是指文件 X 到文件 Y 的相似度（用 X 當作查詢，得到與 Y 的相似度），與 Y 到 X 的相似度（用 Y 當作查詢，得到與 X 的相似度）不同。例如，當 X 與 Y 為複本關係時，X 到 Y 與 Y 到 X 的相似度都一樣會是最高的 1.0。但當 X 是 Y 的一部份時（如 X 是從 Y 節錄出來時），X 到 Y 的相似度會大於 Y 到 X 的相似度。以數學關係表示，可簡要表達如下：

當 X=Y 時，Sim(X, Y) = Sim(Y, X) = 1.0 當 X<Y 時，Sim(X, Y) > Sim(Y, X)

若我們採用 Cosine 公式來計算相似度時，則情況如下：

當 X=Y 時，Cos(X, Y) = Cos(Y, X) = 1.0 當 X<Y 時，Cos(X, Y) = Cos(Y, X) < 1.0

也就是說，從兩篇文件彼此的相似度來看，若為 Cosine 公式算出來的，將無法得知哪篇文件包含哪一篇，但 bytesize 公式可以。除了擁有上述優良的性質之外，我們採用 WebGenie 系統的另一項理由，是此系統以 C 及 C++ 寫成，花費數年調整效能，因此其建索引的速度極快，同時提供 200 多個功能完備的 API（Application Programming Interface）可供呼叫與運用。以程式設計的角度而言，在整合不同平台與程式系統方面，極為便利。當然，其他免費或商用的檢索系統，如 Lucene [13] 等，只要具備主題查詢功能而可輸出相似度者，均可利用。在建完索引後，我們將 WebGenie 裡全部的索引詞倒出來，作為斷詞詞庫，並針對每一篇文件進行長詞優先的斷詞處理後，再送入檢索系統，進行相似度比對的查詢。如此，得出每一篇文件，跟所有其他文件的相

375 .

0 )

(

1

2 ,

1 ,

,

)

,

(

i

d

bytesize

T

k

q

j

k

T

k

q

j

k

d

i

k

i

d

j

q

Sim

∑ =

=

(6)

似度矩陣。最後，給定一個相似度門檻後，可以把超過門檻的文件全部過濾、歸類出來，其結果如表四所示。

(二) 不一致文件

表四中「校正前」的內容，係指上述的文件集，經相似文件偵測、類別一致性比對後的結果。當 S-measure 的相似度門檻訂在 1.0 時，亦即系統認為某一篇文件跟其他文件幾乎完全一樣時，這樣的相似文件總共有 749 篇。而在這 749 篇中，有 303 篇的類別跟其相似的文件不同，有 446 篇則是跟其相似的文件一樣，所佔的文件數比例，分別是 3.46%與 5.10%。當相似度門檻為 0.8 時，不一致與一致文件所佔的比例，分別為 14.44% 與 19.10%。而在 0.6 的相似度時，此數據分別為 24.71% 與 29.41%。整體的不一致性比例，雖不是太高，卻也頗為明顯。為了進一步瞭解系統偵測的可信度，表五到表七分別列出相似度門檻為 1.0、0.8、0.6 的相似文件範例與其人工給定的主題類別。這三個表的第一欄是系統給的群組編號，第二欄是文件編號，其前兩碼為民國年代，其餘欄位的意義可由其欄位標題得知。表五中三篇文件幾乎一樣，但其類別都不一樣。經專家解讀 [14]，可能是同一計畫的報告，而此計畫橫跨三個年代，因此標題與摘要都一樣，但每一年度的計畫實質內容可能不太一樣，以致於被分在不同的類別上。表四農資中心分類文件集一致性偵測人工校正前後之結果表五相似度門檻 1.0 時的相似文件範例與其主題類別 Gid 文號標題關鍵詞摘要類號類名 13 923304 枇杷穩定產量之研究枇杷; Loquat; 產量 ;Yield; 催花 ; Forcing Flower; 計畫目標:化學物質、拉枝、環刻等園藝技術提高枇杷開花率,以增加著果率,達到穩定產量之目的.預期效益:增加枇杷開花率、著果率,以穩定產量,達到穩定農家收益之目的.重要工作項目:於 6-8 月間,分別利用拉枝、環刻及化學物質處理, 以增加枇杷之開花率,達到增加產量之目的. C0101093 其他常綠果樹栽培 13 931379 枇杷穩定產量之研究枇杷 ;Loquat; 產量 ;Yield; 催花 ; Forcing Flower; 計畫目標：化學物質、拉枝、環刻等園藝技術提高枇杷開花率，以增加著果率，達到穩定產量之目的。預期效益：增加枇杷開花率、著果率，以穩定產量，達到穩定農家收益之目的。重要工作項目：於 6-8 月間，分別利用拉枝、環刻及化學物質處理，以增加枇杷之開花率，達到增加產量之目的。 C0101093; C0101091 其他常綠果樹栽培; 其他常綠果樹形態與生理 13 941587 枇杷穩定產量之研究枇杷 ;Loquat; 產量 ;Yield; 催花 ; Forcing Flower; 計畫目標：化學物質、拉枝、環刻等園藝技術提高枇杷開花率，以增加著果率，達到穩定產量之目的。預期效益：增加枇杷開花率、著果率，以穩定產量，達到穩定農家收益之目的。重要工作項目：於 6-8 月間，分別利用拉枝、環刻及化學物質處理，以增加枇杷之開花率，達到增加產量之目的。 J060201 果樹營養及土壤肥力 S=1.0 S>=0.8 S>=0.6 文件集相似程度一致性 _篇數 _百分比 _篇數 _百分比 _篇數 _百分比不一致 303 3.46 1253 14.33 2160 24.71 一致 446 5.10 1670 19.10 2571 29.41 校正前總計 749 8.56 2923 33.44 4731 54.12 不一致 167 1.72 665 6.87 1339 13.84 一致 800 8.27 2636 27.25 3812 39.40 校正後總計 967 9.99 3301 34.12 5151 53.25

(7)

表六的五篇文件，根據年代判別，應該是屬於二個計畫的報告，但不清楚為何標題與關鍵詞都一樣，而且摘要內容也很像（如粗黑體字部份）。有可能是整合型計畫裡的兩個分項子計畫，但計畫內容有何差異，從這些給出的資料中，看不出來。這五篇文件幾乎都給同樣的類別，只有第三篇不同。但從其類號看，跟其他四篇的文件主題，算是相當接近。表六相似度門檻 0.8 時的相似文件範例與其主題類別 Gid 文號標題關鍵詞摘要類號類名 11 900659 水稻新品系肥效反應試驗水稻;Rice;產量 ;Yield; 肥料;Fertilizer 計畫目標: 以本場參加全省區域試驗之稉稻新品系參試, 採用裂區設計, 氮肥處理為主區, 品種為副區, 探求出最佳的稻穀產量與經濟氮素施用量的關係.架構( 重要工作項目 ): 1.試驗材料: 以參加區域試驗之稉稻新品系參試, 以台農 67 號做為對照品種.2.試驗設計: 採用裂區設計, 三重複, 氮肥處理為主區, 品種為副區, 多本植.3.調查項目: 抽穗期、成熟期、株高、分蘗、產量與產量構成要素等.預期效益: 探研出參試新品種( 系 )獲得最高效益之氮素施用量與其對氮素的反應曲線 B0102 稻遺傳與育種 11 910229 水稻新品系肥效反應試驗水稻;Rice;產量 ;Yield; 肥料;Fertilzer 計畫目標：以本場參加全省區域試驗之稉稻新品系參試，採用裂區設計，氮肥處理為主區，品種為副區，探求出最佳的稻穀產量與經濟氮素施用量的關係。架構(重要工作項目)：1.試驗材料：以參加區域試驗之稉稻新品系參試，稉稻以台農 67 號做為對照品種。2.試驗設計：採用裂區設計，三重複，氮肥處理為主區，品種為副區，多本植。3.調查項目：抽穗期、成熟期、株高、分蘗、產量與產量構成要素等。預期效益：探研出參試新品種（系）獲得最高效益之氮素施用量與其對氮素的反應曲線，供新品種命名時之參考。 B0102 稻遺傳與育種 11 900979 水稻新品系肥效反應試驗水稻;Rice;產量 ;Yield; 肥料;Fertilizer 本試驗係以參加區域試驗之秈、稉新品系為參試品系, 探討新品系的最適氮肥施用量.田間採用裂區設計, 三重複, 氮肥處理為主區, 品種為副區, 多本植.調查抽穗期、成熟期、株高、分蘗、產量與產量構成要素等性狀.以探求出最佳的稻穀產量與經濟氮素施用量關係. B0103 稻栽培 11 910290 水稻新品系肥效反應試驗水稻;Rice;產量 ;Yield; 肥料;Fertilizer 本試驗係以參加區域試驗之秈、稉稻新品系為參試品系，探討新品系的最適氮肥施用量。田間採用裂區設計，三重複，氮肥處理為主區，品種為副區，多本植。調查抽穗期、成熟期、株高、分蘗、產量與產量構成要素等性狀。以探求出最佳的稻穀產量與經濟氮素施用量關係，供新品種命名時之參考。 B0102 稻遺傳與育種 11 922513 水稻新品系肥效反應試驗水稻;Rice;產量 ;Yield; 肥料;Fertilizer 本試驗係以參加區域試驗之秈、稉稻新品系為參試品系,探討新品系的最適氮肥施用量.田間採用裂區設計,三重複,氮肥處理為主區,品種為副區,多本植.調查抽穗期、成熟期、株高、分蘗、產量與產量構成要素等性狀.以探求出最佳的稻穀產量與經濟氮素施用量關係,供新品種命名時之參考. B0102 稻遺傳與育種

(8)

表七相似度門檻 0.6 時的相似文件範例與其主題類別 Gid 文號標題關鍵詞摘要類號類名 9 902035 不同水稻栽培模式對土壤地力影響之長期觀察試驗水田 ;Paddy Field; 長期 ;Long-term; 地力 ;Soil Fertility 本試驗的目的在探討不同耕作模式對水田長期地力之影響, 以台農 67 號、台稉 2 號、台中 189 號供試, 四種耕種模式( 處理 )為不施肥、施有機肥、單期作及施化學肥( 對照 ), 收穫時作土壤分析為調查產量. J060101 稻營養及土壤肥力 9 920138 不同水稻栽培模式對土壤地力影響之長期觀察試驗水田 ;Paddy Field; 長期 ;Long-term; 地力 ;Soil Fertiliy; 本試驗的目的在探討不同耕作模式對水田長期地力之影響,以台農 67 號、台稉 2 號、台中 189 號供試, 四種耕種模式(處理)為不施肥、施有機肥、單期作及施化學肥(對照),收穫時作土壤分析並調查產量. B0103 稻栽培 9 902037 添加苦土石灰對有機米品質之影響苦土石灰;Dolomite;有機栽培;Organic Culture; 水稻;Rice 本試驗的目的在探討添加苦土石灰對有機栽培水稻米質之影響, 苦土石灰在施基肥時施用, 以不施用為對照, 水稻植體於乳熟期及黃熟期以及糙米取樣分析鎂含量.收穫時調查產量及米質. J060101 稻營養及土壤肥力 9 910045 添加苦土石灰對酸性土壤稻米品質之影響有機栽培 ;Organic Culture; 水稻 ;Rice; 苦土石灰;Dolomite 本試驗的目的在探討添加苦土石灰對有機栽培水稻米質之影響，苦土石灰在施基肥時施用，以不施用為對照，水稻植體於乳熟期及黃熟期以及糙米取樣分析鎂含量。收穫時調查產量及米質。 J060101 稻營養及土壤肥力 9 920180 添加苦土石灰對酸性土壤稻米品質之影響有機栽培 ;Organic Culture; 水稻 ;Rice; 苦土石灰;Dolomite; 本試驗的目的在探討添加苦土石灰對有機栽培水稻米質之影響,苦土石灰在施基肥時施用,以不施用為對照,水稻植體於乳熟期及黃熟期以及糙米取樣分析鎂含量.收穫時調查產量及米質. J060101 稻營養及土壤肥力 9 932002 台南區水稻栽培模式與土壤改良有機栽培 ;Organic Culture; 水稻 ;Rice; 苦土石灰 ;Dolomite; 水田 ;Paddy Field; 長期 ;Long-term; 地力 ;Soil Fertiliy; 1. 探討不同耕作模式對水田長期地力之影響，以台農 67 號、台稉 2 號、台中 189 號供試，四種耕種模式(處理)為不施肥、施有機肥、單期作及施化學肥(對照)，收穫時作土壤分析並調查產量。 2. 探討添加苦土石灰對有機栽培水稻米質之影響，苦土石灰在施基肥時施用，以不施用為對照，水稻植體於乳熟期及黃熟期以及糙米取樣分析鎂含量。收穫時調查產量及米質。 B0103; J060101 稻栽培 ; 稻營養及土壤肥力 9 951823 台南區水稻栽培模式與土壤改良水田 ;Paddy Field; 長期 ;Long-term; 地力 ;Soil Fertiliy; 探討不同耕作模式對水田長期地力之影響，以台農 67 號、台稉 2 號、台中 189 號供試，四種耕種模式(處理)為不施肥、施有機肥、單期作及施化學肥(對照)，收穫時作土壤分析並調查產量。 B0103; J07 稻栽培 ; 土壤管理與改良表七的七篇文件，從其標題研判，可明顯看出是屬於三個計畫，因為其關鍵詞與摘要，有蠻多相同的地方（如粗黑體字與底線的部份），以致於被上述偵測方法群組在一起。此七篇文件，大多屬於 J060101 與 B0103 這兩類。

(三) 混淆類別

上述方法，除可偵測人工分類的不一致情況外，從另一個角度觀察，也可以用來偵測容易被分類者混淆的類別。亦即兩篇相似的文件，例如文件 X 與 Y，卻被分在不同類別，假設為類別 A 與 B，除了可說文件 X 與 Y 的分類不一致外，也可以說類別 A 與 B 是被分類者混淆的類別對（confusion pair）。統計此種混淆類別對的出現次數，再由多到少排序，可以得出「容易被混淆」的類別。表八顯示相似度門檻為 1.0、0.8 與 0.6 時，前十組最容易被混淆的類別對。在 S=1.0 時，類別 H99（植物保護類-其他）與 Y06（生物技術）被混淆的次數最多，雖然值得注意與探究，但統計次數低，只有

(9)

4 次，恐怕還不具代表性。在 S=0.6 時，B0102（稻遺傳與育種）與 B0103（稻栽培）混淆過 22 次，從其類名來看，的確容易如此。但 B0103（稻栽培）與 Y04 （農業氣象與災害）的主題差距似乎很大，其混淆次數也同樣高達 22 次，就有點令人不解了。表九列出此 22 組混淆情形，由於我們的相似度為非對稱型，可看出他們是從 11 對相似文件得來。經調閱相關文件後，如表十所示範例，發現這 11 對相似文件，分屬兩、三個長期計畫，同一計畫中，某一年度的計畫文件列在 B0103，而其他年度的文件列在 Y04，因而造就此種統計結果。觀察表十中的內容，這些文件應該同時具有 B0103 與 Y04 的兩個主題。表八相似度門檻為 1.0 時，前十組最容易被混淆的類別對 S=1.0 S>=0.8 S>=0.6 類別一類別二次類別一類別二次類別一類別二次 H99 Y06 4 B0103 Y04 19 B0102 B0103 22 C0101092 C0101093 3 E020101 E03 16 B0103 Y04 22 D0302 J01 3 B0102 B0103 16 E020101 E03 19 B0202022 B0202023 3 C0101092 C0101093 15 C0101092 C0101093 17 B0303011 B0303013 2 M0101 M0199 13 E020101 E020199 16 B0103 J060101 2 C0101091 C0101093 12 M0101 M0199 15 B0303013 K0102 2 K0101 Y0199 12 A99 Y0103 14 H010399 H050405 2 E0101 E020101 11 C0101091 C0101093 14 B020102 B020103 2 C020202 C020299 10 K0101 Y0199 14 B9999,C9999 C9902,K0102 2 E0103 E040101 9 E0103 E040101 13

表九相似度門檻為 0.6 時，22 組相似文件的文號、類號與相似度文件一文號文件一類號文件二文號文件二類號文件一到文件二之相似度 902044 Y04 910068 B0103 95 910068 B0103 902044 Y04 99 902044 Y04 920226 B0103 95 920226 B0103 902044 Y04 76 902044 Y04 931969 B0103 94 931969 B0103 902044 Y04 76 902044 Y04 940513 B0103 94 940513 B0103 902044 Y04 76 902298 Y04 922688 B0103 82 922688 B0103 902298 Y04 89 902298 Y04 942018 B0103 81 942018 B0103 902298 Y04 89 922688 B0103 932081 Y04 98 932081 Y04 922688 B0103 100 910754 Y04 922688 B0103 83 922688 B0103 910754 Y04 88 910754 Y04 942018 B0103 82 942018 B0103 910754 Y04 88 932081 Y04 942018 B0103 98 942018 B0103 932081 Y04 98 911457 Y04 921372 B0103 91 921372 B0103 911457 Y04 87

(10)

表十類別 B0103 與 Y04 的相似文件範例 Gid 文號標題關鍵詞類號類名 43 902044 水稻豐歉因素測定試驗水稻 ;Rice; 產量 ;Yield; 預測;Forecast Y04 農業氣象與災害 43 940513 台南區水稻豐歉因素測定試驗水稻 ;Rice; 產量 ;Yield; 預測;Forecast B0103 稻栽培 44 902298 農業氣象觀測與資源規劃應用水稻 ;Rice; 產量 ;Yield; 農業氣象;Agrometeorological Y04 農業氣象與災害 44 942018 農業氣象觀測與資源規劃應用及水稻豐歉因素測定試驗水稻 ;Rice; 產量 ;Yield; 農業氣象;Agrometeorological; B0103 稻栽培

(四) 不一致校正

由於有以上的不一致與混淆情形，我們將偵測出的結果，送回給農資中心，將電腦判別不一致的測試文件再重新檢視與校正。經過校正後，再次施行不一致偵測，結果如表四中的「校正後」欄位，整體的不一致性比例，下降為原先的一半左右。分析校正前後的結果，發現資料不一致的主要原因有： 1. 人員輸入錯誤； 2. 分類人員彼此的概念不一致； 3. 分類人員因時間或認知改變使概念不一致； 4. 多重主題造成分類不一致； 5. 新興技術造成概念的混淆。

五、不一致性校正前後的自動分

類成效

如同前述，分類的不一致性，可能混淆了分類器的學習，造成其效果降低。為了驗證其效應，底下比較校正前、後的文件集，自動分類成效的差異。在進行機器分類並評估成效時，針對農資中心的分類文件集，我們將日期較前面的 2/3 文件約 6000 篇切分成訓練文件集（用以訓練分類器），日期較晚的 1/3 文件約 3000 篇當作測試文件集（用以測試成效）。

(一) 分類器

在文件自動分類的技術中，SVM（Support Vector Machine）與 KNN（K-Nearest Neighbor）是被驗證為效果最好的兩種分類方法 [15]。在實驗中，我們選用 Joachims 發展的 SVM 分類器[16]，而 KNN 分類器則自行開發。KNN 的分類原理算蠻簡單的：將輸入文件與所有的訓練文件做比對，找出相似度最高的前 K 篇文件，再從這 K 篇文件的類別，決定輸入文件的類別。以公式表示如下：

∑

∈

=

KNN d j i i j i

c

d

y

d

q

Sim

c

q

S

(

,

)

(

,

)

(

,

)

其中 Sim(q,di)為待分類文件 q 與訓練文件 di 的相似度，y(di,cj)為 1 或 0 的值，代表訓練文件 di 是否屬於類別 cj，而 KNN 表示跟文件 q 最相近的 K 篇訓練文件的集合。上述的公式，可以計算出待分類文件 q 在每個類別的分數 S。依此分數由大到小排序，再取個門檻，就可以將待分類文件 q 分類到分數高的類別了。此處的參數 K，在後面的實驗中，都取 20，而且由於大部分的訓練文件都只分到一類，因此以 S 分數最大的類別，做為文件 q 的類別。由於影響 KNN 分類成效的最大因素是相似性的準確度，我們試驗了兩種相似度計算方式，一種是前述的 bytesize 正規化公式，另一種是稱為 BM11 的運算模式。BM11 是機率模式（Probability Model）的相似度計算公式 [17]，在近年的檢索實驗中，被驗證為比 bytesize 或 Cosine 這種向量模式（Vector Space Model, VSM）的效果還好，其公式如下：

(11)

彙 k 在文件集中的出現篇數，dli是文件 i 的長度（可為任何單位），Avgdl 是所有文件的平均長度，其他符號同 bytesize 公式。

(二) 成效評估

在成效評估方面，不同的度量方式有各自不同的強調對象，因而容易導致偏向（bias）的結論。本文以 MicroF 以及 MacroF 值同時呈現分類的效果，其計算方式如下：其中 C 是類別總數，i 代表某一類別，而 TPi（True Positive）、FPi（False Positive）、FNi（False Negative）分別代表：是類別 i 而且也正確分為類別 i 的篇數、不是 i 類卻分為 i 類的篇數、是 i 類卻沒有分為 i 類的篇數。此 F 值乃從精確率（P）與召回率（R）的常見公式：F = 2PR/(P+R) = 2TP/(2TP+FP+FN)演化而來，其中 P = TP/(TP+FP)、R = TP/(TP+FN)。由於 MicroF 是全部文件一起累加統計，不分類別，因此容易受到少量的大類別（佔大多數文件）表現好壞的影響。相對的，MacroF 考慮每個類別的成效後再做平均，因此容易受到大量的小類別影響。將兩種平均數據都報告出來，可以瞭解大多數文件的分類效果（MicroF），以及大多數類別的分類效果（MacroF）。

(三) 自動分類結果

表十一顯示校正前文件集的自動分類成效。這些分類數據，看起來成效偏低。經我們檢視分析，發現機器分類的結果，儘管跟人工分類不一樣，但大部分不會太差，如表十二中顯示的一些範例。甚至，我們認為，有些文件必須藉助領域專家，而非分類專家，才能細微區分其類別。例如表十二中的最後一列，到底該文件在談蕈類育種，或是蕈類栽培，還是兩者都有，需要領域專家進一步解讀確定。總之，一個文件集的自動分類成效好壞，不是看其絕對數據，而是要比較其與不同人工分類成效的差距，才能確認[1]。如果兩個人的分類結果差距很大，機器分類的成效數據，通常也比較低。表十一校正前文件集之分類成效 MicroF Macro-F SVM 0.4404 0.2421 KNN-VSM 0.4230 0.2120 KNN-BM11 0.4226 0.2126 表十二人工分類與機器分類對照範例文號標題關鍵詞人工分類機器分類 952745 氣候變遷對太平洋鮪資源之影響研究

氣候變遷;Climate Change;鰹鮪圍網;Tuna Purse Seine; 太平洋;Pacific Ocean;鮪延繩釣;Tuna Longline;

E020199 ( 漁業資源-其他) E020101 ( 漁業資源調查與評估) 952746 氣候變遷對淺海養殖漁業衝擊之解析

淺海養殖;Coastal Aquaculture;牡蠣;Oyster;文蛤;Hard Clam; 九孔 ;Abalone; 氣候變遷 ;Climate Change; 鹽度;Salinity;降雨;Precipitation; E040303(蟹貝類飼養管理) E020101 ( 漁業資源調查與評估) 951882 夏季耐熱蔬菜品種選育

不結球白菜 ;Non-heading Chinese Cabbage; 莧菜;Amaranth;芥藍;Chinese Kale;蘿蔔;Radish;辣椒;Chilli; 馬鈴薯;Potato; C9902( 園藝類 - 其他-遺傳與育種) C020302( 葉菜類遺傳與育種) 951884 食藥用菇類品種改良及栽培技術之研究

杏鮑菇;Pleurotus eryngii;舞菇;Grifola frondosa;巴西蘑菇;Agaricus blazei Murill;雞腿菇;Coprinus comatus;茶樹菇;Agrocybe chaxingu; C020602(蕈類遺傳與育種) C020603( 蕈類栽培)

∑

=

∑

= = = + + × × = _C i i C i i C i i C i i FN FP TP TP MicroF 1 1 1 1 2 2

∑

=

_×

₊

×

=

C i i i i i

FN

FP

TP

C

MacroF

1

₂

2

1

(12)

雖然 SVM 的初步成效較佳，但其訓練所需時間比較不容易預測（有時很長有時很短），後續的實驗，我們只用 KNN，而且是用機率模式（BM11）的相似度，因為在我們過去的分類實驗中[18]，此相似度常有較好的成效。表十三列出農資中心分類集，其分類不一致經人工校正後之自動分類成效。從第二列數據可看出，校正後的確對機器分類有幫助，MicroF 從 0.4226 提升到 0.4702，而 MacroF 從 0.2126 提升到 0.2579。若只針對訓練文件數達 20 篇的類別來分類（表中第三、四行數據），則成效可從五成左右提升到接近 6 成。若針對訓練文件數達 40 篇的類別來分類（表中第五、六行數據），則成效可從六成左右提升到 8 成附近，提升的程度相當顯著。此結果顯示，文件越多的類別，機器與人工分類的一致性會越高。表十三校正前、後文件集之分類成效文件集類別總數測試文件類別總數測試文件數 MicroF Macro-F 校正前 482 474 2818 0.4226 0.2126 校正後 481 475 3071 0.4702 0.2579 校正前_20 156 155 1966 0.5341 0.4531 校正後_20 168 121 1943 0.6197 0.5710 校正前_40 67 67 1295 0.6448 0.5910 校正後_40 79 33 898 0.8073 0.7790

六、結語

根據前面的描述，自動偵測分類不一致，所能達到的效益，整理如下： (一) 驗證分類一致性的程度：表五的例子顯示，明顯不一致的情形，很容易被機器快速的找到。而人工分類持續的越久，越有可能因為分類人員調度、專業程度、認知判斷之不同，造成分類不一致的情形。若能及早瞭解此種分類品質，就越能及早改善其不當情形，而提升已分類文件的利用價值。 (二) 辨識混淆類別之具體實例：表八的資料顯示，B0102（稻遺傳與育種）與 B0103（稻栽培）兩類主題，常造成人工分類的混淆；而表十二顯示，C020602（蕈類遺傳與育種）與 C020603（蕈類栽培）兩類，則造成人工與機器的混淆。在農業中「遺傳與育種」以及「栽培」其實是相當明確的兩個概念，混淆的主因是分類人員的認知不一致所致。透過機器的偵測，可提醒分類人員彼此重新檢視類別定義，達成一致的認識。 (三) 建議較佳的分類策略：由於農資中心的文件，幾乎都只分成一類，因而像表八中，B0103 （稻栽培）與 Y04（農業氣象與災害）主題差距大，卻容易混淆的情形，就比較嚴重。事實上，此種情形，可藉由多重分類來改善。亦即類別之間盡量達到「彼此獨立、互補不足」的原則，若有新的主題出現，則可用多個既有類別來描述。像文件 942018（農業氣象觀測與資源規劃應用及水稻豐歉因素測定試驗），就適合同時分配給 B0103（稻栽培）與 Y04（農業氣象與災害）這兩個類別。 (四) 調整分類架構設計：表三的資料顯示，類別文件數的分佈極不平均，有些類別數超過 200 篇，有些僅有 1 篇。雖然其代表的意義應為研究主題的熱門與否，但由於知識的概念本來就會隨著時間不斷的創新與融合，因此透過簡單的盤點與分析，可適時建議調整分類架構的設計與定義。

(13)

(五) 預估自動分類的成效：表四以及表十三的結果顯示，當分類不一致的情形較嚴重時，會造成較低的自動分類成效。因此，在引入自動分類機制前，分類不一致的自動偵測，可用來預估自動分類帶來的效益。 (六) 提供資料清理、知識盤點的自動化作法：表四至表十所提供的統計資料或範例，可作為分類文件集的「複本偵測」（瞭解是否有資料誤植而產生複本）、「案例追蹤」（根據內容主題將相同計畫或類似計畫的文件串聯起來，而不必仰賴其是否為同一單位或同時段所提出）、「正確性驗證」（文件分類一致性、類別定義獨立性等）的依據。很顯然的，本文描述的自動化作法，可作為非結構化文件的資料清理與知識盤點參考。 (七) 減輕分類人員的工作負擔：由於現今資訊量爆增，新興技術不斷的創新，專業分工也越來越細，因此專業資訊分析人員的養成越來越不容易，願意投入靜態資料處理的人力也越來越少，人員流動率相對增加。面對未來，文件分類若只靠專業人力來進行，其分類不一致現象將會越來越嚴重。雖然定期資料盤點與檢討可以降低文件不一致的現象，但資料盤點是很吃重的工作，除非有足夠的經費與人力，否則文件分類不一致的現象很容易發生。因此本文提供的方法，對加速資料盤點、降低人力需求，有重要而實質的貢獻。

誌謝

本研究部份由國科會專題研究計劃補助：NSC 95-2221-E-003-016-。

附註

[1] 曾元顯(2002)。 "文件主題自動分類成效因素探討"，「中國圖書館學會會報」, 68, 頁 62-83.

[2] Fabrizio Sebastiani (2002), “Machine learning in automated text categorization” ACM Computing Surveys, 34(1),1-47. [3] 曾元顯(2005)。"分類不一致對文件自動分類效果的影響"，「大學圖書館」, 9(1), 頁 2-19. [4] 中華農學會農業資訊服務中心， http://www.asic.gov.tw/ [5] 陳永隆，“知識盤點與分享機制之建立＂, accessed at http://www.office.com.tw/200312/1.4.htm on 2007/8/27.

[6] Yuen-Hsien Tseng and William John Teahan (2004). "Verifying a Chinese Collection for Text Categorization," Proceedings of the 27th International ACM SIGIR Conference on Research and

Development in Information Retrieval - SIGIR '04, July 25 - 29 Sheffield, U.K., 2004, 556-557.

[7] Dmitry V. Khmelev and William J. Teahan (2003). “A Repetition Based Measure for Verification of Text Collections and for Text Categorization,” ACM SIGIR, 2003, 104-110.

[8] W Daniel Lopresti and Jiangying Zhou (1996). “Retrieval Strategies for Noisy Text,” Proceedings of the Fifth Annual Symposium on Document Analysis and Information Retrieval, April 15-17, 1996, 255-269.

[9] Tho Yuen-Hsien Tseng, “FJU Test Collection for Evaluation of Chinese Text Categorization”,

http://www.lins.fju.edu.tw/~tseng/Collections/Chinese _TC.html

[10] WebGenie Knowledge Search System, http://www.webgenie.com.tw/

[11] Amit Singhal, Gerard Salton, and Chris Buckley (1996). "Length Normalization in Degraded Text Collections," Proceedings of Fifth Annual Symposium on Document Analysis and Information Retrieval, April 15-17, 1996, 149-162.

[12] Yuen-Hsien Tseng and Douglas W. Oard (2001). "Document Image Retrieval Techniques for Chinese" Proceedings of the Fourth Symposium on Document Image Understanding Technology, Columbia Maryland, April 23-25th, 2001, 151-158.

[13] Lucence, http://lucene.apache.org/

[14] 阮明淑，世新大學資訊傳播學系助理教授，臺灣大學園藝所博士，專長：主題分析、資訊組織學、知識管理。

(14)

Re-Examination of Text Categorization Methods,” Proceedings of the 22nd Annual International ACM-SIGIR Conference on Research and

Development in Information Retrieval, 1999, 42 – 49. [16] Thorsten Joachims, SVMlight: Support Vector Machine, version 5, http://svmlight.joachims.org/. [17] S. E. Robertson and S. Walker (1994). “Some Simple Effective Approximations to the 2-Poisson Model for Probabilistic Weighted Retrieval,” Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 1994, 232-241.

[18] Yuen-Hsien Tseng, Da-Wei Juang, and Chi-Jen Lin (2005). "Automatic Categorization of Japanese Patents based on Surrogate Texts," Proceedings of the Fifth NTCIR Workshop on Evaluation of Information Access Technologies: Information Retrieval, Question Answering, and Cross-Lingual Information Access, Dec 6-9, 2005, Tokyo, Japan, 348-354.

分類不一致之自動偵測