• 沒有找到結果。

專利文件分類研究概況

在文檔中 專利文件之自動分類研究 (頁 19-22)

2.3. 專利文件

2.3.2. 專利文件分類研究概況

專利文件的分類和一般的文件分類不同導因於專利文件具有下列特性:

1. 涵蓋的主題範圍廣大。

2. 龐大的文件數,且每一篇文件的篇幅冗長。

3. 專利文件有固定的結構,如標題,摘要,請求項…等。

4. 階層式的分類架構,且分類細,子分類之間的相似度高。

5. 每一篇專利文件可屬於不同階層和多個分類。

6. 所使用的用詞非常專業,一般的詞典無法涵蓋所有的詞彙,專業的 詞典也只能對應部份類別文件的專業詞彙。

7. 存在許多的詞彙是作者自創的,使用現有的詞典無法辨別。

專利文件研究中,有許多方面的研究,其中有針對專利文件中的欄位的研究 探討[李駿翔, 2003; Richter and MacFarlane, 2005]。

李駿翔[2003]利用資料探勘的文字知識發掘技術和向量空間模型,以tf-idf計 算詞彙的權重,再以餘弦函數計算測試文件和各個類別之間的相似程度,決定其 分類類別。語料選擇「基因轉殖生物」技術之相關美國專利文件資料,總共408 筆,測試專利文件中不同的欄位內容對於分類結果的影響,其中以欄位“Title”搭 配 “Summary” 或 “Description” 的 分 類 結 果 可 達 到 46% 的 正 確 率 , 但 其 中 欄 位

“Description”的資料量是欄位“Summary”的數倍,二者的正確率卻相差不遠。而 其它欄位“Title”搭配“Abstract”包含的資料量過少,欄位“Abstract”通常只是概要 性的描述無法作為有效依據;欄位“Title”搭配“Claim”內容為了能擴大其專利發 明權利的解釋範圍,所敍述的內容會過於含糊和不夠詳細。

Richter and MacFarlane[2005]除了利用文件的詞彙外,加入 metadata 的資訊 來提高專利文件的正確率,作者主要加入專利文件內其他的欄位資訊,如發明 人、國際分類編號…等欄位,收集專利合作條約(Patent Cooperation Treaty,PCT)

2001 ~ 2002 年的專利文件,以“Gazette Classification”的 6 個分類,tf-idf 計算詞 彙權重搭配 kNN 分類方法,正確率可從 70.8%提昇至 75.4%。

還有許多專利的研究上是希望詞彙的數量,減少執行的負擔。Chakrabarti 等人[1997, 1998]建立一個階層性的專利分類系統,提出 Fisher’s discriminant method 的選擇特徵詞(Feature Words)的計算方法,主要考慮詞彙在文件中的 平均變異數比率,以去除許多大量會干擾分類的詞彙,再以貝式定理(Bayesian Algorithm)做階層性分類。在美國專利文件資料庫中抽取 12 個在第二層子類別 作分類,平均分類在第一層子類別下,每個類別均有 307 ~ 361 之間不等的文件 數,所需的詞彙只占原來的文章 12%~18%之間,平均的召回率為 66%。

Kin等人[2005]把專利文件分類的進行過程分成二個主要的步驟:特徵選取

(Feature Selection)和文件分類方法。選用欄位“Abstract”和欄位“Description”

的文件內容為分類依據。在特徵選取中詞彙的權重考慮詞彙的頻率(TF)、詞 彙出現的文件數(TF-ICF)和詞彙出現的類別數(TF-ICF),均需設定門檻值來

篩選詞彙權重的範圍。比較文件分類的方法:kNN、MEM(Maximum Entropy Modeling)和SVM(Support Vector Machine),實驗結果發現SVM在較少資料 量時會表現比其他二種分類方法好,卻較費時。kNN的表現都比MEM好,因此 作者較推薦使用kNN的分類方法。

另外其他研究,Larkey[1998, 1999]建立一個專利文件查詢和分類系統工具,

有提供線上使用者介面,包含自然語言(Natural Language)的查詢系統和欄位 選項等,使用者可輸入專利文件的發明名稱、專利編號、發明人…等或輸入關鍵 詞彙查詢相關文件。在美國專利文件中擷取主類別“395”的子類別“2.09”下的所有 專利文件做為測試語料,抽取欄位“Title”、“Abstract”、“Summary”的前 20 行和

“Claim”的內容,利用專利文件欄位內容出現的單一詞及名詞片詞出現的頻率,

計算詞彙的重要性,再經過 k-nearest-neighbors(kNN)Algorithm 方法找出最相 近 k 篇專利文件決定分類結果,如此一來就無需先訓練資料庫,但由於類別太過 相近,又每一個子類別的文件數太少,因此正確性只有在 25% ~ 32%之間。實驗 結果說明雖然名詞片詞可以提高專利文件搜尋相似文件的正確性,但對於分類卻 沒有多大的幫助。

Winnow 是一種錯誤學習分類法,適合用於大量文件和龐大的文件特徵數量 上,Koster 等人[2002]利用 Winnow 分類演算法用在歐洲專利分類上,取出歐洲 專利局(European Patent Office,EPO)專利的欄位“Abstract”(平均 129 個詞)和 全文(平均 4580 個詞)比較,並且和 Rocchio 分類法做比較,不論是單一類別

(文件為 16,000 篇,16 個主類別)或多類別(文件為 10 萬篇以上,44 個主類 別,549 個次類別)分類,Winnow 比 Rocchio 分類法在只取欄位“Abstract”和全 文上都可提高 1~2 的調合平均值而逹到 99~100%。

第 3 章 專利文件分類

在文檔中 專利文件之自動分類研究 (頁 19-22)

相關文件