專利資料庫可以分為官方資料庫與非官方的付費資料庫,官方資料庫大 多免費且涵蓋多數功能、內容新穎性高且更新速度快、技術分類詳細且分類 號的賦予可信度高、檢索結果呈現專利首頁及圖示;非官方的付費資料庫大 多提供線上分析功能與專利的法律狀態資訊。常見的官方資料庫有 Espacenet、
J-PlatPat、USPTO-PatFT(United States Patent and Trademark Office,簡稱:
PTO 或 USPTO)、SIPO-PSS(State Intellectual Property Office of the P.R.C.,簡 稱 SIPO)、KIPRIS-KPA、PATENTSCOPE 以及中華民國專利資訊檢索系統;
常見的非 官方 付費資 料庫則有 APIPA 全 球專利檢 索分 析系統 、 Derwent Innovation、Patentcloud、WIPS(World Intellectual Property Search,簡稱:
Espacenet 由歐洲專利局提供,涵蓋世界各地一億多篇的專利文件,於每 日更新,使用者可以免費取得 1836 年至今發明與技術發展的資訊,透過 Espacenet,可以使用機器翻譯專利文件、追蹤新興技術的進展、找到技術問 題的解決方案、了解競爭對手的發展現況以及了解專利是否已被授權與是否 仍然有效(Espacenet, 2018)。J-PlatPat 提供日本專利全文影像檔,有日文與英 文的使用介面,提供申請案件的訴訟、訴願、異議、智慧財產權判決結果的 英文翻譯,此外,日本專利局採用的分類號是其特有的 FI/F-Term(File Index / File Forming Term)分類(Book 思議,2017a)。USPTO-PatFT 提供免費查詢 的資料檢索服務,其中,1976 年 1 月以後的美國專利提供全文檢索,1790 年 至 1976 年僅可以使用專利號及分類號查詢,且僅提供專利全文影像,資料庫 每週二更新一次(United States Patent and Trademark Office, 2018c)。SIPO-PSS 是中國國家知識產權局綜合服務平台,可以免費使用,但需要註冊,其收錄 了 103 個國家、地區以及組織的專利,並提供查詢工具,可快速查詢專利家族、
引用/被引用、法律狀態、申請人/專利權人別名、分類號關聯以及雙語辭典等 資訊(Book 思議,2017b)。 KIPRIS-KPA 為南韓專利檢索系統,提供 1979 年以後之南韓專利書目、專利說明書以及圖形檔,KIPRIS-KPA 亦提供英文檢 索與英文摘要,並提供專利自動韓翻英付費服務。PATENTSCOPE 為 WIPO 的 專利資料庫,提供多種語言的使用介面與跨語言的檢索功能。中華民國專利 析與圖表製作。Derwent Innovation 為付費的專利檢索系統,結合 Derwent World Patents Index 與 Derwent Patents Citation Index,收錄全球 50 個國家或地
區之專利局的專利文件,整合專利與科技文件,並提供專業資訊加值與專利 分析。Patentcloud 分為免費與付費版本,提供美國、歐洲、中國、日本、臺灣、
韓國以及 WIPO 等專利局之專利,檢索結果呈現方式共有三種,包括:圖文瀏 覽、圖文摘要以及列表清單。WIPS 為付費專利檢索系統,包含全球 10 多個國 家、地區以及組織之專利,提供一套簡易的檢索語法與申請人名稱權威控制 工具,並給予標準化的申請人代碼(陳達仁、黃慕萱,2018)。Google Patent Search 是 Google 的一個專利搜尋引擎,包含 17 個國家、地區以及組織的專利
(Wikipedia, 2018)。
專利資料庫相當多,數據來源也非常廣泛,考慮到目前大多企業與機構 在申請專利時仍以美國為主,加上 Sharma 與 Tripathi 對專利分析進行了全面的 調查,他們發現與專利主題相關的已發表研究論文中有 98%使用了 USPTO 的 數據進行研究工作,與中國、臺灣以及韓國有關的專利研究也使用了 USPTO 的專利數據,這反映了 USPTO 提供的資訊可以作為該領域研究目的的可靠來 源(Sharma & Tripathi, 2017),因此,本研究以 USPTO 作為專利數據的來源。
二、 專利分析軟體
Breitzman 與 Mogee(2002)整理了七個專利分析軟體與服務,經過查詢,
目前尚能使用的專利分析軟體有兩個,為 VantagePoint 與 PatentLab-II。
VantagePoint 是由 Search Technology 所設計的一款功能強大的商業文本和資料 探勘工具,可以免費試用,在 2018 年 9 月發布第 11 版,其功能大致可以分為 五類,包括:導入數據、清理資料、分析、報告結果以及自動化編碼,它可 以在大多數資料庫中找到的字段,例如:專利權人、發明人、日期,描述、
以及分類號,除了一維(列表)和二維(共現矩陣)分析,VantagePoint 還可 以執行多維統計分析,VantagePoint 的優勢是它有預處理與數據清理工具,使 用者還可以使用同義詞庫編輯器定義自己的同義詞庫或編輯現有的同義詞庫,
此外,它還有共現矩陣、自相關矩陣、互相關矩陣以及因子矩陣,可以進行 多面向的分析(VantagePoint, 2018; Cobo, López‐Herrera, Herrera‐Viedma &
Herrera, 2011)。PatentLab-II 是 Delphion 專利資料庫的專利分析軟體,分析和 視覺化工具可以創建 2D 和 3D 的圖表,行的選項有專利權人、專利類別、優 先權國家,發明人以及優先年份/專利年份,列的選項則有專利權人,專利類 別以及優先年份,透過各種圖表,可以顯示專利之間的關係、競爭對手的發 展 狀 況 、 重 點 領 域 以 及 新 開 發 項 目 也 可 以 了 解 重 要 發 明 人 的 當 前 成 就
(Breitzman & Mogee, 2002)。
前面提到的十二個專利資料庫中,有的資料庫也具有專利分析的功能,
包括:SIPO-PSS、Derwent Innovation、Patentcloud 以及 WIPS。SIPO-PSS 提供 了六項專利分析功能,包括:申請人分析、發明人分析、區域分析、技術領 域分析、中國專項分析以及高級分析,一般註冊用戶無法使用高級分析與其 餘五項分析中的部分細項分析,此外,分析文獻庫最大容量是 10000 筆專利。
Derwent Innovation 提供四種專利分析功能,包括:圖表分析、文本聚類分析、
專利地圖以及引用關係圖。Patentcloud 提供三種專利分析功能,包括:統計分 析、進階分析以及多維矩陣分析,付費使用者可使用完整的分析功能,免費 註冊的使用者僅能使用統計分析功能。WIPS 提供三種專利分析功能,包括:
智能分析、專利引文分析以及權力範圍分析,智能分析使用者可將所選的檢 索結果進行圖表分析、交叉矩陣分析以及分類;專利引文分析可分析特定專 利的引用關係,包含前引證與後引證,並可區分引文具體出現的位置;權力 範圍分析可針對隨著專利文件狀態變動的權利要求範圍進行分析(陳達仁、黃 慕萱,2018)。
專利分析軟體大多都需要註冊與付費才能使用,本研究分析的面向包含 專利數分析、專利引用分析以及專利關聯度分析, 內容探勘工具-Content
面向,並且可以免費使用,CATAR 可以擷取各項結構性資料(如:專利權人、
發明人、國家以及年代)與半結構性資料(如:題名、摘要以及非專利引用文 件)匯入至 ACCESS 資料庫,並統計、運算以及排序各項欄位,CATAR 亦可 以進行共現字分析,計算文件的相似度,進而將相似的文件歸類,以便瞭解 待分析文件中包含的各種主題概念,並對各個主題與各個欄位進行多樣的交 叉分析,以利進行深入的探索與解讀(曾元顯,2011)。
三、 參考文獻剖析工具
科學研究不會憑空出現,它是建立在先前的研究上,而了解先前研究的 方法之一便是透過科學論文和期刊中的引用與參考文獻,因此,剖析參考文 獻以提取作者、題名、期刊、年份等資訊是必要的預處理步驟(Gupta, Morris, Catapano & Sautter, 2009; Zhang, Zou & Thoma, 2011)。
參考資源剖析是指從書目參考資源的字串中提取機器可讀的詮釋資料,
例如:作者姓名、題名或期刊名稱,Tkaczyk 等人應用、評估以及比較十個參 考 資 源 剖 析 工 具 , 包 括 : Anystyle-Parser 、 Biblio 、 CERMINE 、 Citation 、 Citation-Parser、 GROBID、ParsCit、PDFSSA4MET、Reference Tagger 以及 Science Parse ,除 了 這十個參考資源 剖析 工具外, Tkaczyk 等 人還有提到 BibPro、Free_cite 以及 Neural ParsCit 這三個工具,只是由於安裝錯誤與資源缺 失,他們並沒有評估這三個工具(Tkaczyk, Collins, Sheridan & Beel, 2018)。
對專利來說,除了引用先前的專利外,引用非專利參考文獻也是十分常 見的,透過分析專利的引用專利文件與非專利參考文獻,可以了解特定領域 知識的發展、演變以及應用,有些專利分析軟體也具有分析專利中非專利參 考文獻的功能,但大多數的軟體都需要付費,而上述的參考資源剖析工具都 是可以免費下載使用的,但是,不同的會議論文與期刊論文可能會採用不同
的引用方式,準確地從引用字串中提取詮釋資料是一大問題(Chen, Yang, Kao
& Ho, 2008),專利的非專利參考文獻更是如此,因為專利的非專利參考文獻 並沒有特定的撰寫格式。
為了解上述的十三個參考資源剖析工具是否適用於剖析專利的非專利參 考文獻,本研究從 1636 篇深度學習領域之專利的非專利參考文獻中抽取 100 筆資料進行測試,由於這十三個參考資源剖析工具只有 Anystyle-Parser、
ParsCit 以及 FreeCite 有提供網頁版的操作平台,其餘的參考資源剖析工具需要 執行程式,例如:JavaScript、ruby 以及 python,需要對程式有一定的了解才 能使用,因此,本研究僅針對 Anystyle-Parser(https://anystyle.io/)、ParsCit
(http://parscit.comp.nus.edu.sg)以及 FreeCite(http://freecite.library.brown.edu)
進行測試,並與 CATAR(http://web.ntnu.edu.tw/~samtseng/CATAR/Readme.html)
進行比較。
每個參考資源剖析工具提取的字段都不太相同,本研究比較的項目有六 個,包括:作者、題名、書名/刊名、出版年、刊期以及頁碼。表 2-4 與表 2-5 為剖析結果的比較,Anystyle-Parser 的結果是以標籤的方式呈現,使用者可以 直接修改標籤,正確率為 86%;ParsCit 的結果是以顏色標示的方式呈現,不 同的字段用不同的顏色,使用者不能修改,正確率為 80%;FreeCite 的結果也 是以顏色標示的方式呈現,使用者亦不能修改,正確率為 76%;CATAR 則是 將剖析結果匯入 Access 資料庫,並分成六個欄位,使用者可以在 Access 修改,
正確率為 85%。從各項目的正確率來看,四個參考資源剖析工具在作者、題 名以及頁碼上,正確率都滿高的,差異也不大;在 書名/刊名方面,除了 Anystyle-Parser,其餘工具的正確率都較低;在出版年方面,CATAR 的正確 率特別高,其餘工具的正確率都較低,特別是 FreeCite,正確率僅有 53%;在 刊期方面,ParsCit 與 FreeCite 的正確率特別低,正確率各僅有 56%與 58%。