• 沒有找到結果。

專利擷取與文件剖析

在文檔中 專利趨勢變化探勘之研究 (頁 29-33)

第三章 專利趨勢變化探勘

3.2 專利擷取與文件剖析

(International Patent Classification, IPC)[21]進行專利搜尋,資料搜尋的範圍光電 顯示領域涵蓋 G02F、G09G、H01J 與 H01L 等類中之,半導體領域之相關技術 主要涵蓋於C23C、G01R、G03F、G05F、G11C、以及 H01L 這幾個主要的分類,

詳細的搜尋範圍請參考附錄一與附錄二。

範圍如表3.1 與表 3.2。透過 IPC 擷取欲分析的專利後,並隨之分析每篇專 利說明書的內容,並擷取出專利所引證(Backward Citation)的專利說明書與被引 證(Forward Citation)的專利說明書,使專利指標運算階段可以順利進行。

表 3. 1 光電顯示領域相關 IPC 分類

表 3. 2 半導體領域相關 IPC 分類

IPC 代表意義

C23C

對金屬材料之鍍覆;用金屬材料對材料之鍍覆;表面擴散法,化學轉 化或置換法之金屬材料表面處理;真空蒸發法、濺射法、離子注入法 或化學氣相沈積法之一般鍍覆

G01R 測量電變量;測量磁變量 G11C 靜態儲存裝置

H01L 半導體裝置;其他類目未包括的電固體裝置

資料來源:經濟部智慧財產局[28],資策會科法中心,2003年9月

3.2.2 專利文件剖析

美國專利商標局(USPTO)網站提供專利說明書檢索與搜尋,並可以查看專利 全文,然專利全文為半結構化的HTML 文件。另一格式為 TIFF 圖片格式,可觀 看專利說明書的原始申請文件,與專利說明圖形。本研究需要探勘專利說明書 的各欄位內容,因此選擇擷取HTML 文件並撰寫程式剖析 HTML 文件,擷取專 利說明書中欲分析的欄位。專利說明書主要的欄位包含:專利編號、申請日期、

公告日期、發明人、專利權人、美國專利分類號(UPC)、國際專利分類號(IPC) 等欄位,如表3.3 所示。

專利的原始資料為半結構化的HTML 文件,其文件如圖 3.2、圖 3.3 所示,

HTML 資料雖不是結構化的 XML 檔,然仍有一定的規則可循,經過人工分析出 一定的規則後,即可程式化,利用字串處理功能剖析HTML 原始碼再加上正規 表示式(Regular Expression)的字串比對方式,擷取出本研究需要的欄位內容,

並將其對應的欄位的內容新增到關聯式資料庫中。本研究利用 Perl 分析專利說 明書的內容,因 Perl 擅長分析非結構化的文件,優秀的文字處理能力適用於擷 取剖析專利文件的欄位內容。剖析後專利資料轉入資料庫中,分析後的結果如 圖3.4 所示。

表 3. 3 專利文件的主要欄位

專利欄位 USPTO對應名稱

專利編號 Patent Number

發明名稱 Title

摘要 Abstract

美國專利分類號 US Classification, UPC

國際專利分類號 International Classification, IPC

專利權利範圍 Claim

公告日期 Issue Date

申請日期 Application Date

專利權人 Assignee Name

專利權人所屬國家 Assignee Country 專利權人所在城市 Assignee City

申請序號 Application Serial Number 申請型式 Application Type

主要之審查員 Primary Examiner 輔助之審查員 Assistant Examiner 發明人姓名 Inventor Name 發明人所屬國家 Inventor Country 律師或法定代理人 Attorney or Agent 外國之參考文獻 Foreign References 國外優先權 Foreign Priority 美國之參考文獻 US References

資料來源:美國專利商標局[20]

圖 3. 2 專利編號 6,200,881 專利原始文件 資料來源:美國專利商標局[20]

圖 3. 3 專利編號 6,200,881 專利 HTML 原始文件 資料來源:美國專利商標局[20]

圖 3. 4 文字分析後專利欄位資料

在文檔中 專利趨勢變化探勘之研究 (頁 29-33)

相關文件