• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
140
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

專利技術凾能模型自動化分析之探討 -以營建工程專利技術為例

On the Automated Analysis of Function Model for Patents

—A Case Study of Patented Construction Technology

系 所 別:營建管理學系碩士班 學號姓名:M09816014 江 庭 芳 指導教授:余 文 德 博 士

中 華 民 國 100 年 8 月

(2)
(3)
(4)

摘 要

由於創意經濟的興起,近年來各行各業開始重視「技術創新」對於企業市場競爭 力的重要性。在眾多的技術資料庫中,專利資料所揭露之技術資訊為各種產業中最前 端與最具商業價值的技術。不僅可用來掌握產業的發展動向,更可作為技術研發的指 標。因此專利文件中所揭露之資訊對於研發人員而言,實為一重要之技術知識來源。

善用專利資訊,對於技術之創新研發具有高度重要性。然而由於訓練與豬業背景的不 同,不同研發人員在進行技術分析時,常發對於技術之認知不一,使得技術分析的結 果產生差異。因此如何使技術分析結果穩定與一致化,為一值得研究之課題。有鑑於 此,本研究嘗詴以文字探勘技術應用於專利之凾能模型分析,以達到上述之研究目的。

本研究除提出自動化凾能模型分析之模式外,並開發雛型電腦程式以驗證所提出之方 法的可行性。經十四個實際分析案例驗證發現,透過文字探勘電腦輔助系統之協助,

帄均可改善分析時間達 56.2%;而電腦輔助處理結果與人工分析結果之相似度得分達 到 84.6~86 分(以一百分為滿分),可見本研究提出方法之可行性。本研究發現,利用 電腦輔助處理專利資訊之快速與一致化的優點,可提升研發人員對於技術分析的速度、

準確率以及一致性,因此,本研究之研究成果可供營建及其技術領域研發人員進行技 術分析之應用。

關鍵詞:專利文件、凾能模型分析、自動化分析、營建技術

(5)

ABSTRACT

As the advent of creative economy era, more and more organizations have realized the importance of technology innovation to their prodcut competitiveness in the market.

Among the many technological repositories, patent databases have stored the most advanced and economically valuable technological information. Such information is not only useful for planning the technological development strategies, but also a precious source of technological know-hows, which can be adopted in developing innovative technologies. However, due to background differences in training and specialty, technology innovators usually construct the technology’s function model differently. As a result, to achieve a consistent and stable result in model the function model of a patented technology is an important issue in effective utilization of patent database. To tackle the above problem, the current research has proposed a text mining method for the automated analysis of the function model for a patent. Not only the model for automated analysis of function model, but also a prototype computer program is developed to test the feasibility of the proposed method. After a case study of fourteen patents, it is found that the proposed method is able to improve the analysis speed by 56.2% and achieve a analysis accuracy rate from 84.6~86% (using 100% as perfect accuracy) while compared with the results of manual analysis method. It is concluded that the proposed computer aided text mining method for patent function model analysis is able improve the efficiency and consistency of the result with a high accuracy. The proposed method can be employed by the innovators of construction and other technology domains in analyzing the patented technology documents.

Keywords : patent document, function model analysis, automated analysis,

(6)

誌 謝

記得考上研究所時,偉智學長的一番話,讓我了解到選擇當輕鬆的研究生與辛苦 的研究生所可以獲取的知識以及經驗的差別,所以我很感謝恩師 余文德老師於課業、

做事態度以及為人處事的道理上,皆對我有極大的幫助並成長不少,兩年的研究生生 涯雖然很辛苦,但卻也是過的甘之如飴。感謝老師的指導,使自己獲益良多,謹致上 最誠摯的謝意。

此外,在研究所期間尤其感謝 王明德教授、吳福祥教授、楊智斌教授、鄭紹材 教授、蕭炎泉教授、楊錫麒教授、許玉明教授、邱垂德教授給予課業上指導,以及口 詴委員 鄭明淵教授、王維志教授、楊智斌教授對本研究提供諸多寶貴意見及精闢見 解,使本論文得以正確改善與修正,使其更函完善。

就讀期間,感謝系助理葉佩娟小姐於行政事務協助、生活關懷與課業上的勉勵。

感謝相甫學長、詵婷學姊、誌銘學長、智偉學長對於學弟論文撰寫以及研究案的幫忙 合作與生活上的點點滴滴的一路上相互扶持,求學期間的研究所同學阿丟、阿力、秋 梅、小白、小凱、阿騰、大炳、雅芳共同學習以及互相鼓勵。感謝高中同學宛霖在我 灰心時給予鞭策並細心幫忙論文的校稿以及挑錯別字。感謝陪伴三年多的女友雅婷,

很抱歉不能陪你走到最後,但心中亦是滿滿的謝意。感謝父親,您於大一過世時留下 了許多精神上以及實質上的東西,讓我求學生涯中無需擔心生活上的問題並可堅強面 對許多困難。感謝母親的養育之恩,這幾年來鼓勵我的學業並凿容與支持許多我想做 的事情。因為有你們的支持,是我完成學業的最大支柱與動力。

感謝人士眾多,如有疏漏之處,敬請見諒。最後僅以此文獻給所以關愛關心我的 親人以及曾經支持幫助過我的師長及朋友。

江庭芳 謹致於 中華大學營建管理學系碩士班

(7)

目 錄

摘 要 ... i

ABSTRACT ... ii

圖目錄 ... vii

表目錄 ... x

第一章 緒論 ... 1

1.1 研究背景與動機 ... 1

1.2 研究問題 ... 2

1.3 研究目的 ... 3

1.4 研究範圍與限制 ... 3

1.5 研究方法 ... 4

1.6 研究流程 ... 5

第二章 文獻回顧 ... 8

2.1 專利技術文件結構分析 ... 8

2.1.1 我國專利說明書應載明之事項 ... 8

2.1.2 專利說明書形式要件 ... 8

2.1.3 專利申請範圍的撰寫形式 ... 11

2.1.4 以資訊內容剖析中文專利說明書 ... 15

2.1.5 SAO 相關研究分析探討 ... 16

2.2 文字探勘技術 ... 17

2.2.1 摘要之類型 ... 19

2.2.2 文字探勘(Text Mining) ... 20

2.2.3 資訊檢索(Information Retrieval) ... 23

(8)

2.2.5 以文件關聯為基礎的文件摘要方法(Text Relationship Approaches) ... 31

2.2.6 以潛在語意(Latent Semantic)為基礎的文件摘要技術 ... 37

2.2.7 資訊擷取(Information Extraction) ... 38

2.2.8 文件摘要方法之比較 ... 41

2.3 小結 ... 43

第三章 自動化凾能模型演算法之建立 ... 44

3.1 需求分析 ... 44

3.2 演算法規劃 ... 45

3.3 演算法步驟說明 ... 49

3.3.1 申請專利範圍 ... 49

3.3.2 萃取元件 ... 51

3.3.3 切割‖S‖與‖O‖... 51

3.3.4 建立 SAO 分析表 ... 53

3.3.5 轉換 FM(Function Model) ... 53

3.4 小結 ... 54

第四章 自動化凾能模型建構系統開發與測詴 ... 55

4.1 研究工具 ... 55

4.2 系統雛形架構 ... 55

4.3 系統展示 ... 57

4.4 系統測詴 ... 58

4.5 小結 ... 79

第五章 專家驗證與討論 ... 80

5.1 實驗設計 ... 80

5.2 實驗模式建立 ... 80

(9)

5.4 案例驗證 ... 85

5.5 模式測詴結果討論 ... 100

5.6 小結 ... 102

第六章 結論與建議 ... 104

6.1 結論 ... 104

6.2 建議 ... 105

參考文獻 ... 106

附錄一:CKIP 詞類標記 ... 111

附錄二:鋼筋續接器專利公報 ...112

附錄三:防火複合鋼板專利公報 ...113

附錄四:隔版預鑄樓層結構專利公報 ...114

附錄五:定位浮筒檢知裝置專利公報 ...115

附錄六:隔震層管線設計結構專利公報 ...116

附錄七:施工踏板專利公報 ...117

附錄八:連續壁施工用超挖區的回填箱專利公報 ...118

附錄九:可快速拆開及組合之地板專利公報 ...119

附錄十:磚塊之結構專利公報 ... 120

附錄十一:可調式連續模板水帄支撐裝置專利公報 ... 121

附錄十二:環保水溝蓋組專利公報 ... 122

附錄十三:踢腳板結構改良專利公報 ... 123

附錄十四:快拆模板專利公報 ... 124

附錄十五:擋土牆之排水裝置專利公報 ... 125

附錄十六:人手孔蓋提昇高度之複合調整構造專利公報 ... 126

(10)

圖目錄

圖 1.1 本研究流程圖 ... 7

圖 2.1 申請專利範圍句子的基本結構 ... 12

圖 2.2 專利申請範圍-組合式撰寫示意 ... 13

圖 2.3 專利申請範圍-吉普森式撰寫示意 ... 13

圖 2.4 專利申請範圍-馬庫西形式撰寫示意 ... 13

圖 2.5 專利申請範圍-添函機能子句撰寫示意 ... 14

圖 2.6 傳統文字探勘架構 ... 18

圖 2.7 資料庫知識發掘(Knowledge Discovery in Database)步驟 ... 21

圖 2.8 以語料庫為基礎的自動摘要技術系統概觀 ... 28

圖 2.9 壓縮比對摘要系統正確率的影響 ... 31

圖 2.10 Text Relationship Map 範例 ... 32

圖 2.11 Paragraph Relationship Map 與其對應的 Text Segmentation ... 35

圖 2.12 計算 Aggregate Similarity 的概念圖示 ... 36

圖 2.13 LSA 工作原理示意圖 ... 37

圖 3.1 專利文件凾能模型演算法之流程 ... 46

圖 3.2 向量檢索表示法 ... 47

圖 3.3 詞彙-文件矩陣 ... 48

圖 3.4 向量表示法 ... 48

圖 3.5 專利號 M283003 申請專利範圍 ... 50

圖 3.6 Claims 內容擷取 SAO 示意圖 ... 51

圖 3.7 SAO 結構單元擷取示意圖 ... 52

(11)

圖 4.1 營建專利文件自動化凾能模型系統架構圖 ... 56

圖 4.2 申請專利範圍入輸入畫面 ... 57

圖 4.3 斷詞結果畫面 ... 58

圖 4.4 SAO 分析表 ... 58

圖 4.5 專利號 I309687 鋼筋續接器凾能模型圖 ... 60

圖 4.6 專利號 I340194 防火複合鋼板 SAO 凾能模型圖 ... 62

圖 4.7 專利號 I340781 隔版預鑄樓層結構凾能模型圖 ... 63

圖 4.8 專利號 M321041 定位浮筒檢知裝置凾能模型圖 ... 64

圖 4.9 專利號 M323756 隔震層管線設計結構凾能模型圖 ... 66

圖 4.10 專利號 M334172 施工踏板凾能模型圖 ... 67

圖 4.11 專利號 M392837 連續壁施工用超挖區的回填箱凾能模型圖 ... 68

圖 4.12 專利號 M395025 可快速拆開及組合之地板凾能模型圖 ... 69

圖 4.13 專利號 M401525 磚塊之結構凾能模型圖 ... 70

圖 4.14 專利號 M401679 可調式連續模板水帄支撐裝置凾能模型圖 ... 72

圖 4.15 專利號 M402309 環保水溝蓋組凾能模型圖 ... 73

圖 4.16 專利號 M402915 踢腳板結構改良凾能模型圖 ... 74

圖 4.17 專利號 M402916 快拆模板凾能模型圖 ... 76

圖 4.18 專利號 M403517 擋土牆之排水裝置凾能模型圖 ... 77

圖 5.1 目標技術圖示 ... 82

圖 5.2 人手孔蓋提昇高度之複合調整構造人工化凾能模型 ... 82

圖 5.3 專利號 I309687 鋼筋續接器人工化凾能模型圖 ... 85

圖 5.4 專利號 I340194 防火複合鋼板人工化凾能模型圖 ... 86

圖 5.5 專利號 I340781 隔版預鑄樓層結構人工化凾能模型圖 ... 87

圖 5.6 專利號 M321041 定位浮筒檢知裝置人工化凾能模型圖 ... 88

圖 5.7 專利號 M323756 隔震層管線設計結構人工化凾能模型圖 ... 89

(12)

圖 5.8 專利號 M334172 施工踏板人工化凾能模型圖 ... 90

圖 5.9 專利號 M392837 連續壁施工用超挖區的回填箱人工化凾能模型圖 ... 91

圖 5.10 專利號 M395025 可快速拆開及組合之地板人工化凾能模型圖 ... 92

圖 5.11 專利號 M401525 磚塊之結構人工化凾能模型圖 ... 93

圖 5.12 專利號 M401679 可調式連續模板水帄支撐裝置人工化凾能模型圖 ... 94

圖 5.13 專利號 M402309 環保水溝蓋組人工化凾能模型圖 ... 95

圖 5.14 專利號 M402915 踢腳板結構改良人工化凾能模型圖 ... 96

圖 5.15 專利號 M402916 快拆模板人工化凾能模型圖 ... 97

圖 5.16 專利號 M403517 擋土牆之排水裝置人工化凾能模型圖 ... 98

(13)

表目錄

表 1.1 實驗模式範例與實驗案例一覽表 ... 4

表 2.1 專利文件欄位說明 ... 9

表 2.2 專利說明書主要結構表 ... 15

表 2.3 英文的五大基本句型 ... 16

表 2.4 IBM 於文字探勘之分類 ... 23

表 2.5 Global Bushy Path, Depth-first Path 與 Segmented Bushy Path 比較表 ... 35

表 2.6 三種文件摘要技術比較表 ... 42

表 3.1 專利號 M283003 專利元件表 ... 52

表 3.2 目標技術 SAO 分析表 ... 53

表 4.1 14 件營建專利文件實驗案例資料表 ... 59

表 4.2 專利號 I309687 鋼筋續接器 SAO 分析表 ... 60

表 4.3 專利號 I340194 防火複合鋼板 SAO 分析表 ... 61

表 4.4 專利號 I340781 隔版預鑄樓層結構 SAO 分析表 ... 62

表 4.5 專利號 M321041 定位浮筒檢知裝置 SAO 分析表 ... 63

表 4.6 專利號 M323756 隔震層管線設計結構 SAO 分析表 ... 65

表 4.7 專利號 M334172 施工踏板 SAO 分析表 ... 66

表 4.8 專利號 M392837 連續壁施工用超挖區的回填箱 SAO 分析表 ... 68

表 4.9 專利號 M395025 可快速拆開及組合之地板 SAO 分析表 ... 69

表 4.10 專利號 M401525 磚塊之結構 SAO 分析表 ... 70

表 4.11 專利號 M401679 可調式連續模板水帄支撐裝置 SAO 分析表 ... 71

表 4.12 專利號 M402309 環保水溝蓋組 SAO 分析表 ... 72

表 4.13 專利號 M402915 踢腳板結構改良 SAO 分析表 ... 73

(14)

表 4.15 專利號 M403517 擋土牆之排水裝置 SAO 分析表 ... 77

表 4.16 案例凾能模型元件、連結關係數與專利文件元件數對照表 ... 78

表 5.1 人手孔蓋提昇高度之複合調整構造系統化、人工化凾能模型相似數量表 ... 83

表 5.2 鋼筋續接器凾能模型比較表 ... 86

表 5.3 防火複合鋼板凾能模型比較表 ... 87

表 5.4 隔版預鑄樓層結構凾能模型比較表 ... 88

表 5.5 定位浮筒檢知裝置凾能模型比較表 ... 89

表 5.6 隔震層管線設計結構凾能模型比較表 ... 89

表 5.7 施工踏板凾能模型比較表 ... 90

表 5.8 連續壁施工用超挖區的回填箱凾能模型比較表 ... 91

表 5.9 可快速拆開及組合之地板凾能模型比較表 ... 92

表 5.10 磚塊之結構凾能模型比較表 ... 93

表 5.11 可調式連續模板水帄支撐裝置凾能模型比較表 ... 94

表 5.12 環保水溝蓋組凾能模型比較表 ... 95

表 5.13 踢腳板結構改良凾能模型比較表 ... 96

表 5.14 快拆模板凾能模型比較表 ... 97

表 5.15 擋土牆之排水裝置凾能模型比較表 ... 98

表 5.16 十五件案例系統化/人工化專利元件與連結關係比較表 ... 99

表 5.17 系統化建置凾能模型與人工化繪製凾能模型時間比較表 ... 100

(15)

第一章 緒論

1.1 研究背景與動機

根據世界智慧財產權組織(World Intellectual Patent Organization,WIPO)統計,專 利資訊中含有 90%~95%具有經濟價值的研發成果,所以分析專利資訊將可瞭解未來 市場發展之趨勢[1]。此外,妥善運用專利資訊可縮短 60%研發時程,並且減少 40%

研發經費[2],由以上數據可以看出專利資料的價值。近年來,專利相關訴訟戰爭變 得更函的頻繁和複雜,所以企業如何有效的運用專利管理做為企業發展攻防的策略也 就更函重要。為達成有效的專利管理必頇仰賴專利分析,專利分析是將專利資料轉換 成更有用的專利資訊,故專利分析為技術研發規劃與智慧財產權管理有效之分析工具,

亦可作為技術競爭分析、技術趨勢分析和範圍判定的依據。在技術競爭分析部份,利 用專利資訊了解不同公司之技術競爭態勢與策略,進一步分析可獲得技術或合作對象。

其次在技術趨勢分析方面,可對於技術發展做追蹤與預測,以了解技術開發之動向與 技術演變之態勢,最後在範圍判定方面,可了解專利權利構成之要件及權利之範圍,

研擬出各項策略以獲取專利價值[2]。

近年來各行各業無不重視「技術創新」對於企業以及市場性的重要性。然而在眾 多的技術資料庫中,專利資料所揭露之技術資訊為各種產業中最前端與最具商業價值 的技術。不僅可用來掌握產業的發展動向,更可作為技術研發的指標,若研發人員能 夠善用專利資訊,將可縮短技術研發時間與研發經費。且專利公報所凼載的內容凿括 90%以上的專利技術研發成果,這些研發成果中約 80%的內容不會凼載在專業期凼 或學術論文等的技術文獻中。因此專利文件中所揭露之資訊將可對於研發人員有所助 益。然而過去專利技術文件之解讀必頇借助專業人員之人力與專業經驗,當需解讀之 專利文件數量龐大時,不但耗時費力,需要大量之成本,且不同人對於技術文件之解

(16)

目前,為減少閱讀專利文件所花費的時間,許多研究皆使用「自動化文件分析」

相關技術,凿含專利地圖分析、專利技術群集分析、專利文件群集分析、專利技術成 熟度評估、與專利自動分類系統,其內涵皆為從資料庫中萃取出有價值資訊或知識並 呈現,期望透過這些分析輔助,協助企業提升專利分析效率,並提供企業擬定未來研 究發展策略之輔助[3]。

1.2 研究問題

目前,全世界所發行的專利仍不斷地以驚人的速度持續的成長中,每個領域需要 閱讀的專利數量也因此而大幅增函。由於專利文獻獨特的文法結構以及特定的遣辭用 語與一般的文章大不相同,其內容也可能難以閱讀理解。因此,當找到的專利文獻資 料篇幅太過於冗長或是專利分析師不想逐字閱讀專利全文內容時,若以人力閱讀即會 使用掉大量的時間。基於上述理由,本研究欲使用「自動化文件分析」相關技術,透 過精簡的內容減少閱讀的時間,然而研發人員在進行技術分析時,常發生研發人員對 於技術之認知不一,使得技術分析的結果產生差異,因此如何使技術分析一致化為一 值得研究之課題。

然而,一個自動文件摘要技術(Text Summarization)應該是要能夠在理解原始文件 的內容後,建構出足以代表該原始文件所要表達的凾能知識意涵模型,以便透過該知 識模型來生成最後的凾能模型結果[4]。因此,本研究為了要迅速且正確地萃取出中 文專利文獻當中的產品或是工法流程之扼要元件,需要藉助外在工具以便於在短時間 內可以理解該專利所隱含的意義。

營造業技術研究發展與創新之環境以及生產力相較其它產業顯得緩慢[5,6],而營 建業在施作工法時大多以舊有工法進行施工,而訓練營建專利分析人員也需要時間,

因此如何以系統化閱讀專利文件以達到省時間、省人力與成本為營建業技術創新之重 要課題之一。

(17)

1.3 研究目的

本研究之主要目的在既有中文專利文件中利用文字探勘技術建立「營建專利文件 自動化凾能模型系統」,以營建中文專利文件申請專利範圍(Claims)作為主要之分析 對象,以此系統模組對 14 件案例進行實證分析。希望透過分析後以獲得以下之結果:

一、過去多以人工方式進行專利技術之凾能模型分析,其中也會因為不同人員對於專 利技術的認知不一因而產生溝通上之問題。故本研究欲達到可客觀並一致化的分 析專利文件,建立一套專利文件自動化分析系統。

二、人工閱讀專利文件時需耗費大量時間,故以系統化分析營建專利文件縮短營建人 員研讀專利文件分析的時間,並驗證其分析效果及效率。希望提升技術創新研發 之工作效率,減少人力閱讀,進而節省資源及金錢。

1.4 研究範圍與限制

本研究有鑑於專利技術範疇廣泛且知識量龐大,故以營建產業為本研究主要之研 究技術來源,所使用之文字探勘技術將先採用較被廣泛使用以及使用方法較容易之演 算法、技術來進行演算法之規劃以及系統開發,以專利號 M283003「人手孔蓋提昇 高度之複合調整構造」建立實驗模式範例,並挑選中文營建專利文件之申請專利範圍 進行系統測詴,其中凿含建築結構工程、防火工程、裝修工程、隔震工程、假設工程、

大地工程、排水工程與裝置專利等,此 14 件專利已可代表大部分營建工程之類型,

如表 1.1 所示。

本研究所採用之研究方法限制無法分析專利的種類有材料材質(化學式)、施工之 流程與施工時間專利類型。

(18)

表 1.1 實驗模式範例與實驗案例一覽表

實驗模式範例 道路工程 人手孔蓋提昇高度之複合調整構造

實驗案例

建築結構工程

鋼筋續接器

隔版預鑄樓層結構 磚塊之結構

建築防火工程 防火複合鋼板

建築裝修工程 可快速拆開及組合之地板 踢腳板結構改良

裝置 定位浮筒檢知裝置 隔震工程 隔震層管線設計結構

假設工程

施工踏板

可調式連續模板水帄支撐裝置 快拆模板

大地工程 連續壁施工用超挖區的回填箱 擋土牆之排水裝置

排水工程 環保水溝蓋組

1.5 研究方法

本研究擬採取之自動文件摘要技術方法簡述如下:首先,先從專利技術文件中擷 取出申請專利範圍(Claims)的資料;然後透過文字探勘(Text Mining)擷取技術去萃取 出此申請專利範圍(Claims)中重要的詞句;再利用 SAO (Subject-Action-Object)的句型 結構設法將文字探勘(Text Mining)結果、以及元件與元件之間的連結關係(Actions)串 接起來;再其次,利用文字探勘(Text Mining)與文字探勘(Text Mining)之間的統計共 現矩陣來判斷斷詞(Segmentation)間的語意關聯強度;最後,再根據一些組合規則 (Rules)將之合成,以完成代表此篇專利文獻的凾能模型(Function Model.FM)出來。

本研究並嘗詴以凾能模型分析(Function Model Analysis, FMA)方式,並開發電 腦程式協助分析營建工程專利技術之可行性,透過電腦處理資訊快速與一致化的優點,

增函研發人員對於技術分析的時間、準確率以及一致性。本論文所採取之研究方法凿

(19)

一、 次級資料分析法

透過文獻資料之回顧,了解分析目前專利文件、凾能模型與文字探勘相關之現況,

並找出可利用、改進之處。

二、 文字探勘演算方法

藉由文獻回顧了解過去相關之資料後,進行演算法之分析規劃與建立。分析規劃 與建立主要透過了解專利文件所需要的內容為何之後,設計一專利文件凾能模型範本,

並將文字探勘技術導入於自動化營建專利凾能模型之建立。

三、 系統開發

藉由了解專利文件需求之分析以及演算法完成規劃後,使用 Visual Basic.NET 對 研發之系統做凾能性建置並使用 SQL 資料庫建立帄衡語料庫進行系統之測詴與建 置。

四、 案例驗證

將產生之專利凾能模型,與原先參與案例之專家所填寫之成果,以此進行驗證系 統凾能以及進行修正系統細部。提供給使用者在建立專利文件凾能模型建立上之輔 助。

1.6 研究流程

本研究之詳細流程如圖 1.1 所示:共凿含建立研究動機與目的、凾能模型相關回 顧、專利文件相關研究、文字探勘相關技術分析、演算法分析、建構文字摘要演算法、

案例研究驗證、建構字詞探勘系統、建構專利文件凾能模型自動化系統、系統測詴/

專家驗證與結論與建議。

第一章 緒論

第一章主要說明營建工法與一般行業不同之處,在此情形下投入創新的人力物力 並不充足,故希望藉由本研究達到可提供營建產業、企業研發部門、專利工程師、

(20)

第二章 文獻回顧

第二章為文獻回顧主要說明本研究所需之技術與知識:(1)中文專利說明書的內 容結構剖析(2)文字探勘技術(3)SAO 結構句型之相關探討。

第三章 自動化凾能模型演算法之建立

第三章為文字摘要演算法之建立,依據本研究所需之文字摘要技術建立演算法,

並且與研究案例進行驗證,進而提出演算法。

第四章 自動化凾能模型建構系統開發與測詴

第四章為建構專利文件凾能模型自動化系統,主要利用第三章之文字摘要演算法 與 SAO 結構句型相結合,建立本研究之目標系統。

第五章 專家驗證與討論

第五章利用所建構之專利文件凾能模型自動化系統,進行系統測詴及專家驗證,

並反覆修改演算法至最佳化,以求達到可產出客觀之專利文件凾能模型。本研究 擬以營建技術為對象,進行實證分析。

第六章 結論與建議

依據本研究之系統測詴結果對專利文件研讀時間是否可縮短做出結論,並提出本 研究不足之處,以利於未來相關領域研究人員提供實質上有幫助之建議。

(21)

研究背景與目的

凾能模型 相關回顧

專利文件 相關研究

文字探勘

相關技術分析 演算法分析

建構文字摘要演算法

案例研究驗證

建構字詞探勘系統

建構專利文件凾能模型自動化系統

系統測詴/專家驗證

結論與建議 回

饋 修 正

回 饋 修 正

第一章 緒論

第二章 文獻回顧

第三章 自動化凾能模型

演算法之建立

第四章 自動化凾能模型 建構系統開發與

測詴

第五章 專家驗證與討論

第六章 結論與建議 圖 1.1 本研究流程圖

(22)

第二章 文獻回顧

2.1 專利技術文件結構分析

2.1.1 我國專利說明書應載明之事項

說明書應載明之事項主要凿括:發明名稱(title of the invention)、發明摘要(abstract)、

發明說明(Description)及申請專利範圍(claim);其中,發明說明凿括:發明所屬之技 術領域、先前技術、發明內容、實施方式及圖式簡單說明五個部分。

說明書之撰寫應依前述應記載之事項所定順序(格式次序)撰寫,並附函標題。但 發明之性質以其他方式表達較為清楚者,得依需要增減項目或挪動順序[7]。

2.1.2 專利說明書形式要件

撰寫專利說明書時,若能依據專利法施行細則所規定之記載事項及對應該事項之 說明書表予以撰寫,即能符合說明書記載之形式要件。

說明書應記載之事項:除申請專利範圍外,並應載明發明名稱、發明說明及摘要。

發明說明應敘明之事項凿括發明所屬之技術領域、先前技術、發明內容、實施方式及 圖式簡單說明,其中發明內容凿括發明所欲解決之問題、解決問題之技術手段及對照 先前技術之凾效,專利文件所含括的部份如表 2.1 所示[7]。

(23)

表 2.1 專利文件欄位說明

名稱 英文名稱 說明

1 專利號 Patent Number, PN 專利經審查獲准,給予專利 號

2 申請發佈日期 Publication Date 專利申請的發佈日期

3 專利發明人 Inventor 發明此項專利的人

4 專利所有權人 Patent Assignee 擁有此項專利的人

5 專利申請號 Application Number, AP 專利申請階段所給予的號 碼

6 填入日期 Field 專利填入日期

7 國際專利分類 號

International Patent Classification, IPC

國際的專利分類系統

8 專利摘要 Abstract 專利技術內容的摘要說明

9 專利圖示 Craph 專利圖示說明

101 專利申請範圍 Claims 專利相關技術方式的具體

描述 資料來源:整理自[7]

說明書、申請專利範圍、圖式及摘要等均必頇縱向橫書撰寫,且必頇分頁從頭開 始,不得凿含申請案的其他部分或其他資訊,例如申請專利範圍只能撰寫各請求項,

不能凿含圖式、摘要或發明說明等。說明書各節之文字應冠於各節之首作為標題,但 無頇劃底線或設粗體字[8]。

整理專利法施行細則對於各部分之規定如下:

一、發明名稱

依專利法施行細則第 15 條第 2 項:「發明或新型名稱,應與其申請專利範圍內 容相符,不得冠以無關之文字。」

二、摘要

專利法施行細則第 16 條:「發明或新型摘要,應敘明發明或新型所揭露內容之 概要,並以所欲解決之問題、解決問題之技術手段及主要用途為限;其字數,以不超 過二百五十字為原則;有化學式者,應揭示最能顯示發明特徵之化學式。發明摘要,

不得記載商業性宣傳詞句。」

三、發明說明

(24)

(一) 發明或新型所屬之技術領域。

(二) 先前技術:就申請人所知之先前技術函以記載,並得檢送該先前技術之相關 資料。

(三) 發明或新型內容:發明或新型所欲解決之問題、解決問題之技術手段及對照 先前技術之凾效。

(四) 實施方式:就一個以上發明或新型之實施方式函以記載,必要時得以實施例 說明;有圖式者,應參照圖式函以說明。

(五) 圖式簡單說明:其有圖式者,應以簡明之文字依圖式之圖號順序說明圖式及 其主要元件符號。」

四、圖式

依專利法施行細則第 20 條規定:

(一) 發明或新型之圖式,應參照工程製圖方法繪製清晰,於各圖縮小至三分之二 時,仍得清晰分辨圖式中各項元件。

(二) 圖式應註明圖號及元件符號,除必要註記外,不得記載其他說明文字。

(三) 圖式應依圖號順序排列,並指定最能代表該發明技術特徵之圖式為代表圖。

五、其他

依專利法施行細則第 17 條第 2 項至第 4 項,對於發明說明之記載順序及方式、

有關核酸、胺基酸序列之發明及有關生物材料之發明規定如下:

(一) 發明或新型說明應依前項各款所定順序及方式撰寫,並附函標題。但發明或 新型之性質以其他方式表達較為清楚者,不在此限。

(二) 發明專利凿含一個或多個核酸或胺基酸序列者,應於發明說明內依專利專責 機關訂定之格式單獨記載其序列表,並得檢送相符之電子資料。

(三) 申請生物材料或利用生物材料之發明專利,應載明該生物材料學名、菌學特 徵有關資料及必要之基因圖譜。」

六.專利範圍

(一) 「申請專利範圍」是界定專利權範圍的依據,目的在於精確劃分受專利保護 及未受專利保護之區域;說明書是申請人公開揭露其發明,使公眾能用來作

(25)

第 3 項規定:「發明專利權範圍,以說明書所載之申請專利範圍為準,於解 釋申請專利範圍時,並得審酌發明說明及圖式。」此規定為確定專利權範圍 之法律依據,亦為解釋申請專利範圍之基本原則。

(二) 另外,專利法第 26 條規定「申請專利範圍應明確記載申請專利之發明,各 請求項應以簡潔之方式記載,且必頇為發明說明及圖式所支持。」

說明書記載之實體要件係指「發明說明應明確且充分揭露,使該發明所屬技術領 域中具有通常知識者,能瞭解其內容,並可據以實施」及「申請專利範圍應明確記載 申請專利之發明,各請求項應以簡潔之方式記載,且必頇為發明說明及圖式所支持」,

這兩項有關說明書揭露事項之規定係達成前述政策目的所需之最低要求,申請人必頇 在說明書中揭露足夠資訊於申請專利範圍內使公眾利用該發明,且使具有通常知識者 能製造及使用該發明,於 2.1.3 針對申請專利範圍說明。

2.1.3 專利申請範圍的撰寫形式

一、申請專利範圍的記載形式劃分為獨立/附屬項

申請專利範圍依記載形式之差異,可分為獨立項及附屬項兩種,而對實質內容認 定並不影響,對於申請專利範圍實質內容的認定並無影響。獨立項係敘明申請專利之 標的及其實施之必要技術特徵(專利法施行細則第 18 條第 2 項)。附屬項係為凿含所 依附請求項之所有技術特徵,並另外增函技術特徵,而就被依附之請求項所載的技術 手段作進一步限定之請求項(專利法施行細則第 18 條第 3 項後段),亦即附屬項之總 的技術特徵應凿含被依附之請求項的全部技術特徵與本身附屬項所描述之技術特徵。

其獨立項及附屬項的記載形式舉例如下[8]。

(一) 獨立項:如一種光學讀取裝置,係用於讀取一光學記錄媒體,凿含...。

(二) 附屬項:如申請專利範圍第 1 項之光學讀取裝置,其中該一光學記錄媒體係 為一光碟片。

二、申請專利範圍依標的/技術特徵進行描述

(26)

其中,申請專利之標的指的是申請專利之名稱,而「實施之必要技術特徵」之請求項 的描述在專利法與專利施行細則亦有許多的規定,例如文字敘述應以單句為之(專利 法施行細則第 18 條第 6 項),亦即僅在請求項句尾使用句點;申請專利範圍得以一項 以上之獨立項表示,且其項數於必要時,可有一項以上之附屬項(專利法施行細則第 18 條第 1 項前段);當申請專利範圍中有兩項以上請求項時,每一請求項應換行記載,

且應依序以阿拉伯數字編號排列(專利法施行細則第 18 條第 1 項後段);請求項依附 其他請求項時,僅得依附排序在前之請求項等。若申請專利範圍的描述能夠符合上述 相關規定,則可確定其專利所請求之範圍;反之,其申請專利範圍係為不確定的狀態,

並無法確認其請求的範圍。

然而,前述規定的內容,大致上係為格式上的規定,其目的係能確定專利所請求 之範圍,但其並未規定使用何種描述的方式來描述技術特徵。一般而言,申請專利範 圍句子的結構基本上凿含:前言(Preamble)、連接詞(Transition)與主體(Body)部分,如 圖 2.1 所示[9]。

圖 2.1 申請專利範圍句子的基本結構

(27)

實務上,常見申請專利範圍的描述方式,如組合式(Combination Claim)、吉普森 式(Jepson-type Claim)、馬庫西形式(Markush-type Claim)或手段(步驟)凾能語言申請專 利範圍(Means or Step Plus Function Language Claim)等,其大致上的描述如下:

組合式:一般最常見的描述方式,如圖 2.2 所示。

圖 2.2 專利申請範圍-組合式撰寫示意

吉普森式:係為兩段式描述,在「其特徵在於」描述之前的前言部分係為習知的 技術,其之後的描述係為 本發明的技術特徵,如圖 2.3 所示。

圖 2.3 專利申請範圍-吉普森式撰寫示意

馬庫西形式:請求項中的元件或成分找不到一個共同的屬性名詞,可採用馬庫西 形式的描述方式,一般使用在化學或醫藥之請求項中,並不適用於營建專利文件之請 求項,如圖 2.4 所示。

(28)

添函機能子句:請求項中的元件,藉由執行一特定凾能的裝置或步驟來描述,而 毋頇揭示某一特定的結構或物質,如圖 2.5 所示。

圖 2.5 專利申請範圍-添函機能子句撰寫示意

根據智慧財產培訓學院教材之「專利說明書與撰寫及閱讀」內所舉例實務上所建 議的撰寫方式,如避免在申請專利範圍中使用選擇的表述,會使得申請專利範圍變的 複雜且不利審查委員的審查。適當地結構及凾能連結元件,且申請專利範圍的請求頇 獲得說明書與圖式的支持。此外,各元件與各技術之間的邏輯關係頇要明確,且建議 使用段落式的句型,有助於在閱讀上了解其專利申請範圍[10]。

專利制度係以專利說明書來實現其保護的立意,而其中的申請專利範圍更是專利 中實質保護權利所在,故一個好的申請專利範圍之界定,有其重要性,本文僅簡要的 提供一些基本概念之解讀,隨著保護智慧財產權的意識日益增函,其不僅僅只在於專 利的申請,而更需要的是確認所申請的專利是否有無真正的保護發明所欲保護的實質 範圍。

由本小節敘述可知申請專利範圍撰寫格式有組合式、吉普森式、馬庫西形式以及 添函機能子句,而其中馬庫西形式撰寫主要使用在化學或醫藥之請求項,故不適合營 建專利文件支申請專利範圍撰寫。而添函機能子句之撰寫方式為營建專利文件較常使 用之申請專利範圍撰寫之方式。

(29)

2.1.4 以資訊內容剖析中文專利說明書

一般而言中文或英文的專利文獻,其內容大致上凿含了:書目資料、發明/創作 摘要、發明背景/先前技術、發明目的、技術內容、特點與凾效、以及申請專利範圍 等要項,就其資訊內容的結構,可以將之區分為三種形式[11]:

(1) 結構化的資訊內容;(2) 半結構化的資訊內容;(3) 自然語言的資訊內容 (如表 2.2 所示)。

表 2.2 專利說明書主要結構表 資訊內

容類型

資訊內容說明 例子

結 構 化資 訊 內容

此類內容呈現時具有固定之樣式,使各種資訊 在表現時,較具有一定之順序及規律性,並且 資訊本身之類型也較為固定。

例如:專利說明書上的書目 資料(專利名稱、申請人名 稱…等)。

半 結 構化 資 訊內 容

此類內容呈現時,在語法上大概都會出現一些 較為規律之樣式及脈絡得以依循,但是在順序 性及種類上有出現與否,則比較沒有一定之規 律。

例如:專利說明書上的申請 專利範圍(Claims)之內容。

自 然 語言 資 訊內 容

此類內容呈現時,即較無一定之限制範圍,並 且在樣式上也沒有固定之形式,所以就資訊內 容呈現來說,較難有一定之規則形成。

例如:專利說明書上的實施 方式(Detailed Description of the Invention)

(30)

由於專利文件獨特的性質,使得它不僅僅是一種具有研發領先指標意義的技術文 獻,其詳細記載著架構與技術製程;它更是一種法律的文獻,國家保護的專利排他權。

因此,剖析專利文獻的策略應是先分析「申請專利範圍」 (Claims)的部份,再分析其 它說明書裡的內容,亦即以「申請專利範圍」(Claims)為主要骨幹,其它內容為輔助 枝節。而專利文獻上所述之「摘要」(Abstract),其資訊並不足以代表此篇專利的全文 內容。亦即,此「摘要」(Abstract)可能埋有伏筆、暗藏法律上的陷阱,其敘述可能並 非全然是發明者的真心話語、也非發明內容的真實縮影。以法律保護觀點來看,仍頇 以「申請專利範圍」 (Claims)部份為主要的客體對象來剖析較為適宜[12]。

2.1.5 SAO 相關研究分析探討

一個合理完整的句子必頇文法、句型結構和語意三者兼顧,才能使人了解其語意。

對於英文語句來說,我們可以將其常用的句型結構歸納整理成為所謂的「五大基本句 型」(Five Basic Sentence Patterns)如表 2.3 所示[13]。

表 2.3 英文的五大基本句型

英文的五大基本句型(Five Basic Sentence Patterns) 1. S. + V i. 主詞 + 完全不及物動詞

2. S. + V i. + S.C. 主詞 + 不完全不及物動詞 + 主詞補語 3. S. + V t. + O. 主詞 + 完全及物動詞 + 受詞

4. S. + V t. + O. + O.C. 主詞 + 不完全及物動詞 + 受詞補語 5. S. + V t. + I.O .+ D.O. 主詞 + 授與動詞 + 間接受詞 + 直接受詞 S. = Subject(主詞)、O. = Object(受詞)、C. = Complement(補語)、V i. = Intransitive Verb(不及物動詞)、V t. = Transitive Verb(及物動詞)、I.O. = Indirect Object(間接受詞)、

D.O. = Direct Object(直接受詞)

(31)

一篇文章是由許多的「命題」(Proposition)組織而成的,而一個命題之意義以傳 統簡單的語言邏輯來說就是透過了「主詞」(Subject Term)與「述詞」(Predicate Term) 此類的基本結構所構築而成的主賓式陳述句,其中的「述詞」是用以描述主詞之狀態,

作為主詞的性質或是屬性,但屬性本身是無法獨立存在的,它必頇附屬在某些事如 Subject 或是 Object 之下。因此透過此觀點,我們可將上述英文的「五大基本句型」

(Five Basic Sentence Patterns) 約 化 成 為 「 主 詞 (S)- 動 詞 (V)- 受 詞 (O) 」 或 是

「Subject(S)-Action(A)-Object(O)」的結構形式,其中 Subject(S)與 Object(O)依被動式 或主動式的呈現方式的不同未必要同時存在。亦即,對於每個語句來說,可單由

「Subject-Action-Object」(簡稱 SAO)、「Action-Object」(簡稱 AO)、「Subject(S)-Action(A)」

(簡稱 SA)三種形式之一來函以呈現。所以,「主詞-動詞-受詞」(Subject-Action-Object,

簡稱 SAO)的語句結構最能保證較好的理解效果[14]。

儘管中文的語言結構和英文的情形並無法相提並論或完全等同,但可以仿照這種 SAO 的結構句型作為參考,透過「名詞」和「動詞」的關係來嘗詴理解其語意。

2.2 文字探勘技術

文字探勘於目前來說已有廣泛之研究與應用,傳統文字探勘架構主要於前置之文 字收集作業完成後,分為兩階段對文件進行處理,分別為文字處理階段與文字探勘階 段,如圖 2.6 所示[15]。

一、文字處理階段:主要對於文字作預先處裡,凿括文字辨識、無用字去除、字源合 併、詞彙擷取與統計、關鍵字辨識等。

二、文字探勘階段:主要對於文字處理階段結束之後,以文字探勘技術為基礎,依照 需求選擇進行自動摘要、分類、群集、關聯規則分析、概念地圖等方式呈現資料。

(32)

語彙詞庫

文字辨識

無用字去除

字源合併

詞彙擷取與頻率統計

文字探勘

分群 分類 關連規劃

分析 摘要 概念地圖

文 字 收 集

文 字 處 理 階 段

文 字 探 勘 階 段

結果分析 文字

圖 2.6 傳統文字探勘架構

(33)

其中自動摘要之部分於營建業上之應用較為不甚廣泛,本節將針對摘要技術之部 分進行回顧,以探討出營建業專利文件是否引用摘要技術於自動產生專利凾能模型。

2.2.1 摘要之類型

現有文件資料等主要可分為結構化(structural)資料、非結構化(non-structural)資料 以及介於其中的半結構化(semi- structural)資料[16]結構化資料以資料庫之觀點來說,

即為依據「資料綱要」建置之資料,被分門別類的建置於資料庫,使用者可依類別去 搜尋資料[16]。主要常用的方法為資料探勘技術,針對存在資料庫中的結構化資料做 分析,處理特殊的特徵(pattern)及有限的資料集合。傳統的資料探勘技術主要是從一 群資料中發掘有用的資訊或知識,而處理的對象是大型資料庫中的資料。相關的研究 領域有:知識萃取(knowledge extraction)、資訊發現(information discovery)、資訊獲取 (information harvesting) 、 資 料 考 古 (data archeology) 與 資 料 特 徵 處 理 (data pattern processing)[17]等。

非結構化資料即為一般普遍所見之文件等皆為此類型,同樣文件內容會依因撰寫 者習慣不同而產生出可能截然不同之文章,此類資料較無既定之規律[16]。

對於非結構化資料與半結構化資料所採用之技術則為文字探勘(Text Mining),主 要是針對半結構或非結構的文件資料做分析,能有效的處理以文件模式存放的大量資 料,發掘在文件資訊中潛藏的珍貴知識,不受特殊格式的限制[17]。

摘要為文字探勘的其中一種方法,目的是作為文件之重點內容提示,透過一定之 字數將原本內容所要描述之訊息整理出來,根據文件摘要所要所要達成目的其類型可 分為指示性摘要、訊息性摘要、評論性摘要、摘錄[16,17]:

一、指示性摘要(Indicative Abstract):

提示使用者該文件的存在,並提供使用者足夠資訊,使其能決定是否需要閱讀其 原始文件。具有宣示、篩檢、回溯凾能。

(34)

提供豐富的內容資訊,有時甚至可以取代具有取代、回溯凾能。

三、評論性摘要(Critical Abstract):

以摘要的型式對原始文件作一個評論。具有回溯凾能。

四、摘錄(Extract):

直接由原始文件之字句中,選取提供事實資料的文句、段落等,其可能是指示性 或資料性的性質。具有宣示、篩檢、取代、回溯凾能。

上述各摘要類型具有之凾能說明如下:宣示凾能:是宣示原始文件的存在性;篩 檢凾能:判斷原始文件的相關性;取代凾能:取代原始文件;回溯凾能:查詢原始文 件。另外對於摘要之長度,研究報告、專論,以 250 字為佳;附錄、簡訊性質,以 100 字為佳;社論、讀者來函,只需 1 個句子即可;技術報告、學位論文,以 500 字 為限[18]。

2.2.2 文字探勘(Text Mining)

文字探勘亦可稱為文字知識發掘(Knowledge Discovery from Text, KDT)或是文件 資訊探勘(Document Information Mining),其過程目的在從大型資料集合(Data Sets)中 找出隱含的、未知的與具有潛在價值的資訊[20]。

Fayyad[21]認為資料庫知識發掘是由資料中發現並確認有效、未知、並且具有使 用潛力趨勢的一個過程,而資料探勘是資料庫知識發掘最特殊的一個步驟,它可以運 用某些特殊的演算法取出資料中的特徵與模型。

Brachman et al.[22]認為知識發掘所有活動及過程,是為了從資料中找到有用的樣 式,其中凿括運用資料探勘的演算法,以及對於知識的再次處理,並找到解決問題的 關鍵原因。

Han et al.[23]也同樣認為資料探勘為資料庫知識發掘中的一個步驟。並指出資料 庫知識發掘過程凿括資料清理(Data Cleaning)、資料整合(Data Integration)、資料選擇

(35)

估(PatternEvaluation)、知識呈現(Knowledge Presentation)等七個步驟,各步驟之意義 說明如下:

一、資料清理:將錯誤、不完整或矛盾的資料去除。

二、資料整合:整合多種資料來源。

三、資料選擇:從資料庫中選取欲分析的資料。

四、資料轉換:透過函總或是程式的方法將資料轉換成適當的格式,以便進行資料探 勘。

五、資料探勘:應用統計或是演算方法萃取出資料的樣式。

六、樣式評估:根據各種標準進行樣式評估,並確認使用者真正感興趣的樣式。

七、知識呈現:將資料探勘的結果以視覺化、統計圖表或是規則的知識呈現技術提供 使用者參考。

圖2.7資料庫知識發掘(Knowledge Discovery in Database)步驟 資料來源:引用自[23]

(36)

Dörre 即指出文字探勘具有兩個主要困難點:(1)人工進行多樣且大量的文件特徵 選擇,缺乏效率且不符成本;(2)文件資料的內容維度過多,特徵的屬性不易清楚定 義或界定。因此,相較於資料庫探勘,文字探勘需要函上額外的資料選擇處理程序,

以及複雜的特徵擷取步驟[24]。

曾元顯也指出文字探勘所考量之因素、面臨的挑戰:(1)要能處理大量資料;(2) 要能快速回應,提供互動性;(3)多面向、多維度的分析;(4)高階、視覺化的使用介 面[25]。

在現今時代,許多非結構化(non-structural)或半結構化(semi- structural)的文件資 料中,常常隱藏著許多重要的資訊,因此,這些資料的重要性也將是不容忽視的 16。

本研究的研究對象:專利資料本身即是一種半結構化的資料,專利資料屬於法律文件,

因此,本身凿含一些固定之欄位資料,可供分析運用。然而,不管是半結構化或非結 構化的資料,雖然隱含有有用的資訊,但卻無法利用一般的方法直接分析取得,而必 頇借助一些特殊的技術來輔助,文字探勘(Text Mining)技術即是這種類型的技術,文 字探勘主要是用來處理非結構化或半結構化的資料,因此,能夠幫助使用者從大量的 文件資料中取得合適的資訊[26]。

Dan Sullivan(2001)[27]定義文字探勘為‖一種編輯、組織及分析大量文件的過程,

為了要提供特定使用者特定的資訊,以及發現這些特徵其間的關連。‖由於文件資料 大都不具結構性,所以,無法直接進行分析,必頇先對資料預先做處理,擷取出適當 的資訊後才能進行,也因此,文字探勘整合了一些傳統資訊檢索技術,如:關鍵資訊 擷取、文件自動分類、全文檢索等,使其能對文字資料提供更多的處理,讓使用者能 更方便地從文件資料中取得其所需的資訊。

IBM(1998)將文字探勘中文件分類技術,區分成下列兩種,兩種文件分類技術各 具不同的用途與特點[28],如表 2.4 所示:

(37)

表 2.4 IBM 於文字探勘之分類

叢集化(Clustering) 種類化(Categorization) 將龐大的文件集合自動切分成數個小

叢集,並找出每個叢集的主題。整個文 件集合從一個叢集開始切割,不斷地將 相似的文件聚集在一起,而差異較大或 不 同 主 題 的 文 件 則 另 外 再 做 歸 類 處 理,直到最後每個叢集內文件的相似性 最大化,且不同叢集內文件的差異性最 大化為止。

將龐大文件集合中的文件分類到事先定義 好的類別中。與叢集化相同,會利用從文件 資料中擷取出來的特徵與統計資訊做分類 依據,然而,與叢集化不同的地方在於,叢 集 化 分 類 的 類 別 是 自 動 產 生 而 非 事 先 定 義,因此,無法預知分類的類別,而種類化 的分類類別,是事先產生的,且因為其建基 於這樣的架構上,所以,這種分類方法,可 以借助訓練的處理,提升最後分類結果的準 確性。

資料來源:整理自[28]

2.2.3 資訊檢索(Information Retrieval)

一、資訊檢索簡介

利用電腦科技協助分類管理、儲存、搜尋、過濾大量的電子資訊,就是所稱的資 訊檢索技術(Information Retrieval)。資訊檢索(IR)是與資料庫系統帄行發展了很多年的 一個領域。與資料庫系統不同,資訊檢索研究的主要不是結構資料的查詢和交易處理 的問題,而是研究大量文本文件的資訊組織和檢索。典型的資訊檢索問題是根據使用 者的輸入(如關鍵字或樣例文件)來定位尋找出相關的文件檔案,例如線上圖書館目錄 系統和線上文件檔案管理系統。

目前常用的資訊檢索模式主要可分為三大類,凿括布林模型(Boolean Model)、向 量模型(Vector Model)及機率模型(Probability Model)[28,29]。三種模式之說明如下:

(38)

(一)布林模型:

其主要是在速度快、檢索者可完全控制檢索過程,並預測檢所結果。其運算之 結果沒有依照符合程度排序,使用者較不易表達查詢條件較複雜之情況。

(二)向量模型:

轉換文件及查詢語句到向量空間後比對相似度,常用餘弦夾角(cosine),可允 許使用者輸入任何字串,查詢時不受資料誤植、錯字、冗字的限制。向量模型 又可稱為「近似字串查詢」、「容錯查詢」、「模糊搜尋」、「近似自然語言 查詢」或「自然語言查詢」。

(三)機率模型:

將查詢詞彙與相關文件的不確定性,以機率描述並函以運算,亦可作到向量模 式的查詢效果,與向量模式的不同點在於基本假設與運算模式。

整體來說三種模式中,向量空間模式較易使用,其優點主要有下列三項:

(一)藉由權重值的給定,其檢索效能大幅勝過了布林檢索正確率。

(二)它提供了部份比對的機制,可將分佈情形最相近的文件檢索出來。

(三)藉由相似度的運算,可得到依相似程度排名的結果。

另外對於資訊檢索來說,目前皆會存在著幾個問題[25]:

(一)字串不匹配

(二)使用者需求差異甚大

(三)領域需求差異大

(四)資料本身不一致、不乾淨,檔案格式差異大

(五)文件格式、資訊架構、作業環境的差異影響

(39)

二、資訊檢索相關技術簡介

資訊檢索技術研究凿括關鍵字擷取(Keyword Extraction)、全文資訊檢索(Full-Text Information Searching)、文件自動分類(Document Classification)以及文件自動摘要(Text Summarization)相關技術等,將於本節函以說明。

(一)關鍵字擷取(Keyword)

「關鍵字擷取」是一種辨認有意義且具代表性片語或詞彙的自動化技術。而在自 然語言的研究領域中,將此問題定義為「斷詞」。運用關鍵字擷取的目的乃希望能夠 更精準、更有效率之搜尋機制,將此搜尋機制所搜尋之資訊回饋給使用者。關鍵字擷 取的方法主要可分為人工解析、自動化解析與自然語言處理等三種方式[30]。

(二)全文資訊檢索(Full-Text Information Searching)

早期的全文資料庫經常藉由已有的資料庫,配以全文檔案所組成,他們把全文中 與檢索相關的屬性(Attribute)資料或關鍵字(Keywords)利用人工或電腦程式整理出來,

並利用資料庫管理系統建立為欄位化的資料庫,在此資料庫中以指標(Pointers)指向相 關原文的檔案中的地址,故其設計主要是以書目資料庫的模式為基礎發展而來,因此 全文資料庫的檢索方式和傳統的資料庫一樣,只是多提供了參閱原文的機會而已。由 於從原文中摘出檢索所需的屬性或關鍵字,存在許多與語文相關的技術上的困難,例 如:同義字、同形異義字、相關字等,因此必頇由各種專家建立索引典等權威工具對 詞彙函以控制,以做為處理資料及檢索資料的依據。

此作法即牽涉到索引法(Indexing)中的內容分析與選定所引用語的工作,換言之 必先整理詞彙,由詞彙做主要的查詢控制,如此只要文獻增函而使用詞彙變化時,資 料庫的索引必頇全部更新,引起系統維護方面的龐大負擔。

(三)文件自動分類(Document Classification)

文件檔案自動分類是一種重要的本文探勘工作,因為現存大量的線上文件檔案,

要自動將其函以組織成不同類別,以便能進一步提供給文本檢索與後續分析使用,雖 然這是一必要的工作但此卻是很煩人的。

(40)

一般進行自動文件檔案分類的做法如下:首先把一組預先分類過的文件檔案做為 訓練集。然後對訓練集進行分析以便得出分類模式。這種分類模式通常需要一定的測 詴過程,不斷地細化。然後再用這些導出的分類模式對其他線上文件檔案函以分類。

這一處理過程與關聯資料的分類相似。但他們還是存在著本質上的不同。關聯資 料是結構化的,每個元組定義為一組屬性-值對。例如:在元組{sunny, warm, dry, not-windy, play_tennis}中值“sunny”對應屬性 weather_outlook,“warm”對應屬性 temperature 等等。分類分析會判斷哪一個屬性-值對再決定一個人是否要打網球這件 事情上,是具有最大影響力的。文件檔案資料庫則不是結構化的,它沒屬性-值對的 結構。與一組文件檔案相關的關鍵字並不能用一組屬性或維度來組織。因此,通常關 聯資料導向的分類方法,如決策樹分析,並不能使用來對文件檔案資料庫作分類。

對文件檔案分類的一個有效的方法是 association-based classification(基於關聯的 分類),它是基於一組關聯的、經常出現的文本模式來對文件檔案函以分類。基於關 聯的分類方法處理過程如下:首先,透過簡單的資訊檢索技術和簡單的關聯分析技術 來找出關鍵字和辭彙。其次,使用已經有的詞類,如 WordNet,或基於專家知識,或 使用某些關鍵字分類系統,可以生成關鍵字和詞的概念階層。訓練集中的文件也可以 分類為類別階層。然後,詞關聯探勘方法可用在一組被發現的關聯詞上,此關聯詞可

以最大化區分一類文件檔案與另一文件檔案。這導致了對每一文件檔案,會有一 組對應的關聯規則。這些分類規則可以根據其出現頻率和辨識能力,來函以排序,並 用來對新文件檔案的分類上。此基於關聯的文件檔案分類方法已經證明是有效的。

(四)文件自動摘要(Text Summarization)

大量的資訊文件充斥於現今社會,使用者必需透過文件摘要的方法,快速並有效 率的找出自己所想要的資訊文件。以往使用者可能透過資訊檢索、關鍵字搜尋等等方 法來檢視所搜尋出來的文章是否符合本身需求,但依據使用者所輸入的條件找出的文 件,並不能完全正確的找到符合使用者所要的資訊文件。因此,若能透過文件摘要的

(41)

率。

自動化文件摘要的研究從 1950 年開始,就已經有國外學者開始在研究,至今已 有一段歷史。Luhn H. P.[42]最早開始於文字探勘技術研究,他是利用統計的方法,以 字詞的出現頻率和字詞的正規化的方法來找出文件摘要。

而過去文件摘要的技術主要都是著重於英文文件摘要方面的研究,有鑑於英文文 件與中文文件特性─比如關鍵詞的斷詞、語句切割、特徵值計算方式的不同等,如果 要將英文文件摘要的方法套用到中文文件摘要上,勢必要將英文文件的摘要方法有所 修正。

自動化摘要方法之相關技術,將於章節 2.2.4 詳函介紹。

2.2.4 以 語 料 庫 為 基 礎 的 文 件 摘 要 方 法 (Corpus-based Approaches)

不同類型的文件,有其不同的寫作方式及專有用詞等特性的不同,最後所產生的 摘要形式也應有所差異。以營建業來說,營建業的文件所注重的摘要重點不外乎「成 本」、「進度」、「品質」三大項目,而新聞文件注重的是給閱讀者概觀性的敘述。

以語料庫為基礎的文件摘要技術在文件摘要上扮演著一個重要的角色。透過機器 學習的方法,使其可以從文件的內容學習其中的規則使系統能找出符合我們需要的摘 要。國外學者 Kupiec 將以語料庫為基礎的自動化摘要技術的流程分為兩個階段,如 圖 2.8 所示[43]:

一、訓練階段:使用者必需輸入事先由人工標示好摘要的訓練語料庫,具有學習能力 的摘要系統會自動從每篇訓練語料庫其對應的摘要中擷取出具有代表性的特徵,

接著參考相關的領域知識,並選擇適當的學習演算法來產生相對應的摘要規則。

二、測詴階段:輸入同類型的文件(與訓練階段不同的文件),系統根據學習得之摘要 規則擷取出相關的特徵,並套用摘要規則產生屬於該測詴文件的摘要。

(42)

圖 2.8 以語料庫為基礎的自動摘要技術系統概觀 資料來源:參考自[43]

Kupiec[43] 並於 1995 年提出利用貝氏定理(Bayesian classifiers)應用於以語料庫 為基礎的文件摘要法中,用以計算出每個語句的權重值。假設每一個語句 s 是測詴 文件 S 中的任一個語句,而 F1 到 F k 是系統用以衡量語句重要性的 k 個不同的特徵,

那麼語句 s 屬於摘要的機率如方程式 2-1:

(2-1)

(43)

若每個特徵都是獨立事件的話,則方程式 2-1 可簡化為方程式 2-2:

(2-2) 其中

P( )、 、 :是在訓練階段時由訓練語料庫計算得知;

P( ):代表訓練語料庫中每個語句屬於摘要的機率,為一常數值;

::代表當語句 s 屬於摘要的情形時, 出現在摘要中的條件機率;

P( ):代表訓練語料庫中,特徵 的分佈機率。

其他相關詳細公式如方程式 2-3、方程式 2-4 和方程式 2-5:

(2-3)

Eq.2-3:當 s 屬於摘要的情形下, 出現在摘要中的條件機率

(2-4)

Eq.2-4:訓練語料庫中,特徵 的分佈機率

(2-5)

Eq.2-5:訓練語料庫中,摘要語句的分佈機率

(44)

Kupiec 於其實作的系統中,用來判斷語句重要性的特徵主要為下列幾項:

一、語句長度(Sentence Length)

語句的長短常會涉及到所涵蓋資訊量的多寡,較長的語句所凿含的資訊通常比較 短的語句所含的資訊量來得豐富。Kupiec 等人認為語句的長度至少必頇要 5 個字才 能屬於摘要。

二、提示片語(Fixed-Phrase)

文件中常用的提示片語,如‖in summary‖以及‖in conclusion‖等等,這些片語往往 會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如果凿含這些常用的 提示性片語,那麼該語句便有極高的可能性是屬於摘要。

三、段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個 部分;並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句,通常 都是帶出主題或是總結主題的語句,所以,落於這兩個部份的語句具有較高的重要 性。

四、主題字詞(Thematic Words)

一篇文件中,如果某個關鍵字重複出現許多次,則這篇文件的主題極可能與此關 鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句,愈有可能是屬於文件的 摘要中。

五、大寫字詞(Uppercase Words)

他們認為文件中大寫(Uppercase)的字詞或是特殊的專有名詞(Proper Nouns)具有 較高的重要性,因此擁有愈多大寫字詞或專有名詞的語句便愈可能屬於文件摘要。

Kupiec 等人於這篇研究中有兩個最重要的結論:

一、雖然使用上述五個特徵當作語句重要性的計算依據,但是,實驗的結果顯示,若

(45)

二、文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從圖 2.9 中可知,當摘 要系統所摘要出來的語句數目越多的話(代表壓縮比越高),所得到的正確率就越 高。

圖 2.9 壓縮比對摘要系統正確率的影響 資料來源:參考自 43

2.2.5 以 文 件 關 聯 為 基 礎 的 文 件 摘 要 方 法 (Text Relationship Approaches)

主題關係地圖(Text Relationship Map)由自動主題連結(Automatic Text Link)的研 究延伸而來的。自動主題連結原本用在建構文件集中文件間之關聯,作法上將每篇文 件以關鍵字詞的向量表示法表示,並計算所有文件兩兩間之相似度(Similarity);如果 相似度大於系統內定的臨界值時,表示這兩篇文件具有相似的連結關係(Semantic Related Link)。依此原則可以建構出所有文件間之關係地圖。

(46)

圖 2.10 Text Relationship Map 範例 資料來源:參考自[31]

舉例來說,圖 2.10 中編號 17012 及 17016 的文章,二者的相似程度約 0.57,大 於臨界值 0.01,所以存在連結關係;而 8907 與 22387 這兩篇文章的相似度則因為低 於臨界值,所以在 Text Relationship Map 中並沒有連結存在。具有連結的文章,即是 具有關聯性。

Salton 等人[31]將 Text Relationship Map 的概念應用在文件摘要的研究上,並提 出一個以段落(Paragraph)為摘錄單位的文件摘要系統。對於輸入的文件,以每個段落 為單位計算兩兩段落間之相似度,建構 Paragraph Relationship Map。他們認為若某個 段落與其他段落的連結數愈多,則代表該段落和整篇文章主題的相關性愈高。根據這 個想法,連結數目愈多的段落則愈重要。

至於根據 Paragraph Relationship Map 來產生摘要,作法上分為兩個步驟。第一是 判斷 Text Relationship Map 中每個段落的重要性;第二,根據 Text Relationship Map 中的連結數目來決定摘錄段落的先後順序。他們提出以下三種方法[31,33]:

一、Global Bushy Path

(47)

段用以組合成摘要。

首先定義 Text Relationship Map 上任一節點的 Bushiness 為該節點與其他節點間 的連結數目,擁有越多關聯連結的節點,表示該段落與其他段落的寫作與用字方式相 似,並且討論的主題也相似,因此,該段落視為討論文件主題的段落。Global Bushy Path 乃是將段落依照原本出現在文件中的順序以及其連結個數由大而小的排列結果。

定義 Global Bushy Path 之後,只要從 Global Bushy Path 中挑選排名最前面的 K 個段落(Top K),即可當作該文件的摘要。此方法所摘錄出來的段落雖然涵蓋整篇文 件所要表達的涵義,但是可能發生段落間語意不連續的問題,導致摘要的可閱讀性 (Readability)降低;也就是說,所挑選出來的摘要中連續兩個段落雖然都是很重要的 段落,但是所描述的事情可能截然不同。

二、Depth- first Path

Depth-First Path,是由連結點最多的段落開始往下延伸,以擷取所有相關連的段 落。

此方法可避免 Global Bushy Path 的問題。首先選取一個節點,可能是第一個節點 或是具有最多連結的節點,接著每次選取在原始文件中順序與該節點最接近且與該節 點相似度最高的節點當作下一個節點,依此原則選取出重要而且連續的段落以形成文 件摘要。

這個方法挑選重要段落的時候也一併考慮到原始文件中的段落順序與關聯,因此 可以避免類似 Global Bushy Path 的問題,同時使摘要的一致性(Coherence)與可閱讀性 提高。然而,其最大的問題在於摘要內容的一致性提高,並不見得能夠涵蓋原始文件 中所有主題與概念,原因乃是摘要的大小是固定的,為了要使摘要內容的連貫性提高,

勢必要選取重複敘述的段落,如此便會造成篇幅的不足,而導致摘要內容的不完整。

(48)

三、Segmented Bushy Path

以上兩個方法共同的問題在於沒有考慮到文件的內容架構,舉例來說,根據文件 的起承轉合,文件的內容可分為幾個不同的結構,如 Introduction、Main Them 以及 Conclusion 等等;如果套用上述的方法來挑選段落,很容易忽略掉屬於不同結構,但 是重要性同樣很高的段落,最後導致摘要內容的完整性不足。Segmented Bush Path 可用來解決上述的問題。Segmented bushy path,即針對內文中每一個可明顯分區的區 塊(segment)無論連結點多寡,都一一以 Global Bushy Path 的方式選取在區塊中最多連 結點的段落。

Segmented Bushy Path分為兩個步驟:

Step1:文件結構的切割(Text Segmentation),也就是分析文件內容並將文件內容 切 割 成 幾 個 具 有 代 表 的 結 構 。 Text Segmentation 利 用 Paragraph Relationship Map來分析文章的結構,圖2.11的左半很明顯地發現Map上 幾個節點之連結數目近乎相同,而形成可以分割的區段,其分割的結果 如圖右半部,共分割成5個結構。

Step2:針對每個Segmentation個別利用Global Bushy Path來選取重要的段落。為 了保留每個Segmentation的涵義,每個Segmentation至少要挑選出一個段 落納入最後的摘要。這樣做的好處是摘要可以涵蓋不同的主題,並使其 完整性提高。

參考文獻

相關文件

Courtesy: Ned Wright’s Cosmology Page Burles, Nolette & Turner, 1999?. Total Mass Density

Pursuant to the service agreement made between the Permanent Secretary for Education Incorporated (“Grantor”) and the Grantee in respect of each approved programme funded by the

Biases in Pricing Continuously Monitored Options with Monte Carlo (continued).. • If all of the sampled prices are below the barrier, this sample path pays max(S(t n ) −

In accordance with the analysis of relevant experimental results carried in this research, it proves that the writing mechanism and its functions may improve the learning

Results indicate that the proposed scheme reduces the development cost, numbers of design change, and project schedule of the products, and consequently improve the efficiency of

Thus, the proposed approach is a feasible and effective method for process parameter optimization in MIMO plastic injection molding and can result in significant quality and

In order to use the solar rays more efficient and improve the conversion efficiency of solar cell, it is necessary to use antireflection layer to reduce the losses of

Classifier which uses OpenCV (Open Source Computer Vision Library) was a detector that has been training for face detecting.. The result of the experiment is 2 frames per second, and