• 沒有找到結果。

{ “發明說明” (Detailed Description of the Invention)中之某個語句 }

者,即代表此概念(Concept)以及相對於此概念之下位用語之語意關聯強度愈高,也 愈能夠用來詮釋較為抽象化的上位概念,作為重要概念(Concepts)的語意參考索引。

3.2.7 運用 SAO 句型之關聯(Relation)擷取

此部份元件可參考如圖 16所示之

t

的部份。在擷取專利文獻中重要的概念(Concepts) 後,接下來就要緊接著進行關聯擷取(Relation Extraction)的動作。因本研究所採用的乃 是英文文法『主詞 + 動詞 + 受詞』(Subject-Action-Object,簡稱 SAO)結構句型的模 組,其中 “S”和“O”的部份皆屬前項步驟所指稱的概念(Concepts),故而我們可以將基本 的『動詞群』(Verbs)視之為一種“候選的關聯"(Candidate Relations),以此作為我們擷 取“關聯(Relations)”的一種基本準則。亦即,將介於兩個概念(Concepts)之間的基本動詞 (Verbs)或者是其他非含於概念(Concepts)裡頭的基本動詞(Verbs) 擷取出來,以作為候選 之關聯(Relations)、SAO結構中的Action(如圖 21所示)。

圖 21:“候選關聯"(Candidate Relations)擷取方法示意圖

3.2.8 SAO 單元句擷取

此部份元件可參考如圖 16所示之

u

的部份。SAO單元句擷取之基本構想,主要來自 於【第四章.第一節 中文專利摘要人工實驗解析】一節之說明。我們可以用 3.2.2 步驟

一(Neu) 處理(VC) 模組(Na) ,(COMMACATEGORY)

,(COMMACATEGORY) 耦合(Na) 至(P) 該(Nes) 輸入(VC) 模組(Na) ,(COMMACATEGORY) ,(COMMACATEGORY)

接收(VC) 該(Nes) 影像(Na) 資料(Na) ,(COMMACATEGORY) ,(COMMACATEGORY) 分析(VC) 該(Nes) 影像(Na) 資料(Na) 中(Ncd) 樣本(Na) 物體(Na) 表面(Na) 之(DE) 陰影(Na)

明暗度(Na) 及(Caa) 方向性(Na) ,(COMMACATEGORY)

,(COMMACATEGORY) 且(Cbb) 輸出(VC) 存取(VC) 信號(Na) 及(Caa) 輸出(VC) 信號(Na) ,(COMMACATEGORY)

“候選關聯”

(Candidate Relations)

將句子截切後的資料結構為單位,然後再以“,"作為分隔符號將上述單位再做另一次 之截切,使之成為SAO擷取來源對象的基本單位。接下來再以『基本動詞』(Verbs)為核 心,將介於兩個概念(Concepts)之間的『基本動詞』(Verbs)視之為“關聯(Relations)",

或者是與其前、或後之概念(Concepts) 設法橋接,以判斷是否能夠有機會順利銜接而結 合成為一SAO結構的單元句。之後,將這些順利擷取出之SAO單元句暫存之,如此即可 完成本程序之運算處理。茲將關鍵性的擷取步驟三部曲解析如下,如圖 22Î 圖 23Î 圖 24之順序所演示。

圖 22:SAO結構句擷取處理過程三部曲之第一部

V】【S 置換成

)) _O

【S 置換成

)) S

S】【V 置換成

)) _V

【V 置換成

)) V

V】【V 置換成

)) _

S】 置換成

))

""

S】【S 置換成

)) _

V】 置換成

))

""

圖 23:SAO結構句擷取處理過程三部曲之第二部

圖 24:SAO結構句擷取處理過程三部曲之第三部

【S自動影像置換重建系統S】,【V包括V】

【S輸入模組S】,【V輸入V】【S外部之影像資料S】

【S處理模組S】,【V耦合V】【S輸入模組S】,【V接收V】【S影像資料S】,

【V分析V】【S影像資料中樣本物體表面之陰影明暗度及方向性S】,【V輸出V】【S存取信號及輸出信號S】

【S儲存模組S】,【V耦合V】【S處理模組S】,【V接收V】【S存取信號S】,【V進行V】【S影像資料S】【V存取V】

【S輸出模組S】,【V耦合V】【S處理模組S】,【V接收V】【S輸出信號S】,【V進行V】【S影像資料S】【V輸出V】

【S輸入模組S】【VV】【S掃描器、電腦攝影機及數位相機S】

【S處理模組S】【VV】【S中央處理單元S】

【S儲存模組S】【VV】【S資料庫系統S】

【S輸出模組S】【VV】【S顯示器、印表機及繪圖機S】

S自動影像置換重建系統,V包括 S輸入模組,V輸入_O外部之影像資料

S處理模組,V耦合_O輸入模組,V接收_O影像資料,V分析_O影像資料中樣本物體表面之陰影明暗度及方向性,

V輸出_O存取信號及輸出信號

S儲存模組,V耦合_O處理模組,V接收_O存取信號,V進行_O影像資料_V存取 S輸出模組,V耦合_O處理模組,V接收_O輸出信號,V進行_O影像資料_V輸出 S輸入模組_V_O掃描器、電腦攝影機及數位相機

S處理模組_V_O中央處理單元 S儲存模組_V_O資料庫系統

S輸出模組_V_O顯示器、印表機及繪圖機

3.2.9 SAO 結構句之合成術

此部份元件可參考如圖 16所示之

v

的部份。這裡所謂的合成術乃是將前項步驟的 分項成果,進行綜合的歸納整理。其合成構想如下:

首先,將所有從“申請專利範圍”(Claims) 部份所擷取出的概念(Concepts)對應到從

“發明說明”(Detailed Description of the Invention) 部份所擷取出來的下位用語,然後再參 酌概念(Concepts)與概念(Concepts)之間的共現矩陣數值做一些決策,數值愈高者必然可 以成為該概念(Concept)語意相符之下位用語的參考索引部份。而 SAO 結構句組的部份

,則依其在“申請專利範圍”(Claims) 中的階層結構關係直接做合成之處理;除此之外,

本研究也設計了下列之規則,以作為 SAO 結構句組橋接的依據,使摘要成為一可讀之 自然語言之形式。銜接規則簡述如下:

若相鄰之兩個 SAO 結構句(S1-A1-O1)、(S2-A2-O2)中,若 O1 等同於 S2 的話,則 可將之整併為一語句(S1-A1-O1-A2-O2。),依此類推。

若相鄰之多個 SAO 結構句(S1,A1,O1)、(S2,A2,O2)、(S3,A3,O3)……中

,若發現主詞 S1 等同於主詞 S2 等同於主詞 S3……的話,則可將之整併為一語句 (S1-A1-O1,A2-O2,A3-O3,……。),依此類推。

最後,再依我們對使用者所規劃的資訊量之需求,分別產生下列步驟所述之 Small、

Medium、Large 的摘要出來。

3.2.10 基於 SAO 結構之中文專利文獻自動摘要

此部份元件可參考如圖 16所示之

w

的部份。如果專利分析師或研發工程師想知道 某件專利的詳細內容,就勢必需以如同以往的方式來仔細閱讀完此篇專利所有的全文內

容後方能準確得知。然而,再經過我們審慎的觀察這些專利文獻的撰寫特性後,我們將 可發現到這之間的閱讀其實會有不少的時間、精神是花在不斷重覆的內容上,只因專利 所有權人為了尋求法律上更多的權利保障,而將字句的詮釋不斷地向外擴展及延伸,透 過模糊焦點的策略,以擴大專利保護之範圍。這也間接造成了因閱讀的資訊量過於龐大 而讓專利分析師或研發工程師無形間降低了閱讀的品質。

針對這些現象,我們將專利全文中的“申請專利範圍”(Claims) 部份以不更動內容主 體的情況下,將重覆的資訊內容透過資訊量大、中、小不等的安排方式來予以顯現(詳 情請參閱【第四章.第一節 中文專利摘要人工實驗解析】一節之說明),以方便閱讀者自 行控制閱讀之篇幅,可選擇性地跳過重覆的資訊而不錯失重要的資訊。讓專利分析師或 研發工程師優先閱讀以自然語言來描寫並帶有豐富資訊量的專利文摘內容,達到『用最 短的時間,閱讀最精華的資訊』之目的。所以,我們依據使用者對資訊量需求的設想,

分別產生出了Small、Medium、Large等資訊量不等的摘要出來,其方法描述如下:

第三節 與方法 A 之擷取技術比較

本研究係與資策會電子商務研究所共同合作之創新前瞻技術之研究。而所述之『方 法A』乃是發表於[31]2004 年第十五屆物件導向技術及應用研討會中之論文:『以 SAO 物件為基礎之中文專利文件摘要方法及架構』所提之演算方法。而其中,攸關於 Concepts

 Small(小):以“申請專利範圍”(Claims)中的第一個獨立項之 SAO 結構句組來產生 資訊量最為精簡的專利摘要,用以代表專利全文。

 Medium(中):以“申請專利範圍”(Claims)中的各獨立項之 SAO 結構句組來產生資 訊量適中的專利摘要,用以代表專利全文。

 Large(大):以“申請專利範圍”(Claims)中的全體獨立項及其所屬之依附項的 SAO 結構句組來產生資訊量較為豐沛的專利摘要,用以代表專利全文。

(概念)及 SAO 結構句擷取之技術,與本研究所提之演算方法是截然不同的。關於本研究 意義的最長詞彙(Longest Term)』。

2.先宣告“第一次提及”和“第二次及之後

以及其它經驗法則(Heuristic Rule)。

3.訂定一些前置處理作業,以作為擷取 每一 Claim 的 Concepts 之用,

4.修正一些 Claim Tagging 後之結果:針 對斷詞及詞性標記部份的謬誤現象,

嘗試用一些通則作為 Heuristic Rules 來調校與修正,

5.針對上述 4.修正後之結果(TagContain) 做 Conepts 的擷取。 的 Concepts(概念) 及 Relations(關聯)

,再進一步擷取出 SAO 的物件。其

術 (Relations)、SAO 結構中的 Action。

4.以上述 3.之“候選的關聯"(Candidate Relations)為核心,將介於兩個概念

3.Concepts(概念) 擷取時,由於受到『長 詞優先法則』以及『針對斷詞及詞性