• 沒有找到結果。

第三章 專利語料來源與技術名詞表建置

3.1 專利語料來源

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

第三章 專利語料來源與技術名詞表建置

本章主要說明專利資料的處理,3.1 小節說明我們的專利語料來源及篩選方式取 得高品質的專利句對;3.2 小節描述如何建置並過濾取得較高品質的技術名詞表。

3.1 專利語料來源

本研究使用 Patent Translation Task at NTCIR-9[13]一百萬筆英漢對照的專利文句 作為研究語料,中文部分為簡體中文。該份語料分為兩個檔案,一為英文專利文 句,另一則為對應英文句的中文專利文句,並使用編號末碼標示對應關係,如表 3.1 所示。3.1.1 小節敘述進行短句切割求得較高品質對應,3.1.2 小節則描述技術 名詞斷詞問題。

表 3.1 英漢專利文句對應關係

英文專利文句 中文對應專利文句

WO9830090-2 First, the antimicrobial agent must be soluble or dispersible in the cyanoacrylate composition at the concentrations necessary to effect antimicrobial properties.

CN1246032-2 第一,抗微生物剂在腈 基丙烯酸酯组合物内必须是可溶或可 分散的,其浓度需要达到能产生抗微生 物性质。

antimicrobial cyanoacrylate composition which comprises: (a) a polymerizable cyanoacrylate ester;

因此,在本发明组合物的其中一个方

in one of its composition aspects, 在本发明组合物的其中一个方面,

this invention is directs to an antimicrobial cyanoacrylate composition which comprises:

本发明涉及一种抗微生物组合物,它 含:

(a) a polymerizable cyanoacrylate

ester; (a)可聚合的腈基丙烯酸酯;

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

專利文句對列系統會計算英漢文句對列的對應分數,因此我們設定值得信賴 的門檻值取得較高對列品質的短句,作為我們的使用資料。在原本的一百萬組長 句對中,超過本研究設定的門檻值有 338846 組長句對;這三十三萬的長句對又 被拆成 1148632 組短句對為本研究所使用。這些短句對經過人工抽樣檢驗,我們 相信是具有正確翻譯關係的英漢對列文句。

3.1.2 專利文句的斷詞問題

專利文書最大的特色,就是其內容包含許多技術名詞;而本研究為了排除技術名 詞的資訊,以獲得常用的英漢動名詞組合,我們必頇將技術名詞正確標記以便去 除。技術名詞與一般詞彙(這裡所指稱的「一般詞彙」是指日常生活中對話、寫 作或閱讀所習慣的用詞。)性質不同,不同專業領域有不同的技術名詞,而技術 名詞通常含有知識性及專業意義;非專業領域、不熟悉技術名詞用法的人,如果 要認知技術名詞的涵義有其困難性。就人類的閱讀上而言,我們需要有基本的詞 彙單位判斷機制;例如,在英文專利文句中看到「adaptation level theory(適應 水準理論)」這三個英文詞彙,如果閱讀者具有相關的專業背景,就不會把三個 詞彙分開來閱讀,因為這三個詞彙的出現具有特定專業意義,是一個技術名詞,

單位是一個複合詞。若是在中文專利文句出現「適應水準理論」,我們可能會誤 解成「適應」為動詞、「水準理論」是一個詞彙,或是解讀成「適應」「水準」的

「理論」,一樣需要有專業的知識才會知道這六個字是為一個技術名詞。

如果人類要讀懂技術名詞需要有「知道這是技術名詞」的基本條件,那麼透 過技術名詞表將專利文句中的技術名詞斷詞,就是讓剖析文句的系統能夠「知道」

分割出來的是「技術名詞」,而不是當成一般詞彙處理。因此,得到較高品質的 短句對後,如何將專利文句正確斷詞是我們接下來要解決的問題。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

如果直接使用一般的方式斷詞,會造成技術名詞被錯誤切割、失去專利文句 及技術名詞的原意,錯誤標記詞性,甚至造成文句結構被嚴重扭曲,再經過剖析 器就會得到錯誤的剖析結果,對於我們想要尋找動名詞組合是很大的阻礙。因 此,將技術名詞完整切割、並指定其詞性為名詞為最能幫助文句保持原意及被正 確解析的方法。為了不讓技術名詞被錯誤斷詞,我們需要建立一個技術名詞資料 表,以供技術名詞斷詞的比對;如果詞彙比對成功,便將專利文句中的技術名詞 切割並標記之。我們以表 3.3 來說明英文技術名詞的斷詞問題。如果直接將未斷 詞例句直接使用 Stanford Parser[15]進行剖析,Stanford Parser 會將該技術名詞斷 為好幾個詞彙及詞性,使得技術名詞的特色消失,且剖析成不正確的結構樹。表 3.4 則為中文技術名詞的斷詞範例,文句中若包含化學合成物,通常會是關鍵的 技術名詞。目前最常被用到的斷詞系統為中央研究院的中文斷詞系統[22],但若 直接將範例詞彙「羰基化戊烯腈」送至中研院斷詞系統,其回傳的斷詞結果不但 有錯誤,甚至有罕見字「氰」的編碼錯誤的問題。由上述的兩則範例可知,正確 切割技術名詞是基本且重要的步驟。為了求得更精確的技術名詞以增進斷詞效 能,在下一節本研究將描述我們所蒐集的技術名詞表來源及技術名詞表的過濾方 法。

表 3.3 英文技術名詞斷詞範例 原始詞彙 abbreviated address calling

正確斷詞 abbreviated address calling/NN

錯誤斷詞 abbreviated/NN address/NN calling/VBG 表 3.4 中文技術名詞斷詞範例 原始詞彙 羰基化戊烯腈

正確斷詞 羰基化戊烯腈/NN

錯誤斷詞 羰 (FW) 基 (Nc) 化 (VG) 戊 烯 (Na) &#(FW) 3 3 0 9 6 (Neu) ;

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

表 3.5 技術名詞表內容格式

英文技術名詞 對應的中文技術名詞

acceptable price range 可接受價格範圍 accessory olfactory bulb 副嗅球

accessibility heuristic accessibility heuristic

易提取性捷思法 易觸及性捷思法

anamnia,Anamniota

無羊膜動物

densitometer; scanning

掃描密度計

demodulator; product; product detector demodulator; product; product detector

乘積解調器 乘積檢波器