• 沒有找到結果。

第三章 專利語料來源與技術名詞表建置

3.2 技術名詞表建置

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

表 3.5 技術名詞表內容格式

英文技術名詞 對應的中文技術名詞

acceptable price range 可接受價格範圍 accessory olfactory bulb 副嗅球

accessibility heuristic accessibility heuristic

易提取性捷思法 易觸及性捷思法

anamnia,Anamniota

無羊膜動物

densitometer; scanning

掃描密度計

demodulator; product; product detector demodulator; product; product detector

乘積解調器 乘積檢波器

3.2 技術名詞表建置

本研究使用國家教育研究院學術名詞資訊網[25]公開的技術名詞檔案整合為技 術名詞表;我們取得 138 個不同領域的技術名詞 Excel 格式檔案,檔案大小共有 177MB,並統整成技術名詞表。在技術名詞表中,每一個英文技術名詞都有與其 對應的中文技術名詞,且對應關係並不唯一,本研究將技術名詞表的翻譯詞對規 列成一對一的形式,如表 3.5 所示。3.2.1 與 3.2.2 小節分別描述如何使用 E-HowNet[6]及 WordNet[17]過濾技術名詞表,3.2.3 為小結論。

表 3.5 以粗框圈選的技術名詞代表同一個英文技術名詞對應到不只一個中文 技術名詞翻譯。在這樣的情況下,我們把一對多的對應關係分列為一對一的對應 模式,如「accessibility heuristic」對應到兩個不同的中文技術名詞,則在技術名 詞表中會拆成兩筆紀錄儲存。以灰底及粗斜體標示的末四列,其英文技術名詞內 含的標點符號具有不同的標示意義:倒數第四列的逗號表示前後詞彙是相等的

(anamnia 等同 Anamniota);而倒數第三列的分號表示分號後面的詞彙應搬到分

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

號前面的詞彙之前(scanning densitometer 等同於「掃描密度計」);末兩列的分 號意義就又不一樣了,第一個分號表示「product」應搬至「demodulator」之前 形成「product demodulator」並對應至中文技術名詞的「乘積解調器」,而第二個 分號表示「product detector」應對應至「乘積檢波器」。由上述的內容可以發現,

英文技術名詞的相隔符號所代表的意義複雜,即使人為都不容易辨認其符號意 義,我們亦無法精通各個專業領域以完全解讀符號帶有的實屬分隔意義對英文技 術名詞作拆解。技術名詞表中具有分隔符號的英文技術名詞僅佔極少的比例,因 此本研究不針對英文技術名詞的標點符號作拆解處理,僅將之簡單視為一筆技術 名詞。我們的技術名詞表依照上述的規則,總共記錄了 804068 個英漢對應的技 術名詞詞對。

我們發現,在技術名詞表當中,無論是英文或是中文,都有些許的技術名詞 更常被當作一般用語詞彙。我們嘗詴直接以 804068 個詞對將專利文句作斷詞,

發現句子中幾乎每一個詞都被當作是技術名詞;許多詞彙為一般常用詞彙,卻被 錯誤標記為技術名詞。探究其原因,發現從學術名詞資訊網取得的檔案含有不少 一般常用詞彙。為了過濾這些詞彙,本研究提出使用 E-HowNet 及 WordNet 來幫 助我們刪除一般詞彙,留下技術名詞於技術名詞表,以下兩小節作更多說明。

3.2.1 使用 E-HowNet 過濾技術名詞表

中央研究院所開發的 E-HowNet 是根據 HowNet[9]的語義義原知識本體架構修改 建構而成, E-HowNet 內含 88075 個中文詞彙。本研究認為, E-HowNet 所收 錄的中文詞彙可以代表我們日常生活中一般常用的詞彙,使用這些詞彙幫助過濾 技術名詞表是可行的方式之一。如果技術名詞表中的中文技術名詞也有出現於 E-HowNet,我們相信該詞對應歸類為非技術名詞,當作一般詞彙使用的機率較

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

大,因此除去該詞對。E-HowNet 共識別出技術名詞表中有 71333 個詞對更適合 被當成一般詞彙而非技術名詞。

3.2.2 使用 WordNet 過濾技術名詞表

使用 E-HowNet 過濾技術名詞表是從中文的角度發想,我們也頇對稱地檢驗技術 名詞表中是否內含英文的一般詞彙。我們相信 WordNet 包含的英文詞彙可以視 為一般日常生活的英文用語代表,因此,除去技術名詞表與 E-HowNet 的交集後,

我們改以英文詞彙的角度觀看,採用 WordNet 來幫助過濾技術名詞表。WordNet 中含有 154754 個英文詞彙及英文短片語。經過 WordNet 的比對,總共過濾了 80220 個詞對。雖然除去了八萬多個詞對,但是有許多詞對的英文詞彙是重複 的,實際上並沒有真的除掉八萬多個英文詞彙,僅除去 29861 個英文詞彙。

3.2.3

小結

經過 E-HowNet 和 WordNet 的檢測,我們的技術名詞表約略除去了 14%的詞對,

現存有 690640 個技術名詞詞對。我們相信這六十九萬個技術名詞詞對具有較高 的品質,即為較準確的專業領域用語,降低與一般詞彙產生斷詞衝突的機率。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17