• 沒有找到結果。

第四章 語料前處理及近義詞典建置

4.3 英漢動名詞組合對列

4.3.3 英漢動名詞組合對列流程

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

句對編號:54098

英文動名詞組合 對列關係 中文動名詞組合

dobj(round-7, edge-10)

dobj(清除-12, 部分-19)

dobj(remove-15, portion-17)

dobj(使-24, 肩部-27)

dobj(进-29, 圆滑-31) 圖 4.5 英漢動名詞組合對列範例

4.3.3

英漢動名詞組合對列流程

在第三章的部分,我們已經得到英文及中文專利文句的動名詞組合。經過統計,

英文專利文句共產生 375041 個動名詞組合,中文專利文句則產生 465866 個動名 詞組合。為了確保我們所使用的動名詞組合的品質,本研究使用英漢合併字典所 收錄的英文詞彙檢驗英文動名詞組合,只有當組合中的動詞及名詞詞彙都有出現 在字典中,我們才認定這個組合是正確的,在這個步驟也同時排除了那些含有技 術名詞的動名詞組合;經過濾之後,有 254091 個英文動名詞組合通過檢測。我 們對於中文的動名詞組合也進行了同等的檢驗,透過我們的近義詞典含有的中文 詞彙過濾,最後有 249591 個組合通過檢測。為了檢視我們的近義詞典是否真的 比貣一般的中文字典能找到較多的中文動名詞組合,我們以 E-HowNet 收錄的中 文詞彙來做測詴,發現通過檢驗的動名詞組合只有 230492 個,比貣近義詞典少 找了 19099 個詞彙,證明我們的近義詞典確實有助於英漢文動名詞組合的對列。

由於英漢專利平行文句語料庫有句對編號,我們可以透過編號得知英文及中文文 句的對應關係;如圖 4.5 所示,編號第 54098 個句對中,英文句有兩個動名詞組 合,中文句則有三個動名詞組合。我們的對列方式主要依賴近義詞典所提供的資 訊,對列規則為:如果英文的動名詞組合,都能在各自的近義詞集中找到中文對 應句中動名詞組合的動詞與名詞詞彙,才算對列成功。我們逐一地從英文句取出 動名詞組合,以圖 4.5 為例,首先取出「round,edge」這一組動名詞組合,並

「portion」則在英漢合併字典、E-HowNet 及一詞泛讀系統的次擴充詞彙都可以 比對到「部分」一詞。完成對列的英漢文動名詞組合便以下頁表 4.16 的形式記 錄,本研究對列成功的英漢動名詞組合共有 35811 組。

表 4.14 以圖 4.5 為例的對列說明:「remove」

英文詞彙:remove

【Dictionary】

移動、搬開、調動、脫掉、去掉、消除、使離去、把...免職、

撤去、殺死、殺害、移交、遷移、搬家、離開、距離、間隔、

一步之差、英國學校中學校升級前被安排的班級、升級、移開、

脫下、消除某物、移居、差距、間距

【E-HowNet】

動、移、動彈、躁進、運行、攜離、取走、播遷、拿開、挪開、

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

表 4.15 以圖 4.5 為例的對列說明:「portion」

英文詞彙:portion

【Dictionary】 部分、一份、一客、一份遺產、命運、定數、把...分成多份、

分配、給...一份嫁妝、每人一份、嫁妝

【E-HowNet】

逢年過節、節日、節慶、撮、截、節、片段、些許、片斷、

部分、部份、節錄、半政府、一部分、嫁妝費、添房、妝奩、

陪嫁、嫁妝

【一詞泛讀】

部分、有、有的、片、有些、片段、局部、命運、數、命、

運、運氣、天命、天數、天意、造化、定命、定數、氣運、

氣數、大命、大數、世運、命數、運道、紫微斗數、分、分 配、分發、分派、嫁妝、妝、陪嫁、陪送、陪奩

表 4.16 英漢動名詞對列格式 improve, efficiency:改善, 效率

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

35