• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

1

第一章 緒論

1.1 研究背景與動機

當今的社會可視為一個地球村,即使住在不同的國家、使用不同的語言,無論是 商業貿易或是文化交流,人們相互溝通的情形相當普遍;英文更因為其容易理解 及表述的語言特質成為世界上不同語言使用者通用的溝通語言。因應世界文化潮 流,除了自身國家的母語,英文成為最多人學習的語言。

然而許多研究指出,將英文作為第一外語學習者 (EFL learners: English as a Foreign Language learners) 受到自身國家母語文法影響,容易在英文動詞及名詞 的搭配組合上產生誤解及用法。例如,「take pills」一詞若依照中文使用者的直 覺,可能會翻譯解釋為「拿藥」而非正確對應至「吃藥」。因此,我們對於英文 中常用的動名詞組合與之對應至中文的關係感到有趣,並想透過大量正確對應的 英漢平行語料庫,找尋英漢動名詞組合 (V-N-collocation) 適切的對應關係。

若提到大量的語料,我們首先聯想到了專利文書。專利文書是一種宣示並提 供專利保護的重要文件。世界社會持續地進步,許多不斷創新的發明與技術被撰 寫成為專利文書。當發明一項專利時,專利發明者為了讓世界各國使用不同語言 者可以共同瞭解這項專利,同時也向外擴張專利的保護領域,發明者可以提出多 種語言版本的專利文書以保障自己的技術。專利文書的重要性更可以從 Google Patents beta[8]提供的英文專利文書檢索服務看出;Google[7]號稱其專利資料庫蒐 集了七百萬篇以上的專利文書,以豐富的收藏量宣示他們強大的檢索服務。既然

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2

單語言的專利文書數量如此龐大,那麼同時具有多種語言版本的專利文書也就不 在少數。如果我們將專利文句正確解析、並排除技術名詞在外,剩餘的文句結構 及內容不失為一個值得運用的語文使用參考資料;特別是許多專利文書具有英漢 對應的語言版本,可以作為雙語語料使用。因此,我們可以看待跨語言的專利文 書為資料量豐富的平行語料庫。由於我們希望有極豐沛的語料,能讓本研究統計 並分析這些常見英文動名詞組合與中文動名詞之間的對應關係,因此本研究利用 專利文書豐富的英漢對應資料,並排除技術名詞的影響,詴圖挖掘一般常用英漢 動名詞組合對應的用法。

除了分析英漢專利文句平行語料庫[13],為了比較不同語料是否有不同的分 析結果,本研究另外以相同方式分析科學人雜誌英漢對照電子書[24],以比較不 同語料間是否有不同特性。本研究將英漢互為翻譯的文件視為一體,英文及中文 的動名詞組合作為我們的觀察對象,建構由真實世界語料反應的語言翻譯模型。

1.2 研究方法

下頁圖 1.1 為本研究的系統流程圖。我們使用技術名詞表將英漢平行語料庫進行 技術名詞斷詞,句子中剩餘未斷詞部分,我們使用 Stanford Chinese Segmenter[14]

對於中文文句斷詞,英文文句則使用 Stanford Parser[15]及其字典模型進行詞幹 還原。接著運用 Stanford Parser 將斷完詞後的句子進行結構剖析,得到關係樹結 構 (dependency tree) ,再從關係樹結構取得句子中的動名詞組合。中文及英文 文句都取得各自的動名詞組合後,本研究使用牛津現代英漢雙解詞典[4]、Dr.eye 譯典通線上字典[5]、E-HowNet[6]及一詞泛讀系統[21]製作成近義詞典,並使用 近義詞典的資訊對列英漢動名詞組合。對列完成的英漢動名詞組合為本研究訓練 及測詴模型的資料,最後產生系統翻譯模型。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3

圖 1.1 系統流程圖

1.3 研究成果

本研究分析兩套同屬科技類但是不同性質的英漢平行語料庫:專利文句及科學人 雜誌,以相同的方式處理語料、建置模型及評量翻譯效果。本研究分別針對英文 動名詞組合中的動詞與名詞翻譯成中文,並設想加入中文對應的資訊是否能增進 翻譯效能,因此進一步各別取出較難翻譯的動詞和名詞詴探翻譯模型成效;實驗 結果顯示本研究所提出公式組合翻譯模型能在提供五個答案時幾乎都能包含正 確的翻譯答案,且經過我們的公式組合可以將正確答案往前排序。目前實驗顯示 增加中文對應資訊時,固然有助於提高翻譯品質,但是效果暫不明顯,有待更精 確的實驗設計來確認英文中譯詞對於英文動詞與名詞的翻譯貢獻度。

1.4 論文架構

在第一章的部分我們描述研究背景、研究方法成果及系統流程結構,第二章則介 紹與專利文書、英文教學輔助翻譯、使用子結構輔助翻譯及英文動名詞組合等相

英漢平行 語料庫

一般詞彙

斷詞 文句剖析

訓練資料

測詴資料 動名詞組合

對列 模型訓練

技術名詞 斷詞

系統翻譯 模型

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

關研究。第三章交代本研究所使用的專利語料來源及技術名詞表的建置方法。第 四章描述專利語料的前處理過程;第五章介紹本研究翻譯模型的原理公式。第六 章與第七章個別使用專利文句和科學人雜誌語料建置翻譯模型並分析比較翻譯 成效。另外在第八章設計了三樣實驗請具有資工背景的受詴者參與,並比較受詴 者及本研究翻譯模型的表現。第九章為本研究的結論及未來展望。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5