• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

第二章 文獻探討

文獻探討部分分為四個主題,2.1 小節介紹專利文書的相關研究;2.2 小節則為英 文教學輔助翻譯的相關研究;2.3 小節描述了使用文句子結構資訊輔助翻譯的相 關研究,2.4 小節則為針對英文動名詞組合的相關研究。

2.1 專利文書之相關研究

為了發掘專利文書的不同屬性以作參考,了解專利文書的相關研究相當重要;以 語言的考量而言,專利文書除了作為保護智慧財產權的文件,其文件內容及架構 其實可以作多面向的語言特性分析、系統的分析語料或是產生專利雙語對應的平 行語料庫。以下是針對專利文書作相關研究的介紹。

同一篇專利文書可以發表不同語言的版本,而不同語言版本之間通常為全文 篇幅的對應,文字細節部分的對應可能並不一致。田侃文[23]使用中英文互為翻 譯關係的專利文書當作主要語料,並利用動態規劃演算法進行中英文句對列,設 法將中文全文文章與英文全文文章的翻譯對應拉抬至中文句子對列英文句子的 文句對列層級。本研究使用此系統,將英漢翻譯的專利長句視為一篇文章,由此 系統產生短句之間的對列,提升對列文句的品質,在第三章會有更詳細的說明。

曾元顯[26]針對五十萬筆漢英專利平行語料文句,提出從語料中自動擷取中 文與英文互為翻譯關係詞彙的系統。其使用了相互資訊 (mutual information) 、

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

6

相關分析 (correlation coefficient) 、可能性比例 (likelihood ratios) 、Dice 係數 (dice coefficient) 、 分 數 累 積 (fractional count) 及 EM 分 析 (Expectation-Maximization analysis) 進行分析,發現使用 EM 的效果最佳。該研 究亦將原本已有的中英技術名詞詞對組合加長比對,以擴充新的技術名詞詞對。

Lu [11]提出如何建置英漢專利文句對列的語料庫。該研究從網路上蒐集優良 的中英專利文書平行語料,再根據專利文書的目次結構(例如:標題、摘要及專 利範圍等)將專利文書拆解成多個小單位。其集結了三種作法:使用雙語辭典比 對詞彙、刪除過長的句子及使用 IBM M-1 為語言模型建立文句對列。其研究結 果顯示準確率最高可達 97%。

2.2 英文輔助翻譯教學之相關研究

如果跳脫出專利文書的世界,我們所注重的動名詞共現性或是其他詞彙間的關聯 性是為真實世界生活中的問題。許多研究對於英文學習者容易共同犯錯的現象及 特徵有不同的分析及統計方式;在教育目的上,如何增進英文學習者的英文能力 已出現許多學習系統,以下是針對語言教育於詞彙特性的介紹。

Jian[10]使用 British NationalCorpus (BSC) 作為主要分析的英文語料,並運 用其英文文句的子句結構 (clause parse) 及組塊 (chunking) ,提取出英文動名詞 片語(包括 VN、VPN 及 VNP),計算動詞與名詞之間的共現性進而列表出英文 語料中動名詞片語的共現性情況。該研究另外使用 Sinorama Parallel Corpus (SPC) 英漢平行語料庫,其運用詞彙對列技術 (word alignment) 來找尋中英文互為翻譯 的動名詞片語。該研究將詞彙對列的方法為:首先判定英文名詞的中文翻譯,再 依據中文翻譯句中離該中譯名詞最近的動詞,視為與英文動詞相對應的中文翻 譯。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

7

Chang [2]延續了 Jian[10]的基本做法。其針對把英文作為第一外語學習的中 文使用者製作一套英文寫作校正系統。將英文作為第一外語學習者容易錯誤使用 英文的動名詞片語組合,為了改善這個情形,該研究讓使用者能將寫好的英文文 章輸入至該系統,系統便可偵測動名詞片語有無誤用之處,若有則提醒修正。該 研究蒐集了正在學習英文之中文使用者的寫作文章當作學習者語料庫 (learner corpus) ,從中發現常見的錯誤用法;另外蒐集正確的英文語料當作正確答案的 參考語料庫 (reference corpus) 。其主要方法為:依據參考語料庫中文句的子句 結構 (clause parse) 及組塊 (chunking) ,找出相鄰的動詞片語 (VP) 及名詞 (NP) ,統計他們的共現性並輸出成結果。當系統使用者將寫好的英文文章輸入 至系統,系統便找出當中的動名詞片語,查詢其共現性分數,若分數低於門檻值,

則視為寫法錯誤;該系統將錯誤的動詞翻譯成中文詞彙,重新翻譯回英文詞彙,

再將這些英文動詞替換片語中原本的動詞成為新的片語,並重新查詢共現性分 數,得分高者則為系統建議的校正答案。

Gamon[12]沒有像 Chang[2]去蒐集使用者語料庫、或是像 Jian[10]一樣運用 英漢平行語料庫;Gamon 使用了 English Encarta encyclopedia 語料庫作為主要的 英文語料。該研究利用決策樹及 5-grams 的資訊,針對介係詞及冠詞訓練語言模 型。該研究也提出了一套系統,只要系統使用者輸入的英文句子有錯誤的冠詞或 介係詞,系統便去計算冠詞或介系詞是否該出現或改變,才能接近真正答案的機 率;如果將寫錯的冠詞或介係詞改變成系統推薦的詞彙的機率值超過門檻值,則 將之作為系統的推薦修正答案。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

8

2.3 運用文句子結構進行翻譯之相關研究

使用不同的語料會發現語料一些特別的屬性,多樣化的研究方法從不同角度觀看 問題,都有不一樣的研究成果。如何找到不同語言之間的翻譯關係,有學者著重 於利用文句子結構以限定翻譯範圍,依循文法規則尋找翻譯對應。以下介紹使用 子結構幫助日英翻譯及使用中英翻譯結果改善英文剖析器的相關研究。

YOKOYAMA[20]針對專利文書的語料進行分析,該研究指出,專利文句的 結構複雜且字數偏長,要進行分析及翻譯都是困難的。其使用日本專利局 (Japan Patent Office) 提供的公開專利文書並採用摘要部分,再利用人工翻譯得到日英 的專利平行語料庫。該研究假設不同的 Japanese case frame 可能會對應到不同的 英文翻譯,進而分析這樣的假想是否成立。如果不同的 case frame 組合會有不同 的翻譯結果,則可以使用 case frame 資訊作為翻譯詞彙的挑選及限制條件。該研 究發現,日文的傳統動詞並不容易從此方法得到對應的英文翻譯,如果是日本名 詞常轉當動詞使用的動詞,則較有多義的情形,使用 case frame 有較好的翻譯效 果。

英文的子句修飾問題 (prepositional phrase attachment problem) 一直是機器 翻譯或是剖析器所欲解決的問題,Chen[3]便提出使用中文的語言特性輔助以解 決這個問題的方法。英文及中文都是具備主謂賓結構 (SVO: subject verb object) 的語言,該研究認為,中文不論在前置詞、後置詞及所有格都有主謂賓結構的特 性:即中文詞彙的出現順序有較明顯的修飾關係(前面的詞彙通常為修飾後面出 現的詞彙)。其使用詞彙對列技術將中英文的關係樹進行對列,統計其對列關係 及出現次數,並將高頻的出現關係當作規則,以此規則進行中英文的子句翻譯。

該研究的實驗指出,採用中文語言的特性確實有助於提升英文剖析器解決介詞短 語問題。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

9

2.4 動名詞組合共現性之相關研究

動詞與名詞的組合現象是許多不同領域的學者都感興趣的議題;教育學者關心於 如何教導及糾正學生正確使用片語,語言學家善於分析片語的特徵,心理學家分 析挖掘人類使用片語的習慣及背景等等。在這裡,我們介紹資訊科學領域的學者 對於動名詞的想法及相關研究。

Venkatapathy[16]首先介紹了 multi word expressions (MLEs) ,即為從字面上 看不出實際表達意義的詞彙。有很大一部分的 MLEs 具有文法結構性但是沒有語 義合成關係。MLEs 其中一個子集就是動名詞組合,也是該研究主要分析的目 標 。 MLEs 很 難 區 分 是 為 組 合 性 (compositional) 或 為 非 組 合 性 (non-compositional) , 在 早 一 些 時 期 的 研 究 方 式 不 外 乎 是 考 慮 頻 率 (frequency) 、互信息或是使用 LSA 模型等相關數據作分類問題;該研究則將這 些數據都加以考慮並列入使用。該研究聘請兩位人員進行人工標記:詞彙是為組 合性或是非組合性的程度,並將上述的數據當作特徵,作成向量再以 SVM 排序。

最後發現合併特徵比貣只單一考慮任一特徵都還要貼近人工標記的答案。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10