術語提取 - communicative event 資料來源：引用翻譯自 Tognini-Bonelli (2010, p.19)。

communicative event 資料來源：引用翻譯自 Tognini-Bonelli (2010, p.19)。

2.1.3 術語提取

在計算語言學界，從雙語語料庫中提取對譯的詞彙、片語或句子，一直是學者研究的焦點，研究目的則是應用於機器翻譯系統，以提升機器翻譯的效能。例如在美國計算機學會 (Association for Computing Machinery) 數位圖書館查詢 “term extraction” 或 “terminology extraction” 約有 1200 篇英文論文，查詢 Google 學術搜尋將近 8000 篇，其中半數是最近五年內所發表。

在自然語言處理中，雙語對應技術長期以來依賴語言結構分析及人工建置的翻譯模組，但整體效果始終沒有太大突破；1990 年代發展方向轉為從龐大的雙語語句對應資料庫中，搜尋與待譯句相關聯的雙語翻譯句對，再從中以自動或半自動的方式得到翻譯知識與規則 (林語君、高照明, 2009, pp. 168-169)。目前最新的研究趨勢又從平行語料庫再轉向可比語料庫，例如語言資源與評估 (LREC) 國際研討會自 2008 年開始，每年舉辦「建置與使用可比語料庫工作坊」並出版論文集，至今已第五屆。第一屆工作坊論文集的序言指出：

Research in comparable corpora is motivated by the scarcity of parallel corpora.

Parallel corpora are a key resource to mine translations for statistical machine translation or for building or extending bilingual lexicons and terminologies.

However, beyond a few language pairs such as English-French or English-Chinese and a few contexts such as parliamentary debates or legal texts,

they remain a scarce resource.… A more fundamental limitation is that translated texts, whatever the skills of translators, are generally influenced by the very translation process and by the language of source texts.

Comparable corpora overcome the two limitations of parallel corpora.…

However, because of their nature, mining translations in comparable corpora is much more challenging than in parallel corpora.

可比語料庫的研究動機來自平行語料庫之不足。平行語料庫對於擷取對譯內容用於統計式機器翻譯，或建立雙語詞典及術語，都是關鍵的資源。但除了部分語種如英/法或英/中，以及少數文本類型如議會議事錄或法律文本，平行語料庫並不常見。……一個更根本的限制是，翻譯的文本無論譯者技巧再好，仍難免受翻譯過程及原文的影響。

可比語料庫能夠克服平行語料庫的兩大限制，……但由於可比語料庫的特性，

要從中擷取對譯內容也比平行語料庫更加困難。(Zweigenbaum, Gaussier, &

Fung, 2008, p. v，筆者自譯)

應用可比語料庫以擷取對譯內容，困難在於兩個語言之間沒有明顯的「橋樑」

(Sharoff, Babych, & Hartley, 2009)，不像平行語料庫能夠在句對應的基礎上，進一步擷取更小單位的對譯內容。因此，相較於平行語料庫，使用可比語料庫擷取對譯資訊之前，必須先確立兩個語料庫的「可比性」，其中的文本內容是否真的相關且有可能存在互為翻譯的句對或詞串，以提高後續資訊擷取的成效。例如 Su 與 Babych (2012) 提出以詞彙對應、基於主題詞、基於機器翻譯等三個方式，以量化計算文本的可比性。

不論是文本對應、句群對應、單句對應、詞串對應或術語對應，擷取雙語對譯內容的技術皆不外乎三個主要途徑：基於語言學規則、基於統計分析，以及併用兩者 的混合式方法 (參見 Loginova et al., 2012; Pazienza, Pennacchiotti, & Zanzotto, 2005;

Thurmair, 2003; Zhang, Iria, Brewster, & Ciravegna, 2008; 季培培、鄢小燕、岑咏華, 2010; 康小麗、章成志、王惠臨, 2009)。基於語言學規則的方法，主要是利用既有的術語詞典，並歸納術語或詞串特定的語言結構，以搜尋比對可能的對譯詞，例如術語

最常見的詞類結構為「名詞+名詞」、「形容詞+名詞」。這個方法的優點是「實現比較簡單，在語言學知識與文本匹配的情況下準確率高，尤其是對低頻術語的抽取效果較好」，但編寫語言規則費時費力且難以窮盡，同時也取決於具體的語種、主題領域，

不容易移植應用 (季培培、鄢小燕、岑咏華, 2010)。

季培培等人將統計式分析又分為兩類，第一類是基於統計量度的方法，依據詞彙頻率、分佈等數據，計算「單元性」(unithood，亦即詞串能否結合形成結構穩定的詞彙單元，而不僅是搭配詞) 以及「術語性」(termhood，亦即詞彙單元與特定領域概念的相關程度)。第二類是基於機器學習的方法，主要步驟為：建構訓練語料，根據某種演算法對訓練語料學習生成模型，以測試語料進行擷詞實驗，最後評估該演算法的成效。這樣的方式不需要語言學知識或專家領域知識，但限制在於訓練語料的建構成本，以及訓練語料與測試語料的可比性。

目前的趨勢是合併使用語言學規則及統計法，但如 Zhang 等人 (2008) 所指出，

儘管學者提出了形形色色的術語擷取技術，卻沒有任何一個方法能解決所有的問題，

尤其是單詞術語和低頻術語容易因設定的統計閥值而被忽略；另外，各研究的測試語料領域及規模互異，評估方法及範圍也不相同，因此擷詞技術的成效難以直接比較。

本節回顧了語料庫語言學的發展、應用與相關技術，不論在語言研究、語言教學或語言應用領域，語料庫都能夠發揮重大的效益。國內學界有關語料庫的研究，從英文擴大到日、西、馬來等其他外語，從漢語延伸到客語、閔南語、原住民語言，研究主題涵蓋語言分析、語言教學、歷史語言研究、自然語言處理等，各種語料庫也相繼建置，尤其是英語及漢語通用語料庫。然而，語料庫的應用效益雖逐漸受到肯定，

但對於筆者所關切的專門領域翻譯，尤其是合約翻譯，語料庫資源仍然欠缺，目前並

沒有可供職場譯者或翻譯教師學生免費或付費使用的中英文專門語料庫，研究人員或使用者只能依本身需求自行建立。

在文檔中利用專門可比語料庫結合機器翻譯自動提取雙語對譯N連詞：以合約文類為例 (頁 25-28)