收集語料

第 3.1 節建置合約可比語料庫

3.1.1 收集語料

具有代表性的語料是語料庫研究方法的基礎，語料品質若有疑義，即會影響後續的檢索分析及所得結論。Biber 等人 (2007) 指出：

One of the central methodological issues for corpus-based research is to ensure that the corpus chosen for analysis actually represents the discourse domain being studied and is thus suitable for the research questions being investigated .… This is of course no different than any other quantitative research in the social sciences, where there is always concern that the ‘sample’

being studied actually represents the larger target ‘population’ (one of the potential threats to external ‘validity’).

基於語料庫的研究，研究方法的一個核心問題在於選用的語料庫須能確實代表所要研究的語篇領域，能夠回答所要探討的研究問題。……正如社會科學其他的量化研究，總是會關切樣本是否足以代表母體，是否具有外部效度。

(2007, pp. 17-18，筆者自譯)

如第 2.3.6 節所述，合約文本目前並沒有公開可取得的中英文可比語料，常見的通用語料庫中也沒有適用於合約文體研究的子類，因此本研究自行建立所需的中英合約可比語料庫。Zanettin (1998) 認為可比語料庫的建置標準取決於文本是否同質，「對於非常專門的技術文本，由領域專家所撰寫，使用對象也是領域專家，那麼很可能只需

要少數文本就能檢索出相關的資訊。」

考量語料庫的代表性、平衡、規模、同質性等要求 (Sinclair, 2005a)，本研究的中英合約文本採樣條件總結如下：

表 3-1：中英合約語料庫取樣條件

中文英文

取樣來源網際網路網際網路

取樣語言台灣正體中文合約美國及英國之英文合約

取樣時間 1990 年迄今 1990 年迄今

主題類別平衡分佈，共 11 類平衡分佈，共 11 類

取樣規模每篇 900 字以上，總計 90 萬字每篇 600 字以上，總計 60 萬字

1) 文本來源：由於合約的特殊功能，涉及簽約各方重大權益及機密資料，因此語料取得比其他文類更加困難。本研究採用目前日益普遍，以網路為語料來源 (Web for Corpus) 的做法，自網際網路中搜尋下載中文及英文合約文本。具體做法為利用搜尋引擎檢索合約文體明顯的「語域標記」¹⁹，找出合約文本之後再篩選下載適當的檔案。至於檔案格式則未限制，主要包括 DOC、PDF、HTML，以增加搜尋結果的數目。不過需要注意的是，網路上公開的合約多為依法須申報揭露的類型，例如採購招標文件、金融交易與服務，或是政府、業界編製的定型化契約範本，容易造成特定合約類型採樣偏重不平衡，在選用文本時仍需要手動分析篩選。

2) 語言：英文限於美國及英國合約，中文限於台灣合約。

19 本研究中使用的英文合約「語域標記」搜尋關鍵字，包括：“this agreement” + “In witness whereof”、“in consideration of” + “the parties hereby”、“this Agreement” + “terms and conditions” + “governing law” 等。中文合約利用 “一審管轄法院” 搭配合約主題類別的關鍵詞，可以快速找出大量的相關合約，例如搜尋 “加盟” + “一審管轄法院”，並限定台灣的網頁，在 2012 年 5 月 19 日以 Google 搜尋引擎測試，得到七萬多筆結果，搜尋 “持卡人” + “一審管轄法院”，找出三萬多筆信用卡使用條款相關網頁。

3) 時間：設定為 1990 年以後之合約文件。

本研究除了學術上的分析探討之外，同時也希望研究結果能夠實際應用於合約翻譯與教學，發揮參考效益，因此語言及時間這兩項條件，著眼於台灣合約筆譯市場最常見的文本，並以近廿年的當代合約為主。

4) 合約主題類別：「合約」看似一個範圍明確的文類，但可能涵蓋的主題形形色色、篇幅長短不一，從期貨交易、商辦大樓租約到電信服務條款，其語言特徵並不完全相同。本研究所選取的合約類別，主要是基於「方便取樣」原則，在網際網路上容易搜尋到中、英雙向文本且篇幅規模相當的類別優先收錄。不過雖說是方便取樣，

網路上數量最多的合約本文，也反映了合約最普遍常見的類別，依主題領域區分包括資訊科技、工程、金融、醫學，依功能目的區分包括租賃、授權、採購、聘雇、保密、

合作案、商務服務，總計十一類。只不過，這些類別並無法嚴格劃分，例如公司電腦系統的採購合約，可能涵蓋軟體使用授權和技術支援服務，產學合作合約通常包含保密條款和技術移轉授權，因此在歸類時只能依據最主要的合約標的，其他次要標的就無法兼顧了。另外，簽約當事人涵蓋政府、企業、機構團體、個人等，中文與英文合約文本篇幅，儘可能依 3:2 的字數比例選取。

5) 文本大小及語料庫規模：語料庫的規模並沒有固定標準，取決於研究目的，

以及資源、人力、時間限制等因素。例如 SUSANNE 句法樹語料庫僅 13 萬字，Biber (1990) 亦指出，自大型語料庫中擷取 120 篇文本做為子庫，足以反映大語料庫的語言特徵 (引述自 Semino & Short, 2004, p. 25)。本研究的合約可比語料庫設定為 150 萬字，中文語料在蒐集之初尚未經過分詞處理，無法以「詞」為單位瞭解其篇幅，只能依據文書處理軟體所統計的「字數」；此外，根據筆者的翻譯審稿工作經驗，中英兩種語言相同內容對譯時，字數比例平均約為 3:2，所以最後中文語料取材約 92 萬字，

英文約 66 萬詞。每一子類的中英文本儘可能字數、篇數相當，每篇文本為中文 900 字、英文 600 字以上，篇幅太小的文本涵蓋的標準條款也較有限，因此捨去。如果中英文篇數無法相當，則維持子類的總字數相當。平均而言，英文合約文本每篇的長度大於中文，不同子類的合約篇幅也有極大差異，工程開發及金融融資類的合約篇幅最長，甚至可達三萬字以上，而保密、聘雇類合約的平均篇幅較短，約在一、兩千字。

至於文本是否全文收錄，學界並沒有定論，鑑於本研究著重在合約的標準條款，而非合約全文的語篇結構，因此省略太過詳盡的序文、特定條款及結尾部分，並未全文收錄。

以上的採樣條件，尤其是合約類別的考量，內容儘可能多元平衡，依此收集的語料，應可反映美國及台灣當代合約語言的普遍特徵。實際收錄的語料類別及篇數、

字數，如表 3-2、圖 3-2 所示。

表 3-2：中英合約可比語料庫收錄內容及字數

合約類別英文中文

篇數字數每篇平均字數篇數字數每篇平均字數

資訊科技 ¹⁸ ⁶⁹⁵³⁹ ³⁸⁶³ ²⁵ ⁹¹²¹² ³⁶⁴⁸

工程 ¹⁴ ⁷⁴³⁴⁴ ⁵³¹⁰ ¹² ¹¹¹²⁹⁵ ⁹²⁷⁵

合作 ¹² ⁴²⁰¹⁹ ³⁵⁰² ¹³ ⁶⁰⁴⁹¹ ⁴⁶⁵³

服務 ¹¹ ³⁵⁷⁷³ ³²⁵² ¹⁹ ⁵⁸⁷⁸⁴ ³⁰⁹⁴

金融 ²⁴ ¹²⁷¹⁶⁵ ⁵²⁹⁹ ²⁴ ¹⁵⁷⁴⁵³ ⁶⁵⁶¹

保密 ¹³ ²²²³¹ ¹⁷¹⁰ ¹⁶ ²⁹²³⁰ ¹⁸²⁷

租賃 ²⁴ ⁵⁸⁶⁹⁵ ²⁴⁴⁶ ²⁹ ⁷⁹⁴³³ ²⁷³⁹

授權 ²² ¹⁰¹⁵⁶² ⁴⁶¹⁶ ⁴⁰ ¹⁴²⁷⁹² ³⁵⁷⁰

採購 ¹⁴ ⁸²⁵⁶⁴ ⁵⁸⁹⁷ ²⁰ ¹²¹⁵⁵⁴ ⁶⁰⁷⁸

聘雇 ⁹ ²³⁰⁸⁹ ²⁵⁶⁵ ¹⁵ ²⁷⁹³¹ ¹⁸⁶²

醫學 ⁶ ²⁹⁵⁶⁶ ⁴⁹²⁸ ¹⁶ ⁴²⁷⁹² ²⁶⁷⁵

總計 ¹⁶⁷ ⁶⁶⁶⁵⁴⁷ ³⁹⁹¹ ²²⁹ ⁹¹⁸⁶⁸⁴ ⁴⁰¹²

圖 3-2：中英合約可比語料庫收錄內容及字數

在文檔中利用專門可比語料庫結合機器翻譯自動提取雙語對譯N連詞：以合約文類為例 (頁 70-74)

第 3.1 節 建置合約可比語料庫

3.1.1 收集語料

表 3-1：中英合約語料庫取樣條件

中文 英文

取樣來源 網際網路 網際網路

取樣語言 台灣正體中文合約 美國及英國之英文合約

取樣時間 1990 年迄今 1990 年迄今

主題類別 平衡分佈，共 11 類 平衡分佈，共 11 類

取樣規模 每篇 900 字以上，總計 90 萬字 每篇 600 字以上，總計 60 萬字

表 3-2：中英合約可比語料庫收錄內容及字數

合約類別 英文 中文

篇數 字數 每篇平均字數 篇數 字數 每篇平均字數

資訊科技 18 69539 3863 25 91212 3648

工程 14 74344 5310 12 111295 9275

合作 12 42019 3502 13 60491 4653

服務 11 35773 3252 19 58784 3094

金融 24 127165 5299 24 157453 6561

保密 13 22231 1710 16 29230 1827

租賃 24 58695 2446 29 79433 2739

授權 22 101562 4616 40 142792 3570

採購 14 82564 5897 20 121554 6078

聘雇 9 23089 2565 15 27931 1862

醫學 6 29566 4928 16 42792 2675

總計 167 666547 3991 229 918684 4012