第 3.1 節 建置合約可比語料庫
3.1.1 收集語料
具有代表性的語料是語料庫研究方法的基礎,語料品質若有疑義,即會影響後 續的檢索分析及所得結論。Biber 等人 (2007) 指出:
One of the central methodological issues for corpus-based research is to ensure that the corpus chosen for analysis actually represents the discourse domain being studied and is thus suitable for the research questions being investigated .… This is of course no different than any other quantitative research in the social sciences, where there is always concern that the ‘sample’
being studied actually represents the larger target ‘population’ (one of the potential threats to external ‘validity’).
基於語料庫的研究,研究方法的一個核心問題在於選用的語料庫須能確實代 表所要研究的語篇領域,能夠回答所要探討的研究問題。……正如社會科學 其他的量化研究,總是會關切樣本是否足以代表母體,是否具有外部效度。
(2007, pp. 17-18,筆者自譯)
如第 2.3.6 節所述,合約文本目前並沒有公開可取得的中英文可比語料,常見的通用 語料庫中也沒有適用於合約文體研究的子類,因此本研究自行建立所需的中英合約可 比語料庫。Zanettin (1998) 認為可比語料庫的建置標準取決於文本是否同質,「對於 非常專門的技術文本,由領域專家所撰寫,使用對象也是領域專家,那麼很可能只需
要少數文本就能檢索出相關的資訊。」
考量語料庫的代表性、平衡、規模、同質性等要求 (Sinclair, 2005a),本研究的 中英合約文本採樣條件總結如下:
表 3-1:中英合約語料庫取樣條件
中文 英文
取樣來源 網際網路 網際網路
取樣語言 台灣正體中文合約 美國及英國之英文合約
取樣時間 1990 年迄今 1990 年迄今
主題類別 平衡分佈,共 11 類 平衡分佈,共 11 類
取樣規模 每篇 900 字以上,總計 90 萬字 每篇 600 字以上,總計 60 萬字
1) 文本來源:由於合約的特殊功能,涉及簽約各方重大權益及機密資料,因此 語料取得比其他文類更加困難。本研究採用目前日益普遍,以網路為語料來源 (Web for Corpus) 的做法,自網際網路中搜尋下載中文及英文合約文本。具體做法為利用 搜尋引擎檢索合約文體明顯的「語域標記」19,找出合約文本之後再篩選下載適當的 檔案。至於檔案格式則未限制,主要包括 DOC、PDF、HTML,以增加搜尋結果的數 目。不過需要注意的是,網路上公開的合約多為依法須申報揭露的類型,例如採購招 標文件、金融交易與服務,或是政府、業界編製的定型化契約範本,容易造成特定合 約類型採樣偏重不平衡,在選用文本時仍需要手動分析篩選。
2) 語言:英文限於美國及英國合約,中文限於台灣合約。
19 本研究中使用的英文合約「語域標記」搜尋關鍵字,包括:“this agreement” + “In witness whereof”、“in consideration of” + “the parties hereby”、“this Agreement” + “terms and conditions” + “governing law” 等。中文合約利用 “一審管轄法院” 搭配合約主題類別的關鍵 詞,可以快速找出大量的相關合約,例如搜尋 “加盟” + “一審管轄法院”,並限定台灣的網頁,在 2012 年 5 月 19 日以 Google 搜尋引擎測試,得到七萬多筆結果,搜尋 “持卡人” + “一審管轄法院”,找出三萬多筆信用 卡使用條款相關網頁。
3) 時間:設定為 1990 年以後之合約文件。
本研究除了學術上的分析探討之外,同時也希望研究結果能夠實際應用於合約翻譯與 教學,發揮參考效益,因此語言及時間這兩項條件,著眼於台灣合約筆譯市場最常見 的文本,並以近廿年的當代合約為主。
4) 合約主題類別:「合約」看似一個範圍明確的文類,但可能涵蓋的主題形形 色色、篇幅長短不一,從期貨交易、商辦大樓租約到電信服務條款,其語言特徵並不 完全相同。本研究所選取的合約類別,主要是基於「方便取樣」原則,在網際網路上 容易搜尋到中、英雙向文本且篇幅規模相當的類別優先收錄。不過雖說是方便取樣,
網路上數量最多的合約本文,也反映了合約最普遍常見的類別,依主題領域區分包括 資訊科技、工程、金融、醫學,依功能目的區分包括租賃、授權、採購、聘雇、保密、
合作案、商務服務,總計十一類。只不過,這些類別並無法嚴格劃分,例如公司電腦 系統的採購合約,可能涵蓋軟體使用授權和技術支援服務,產學合作合約通常包含保 密條款和技術移轉授權,因此在歸類時只能依據最主要的合約標的,其他次要標的就 無法兼顧了。另外,簽約當事人涵蓋政府、企業、機構團體、個人等,中文與英文合 約文本篇幅,儘可能依 3:2 的字數比例選取。
5) 文本大小及語料庫規模:語料庫的規模並沒有固定標準,取決於研究目的,
以及資源、人力、時間限制等因素。例如 SUSANNE 句法樹語料庫僅 13 萬字,Biber (1990) 亦指出,自大型語料庫中擷取 120 篇文本做為子庫,足以反映大語料庫的語 言特徵 (引述自 Semino & Short, 2004, p. 25)。本研究的合約可比語料庫設定為 150 萬 字,中文語料在蒐集之初尚未經過分詞處理,無法以「詞」為單位瞭解其篇幅,只能 依據文書處理軟體所統計的「字數」;此外,根據筆者的翻譯審稿工作經驗,中英兩 種語言相同內容對譯時,字數比例平均約為 3:2,所以最後中文語料取材約 92 萬字,
英文約 66 萬詞。每一子類的中英文本儘可能字數、篇數相當,每篇文本為中文 900 字、英文 600 字以上,篇幅太小的文本涵蓋的標準條款也較有限,因此捨去。如果中 英文篇數無法相當,則維持子類的總字數相當。平均而言,英文合約文本每篇的長度 大於中文,不同子類的合約篇幅也有極大差異,工程開發及金融融資類的合約篇幅最 長,甚至可達三萬字以上,而保密、聘雇類合約的平均篇幅較短,約在一、兩千字。
至於文本是否全文收錄,學界並沒有定論,鑑於本研究著重在合約的標準條款,而非 合約全文的語篇結構,因此省略太過詳盡的序文、特定條款及結尾部分,並未全文收 錄。
以上的採樣條件,尤其是合約類別的考量,內容儘可能多元平衡,依此收集的 語料,應可反映美國及台灣當代合約語言的普遍特徵。實際收錄的語料類別及篇數、
字數,如表 3-2、圖 3-2 所示。