建置語料庫

第 3.1 節建置合約可比語料庫

3.1.2 建置語料庫

(A)

文本整理

語料庫資料必須符合檢索工具能夠讀取的格式，才能夠進行檢索、統計與分析。

自網路下載、掃描辨識或手動輸入的文字，需要經過整理 (或稱為預處理)，再儲存為 TXT 純文字檔。視使用的檢索軟體而定，還必須轉換為適當的編碼，例如 ANSI 或 Unicode。預處理過程中主要是刪除與合約無關的網頁內容，並修正可能的格式錯誤，以免導致後續分析不準確或檢索不出正確的結果。常見的格式錯誤包括字元亂碼、

錯別字、多餘空格或空行、分段錯誤 (尤其是從 PDF 檔案直接複製的文字)、英文文本中的全形字元等。文本整理是相當費時費力的工作，本研究利用純文字編輯軟體 Notepad++、EditPad Pro 等，結合 Office Word 巨集設定，尤其是善用正則表達式 (Regular Expressions，簡稱 RegEx)，將數百個 TXT 檔案批次處理，可以大幅加速整理效率，同時避免遺漏。

(B)

分詞、詞形還原及語料標注

在語料庫研究方法中，文本長度計算的是「形符」(token) 的總數，文本需要經過分詞 (或稱斷詞、切詞，tokenization)，檢索工具才能夠正確統計分析。關於形符的定義，英文每個單字皆視為一個形符，縮寫字如

don’t

則視為兩個形符，需要斷開為

do

及

n’t

。中文的形符單位則是「單詞」而非個別的方塊字，中文語料的「分詞」即是在每個單詞之後加上半形空格，例如經雙方同意訂立本合約十個字，對於檢索軟體工具而言是一個形符，分詞之後成為經o雙方o同意o訂立 o本o合約o，則視為六個形符。中文語料要進行有意義的分析，正確分詞是關鍵的第一步，否則語料檢索工具便無法處理，再者，分詞如果不當，也會影響後續的分析統計與解讀。

與形符相對的是「類符」(type)，指的是出現多少個不同的形符，相同的形符不重複計算。因此就英文、法文這類有字形變化的語言，經過詞形還原處理 (lemmatization) 可將名詞單複數、動詞時態變化、形容詞比較級與最高級等還原為原形詞，例如

have

、

has

、

had

皆合併於形符

have

之下。詞形還原後統計所得的類符數目，可以反映文本真正使用的詞彙量。

生語料還可進一步標注其他的語言資訊，便於進一步檢索分析。語料標注最常見的是詞類標記 (part of speech，簡稱 POS)，此外還可包括語義類別、語用、句法、

語篇結構等不同層級的標注。本研究關切重點在於中英合約的詞彙、術語、句式及其對譯，另方面也礙於人力、時間有限，因此語料標注僅止於詞類標記。

分詞及詞類標記都可以利用常見的軟體工具自動處理，本研究的英文合約採用 TreeTagger (Schmid, 1994) 標注工具及 Penn Treebank 詞類標記集，搭配 Windows 介面 (Duibhin, 2008)，即可批次處理大量文本。中文合約採用中央研究院《領域詞典工具》(陳克健等, 2002) 及《現代漢語詞類標記集》，同樣支援大量檔案批次處理。不

過，《領域詞典工具》對於句子的處理是以「小句」為單位，亦即除了句號、問號、

驚嘆號之外，遇有逗點、分號、冒號，也一律切分換行，成為新的一句。但是行尾若沒有標點符號，則會與下一行或下一段連接併為同一句。由於合約文本有大量的單行標題或條列項目，為避免各行各段落之間不當合併，妨礙全文檢視時的文本結構，因此筆者在分詞處理之前，先利用純文字編輯軟體將語料所有段落的行尾皆加上特殊記 號 (不與語料中的文字內容重複，例如 bj?)，使所有段落在《領域辭典工具》中能 夠正確分段，標注完成後再搜尋原先插入的特殊記號，將之刪除。至於語料的後設資料，例如合約主題分類、出處等，採用列表彙整，並未標注於文本中。

中研院《領域詞典工具》除了分詞與詞類標記同步處理，同時也支援使用者自訂詞典，做為分詞與詞類標記的依據。中文由於詞與詞之間沒有明顯的分界，分詞本來就不容易，在一個句子當中，各個單字組成的「詞組」可有各種變化²⁰，因此軟體工具的自動分詞準確率不如英文。對於合約文件而言，分詞及詞類標記又比一般文件更為困難，原因在於台灣的中文合約大量沿用文言文用詞及句式，導致分詞與詞類標記的結果出現許多錯誤，必須經過手動檢查修正，得到的語料才較為可信。

具體做法為檢視軟體工具自動分詞後所得到的詞表與頻數，從高頻詞中找出明顯有誤的單詞，利用可以批次編輯多個檔案的純文字編輯軟體，全文搜尋取代。修改告一段落後產生新詞表，再次檢視高頻詞，做必要的修改。如此反覆多次，但每次檢查都可能發現「漏網之魚」，這是語料整理過程中最費時費力的一個步驟。

最終得到的修正後詞表，與原本的自動分詞結果相比較，可以簡單計算出修改幅度約為 10% (每一類符的頻數差異絕對值加總後，除以自動分詞的形符總數)，亦即

20 譬如「下雨天留客天留我不留」，應是大家耳熟能詳的例子。

在 90 萬字的中文合約語料中，經過手動調整分詞的字數將近 10 萬字，其中主要的分

在文檔中利用專門可比語料庫結合機器翻譯自動提取雙語對譯N連詞：以合約文類為例 (頁 74-77)

第 3.1 節 建置合約可比語料庫

3.1.2 建置語料庫

(A)

(B)

don’t

do

n’t

have

has

had

have

第 3.1 節建置合約可比語料庫