• 沒有找到結果。

第 3.1 節 建置合約可比語料庫

3.1.2 建置語料庫

(A)

文本整理

語料庫資料必須符合檢索工具能夠讀取的格式,才能夠進行檢索、統計與分析。

自網路下載、掃描辨識或手動輸入的文字,需要經過整理 (或稱為預處理),再儲存 為 TXT 純文字檔。視使用的檢索軟體而定,還必須轉換為適當的編碼,例如 ANSI 或 Unicode。預處理過程中主要是刪除與合約無關的網頁內容,並修正可能的格式錯 誤,以免導致後續分析不準確或檢索不出正確的結果。常見的格式錯誤包括字元亂碼、

錯別字、多餘空格或空行、分段錯誤 (尤其是從 PDF 檔案直接複製的文字)、英文文 本中的全形字元等。文本整理是相當費時費力的工作,本研究利用純文字編輯軟體 Notepad++、EditPad Pro 等,結合 Office Word 巨集設定,尤其是善用正則表達式 (Regular Expressions,簡稱 RegEx),將數百個 TXT 檔案批次處理,可以大幅加速整 理效率,同時避免遺漏。

(B)

分詞、詞形還原及語料標注

在語料庫研究方法中,文本長度計算的是「形符」(token) 的總數,文本需要經 過分詞 (或稱斷詞、切詞,tokenization),檢索工具才能夠正確統計分析。關於形符 的定義,英文每個單字皆視為一個形符,縮寫字如

don’t

則視為兩個形符,需要斷 開為

do

n’t

。中文的形符單位則是「單詞」而非個別的方塊字,中文語料的「分 詞」即是在每個單詞之後加上半形空格,例如 經雙方同意訂立本合約 十個字,對於 檢索軟體工具而言是一個形符,分詞之後成為 經o雙方o同意o訂立 o本o合約o, 則視為六個形符。中文語料要進行有意義的分析,正確分詞是關鍵的第一步,否則語 料檢索工具便無法處理,再者,分詞如果不當,也會影響後續的分析統計與解讀。

與形符相對的是「類符」(type),指的是出現多少個不同的形符,相同的形符不 重 複 計 算 。 因 此 就 英 文 、 法 文 這 類 有 字 形 變 化 的 語 言 , 經 過 詞 形 還 原 處 理 (lemmatization) 可將名詞單複數、動詞時態變化、形容詞比較級與最高級等還原為原 形詞,例如

have

has

had

皆合併於形符

have

之下。詞形還原後統計所得的類符 數目,可以反映文本真正使用的詞彙量。

生語料還可進一步標注其他的語言資訊,便於進一步檢索分析。語料標注最常 見的是詞類標記 (part of speech,簡稱 POS),此外還可包括語義類別、語用、句法、

語篇結構等不同層級的標注。本研究關切重點在於中英合約的詞彙、術語、句式及其 對譯,另方面也礙於人力、時間有限,因此語料標注僅止於詞類標記。

分詞及詞類標記都可以利用常見的軟體工具自動處理,本研究的英文合約採用 TreeTagger (Schmid, 1994) 標注工具及 Penn Treebank 詞類標記集,搭配 Windows 介 面 (Duibhin, 2008),即可批次處理大量文本。中文合約採用中央研究院《領域詞典工 具》(陳克健等, 2002) 及《現代漢語詞類標記集》,同樣支援大量檔案批次處理。不

過,《領域詞典工具》對於句子的處理是以「小句」為單位,亦即除了句號、問號、

驚嘆號之外,遇有逗點、分號、冒號,也一律切分換行,成為新的一句。但是行尾若 沒有標點符號,則會與下一行或下一段連接併為同一句。由於合約文本有大量的單行 標題或條列項目,為避免各行各段落之間不當合併,妨礙全文檢視時的文本結構,因 此筆者在分詞處理之前,先利用純文字編輯軟體將語料所有段落的行尾皆加上特殊記 號 (不與語料中的文字內容重複,例如 bj?),使所有段落在《領域辭典工具》中能 夠正確分段,標注完成後再搜尋原先插入的特殊記號,將之刪除。至於語料的後設資 料,例如合約主題分類、出處等,採用列表彙整,並未標注於文本中。

中研院《領域詞典工具》除了分詞與詞類標記同步處理,同時也支援使用者自 訂詞典,做為分詞與詞類標記的依據。中文由於詞與詞之間沒有明顯的分界,分詞本 來就不容易,在一個句子當中,各個單字組成的「詞組」可有各種變化20,因此軟體 工具的自動分詞準確率不如英文。對於合約文件而言,分詞及詞類標記又比一般文件 更為困難,原因在於台灣的中文合約大量沿用文言文用詞及句式,導致分詞與詞類標 記的結果出現許多錯誤,必須經過手動檢查修正,得到的語料才較為可信。

具體做法為檢視軟體工具自動分詞後所得到的詞表與頻數,從高頻詞中找出明 顯有誤的單詞,利用可以批次編輯多個檔案的純文字編輯軟體,全文搜尋取代。修改 告一段落後產生新詞表,再次檢視高頻詞,做必要的修改。如此反覆多次,但每次檢 查都可能發現「漏網之魚」,這是語料整理過程中最費時費力的一個步驟。

最終得到的修正後詞表,與原本的自動分詞結果相比較,可以簡單計算出修改 幅度約為 10% (每一類符的頻數差異絕對值加總後,除以自動分詞的形符總數),亦即

20 譬如「下雨天留客天留我不留」,應是大家耳熟能詳的例子。

在 90 萬字的中文合約語料中,經過手動調整分詞的字數將近 10 萬字,其中主要的分