• 沒有找到結果。

books on American history. 完成式助動詞功能詞

[t1] 除 名,藥到病 除,中東戰事陰影未 除 動詞實詞

[t2] 除 發表聲明外,除 專任教職外 介詞功能詞

以下的分類與討論,原則上以合約語料庫中頻數較高的常用詞類為準。

4.2.1 英文合約

(A)

詞表

在 67 萬詞的英文合約語料中,相異詞詞表共彙整出 10715 個類符,如 4.1 節所 述,其 STTR 比例平均為 31.93%,低於一般通用語料庫的 40% - 50%。詞表中頻數最 高的前 50 字以功能詞為主,佔 80%,另有 9 字屬於實詞,高頻 50 詞的累計覆蓋率達 47.35%。相較而言,COCA 參照語料庫的前 50 個高頻詞,功能詞佔 49 個,僅有 said 一字為實詞,50 詞的累計覆蓋率為 39.02%。

英文合約出現頻數最多的 9 個實詞,依序為 agreement, party, company, parties, information, use, section, time, date,這些也是合約文本的主題詞及關鍵主題詞,成為 合約文類鮮明的語域標記,涉及契約文件本身的指稱 (this Agreement)、簽約當事人 (party, parties, company),條款章節指稱 (section),以及合約通常涉及的內容,例如簽 約日期時間、合約資訊、合約標的之使用等 (date , time, information, use)。

至於合約最常見的 41 個功能詞,其中有 27 字與 COCA 參照語料庫高頻 50 詞 重疊,特別值得注意的是其餘 14 個超出 COCA 高頻 50 詞範圍的功能詞,包括情態 助 動 詞 shall, may, will , 表 示 範 圍 或 關 係 的 any, each, no, such, other, ’s, its, which,以及引介條件或列舉項目的 under, including, provided。其中 shall, will 主要用法並非表示未來時態,而是權利義務,

provided 也非動詞「提供」的過去式,而是做為連接詞表示條件。同樣的,這 14 個功能詞也是英文合約文類的主題詞及關鍵主題詞,大量重複出現在各種合約文本。

以下表 4-3 為英文合約高頻 50 詞與 COCA 高頻 50 詞的比較;英文合約 1000 詞的完 整詞表,請見附錄二。

表 4-3:英文合約高頻 50 詞與 COCA 參照語料庫

從參照語料庫詞表對照觀察合約文類的詞彙分佈,可以看到合約文類顯著多用 及少用的詞彙,清楚反映出合約文本自成一格的文體特徵。本研究以 COCA 當代美 語語料庫做為英文合約的參照語料庫,利用 WordSmith 6 統計合約主題詞 (key words) 與關鍵主題詞 (key keywords),進而依據主題詞表、關鍵主題詞表,以及其他的篩選 條件,決定出合約文類的核心主題詞表。

WordSmith 的主題詞統計,提供的統計檢定方法有卡方檢定 (chi-square, x2) 及 對數似然率 (log likelihood, LL),本研究採用 LL。工具預設的最小頻數為 3,但若要 觀察顯著少用的詞彙 (亦即 LL 為負值),則需要將最小頻數設定為 1,否則頻數小於 3 的詞彙就會忽略不計。

最後統計結果得到顯著多用的主題詞 2243 詞,顯著少用有 1381 詞,另有關鍵 主題詞 1421 詞。由於主題詞表是比較單詞在參照語料庫及合約語料庫的出現頻率有 無顯著差異,因此單一文本中大量使用的詞彙容易標示為主題詞,例如在一篇大型銀 行聯貸案的合約中,銀行名稱可能重複出現三、四百次,頻數因而顯著高於參照語料 庫,但其實並非合約文體的普遍特徵,這類詞彙可以視為「偽陽性」主題詞。相對的,

關鍵主題詞表是考量單篇文本的主題詞,從中找出在多篇文本重複出現的主題詞,然 而有些詞彙可能在每一篇合約皆固定出現一次,事實上是合約文體明顯的語域標記,

例如 “in witness whereof”、“entire agreement”、“shall be governed by and construed”,但因其頻數不足以成為單篇的主題詞,也就會排除在關鍵主 題詞表之外,這類詞彙可以稱為「偽陰性」關鍵主題詞。在討論主題詞表及關鍵主題 詞表時,對於偽陽性及偽陰性的主題詞必須另外加權考量。

此外,顯著多用的主題詞總數超過兩千詞,關鍵主題詞也超過一千詞,難以逐 一進行檢索行質性分析,需要進一步篩選,找出最值得討論的核心主題詞表。因此我

們將檢索工具所得到的詞表彙整於 Excel 工作表,如圖 4-1 所示,以便根據不同的篩 選條件,將詞項進一步歸納分類。

圖 4-1:以 Excel 工作表篩選主題詞表及關鍵主題詞表

工作表中的篩選條件除了主題詞 (K)、關鍵主題詞 (KK) 之外,同時還考量主 題詞 keyness,未達設定值的同樣捨去不計。雖然在統計上,p<0.001 時 LL 臨界值為 10.83,大於 10.83 即表示具有統計顯著差異,但實際處理詞表時可以發現,LL 絕對 值要達到 200 甚至 300 以上,詞目在合約文類中才較有實質意義,此外詞目的總數也 不至於太過龐大,比較容易歸納討論。

第三個篩選條件是「詞頻篇數比例」與「關鍵主題詞篇數比例」,將兩者加總後 分段篩選,例如篇數比例和 25%以下捨去不計,以排除僅出現在少數文本的「偽陽性」

詞目。這個概念與資訊檢索中常用的加權技術「詞頻—逆文本頻率指數」(term

frequency - inverse document frequency; TF-IDF) 並不相同,TF-IDF 的基本原理是如果 一個詞彙在少數文本當中出現的頻率高,但很少出現在其他文本,則表示這個詞彙具 有良好的類別區分能力,能夠反映該文本的主題。然而,對於本研究的核心詞表而言,

這類只出現在少數合約的個別主題詞,並不是合約文件整體的共同特徵,反而是需要 排除的。

第四個篩選條件是考量參照語料庫的高頻 3000 詞範圍,分段標示出參照語料庫 高頻 100 詞 (R_100)、300 詞 (R_300)、1000 詞 (R1K)、2000 詞 (R2K) 及 3000 詞 (R3K)。整體而言,參照語料庫高頻 300 詞範圍以內的極度常用詞,其「術語性」並 不強,可以捨去不計。R1K 的範圍則保留 keyness 達到 1000 以上的詞目,例如 party 一詞的 keyness 高達 16666,且其語義並非一般常用的「派對」,而是合約當事人的「一 方」,因此屬於值得討論的核心主題詞。最後是數詞、量詞及大部分的功能詞,都列 入「停用詞」而捨去不計。

依據以上的篩選條件,總計共得到 438 個核心主題詞,包括功能詞 30 詞,實詞 408 詞,這些是合約文本當中真正普遍大量使用的詞彙,而且顯著有別於一般文類常 見的用詞,如表 4-4 所示。

在 438 個核心主題詞當中,多達 299 詞超出參照語料庫高頻 3000 詞的範圍,這 些詞彙最能明顯反映合約文類與一般文類的用詞差異,例如主題詞 keyness 最高的前 50 詞包括:

功能詞:hereunder, herein, hereto, hereby, hereof, hereinafter,

thereof, thereto, pursuant (to), (in) accordance (with),

foregoing;

表 4-4:手動篩選核心主題詞依 keyness 排序前 30 詞

名詞: termination, obligations, payment, provisions, breach, liability, damages, warranties, default, waiver, limitation, consent, receipt, delivery, fees, covenants, expenses, obligation, remedies;

形容詞:applicable, confidential, payable, liable, sole, authorized, permitted;

動詞:agrees, terminate, indemnify, purchase, comply, deemed,

executed, construed, arising, relating,