• 沒有找到結果。

三類句末「吧」的共現詞親疏計量與分析

第二章 多義句末助詞「吧」共現詞分析

第二節 三類句末「吧」的共現詞親疏計量與分析

由「中研院現代漢語平衡與料庫」中取得的句子,均已經過分詞處理,

而且各詞語之後都附有詞類標記。為減省空間與簡要呈現例句,只保留各詞 之間因分詞而隔開的空間,省略了各詞後原有的詞類標記。例如以下「吧」

句子在原始語料中的形式:

(35) 思東(Nb) ,(COMMACATEGORY) 請(VF) 到(P) 飯廳(Nc) 吃飯 (VA) 吧(T) 。(PERIODCATEGORY)

句末的「吧」被標示為(T),表示「助詞」。其餘的「思東、飯廳」各 標記為(Nb)與(Nc),分別表示「專有名稱」與「地方詞」。動詞「請、吃飯」

之後的詞類標記(VF)與(VA)則表示「動作謂賓動詞」與「動作不及物動詞」;

而「到」則標示為(P),指「介詞」。這些詞類標記都與句子一同輸入程式,

以便統計各詞語的共現率時,除檢索詞彙之外,也根據其詞類之別。各種詞 類標記的總表請參見文後的附錄一。

此外,輸入計算「吧」句子時,也有特定之標準作為句子的範圍。中文

所指的句子常有不同的範圍,可以是句號、驚嘆號和問號結束的詞串,也可 以是逗號結束的詞串。本文採用的句子範圍是以逗號、句號、問號、驚嘆號 結束的詞串作為句末助詞研究的單位,稱為小句或句子。例如,以下例句各 以逗號、句號、問號、驚嘆號結束,這些都是本文所謂的「吧」句子。

(36) 就 這樣 吧,晚上 見!

(37) 那麼,我 還是 到 外頭 去 印 吧。

(38) 你 是 中國 民航 公司 的 領導 吧?

(39) 我 把 它們 修理好 再 回去 吧!

上一節中曾描述如何將所有語料庫中的「吧」句子分為三類的判別原 則,也曾列舉例句說明「吧1、吧2、吧3」句子的形式特徵。本節則依照句 子的分類結果,將三類「吧」句子的電子檔分別輸入程式,計算各類句末「吧」

的共現詞親疏關係,將輸出的共現詞排序列表,以便分析共現詞間的關聯。

最後以三類句末「吧」各與其共現詞之間具有的各別語義特徵支持「吧」區 分為三類句末助詞的多義假設。

本節採用的共現詞親疏計量程式,由鄭錦全(2011)以 Delphi 語言編 寫。該程式在輸入一個關鍵詞及所要檢查的電子文本檔案後,即可算出每個 帶有關鍵詞的小句中所有共現詞與關鍵詞之間的親疏引得。計量後輸出之共 現詞候選表按 C.C.Cheng Index 排序。此引得數值代表個別共現詞與關鍵詞 出現的緊密程度。其計算方式是以 LogDice 值除 14 後乘 100。因為 LogDice 最高值是 14,除出來的值乘 100 後,最高值為 100,較符合一般預期的百分 比基準。其中 LogDice 值(Rychly, 2008)的計算公式如下:

 

公式中的 fxy稱為共現詞頻,是共現詞在所檢查的文本中與關鍵詞出現在同

一小句中的次數;fx稱為共現詞全頻,是共現詞在語料庫所有文本中出現的 次數;fy稱為關鍵詞全頻,是關鍵詞在語料庫所有文本中出現的次數。比較 兩個不同共現詞 A 與 B 的 C.C.Cheng Index 值,若共現詞 A 比共現詞 B 之 C.C.Cheng Index 值增加 100/14(≒7.14),則代表共現詞 A 與關鍵詞出現的緊 密程度是共現詞 B 與關鍵詞出現的緊密程度的 2 倍。

根 據 Rychly (2008) 的 分 析 , LogDice 值 雖 然 比 T-score, MI-score, MI3-score, Minimum Sensitivity, Dice coefficient, MI lof Freq 等共現詞計量公 式出現較晚也較少被普遍應用,卻具有兩項優點。此兩項優點是不受語料庫 大小影響及更能合理呈現關鍵詞與共現詞的關係。此外,在決定採用 LogDice 之前,本文曾經比較 LogDice 的計量結果與 T-score, MI-score, MI3-score 的計量結果,發現前者得出的共現詞候選表較具內部語義關聯。

因此決定選用 LogDice。

以下將分別列出三類「吧」句子經計量後,以 C.C.Cheng Index 數值排 序前 30 位之共現詞表。僅取排序前 30 位作為觀察目標是因為 30 位以後,

通常 C.C.Cheng Index 的數據偏低,漸趨於 40,因而較不具參考價值。將排 序前 30 位之共現詞列為候選表後,再觀察分析各表中的共現詞與句末助詞 間的語義關聯。如果三類「吧」句子輸出之共現詞計量與分析結果,顯示各 類句末「吧」與其共現詞之間具有共同的語義特徵,而三類「吧」句子的語 義特徵又各別不同,則可支持句末「吧」的多義性假設。其次再對比分類後 與分類前「吧」句子的共現詞親疏計量結果,如果未分類前「吧」句子的共 現詞與句末「吧」之間不能得出單一語義特徵,則可以間接支持「吧」句子 分類的必要性。以下分三小節討論「吧1、吧2、吧3」句子分別輸入程式後 所得的共現詞親疏計量結果。

一、「吧 1 」的共現詞親疏計量與分析

本文假設「吧 1」表「說話者懷疑或不確定」。將語料庫中分類所得的 906 筆帶有「吧 1」的句子輸入鄭錦全(2011)的共現詞親疏計量程式後,

以「吧」為關鍵詞,檢索得出共現於句末為「吧1」小句中的所有詞語。小

句範圍以逗點、句點、驚嘆號或問號為結束。為了顧及完整語境的呈現,本 文引用語料庫的句子為例時,將一併摘錄句子的上下文。但是計算共現詞 時,只計算關鍵詞所在小句範圍內詞語的共現次數。以下將選取引得排序前 30 位的「吧1」共現詞列成表二-2 以便觀察討論。

表 二-2、「說話者不確定」的「吧1」共現詞親疏排序

C.C.Cheng Index 共現詞 共現詞頻 共現詞全頻 關鍵詞全頻

LogDice Index

1 68.50 大概(D) 60 678 1872 9.59 2 63.84 總(D) 38 667 1872 8.94 3 61.35 也許(D) 33 936 1872 8.59 4 60.53 或許(D) 27 616 1872 8.47 5 60.13 應該(D) 49 2823 1872 8.42 6 56.97 該(D) 23 1123 1872 7.98 7 56.95 不會(D) 34 2563 1872 7.97 8 55.97 算是(VG) 16 423 1872 7.84 9 55.27 太(Dfa) 31 2885 1872 7.74 10 54.79 可能(D) 36 3916 1872 7.67 11 54.13 了(T) 78 11499 1872 7.58 12 53.53 夠(Dfa) 12 310 1872 7.49 13 52.50 您(Nh) 18 1742 1872 7.35 14 51.25 恐怕(D) 10 396 1872 7.17 15 49.78 是(SHI) 327 83666 1872 6.97 16 49.58 一定(D) 15 2129 1872 6.94 17 48.76 對(VH) 17 3036 1872 6.83

18 48.70 你(Nh) 66 17291 1872 6.82 19 48.28 可能(VH) 8 547 1872 6.76 20 48.27 你們(Nh) 12 1760 1872 6.76 21 47.42 這麼(D) 9 1087 1872 6.64 22 47.28 請求(VF) 6 127 1872 6.62 23 46.34 不錯(VH) 7 684 1872 6.49 24 46.00 這(Nep) 94 33592 1872 6.44 25 45.96 想(VE) 20 5706 1872 6.43 26 45.85 也(D) 82 29520 1872 6.42 27 45.83 沒(D) 10 1965 1872 6.42 28 45.80 未免(D) 5 52 1872 6.41 29 45.54 大約(Da) 6 496 1872 6.38 30 45.53 好像(D) 8 1287 1872 6.37

(D:副詞,VG:分類動詞,Dfa:動詞前程度副詞,Nh: 代名詞,VH: 狀態不及物動 詞,VF: 動作謂賓動詞,Nep: 指代定詞,VE: 動作句賓動詞,Da: 數量副詞)

上表第一列起即按引得數據作共現詞的親疏排序。第一欄為排序號。第 二欄的 C.C.Cheng Index 為引得數據,顯示各共現詞與關鍵詞出現的緊密 度。第三欄是共現詞及其詞類標記,第四欄是該共現詞在「吧1」句子中的 共現詞頻,第五欄是共現詞在語料庫中的全頻,第六欄是關鍵詞「吧」(T) 在語料庫中的全頻,第七欄則是按公式計算相關數據所得之 LogDice 值。

第六欄的關鍵詞全頻採計的範圍是整個平衡語料庫而非僅包含「吧 1」 句子的次語料庫,因此關鍵詞全頻是 1872 而非 906。選用此採計範圍的原 因有三:一是為求與共現詞全頻採計範圍一致;二是為了後續對比未分類

「吧」與三類「吧」的共現詞候選表時統一基準。第三個原因則是因為試用

「吧1」句子的次語料庫為關鍵詞全頻採計範圍的共現詞計量結果,相較於

以全語料庫為採計範圍的計量結果,後者的共現詞所呈現的內部語義關聯較 前者更具明確語義關聯。前者的共現詞候選表較後者更常出現毫無語義關聯 的詞語,如人名或外來語等。因此,以下的所有計量都將統一以全語料庫作 為採計範圍。以各類「吧」或「呢」句子的次語料庫作為採計範圍的計量結 果雖暫不採用,本文仍將該六個共現詞候選表置於附錄二中供參考比較。

以下試舉一例詳細說明共現詞候選表的內容。表二-2 中,共現詞親疏引 得排序第一位的詞是「大概」,其詞類標記為(D),按中研院平衡語料庫的 詞類標記分類(參見附件一),是副詞。「大概」在「吧1」句子中出現的 共現詞頻是 60,在平衡語料庫中的全部詞頻是 678。雖然「大概」的共現詞 頻低於排序第 11 的句末助詞「了」的共現詞頻 78,但是「大概」的引得數 據排序卻先於「了」,這是因為「了」的在平衡語料庫中的全部詞頻是 11,499,

遠高於「大概」的全部詞頻。因此「大概」的 C.C.Cheng Index 數值 68.50 高於「了」的 54.13,而「大概」的親疏程度比「了」高約 4 倍。

下表依語義類別整理「吧1」句子排序前 30 位的高關聯共現詞,括號內 的數字為該共現詞的排序。排除排序 30 位以後的共現詞,除了因為考量其 引得數據過低之外,也為其語義關聯鬆散。例如排序第 31 至 35 的共現詞分 別是「記得、差不多、厲害、好、知道」,與排序前 30 位以內的共現詞較無 語義關聯。

根據「吧1」句子的共現詞親疏計量結果,可將排序前 30 位共現詞的內 部語義關聯分為三個類別:「表存疑」、「可弱化表存疑」與「無語義關聯」。

也就是說,排序前 30 位的高關聯共現詞中,有 22 個共現詞直接或間接與「表 存疑」相關。「表存疑」類共現詞是指可用於表達說話者對命題真值存疑的 認知情態詞,如「大概、總、也許、或許、應該、該、算是、可能、恐怕、

未免、好像、大約、想」。「可弱化表存疑」類共現詞則是指那些原來並無 表存疑義(甚至有確定義),但卻因搭配句末「吧1」或其他表「不確定」

的認知情態詞,因而表達對命題真值存疑的詞語,如「不會、太、是、一定、

對、可能、這麼、不錯」。「無語義關聯」類,是指那些暫時看不出和關鍵 詞句末「吧1」之間有任何語義關聯者。

表 二-3、表「說話者不確定」的「吧1」句中的共現詞語義類別 語義類別 共現詞與排序

表存疑 大概(1)、總(2)、也許(3)、或許(4)、應該(5)、該(6)、算是(8)、

可能(10)、恐怕(14)、想(25)、大約(29)、好像(30)

可弱化表存疑 不會(7)、太(9)、夠(12)、是(15)、一定(16)、對(17)、可能(19)、

這麼(21)、不錯(23)、未免(28)

無語義關聯 了(11)、您(13)、你(18)、你們(20)、請求(22)、這(24)、也(26)、

沒(27)

「表存疑」類共現詞中,除了「算是」與「想」之外,其餘都是副詞。

查詢《現代漢語八百詞》(呂叔湘,1999),得到幾個「表存疑」類共現詞 的定義如下:

大概: 表示對情況的推測;可能。

總: 表示推測、估計,多用於數量,常和「大概」連用。

也許: 表示猜測或不很肯定。

或許: 表示不很肯定;有可能。

應該: 估計情況必然如此。

該: 估計情況應該如此。

可能: 表示估計;也許;或許。

好像: 彷彿,似乎。表示不十分確定的推測判斷或感覺。

大約: 用於推測情況較少,多見於書面。

算: 推算、推測。

想: 料想、估計。

副詞「大概、也許、或許、應該、該、可能、好像、大約」與動詞「算 (是)、想」都與「不確定」、「推測」、「估計」等表存疑義的認知情態相 關。以下「吧1」句子,各含有一個「表存疑」類共現詞。

(40) 他 曾經 聽 人 談到 過 寶石,但是 從來 沒有 看見 過,不 知道 寶石 是 什麼 樣子,他 想 這些 美麗 的 小 石頭 大概 就 是 寶石 吧。 (41) 你 總 不 忍心 掃 大家 的 興 吧?

(42) 申請 國宅 不易,但是 申請 貸款 自購 住宅 也許 是 無 殼 蝸牛族 的 一 項 福音 吧!

(43) 或許 這 也 可以 是 她 學習 獨立 的 開始 吧!

(43) 或許 這 也 可以 是 她 學習 獨立 的 開始 吧!