第三章、 中文詞內部語法結構自動分類
3.2 二字詞內部語法結構分類及其理論歧異
本節首先介紹我們所採之二字詞內部結構分類,繼而討論目前中文自然語言 處理領域對詞內結構分類方式之各家異同,藉此闡明選擇此分類架構之考量。
本研究所採之二字詞內部結構分類,原則上以(程祥徽 and 田小琳 1995)
為基準,主要分為五類,並因應意見擷取實務而稍作修改。詳述如下:
(1) 並列關係(Parallel,又稱聯合關係)
兩語素於「語法地位」上處於平行、平等的位置,彼此並無互相修飾之 關係。而語義上則無特定的限制,有兩語素意義相近或相同者如「海洋」、
「城市」、「明亮」;有意義相類、概念範疇等級相近者如「尺寸」、「牛馬」、
「山海」;也有完全相對、相反者如「男女」、「買賣」、「深淺」等等。為 簡化問題,疊字詞亦歸於此類,不另立為類。
(2) 修飾關係(Substantive-Modifier,又稱偏正關係)
第一個語素用以修飾第二個語素、第二個語素被第一個語素所修飾。若 以第二個語素之詞性分述之,被修飾的對象可能是名詞性的,如「高山」、
「大海」;可能是形容詞性的,如「筆直」、「雪白」、「火熱」;亦可能是 動詞性的,如「狂奔」、「痛哭」、「輕視」等等。為單純化問題,此處我 們限制被修飾者必為第二個語素。極少數漢語之例外,或部分由方言轉 譯而來的二字詞如「人客」(「人」為主、「客」為偏),則直接歸為「其 他」。
(3) 主謂關係(Subjective-Predicate,又稱陳述關係)
第一個語素為被陳述的對象、第二個語素為陳述語,即如句法中主詞與 謂語的關係,好似一個主謂句濃縮於二字詞中。如「地震」、「火燒」、「耳 熟」、「膽大」等等。
(4) 動賓關係(Verb-Object,又稱支配關係)
第一個語素往往為動詞性的,第二個語素則為其賓語(受詞),常為名詞 性的。如「輸血」、「登陸」、「簽名」、「賣命」等等。
(5) 動補關係(Verb-Complement,又稱補充關係)
第一個語素帶有謂語之性質,常為動詞性或形容詞性,而後一個語素則 從不同角度補充前一個語素,常為副詞性的。如「擴大」、「記住」、「標
明」、「充滿」等等。
除上述主要五類外,考量意見擷取任務之特殊性,若一語素之語義為「確認」
或「取消」後方語義,功能即類似數學中之正負號。其特徵明顯、易於辨認,於 意見傾向計算時亦具特殊性,故另立為類,即「肯定」與「否定」二類:
(6) 否定(Negation)
第一個語素之語義功能為否定後方語素之語義,此語素又稱為「否定 子」。常見的否定子如「非」、「否」、「不」。
(7) 肯定(Confirmation)
第一個語素之語義在於肯定後方語素之語義,此語素又稱為「肯定子」。 常見的肯定子如「有」。
以上分類架構已臻完備,下節分析中亦將顯示此七類可含括 95%以上之二字 詞。然仍有極少數例外無法為此架構所容納,如翻譯詞、俗語、簡寫,或部分虛 詞如「以為」、「所以」等等。為使本研究趨於完善,另增「其他」一類:
(8) 其他(Others)
無法歸於前七類之二字詞即屬此類,包括前綴詞(如「阿嬤」)、後綴詞
(如「牛仔」)、翻譯詞(如「檸檬」)、簡稱(如「立委」)、連綿詞(如
「鴛鴦」、「蝴蝶」,又稱單詞素詞)、部分虛詞與功能詞(如「而且」、「以 為」、「因為」)等等。
上述之八種分類即為本研究所使用之完整分類架構。然而,構詞分類方式本 為語言學研究課題之一,學說絕非獨尊一家,而是百家爭鳴,無論於漢語語言學 或計算語言學領域皆有諸多學者提出其構詞分類。此處茲將本研究之分類方式與
其他研究團隊之分類作一對照,如表 3-2: on Chinese Computing, Singapore.
7 劉雲, 俞士汶, et al. (2000). 現代漢語合成詞結構數據庫. 第二屆中文電化教學國際研討會, 廣西師範
團隊之統計文獻亦可發現(本研究後續進行之標記分析亦得到此結果),真實詞彙 中構詞分類之分布極不平衡,前三大類別幾乎可佔去八成左右的詞彙,是以若分 類過細,則許多次要類別將過小,而導致分類與應用時極為困難。是以本研究仍 選擇遵循現代漢語之構詞分類架構展開後續標記與預測之研究。