• 沒有找到結果。

第二章、 文獻探討

2.2 中文語法結構研究及其自動剖析

2.2.1. 詞內層次

2.2.1.1. 中國大陸地區

自然語言處理領域中對漢語構詞問題著力最甚者莫過於中國大陸,早在 1986 年始籌劃之《現代漢語語法信息辭典》中便包含了詞彙內部結構的資料欄位2,此 後多部語素資料庫與構詞資料庫亦紛紛在國家級科學基金挹注下展開編纂,為構 詞問題提供極可觀之研究資源。其成果固多非發表於國際期刊及研討會,但有鑒 其成果之豐、規模之鉅,不可輕忽其代表性,故特闢專節討論之。本節將以中國 大陸地區長期關注漢語構詞問題之三個主要團隊為軸,簡介各團隊之研究成果,

並比較其與本論文在目的、範疇、方法上之異同。考量此三團隊相似之研究脈絡:

均以語料庫建構為發軔,繼而就其所建之語料庫展開分析,故本節在介紹各團隊 時,均以其所建構之語料庫為主。

1 該研究使用哈爾濱工業大學信息檢索研究室所開發之語法分析套件。可參考:http://ir.hit.edu.cn/demo/ltp/

2 如離合詞分庫下之「結構」欄位。

2.2.1.1.1. 北京大學(俞士汶、朱學鋒等)

z 語料庫:《現代漢語語法信息辭典》、《現代漢語語素庫》、《現代漢語合成詞結 構數據庫》

《現代漢語語法信息辭典》為北京大學計算語言研究所自 1986 起以十餘年人 力物力所編纂之大型電子辭典。該辭典遵循朱德熙先生提出之「詞組本位語法」

精神(亢世勇 2001),其編輯宗旨並不在收錄大量詞彙(至 2004 年止,該辭典包 含詞彙數約 7.3 萬左右,尚不及《教育部國語辭典》詞條數之一半),而在於盡可 能收錄大量「組成短語或新詞」的「詞部件」(包括語素、詞或固定短語),並詳 細標註其構詞能力及組合規則,從而成為一個包含「詞部件資訊」與「構詞知識」

的語料庫(王惠 and 朱學鋒 1994)。該詞典將漢語詞彙分為 26 個詞類3,合有 32 個資料庫:總庫 1 個、各類詞庫 23 個(嘆詞、擬聲辭、非語素字不獨立建庫), 代詞下又設有「人稱代詞」、「指示/疑問代詞」2 分庫,動詞下則有「體賓動詞」、

「謂賓動詞」、「雙賓動詞」、「動結式」、「動趨式」、「離合詞」6 個分庫(朱學鋒, 俞士汶 et al. 1995),可表為一樹狀結構圖:

圖 2-1 現代漢語語法信息辭典樹狀結構圖(李普霞 and 劉雲 2004)

3 18 個「基本詞類」:名詞(n)、時間詞(t)、處所詞(s)、方位詞(f)、數詞(m)、量詞(q)、區別詞(b)、

代詞(b)、動詞(v)、形容詞(a)、狀態詞(z)、副詞(d)、介詞(p)、連詞(c)、助詞(u)、語氣詞(y)、

擬聲詞(o)、嘆詞(e),此外也收錄了一部份較基本詞類為大的單位:成語(i)、習用語(l)、簡稱略語(j),

以及一些較小的單位:前接成分(h)、後接成分(k)、語素字(g)、非語素字(x)、中文的標點符號(w),

共 26 個詞類。

在語法辭典初步完成後,為深入研究未知詞辨識問題,1999 年北京大學計算 語言研究所針對 GB/T2312-1980 下的全部漢字建立了一個單音節的「語素庫」。每 一筆記錄均包含漢字、讀音、類別、同形、組合、位置、姓、人名、地名、水名、

書面、方古、義項、備註等欄位,合有 7223 筆記錄。語素庫完成後,更進一步與

《現代漢語語法信息辭典》集成,將語法辭典中全部詞條以「成份語素」為索引 重新排序(如此雙語素詞便會擴充為兩筆紀錄、三語素詞為三筆),成為一更完備 的漢語知識庫(朱學鋒, 俞士汶 et al. 1999; 俞士汶, 朱學鋒 et al. 1999; 俞 士汶, 朱學鋒 et al. 2001)。

而後於 2000 年,(劉雲, 俞士汶 et al. 2000)進一步將《現代漢語語法信 息辭典》中的 39370 個二、三音節詞取出(不包含人名、地名),標註詞語、讀音、

詞類、同形、構詞、義項、備註、層次、前字/後字等屬性,建立了《現代漢語 合成詞結構數據庫》。

2.2.1.1.2. 清華大學(苑春法、黃昌寧等)

z 語料庫:《漢語語素數據庫》

《漢語語素數據庫》為北京清華大學於 1997 年所完成之大型資料庫,該資料 庫可概分為兩部份,一是「漢語語素」,二是「由語素所構成之詞」(簡稱「語素 所構詞」)。

漢語語素方面,該資料庫定義「語素」為「音義結合的最小單位」,即只要「音」

或「本義」中有一者相異,便獨立成為一「語素」(若音義相同但字型不同,原則 上視為同一語素);而考量語用之情況,同一「本義」之語素在文本中或會產生「引 申義」或「比喻義」,故每一「語素」下又有「語素項」,茲舉該語素之所有可能 義項。「語素項」即為該資料庫的最小錄單位(entry),每一語素項均標註意義、

類別、成詞/不成詞/半成詞、前位/中位/後位/不定位等資訊。合錄有語素

10442 個、語素項 17470 個。

語素所構詞方面,該資料庫蒐集由漢語語素組成之二、三、四字詞,每個詞 均標註詞型、讀音、詞類、構詞方式、類序、多義、字義組合等資訊。在刪除重 覆詞彙後,合有二字詞 45960 筆、三字詞 3930 筆、四字詞 4820 筆。

(苑春法 and 黃昌寧 1998)以基因演算法於語料庫中學習出最主要之構詞 原理,並將結果與語言學知識對照,而得到一定程度的肯認。

2.2.1.1.3. 魯東大學(2006 年前原山東煙臺師範學院)(亢世勇等)

z 語料庫:《現代漢語新詞語信息辭典》、《現代漢語新詞語構詞法數據庫》、《現 代漢語語義構詞數據庫》

為創建漢語新詞語研究之基礎平臺,山東煙臺師範學院於 1999 年起展開《現 代漢語新詞語信息辭典》的編纂。以盡量蒐集 1978 年後產生之「新詞語」為目標,

參考《現代漢語語法信息辭典》之架構,該辭典目前已收納近 40000 個新詞語。

除語法辭典固有欄位外,每筆新詞另標註有產生途徑、應用領域、來源、時間等 新詞語資訊,以及構詞法資訊(如:單音/多音、單純詞/合成詞、聯合/偏正

/補充/動賓/主謂/補充),以便對產生新詞之構詞法進行研究。該辭典之結構 亦可以表為一樹狀圖:

圖 2-2 《現代漢語新詞語信息辭典》結構圖(亢世勇 2002)

其中「構詞法庫」詳細標記了每一詞語之構詞部件、構詞法與詞性資訊,為

新詞構詞研究提供了極充分之語料(亢世勇 2001; 亢世勇 2002)。而後(亢世勇

2003)又自該辭典中挑選出兩萬多個詞語另編為《新詞語大辭典》,供一般語言學 研究之用。

其研究成果方面,(亢世勇, 徐豔華 et al. 2005)對產生新詞彙之構詞法進

行統計研究;而(亢世勇, 許小星 et al. 2005)則以現代漢語語義構詞數據庫 進行構詞原理之探討。

然如(傅愛平 2003)所陳,以上諸多研究所習得之構詞律卻鮮少直接應用在 未知詞辨識上,是以後續中國大陸諸多學者均將目光轉往「語義結合」而非「語 法結合」之思維處理構詞問題,而不繼續於構詞領域著墨。