第二章 文獻探討
第二節 詞彙語料庫分詞建立
學習詞彙如何分詞之前,應先對「詞彙」二字有所認識,方能判斷語詞 該切分或合併。本節先初步介紹詞彙的結構與層次,再就適合國小學生使用 之語料庫進行分詞的介紹與應用。
一、詞彙的結構
語言是由語音、詞彙、句子三個層次組合而成的。詞彙又可分成語素、
詞、詞組三個小層次。每一層的組合都不是任意的排列組合,而是有一定規
19
律的(竺家寧,1998)。國語如此,英語也是如此。語言層次是一個倒金字 塔的結構,這些層次是由最小的單位開始(語言的聲音),接著提升到整個 字、整句話、成串的句型。語言的各層次結構如下圖,見圖 2-2:
圖 2- 2 語言各層次
資料來源: 心智地圖:帶你了解孩子的八種大腦功能(頁183),蕭德蘭譯,2004,臺北:
天下遠見。
研究者欲探討國語首冊教科書中的詞彙,有必要先了解詞彙構成的語法 單位;有責任先釐清「詞素」、「詞」與「詞組」彼此的範圍和關聯性,好為 將來分詞概念奠定基礎。
(一) 詞素
語音是語言結構的底層,是幾個有限的音位,按照規律組合起來,變成
「音節」。當音位組合成音節後,具有了意義,就是「詞素」。詞素就是「構 詞元素」,它是具有意義的最小語言單位(竺家寧,1998)。詞素由可否單獨 成詞可以區分出「自由詞素」和「附著詞素」兩種類型。
1. 自由詞素
自由語素可以自由來往兩個層次(竺家寧,1998),既能作構詞成分,
又能單獨成詞的語素(楊惠珍,2012)。例如:「買」可居於一個詞的地位,
在「購買」、「買賣」中的「買」就是詞素;又「想」是詞,「夢想」、「想念」
中的「想」就是詞素。有的字既可以作詞素,也可以作詞。
2. 黏著詞素
黏著詞素只能作構詞成分,本身不能單獨成詞,必須與其他成分相結合
(楊惠珍,2012 )才能出現在句子裡。例如:「社」字只能組成「社會、社 探討語言與其他活動的關係 (語言學,metalinguistics)
長篇大論的語言 (論述文,discourse) 組合文字成為句子 (造句法,syntax)
文字的含意 (語義學,semantucs) 文字片段 (語素,morphemess)
語音 (音素,phonemes)
20
稷、社論……」等詞,才能出現在句子中,單一個「社」字不行;又「作」
字不能單獨成詞,永遠得和另一個成分附著在一起,如「作家」、「作怪」、「創 作」……等。
然而「自由詞素」和「黏著詞素」的界線並不十分清楚,劃分上存在著不 確定性,連帶的也影響到詞的界定。
(二) 詞
詞是由詞素組成,代表單一的概念(竺家寧,1998)。葛本儀(2005)
曾提出五個詞的特色:
1. 詞必須具有一定的語音形式。
2. 詞必須表示一定的意義。
3. 詞是最小的造句單位。
4. 詞是可以獨立運用的。
5. 詞是造句單位。.
詞可以依照詞裡所包含詞素的多寡,分為「單純詞」和「合成詞」。
1. 單純詞:只包含一個詞素。
(1) 單音節:僅由一個字構成且可以清楚表達一個意義或概念(李麗綺,
2003),如「山」、「從」、「爬」、「家」……等。
(2) 雙音節:由兩個音節,且單一個字並不具任何意義,必須把個音節組 合起來才具備意義(李麗綺,2003)。如「玻璃」、「螞蟻」、
「窈窕」、「琵琶」、「忐忑」……等。
(3) 多音節:由多個音位,即三個以上的漢字所組成的詞。如「巧克力」、 「馬拉松」、「歇斯底里」、「淅瀝嘩啦」……等。
2. 合成詞:由兩個或兩個以上的詞素合成。
(1) 實詞素與實詞素組合:由兩個各自獨立的單純詞結合在一起。如「山 水」、「美麗」、「腳踏車」、「望遠鏡」……等。
(2) 實詞素與虛詞素組合:在此虛詞素並無意義,僅為辨別之用。如「帽 子」、「兒子」、「老天」、「石頭」……等。
(三) 詞組
比詞更大的單位是「詞組」又稱為短語,是由兩個或是兩個以上的詞,
包括實詞與虛詞,按照一定的語言規律組合起來的,所以短語是比詞更高一 級的語法單位,組合的各成分之間關係比較鬆散,而且還不能成為句子。詞 組從結構上大致可以分為固定詞組和自由詞組兩大類。
21
1. 固定詞組:指結構比較固定的習慣用語或四字熟語,它的詞及其次序一 般都不能變動。例如:「你一言我一語」、「國立台東大學」、
「兄弟姐妹」……等。
2. 自由詞組:由兩個或兩個以上的實詞組成,語義不等於一個詞的短語。
例如:「好天氣」、「馬總統」、「候選人」……等。
其中「白馬」、「黑衣」是詞組;「白菜」、「黑板」就是詞,不是詞組了。
因為「白馬」是「白」和「馬」兩個概念組成,我們也可以說成「白色的馬」,
可是「白菜」、「黑板」是一個單一概念,兩字結合得十分緊密(竺家寧,1998)。
在本研究中不以詞彙字數的多寡,來判斷是否為單一詞彙,而是以詞本 身是否清楚正確表達一個意義或概念,所以「貓」是一個詞,「貓頭鷹」也是 一個詞;「九」是一個詞,「九年一貫國教」也是一個詞。
二、語料庫分詞的介紹與應用
英文書寫時,詞和詞之間有距離,但中文書寫時,詞和詞之間有不斷開 的特性,因此在詞的分界上常處於模稜兩可的尷尬局面,為使一般使用者有 所依循,中華民國計算語言學學會在 1991 年開始草擬分詞規範,初步訂定分 詞的原則,於 1995 年接受中央標準局(1999 年更名為經濟部智慧財產局)的 委託,擬定「中文資訊處理分詞規範」,且於 1999 年正式通過為國家標準,
編號 CNS14366。分詞規範的研擬分為兩種方式進行,一方面是邀請台灣知名 的學者專家召開討論會,就其專業領域,討論分詞規範的大方針;另一方面 由中央研究院詞庫小組根據分詞規範,實際從事語料分析,從上百萬的語料 中,整理出分詞標準的細節規定(中研院,2013)。
「中文資訊處理分詞規範」明示分詞原則,內含兩條基本原則與六條輔 助原則。基本原則是從語意與語法兩方面來作理論性的定義,乃具不變性的 最高指導原則;相對於基本原則的不變性,輔助原則就富於彈性,可依時代 的演變、不同的文本或視情況的需要而有所增減,是具可變性的操作型原則,
下頁依基本原則和輔助原則的概念進行分詞:
(一) 基本原則
1.語意無法由組合成分直接相加而得到之字串應該合為一分詞單位。 合併原則 2.詞類無法由組合成分直接得到,應該合為一分詞單位。 合併原則
22
23
24
25