三 三
三、 、 、 、漢字效用遞減率 漢字效用遞減率 漢字效用遞減率 漢字效用遞減率
周有光(1992)曾根據當代各家對現代漢字字頻的統計結果進行歸納分析,指出漢 字的使用頻率並不平衡。最高頻 1,000 字的覆蓋率大約是 90%,以後每增加 1,400 字大 約提高覆蓋率十分之一,這種規律稱為「漢字效用遞減率」。茲將其規律表述於表 2-4-4:
表 2-4-4 漢字效用遞減率
字種數 增加字數 合計字數 覆蓋率 % 欠缺率 %
1,000 1,000 90. % 10 %
1,000 + 1,400 = 2,400 99. % 1 % 2,400 + 1,400 = 3,800 99.9 % 0.1 % 3,800 + 1,400 = 5,200 99.99 % 0.01 % 5,200 + 1,400 = 6,600 99.999 % 0.001 % 資料來源:周有光(1992:156)
「漢字效用遞減率」只在說明一種趨勢,視不同語料的差異,在具體統計上略有數
值的偏離。表 2-4-5 顯示《現代漢語頻率詞典》2,400 字可達 98.97%的覆蓋率,在《現 代漢語常用字表》2,500 字達 97.97%的覆蓋率。對照表 2-4-4 與表 2-4-5 的分析,說明 1,000 字是達到覆蓋率 90%的基本標準,2,400 字可達 97%~98%覆蓋率,具有 3,800 字以上的字彙量幾可達 99.9%的覆蓋率。
表 2-4-5 《現代漢語頻率詞典》與《現代漢語常用字表》字種覆蓋率
《現代漢語頻率詞典》(1987) 《現代漢語常用字表》(1988)
字種數 覆蓋率% 字種數 覆蓋率%
1,000 91.36%
2,400 98.97% 2,500 97.97%
3,800 99.93% 3,500 99.48%
資料來源:周有光(1992:156)
語言學家鄭錦全院士曾透過電腦程式精算出西方名著《理性與感性》總字數是 120,735 字,其中不重複字為 4,199 字;《傲慢與偏見》總字數是 123,270 字,不同的字 是 4,146 字;而《白牙》總字數雖只有 32,361 字,不同的字仍然是 3,431 字(曾志朗,
2002)。曾氏進而針對金庸武俠小說進行字數分析,《書劍恩仇錄》約 43 萬字、《射 鵰英雄傳》約 75 萬字、《神鵰俠侶》約 80 萬字、《天龍八部》約 100 萬字、《鹿鼎記》
約 99 萬字,五部小說的字數相差很大,但是文中所使用之不重複的字大約都在 4,300 多字上下。此外,進一步分析曹雪芹《紅樓夢》,前 80 回總字數 496,855 字,所使用的 不重複字也只有 4,293 字(表 2-4-6)。
表 2-4-6 中國文學名著字書統計
書 名 總 字 數 不同的字 書劍恩仇錄 435,313 3,685 射雕英雄傳 757,561 4,210 神鵰俠侶 802,426 4,092 天龍八部 1,022,633 4,439
鹿鼎記 994,522 4,163
紅樓夢前80回 496,855 4,263 紅樓夢後40回 234,980 3,217 紅樓夢120回 731,835 4,501
史記 533,505 5,122*
風俗通 34,431 2,716
桃花扇 80,121 3,315
表 2-4-6(續)
日知錄 459,357 5,225*
漢書 742,298 5,833*
三國志 377,807 4,388
後漢書 894,020 6,161*
資料來源:曾志朗(2002:24)。 *曾按:一些年代久遠的典籍因使用許多非常罕見 的古字,造成不同字的數量出現虛胖的現象。
語言的出現,改變了大腦原來為感覺和運動而產生的大腦皮質結構(曾志朗,2002);
由於人類認知系統對資訊的處理,有其先天的限制,而其可能的瓶頸是出現在寫作時所 能掌握的字數上。根據客觀的評估,一般學識廣博的作家如奧斯汀、托爾斯泰等文學巨 擘的作品字量,平均約在 20 萬字以上,但他們在小說中所使用到的不重複字卻一致地 出現了很明顯的極限,皆約為 4,500 字上下。對照表 2-4-6,亦有相似的趨向。因此,4,500 字的字量,似乎即是人類認知系統對訊息處理之心理詞彙的容量限制(曾志朗,2002)。
綜上所述,本節主要在透過歷代漢字字量與教學用字的研究,對應現代認知心理學 與腦神經科學的研究。文字的出現突破了時空的限制,帶動了人類近六千年的文明進展。
然而,文明的演進、社會的多元、資訊革命的快速發展,似乎仍無法改變人類的智慧中 樞——大腦的認知運作系統。
漢字主要功能在提供閱讀,熟練的讀者可不經由語音識別,即能以視覺圖像獲取訊 息,有效地簡化了閱讀解碼的過程;而且僅需識得 4,000 字左右,就得以穿越古今,跨 越時空與古聖先賢對話。顯而易見的,是由於漢字的表意特徵,其所承載之語言資料往 往能跨時代留存傳遞。
承前述列表統計,說明從中國歷代典籍到近代中外文學名著,無論是古今中外的大 文豪、影響世界歷史的革命英豪,到博學多聞的近代作家,縱然其作品內容再怎麼豐富,
但無論篇章長短,能使用的不重複字仍然有一定的限制,皆約在四千餘字,證實了人類 對文字的認知容量的有限性。此也說明中國歷代社會常用字恆量在 3,000 字上下,而童 蒙教材的編纂字數二千餘字,體現了中國古代漢字教學所進行的字頻研究與常用字研究,