第二章 文獻回顧
第二節 諸家部件分析原則
整體而言,諸家部件分析方法看似大同小異,不過,倘辨源析流,不難發現
,各領域之部件分析,其實與各自「部件」定義及其分析目的相應,對字理之要 求寛嚴不一,落實於分析原則與操作細節,亦因之而見微異。
一、文字考訂
文字學中之部件分析,略可分為二類。早期唐蘭所謂,自許慎而下之「部件
」,其實只是「偏旁」之改稱,而傳統文字學中一般罕見歸納操作程序者,是其 部件分析並未出現具體方析方法。其次,則是王寧受資訊「部件」影響所提出之 構形分析,嚴格說來,王氏同未具體呈現分析步驟,然 1997 年〈漢字構形理據與 現代漢字部件拆分〉中,王氏曾說明理據與部件拆分之關係,就中略可窺見其分 析原則:
下面分幾種情形來說明理據與部件拆分的關係。
(一)漢字部件組合為合體字時,大部分是依層次二合的,極少部分是一 次性多合的(如器、品及薑的下部、斷的左旁),只要理據存在,拆分即 可按組合的程序反向進行。……。
(二)有些現代漢字因為部件的形體異化,理據無法直接講解,但部件分 合與字理沒有矛盾,追溯其歷史仍可見其理據。例如:
赤-原形从“大”从“火”,“大”異化為“土”,“火”異化為“ ”
,但“土”與“ ”仍明顯區別為相接的兩個部件。參考字源拆分為“
土”“ ”,再分別以“大”“火”的變體講解,不發生矛盾。
(三)一部分現代漢字,部件的分合與構形理據是不一致的。這裡又分兩 類情況,一類是理據應分而楷書交織、黏合。以上所舉“甫”、“ ”形 即屬此類。
另一類是理據應合而楷書分離。例如:……;“朋”字甲文象兩串相連的 貝串,小篆象鵬鳥的羽翅,都相連不能分,楷書以兩個相離的“月”字構 形,等等。在這種情況下,服從字形又會與字理不一致,應從發展的觀點 出發,尊重現實字形進行拆分。
(四)一部分現代漢字本為古文字描寫性的隸定字楷化而成。它們的構形 與意、源本是一致的。例如東原是聲借字,小篆涉“日出東方”之意,將 其形改造為“从日在木中”依物象組合“日”插在“木”中;……。但楷 書“木”的樹木形、“日”的太陽形、……已失去象物性,這種穿插結構 的原因已無法解釋,也應看作字形與字理及矛盾,尊重字形來處理。126
126 見〈漢字構形理據與現代漢字部件拆分〉,《語文建設》,1997 年第 3 期。
40
此中所述,如以部件拆分之角度視之,前二者或可重新表述為:
(一)部件拆分應依字理進行層次拆分。
(二)現代漢字中形體異化之部件,應追溯其本形,依其理據進行拆分。
至於(三)、(四)兩項,則在字理與現代漢字字形之矛盾間,尊重現實字形進 行拆分。其時王氏本自言其中包括有理拆分與無理拆分,謂後二者為無理據者也
:
以上四種情況,一、二兩種屬有理據拆分;三、四兩種屬於無理據拆分。
在有理據拆分中,字形與字理是一致的,因此屬於依形拆分。在無理據拆 分中,字形與字理發生矛盾而採取尊重字形的原則,因此也屬依形拆分。
盡量尊重理據而不違背字形,其目的是尊重歷史而不復古,立足現代而合 乎規律。這樣做,既維護漢字的歷史傳承性,又維護漢字共時的系統性,
使漢字教學與漢字信息處理在符合規律的基礎上取得一致。127 不過,時隔 5 年,2002 年王氏於《漢字構形學講座》中則強調:
全部喪失理據的字,更要終止分析,不可依形拆分。例如,“要”仍可看 作獨體字,不可拆成“西”、“女”;“執”要停止拆分,不可拆成“幸
”、“丸”;……
用不具備構意或失去構意的字形來任意杜撰構意,叫作望形生義,對維護 漢字構形的系統性和漢字的科學應用是有害的。……,即使是古文字,也 不是每一個字都能直接分析構意的,少數難以分析構意的漢字,寧可存疑
,也不要亂講。128
二說立場顯然不同,而更以字理優先也。故如前述,王氏此時實已不贊同無理據 拆分,而純就理據拆分,所析之部件,其實即與偏旁無異矣。
整體說來,王氏之構形學可謂部件向偏旁的回歸,是在部件分析中堅持理據 的結果。故其析分方法部分雖有類於資訊部件之拆分,然而如其所述:
「六書」所以能統帥漢字構形分析千年以上,主要是它的「結構-功能」
分析法適合表意文字形體結構的特點,傳統「六書」不應當拋棄,而應當 為漢字構形學的總結提供一種合理的思路。129
127 見〈漢字構形理據與現代漢字部件拆分〉。
128 見《漢字構形學講座》(上海:上海教育出版社,2002.3,1 版 1 刷),頁 31-33。
129 見《漢字構形學講座》(臺北:三民書局),頁 14。
41
其基礎其實仍建立在「六書」之上,之與傳統文字學不同者,則因應現代字形之 構形分析,以及現代部件之應用,故以現代字形為對象,並於平面結構外,又對 整字進行層次分析耳。
二、資訊應用
緣於計算機運算之要求,資訊應用之部件分析當是最早明確其分析方法,並 且使成系統者。在交大字根集的字根分析中,謝清俊指出其分析字根之方法如下
:
實際選字根之過程如下:
中文以左右及上下可分為二部份之字數最多,尤以左右可分者居多。第一 步先將左右可明顯分為二部份之字分解,相同之字根歸併,並將其所屬原 字頻率相加,如此可將 9,129 字減少為 3,256 字及字根。第二步復將上下可 明顯分為二部份與包含結構之字分解,結果字及字根數減少至 621,經簡 單分解,已將原有字數減少約十四倍。
須注意者,如前論,應保留出現次數大於(2)式條件之字,不予分解,如此 共保留 25 字。此外,一字分解後,其字根之一,無在他字中共用者,為 孤獨之字根,亦不予分解。
再依前述原則應用於字根,作第三步之分解,並檢查第一、二步中不合原 則之分解,予以恢復,如此共得字根 448,原保留之 25 字以及罕用字根 23
,合計字根共為 496。130
質實而言,謝氏並未歸納字根之分析原則,而是就「交大字根集」之實際操作詳 述其分析步驟。據謝氏所述,該系統首先擇定林樹《中文電腦基本用字研究》為 其字集,字集含單字 8,532、異體字 597,合計為,9,129 字。131在此字集中,首 先先將整字析為二字根,其中,先分左右結構,後分上下及包圍結構。經刪去複 重後,可得第一批字根。為使字根系統達到「最佳化」之結果,此第一階段之字 根,更依二項原則調整去取,其一為「邊際效用原則」(即所謂(2)式條件),
其二則孤獨字根不予分析。調整後之字根,倘仍有複合結構者,則重複前述步驟 進行第二次分析。其中,所謂「最佳化」、所謂「邊際效用原則」者,謝氏解釋 謂:
所謂最佳化,是指在字根總數和平均每個字分解的字根數目(經使用頻率 加權計算)兩者之間,求一近似最佳的結果。通常,字根越多,每個字分 解後的字根數就越少;字根越少,則每個字的字根就越多。在使用方面,
130 見〈中文字根之分析〉。
131 詳見〈中文字根之分析〉。
42
43
依文中所述,式中:135 n:輸入鍵之數量 s:平均按鍵數
fi:字(或字根)出現頻率
∑$#%&𝑓𝑖:字(或字根)在字集中出現頻次
此中,輸入鍵之設置相當於字根總數;而每字平均按鍵數即相當於單字字根數。
如上所述,字根總數大抵與單字字根數呈負相關,因此得以二者之積表示效益之 差異。此式以減少字根前後,積之變化為比,假設一字可析為二字根,如其中一 字根以上與其他字根不同,則不應析分;如二字根皆包含於其他字根中,計其總 頻次之增減決定去取,如析分後頻次減少,則該字(或字根)應予分析;反之,
如頻次增加,則應減少字根,該字或字根不宜再分析。
以此類推,倘一字析為三部份以上時,其公式可改為:136
𝑓 < ∑ 𝑓𝑖# 𝑛(𝑟 − 1)
其計算結果,謝氏以為:
凡一個字其使用頻率在萬分之 37.58 以上時,不應分解,在萬分之 18.79 至 37.58 之間者不可分解為兩個以上字根,在 12.36 至 18.79 之間者不可分解 為三個以上字根,在 9.39 至 12.36 之間者不應分解為四個以上字根,餘者 無論怎麼分解,沒有大礙。這個結論,也決定了分解漢字的底線。137
由謝氏等之具體析分可知,其析分原只將字形視為平面幾何圖形,略不考慮 字理結構;析分時,則大抵依左右、上下、內外(包圍)結構逐層分析;同時,
當一字根可更細分時,決定析分與否之標準,端在於該字根之使用頻率,並不考 慮字理、記憶或習得等因素。
交大字根集之後,中國於 1997 年 12 月公布《信息部件》。其部件分析原則 如下:
135 詳見〈中文字根之分析〉。
136 公式見〈中文字根之分析〉。
137 見〈電子古籍中的缺字問題〉。
44
45
二者共同之處,主要在於以現代字形為主,並先以其平面幾何圖形為據,故 表現為結構中相離、相觸之單元可拆,而交錯重疊之單元不拆。此項原則與交大 字根集頗為異曲同工,若《基礎部件》以「謝」為例,先言中文字之可析,而後 落實為分析原則,前者其實與謝氏所言,依其組合結構別為二部件之步驟略等,
相對則後者可為其原則之精確化也,其間淵源、發展隱約可見。
至其相異者,則對字理之要求不同。大抵《信息部件》頗重視字理,故拆分 時先做有理拆分,並以為部件不得組成非成字部件,同時,部件之變體,依其音 義認同使用;至《基礎部件》者略不考慮字理,故拆分時「不受字源所限」,而 變體部件,亦依變體為準,不做認同使用。此種處理當與其「部件」定位直接相 關,蓋《基礎部件》言其適用範圍謂:
本標準規定中文字之基礎部件及部件屬性,適用於中文資訊處理、字形分 析、字形比對、字形檢索、字形結構描述及資訊交換等。140
而《信息部件》則謂:
本規範主要用於中文信息處理領域的設計、管理、科研、教學和出版等方
本規範主要用於中文信息處理領域的設計、管理、科研、教學和出版等方