諸家部件分析原則

第二章文獻回顧

第二節諸家部件分析原則

整體而言，諸家部件分析方法看似大同小異，不過，倘辨源析流，不難發現

，各領域之部件分析，其實與各自「部件」定義及其分析目的相應，對字理之要求寛嚴不一，落實於分析原則與操作細節，亦因之而見微異。

一、文字考訂

文字學中之部件分析，略可分為二類。早期唐蘭所謂，自許慎而下之「部件

」，其實只是「偏旁」之改稱，而傳統文字學中一般罕見歸納操作程序者，是其部件分析並未出現具體方析方法。其次，則是王寧受資訊「部件」影響所提出之構形分析，嚴格說來，王氏同未具體呈現分析步驟，然 1997 年〈漢字構形理據與現代漢字部件拆分〉中，王氏曾說明理據與部件拆分之關係，就中略可窺見其分析原則：

下面分幾種情形來說明理據與部件拆分的關係。

（一）漢字部件組合為合體字時，大部分是依層次二合的，極少部分是一次性多合的（如器、品及薑的下部、斷的左旁），只要理據存在，拆分即可按組合的程序反向進行。……。

（二）有些現代漢字因為部件的形體異化，理據無法直接講解，但部件分合與字理沒有矛盾，追溯其歷史仍可見其理據。例如：

赤－原形从“大”从“火”，“大”異化為“土”，“火”異化為“ ”

，但“土”與“ ”仍明顯區別為相接的兩個部件。參考字源拆分為“

土”“ ”，再分別以“大”“火”的變體講解，不發生矛盾。

（三）一部分現代漢字，部件的分合與構形理據是不一致的。這裡又分兩類情況，一類是理據應分而楷書交織、黏合。以上所舉“甫”、“ ”形即屬此類。

另一類是理據應合而楷書分離。例如：……；“朋”字甲文象兩串相連的貝串，小篆象鵬鳥的羽翅，都相連不能分，楷書以兩個相離的“月”字構形，等等。在這種情況下，服從字形又會與字理不一致，應從發展的觀點出發，尊重現實字形進行拆分。

（四）一部分現代漢字本為古文字描寫性的隸定字楷化而成。它們的構形與意、源本是一致的。例如東原是聲借字，小篆涉“日出東方”之意，將其形改造為“从日在木中”依物象組合“日”插在“木”中；……。但楷書“木”的樹木形、“日”的太陽形、……已失去象物性，這種穿插結構的原因已無法解釋，也應看作字形與字理及矛盾，尊重字形來處理。¹²⁶

126 見〈漢字構形理據與現代漢字部件拆分〉，《語文建設》，1997 年第 3 期。

此中所述，如以部件拆分之角度視之，前二者或可重新表述為：

（一）部件拆分應依字理進行層次拆分。

（二）現代漢字中形體異化之部件，應追溯其本形，依其理據進行拆分。

至於（三）、（四）兩項，則在字理與現代漢字字形之矛盾間，尊重現實字形進行拆分。其時王氏本自言其中包括有理拆分與無理拆分，謂後二者為無理據者也

：

以上四種情況，一、二兩種屬有理據拆分；三、四兩種屬於無理據拆分。

在有理據拆分中，字形與字理是一致的，因此屬於依形拆分。在無理據拆分中，字形與字理發生矛盾而採取尊重字形的原則，因此也屬依形拆分。

盡量尊重理據而不違背字形，其目的是尊重歷史而不復古，立足現代而合乎規律。這樣做，既維護漢字的歷史傳承性，又維護漢字共時的系統性，

使漢字教學與漢字信息處理在符合規律的基礎上取得一致。¹²⁷ 不過，時隔 5 年，2002 年王氏於《漢字構形學講座》中則強調：

全部喪失理據的字，更要終止分析，不可依形拆分。例如，“要”仍可看作獨體字，不可拆成“西”、“女”；“執”要停止拆分，不可拆成“幸

”、“丸”；……

用不具備構意或失去構意的字形來任意杜撰構意，叫作望形生義，對維護漢字構形的系統性和漢字的科學應用是有害的。……，即使是古文字，也不是每一個字都能直接分析構意的，少數難以分析構意的漢字，寧可存疑

，也不要亂講。¹²⁸

二說立場顯然不同，而更以字理優先也。故如前述，王氏此時實已不贊同無理據拆分，而純就理據拆分，所析之部件，其實即與偏旁無異矣。

整體說來，王氏之構形學可謂部件向偏旁的回歸，是在部件分析中堅持理據的結果。故其析分方法部分雖有類於資訊部件之拆分，然而如其所述：

「六書」所以能統帥漢字構形分析千年以上，主要是它的「結構－功能」

分析法適合表意文字形體結構的特點，傳統「六書」不應當拋棄，而應當為漢字構形學的總結提供一種合理的思路。¹²⁹

127 見〈漢字構形理據與現代漢字部件拆分〉。

128 見《漢字構形學講座》（上海：上海教育出版社，2002.3，1 版 1 刷），頁 31-33。

129 見《漢字構形學講座》（臺北：三民書局），頁 14。

其基礎其實仍建立在「六書」之上，之與傳統文字學不同者，則因應現代字形之構形分析，以及現代部件之應用，故以現代字形為對象，並於平面結構外，又對整字進行層次分析耳。

二、資訊應用

緣於計算機運算之要求，資訊應用之部件分析當是最早明確其分析方法，並且使成系統者。在交大字根集的字根分析中，謝清俊指出其分析字根之方法如下

：

實際選字根之過程如下：

中文以左右及上下可分為二部份之字數最多，尤以左右可分者居多。第一步先將左右可明顯分為二部份之字分解，相同之字根歸併，並將其所屬原字頻率相加，如此可將 9,129 字減少為 3,256 字及字根。第二步復將上下可明顯分為二部份與包含結構之字分解，結果字及字根數減少至 621，經簡單分解，已將原有字數減少約十四倍。

須注意者，如前論，應保留出現次數大於(2)式條件之字，不予分解，如此共保留 25 字。此外，一字分解後，其字根之一，無在他字中共用者，為孤獨之字根，亦不予分解。

再依前述原則應用於字根，作第三步之分解，並檢查第一、二步中不合原則之分解，予以恢復，如此共得字根 448，原保留之 25 字以及罕用字根 23

，合計字根共為 496。¹³⁰

質實而言，謝氏並未歸納字根之分析原則，而是就「交大字根集」之實際操作詳述其分析步驟。據謝氏所述，該系統首先擇定林樹《中文電腦基本用字研究》為其字集，字集含單字 8,532、異體字 597，合計為，9,129 字。¹³¹在此字集中，首先先將整字析為二字根，其中，先分左右結構，後分上下及包圍結構。經刪去複重後，可得第一批字根。為使字根系統達到「最佳化」之結果，此第一階段之字根，更依二項原則調整去取，其一為「邊際效用原則」（即所謂(2)式條件），

其二則孤獨字根不予分析。調整後之字根，倘仍有複合結構者，則重複前述步驟進行第二次分析。其中，所謂「最佳化」、所謂「邊際效用原則」者，謝氏解釋謂：

所謂最佳化，是指在字根總數和平均每個字分解的字根數目（經使用頻率加權計算）兩者之間，求一近似最佳的結果。通常，字根越多，每個字分解後的字根數就越少；字根越少，則每個字的字根就越多。在使用方面，

130 見〈中文字根之分析〉。

131 詳見〈中文字根之分析〉。

依文中所述，式中：¹³⁵ n：輸入鍵之數量 s：平均按鍵數

fi：字（或字根）出現頻率

∑^$_#%&𝑓𝑖：字（或字根）在字集中出現頻次

此中，輸入鍵之設置相當於字根總數；而每字平均按鍵數即相當於單字字根數。

如上所述，字根總數大抵與單字字根數呈負相關，因此得以二者之積表示效益之差異。此式以減少字根前後，積之變化為比，假設一字可析為二字根，如其中一字根以上與其他字根不同，則不應析分；如二字根皆包含於其他字根中，計其總頻次之增減決定去取，如析分後頻次減少，則該字（或字根）應予分析；反之，

如頻次增加，則應減少字根，該字或字根不宜再分析。

以此類推，倘一字析為三部份以上時，其公式可改為：¹³⁶

𝑓 < ∑ 𝑓𝑖_# 𝑛(𝑟 − 1)

其計算結果，謝氏以為：

凡一個字其使用頻率在萬分之 37.58 以上時，不應分解，在萬分之 18.79 至 37.58 之間者不可分解為兩個以上字根，在 12.36 至 18.79 之間者不可分解為三個以上字根，在 9.39 至 12.36 之間者不應分解為四個以上字根，餘者無論怎麼分解，沒有大礙。這個結論，也決定了分解漢字的底線。¹³⁷

由謝氏等之具體析分可知，其析分原只將字形視為平面幾何圖形，略不考慮字理結構；析分時，則大抵依左右、上下、內外（包圍）結構逐層分析；同時，

當一字根可更細分時，決定析分與否之標準，端在於該字根之使用頻率，並不考慮字理、記憶或習得等因素。

交大字根集之後，中國於 1997 年 12 月公布《信息部件》。其部件分析原則如下：

135 詳見〈中文字根之分析〉。

136 公式見〈中文字根之分析〉。

137 見〈電子古籍中的缺字問題〉。

二者共同之處，主要在於以現代字形為主，並先以其平面幾何圖形為據，故表現為結構中相離、相觸之單元可拆，而交錯重疊之單元不拆。此項原則與交大字根集頗為異曲同工，若《基礎部件》以「謝」為例，先言中文字之可析，而後落實為分析原則，前者其實與謝氏所言，依其組合結構別為二部件之步驟略等，

相對則後者可為其原則之精確化也，其間淵源、發展隱約可見。

至其相異者，則對字理之要求不同。大抵《信息部件》頗重視字理，故拆分時先做有理拆分，並以為部件不得組成非成字部件，同時，部件之變體，依其音義認同使用；至《基礎部件》者略不考慮字理，故拆分時「不受字源所限」，而變體部件，亦依變體為準，不做認同使用。此種處理當與其「部件」定位直接相關，蓋《基礎部件》言其適用範圍謂：

本標準規定中文字之基礎部件及部件屬性，適用於中文資訊處理、字形分析、字形比對、字形檢索、字形結構描述及資訊交換等。¹⁴⁰

而《信息部件》則謂：

本規範主要用於中文信息處理領域的設計、管理、科研、教學和出版等方

在文檔中論初級華語教學之漢字部件分析 (頁 47-59)

第二章 文獻回顧

第二節 諸家部件分析原則

第二章文獻回顧

第二節諸家部件分析原則