導論 - 中文字、詞在文章閱讀理解的背景下的認知處理歷程

一、研究背景與動機

由於電腦科技的進步，許多研究者試圖以電腦資訊技術來貯存、抽取並運用人類的文字紀錄。例如，Landauer，Foltz，與 Laham（1998）依據 Landauer &

Dumais(1997)的長期記憶語意知識模式發展出的潛藏語義分析系統（latent semantic analysis, LSA）利用字在文件出現中的同時出現（co-occurrence）

的頻率關聯性建立一個頻率矩陣（frequency matrix），在利用字與字的情境間關連性適當地縮減矩陣形成的向量空間，以此來表徵出一個字的字義或一篇文章的大意或抽象概念。由於 LSA 是以英文為基礎發展的，將之應用在類似的拼音文字時並無特殊的問題。然而 LSA 應用在中文的文章理解時，就產生了一個令人困擾的問題：中文應該以哪一個文字階層作為頻率矩陣中的單位？主要的問題來源是因為在英文或類似的拼音文字裡，字（word）具有明確的視覺外觀可以作為斷字（parsing）的方式，但是在中文裡卻非如此。

藉由對文字發展與結構的分析，可以進一步地說明中文裡單位定義的困難所在。語言的構成或分析單位由最小至最大依序為音素（phoneme）、音節

（syllable）、詞素（morpheme）、字（word）、片語（phrase）、與句子（sentence），其中前二類單位（音素與音節）是以語音為基礎（sound-based）的單位，而其他的則是以意義為基礎（meaning-based）的單位。目前仍在使用中的文字便可依其構字規則與語言表徵的方式可分為三大類系統：意符文字（logography）、音節文字（syllable）、拼音文字（alphabet）（Taylor, 1981）。

語言的書寫系統若一個字是直接指涉到一個事物（意義）的單位時，稱為意符文字（如，山、魚）（Gelb, 1963）或表意文字（ideography）（Diringer, 1968）。

目前唯一留存並在使用中的意符文字是漢字，或稱中文字。而文字系統中以一個符號來代表語言中的一個發音音節的文字系統稱為音節文字，現存具有最長遠歷史的音節文字則是日文中的兩種假名（kana）：片假名（katakana）與平假名

（hiragana）。文字系統中以符號來表達語言中的最小單位「音素」的文字系統稱為拼音文字（如，A，/ei/）。由於英文是目前世界上最多人使用的語文系統，

也因為英文在拼音文字裡，相對上具有較高度的形-音不一致性

（grapheme-phoneme noncorrespondence），例如同一字母在不同的拼字狀況下所表徵的音素不同，或是不同字母表徵的是同一音素，英文便成了目前被研究最多的語言。目前文字的閱讀理解歷程的研究多數是以英文為研究的對象（Taylor, 1981），這也使英文成為拼音文字的代表。

由上述三大文字系統的描述中可以發現，拼音文字、音節文字與意符文字所表徵的語言單位由小至大依序為音素、音節、詞素。因此，拼音文字與意符文字可說位於文字發展光譜的兩個極端，以下將以這兩種文字系統的代表文字：英文與中文來比較其間的差異。

英文的組成階層由下至上依序為字母（letter）→字（word）→片語（phrase）

→句子（sentence）→文章（discourse, text）。英文中的字是由一個或一個以上的字母所組成，字母的組合表徵的是不同的讀音。在文章中，英文的字與字之間會有固定的空間來顯示字的邊界範圍（boundary），單字或句子均固定的由左至右來書寫。

然而中文的文字系統的組成階層和結構與英文不同。中文的組成結構是：

部件（radical）→字元（character）→詞（word）→片語→句子→文章（Taylor，

1981）。部件是由不同形式的筆畫（stroke）所組成的，每一個字元是由一個或以上的部件構成，形成在一個約略相對固定大小的空間中，而一個或以上的字元

可以組合成詞，中文可以自左而右或自右而左或由上而下的方式書寫。因此字元是中文的主要知覺單位，具有視覺邊界範圍；而每一個字元都表徵了中文裡最小的意義單位，即詞素；每一個中文字元的讀音也只有一個音節。

但是許多的學者均認為，中文的閱讀單位並非是字元，而是由字元所組成的詞（如 Chen，1992）。中文中的詞是由一個以上的字元所組成的意義單位，其意義和其構成的個別字元可能有關也可能無關。將多字詞做為中文的閱讀單位，

是符合大多數中文的使用者的習慣與直覺的，但這是表示中文閱讀者在閱讀中文時是以詞還是以字元為認知處理對象，則是一個未被解答的疑問。由英文的研究成果開始，我們以 Rayner 與 Pollatsek（1989）的研究文字辨識（word

recognition）時的六個核心問題，與文字辨識研究的一般性結論出發，來探討這個問題的解答。

Rayner 與 Pollatsek（1989）提出，文字辨識研究的六大核心問題為：第一，字的辨識是否需要學習？第二，字的辨識是否是自動化的（automatic）？

第三，辨識文字的歷程是否須先觸接讀音，再由讀音觸接字義？第四，在一個字中的每一字母的處理歷程是序列式的（serial）還是整體的（whole）？第五，

熟練的閱讀者是以拼音規則（rule of spelling）還是藉由建立特定的形-音關係來學習一個字的讀音的？第六，文章背景是否會影響一個字的辨識？其中第二、第四與第六的問題核心均指向一個字的辨認時的基本假設，亦即：若字是一個文字系統中不可分割的意義單位時，其認知處理的歷程應該具有高度的自動化；一個字中的字母應該是整體被處理的；一個字在文章中是獨立被處理而與背景無關的。若這三項條件皆成立，則我們便可以推論一個文字系統中的「字」

（word）是文章閱讀理解時的處理單位。對應到中文閱讀理解的歷程，此三條件表示，若詞是中文處理的對象，則詞的辨識歷程應該是自動化的；詞中的字元應該是整體被處理的；一個詞在文章中是獨立處理而與背景無關的。若單字是中文

處理的對象，則單字的辨識歷程應該是自動化的；單字中的部件應該是整體被處理的；一個單字在文章中是獨立處理而與背景無關的。本研究的目的即在區分在文章中獨立被處理的是單字還是詞。

以英文為對象的研究大致上已獲取四個一般性的結論：1.文字辨識是相當自動化的；2.文字辨識不只是將字母轉換成字音，然後再將字音換為字義的歷程，也有由字形直接獲取字義的歷程；3.字中的字母並非序列式地被處理的，而是整體被處理的；4.字在文章中與單獨存在時期被處理的歷程是差不多的

（Rayner & Pollatsek，1989）。這四個一般性的結論回答了上述的三個條件，

亦即，自動化、整體處理、與獨立處理而與背景無關。由於這三個條件的成立，

可以合理地推論英文中的字，不但是在視覺上具有邊界分為而被區隔成為個別的單位，在閱讀者的認知歷程中，每一個字是獨立且適合的意義分析單位。

然而以中文為對象的研究，並沒有能夠得到一致性的結論。例如鄭昭明

（1981）的中文詞優效果的實驗。觀察到中文的雙字詞也有 Cattell（1886）所觀察到的字優效果，鄭昭明稱之為中文的詞優效果。然而他的研究中卻也發現出一個與英文不同的特殊現象，亦即「詞優效果」只在低頻中文詞上觀察得到，但在高頻詞上則無，這和認知自動化歷程的預測是不相符的。而 Zhang & Peng

（1992）的研究結論則顯示出，一個雙字詞中構成單字字頻，會影響整個雙字詞的辨識速度，顯示了雙字詞中的單字似乎不是整體被處理的。而包括 Taft，Huang 與 Zhu（1994）以及 Mattingly 與 Xu（1994）的實驗也重複驗證了這個單字字頻在雙字詞中的效果。至於吳瑞屯，周泰立與劉英茂（1994），以及 Liu 與 Peng（1997）

的實驗則比較支持多字詞的整體處理現象。綜觀這些實驗的程序與材料，可以發現以中文的單字或雙字詞為材料的研究經常有高度的材料依賴與作業依賴性，任一研究即使以相同的變項設計，只要改變實驗材料或是參與者作業，如唸字作業與字彙判斷作業，就很可能得到不一樣的結果。

另一類的研究則是從文章閱讀而來的，這些研究主要是討論中文的「斷詞」

問題。劉英茂，葉重新，王蓮慧，與張迎桂（1974）的實驗顯示，如將中文句子中的單字進一步做詞與詞的空間分隔，並無閱讀幫助，反而可能產生干擾。陳烜之（1987）與胡志偉（1989）進行類似的研究，但卻形成不一樣的結果。他們都要求參與者辨認出文章中的特定單字，陳烜之（1987）發現在文章閱讀中偵測特定單字，當單字位於合法詞中時比位於非詞中時容易辨識，他認為這是單字在文章閱讀中的詞優效果。而胡志偉（1989）卻觀察到閱讀文章時，當單字位於合法詞中時會比位於非法詞中難辨認，與陳烜之（1987）的結果剛好不相符。他認為這是中文的詞劣效果。顯然胡志偉的研究比較符合多字詞整體處理歷程的預測，

因為當多字詞是被整體處理時，就不容易辨別出詞中的構成單位。但是他們的實驗材料設計並未考慮到文章中單字字義與雙字詞詞義和文章意義的關聯性，無法排除文章所造成的背景效果的混淆。

Hoosain（1992）要求參與者作詞的區隔（斷詞），結果發現每一個參與者所做出的斷詞與其他人有相當大的差異，這個實驗指出一個現象，當我們將（多字）詞視為中文的處理單位時，每一個人的心理詞彙可能會非常的不同。這裡的

「不同」指的不只是相同的詞對不同人而言有不同的含意，更指出每一個人所認為的「詞」都是不一樣的。彭瑞元與陳振宇（2004）試著以類似 Hoosain 的方式讓參與者對文章材料進行斷詞，來解釋為什麼會有斷詞不一致的現象。他們認為由於中文在使用習慣上是多音節的，中文使用者並不習慣說單音節的詞彙，因此

在文檔中中文字、詞在文章閱讀理解的背景下的認知處理歷程 (頁 9-0)