• 沒有找到結果。

中文閱讀和統計學習

第一章 研究背景與文獻回顧

第七節 中文閱讀和統計學習

一、 中文文字排版的獨特性

中文文字排版有一重要特徵,即中文的字與字之間有固定的空格做為 界線,但詞與詞之間並沒有額外的物理界線。換言之,中文字之間沒有任 何物理型態上的提示可協助讀者將「語言單位」自連續的字串輸入當中切 分出來。舉例來說:「我愛學中文」一句中,除了字與字之間的固定間格 外,沒有其他空間上、排版上的提示可以協助我們把句子切割成「我」、

「愛」、「學」、「中文」等詞單位。同樣的句子若請初學的學習者或對中文 不太熟悉的人來讀,很可能會出現數種錯誤斷詞方式,如「我愛/學中 文」,或「我愛/學中/文」。此種排版特徵與許多拼音文字系統的排版方式 有很大的差異,或許也是造成中文學習困難的原因之一。由於中文從排版 上是看不到任何關於詞界線的物理提示,因此也無法決定哪些字屬於同一 個語言單位,這與前文中所提及的嬰兒在面對連續語音流時的挑戰是一致 的。不論是以中文為母語者,或是以中文為第二語言的讀者,在閱讀中文 材料時,勢必都會面臨「切分」連續輸入材料的問題。

二、 中文的斷詞問題

回顧中文閱讀的研究,關於斷詞的問題根據不同的目的,可以劃分出 不同的研究取向。但中文的斷詞問題起源自中文文本的特殊性,也就是中 文並無類似於其他拼音文字的顯性詞界線,如詞間空格。此特性使得讀者 或機器,在判斷連續的字串時,需要解決「找出語詞」的挑戰。而歸根結 柢,不論是哪一種研究取向,主要的目的都是要把中文的語詞由文本中切 割出來,斷詞的過程,也就是把「字串」轉變為「詞串」的過程。

由於網際網路及其他智慧科技的進步,電子化的文本檢索、分類或轉 換,已經成為諸多應用科技的關鍵技術,也因此使得中文文本的斷詞問題 漸次成為重要的應用領域(孫茂松、鄒嘉彥,2001)。整理計算語言學研究 者處理中文斷詞的方法,大致可以分為「機械分詞法」、「基於理解的分詞 法」、「基於統計的分詞法」(周文帥、馮速,2006)。

30

嘉惠、陳貞伶,2010),該法又稱為正向最大匹配法 (Maximum Match, MM) (greedy algorithm)。周文帥與馮速 (2006)曾指出,根據小規模的測試,該法 簡單快速,正確率約為95.422%。而在正向最大匹配法的基礎上又發展出 了反向的匹配法 (Revise Direction Maximum Match, RMM),以及由正反兩 個方向同時檢測的雙向最大匹配法 (MM + RMM)。這些陸續發展出的方法

語法規則過濾出適合的斷詞界限,再按照計算出的統計值,排列出斷詞的 界限,交互運用法則和統計式的斷詞技術(謝家倫,1999)。

大抵來說,以計算語言學角度出發的斷詞研究,基本上處理的是「語 形」的問題。也就是將現有的中文文本和既有的辭典或語料庫進行比對,

找出一致的「語形」,就算是完成了斷詞。而大部分的研究也在這此基礎上 探討比對語詞時必然會碰到的挑戰,也就在比對時若遭遇「未登錄的語 詞」,應如何判讀的問題(黃昌寧、趙海,2007;Chen & Bai, 1998;Chen

& Ma, 2002;Ma & Chen, 2003),以及應如何排除或減低「斷詞歧義」的發 生率(陳稼興、謝佳倫、許芳誠,2000;Chen & Liu, 1992;Luo, Sun, &

Tsou, 2002;Zhang, Lu, & Zou, 2004;Huang & Zhao, 2007)。

不同於計算語言學的觀點,心理學研究中探討中文的斷詞問題,主要 是想了解在閱讀中文時,「詞」是否作為一個基本的閱讀單位,以及在閱讀 模型的建構上是否具有對應的心理表徵。研究者透過檢驗不同讀者對文句 斷詞的一致性,探討詞語的心理真實性,但讀者往往對於文句中語詞的判 斷並不一致,顯示中文的「語詞」相對於其他的語言,是較為模糊的概念 (Hoosain, 1992)。由於「詞」是讀者在閱讀過程中捕捉意義的基本單位,讀 者是否能成功識字、識詞,是能否成功啟動閱讀的以及提高閱讀理解的重 要開端 (Adams, 1990)。爾後一些以應用為導向的研究則嘗試探討在中文文 本當中增加物理性的詞界線線索,協助讀者標記出連續字串中的語詞時,

對於不同族群或精熟度之讀者的閱讀表現影響。這些研究的主要出發點都 是嘗試在文本的編製排列上先替讀者完成正確的斷詞,以減低中文讀者在 處理文句的斷詞問題時所帶來的認知負荷,並提高讀者的閱讀處理速度。

(劉英茂、葉重新、王聯慧及張迎桂,1974;楊憲明,1998;彭瑞元,

2003;林昱成,2009;林仁一,2012;陳家興、蔡介立,2016)。

三、 以統計學習的觀點來看讀者如何學會中文斷詞

由以上的回顧可以觀察到,心理學家的研究,不同於計算語言學家重 視語形比對的正確率以及有效的計算模型建立,而傾向將重心放在探討語 詞在閱讀歷程中所扮演的角色,並討論如何提升讀者在理解文句上的表 現,討論的重點在於「斷詞」之後的可能影響。但心理學家在討論中文斷

32

詞時,所探討的主要對象皆是已具有「成熟閱讀技巧」的閱讀者(通常是 以中文為母語的閱讀者)。對擁有精熟閱讀能力的讀者來說,由連續的視覺 中文字串中「切分」出詞語單位的能力已經在長時間以中文為第一語的環 境中養成。過去中文斷詞的心理學研究中,並不探討此「斷詞能力」如何 養成?亦鮮少探討讀者是依照何種資訊而據以斷詞的。而是將重點放在斷 詞後的結果對於閱讀作業的可能影響方向。

然而,由學習者角度出發,對於中文初學者而言,關於中文語詞的相 關知識並不如以中文為母語者一般已完整建立。因此中文初學者在面臨斷 詞挑戰時,必然無法直接將文句中的語詞和已然形成的中文語詞知識資料 庫進行比對而斷詞。由於中文初學者自動切分中文語詞的能力尚未養成,

自然衍伸出來的問題就是中文的學習者是仰賴何種訊息線索斷詞的?中文 的學習者如何由連續的中文文句排版中找出「詞語」的界線?而這個能力 是如何養成的、學到的?該能力是如何發展出來的?從語言發展的角度來 看,攫取語言環境中的各類型訊息是人類既有的認知能力,「統計學習」正 是其中的一環。而統計學習或恰好為中文時斷詞線索的攫取和彙整找到一 個合適的觀察窗口,或可為「斷詞是怎麼學會的」提供可能的解釋。