第二章 文獻探討
第一節 詞彙多樣性
第二章 文獻探討
本研究依據 Coh-Metrix 線上文本分析系統發展詞彙多樣性指標,並檢視 指標與閱讀理解間的關聯性。文本共分三節,第一節介紹詞彙多樣性及詞彙多 樣性之計算工具:Type-Token Ratio(TTR)和 Measure of Textual Lexical Diversity
(MTLD);第二節介紹線上文本分析系統 Coh-Metrix;第三節介紹閱讀理解。
第一節 詞彙多樣性
壹、 詞彙多樣性的定義
詞彙學習不但是語言習得的重要組成因素,更是語言發展的反應。當詞彙 越豐富,語言能力相對也就越發展,而個人的表達能力也與其所習得的詞彙數 量有關。詞彙多樣性與詞彙語言樣本的質量有關,因此詞彙多樣性一直被認為 是預測學習者啟蒙語言的能力和描述說話者或寫作者在文本中詞彙部署範圍和 種類的重要性指標(Zareva, Schwanenflugel & Nikolova, 2005)。詞彙多樣性意 味著一篇文本範圍內詞彙的變化和詞彙的複雜組合,也就是指在語言樣本中所 沒有重複出現的詞彙比重,藉由學習詞彙再利用也是我們測量文本詞彙多樣性 的方法之一(Laufer, 2003)。詞彙多樣性能夠影響口語文本的難易程度,當寫作 者或說話者語言程度越高,使用的低頻詞則越多(Mellor, 2010)。當一篇文本 具有高度詞彙多樣性時,表示說話者或寫作者必須使用更多不同的詞彙來組成 此文本,也就是說已經被使用的字在文本中便較少重複。Yu(2010)也發現詞 彙多樣性與寫作及口語質量的測量有密切關係。不同的主題與主題類型的寫作 提示,如果是學生非常熟悉的主題,即使是控制了學生的寫作能力、綜合語言 運用能力,對於詞彙多樣性仍具有顯著的效果。其中文本內容中使用實詞比例 高的文本比包含虛詞(介詞、感嘆詞、代詞、連詞和計算字數)比例高的文本 更能提供詳細信息,因此通常詞彙多樣性高的文本相較於低多樣性的文本被認 為更具有說服力(Johansson, 2008)。Booth(2010)發現詞彙多樣性和文本的整
6
體質量等級之間的曲線關係,也就是說,以書寫質量而言,最高的詞彙多樣性 表現出最低的相關性。因為較長的文本是由更多個單詞組合而成的,因此同一 個字的重複機會就更大。詞彙豐富性是學習者語言發展的重要指標,是指寫作 者在寫作時詞彙的多樣性選擇,其功能能更清楚的呈現出學習者在語言產出的 成熟性,當數值越大時,便具有更多的語言技能(鮑貴,2011;陸芸,2012)。
詞彙多樣性幾乎適用於所有的文本類型,因此詞彙多樣性已被廣泛的應用在各 式各樣的研究中,例如:文體學、神經病理學、語言習得、數據探討和鑑識領 域等研究;此外詞彙多樣性指標已被發現可以用來測量各種變量,反應出如:
書寫質量、詞彙知識、詞彙能力、說話者的語言技能和能力、老年癡呆症的發 病率、聽力變化,甚至說話者的社會經濟地位等研究(Malvern, Richards, Chipere,
& Duran, 2004)。
MTLD 指標的計算方法是先依據一個標準將文本劃分為數段,但卻沒有辦 法找出一個可以適用於所有文本的標準長度。在 The Project Gutenburg Text Archives(www .archive.org/details/gutenberg)測試中,當文本中的 TTR 值隨著 文本長度下降時,最後都會經過一個共同的點,此時 TTR 值的軌跡往往在大約 0.72 時達到一個穩定點,因此選定 TTR 值為 0.72 時當做分段標準。因此,MTLD 值就是達到一個穩定點的文本中所需單詞的平均數目。文本開頭時的 TTR 值變 動較大,數值過高會影響結果的準確性;數值如果過低,每個因數就會損耗許 多 tokens,造成剩餘部分太長,影響測量的準確性;而因子數目太少也無法正 確的反應結果。為了使每個 types 都有機會被劃分到兩個因數裡,還需要進行逆 向重複計算。至於逆向分析,不但不會改變文本內的真實性文字或打破文本的 序列,又可以提高 MTLD 指標的可靠性。因此他認為 MTLD 指標是目前信度 最高、最穩定的測量詞彙多樣性的方法。有關 MTLD 指標的計算方式說明如下:
表 2-8 中第二行的“is”其 TTR 值是 0.71,則“is”就是我們所得的第一 個因子,接下來由下一個字“a”開始從頭計算 TTR 值。我們發現第二行中的
7
“lake”的 TTR 值是 0.67,小於 0.72,但因為本段文字總 tokes 數只有 3 個字,
少於 10 個字,所以不能當成第二個因子。接著由下一個字“is”從頭計算,我 們找到第四行的“a”之 TTR 值是 0.7,所以“a”就是我們的第二個因子。在 這篇文本中總共有 2 個因子;其 RS 是文本中最後一個字的 TTR 值,也就是 0.92
有關詞彙豐富性測驗的分類,許多學者有不同的看法,其中大約可分為下 述四項:「詞彙豐富性」、「詞彙密度」、「詞彙變化」和「詞彙的獨特性」。「詞彙 豐富性」測驗包含了五個面向:(一)「詞彙多樣性」:指使用多少個不同的詞彙,
也就是單個單詞文字的比例,即 types 和 tokens 之間的比例。(二)「詞彙複雜 性」:指使用了多少高階的字,也就是文本中高階文字的比例。(三)「詞彙密度」: 指在整個文本中名詞、動詞、形容詞和副詞詞彙字在文本中的比例。(四)「詞 彙變化」:指相同詞彙的多樣性,但只注重詞彙字。(五)「詞彙的個性」:指一 組中只有一個人使用這個字的比例。Daller, Van Hout, & Treffers-Daller(2003)
提出測量詞彙豐富性普遍關心的是一篇文本(口頭或書面)中使用了多少個不 同的單詞。至於 Laufer et al.(1995)介紹的詞彙豐富性測量方法,則是包括「詞 彙獨特性」、「詞彙密度」、「詞彙複雜度」和「詞彙變化度」。「詞彙獨特性」是 指學習者所使用的詞彙範圍,包括常用詞彙和非常用詞彙;「詞彙密度」是指實 詞在全部詞彙中所占的比例;「詞彙複雜性」是指非常用詞彙在全部詞彙中所占 的比例;「詞彙變化度」指文本中不同單詞數和詞的總數之比;而 Enger(1995)
則採取另一種衡量詞彙豐富性的方法,內容包含了「詞彙變化度」、「詞彙無誤 變化度」、「詞彙錯誤度」以及「詞彙密度」等四個向度。Read (2002)談到詞 彙豐富性中包含四 個概念:「詞彙多 樣 性(lexical variation )或稱(lexical diversity)」、「詞彙複雜性(lexical sophistcation)」、「詞彙密度(lexical density)」 和「錯誤數量(number of errors)」。「詞彙的密度」最初是由 Ure(1971)創造,
是指詞彙字在文本中占所有字的比值(其中 tokens 是指實詞而不包含虛詞),是 書面文本和口語之間鑑別的維度,而口語文本相較於書面文本其詞彙密度較
8
低。「詞彙多樣性」和「詞彙變化」的意思是相同的,都是指避免詞彙重複的範 圍。一篇文本中用了多少種不同的詞彙,可以使用傳統的 types-tokens ratio(TTR)
來測量,也就是詞彙詞與所有詞彙之比(即 types 和 tokens 之間的比例)。Read 認為文本長度對於資料計算上是沒有什麼影響,所產生的數值結果是穩定的。
「詞彙複雜性」是指高階文字在文中的比例有多少是適合、切合主題,這包括 了具有技術性、專業性或領域性的詞彙。「詞彙密度」則是最常用於描述實詞數 與總字數的比重,也就是在整個文本中實詞和虛詞的比例。「錯誤數量」就是錯 誤次數,這些錯誤包括了用錯詞表意及詞型不符合文法結構。文本中如果包含 更多樣性的字,在閱讀理解上更難以處理,因為它們需要在相同的時間內對更 大數目的唯一字的進行解碼(Rupp, Garcia&Jamieson, 2001)。由上述得知詞彙 豐富性的計算方式眾多,但本研究參考 Coh-Metrix 指標僅針對詞彙多樣性
(lexical diversity)進行探討。
貳、 詞彙多樣性公式
一、 Type-Token Ratio(TTR)的定義
過去幾十年來在兒童語言文學中,Type-Token Ratio 指標長期以來一直是相 當普及的測量詞彙多樣性的傳統方法。TTR 指標是一項對話式的詞彙衡量指標,
並且被定義為特定語言文本中不同單詞的總數(types)和文本中所有字(tokens)
的總數之比(Templin, 1957)。如果 types 的數量和 tokens 總數量相等時,表示 一篇文本中所使用的詞彙都是不同的,在這種情況下,文本可能有非常低的凝 聚力或是表示文本長度非常短。當比率越接近 0 時,文本中重複出現的詞彙較 多,表示詞彙的多樣性較低;而值越接近 1 時,文本中重複出現的詞彙較少,
代表擁有更豐富的多樣性。Johnson(1944)指出 TTR 指標源自於自然語言學 語言文本測驗,其歷史可以追溯至 20 世紀 40 年代,目的在為寫作者和說話者 發展一項定量的指標。Song Wen-juan & Zheng Hong-bo(2011)指出詞彙多樣
9
性是計算文本詞彙多樣化的方式之一,目的在衡量文本中 types 和 tokens 的關 係。早期詞彙多樣性的計算方式主要以 TTR 指標為主,TTR 指標是一項書面文 字詞彙變化或個人話語品質的測驗。TTR 指標早已經被證明是一項有用的文本 詞彙多樣性測量指標;如果文本中 types 數相較於 tokens 數之數量更多,則表 示此文本擁有多樣化的詞彙量,也就是說有較豐富的詞彙多樣性。「tokens」是 指一篇特定文本中的所有單詞,大多用於量化文本的長度;而「types」則是指 在一篇特定文本中唯一的單詞,因此,這些以各種形式進行重複的單詞只能被 計數一次。當文本變長(字數增加),文本中的總字數(tokens)也隨之增加。
不過,儘管 tokens 的數量是線性增加的(一個新詞等於一個新的 token);不同 單詞(types)數量增加的速度卻逐漸減慢。在 TTR 指標中,types 被嚴格地定 義是字符串的正投影,當文本中出現單複數形式的名詞、不同時態的動詞時,
只要它們拼寫的方式不同,就被計算為一個單獨的 type。TTR 指標即指文本中 所有不同的單詞在連續呈現的單詞總數中所占的百分比,也就是指在規定的文 本內使用不同 types 數(文本中不重複的單詞數)與 tokens 數(文本中所有單 詞,包括重複使用過的)的比值(Laufer et al., 1995)。當 types:tokens 的比值 是 1 時,表示每個字在文本中只出現一次,因為有較多的生字需要被編碼外,
只要它們拼寫的方式不同,就被計算為一個單獨的 type。TTR 指標即指文本中 所有不同的單詞在連續呈現的單詞總數中所占的百分比,也就是指在規定的文 本內使用不同 types 數(文本中不重複的單詞數)與 tokens 數(文本中所有單 詞,包括重複使用過的)的比值(Laufer et al., 1995)。當 types:tokens 的比值 是 1 時,表示每個字在文本中只出現一次,因為有較多的生字需要被編碼外,