第二章 文獻探討
第二節 詞頻
本研究建置的詞頻分析指標,將詞頻分為所有詞詞頻與實詞詞頻,故本節第一 部份將針對詞頻的定義做說明,第二部分就詞頻在本研究的分類做一陳述,第三部 分就詞頻的重要性,說明與閱讀理解之相關性。
壹、 詞頻的定義
曾榮汾(1992)在「常用語詞頻率調查報告序」中將語詞頻率定義為在同一標 準下,某一詞語使用次數的多寡比率;詞頻(word frequency)在「中央研究院平衡 語料庫詞集及詞頻統計(Word List with Accumulated Word Frequency in Sinica Corpus 4.0)」(1997)中,將其定義為詞項在語料庫中出現的次數,亦即根據每一個詞項在 中央研究院平衡語料庫五百萬個詞中出現次數的多寡 ;柯華葳(2004)也指出詞彙 出現的頻率即稱為「詞頻」,且在計算語言學上佔有重要地位。Graesser et al., 2004)
指出詞頻就是特定詞語在英語中出現的頻率,其中詞頻的計算為 Coh-Metrix 自動 化分析系統內所使用的四個語料庫 CELEX(1995)、 Kucera–Francis norms(1991)、 Thorndike and Lorge(1944)及 Brown(1984)中詞語出現的次數。
本研究的詞頻係指詞彙在「兒童語料庫」中出現的次數,兒童語料庫乃根據廖 晨惠(2010)之國科會「以LSA為基礎之電腦化閱讀認知測驗及AutoTutor建置」計畫
(編號:NSC 100-2420-H-142-001-MY3)中所建置的兩萬多個詞彙中出現次數的多 寡。
貳、 詞頻的分類
詞頻在Coh-Metrix 線上分析系統中,主要依詞彙的使用功能將其區分為內容詞
(content word)與功能詞(function word)兩類,內容詞包含名詞、詞彙動詞、形 容詞和副詞等,而功能詞則包含介詞,限定詞和代詞等類(Graesser et al., 2004)。
中文的語法與英文的語法對詞彙的名稱略有不同,英文的內容詞即為中文語法
中的實詞,功能詞即中文語法裡所謂的虛詞。其實在華語中,語詞的分類,各派學
柯華威、陳明蕾與廖家寧(2005)也曾整理詞彙的分類方式,其分類方法一為依
故本研究指標主要先針對所有詞與實詞方面做探究,採用胡裕樹(1994)對詞 類的分法,並參考其中柯華威等人(2005)整理的中研院各類詞類標記與虛詞/實詞 之對應關係表,將實詞分為名詞、代名詞、動詞、形容詞、副詞、數詞及量詞;虛 詞則包含介詞、連接詞、助詞、語氣詞、感嘆詞和擬聲詞。將兒童文本分析系統詞 頻指標分為所有詞詞頻、實詞詞頻與詞頻最小值做探討,藉以了解實詞詞頻與所有 詞詞頻之不同,同時找出每句詞頻最小值,進一步探討詞頻指標與閱讀理解之相關。
參、詞頻與閱讀理解之關係
國外學者 Klare(1963)曾提出詞頻是最常用來當做字彙困難度的一個指標,
詞頻可說是影響可讀性之重要因素,從 LaBerge & Samuels(1974)的自動化理論
(Automaticity Theory)以及 Perfetti(1985)的字彙效率論(Verbal Efficiency Theory)
中得知,當一個詞出現的頻率愈高,就表示這個詞彙較常出現,讀者也較為熟悉。
也有許多文獻指出詞頻愈高,代表讀者對於文章的熟悉度加深,理解能力自然相對 提升(Beck,McKeown, & Kucan, 2002)。
在國內的研究,柯華葳(2004)指出詞頻在計算語言學上佔有重要地位,鄭錦 全(2005) 在詞彙語意語句子閱讀難易計量一文中,亦證實一篇文章中,句子詞語 出現的頻率越高,則文章越容易閱讀。所以當一篇文章內所使用的詞彙都是讀者所 熟悉或常用時,那對文章理解力自然愈佳,文章的難度相對降低;反之,一篇文章 中如果所使用的詞彙都是讀者不常見或較為艱深的罕見詞彙,則代表文章難度較 高,讀者對文章理解力相對下降,自然不易閱讀。
綜上所述,可得知詞頻有助於我們對該詞彙難易度的了解,詞頻越高者代表該 詞彙出現次數較多,在日常生活的使用越頻繁,兒童較常見且較容易理解;詞頻越 低者代表該詞彙出現在日常生活中的次數較少,兒童比較不易了解該詞彙的意義。
所以藉由詞頻的分析,不僅能判斷出詞彙的難易度,對於文本難易度的評估占有重 要的地位,同時與閱讀理解也有著極密切的關聯性。