可讀性

第二章文獻探討

第一節可讀性

一、可讀性研究的基本介紹

可讀性(readability)之研究由西方英文體系開始，最早可追溯自 1880 年內布拉斯加大學的英文文學教授 Lucius Adelno Sherman，他利用統計的觀點去觀察過去與當時寫作的方式，發現每一百句完整句中，平均一個句子所包含的字數有隨著年代逐漸下降的趨勢，此一研究開啟了可讀性研究之先例。

不同的學者對可讀性的見解略有不同，Edgar Dale and Jeanne Chall’s (1949) 認為可讀性的定義是「一個文本中所有元素影響讀者用最快的速度看完文本並產生理解及興趣的程度」。而 George Klare (1963)則定義可讀性為「對於寫作風格的了解或理解之容易性」，此一定義跳脫傳統可讀性討論的議題如詞彙內容、文章連貫性與組織，以寫作的風格為討論的重點。發明 SMOG 可讀性公式的 G. Harry McLaughlin (1969)認為可讀性是「某一特定讀者對於文章內容理解及引起興趣的程度」。此一定義點出讀者所具備的先備知識、閱讀能力，都與文本的可讀性有著相互的關係。Gretchen Hargis 和她的同事(1998)則認為可讀性指的是「文章中詞彙與句子的易懂程度」。此一定義考慮的觀點與 George Klare 類似，兩者都以讀者對語意內容的理解為討論方向。

可讀性藉由評估文本對閱讀者的易讀性，提供文本一個難易度的評估，而可讀性的精神也延伸出許多可讀性的公式，透過引入數學模型的計算，對文本的表

面特徵(如：平均句長、平均音節數…等)進行量化的評估，以求得文本的適讀年齡或適讀年級。有些學者認為除了計算公式以外，使用詞彙的難易度也影響著讀者對文本的理解，如 Thorndike(1921)出版了一本教師詞彙書(Teacher’s Word Book)，透過觀察英文讀物的詞頻，列出了 10000 個常用的英文詞彙，提供教師在觀察或測量文本詞彙的難易度時一個客觀且平均的指標，也從此有了「常用字」

的概念。

自十九世紀末開始至今，可讀性已經衍生出許多不同的定義，影響閱讀的任何可能因素，也都陸續被拿來進行研究與分析，但是各個研究者對可讀性的定義不外乎都是從閱讀者與文本內容兩個方面來切入探討。唯一不變的就是所有的研究都承認閱讀的素材有難易之分，選擇適合讀者閱讀層級的讀物，可以得到最大的閱讀成效。

二、西方可讀性公式介紹

西方可讀性研究一開始是為了替閱讀教材進行適度年級的計算，大多將文本的表面特徵透過線性回歸的方式求得一個公式，本研究列舉較為著名的公式如下：

1. Gray and Leary (1935)歸納出四個影響可讀性的類別：內容、描述風格、編排、結構，他們也透過計算一段字數約 100 自的文章於 Dale-Chall 的 769 個英文常用詞表外的難字數、人稱代名詞數目、字數等自變項，計算出一個以理解成績為依變項的公式，如下：

理解成績= −0.01029 難字數 + 0.009012 人稱代名詞數

− 0.02094 每句平均字數 − 0.03313 不同詞彙之百分比

− 0.1485 介係詞片語數 + 3.774

2. Washburne and Morphett(1938)認為適讀級別的難度隨著不同詞彙數及在 Thorndike 的 1500 詞彙表之外罕見詞彙數的增加而提高，他們也考慮文法的難易度，認為文法簡單句的數量越多，會使文章越容易閱讀，公式如下：

閱讀級別= 0.00255 不同詞彙數 + 0.0458 罕見詞彙數

− 0.0307 文法簡單句數 + 1.294

3. Lorge (1939)認為考慮越多的可讀性因素，可以使可讀性公式的預測能力提高，但是計算的過程相對的較為麻煩，他以每句平均字數、每百字中介係詞片語數、每百字難字數(Dale-Chall 的 769 個英文常用詞表外之字數)來預測文本的適讀年級，公式如下：

年級= 0.07 每句平均字數 + 0.1301 介係詞片語數 0.1073 難字數 + 1.6126 4. Dale and Chall(1948)的公式最常被使用在教育的領域，他們僅採用兩個指標來計算可讀性的分數，分別為難字比例(Dale 的 3000 個英文常用詞彙表以外的詞彙)與每句平均字數，公式如下：

難易度分數= 0.1579 難字比例 + 0.0496 每句平均字數 + 3.6365

5. Flesch Reading Ease 公式(Flesch, 1948)將文章的可讀性分數定義為「閱讀舒適度」，為 0 到 100 分之區間，分數越高越易讀，他認為詞彙的音節數代表著詞彙的難度，音節數較多的詞彙相對較難，導致可讀性分數降低，與以往使用常用字表來辨認詞彙的難易度有所不同，除了音節數以外 Flesch(1948) 還考慮了每句的平均字數，公式如下：

閱讀舒適度= 206.835 − 0.846 每百字平均音節數 − 1.015 每句平均字數 6. Flesch Kincaid 公式(Kincaid, Fishburn, Rogers and Chisson, 1975)改自 Flesch

Reading Ease 公式。輸出的數值可以對應到美國學校的年級程度，其數值越高，表示需要越高年級程度的讀者才能讀懂。若分數為 8.5 分則表示該文本適合八年級的美國學生來閱讀。公式如下：

年級= 0.39 每句平均句長 + 11.8 每字平均音節數 − 15.59

三、中文可讀性公式介紹

1. 楊孝濚(1978)利用單字超過十劃的百分比、平均句長、難字百分比三個指標透過迴歸分析發展出一套中文的可讀性公式，公式如下：

年級= 0.1788 單字超過十劃的百分比 + 0.1432 平均句長 + 0.6375 難字百分比

2. 楊孝濚(1978)之後又將其公式進行修正，利用詞彙數、句數、平均筆劃數，

來對文章進行分類，公式如下：

年級= 14.95961 + 39.07746 × 詞彙數 − 2.48491 × 平均筆劃數 + 1.11506

× 句數

3. 荊溪昱(1995)分別以「文句長度」及「用字難度」兩個角度去探討課文的可讀性，荊溪昱又將文句長度分為「文章長度」與「平均句長」，透過計算上述兩特徵於文章中的值而得，而用字難度則透過計算常用字比率去得到文章的用字難度。利用以上三個自變項，透過迴歸分析計算出依變項為年級及學期的可讀性公式，分別如下：

年級= 17.52547988 + 0.00242523 課文長度 + 0.04414527 平均句長

− 18.33435443 常用字比率

學期= 34.53858379 + 0.00491625 課文長度 + 0.08996394 平均句長

− 36.73710603 常用字比率四、表面特徵之不足

西方從很早就開始進行可讀性的研究，而可讀性的重要性對於中文來說也是不可或缺的。但是有學者指出可讀性雖然被很多學者所研究，但是這些研究中所提到的 readability formula 都偏向美式英文，對於非美式英文的篇章寫法可能不是很恰當 (Klare, 1963)。

觀察過往可讀性所探討的變項，發現所有公式都是以文本的表面特徵進行計算，根據 Dubay, W.H.(2004)整理可讀性公式常用特徵表，對可讀性公式常用之文

表 2-5 可讀性公式常用特徵表

文本特徵文本指標研究學者

詞彙

平均音節數 Flesch(1948、1975) McLaughlin(1969)

單音節數 Farr、Jenkins 和 Paterson(1951) 人稱代名詞數 Gray 和 Leary(1935) 介係詞片語數 Gray 和 Leary(1935)

不同詞彙數 Washburne 和 Morphett(1938) Gray 和 Leary(1935)

句子平均句長

Gray 和 Leary(1935) Lorges(1939) Flesch(1948、1975) Farr、Jenkins 和 Paterson(1951)

Gunning(1952) Bormuth(1966) McLaughlin(1969)

平均句數 Fry(1977)

字表

Dale-Chall 769 字表 Gray 和 Leary(1935) Lorges(1939) Dale-Chall 3000 字表 Dale 和 Challs(1948)

Bormuth(1966)

Thorndike 1500 字表 Washburne 和 Morphett(1938) 由表 2-5 可以發現西方可讀性公式通常以詞彙難易度及句子難易度兩個方向去進行文本難易度的計算。句子難易度的計算通常以平均句長及平均句數來進行分析，而詞彙在難易度的計算會以音節數的長短、部分詞性及常用詞比率來做分析，例如過去研究認為人稱代名詞在文章中使用過多的話容易造成指涉上的混淆以及閱讀理解上的困難(Graesser, McNamara, Louwerse, & Cai, 2004)。而在音節數的分析也有研究者認為詞彙的音節數代表著詞彙的難度，音節數較多的詞彙相對較難，導致可讀性分數降低(Flesch, 1948)。常用詞比率則是透過計算文本中使用之常用詞數求得，Bormuth(1966)認為使用越多 Dale-Chall 常用詞彙表的詞彙，

文章越易閱讀，因此使用越多常用詞表的詞彙在理解的難易度上會比使用較少的更簡單。

中文在可讀性的研究一開始是仿照西方的方式，將文本內容直接套入公式進行可讀性的計算，如于宗先(1960)應用 Flesch 的公式發表了「臺灣報紙可讀性之研究」，開啟了英文可讀性公式應用於中文文本分析的首例，該研究者也指出將英文可讀性公式應用在中文環境的效果會有所偏差。荊溪昱(1995)觀察西方可讀性常用之變項，以國小至高中的國文科課文為建模之資料，將「文章長度」、「平均句長」及「常用字比率」三個自變項利用線性回歸的方式，推導出一個適合中文環境的可讀性公式，其公式能解釋超過 84％的年級變異量，具有國文教材或一般中文讀物適讀年級值之效用。

觀察中西方的可讀性公式，都是以表面特徵套入線性方程式對可讀性進行一個量化的評估，但是也有學者認為，傳統的表面特徵雖然容易求得，但是仍有它的缺陷，例如句子的長度並不總是能表現語法的困難程度，音節數的計算也不完全代表著詞彙的難易程度(Petersen and Ostendorf, 2006)。表面特徵在計算科學文本時也較容易失去其正確性(Feng et al., 2009)。僅使用表面特徵來計算文本可讀性的方法，反而忽略了文本真正所要表達的內涵知識及語意。過去研究也指出，

文本理解的過程除了文本淺層語言特徵的接收，文本的深層語意在閱讀理解的過程中也扮演著重要的角色(Graesser, et al.,2004,McNamara, et al., 2010)。英語使用者在處理英語時，依賴較多來自於句法結構的資訊；而中文使用者在處理中文時，

語意扮演著重要的角色，句法的重要性則相對較弱 (Su, 2003; 2004;

MacWhinney ,1993)。而潛在語意分析因為擁有以下的特色：(1)擷取字句間的意義與人類看法類似(2)從文章中提取的知識如同人類之理解，使之更適合成為分析文本內涵知識及語意的工具。故本研究以分析文本內涵知識及語意為出發，藉由不同學習階段所接收的知識有所分別的特色，將國小各學期之文本進行分析與分類，以文本內涵知識及語意關聯為分類依據進行可讀性之文本分類。

在文檔中使用潛在語意分析建構文本分類模型- 以國小社會科課文為例 (頁 16-22)

第二章 文獻探討

第一節 可讀性

第一節 可讀性

第二章文獻探討

第一節可讀性

第一節可讀性