第二章 文獻探討
第一節 線上文本分析系統 Coh-Metrix
第一節 線上文本分析系統 Coh-Metrix
壹、 Coh-Metrix的定義及發展
Coh-Metrix 是從 2002 年開始發展的一個網路文本分析工具,因為當時沒有任何 一種廣泛性的文本指標,可供用來測量文章的難易度,早期傳統評斷文本難易的工 具,大部分都以可讀性公式做為依據,實務上較常見的有 Klare (1974-1975)所提 出的 Flesch Reading Ease 和 Flesch–Kincaid Grade Level 兩個公式,及 Degrees of Reading Power 的 DRP 公式以和 Lexile scores 等可讀性公式,其中又以 Klare 的兩 個可讀性公式最常為研究者所使用,茲介紹如下:
Flesch Reading Ease = 206.835-1.015×ASL- 84.6×ASW (2.1) Flesch–Kincaid Grade Level = .39×ASL+11.8×ASW – 15.59 (2.2) 在可讀性公式裡的 ASL 指的是句子平均長度,ASW 為音節的平均數,Flesch Reading Ease 的公式會得到一個從 0 到 100 的數值,得分較高的,說明文本比較容 易閱讀,平均文本通常呈現 6 至 70 分左右;而 Flesch–Kincaid Grade Level 則是求 出的數值越高,代表該閱讀的文本難度越難(Graesser, McNamara, & Louwerse, 2004)。
McNamara, Louwerse, & Graesser(2002)鑑於當時美國教科書的分級並不適當,
書商編排教科書時,過分依賴傳統可讀性公式,導致文章內容中充滿簡短而不連貫 或者是凝聚性很低的句子,造成學生理解上的困難,基於上述原因,發展了線上多
文本特徵分析器(Coh-Metrix),希望不僅只依賴字長和句子的長度單一變項來衡 量文本的難易,更希望透過詞彙的多樣性、句子的特徵、語意關聯等多層次的分析,
描述文本整體的凝聚力,使讀者獲得更具指標與參考的文本選擇依據。
貳、 Coh-Metrix的重要性
Coh-Metrix 是曼菲斯大學所發展出的一個線上文本分析系統,利用計算語言 學、語料庫、信息的檢索等自然語言的分析方法,透過各項指標的計算,來了解文 本凝聚力(cohesion)和文本心理表徵的連貫性(coherence)。透過凝聚力,可幫助讀者 連結句子、段落及章節間的前後語意,文章不再只是零散的片段,如果句子的連貫 性好,文章語意前後一致,文章自然容易閱讀;反之,低凝聚力的文章則語意聯繫 連貫較差,推論較為複雜,閱讀起來相對較為困難(Graesser et al., 2011)。所以,凝 聚力可說是閱讀理解的重要步驟,能幫助讀者理解,並促進讀者建構文本內容,做 更連貫的心理表徵(McNamara et al., 2002)。
目前 Coh-Metrix 線上分析系統發展得更趨成熟,內部所使用的分析指標高達 600-1000 個,除可協助教師或家長選擇適合學生程度的閱讀文本外,也可利用各項 分析指標區分出文本內容連貫性的高低,學生閱讀如遇到瓶頸,老師可挑選較簡易 的文本,讓其輕鬆的閱讀,增強其自信心;反之也可以讓閱讀理解較弱的學生試著 挑戰較困難的文本,累積實力(Graesser et al., 2011)。學者 Crossley & McNamara
(2009)發現透過 Coh-Metrix 指標中的相對連貫性和詞彙網路提供的訊息,可以區 別出將英語視為第一語言和第二語言的作者,二者間寫作風格上的差異;不僅如此,
Coh-Metrix 也可以提供研究人員和教師詳細的統計資訊,有效的教導第二語言的寫 作,學生依據分析資料可以找出自己寫作方面的優點和缺點,進而修改寫作策略和 風格(Yasemin & İhsan , 2012)。
由上述所知,Coh-Metrix 自動化分析系統可提供五個分析面向,分別為文字
(words)、句法(syntax)、明確的文本基礎(the explicit textbase)、情境模式(the
situation model)及話語的風格和修辭結 構 (the discourse genre and rhetorical structure),藉由這些面向的分析結果,可以提供使用者一個選擇文本的重要參考依 據,找出適合自己程度的文章做閱讀或做為教師在教學第一線的輔助工具。
參、 Coh-Metrix 分析指標
Coh-Metrix 線上分析系統利用多項指標分析文本在國外推廣已久,目前最新的 Coh-Metrix 3.0 版本指標已建置完畢,使用介面如圖2-1-1,而 Coh-Metrix 3.0 版本 除原既有指標外,又添加更多分析元素,指標主要可區分成十一大類,如表2-1-1所 示,分別為描述性、文本適讀性構成分數、潛在語意分析、詞彙多樣性、關聯詞、
情境模式、詞彙資訊及可讀性等多樣性指標,透過這些指標的分析,可以更加瞭解 文本多元的面向及其更深層的意涵。本研究參考Coh-Metrix 2.0 版本及 3.0 版本的 指標,就詞彙訊息(word information)的類別,發展文章特性中詞頻與詞彙兩部分 之相關指標,其中詞頻指標的部分包括所有詞詞頻、實詞詞頻與每句詞頻最小值, 詞 彙的部分為每句平均詞彙數,期望透過最基礎的詞彙訊息的指標了解與文本的相關 性。
圖2-1-1 Coh-Metrix 3.0 介面
資料來源:http://cohmetrix.memphis.edu/cohmetrixpr/index.html 表2-1-1 Coh-Metrix 3.0 版本指標
種類 指標項目 個數
1 描述性(Descriptive) 11 個
2 參照擬聚力(Referential Cohesion) 10 個
3 潛在語意分析(LSA) 8 個
4 詞彙多樣性( Lexical Diversity) 4 個 5 文本適讀性分級(Text Easeability Principle Component Score) 16 個
6 關聯詞(Connectives) 9 個
7 情境模型(Situation Model) 8 個 8 語法復雜度( Syntactic Complexity) 7 個 9 句型密度(Syntatic Pattern Density) 8 個 10 詞彙訊息(Word Information) 22 個
11 可讀性指標(Readability) 3 個
資料來源:McNamara,Graesser,McCarthy, & Zhiqiang Cai(2013)