線上文本分析系統 Coh-Metrix

第二章文獻探討

第一節線上文本分析系統 Coh-Metrix

壹、Coh-Metrix 的發展

Coh-Metrix 是從 2002 年開始發展的一種網路智慧型文本分析工具，由美國曼菲斯大學（University of Memphis）所研發。美國教科書編寫長期以來依賴字長及詞長指標，而造成縮短字長、詞長來遷就對應年級，以致造成文句破碎，

增加閱讀理解之困難(McNamara, Louwerse, & Graesser, 2002) 。Coh-Metrix 其設計目的是改善教科書的寫作方式，在系統中加入詞彙、句法結構、潛在語意分析及凝聚性等影響文章難易度的指標，提供文字和論述的語言數據索引 (Graesser et al 2004)，這些值可以用許多不同的方式，明確的評估文本的凝聚力(cohesion)與讀者對文本內容心理表徵的連貫性(cohesiveness)，進而評估讀者對文本深層認知理解程度，其總體目標希望能提供更多測量文本複雜性的運算指標。

Coh-Metrix 依據版本和工具，評估特定的指標，目前發展至 3.0 版本，指標共計 11 個類別，106 個指標（Coh-Metrix3.0）：

表 2-1-1 Coh-Metrix 3.0 類別與指標

1 描述性(Descriptive)-11 個 6 關聯詞(Connectives)-8 個 2 參照凝聚力-10 個

(Referential Cohesion)

7 情境模型(Situation Model)-8 個

3 潛在語意分析(LSA)-8 個 8 語法複雜度-7 個 (Syntactic Complexity)

4 詞彙多樣性-4 個 (Lexial Diversity)

9 句型密度-8 個

(Syntatic Pattern Density) 5 文本適讀性分數-16 個

(Text Easability Principle Component Score)

10 詞彙訊息-22 個 (Word Information)

11 可讀性指標(Readability)-3 個

資料來源：McNamara, Graesser, McCarthy & Cai（未出版）

目前，英文線上文本分析系統建置了 Coh-Metrix 3.0 線上版，為分析各個文本提供了 600-1000 個指數，但未全數開放使用。目前開發了供讀者使用 Coh-Metrix 3.0，網址：http://cohmetrix.memphis.edu/cohmetrixpr/index.html 介面如下。

圖 2-1-1 Coh-Metrix3.0 介面

貳、Coh-Metrix 的重要性

過去，可讀性最常用來估計文本的難度，在過去百年中，已經有數百種檢測方式被開發。一般可讀性僅僅依靠字長和句子的長度來評估，其實句子長度和字長只能預測閱讀時間 (Haberlandt & Graesser, 1985; Just & Carpenter, 1987;

Rayner, 2003) ，再者可讀性研究只預測讀者對於字和詞的理解，驗證文本理解也只限於填空格字，評估詞與句子的關聯(Shanahan, Kamil, & Tobin, 1982)，而

不是閱讀理解能力的研究。早在 1980 年代，估計超過 200 種文本可讀性的演算規則系統產生，同時更有 1000 篇以上的相關研究發表（Graesser et al 2004)。

在傳統難易度測驗方法簡易，僅限於字、句和文本，但對學生閱讀能力的提升無實質的幫助。因此，若能針對學生個別差異，發展對文本進行分類，選擇適合學生閱讀文本的分析工具那就相當重要了，Coh-Metrix 正好符合這個特點。況且可讀性評估方法上常忽略文本中凝聚力及連貫性所扮演的角色，而 Coh-Metrix 改善了這個缺點，在一前後相接段落的成對句型中，文字、概念或想法重疊於期間，便可以形成銜接多個句子的連結。(McNamara et al., 2007)。

它可以找出心理語言學、計算語言學教育和閱讀素養之間凝聚力的線索，提供有關文本的可讀性及相關理解（McNamara, Graesser, Cai, & Kulikowich, 2011）。

在 Coh-Metrix 中，凝聚力是重要的核心假設，其透過自動化分析計算系統，

分析詞、句子、段落和篇章的文本多層次凝聚特性與文章難度的關係〈宋曜廷，

2012〉，而凝聚力是文章的組成特性，它連結文字間想傳達的結果和概念，也可結合文章中詞和句子關係，更可聯繫句子、文本和讀者的想法。在文章裡給讀者明確的暗示，可幫助讀者加快理解程序，或推論這些關係，產生深層的理解(Lehnert & Ringle, 1982)。

具有高凝聚力的文本，不僅在句子間，也在全文間形成明確的線索，可幫助讀者加快理解或推論文本間的關係。然而凝聚力較低之文本，若讀者先備知識夠多，則可以刺激讀者產生推論極更多的解釋，反之，會因缺乏線索，較難連接文本與讀者的想法(Halliday & Hasan, 1976)。

参、Coh-Metrix 的分析指標

在 Coh-Metrix 指標類別中，參照凝聚力(Referential Cohesion)、潛在語意分析(LSA)及關聯詞(Connectives)皆為研究文本凝聚力之指標類別。其中，參照凝

聚力在中文語法中鮮少有相關闡述，本研究則針對共同參照凝聚力

（co-reference cohesion）對中文文本產生之凝聚性影響加以分析探討。

在早期，兩個句子裡，有一個共同的參數(如：名詞，動詞..等)，這兩個句子就具有共同參照凝聚力。參照(referential)和語意的重複(semantic overlap) 是明確有力的凝聚力來源，其出現在相鄰句中，段落中或相鄰段落中的句子裡。

句中的詞、概念或想法重複，構成了句子之間的聯繫。當文字、概念或想法重複於句型中時，便可以形成銜接多個句子的連結，形成高凝聚力。若凝聚力指數過低則會出現理解斷層或增加閱讀時間（Graesser et al, 2004)。

共同參照指數關係著文章中語意是否連接的一個重要指標(Halliday &

Hasan, 1976; McNamara & Kintsch, 1996)，已被廣泛研究在文字語言學和論述流程的領域裡。詞彙參照已被證明可以幫助文本的理解和閱讀速度（Kintsch & van Dijk 1978）。

共同參照凝聚力相同特點如下：

1 研究指標包含兩兩相鄰的局部句凝聚力指標（local sentences）與段落間總體凝聚力指標（global sentences）。

2 共同參照模式含括以下幾類：

（1）實詞重複指標（content word overlap）：句子間相同實詞重複出現比例的研究。

（2）名詞重複指標（noun overlap）：句子間相同名詞重複出現比例的研究。

（3）動詞重複指標（verb overlap）：句子間相同動詞重複出現比例的研究。

（4）參數重複指標（argument overlap）：句子間相同名詞或代詞重複出現比例的研究。（e.g., table/table, he/he, or table/tables）

（5）詞幹重複指標（stem overlap）：名詞在任何語法範疇中的其他任何詞中有一個共同的語義單元。(e.g., the noun photograph and the verb photographed).

因以上所述共同參照指標項目皆以英文文本研究發展而成，其中參數重複指標（argument overlap）和詞幹重複指標（stem overlap）不能完全適用於中文語法文本分析，因此本研究以探討實詞重複指標（content word overlap）、動詞重複指標（verb overlap）、名詞重複指標（noun overlap）為主要研究指標。

目前參考中文語法發展的線上文本分析系統研究並不多，國內以國立台灣師範大學宋曜廷等人(2010)所開發之文本可讀性指標自動化分析系統(Chinese Readability Index Explorer, CRIE)，能夠自動分析文本多項特徵，為實用的文本分析工具。但 CRIE 對於語詞重複所產生的文本凝聚力研究鮮少著墨，本研究則針對此類指標進行探討與建置。

在文檔中兒童文本語詞重複指標分析系統建置與應用 (頁 14-18)

第二章 文獻探討

第一節 線上文本分析系統 Coh-Metrix

壹、Coh-Metrix 的發展

貳、Coh-Metrix 的重要性

参、Coh-Metrix 的分析指標

第二章文獻探討

第一節線上文本分析系統 Coh-Metrix