線上文本分析系統Coh-Metrix

第二章文獻探討

第二節線上文本分析系統Coh-Metrix

壹、 Coh-Metrix的定義

Coh-Metrix 是一套自動線上電腦分析工具，提供各種語言學相關指標如：

詞彙、語法、模式分類、語法解析器、淺層語意口譯等指標，分析、理解文本凝聚力（cohesion）和文本心理表徵的連貫性（coherence，指凝聚在讀者心中的影響）（Crossley, Allen & McNamara, 2011）。當凝聚力強大時，能迅速連結句子、段落及文本間的語意，使文本不再只是零散的片段；而句子間有較佳的連貫性，則文本語意前後一致，文本自然容易理解。Myers, McCarthy, Duran and McNamara（2011）認為 Coh-Metrix 是分析高品質文本和低品質文本之間差異

的工具，它提供超過 200 種指標分析文本的凝聚力（連接詞數、人稱代名詞數）、難度、詞彙（詞頻、詞數）、句法結構（名詞片語數、結構相似度）、潛在語意類（相鄰兩句的語意相似度）和總體文本層面（其內容分為：詞、詞的信息、

句子、段落層次、字頻、可讀性、多義性和上位詞價值觀、連接詞語法複雜性、

核心凝聚力、因果的凝聚力、單詞和短語的密度、邏輯運算符的密度、潛在語意分析（LSA）、Type-Token Ratio 等）。

Coh-Metrix 借由自然語言處理技術（計算語言學、語料庫語言學、資訊檢索等）提供超過 600 個概念性知識如：凝聚力、詞彙使用特點、語法的複雜性、

句法複雜程度、可讀性和詞彙難度指數、文本的銜接與連貫等方面進行自動線上分析。藉由 Coh-Metrix 多層次的文本分析指標測量各級語言的凝聚力和文本難度的輸出結果，使人們有可能以計算研究文本語言理解的各種測驗取代語言的表面構成要素，進而探討更深、更整體的屬性語言，並且提供教師和研究人員更詳細的統計訊息。這些訊息不但可以辨別學生定時寫作質量，讓學生從中找到他們寫作的優、缺點外，進而修改自己的寫作策略和風格（Graesser et al., 2004）。Coh-Metrix 是一項測量語言特性中單字、句子和會話之表面結構和深層結構的工具，其中五個分析向度指標分別為：「共同的參照凝聚力」、「因果凝聚力」、「語法凝聚力」、「潛在語義分析」和「詞彙多樣性」。內容包括字長的分數、

詞彙多樣性的價值觀、詞頻計數、一詞多義、文字意義、詞的具體性和單詞的熟悉。Coh-Metrix 可以自動計算出文本的一致性，並確定文字元素和成分被連接到特定類型的凝聚力。McNamara and Graesser（2010）採用 Coh-Metrix 來檢測語言學功能上的差異，不但發現語法的複雜性外，更可以預測寫作能力。

Coh-Metrix 的指標甚至強大到足以檢測字彙和語段間細微的差別，而且很多研究使用 Coh-Metrix 來區別不同類型的文本。例如，Graesse et al（2004）用 Coh-Metrix 發現英語口語和書面的顯著差異。

貳、 Coh-Metrix的發展

傳統自然語言的研究方法通常不超出字層級功能（如語法階級和頻率），但這種研究是有問題的，因為高階文本中母語類文本可能存在凝聚力和修辭風格的差異。國外通常使用 Flesch-Kincaid Grade Level（Klare, 1974-5），Degrees of Reading Power （DRP; Koslin, Zeno, & Koslin, 1987）和 Lexile scores（Stenner, 2006）來判斷文本的適讀性，但僅用單一維度來定義文本是相當困難的。基於上述理由，曼菲斯大學開始於 2002 年到 2011 之間不斷發展、測試、改良一套電腦化線上分析工具－Coh-Metrix。Coh-Metrix 的研究計劃起始於 2002 年，此專案的初步撥款在 2002 年由教育研究與改進辦公室（Office of Educational Research and Improvement）所授予，此研究團隊是由不同背景的研究人員以跨學科集合為基礎所組成的，藉此想要了解是否真的可以藉由凝聚力來觀察文本，又或者它只能針對讀者進行測量（McNamara, Graesser, McCarthy, & Cai, 2013）。Coh-Metrix 的第一個版本僅供內部使用，並不對外開放（Graesser et al., 2004）；第二個版本，Coh-Metrix 2.0，則透過網路供大眾使用，其內容包括 54 個文本特徵的指標。它已經嵌入了大量多層次的語言指標，例如：凝聚力、詞彙的多樣性和複雜性的句法等（Wang Hongwei, 2013）。目前 Coh-Metrix 已發展到 3.0 版，可以用來分析詞彙（ lexicons ）、詞性的分類（ part-of-speech classifiers）、語法上剖析器（syntactic parsers）、語義分析器（semantic analyzers）

和潛在語義分析（Latent Semantic Analysis）及被廣泛使用於計算語言學的其他一些組件。其指標內容涵蓋 11 個類別、106 個指標。Coh-Metrix 可提供「詞彙（words）」、「句型（syntax）」、「文本基礎（the explicittextbase）」、「情境模式

（the situation model）」及「話語風格和修辭結構（the discoursegenre and rhetorical structure）」等五個面向的分析（McNamara et al., 2013）。

有關 Coh-Metrix 使用介面如下：

圖 2-1 Coh-Metrix 3.0 線上版系統介面

註：資料來源: http://cohmetrix.memphis.edu/cohmetrixpr/index.html 表 2-4

Coh-Metrix 3.0 版指標類別與個數

種類指標項目指標個數

1 描述性（Descriptive） 11個 2 文本適讀性分數（Text Easeability 16個 3 參照擬聚力（Referential Cohesion） 10個

4 潛在語意分析（LSA） 8個

5 詞彙多樣性（ Lexical Diversity） 4個 6 關聯詞（Connectives） 9個 7 情境模型（Situation Model） 8個 8 語法複雜度（ Syntactic Complexity） 7個 9 句型密度（Syntatic Pattern Density） 8個 10 詞彙訊息（Word Information） 22個 11 可讀性指標（Readability） 3個

總計11 個類別，106 個指標

註：資料整理自 McNamara, Graesser, McCarthy, & Cai （2013）

如今 Coh-Metrix 已被用於各種不同的領域發展。例如，許多研究採用 Coh-Metrix 探索第二語言習得研究話語的文本差異和母語研究、凝聚力分析

（Crossley, Greenfield, & McNamara, 2008）詞彙和文本體裁等（Louwerse, McCarthy, McNamara, & Graesser, 2004）。

在文檔中中文文本詞彙多樣性自動化分析系統建置與探討 (頁 23-27)

第二章 文獻探討

第二節 線上文本分析系統Coh-Metrix

壹、 Coh-Metrix的定義

貳、 Coh-Metrix的發展

第二章文獻探討

第二節線上文本分析系統Coh-Metrix