第二章 文獻探討
第二節 線上文本分析系統Coh-Metrix
壹、 Coh-Metrix的定義
Coh-Metrix 是一套自動線上電腦分析工具,提供各種語言學相關指標如:
詞彙、語法、模式分類、語法解析器、淺層語意口譯等指標,分析、理解文本 凝聚力(cohesion)和文本心理表徵的連貫性(coherence,指凝聚在讀者心中的 影響) (Crossley, Allen & McNamara, 2011)。當凝聚力強大時,能迅速連結句 子、段落及文本間的語意,使文本不再只是零散的片段;而句子間有較佳的連 貫性,則文本語意前後一致,文本自然容易理解。Myers, McCarthy, Duran and McNamara(2011)認為 Coh-Metrix 是分析高品質文本和低品質文本之間差異
16
的工具,它提供超過 200 種指標分析文本的凝聚力(連接詞數、人稱代名詞數)、 難度、詞彙(詞頻、詞數)、句法結構(名詞片語數、結構相似度)、潛在語意 類(相鄰兩句的語意相似度)和總體文本層面(其內容分為:詞、詞的信息、
句子、段落層次、字頻、可讀性、多義性和上位詞價值觀、連接詞語法複雜性、
核心凝聚力、因果的凝聚力、單詞和短語的密度、邏輯運算符的密度、潛在語 意分析(LSA)、Type-Token Ratio 等)。
Coh-Metrix 借由自然語言處理技術(計算語言學、語料庫語言學、資訊檢 索等)提供超過 600 個概念性知識如:凝聚力、詞彙使用特點、語法的複雜性、
句法複雜程度、可讀性和詞彙難度指數、文本的銜接與連貫等方面進行自動線 上分析。藉由 Coh-Metrix 多層次的文本分析指標測量各級語言的凝聚力和文本 難度的輸出結果,使人們有可能以計算研究文本語言理解的各種測驗取代語言 的表面構成要素,進而探討更深、更整體的屬性語言,並且提供教師和研究人 員更詳細的統計訊息。這些訊息不但可以辨別學生定時寫作質量,讓學生從中 找到他們寫作的優、缺點外,進而修改自己的寫作策略和風格(Graesser et al., 2004)。Coh-Metrix 是一項測量語言特性中單字、句子和會話之表面結構和深層 結構的工具,其中五個分析向度指標分別為:「共同的參照凝聚力」、「因果凝聚 力」、「語法凝聚力」、「潛在語義分析」和「詞彙多樣性」。內容包括字長的分數、
詞彙多樣性的價值觀、詞頻計數、一詞多義、文字意義、詞的具體性和單詞的 熟悉。Coh-Metrix 可以自動計算出文本的一致性,並確定文字元素和成分被連 接到特定類型的凝聚力。McNamara and Graesser(2010)採用 Coh-Metrix 來檢 測語言學功能上的差異,不但發現語法的複雜性外,更可以預測寫作能力。
Coh-Metrix 的指標甚至強大到足以檢測字彙和語段間細微的差別,而且很多研 究使用 Coh-Metrix 來區別不同類型的文本。例如,Graesse et al(2004)用 Coh-Metrix 發現英語口語和書面的顯著差異。
17
貳、 Coh-Metrix的發展
傳統自然語言的研究方法通常不超出字層級功能(如語法階級和頻率), 但這種研究是有問題的,因為高階文本中母語類文本可能存在凝聚力和修辭風 格的差異。國外通常使用 Flesch-Kincaid Grade Level(Klare, 1974-5),Degrees of Reading Power (DRP; Koslin, Zeno, & Koslin, 1987)和 Lexile scores(Stenner, 2006)來判斷文本的適讀性,但僅用單一維度來定義文本是相當困難的。基於 上述理由,曼菲斯大學開始於 2002 年到 2011 之間不斷發展、測試、改良一套 電腦化線上分析工具-Coh-Metrix。Coh-Metrix 的研究計劃起始於 2002 年,此 專案的初步撥款在 2002 年由教育研究與改進辦公室(Office of Educational Research and Improvement)所授予,此研究團隊是由不同背景的研究人員以跨 學科集合為基礎所組成的,藉此想要了解是否真的可以藉由凝聚力來觀察文 本,又或者它只能針對讀者進行測量(McNamara, Graesser, McCarthy, & Cai, 2013)。Coh-Metrix 的第一個版本僅供內部使用,並不對外開放(Graesser et al., 2004);第二個版本,Coh-Metrix 2.0,則透過網路供大眾使用,其內容包括 54 個 文本特徵的指標。它已經嵌入了大量多層次的語言指標,例如:凝聚力、詞彙 的多樣性和複雜性的句法等(Wang Hongwei, 2013)。目前 Coh-Metrix 已發展 到 3.0 版 , 可 以 用 來 分 析 詞 彙 ( lexicons )、 詞 性 的 分 類 ( part-of-speech classifiers)、語法上剖析器(syntactic parsers)、語義分析器(semantic analyzers)
和潛在語義分析(Latent Semantic Analysis)及被廣泛使用於計算語言學的其他 一些組件。其指標內容涵蓋 11 個類別、106 個指標。Coh-Metrix 可提供「詞 彙(words)」、「句型(syntax)」、「文本基礎(the explicittextbase)」、「情境模式
(the situation model)」及「話語風格和修辭結構(the discoursegenre and rhetorical structure)」等五個面向的分析(McNamara et al., 2013)。
有關 Coh-Metrix 使用介面如下:
18
圖 2-1 Coh-Metrix 3.0 線上版系統介面
註:資料來源: http://cohmetrix.memphis.edu/cohmetrixpr/index.html 表 2-4
Coh-Metrix 3.0 版指標類別與個數
種類 指標項目 指標個數
1 描述性(Descriptive) 11個 2 文本適讀性分數(Text Easeability 16個 3 參照擬聚力(Referential Cohesion) 10個
4 潛在語意分析(LSA) 8個
5 詞彙多樣性( Lexical Diversity) 4個 6 關聯詞(Connectives) 9個 7 情境模型(Situation Model) 8個 8 語法複雜度( Syntactic Complexity) 7個 9 句型密度(Syntatic Pattern Density) 8個 10 詞彙訊息(Word Information) 22個 11 可讀性指標(Readability) 3個
總計11 個類別,106 個指標
註:資料整理自 McNamara, Graesser, McCarthy, & Cai (2013)
19
如今 Coh-Metrix 已被用於各種不同的領域發展。例如,許多研究採用 Coh-Metrix 探索第二語言習得研究話語的文本差異和母語研究、凝聚力分析
(Crossley, Greenfield, & McNamara, 2008)詞彙和文本體裁等(Louwerse, McCarthy, McNamara, & Graesser, 2004)。