• 沒有找到結果。

線上文本分析系統- Coh-Metrix

第二章 文獻探討

第二節 線上文本分析系統- Coh-Metrix

線上文本分析系統—Coh-Matrix,是由曼菲斯大學所發展的一個線上文本分 析系統,其設計目的是測量美國學生閱讀教材中的語篇連貫性。透過各項指標的 計算數值,可以了解文本凝聚力(cohesion)和文本心理表徵的連貫性(coherence),

其分析指標包含:英文可讀性公式、文字描述性分析、詞彙多樣性、詞性分類、

句法分析、潛在語意分析等等(Graesser, McNamara, Louwerse, & Cai, 2004)。

一、Coh-Metrix 的發展

Coh-Metrix 的研究計劃起始於 2002 年,此一研究基於實際需求,因為當時 沒有任何一種可讀性工具可提供一個廣泛性的文字或文本指標,傳統測量文章難 度的方法(稱為可讀性公式)有所不足,且沒有一個自動化工具可測量文本的連 貫性(Clark, 1996; Graesser, Gernsbacher, & Goldman, 2003; Kintsch, 1998)。

長期以來, 美國教育部門主要依賴可讀性公式(readability formula)對學生 的閱讀材料作出取捨。可讀性的測量基於詞和句的特徵(比如:長度),此者對 於文本難度是具有效力的指標,通常多音節多字母的單字是較少使用的,因此讀

者需要更多的接觸方能認識,因此若句中含有較多的單字表示句子語法可能較複 雜不易理解。由於這些公式主要依靠詞長、句長等參數對閱讀材料進行測量, 導 致很多教材中充斥著大量的短小、破碎而不連貫的語句, 使學生對文章的理解產 生極大的不便, 也不利於學生閱讀和寫作能力的提高。有鑒於此, McNamara 等 人(2002)設計了 Coh-Metrix,可以有效地測量文本的凝聚力,該軟體合理地利 用了計算語言學、語料庫語言學、資訊檢索等多種自然語言分析技術為學生閱讀 材料的選擇提供了十分可靠的依據(McNamara, Graesser, McCarthy & Cai, 2013)。 二、Coh-Metrix 的重要性

Coh-Metrix 假設凝聚力(Cohesion)是語言最重要的核心,凝聚力是文本中結 合事件和文本傳達概念的語言黏合劑。凝聚力的線索能幫助讀者理解句子和段落 的連結,促進辭和句子的理解並提高讀者對文本全面性的理解,很多研究顯示文 本的凝聚力線索能促進讀者理解並幫助讀者對文本內容建構更連貫的心理表徵 (Britton & Gulgoz, 1991; McNamara, 2001; Zwaan & Radvanksy, 1998)。

文本中除了單詞和句子之外,還有句子間和段落間的關係。文本中有一些明 確的線索可幫助讀者理解或推斷這些關係,一個簡單有力的凝聚力來自參照 (referential)和語意重疊(semantic overlap),因為句子中的詞、概念或想法的重疊,

構成了句子間的聯繫。另一個凝聚力來自關聯詞(connectives)的使用,例如:因為、

不但……,關聯詞告知讀者概念之間的關係並幫助讀者去理解此關係的方向。

Coh-Metrix 可以從文本中提取多種變數, 這些變數涉及文本的銜接與連貫、句法 複雜度、辭彙資訊、概念清晰度等多個方面。最重要的是, Coh-Metrix 在變數 提取過程中利用了計算語言學領域的潛在語義分析法 (LSA, Latent Semantic Analysis) ,可以有效地分析文本的凝聚力,該方法並不依賴文本的表層特徵,而 是對文本中各部分之間的語義相關性(semantic relatedness)進行分析(Landauer, McNamara, Dennis & Kintsch, 2007)。

因此,Coh-Metrix 所提供的指標能用來評估文本的凝聚力。凝聚力高的文本 使用重複的、具體的語言等來幫助讀者弄清楚單詞、句子和意思之間存在的聯

繫。而低凝聚力的文本則相反,需要讀者自己來進行多種推論才能理解文本。高 凝聚力文本並不一定就比低凝聚力文本好,但卻能使讀者更容易理解文本。對於 作者、出版商、老師、家長還是學生而言,透過 Coh-Metrix 系統的各項指標來分 析文本,就能以科學的方法來提供文本難度或文本結構的資料。不管對於閱讀或 寫作的教與學方面,更是能獲得極具參考價值的訊息。

三、Coh-Metrix 關聯詞指標

目前 Coh-Metrix 已發展到 3.0 版,線上介面如圖 2-1-1,其計算範疇涵蓋十一 個類別 106 個指標,列舉如表 2-1-1 :

圖 2-2-1 Coh-Metrix 3.0 線上版系統介面

資料來源: http://cohmetrix.memphis.edu/cohmetrixpr/index.html

表 2-2-1 Coh-Metrix 3.0 版指標類別與個數

指標類別 指標個數

一、描述性(Descriptive) 11

二、文本適讀性分數(Text Easability Principle Component Score) 16 三、參照凝聚力(Referential Cohesion) 10

四、潛在語意分析(LSA) 8

五、詞彙多樣性(Lexical Diversity) 4

六、關聯詞(Connectives) 9

七、情境模型(Situation Model) 8

八、語法複雜度(Syntactic Complexity) 7 九、句型密度(Syntatic Pattern Density) 8 十、詞彙訊息(Word Information) 22

十一、可讀性指標(Readability) 3

總計 11 個類別 106 個指標

註:資料整理自 McNamara, Graesser, McCarthy

&

Cai (2013)

關聯詞(Connectives)指標是用來評估文本的凝聚力指標之ㄧ,關聯詞在增 進概念和子句之間的連結扮演很重要的角色,並且提供了文本組織的許多線索 (Cain & Nash, 2011;Sanders & Noordman, 2000)。關聯詞指標計算方式為每千字 的 出 現 率 分 數 , Coh-Metrix3.0 中 共 有 五 類 一 般 性 分 類 關 聯 詞 (connectives) (Halliday & Hasan,1976;Louwers, 2001),分別為:因果關聯詞(causal;because, so)、

邏 輯 關 聯 詞 (logical ; and,or) 、 轉 折 關 聯 詞 (adversative/contrastive ; although, whereas)、時間關聯詞(temporal;until, first)、遞進關聯詞(additive;and, moreover),

除此之外,上述關聯詞又再區分為正向關聯詞(positive;also, moreover)、負向 關聯詞(negative;however, but)兩類,最後再加上整體關聯詞(all)以及擴展時間關 聯詞(expanded temporal),總計有九個關聯詞指標(McNamara, Graesser, McCarthy

& Cai, 2013)。

在中文部分,CRIE 系統參考 Coh-Metrix 系統有關關聯詞指標的分類,在中 文可讀性探討中將關聯詞指標分為正向連接詞數、負向連接詞和連接詞數三個指 標,其分類方法沿用西方學者 Louwerse(2001)對英語連接詞的分類(宋曜廷等,

2013)。然而中文語法與英文語法不同,在關聯詞的分類上亦不相同,因此本研

究將依照中文語法對關聯詞的定義與分類來發展中文文本分析的關聯詞指標,包