第二章 文獻探討
第一節 線上文本分析系統 Coh-Metrix
壹、Coh-Metrix 的發展
Coh-Metrix 是從 2002 年開始發展的一種網路智慧型文本分析工具,由美國 曼菲斯大學(University of Memphis)所研發。美國教科書編寫長期以來依賴字 長及詞長指標,而造成縮短字長、詞長來遷就對應年級,以致造成文句破碎,
增加閱讀理解之困難(McNamara, Louwerse, & Graesser, 2002) 。Coh-Metrix 其 設計目的是改善教科書的寫作方式,在系統中加入詞彙、句法結構、潛在語意 分析及凝聚性等影響文章難易度的指標,提供文字和論述的語言數據索引 (Graesser et al 2004), 這些值可以用許多不同的方式,明確的評估文本的凝聚 力(cohesion)與讀者對文本內容心理表徵的連貫性(cohesiveness),進而評估讀 者對文本深層認知理解程度,其總體目標希望能提供更多測量文本複雜性的運 算指標。
Coh-Metrix 依據版本和工具,評估特定的指標,目前發展至 3.0 版本,指 標共計 11 個類別,106 個指標(Coh-Metrix3.0):
表 2-1-1 Coh-Metrix 3.0 類別與指標
1 描述性(Descriptive)-11 個 6 關聯詞(Connectives)-8 個 2 參照凝聚力-10 個
(Referential Cohesion)
7 情境模型(Situation Model)-8 個
3 潛在語意分析(LSA)-8 個 8 語法複雜度-7 個 (Syntactic Complexity)
4 詞彙多樣性-4 個 (Lexial Diversity)
9 句型密度-8 個
(Syntatic Pattern Density) 5 文本適讀性分數-16 個
(Text Easability Principle Component Score)
10 詞彙訊息-22 個 (Word Information)
11 可讀性指標(Readability)-3 個
資料來源:McNamara, Graesser, McCarthy & Cai(未出版)
目前,英文線上文本分析系統建置了 Coh-Metrix 3.0 線上版,為分析各個 文本提供了 600-1000 個指數,但未全數開放使用。目前開發了供讀者使用 Coh-Metrix 3.0,網址:http://cohmetrix.memphis.edu/cohmetrixpr/index.html 介面 如下。
圖 2-1-1 Coh-Metrix3.0 介面
貳、Coh-Metrix 的重要性
過去,可讀性最常用來估計文本的難度,在過去百年中,已經有數百種檢 測方式被開發。一般可讀性僅僅依靠字長和句子的長度來評估,其實句子長度 和字長只能預測閱讀時間 (Haberlandt & Graesser, 1985; Just & Carpenter, 1987;
Rayner, 2003) ,再者可讀性研究只預測讀者對於字和詞的理解,驗證文本理解 也只限於填空格字,評估詞與句子的關聯(Shanahan, Kamil, & Tobin, 1982),而
不是閱讀理解能力的研究。早在 1980 年代,估計超過 200 種文本可讀性的演算 規則系統產生,同時更有 1000 篇以上的相關研究發表(Graesser et al 2004)。
在傳統難易度測驗方法簡易,僅限於字、句和文本,但對學生閱讀能力的 提升無實質的幫助。因此,若能針對學生個別差異,發展對文本進行分類,選 擇適合學生閱讀文本的分析工具那就相當重要了,Coh-Metrix 正好符合這個特 點。況且可讀性評估方法上常忽略文本中凝聚力及連貫性所扮演的角色,而 Coh-Metrix 改善了這個缺點,在一前後相接段落的成對句型中,文字、概念或 想法重疊於期間,便可以形成銜接多個句子的連結。(McNamara et al., 2007)。
它可以找出心理語言學、計算語言學教育和閱讀素養之間凝聚力的線索,提供 有關文本的可讀性及相關理解(McNamara, Graesser, Cai, & Kulikowich, 2011)。
在 Coh-Metrix 中,凝聚力是重要的核心假設,其透過自動化分析計算系統,
分析詞、句子、段落和篇章的文本多層次凝聚特性與文章難度的關係〈宋曜廷,
2012〉,而凝聚力是文章的組成特性,它連結文字間想傳達的結果和概念,也 可結合文章中詞和句子關係,更可聯繫句子、文本和讀者的想法。在文章裡給 讀者明確的暗示,可幫助讀者加快理解程序,或推論這些關係,產生深層的理 解(Lehnert & Ringle, 1982)。
具有高凝聚力的文本,不僅在句子間,也在全文間形成明確的線索,可幫 助讀者加快理解或推論文本間的關係。然而凝聚力較低之文本,若讀者先備知 識夠多,則可以刺激讀者產生推論極更多的解釋,反之,會因缺乏線索,較難 連接文本與讀者的想法(Halliday & Hasan, 1976)。
参、Coh-Metrix 的分析指標
在 Coh-Metrix 指標類別中,參照凝聚力(Referential Cohesion)、潛在語意分 析(LSA)及關聯詞(Connectives)皆為研究文本凝聚力之指標類別。其中,參照凝
聚 力 在 中 文 語 法 中 鮮 少 有 相 關 闡 述 , 本 研 究 則 針 對 共 同 參 照 凝 聚 力
(co-reference cohesion)對中文文本產生之凝聚性影響加以分析探討。
在早期,兩個句子裡,有一個共同的參數(如:名詞,動詞..等),這兩個 句子就具有共同參照凝聚力。參照(referential)和語意的重複(semantic overlap) 是明確有力的凝聚力來源,其出現在相鄰句中,段落中或相鄰段落中的句子裡。
句中的詞、概念或想法重複,構成了句子之間的聯繫。當文字、概念或想法重 複於句型中時,便可以形成銜接多個句子的連結,形成高凝聚力。若凝聚力指 數過低則會出現理解斷層或增加閱讀時間(Graesser et al, 2004)。
共同參照指數關係著文章中語意是否連接的一個重要指標(Halliday &
Hasan, 1976; McNamara & Kintsch, 1996),已被廣泛研究在文字語言學和論述流 程的領域裡。詞彙參照已被證明可以幫助文本的理解和閱讀速度(Kintsch & van Dijk 1978)。
共同參照凝聚力相同特點如下:
1 研究指標包含兩兩相鄰的局部句凝聚力指標(local sentences)與段落 間總體凝聚力指標(global sentences)。
2 共同參照模式含括以下幾類:
(1)實詞重複指標(content word overlap):句子間相同實詞重複出 現比例的研究。
(2)名詞重複指標(noun overlap):句子間相同名詞重複出現比例的 研究。
(3)動詞重複指標(verb overlap):句子間相同動詞重複出現比例的 研究。
(4)參數重複指標(argument overlap):句子間相同名詞或代詞重複 出現比例的研究。(e.g., table/table, he/he, or table/tables)
(5)詞幹重複指標(stem overlap):名詞在任何語法範疇中的其他任 何詞中有一個共同的語義單元。(e.g., the noun photograph and the verb photographed).
因以上所述共同參照指標項目皆以英文文本研究發展而成,其中參數重複 指標(argument overlap)和詞幹重複指標(stem overlap)不能完全適用於中文 語法文本分析,因此本研究以探討實詞重複指標(content word overlap)、動詞 重複指標(verb overlap)、名詞重複指標(noun overlap)為主要研究指標。
目前參考中文語法發展的線上文本分析系統研究並不多,國內以國立台灣 師範大學宋曜廷等人(2010)所開發之文本可讀性指標自動化分析系統(Chinese Readability Index Explorer, CRIE),能夠自動分析文本多項特徵,為實用的文本 分析工具。但 CRIE 對於語詞重複所產生的文本凝聚力研究鮮少著墨,本研究 則針對此類指標進行探討與建置。