• 沒有找到結果。

線上文本分析系統 COH-METRIX

第二章 文獻探討

第一節 線上文本分析系統 COH-METRIX

壹、Coh-metrix 的介紹

在過去百年中,用在偵測英文文本難易度的可讀性公式,已經開發出數百種 的檢測方式,但傳統可讀性公式的文本分析對於閱讀理解無法達到最佳的效果,

原因有三點,第一、只著重在表面字長及句長的特徵,認為這些是影響閱讀理解 的主要因素,而忽視閱讀者對於全文意義理解的重要性。第二、未考慮文本的凝 聚力及文體的體裁,文體分為記敘文、說明文、論說文、描述性文章等四種,其 中記敘文比說明文容易閱讀和理解(Graesser & McNamara, 2011)。第三、當教學 者需要診斷學生閱讀方面不足之處並進行補救教學,傳統的可讀性公式提供的訊 息太少,無法偵測出文章的複雜度及特定的文本特徵值,因此無法提供教學者完 整的訊息參考(Connor, Morrison, Fishman, Schatschneider, & Underwood, 2007;

Rapp, van den Broek, McMaster, Kendeou, & Espin, 2007)。

傳統的可讀性公式如下:

Flesch Reading Ease=206.835–(1.015 x 平均句長)–(84.6 x 平均詞彙音節數)

(公式 1)

Flesch-Kincaid Grade Level=(0.39 x 平均句長)+(11.8 x 平均詞彙音節數)–15.59 (公式 2)

有鑑於此,Coh-Metrix 應運而生,Coh-Metrix 是由美國曼菲斯大學所發展出 來的線上文本分析系統,目前已經發展至 3.0 版,包含十一種類別,108 個指標,

主要在偵測代表文字深層意義的文本凝聚力(cohesion)及文本間的一致性、條理性 及連貫性(coherence)。提供英文文本多層次的語言分析,涵蓋詞彙特徵值、句子 特徵值以及文本間的關係等,其目的是要超越傳統的文本可讀性分析,透過這些 指標的分析,可更加了解文本多元面向及分項指標所偵測出的內涵。

貳、Coh-metrix 的發展及重要性

一、凝聚力的重要性

凝聚力來自於文本中存在與否的線索,其目的是將文本中不同的部分結合在 一起,因為有順序的產生,因此與語法相似。然而,語法連結句子中詞彙與詞組 屬於基礎的層面,主要傳達詞彙的作用及關係;凝聚力的線索在操作上是屬於較 高階的,其主要在連結語意的層面,而且,凝聚力有助於閱讀者了解文本的概念 及想法。文本有多種形式的凝聚力且在諸多研究中都顯示其重要性(McNamara, Graesser, McCarthy, & Cai, 2012),參照凝聚力是指文本中句子間及段落中詞彙及 語意參照的重複性。以下例的範例作說明(Haviland and Clark, 1974)。

範例 1.George got some beer out of the car. The beer was warm.

範例 2.George got some picnic out of the car. The beer was warm.

範例 1 兩句中有參照重複性”beer”,範例 2 兩句完全沒有參照重複性,因此 範例 1 的句子較範例 2 閱讀速讀快,假設文本被閱讀的速度越快,閱讀者在閱讀 理解處理的過程較容易,有諸多研究發表參照重複性對於閱讀速度的時間及詞 彙、句子的回顧有影響。參照凝聚力的影響來自於觸發,詞彙的觸發是表示一個 概念可以不自覺的產生於工作記憶中,若觸發到特定的程度有利於快速的處理,

觸發來自於詞彙的重複性及語意的相關,且和思想及啟動的連結相關。

Coh-metrix 根據最小編輯距離的概念提供偵測詞彙及詞性差異性的指標,以

評估句子結構的一致性,指標分析中強調文本深層意義的凝聚力。Coh-metrix 的 詞彙和詞性最小編輯距離指標與參照語意達中度負相關(r=-.3~ -.7),以

TASA(Touchstone Applied Science Associates)語料庫 38,807 篇文本分析為例,詞彙 最小編輯距離與參照凝聚力的易讀性分數,其相關達-.75,而且,詞彙最小編輯 距離與參照語意凝聚力的相關(r=-.4~-.7)高於詞性最小編輯距離的相關

(r=-.2~-.6),同時,詞性最小編輯距離與句子結構的複雜度彼此也有相關(r=-.3~-.6) (McNamara, 2012)。由上述可知,詞彙最小編輯距離與參照凝聚力指標皆有偵測 文本凝聚力的功能,中文參照凝聚力面向包含實詞、名詞及動詞的重複性指標,

僅偵測實詞、名詞、動詞的凝聚力,並未偵測到詞彙的凝聚力,若只偵測詞性的 重複性,會產生兩句間有相同的詞性,但卻是不同詞彙,其意義也有所不同,其 偵測的精確度較不高,本研究提出詞彙及詞性的最小編輯距離,不但可偵測所有 種類詞性的差異也可偵測詞彙的凝聚力。

二、主成份分析(Principal Components Analysis, PCA)及易讀性評估 (Text Easability Assessor , TEA)。

Graesser, McNamara, Kulikowich(2011)從 Coh-metrix 108 個指標中選出 53 個 指標以 TASA 語料庫進行主成分分析(Principal Components Analysis, PCA),找出 文本複雜度的相關因素。TASA 語料庫所收錄的文本有 37,520 篇,文本等級從幼 稚園到十二年級,文章類別包含語文、自然、社會等不同的領域,經過主成分分 析後,分析出八個成份包含描述性、句子結構簡易度、詞彙具體性、參照凝聚力、

深度凝聚力,動詞的凝聚力,關聯詞及時態的變化,這八個成份占總變異量的 67.3%,此結果顯然與多層級理論架構相符。接著,再從八個成份中分析出五個 成份包含描述性、句子結構簡易度、詞彙具體性、參照凝聚力、深度凝聚力占總 變異量的 54%,由於這五個成份與文本的難易度較為相關,且占總變異量的一半 以上,因此 Coh-metrix 將這五個指標合併為偵測文本難易度的易讀性評估(Text Easability Assessor , TEA)。

Graesser, A. C., McNamara, D. S., & Kulikowich, J. (2011)研究報告中提出主成 份分數與年級預測的相關性,從閱讀能力的層面來看,年級程度評估與描述性指 標的相關性達 -.69,年級程度評估與句子結構簡易度的相關性達 -.47,顯示文本 在低年級有較簡單的結構,且涵蓋較少的知識性內容如科學及社會研究等等,相 反的,高年級的文本則有較複雜的結構(Degrees of Reading Power, DRP;Koslin, Zeno, & Koslin, 1987)。

三、 Coh-metrix 第二外語的可讀性分數(Second Language Readability Score) Coh-metrix 第二外語是依據心理語言學與認知模式所建立的單維度公式,傳 統公式是表面直觀式的難易度,主要在預測以英文為第二外語者所使用文本的可 讀性(Crossley, Greenfield, & McNamara, 2008;Crossley, Allen, D., & McNamara, 2011)。其預測的指標包含實詞的重複性(凝聚力與語意的建構)、句子結構的相似 度(語法剖析)和詞頻(解碼)三個指標,可預測文本句子和詞語的等級,也包含句子 間的凝聚力。其公式如下:

L2第二外語可讀性公式= –45.032+ 52.230 x 實詞重複性 + 61.306 x 句子結構相似度 + 22.205 x 詞頻 (公式3)

L2 第二外語公式是根據 Greenfield(1999)發展的 Miyazaki EFL 可讀性指標而 來,這個指標所使用的文本是 Bormuth(1971)語料庫中 32 種學術閱讀文本子集。

Greenfield 收集兩百位日本大學生的文章段落的克漏字表現,發現與 Flesch 易讀 性、Flesch-Kincaid 年級程度(Kincaid, Fishburne, Rogers, & Chissom, 1975)和 Miyazaki EFL 可讀性公式指標的相關性達 0.85,和 Bormuth(1971)公式的相關達 0.86。然而 Coh-metrix L2 第二外語的可讀性公式與日本學生克漏字測驗表現的相 關性卻高達 0.93,因此 L2 第二外語公式預測第二外語閱讀者在克漏字測驗表現 達到顯著的改善,不但在詞語和句子難度的偵測上超越傳統其他的公式,而且能 偵測文本內容的凝聚力。

Crossley, Allen, & McNamara(2011)也在研究發現第二外語公式(L2)對於已簡 化 L2 新聞稿文本分級有最佳的預測力,偵測全部文本分級的精確度達 59%,初 級及高級的文本有更好的預測力其精確度達 70%,中級文本次之其精確度達 39%。相反的,傳統 Flesch 指標預測效果則較差,平均精確範圍在 44%到 48%之 間。由此可知,L2 第二外語公式在文本分級的預測力較傳統的可讀性公式好。

綜合上述,我們證實易讀性評估(Text Easability Assessor , TEA)與第二外語公 式(L2)對於文本的預測力都比傳統的公式好,主要原因是其偵測的內容不僅在於 文章表面的字長和句長,更包含文章內容的凝聚力,同時也發現這兩個公式均包 含句子結構相似度及相關凝聚力的實詞的重複性指標,本研究所發展的詞性最小 編級距離的計算原理與重複性指標有相似的概念原理,均是計算兩句的詞性的距 離,詞彙最小編輯距離則進一步計算出兩句詞彙的距離及凝聚力,且詞彙最小編 輯距離與參照語意凝聚力有相關性(r=-.4~-.7),由此推論,句子結構相似度及最小 編輯距離對於偵測文本的難易度具有相當好的效果,本研究建置句子結構相似度 及最小編輯距離指標,發展線上中文文本分析系統,以偵測文本特徵,希冀可以 做為文本難易度的有效參考指標。

叁、Coh-metrix 的指標分析

目前參考 Coh-metrix3.0 版已建置的中文繁體指標,包含描述性指標、參照凝 聚力、潛在語意分析(Latent semantic analysis)、詞彙多樣性、詞彙訊息、情境模 式及關聯詞等 7 個類別,54 個指標,前述的研究多以詞彙為主,而在中文部分則 尚未探討句子在文本特徵中的差異,本研究以文本的句子間的差異性進行研究,

參考 Coh-metrix3.0 版中句子的複雜度類別,選取適用於中文的詞彙、詞性的最小 編輯距離和句子結構相似度的指標,分析兒童文本以了解各年級句子之間的距離 及句子結構相似度的趨勢。表 2-1 是 Coh-metrix3.0 版的指標內容及中文發展現況。

表 2-1

Coh-metrix3.0 類別與指標

指標類別 Coh-metrix 中文

一、描述性(Descriptive) 11 11

二、文本易讀性分數Text Easability Principle Component Score) 16

三、參照凝聚力(Referential Cohesion) 12 6

四、潛在語意分析(LSA) 8 3

五、詞彙多樣性(Lexical Diversity) 4 3

六、關聯詞(Connectives) 9 10

七、情境模型(Situation Model) 8 1 八、句子複雜度(Syntactic Complexity)

7 6

九、句型密度(Syntatic Pattern Density) 8

十、詞彙訊息(Word Information) 22 20 十一、可讀性指標(Readability) 3

總計 11 個類別 108 個指標 108 60

資料來源:整理自 McNamara, Graesser, McCarthy & Cai, (2012)

以下分別介紹 Coh-metrix3.0 句子結構相似度及最小編輯距離指標的定義及 計算方式。

McNamara, 2008)。句子的計算公式如下:

syntax sim=6/﹝(8+10)-6﹞=6/12=0.5

圖 2-1 兩句的句子結構圖。資料來源:McNamara et al. (2012)

二、句子的最小編輯距離(Minimal Edit Distances,MED)

Coh-metrix 結合 Levenshtei 距離(1966)和字串比對理論(Dennis,2006)提出評 估文本相鄰句詞彙相似度的計算工具。句子的最小編輯距離(Minimal Edit Distances,MED)的功能與拼字檢查相似,指兩個字串之間由一個轉成另一個所 需的最少編輯操作次數。編輯操作包括三種:(1) 取代,將一個字取代成另一個 字元(substitution);(2) 插入一個字元(insert);(3) 刪除一個字元(delete)。每一 次插入、刪除、取代的操作值都是 1,兩個字串完全相同則編輯距離為 0。下表 為將 SITTING 一字轉成 SISTER 之範例,由表 2-2 可以得知共有三個取代和一個 刪除,所以最小編輯距離為 4。

表 2-2

字串編輯距離計算範例

原始字串 S I T T I N G

︱ ︱ ︱ ︱ ︱ ︱

目標字串 S I S T E R

編輯操作 取代 取代 取代 刪除

Coh-mterix 將 MED 運用在兩個句子的比對上,包含詞彙及詞性的比對,兩

Coh-mterix 將 MED 運用在兩個句子的比對上,包含詞彙及詞性的比對,兩

相關文件