文本屬性與適讀年級迴歸分析

第二章研究一、文本屬性分析

第二節文本屬性與適讀年級迴歸分析

在傳統公式期，研究者分析各種文本屬性與適讀性之間的關係，並企圖建立適讀性模式來預測文本的閱讀難度或適讀年級。在這個期間，研究者最常用來建構適讀性模式的方法是，（一）收集一組已經標定難度（或適讀年級）的文本，（二）分析這些文本的各種可能與文本難讀有關的文本屬性，（三）以分析出的文本屬性為預測變項，文本難度（或適讀年級）為效標變項，進行統計迴歸分析。研究者根據統計分析的結果（亦即，迴歸公式），建構適讀性模式。

研究1.2 將依循前述的適讀性模式建構方式，以研究 1.1 所計算出之各種文本屬性（77 種文本指標）為預測變項，文本所屬年即為效標變項，進行線性迴歸分析。此分析之目的為（1）重複驗證先前過去適讀性研究對於文本屬性與文本適讀年級的發現；（2）瞭解不同文本屬性在不同類型的文本中（國語與社會），是否對預測文本適讀性有不同的重要性。

本研究特別將77 個文本指標分成三大類別：（1）表層屬性：包含詞長、子句長、句長、字筆畫數、字頻、詞頻以及其各項統計指標；（2）Coh-Metrix 屬性：在表層屬性之外，但不包括本研究所計算之罕見語式屬性以及句法樹深度之屬性。（3）完整屬性：包含所有 77 個文本屬性。其中，屬於表層類別的文本屬性多是傳統公式期研究所使用的屬性，而Coh-Metrix 所包含的屬性則是在認知理論期，研究者提出並實際用以評估文本適讀性的文本屬性。最後，在完整屬性部分，本研究加入了幾個與句法複雜性有關的指標。也就是說，藉著本研究的分析，研究者可以了解，當一些認知心理學家認為會影響閱讀理解的文本屬性納入適讀性模式中時，是否會影響該模式對文本適讀性的預測。

一、研究方法

如前所述，本研究將77 個文本指標分成三大類別：表層屬性、 Coh-Metrix 屬性以及完整屬性。分析時，每個類別的指標都會被分別放入迴歸模式，並且以逐步迴歸法（stepwise regression）選擇對模式預測適讀年級有幫助的文本屬性。在逐步迴歸中，模式中的所有指標都先納入迴歸模式，在一次迭代中，模式試著移除每個指標，並計算該指標移除後對模式AIC 指標的影響

（T. Yamashita, K. Yamashita & Kamimura, 2007）。在該次迭代中，對 AIC 影響最小的變項就被移除（backward stepwise），並進入下一次迭代。變項選擇的程序將持續到移除指標不會再對模式AIC 有幫助時停止。

為了了解不同類型文本（亦即，國語課文和社會課文）的是否會受到不同文本屬性的影響，本研究分別針對不同文本類型，獨立進行文本屬性選擇與適

讀性迴歸分析。故研究1.2 總共計算 9 種適讀性迴歸模式。這 9 種模式代表的是在三種文本類型（全部課文、國語課文和社會課文）與三種迴歸模式（表層模式、Coh-Metrix 模式以及完整模式）的交互分析。

為了控制文章長度與其他文本屬性的共變性，本研究進行迴歸分析時未加入和文本長度相關的文章屬性變項（例如字數、詞數、子句數、詞數等），同時亦將所有可能與文章長度相關的變項常規（normalize）化，例如名詞數、動詞數等詞彙類別屬性，都以文章詞數作為分母把次數屬性轉變為比例變項。除了共變性的考量外，還有兩個原因使得本研究在進行迴歸分析時，控制文章的長度：

（一）本研究採用的目標語料為國小課文，並且以課文所屬年級作為課文的適讀性年級。文章長度與年級的相關是這類語料的特性之一；當然，此特性不必然會出現在國小國語課文以外的語料。其次，在過去適讀性的文獻中，在分析各項與次數相關的文本屬性時，皆會將這些屬性對文章長度做常規化

（normalize）的轉換。例如在 Dale 與 Chall（1948）的公式中，「難詞數」這個屬性是文本中的難詞次數除以文本的總詞數；在Flesch（1948）的閱讀簡易度模式中，「音節數」亦是計算文本中的總音節數除以總詞數。故本研究亦遵循相似的研究方法，排除與文本長度直接相關的屬性，並將各種次數變項對文章長度作標準化。

（二）在本研究的先期研究中，當與文章長度相關的屬性（如，文本中的字數、詞數、名詞數、名詞片語數、子句數等）納入分析時，年級與這些屬性的相關皆高於.80。這 5 個與文本長度相關的屬性所構成的迴歸模式，已可顯著地解釋文本適讀年級，F(5, 944) = 551.7，p < .001，R² = 0.75。也就是說，文本長度將大幅影響其它與適讀性相關的文本屬性（如字詞頻、一致性屬性、句法複雜度等屬性）在適讀性模式中能貢獻的解釋量。

在上述的考量下，本研究在建構適讀性的迴歸模式時，將控制各種與文章

長度有關的的文本屬性。

二、結果與討論

完整迴歸模式結果及屬性係數請參見附表4.1、4.2 及 4.3。從分析結果中可發現，不管是在全部課文、國語課本或是社會課本中，表層模式的迴歸分析都達到顯著水準。在全部課文中，迴歸分析的結果達到顯著水準，F(15, 934) = 99.70，p < .001，R² = 0.62，AIC = 2813.19。此模式選出 15 個變項，其中 7 個 變項的係數達到顯著，分別為子句長（第一四分位數）、句長（第一、第三四分位數）、字頻（第1、25、50 百分位數）和詞頻（第 1 百分位數）。在國語課本的表層模式中，逐步迴歸選擇出17 個變項，F(17, 421) = 43.21，p < .001，R² = 0.64，AIC = 1278.00。在這 17 個變項中，共有 7 個變項的係數達到顯著；它們 分別為子句長（第1、3 四分位數）、句長（第 1、3 四分位數）、字頻（第 5、

50 百分位數）和詞頻（第 75 百分位數）。在社會課文的表層模式中，逐步迴歸選擇出11 個變項，F(11, 499) = 95.71，p < .001，R² = 0.68，AIC = 1447.04。在 這11 個變項中，共有 6 個變項的係數達到顯著，分別為子句長（第 1、3 四分位數）、句長（第3 四分位數）、字頻（第 1、25、50 百分位數）和詞頻（第 25 百分位數）。這個結果顯示，影響國語文本與社會文本之適讀性的文本屬性相同；而這些屬性也與過去的研究發現相似。

Coh-Metrix 模式在全部、國語、社會課文上都比表層模式的解釋力高。全部課文的Coh-Metrix 模式選擇出 40 個變項，F(40, 909) = 96.52，p < .001，R² = 0.75，AIC = 2440.42，其中 10 變項的係數達到顯著，分別為句長（第 1、第 3 四分位數）、字頻（第25、50 百分位數）、內容功能詞比例、名詞脈絡重複指標、內容詞的局部與脈絡重複指標、詞彙語意數（第3 四分位數）和名詞片語的修飾詞數。國語課文的Coh-Metrix 模式選擇出 38 個變項，F(38, 400) = 35.75，p < .001，R² = 0.77，AIC = 1113.22，其中 13 個變項的係數達到顯著，

分別為子句長（第1 四分位數）、句長（第 1、2、3 四分位數）、詞頻（第 1、

5、75 百分位數）、內容功能詞比例、名詞脈絡重複指標、內容詞的局部與脈絡重複指標、詞彙語意數（第2 四分位數）和名詞片語的修飾詞數。社會課文的 Coh-Metrix 模式選擇出 31 個變項，F(31, 479) = 63.67，p < .001，R² = 0.81，

AIC = 1232.21，其中 10 個變項的係數達到顯著，分別為句長（第 3 四分位 數）、字頻（第25、50 百分位數）、詞頻（第 1、50 百分位數）、主要動詞前詞數、內容詞的局部與脈絡重複指標、詞彙語意數（第3 四分位數）和名詞片語的修飾詞數。

由於表層模式與Coh-Metrix 模式經過變數選擇後，兩者間並非巢套模型

（nested models），故不能直接以 F 檢定比較兩模式，但從兩模式的 AIC 和解釋力（R²）仍可發現Coh-Metrix 模式比表層模式更可解釋文本屬性與適讀年級間的關係。在Coh-Metrix 適讀性模式中，國語文本和社會文本的分析結果頗為類似；除了一些句長、字頻、詞頻等表層文本屬性外，還納入了影響文本一致性的屬性（如，內容詞的局部與脈絡重複指標）、句法複雜性屬性（如，名詞片語的修飾詞數），以及詞彙複雜度（詞彙語意數）等傳統適讀性公式沒有納入的屬性。兩類文本比較，國語文本的適讀性受到更多文本一致性的影響，所以內容功能詞比例、名詞脈絡重複等指標亦達顯著。

完整模式和Coh-Metrix 模式所納變項頗為相似，只是前者比後者多納入句法樹深度指標和罕見片語語式頻率等與句法複雜度相關的指標。全部課文的完整模式選擇出41 個變項，F(41, 908) = 74.39，p < .001，R² = 0.77，AIC = 2374.72，其中 13 個變項的係數達到顯著，分別為子句長（第 2 四分位數）、句長（第1、3 四分位數）、字頻（第 1、5、50 百分位數）、名詞脈絡重複指標、

內容詞的局部與脈絡重複指標、詞彙語意數（第3 四分位數）、名詞片語的修飾詞數、句法樹最大深度、罕見片語語式頻率（第3 四分位數）。國語課文的完整模式選擇出39 個變項，F(39, 399) = 37.63，p < .001，R² = 0.79，AIC =

1088.00，其中 13 個變項的係數達到顯著，分別為子句長（第 1 四分位數）、句

長（第1、3 四分位數）、詞頻（第 1、5、50 百分位數）、內容詞與功能詞比

的顯著變項。這項結果與過去傳統的適讀性研究一致（胡志偉等人，1994；荊溪昱，1995；陳世敏 1972；Yang, 1970）。在過去研究中亦使用與字頻、詞頻相關的常用字比例、高頻詞數來衡量文章難度，同時亦以句子長度、長子句數等與句長、子句長相關的屬性作為預測公式中的變項。表2.2 中亦顯現，Coh-Metrix 屬性中之內容詞功能詞比、內容詞重複指標、詞彙語意數、句法複雜度也都在三類文本中可顯著預測文本適讀性。此結果亦呼應過去在中文文本一致性指標的研究。在過去研究中，文本的內容詞數和句法複雜度都是影響適讀性的重要屬性之一（Sung et al., 2015）。本研究則更進一步以句子的句法樹具體操作各項句法複雜度的屬性。從此迴歸分析中，發現與句法樹相關的屬性：名詞修飾詞數、主要動詞前詞數、句法樹最大深度、罕見片語語式頻率都可顯著地預測適讀年級。

研究1.2 分別針對不同的文本類型計算三種迴歸模式：表層模式、Coh-Metrix 模式以及完整模式。上述模式分析結果顯示，表層模式所涵蓋的變項可

在文檔中診斷式的適讀性評估系統：以小學文本探討四種模式的比較研究 (頁 84-93)

第二章 研究一、文本屬性分析

第二節 文本屬性與適讀年級迴歸分析

第二章研究一、文本屬性分析

第二節文本屬性與適讀年級迴歸分析