第二章 研究一、文本屬性分析
第二節 文本屬性與適讀年級迴歸分析
在傳統公式期,研究者分析各種文本屬性與適讀性之間的關係,並企圖建 立適讀性模式來預測文本的閱讀難度或適讀年級。在這個期間,研究者最常用 來建構適讀性模式的方法是,(一)收集一組已經標定難度(或適讀年級)的文 本,(二)分析這些文本的各種可能與文本難讀有關的文本屬性,(三)以分析 出的文本屬性為預測變項,文本難度(或適讀年級)為效標變項,進行統計迴 歸分析。研究者根據統計分析的結果(亦即,迴歸公式),建構適讀性模式。
研究1.2 將依循前述的適讀性模式建構方式,以研究 1.1 所計算出之各種文 本屬性(77 種文本指標)為預測變項,文本所屬年即為效標變項,進行線性迴 歸分析。此分析之目的為(1)重複驗證先前過去適讀性研究對於文本屬性與文 本適讀年級的發現;(2)瞭解不同文本屬性在不同類型的文本中(國語與社 會),是否對預測文本適讀性有不同的重要性。
本研究特別將77 個文本指標分成三大類別:(1)表層屬性:包含詞長、子 句長、句長、字筆畫數、字頻、詞頻以及其各項統計指標;(2)Coh-Metrix 屬 性:在表層屬性之外,但不包括本研究所計算之罕見語式屬性以及句法樹深度 之屬性。(3)完整屬性:包含所有 77 個文本屬性。其中,屬於表層類別的文本 屬性多是傳統公式期研究所使用的屬性,而Coh-Metrix 所包含的屬性則是在認 知理論期,研究者提出並實際用以評估文本適讀性的文本屬性。最後,在完整 屬性部分,本研究加入了幾個與句法複雜性有關的指標。也就是說,藉著本研 究的分析,研究者可以了解,當一些認知心理學家認為會影響閱讀理解的文本 屬性納入適讀性模式中時,是否會影響該模式對文本適讀性的預測。
一、研究方法
如前所述,本研究將77 個文本指標分成三大類別:表層屬性、 Coh-Metrix 屬性以及完整屬性。分析時,每個類別的指標都會被分別放入迴歸模 式,並且以逐步迴歸法(stepwise regression)選擇對模式預測適讀年級有幫助 的文本屬性。在逐步迴歸中,模式中的所有指標都先納入迴歸模式,在一次迭 代中,模式試著移除每個指標,並計算該指標移除後對模式AIC 指標的影響
(T. Yamashita, K. Yamashita & Kamimura, 2007)。在該次迭代中,對 AIC 影響 最小的變項就被移除(backward stepwise),並進入下一次迭代。變項選擇的程 序將持續到移除指標不會再對模式AIC 有幫助時停止。
為了了解不同類型文本(亦即,國語課文和社會課文)的是否會受到不同 文本屬性的影響,本研究分別針對不同文本類型,獨立進行文本屬性選擇與適
讀性迴歸分析。故研究1.2 總共計算 9 種適讀性迴歸模式。這 9 種模式代表的 是在三種文本類型(全部課文、國語課文和社會課文)與三種迴歸模式(表層 模式、Coh-Metrix 模式以及完整模式)的交互分析。
為了控制文章長度與其他文本屬性的共變性,本研究進行迴歸分析時未加 入和文本長度相關的文章屬性變項(例如字數、詞數、子句數、詞數等),同時 亦將所有可能與文章長度相關的變項常規(normalize)化,例如名詞數、動詞 數等詞彙類別屬性,都以文章詞數作為分母把次數屬性轉變為比例變項。除了 共變性的考量外,還有兩個原因使得本研究在進行迴歸分析時,控制文章的長 度:
(一)本研究採用的目標語料為國小課文,並且以課文所屬年級作為課文 的適讀性年級。文章長度與年級的相關是這類語料的特性之一;當然,此特性 不必然會出現在國小國語課文以外的語料。其次,在過去適讀性的文獻中,在 分析各項與次數相關的文本屬性時,皆會將這些屬性對文章長度做常規化
(normalize)的轉換。例如在 Dale 與 Chall(1948)的公式中,「難詞數」這個 屬性是文本中的難詞次數除以文本的總詞數;在Flesch(1948)的閱讀簡易度 模式中,「音節數」亦是計算文本中的總音節數除以總詞數。故本研究亦遵循相 似的研究方法,排除與文本長度直接相關的屬性,並將各種次數變項對文章長 度作標準化。
(二)在本研究的先期研究中,當與文章長度相關的屬性(如,文本中的 字數、詞數、名詞數、名詞片語數、子句數等)納入分析時,年級與這些屬性 的相關皆高於.80。這 5 個與文本長度相關的屬性所構成的迴歸模式,已可顯著 地解釋文本適讀年級,F(5, 944) = 551.7,p < .001,R2 = 0.75。也就是說,文本 長度將大幅影響其它與適讀性相關的文本屬性(如字詞頻、一致性屬性、句法 複雜度等屬性)在適讀性模式中能貢獻的解釋量。
在上述的考量下,本研究在建構適讀性的迴歸模式時,將控制各種與文章
長度有關的的文本屬性。
二、結果與討論
完整迴歸模式結果及屬性係數請參見附表4.1、4.2 及 4.3。從分析結果中可 發現,不管是在全部課文、國語課本或是社會課本中,表層模式的迴歸分析都 達到顯著水準。在全部課文中,迴歸分析的結果達到顯著水準,F(15, 934) = 99.70,p < .001,R2 = 0.62,AIC = 2813.19。此模式選出 15 個變項,其中 7 個 變項的係數達到顯著,分別為子句長(第一四分位數)、句長(第一、第三四分 位數)、字頻(第1、25、50 百分位數)和詞頻(第 1 百分位數)。在國語課本 的表層模式中,逐步迴歸選擇出17 個變項,F(17, 421) = 43.21,p < .001,R2 = 0.64,AIC = 1278.00。在這 17 個變項中,共有 7 個變項的係數達到顯著;它們 分別為子句長(第1、3 四分位數)、句長(第 1、3 四分位數)、字頻(第 5、
50 百分位數)和詞頻(第 75 百分位數)。在社會課文的表層模式中,逐步迴歸 選擇出11 個變項,F(11, 499) = 95.71,p < .001,R2 = 0.68,AIC = 1447.04。在 這11 個變項中,共有 6 個變項的係數達到顯著,分別為子句長(第 1、3 四分 位數)、句長(第3 四分位數)、字頻(第 1、25、50 百分位數)和詞頻(第 25 百分位數)。這個結果顯示,影響國語文本與社會文本之適讀性的文本屬性相 同;而這些屬性也與過去的研究發現相似。
Coh-Metrix 模式在全部、國語、社會課文上都比表層模式的解釋力高。全 部課文的Coh-Metrix 模式選擇出 40 個變項,F(40, 909) = 96.52,p < .001,R2 = 0.75,AIC = 2440.42,其中 10 變項的係數達到顯著,分別為句長(第 1、第 3 四分位數)、字頻(第25、50 百分位數)、內容功能詞比例、名詞脈絡重複指 標、內容詞的局部與脈絡重複指標、詞彙語意數(第3 四分位數)和名詞片語 的修飾詞數。國語課文的Coh-Metrix 模式選擇出 38 個變項,F(38, 400) = 35.75,p < .001,R2 = 0.77,AIC = 1113.22,其中 13 個變項的係數達到顯著,
分別為子句長(第1 四分位數)、句長(第 1、2、3 四分位數)、詞頻(第 1、
5、75 百分位數)、內容功能詞比例、名詞脈絡重複指標、內容詞的局部與脈絡 重複指標、詞彙語意數(第2 四分位數)和名詞片語的修飾詞數。社會課文的 Coh-Metrix 模式選擇出 31 個變項,F(31, 479) = 63.67,p < .001,R2 = 0.81,
AIC = 1232.21,其中 10 個變項的係數達到顯著,分別為句長(第 3 四分位 數)、字頻(第25、50 百分位數)、詞頻(第 1、50 百分位數)、主要動詞前詞 數、內容詞的局部與脈絡重複指標、詞彙語意數(第3 四分位數)和名詞片語 的修飾詞數。
由於表層模式與Coh-Metrix 模式經過變數選擇後,兩者間並非巢套模型
(nested models),故不能直接以 F 檢定比較兩模式,但從兩模式的 AIC 和解釋 力(R2)仍可發現Coh-Metrix 模式比表層模式更可解釋文本屬性與適讀年級間 的關係。在Coh-Metrix 適讀性模式中,國語文本和社會文本的分析結果頗為類 似;除了一些句長、字頻、詞頻等表層文本屬性外,還納入了影響文本一致性 的屬性(如,內容詞的局部與脈絡重複指標)、句法複雜性屬性(如,名詞片語 的修飾詞數),以及詞彙複雜度(詞彙語意數)等傳統適讀性公式沒有納入的屬 性。兩類文本比較,國語文本的適讀性受到更多文本一致性的影響,所以內容 功能詞比例、名詞脈絡重複等指標亦達顯著。
完整模式和Coh-Metrix 模式所納變項頗為相似,只是前者比後者多納入句 法樹深度指標和罕見片語語式頻率等與句法複雜度相關的指標。全部課文的完 整模式選擇出41 個變項,F(41, 908) = 74.39,p < .001,R2 = 0.77,AIC = 2374.72,其中 13 個變項的係數達到顯著,分別為子句長(第 2 四分位數)、句 長(第1、3 四分位數)、字頻(第 1、5、50 百分位數)、名詞脈絡重複指標、
內容詞的局部與脈絡重複指標、詞彙語意數(第3 四分位數)、名詞片語的修飾 詞數、句法樹最大深度、罕見片語語式頻率(第3 四分位數)。國語課文的完整 模式選擇出39 個變項,F(39, 399) = 37.63,p < .001,R2 = 0.79,AIC =
1088.00,其中 13 個變項的係數達到顯著,分別為子句長(第 1 四分位數)、句
長(第1、3 四分位數)、詞頻(第 1、5、50 百分位數)、內容詞與功能詞比
的顯著變項。這項結果與過去傳統的適讀性研究一致(胡志偉等人,1994;荊 溪昱,1995;陳世敏 1972;Yang, 1970)。在過去研究中亦使用與字頻、詞頻相 關的常用字比例、高頻詞數來衡量文章難度,同時亦以句子長度、長子句數等 與句長、子句長相關的屬性作為預測公式中的變項。表2.2 中亦顯現,Coh-Metrix 屬性中之內容詞功能詞比、內容詞重複指標、詞彙語意數、句法複雜度 也都在三類文本中可顯著預測文本適讀性。此結果亦呼應過去在中文文本一致 性指標的研究。在過去研究中,文本的內容詞數和句法複雜度都是影響適讀性 的重要屬性之一(Sung et al., 2015)。本研究則更進一步以句子的句法樹具體操 作各項句法複雜度的屬性。從此迴歸分析中,發現與句法樹相關的屬性:名詞 修飾詞數、主要動詞前詞數、句法樹最大深度、罕見片語語式頻率都可顯著地 預測適讀年級。
研究1.2 分別針對不同的文本類型計算三種迴歸模式:表層模式、Coh-Metrix 模式以及完整模式。上述模式分析結果顯示,表層模式所涵蓋的變項可
研究1.2 分別針對不同的文本類型計算三種迴歸模式:表層模式、Coh-Metrix 模式以及完整模式。上述模式分析結果顯示,表層模式所涵蓋的變項可