運用國際調查教育資料庫跨屆比較分析之技術建議／ 19

(1)

運用國際調查教育資料庫跨屆比較分析之技術建議

李哲迪國立臺灣師範大學科學教育中心助理研究員

一、前言

為了能追蹤各國的教育狀況，目前國際的大型教育調查都會按固定年期間隔地持續進行。這些跨屆的資料庫吸引研究者進行次級分析。在跨屆分析時，變項的分數必須在同一量尺上，而且研究誤差不致過大，才能有意義地比較。本文旨在指出跨屆比較的可能誤區，並建議解決方法。前述跨屆國際調查，舉例而言，有經濟合作暨發展組織（Organisation for Economic Cooperation and Development, OECD）所主持每隔三年舉行一次的「國際學生能力評量計劃」（ Program for International Student Assessment, PISA）；由教育成就評鑑國際協會（The International Association for the Evaluation of Education Achievement, IEA）所主持每隔四年舉行一次的「國際數學與科學教育成就趨勢調查」（ Trends in International Mathematics and Science Study, TIMSS）、每隔五年舉行一次的「促進國際閱讀素養研究」（ Progress in International Reading Literacy Study, PIRLS）、和每隔七年舉行一次的「國際公民教育與素養調查研究」（ International Civic and Citizenship Education Study, ICCS）。在調查結束後，調查單位會提供調查結果的分析，並公告調查資料庫，以供學者進行次級分析。在調查資料庫中，除了有教育成就分數之外，還有調查單位利用問卷題項所建立之導出變項的分數，例如：家庭教育資源、科學學習的自信等等。在運用資料庫跨屆比較時，會有下列兩種類型的研究（表 1）。第一種是「趨勢分析」。在此類研究中，學生的教育級別是固定的；可能是單一級別，也可能是多級別混和（例如：PISA 調查的是 15 歲學生，若固定所研究的學生年齡，一般而言則會包含 9 年級和 10 年級兩個級別）。此類研究固定學生教育級別比較前後屆的教育成就或背景變項。第二種是「世代追蹤」，例如：同一世代，在這一屆 TIMSS 調查時是八年級，在上一屆是四年級，比較兩屆這兩個年級學生的教育成就即屬世代追蹤。表 1 調查資料跨屆比較類型分析 趨勢分析世代追蹤特徵世代不同相同 教育級別 相同不同 調查年份 不同不同可否比較整體教育成就可以？ 分領域 教育成就 ？？ 背景變項 ？？在趨勢分析時，由於「整體教育成就」的跨屆比較是在調查設計之初就預定要達成的目標，因此肯定是可行的。但是教育成就若還細分不同領域（例如：科學下細分物理、化學、生物、地球科學），那麼分領域的教育

(2)

成就有可能沒辦法跨屆「直接」比較。關於世代追蹤，一般或許以為 TIMSS 既然調查了四年級和八年級學生的教育成就，那麼四年級和八年級學生的數學或科學成就分數的平均值應該可以直接加減比較，但其實不然。分領域教育成就直接比較的世代追蹤自然更是無法做到。最後，在國際教育調查資料庫中，各種導出的背景變項分數是無法跨屆直接比較的；這也與一般的認知不同。造成上述跨屆變項分數無法直接比較的主要原因有二。其一是因為跨屆的變項分數其實並非在同一量尺上。其二則是因為跨屆比較的研究誤差過大。本文接下來要針對這兩點原因進一步加以闡述。此外，若這些變項跨屆無法直接比較，那麼要在什麼情況下，或在什麼方法處理後，才可比較？此問題也是本文要嘗試回答的。

二、非同一量尺之不可比較

變數分數要在同一量尺上才能比較；這就好像溫度的讀數要在相同的溫標上才能比較是同樣的道理；攝氏 20 度和華氏 10 度是沒辦法直接加減的。無論是成就測驗或背景變項，其分數都是透過題項的作答反應來推估的。在大型調查研究中，跨屆的題項並不完全相同，其中有些題項是「共同題」，透過這些共同題，我們把兩屆學生放在一起透過試題反應理論（Item Response Theory, IRT）來推估變項的

分數，這個過程叫做「等化」。如果沒有把兩屆學生放在一起推估，而是各自推估，我們就會分別建立出兩個量尺，而不是一個量尺。以 TIMSS 為例，在 TIMSS 2007 資料分析時，TIMSS 已經調查了四屆。若每一屆的八年級數學成就都是各自推估，而且每一屆量尺分數的參照標準都是該屆「國際全體」學生的平均值和標準差，並分別將之設定為 500 分和 100 分，則每一屆 500 分的實質意義並不相同，我們也無從區別某一屆的 1 分跟另一屆的 1 分的實質成就差異是否相同；如此，跨屆的趨勢分析就不可能做到。利用兩屆間 1/3 至 1/2 的共同題，在推估 TIMSS 2007 八年級學生數學成就的同時，四屆學生的作答反應被放在一起分析，TIMSS 1995 至 2003 三屆八年級學生的數學成就也重新做了推估，最後所建立起來的八年級數學成就量尺是將 TIMSS 1995 國際全體八年級學生數學成就平均值設定為 500，標準差設定為 100 所建立起來的（Olson, Martin, & Mullis, 2008, pp. 235-236）。總結來說，資料庫中不同屆的分數要能在同一量尺上直接比較，必須滿足三個條件。一、跨屆的成就測驗或問卷要有共同題。二、共同題題數要夠多。三、分數要經過等化。前述分領域的教育成就分數無法直接比較是因為共同題題數不夠多（共同題數量若足夠，則可跨屆比較。共同題是否足夠在國際調查的技術手冊中會有說明）。共同題不夠多，意味著對行為的抽樣太少，測量誤差過大（Olson et al., 2008, p. 236）。根據 PISA 的經驗，

(3)

若同時有其他兩個成就分數要推估時，利用多向度 IRT，題數可較少，但最少也要 26 題（ OECD, 2014, p. 280）。TIMSS 四年級和八年級的教育成就無法直接比較，做世代追蹤，那是因為兩個年級的成就測驗沒有共同題。至於背景變項跨屆無法直接比較，則是因為資料庫中的分數沒有經過等化。如果共同題數量足夠，只是資料庫的分數沒有等化，那就需要按照技術手冊運用 IRT 將分數等化，把量尺重新建立起來。此解決方法適用於學校、教師和學生的背景變項。在統計技術上無法解決的是無共同題，或共同題數量不足的情況。 TIMSS 四年級和八年級的成就測驗試題僅在 TIMSS 1995 這一屆有共同題。TIMSS 2007 重建 TIMSS 1995 至 TIMSS 2007 之資料的量尺時，四年級和八年級教育成就的量尺就分開了。四年級的數學（或科學）成就量尺是將 TIMSS 1995 國際全體「四年級」學生數學（或科學）成就的平均值設定為 500、標準差設定為 100 所建立起來的。由於八年級的成就量尺是以 TIMSS 1995 國際全體「八年級」學生的數學（或科學）成就作為參照，因此兩個級別的成就量尺是不同的。由此則會衍生如下的問題。首先，四年級成就量尺的 500 分所代表的成就理應比八年級量尺的 500 分要低，但低多少，無從得知。其次，四年級量尺的 1 分跟八年級量尺的 1 分的實質意義也不相同。因此，四年級跟八年級學生的分數是無法直接加減來比較的。雖然四年級和八年級的分數無法直接加減，但若某些預設條件成立，還是可以定性地比較。例如：我們對都市和鄉村兩組學生的成就差距有興趣。假如根據 TIMSS 的數學成就分數，某國家四年級的城鄉差距是 30 分，而八年級的城鄉差距是 40 分。我們無法直接根據數字大小就判斷經過四年該國學生數學成就的城鄉差距擴大了。但因為八年級 1 分所代表的實質成就大於四年級 1 分，在這個預設下，我們可以定性地得出結論說數學成就的城鄉差距擴大了。實際上，這個預設是合理的。因為 TIMSS 四年級和八年級數學的 100 分分別是 1995 年國際全體四年級和全體八年級學生數學成就的標準差，而教育成就的變異隨受教年數是會擴大的，因此八年級數學 100 分所代表的實質成就會比四年級 100 分要高。除了在預設條件下，可定性比較之外，即使不在同一量尺，如相關係數這一類的統計量還是可以跨屆比較。以連續變項為例，相關係數的意義是變數 X1 改變一個標準差的時候，變數 X2 改變多少個標準差。例如：家庭教育資源和數學成就的相關係數為 0.3 所代表的意義是家庭教育資源增加 1 個標準差的時候，數學成就增加 0.3 個標準差。在描述相關性時，所涉及之變項的分數都轉換為以標準差為參照標準，而不是量尺的單位，於是就沒有因為量尺單位不同而無法比較的問題。

(4)

三、研究誤差過大之不可比較

在跨屆比較時，除了要注意變項分數是否在同一量尺之外，還要考慮研究誤差是否過大。在大型調查研究中，研究誤差包含測量誤差和抽樣誤差。為方便次級分析的研究者估計教育成就的測量誤差，目前大型調查資料庫的標準的作法是提供五組教育成就分數的「擬真值」（plausible values）。背景變項的測量誤差則在信度合乎要求後，忽略不計。至於抽樣誤差，由於大型調查採多階分層叢集的複雜抽樣，因此簡單隨機抽樣的標準誤計算公式不再適用，一般是利用「重複抽樣法」（resampling methods）來估計（OECD, 2009）。在測量物體長度時，量尺根據其誤差大小而有適用的測量範圍。以平常的直尺測量頭髮直徑，誤差過大，測量結果無法用來比較差異，其理甚明。研究誤差對跨屆比較的影響也是一樣。在跨屆比較時，除了比較各國學生教育成就的平均值之外，也可能將各國學生分組，然後探討其學習成就跨屆的變化趨勢。假設組內人數過少，則有可能產生該組之統計量抽樣誤差過大的問題。例如：根據 TIMSS 的學校問卷，學校所在地可按人口分為六組：3 千人或更少的偏鄉、3 千以上至 1 萬 5 千人的村落、1 萬 5 千人以上至 5 萬人的鄉鎮、5 萬人以上至 10 萬人的中型城鎮、10 萬人以上至 50 萬人的大型城鎮、50 萬人以上的都會。在 TIMSS 2007 和 TIMSS 2011，我國在 3 千人以下的偏鄉沒有抽到八年級學生。在人口為 3 千以上至 1 萬 5 千人的村落，我國在 TIMSS 2007 抽到 107 位八年級生，數學平均成就為 553 分，標準誤為 41.5 分；在 TIMSS 2011 抽到 143 位八年級生，數學平均成就為 570 分，標準誤為 28.6 分。此類鄉村區域學生在 TIMSS 2007 至 2011 之間，數學成就進步了 17 分，標準誤為 50.0 分。表面上看來學生的數學成就進步了，但其實這個進步非常可能只是誤差造成的，由於平均差值的標準誤高達 50 分，兩屆分數的差異必須達到 98 分以上才有統計上顯著意義。而 98 分幾乎是我國八年級數學成就的標準差，因此這是不可能發生的事。造成上述情況的原因是統計分析時分組的設計不佳所致。要解決此一無法比較的問題，作法有二。其一是把村落跟鄉鎮的學生合併為較大的組別，如此則可縮小抽樣誤差。這是治標的作法。其二是在抽樣時，針對村落的學生，增加抽樣的人數。這是治本的作法。

四、結論

跨屆資料要能直接比較，變數分數必須在同一量尺上，而且研究誤差不可過大。因為分數不在同一量尺上以致無法跨屆直接比較的情況可能是因為欠缺共同題，可能是因為共同題數量不足，也可能是跨屆資料庫中的分數沒有等化。針對此類狀況，研究者可採取在預設條件下定性比較、選擇適當的統計量（如：相關係數）進行比較、或重建量尺等方法來解決。因為研究誤差過大而無法跨屆直接比較的情況，主要可能是因為分組不

(5)

當，以致分組人數過少所致。治標的作法是合併組別，治本的作法則是增加所關心之組別的抽樣學生人數。解決了技術性問題固然不足以保證研究者可以得到有意義的結論，但技術性問題若沒有解決，研究者很可能得到的是沒有意義甚至是錯誤的結論。在運用大型調查資料庫執行統計分析時，過去往往因為統計軟體功能不足，以致研究者的分析無法考慮周全。近來，針對 IRT，在 R 語言下有方便好用的 TAM 模組可供使用。研究者只要對 IRT 有基本的瞭解，即可利用該模組來重建量尺。針對各種大型調查涉及複雜抽樣和擬真值的誤差估計，STATA 這套商業統計軟體提供了許多方便的模組可供使用；在 R 語言下，也有 survey 和 svyPVpack 等模組可供使用。SPSS 的誤差估計功能相較之下則較為缺乏。為解除其限制，IEA 發展了 IDB analyzer，此程式可很方便地產生 SPSS 的巨集檔，結合 SPSS 即可完成 IEA 和 OECD 各項大型調查資料的許多統計分析。隨時代演變，統計工具既已更為方便好用，研究者則更應負起解決技術性問題、提供正確資訊的責任。 參考文獻

 OECD. (2009). PISA Data Analysis

Manual - SPSS (2 ed.). Maxico: OECD.

 OECD. (2014). PISA 2012 Results:

What Students Know and Can Do - Student Performance in Mathematics, Reading and Science (Volume I, Revised edition, February 2011). Maxico: PISA,

OECD Publishing.

 OECD. (2014). PISA 2012 Results:

What Students Know and Can Do - Student Performance in Mathematics, Reading and Science (Volume I, Revised edition, February 2011). Maxico: PISA,