• 沒有找到結果。

運用國際調查教育資料庫跨屆比較分析之技術建議/ 19

N/A
N/A
Protected

Academic year: 2021

Share "運用國際調查教育資料庫跨屆比較分析之技術建議/ 19"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

運用國際調查教育資料庫跨屆比較分析之技術建議

李哲迪 國立臺灣師範大學科學教育中心助理研究員

一、前言

為了能追蹤各國的教育狀況,目 前國際的大型教育調查都會按固定年 期間隔地持續進行。這些跨屆的資料 庫吸引研究者進行次級分析。在跨屆 分析時,變項的分數必須在同一量尺 上,而且研究誤差不致過大,才能有 意義地比較。本文旨在指出跨屆比較 的可能誤區,並建議解決方法。 前述跨屆國際調查,舉例而言, 有經濟合作暨發展組織(Organisation for Economic Cooperation and Development, OECD)所主持每隔三年 舉行一次的「國際學生能力評量計劃」 ( Program for International Student Assessment, PISA);由教育成就評鑑國 際協會(The International Association for the Evaluation of Education Achievement, IEA)所主持每隔四年舉 行一次的「國際數學與科學教育成就 趨 勢 調 查 」( Trends in International Mathematics and Science Study, TIMSS)、每隔五年舉行一次的「促進 國 際 閱 讀 素 養 研 究 」( Progress in International Reading Literacy Study, PIRLS)、和每隔七年舉行一次的「國 際 公 民 教 育 與 素 養 調 查 研 究 」 ( International Civic and Citizenship Education Study, ICCS)。在調查結束 後 , 調查 單位 會提 供 調查 結果 的 分 析,並公告調查資料庫,以供學者進 行次級分析。在調查資料庫中,除了 有教育成就分數之外,還有調查單位 利用問卷題項所建立之導出變項的分 數,例如:家庭教育資源、科學學習 的自信等等。 在運用資料庫跨屆比較時,會有 下列兩種類型的研究(表 1)。第一種 是「趨勢分析」。在此類研究中,學生 的教育級別是固定的;可能是單一級 別,也可能是多級別混和(例如:PISA 調查的是 15 歲學生,若固定所研究的 學生年齡,一般而言則會包含 9 年級 和 10 年級兩個級別)。此類研究固定 學生教育級別比較前後屆的教育成就 或背景變項。第二種是「世代追蹤」, 例如:同一世代,在這一屆 TIMSS 調 查時是八年級,在上一屆是四年級, 比較兩屆這兩個年級學生的教育成就 即屬世代追蹤。 表 1 調查資料跨屆比較類型分析 趨勢 分析 世代 追蹤 特 世代 不同 相同 教育級別 相同 不同 調查年份 不同 不同 可 否 比 整體 教育成就 可以 ? 分領域 教育成就 ? ? 背景變項 ? ? 在趨勢分析時,由於「整體教育 成就」的跨屆比較是在調查設計之初 就預定要達成的目標,因此肯定是可 行的。但是教育成就若還細分不同領 域(例如:科學下細分物理、化學、 生物、地球科學),那麼分領域的教育

(2)

成就有可能沒辦法跨屆「直接」比較。 關於世代追蹤,一般或許以為 TIMSS 既然調查了四年級和八年級學生的教 育成就,那麼四年級和八年級學生的 數學或科學成就分數的平均值應該可 以直接加減比較,但其實不然。分領 域教育成就直接比較的世代追蹤自然 更是無法做到。最後,在國際教育調 查資料庫中,各種導出的背景變項分 數是無法跨屆直接比較的;這也與一 般的認知不同。 造成上述跨屆變項分數無法直接 比較的主要原因有二。其一是因為跨 屆 的 變項 分數 其實 並 非在 同一 量 尺 上。其二則是因為跨屆比較的研究誤 差過大。本文接下來要針對這兩點原 因進一步加以闡述。此外,若這些變 項跨屆無法直接比較,那麼要在什麼 情況下,或在什麼方法處理後,才可 比 較 ?此 問題 也是 本 文要 嘗試 回 答 的。

二、非同一量尺之不可比較

變數分數要在同一量尺上才能比 較;這就好像溫度的讀數要在相同的 溫標上才能比較是同樣的道理;攝氏 20 度和華氏 10 度是沒辦法直接加減 的。 無論是成就測驗或背景變項,其 分數都是透過題項的作答反應來推估 的。在大型調查研究中,跨屆的題項 並不完全相同,其中有些題項是「共 同題」,透過這些共同題,我們把兩屆 學生放在一起透過試題反應理論(Item Response Theory, IRT)來推估變項的

分數,這個過程叫做「等化」。如果沒 有把兩屆學生放在一起推估,而是各 自推估,我們就會分別建立出兩個量 尺,而不是一個量尺。以 TIMSS 為例, 在 TIMSS 2007 資料分析時,TIMSS 已經調查了四屆。若每一屆的八年級 數學成就都是各自推估,而且每一屆 量尺分數的參照標準都是該屆「國際 全體」學生的平均值和標準差,並分 別將之設定為 500 分和 100 分,則每 一屆 500 分的實質意義並不相同,我 們也無從區別某一屆的 1 分跟另一屆 的 1 分的實質成就差異是否相同;如 此,跨屆的趨勢分析就不可能做到。 利用兩屆間 1/3 至 1/2 的共同題,在推 估 TIMSS 2007 八年級學生數學成就 的同時,四屆學生的作答反應被放在 一起分析,TIMSS 1995 至 2003 三屆 八年級學生的數學成就也重新做了推 估,最後所建立起來的八年級數學成 就量尺是將 TIMSS 1995 國際全體八 年 級 學 生 數 學 成 就 平 均 值 設 定 為 500,標準差設定為 100 所建立起來的 (Olson, Martin, & Mullis, 2008, pp. 235-236)。 總結來說,資料庫中不同屆的分 數要能在同一量尺上直接比較,必須 滿足三個條件。一、跨屆的成就測驗 或問卷要有共同題。二、共同題題數 要夠多。三、分數要經過等化。前述 分領域的教育成就分數無法直接比較 是因為共同題題數不夠多(共同題數 量若足夠,則可跨屆比較。共同題是 否足夠在國際調查的技術手冊中會有 說明)。共同題不夠多,意味著對行為 的抽樣太少,測量誤差過大(Olson et al., 2008, p. 236)。根據 PISA 的經驗,

(3)

若同 時 有其他兩 個 成 就分數 要 推估 時,利用多向度 IRT,題數可較少,但 最 少 也 要 26 題 ( OECD, 2014, p. 280)。TIMSS 四年級和八年級的教育 成就無法直接比較,做世代追蹤,那 是因為兩個年級的成就測驗沒有共同 題 。 至於 背景 變項 跨 屆無 法直 接 比 較,則是因為資料庫中的分數沒有經 過等化。 如果共同題數量足夠,只是資料 庫的分數沒有等化,那就需要按照技 術手冊運用 IRT 將分數等化,把量尺 重新建立起來。此解決方法適用於學 校、教師和學生的背景變項。在統計 技術上無法解決的是無共同題,或共 同題數量不足的情況。 TIMSS 四年級和八年級的成就測 驗試題僅在 TIMSS 1995 這一屆有共 同題。TIMSS 2007 重建 TIMSS 1995 至 TIMSS 2007 之資料的量尺時,四年 級 和 八年 級教 育成 就 的量 尺就 分 開 了。四年級的數學(或科學)成就量 尺是將 TIMSS 1995 國際全體「四年 級」學生數學(或科學)成就的平均 值設定為 500、標準差設定為 100 所建 立起來的。由於八年級的成就量尺是 以 TIMSS 1995 國際全體「八年級」學 生的數學(或科學)成就作為參照, 因此兩個級別的成就量尺是不同的。 由此則會衍生如下的問題。首先,四 年級成就量尺的 500 分所代表的成就 理應比八年級量尺的 500 分要低,但 低多少,無從得知。其次,四年級量 尺的 1 分跟八年級量尺的 1 分的實質 意義也不相同。因此,四年級跟八年 級學生的分數是無法直接加減來比較 的。 雖然四年級和八年級的分數無法 直接加減,但若某些預設條件成立, 還是可以定性地比較。例如:我們對 都市和鄉村兩組學生的成就差距有興 趣。假如根據 TIMSS 的數學成就分 數,某國家四年級的城鄉差距是 30 分,而八年級的城鄉差距是 40 分。我 們無法直接根據數字大小就判斷經過 四年該國學生數學成就的城鄉差距擴 大了。但因為八年級 1 分所代表的實 質成就大於四年級 1 分,在這個預設 下,我們可以定性地得出結論說數學 成就的城鄉差距擴大了。實際上,這 個預設是合理的。因為 TIMSS 四年級 和八年級數學的 100 分分別是 1995 年 國際全體四年級和全體八年級學生數 學成就的標準差,而教育成就的變異 隨受教年數是會擴大的,因此八年級 數學 100 分所代表的實質成就會比四 年級 100 分要高。 除了在預設條件下,可定性比較 之外,即使不在同一量尺,如相關係 數 這一類的 統計量 還 是可以跨屆 比 較。以連續變項為例,相關係數的意 義是變數 X1 改變一個標準差的時 候,變數 X2 改變多少個標準差。例 如:家庭教育資源和數學成就的相關 係數為 0.3 所代表的意義是家庭教育 資源增加 1 個標準差的時候,數學成 就增加 0.3 個標準差。在描述相關性 時,所涉及之變項的分數都轉換為以 標準差為參照標準,而不是量尺的單 位,於是就沒有因為量尺單位不同而 無法比較的問題。

(4)

三、研究誤差過大之不可比較

在跨屆比較時,除了要注意變項 分數是否在同一量尺之外,還要考慮 研究誤差是否過大。在大型調查研究 中,研究誤差包含測量誤差和抽樣誤 差。為方便次級分析的研究者估計教 育成就的測量誤差,目前大型調查資 料庫的標準的作法是提供五組教育成 就分數的「擬真值」(plausible values)。 背景變項的測量誤差則在信度合乎要 求後,忽略不計。至於抽樣誤差,由 於大型調查採多階分層叢集的複雜抽 樣,因此簡單隨機抽樣的標準誤計算 公式不再適用,一般是利用「重複抽 樣法」(resampling methods)來估計 (OECD, 2009)。 在測量物體長度時,量尺根據其 誤差大小而有適用的測量範圍。以平 常的直尺測量頭髮直徑,誤差過大, 測量結果無法用來比較差異,其理甚 明。研究誤差對跨屆比較的影響也是 一樣。在跨屆比較時,除了比較各國 學生教育成就的平均值之外,也可能 將各國學生分組,然後探討其學習成 就跨屆的變化趨勢。假設組內人數過 少,則有可能產生該組之統計量抽樣 誤差過大的問題。例如:根據 TIMSS 的學校問卷,學校所在地可按人口分 為六組:3 千人或更少的偏鄉、3 千以 上至 1 萬 5 千人的村落、1 萬 5 千人以 上至 5 萬人的鄉鎮、5 萬人以上至 10 萬人的中型城鎮、10 萬人以上至 50 萬 人的大型城鎮、50 萬人以上的都會。 在 TIMSS 2007 和 TIMSS 2011,我國 在 3 千人以下的偏鄉沒有抽到八年級 學生。在人口為 3 千以上至 1 萬 5 千 人的村落,我國在 TIMSS 2007 抽到 107 位八年級生,數學平均成就為 553 分,標準誤為 41.5 分;在 TIMSS 2011 抽到 143 位八年級生,數學平均成就 為 570 分,標準誤為 28.6 分。此類鄉 村區域學生在 TIMSS 2007 至 2011 之 間,數學成就進步了 17 分,標準誤為 50.0 分。表面上看來學生的數學成就 進步了,但其實這個進步非常可能只 是誤差造成的,由於平均差值的標準 誤高達 50 分,兩屆分數的差異必須達 到 98 分以上才有統計上顯著意義。而 98 分幾乎是我國八年級數學成就的標 準差,因此這是不可能發生的事。 造成上述情況的原因是統計分析 時分組的設計不佳所致。要解決此一 無法比較的問題,作法有二。其一是 把村落跟鄉鎮的學生合併為較大的組 別,如此則可縮小抽樣誤差。這是治 標的作法。其二是在抽樣時,針對村 落的學生,增加抽樣的人數。這是治 本的作法。

四、結論

跨屆資料要能直接比較,變數分 數必須在同一量尺上,而且研究誤差 不可過大。因為分數不在同一量尺上 以致無法跨屆直接比較的情況可能是 因為欠缺共同題,可能是因為共同題 數量不足,也可能是跨屆資料庫中的 分數沒有等化。針對此類狀況,研究 者可採取在預設條件下定性比較、選 擇適當的統計量(如:相關係數)進 行比較、或重建量尺等方法來解決。 因為研究誤差過大而無法跨屆直接比 較 的情況, 主要可 能 是因為分組 不

(5)

當,以致分組人數過少所致。治標的 作法是合併組別,治本的作法則是增 加所關心之組別的抽樣學生人數。 解決了技術性問題固然不足以保 證研究者可以得到有意義的結論,但 技術性問題若沒有解決,研究者很可 能得到的是沒有意義甚至是錯誤的結 論。在運用大型調查資料庫執行統計 分析時,過去往往因為統計軟體功能 不足,以致研究者的分析無法考慮周 全。近來,針對 IRT,在 R 語言下有 方便好用的 TAM 模組可供使用。研究 者只要對 IRT 有基本的瞭解,即可利 用該模組來重建量尺。針對各種大型 調查涉及複雜抽樣和擬真值的誤差估 計,STATA 這套商業統計軟體提供了 許多方便的模組可供使用;在 R 語言 下,也有 survey 和 svyPVpack 等模組 可供使用。SPSS 的誤差估計功能相較 之下則較為缺乏。為解除其限制,IEA 發展了 IDB analyzer,此程式可很方便 地產生 SPSS 的巨集檔,結合 SPSS 即 可完成 IEA 和 OECD 各項大型調查資 料的許多統計分析。隨時代演變,統 計工具既已更為方便好用,研究者則 更應負起解決技術性問題、提供正確 資訊的責任。 參考文獻

 OECD. (2009). PISA Data Analysis

Manual - SPSS (2 ed.). Maxico: OECD.

 OECD. (2014). PISA 2012 Results:

What Students Know and Can Do - Student Performance in Mathematics, Reading and Science (Volume I, Revised edition, February 2011). Maxico: PISA,

OECD Publishing.

 OECD. (2014). PISA 2012 Results:

What Students Know and Can Do - Student Performance in Mathematics, Reading and Science (Volume I, Revised edition, February 2011). Maxico: PISA,

參考文獻

相關文件

本研究為了將結構物內的牆以不同單位重來做比較,在計算每棟

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至

吸取更多課本以外之課外知識。基於此,本研究希望可以透過實際觀察、焦 點訪談的研究過程當中去發現學生學習之情況及態度,探討是否 

和 GSP 及 Graphmatica 類似,但過去有關電腦輔助教學的研究大多使用 GSP 設 計課程,在比較兩者的優劣之後,發現 GeoGebra 在使用上較 GSP

本研究計畫之目的是要以 MPEG-7 之 ART

渾沌動力學在過去半世紀已被學者廣為研究,但對分數階渾沌系 統及其應用之研究卻相當少。本篇論文主要研究分數階 Chen-Lee 電

第一、文中利用直方圖(Histogram)與高頻影像亮度資訊圖來作資料量的比 較,觀察直方圖可以了解差影像與原高解析層級高頻影像的值域分佈情形,舉例 來說,圖-4.3 為 Test Sample

本研究的資料蒐集方法是採問卷調查法來進行抽樣,並參考相關