資料分析與處理

第三章研究設計

第四節資料分析與處理

本節共分兩個部份，第一部分使用 TESTER For Windows 程式 2.0 版，對桃園縣 98 年度五年級數學學力評估試題，進行試題難度、鑑別度和試題選項誘答力分析以及使用 BILOGMG 3.0 軟體進行試題難度參數(b)、鑑別度參數(a)和猜測度參數(c)分析。第二部分是使用 t 考驗(t-test)統計方法，探討不同背景變項學生在學力評估測驗成績的表現上是否有差異，再利用 Effect Size Generator 2.3 軟體計算 Cohen’s d 的 Effect Size 數值，來呈現影響的程度。以及使用 M-H 和 SIBTEST 法分別對不同背景變項學生進行 DIF 檢測。

壹、試題之分析

一、古典測驗理論(CTT)分析

本研究使用 TESTER For Windows 程式 2.0 版對五年級學生數學學力評估測驗試題，進行試題難度、鑑別度分析，以及試題選項誘答力分析。各項指標

鑑定如下：

難度指數最大值為 1，最小值為0，難度指數愈接近1 代表答對人數愈多，

試題愈簡單，愈接近0 代表答對人數愈少，試題就愈困難。依據Ebel 與Frisbie

（1991）、王文中等（1999）、余民寧（1997）、陳英豪與吳裕益（1992）、

郭生玉（1985）等提出之試題評鑑原則，個別試題的難度指數應介於0.4 ~0.8 之間，整份試題的難度指數應在0.5 左右。

鑑別度指數的最大值為+1，最小值為-1，鑑別度指數愈大代表試題鑑別程度愈好，愈小代表試題鑑別程度愈差。依據Ebel 與Frisbie（1991）、王文中等

（1999）、余民寧（1997）、陳英豪與吳裕益（1992）、郭生玉（1985）等提出之試題評鑑原則，鑑別度指數在0.4 以上是屬於非常優良試題；介於0.3 ~0.39 屬於優良試題，但可能需要修改；在0.2 ~0.29 屬於尚可試題，但需做局部修改；0.2 以下屬於較差試題，建議刪除。

選項誘答力分析的分析方式是將受測者的評量總分，分成高分組（全體受試者當中分數最高的27%至33﹪）及低分組（全體受試者當中分數最低的27%至 33），再分別計算出每一個選項的選答率。依據 Ebel 與Frisbie（1991）、王文中等（1999）、余民寧（1997）、陳英豪與吳裕益（1992）、郭生玉（1985）

等提出之選項誘答力評鑑標準，試題的選項誘答力應至少有一位低分組受試者選擇任何一個錯誤選項，並且選擇錯誤選項的低分組受試者會比高分組多。

二、試題反應理論(IRT)分析

以BILOGMG 3.0軟體進行試題的參數分析，以三參數模式計算分析每一試題之難度參數(b)、鑑別度參數(a)和猜測度參數(c)。

三、古典測驗理論(CTT)和試題反應理論(IRT)之分析比較

兩種模式分析下，分別求其難度指標、鑑別度指標、受試者能力指標之相關情形。

貳、量化資料之處理

一、以 t 考驗(t-test)統計方法，探討以下問題：

(一)、了解不同性別學生在學力評估測驗成績的表現上是否有差異？

1、了解不同性別學生在「數與計算」方面試題的表現上是否有差異？

2、了解不同性別學生在「關係」方面試題的表現上是否有差異？

3、了解不同性別學生在「量與實測」方面試題的表現上是否有差異？

4、了解不同性別學生在「圖形與空間」方面試題的表現上是否有差異？

(二)、了解原住民和非原住民學生在學力評估測驗成績的表現上是否有差異？

1、了解原住民和非原住民學生在「數與計算」方面試題的表現上是否有差異？

2、了解原住民和非原住民學生在「關係」方面試題的表現上是否有差異？

3、了解原住民和非原住民學生在「量與實測」方面試題的表現上是否有差異？

4、了解原住民和非原住民學生在「圖形與空間」方面試題的表現上是否有差異？

(三)、了解父母中任一個人是否為外籍人士學生在學力評估測驗成績的表現上是否有差異？

1、了解父母中任一個人是否為外籍人士學生在「數與計算」方面試題的表現上是否有差異？

2、了解父母中任一個人是否為外籍人士學生在「關係」方面試題的表現上是否有差異？

3、了解父母中任一個人是否為外籍人士學生在「量與實測」方面試題的表現上是否有差異？

4、了解父母中任一個人是否為外籍人士學生在「圖形與空間」方面試題的表現上是否有差異？

以 t 考驗分析不同背景變項學生，比較不同性別學生、原住民學生和非原住民學生、父母中任一個人是否為外籍人士學生，由其 t 值與顯著性判斷資料與分析結果，了解在數學學力評估成績表現上是否有差異性的影響，其差異是否達顯著水準。

二、對於分析不同性別學生、原住民學生和非原住民學生、父母中任一個人是否為外籍人士學生，在學力評估測驗成績表現上的數據是否顯著的同時，

我們還要考慮影響的程度，所以利用Effect Size Generator 2.3軟體計算 Cohen’s d的Effect Size數值，來呈現影響的程度。在Effect Size統計技術中選擇以Cohen’s d方法來計算Effect Size的數值，Cohen(1988，1992)認為計算出來的d值就等於Effect Size，d值愈小Effect Size愈小，他認為大約0.2者屬於較弱的效果量(Effect Size)，0.5屬於中強度的效果量(Effect Size)，0.8 或以上就算是較強的效果量(Effect Size)。

三、DIF的檢測

以M-H法及SIBTEST法分別對不同背景變項學生進行DIF檢測，以了解不同變項學生的試題差異功能情形。Holland 及 Thayer（1988）以 Mantel 與 Haenszel（1959）研究的技術來研究 DIF，計算在每個配對標準之下以 2×2 列聯表計算兩群體的勝算比（ odds ratio ），並計算共同勝算比

（common odds ratio），提供卡方顯著性檢定以偵測單一試題是否有 DIF。

此種程序一般稱為M-H法。Shealy 和 Stout（1993）以答對率概念所發展出 SIBTEST 用以偵測 DIF 之方法，檢定兩群體在相同能力值之下答對率是否達顯著差異。

在文檔中國小五年級數學科學力評估之研究 (頁 41-45)

第三章 研究設計

第四節 資料分析與處理

壹、試題之分析

貳、量化資料之處理

第三章研究設計

第四節資料分析與處理