傳統試題分析

第四章結果與分析

第一節傳統試題分析

本研究之「一年級數學學習困難篩選測驗」試題經過修正之後，在九十五學年度第二學期（96 年 2 月）進行正式施測，茲將正式施測後，試題的各項資料整理如下：

壹、試題難度及鑑別度指標分析

全測驗的試題難度指標介於 0.65~0.95 之間，平均難度指標為 0.85，顯示這是一個比較容易的測驗，適合來篩選數學學習困難的學生。鑑別度指標介於 0.10~0.61 之間，平均鑑別度指標為 0.27，其中鑑別度指標最高的是 13 題為 0.61，最低的是第 1 題為 0.10，如表 4-1-1、4-1-2、4-1-3、4-1-4、4-1-5。

表 4-1-1 數數能力測驗正式試題難度鑑別度一覽表

題號 1 2 3 4 5 6 7 8

高分組難度 ¹ ¹ ¹ ^0.99 ¹ ¹ ¹ ¹ 低分組難度 0.90 0.80 0.86 0.68 0.88 0.84 0.84 0.88 難度 ^0.95 ^0.90 ^0.93 ^0.83 ^0.94 ^0.92 ^0.92 ^0.94 鑑別度 0.10 0.20 0.14 0.31 0.12 0.16 0.16 0.12

表 4-1-2 數大小工作記憶能力測驗正式試題難度鑑別度一覽表題號 9 10 11 12 13 14 15 高分組難度 ^0.98 ¹ ¹ ¹ ^0.95 ^0.99 ^0.97 低分組難度 0.63 0.52 0.43 0.59 0.34 0.50 0.42 難度 ^0.81 ^0.76 ^0.72 ^0.8 ^0.65 ^0.74 ^0.69 鑑別度 0.34 0.48 0.57 0.41 0.61 0.49 0.55

表 4-1-3 理解能力測驗正式試題難度鑑別度一覽表題號 16 17 18 19 20 21 高分組難度 0.99 1 1 1 0.92 0.99 低分組難度 0.76 0.87 0.82 0.88 0.68 0.89 難度 0.88 0.94 0.91 0.94 0.80 0.94 鑑別度 0.23 0.13 0.18 0.12 0.24 0.10

表 4-1-4 計算能力測驗正式試題難度鑑別度一覽表題號 22 23 24 25 26 27 28 高分組難度 0.99 1 0.97 1 1 1 1 低分組難度 ^0.76 ^0.60 ^0.66 ^0.79 ^0.80 ^0.71 ^0.74

表 4-1-5 視覺區辨能力測驗正式試題難度鑑別度一覽表題號 29 30 31 32 33 34 35 高分組難度 ^0.99 ¹ ^0.97 ^0.94 ^0.93 ^0.99 ^0.92 低分組難度 0.82 0.83 0.70 0.63 0.55 0.82 0.57 難度 ^0.90 ^0.91 ^0.83 ^0.79 ^0.74 ^0.90 ^0.74 鑑別度 0.17 0.17 0.27 0.31 0.38 0.17 0.35

貳、信度分析

在信度考驗方面，以 Cronbach α 內部一致性信度加以檢驗，如表 4-1-6 所示。

表 4-1-6 各分測驗及全測驗之 Cronbach α 信度

分測驗名稱題數信度係數

數數能力 8 0.81

數大小工作記憶能力 7 0.8

理解能力 6 0.54

計算能力 7 0.73

視覺區辨能力 7 0.63

全測驗 35 0.84

參、效度分析

本測驗之效度將以內容效度、專家效度、建構效度來檢測。

一、內容效度

根據表 4-1-7，可以確實檢查試題與欲測驗的數學基本素養內容相符合：

表 4-1-7 試題分配表

數學基本素養題數試題分佈

數數能力 8 1、2、3、4、5、6、7、8 數大小工作記憶能力 7 9、10、11、12、13、14、15 理解能力 6 16、17、18、19、20、21 計算能力 7 22、23、24、25、26、27、28 視覺區辨能力 7 29、30、31、32、33、34、35

本測驗是根據先前所提出的國小一年級數學基本素養來編製，故具有適當的內容效度。

二、專家效度

本測驗編製完稿後，經由一位專家、一位特教老師及二位國小現職教師共同檢視試題內容，綜合意見後再加以編修而成。

專家一：認知心理學、測驗研究專家

三、建構效度

（一）多特質－多方法分析法（multitrait-multimethod approach）

此法是研究測驗建構效度的一種理想方法，一份測驗要具有良好的建構效度，必須要滿足聚斂效度（convergent validity）和區別效度（discriminant validity）（余民寧，2002）。

本測驗所測量的一年級數學學習困難篩選測驗包含了數數能力、數大小工

（二）因素分析法

因素分析是目前研究建構效度最常使用的實證方法之一。它的主要目的，

是用來確定心理學上或社會學上的潛在特質，藉著共同因素的發現，進一步確定這些潛在特質是由哪些有效的測量試題所構成（余民寧，2002）。本研究的試題分配，以國小一年級學生的數學基本素養為主，試題分佈以數數能力、數大小工作記憶能力、理解能力、計算能力及視覺區辨能力為主軸，共 35 個試題，預期以因素分析呈現學生在不同能力的分析。

將回收的 367 個有效樣本，使用 SPSS 套裝軟體來執行，以主成分分析並配合最大變異法，取特徵值大於一的因素，結果在 KMO（Kaiser-Meyer-Olkin）與 Bartlett 檢定方面，KMO=0.820>0.5 且 Bartlett 球形檢定之 p 值=0.000 達顯著考驗，表示該試題適合進行因素分析（如表 4-1-9）。

表4-1-9 KMO 與 Bartlett檢定

Kaiser-Meyer-Olkin 取樣適切性量數。 .820 近似卡方分配 3652.182

自由度 595

Bartlett 球形檢定

顯著性 .000

共萃取五個因素，解說總變異量為42.939（如表4-1-10）。

表4-1-10 解說總變異量

平方和負荷量萃取轉軸平方和負荷量

成份總和變異數的% 累積% 總和變異數的% 累積%

轉軸後的成份矩陣如表 4-1-11 所示，試題依呈現在各成份取決對值的最大值，即歸屬於該成份，例如：試題 n8 呈現在因素一之數值為 0.709，因素三之數值為 0.242，因素四之數值為 0.159，因素五之數值為 0.157，因此絕對值的最大值為 0.709，試題 n8 歸屬於因素一。各試題歸屬的因素如下：

因素一：由試題 n1 到 n8 所構成的。

因素二：由試題 n9 到 n15 所構成的。

因素三：由試題 n22 到 n28 所構成的。

因素四：由試題 n29 到 n35 所構成的。

因素五：由試題 n16 到 n21 所構成的。

由以上的分析，所有試題皆按其類型聚集成一成份，即因素一為數數能力，因素二為數的工作記憶能力，因素三為計算能力，因素四為視覺區辨能力，

因素五為理解能力，剛好符合之前表 4-1-7 試題分配表的分類。

表 4-1-11 因素分析矩陣

第二節試題反應理論（IRT）模式分析

在本研究中只討論二分法計分之測驗試題（作答正確給 1 分，作答錯誤給 0 分），一般最常用於二分法計分資料的試題作答模式則有一參、雙參、三參數對數模式（one-、two-、three-parameter logistic model）。因本研究樣本數小於 500，不適合使用三參數模式來分析，以下就 logistic 一參和雙參模式來作適合度檢定，分析其試題難度與鑑別度，並討論其試題特徵曲線。

壹、logistic 參數模式適合度檢定

本研究分別針對 IRT 模式中的 logistic 單參數模式和 logistic 雙參數模式，以 BILOG-MG 程式進行分析。試題中的參數模式估計值如下表 4-2-1。當各試題在單參數和雙參數模式下的χ²值小於.05 者，則表示該試題不符合此模式。

一、logistic 單參數模式適合度檢定

下表 4-2-1 是個別試題之模式適合度檢定結果，該表顯示單參數模式的第 10、11、13、14、15、20、32、33、35 等 9 題χ²檢定的 p-value 小於 0.05 的顯著水準，單參數模式對上述 9 題的測驗資料來說並不符合。

二、logistic 雙參數模式適合度檢定

下表 4-2-1 顯示雙參數模式的第 9、10、11 題之χ²檢定的 p-value 小於 0.05 的顯著水準，雙參數模式對上述 3 題的測驗資料來說並不符合。

在 35 題正式試題的分析中，不符合 logistic 單參數模式的有 9 題，不符

表 4-2-1 logistic 二種參數模式適合度檢定

貳、logistic 雙參數之難度、鑑別度估計值的分析

表 4-2-2 是各試題的 logistic 雙參數模式估計值，得到的平均難度參數為 -2.37，平均鑑別度參數為 1.27。

表 4-2-2 logistic 雙參數模式估計值

題號難度鑑別度題號難度鑑別度題號難度鑑別度 1 -3.04 1.35 13 -0.82 1.40 25 -2.06 1.82 2 -1.92 2.52 14 -1.21 2.21 26 -2.08 1.95 3 -2.66 1.19 15 -1.01 2.05 27 -1.61 2.51 4 -1.61 1.94 16 -2.45 1.02 28 -1.88 1.68 5 -2.56 1.63 17 -2.41 1.88 29 -2.89 0.99 6 -2.18 1.88 18 -2.04 2.16 30 -2.55 1.21 7 -2.20 1.84 19 -3.22 1.08 31 -2.55 0.93 8 -2.12 2.85 20 -2.17 0.63 32 -2.45 0.48 9 -1.84 1.29 21 -4.13 0.70 33 -1.58 0.66 10 -1.32 1.88 22 -2.75 0.99 34 -3.08 0.93 11 -1.09 1.49 23 -1.74 1.23 35 -1.89 0.57 12 -1.47 1.78 24 -2.00 1.07

在難度分析方面，平均難度參數為-2.37，但因本測驗旨在篩選數學學習困難的學生，所以試題會較簡單。

表 4-2-3 正式試題鑑別度統計表鑑別度範圍題數評鑑程度

0 0 無

0.01~0.34 0 非常低 0.35~0.64 3 低 0.65~1.34 13 適中 1.35~1.69 5 高

>1.70 14 非常高正無限大 0 完美

參、試題特徵曲線（item characteristic curve, ICC）

為了進一步探討試題的特性，本研究根據上面 logistic 雙參數模式估計值用 EXCEL 軟體繪製各題之試題特徵曲線（見附錄四）。所有的試題之「試題特徵曲

線」皆呈現遞增 S 型曲線（即先成凹向上後，成凹向下，且有一個反區點之曲線），其

主要特性為對中間區段的能力值範圍受試者，其鑑別度特別高；此份測驗的各試題對低能力值的鑑別度較高。例如：第 2 題、第 17 題、第 34 題。（如圖 4-2-1、4-2-2、4-2-3）

0.6 0.8 1

p(theta)

0 0.2 0.4 0.6 0.8 1

-4 -3 -2 -1 0 1 2 3 4

theta

p(theta)

圖 4-2-2 試題 17 之試題特徵曲線

0 0.2 0.4 0.6 0.8 1

-4 -3 -2 -1 0 1 2 3 4

theta

p(theta)

圖 4-2-3 試題 34 之試題特徵曲線

肆、測驗特徵曲線（test characteristic curve, TCC）

在 two-parameter model 中 P 值=1/（1+EXP（-a（theta-b））），利用表 4-2-2 logistic 雙參數模式估計值帶入公式中。

先算出一個能力值 theta=-1 下的每一題試題正確作答機率（ the probabilities of correct response）。加總每一題的試題正確作答機率就得到 theat=-1 的真實分數（True Score）為 27.35（圖 4-2-4）。

將各個能力值（-4≤theta≤4）為橫座標，每個能力值所得到的真實分數為縱座標，用 EXCEL 軟體繪製本測驗特徵曲線如下圖（圖 4-2-4）。從圖中可以看出 theta 值＜0 的部分，TCC 線的曲線較陡，表示對於低能力值的受試者，本測驗較有較高的鑑別度，意即更適合用來篩選數學困難的學生。

0 5 10 15 20 25 30 35

True Score

第三節試題檢討

示，鑑別度最低的試題是第 21 題，鑑別度是 0.70，根據 Baker 的評鑑標準（見表 2-5-2），仍屬適中的試題。而第 8 題在傳統試題分析鑑別度只有 0.12，但在 IRT 雙參數模式分析結果顯示，該題的鑑別度 2.85，是所有試題中鑑別度最高的試題。所以，各試題仍有其保留的必要。

第四節篩選過程

251 -1.37907 24 208 -1.77014 20

1 -1.38227 23 293 -1.79762 20

150 -1.38537 23 126 -1.80379 19

183 -1.41817 25 311 -1.81775 20

45 -1.43318 25 339 -1.94893 21

176 -1.44896 23 355 -2.09419 16

31 -1.45577 22 279 -2.1956 15

143 -1.52365 23 214 -2.25675 16

354 -1.62513 23 317 -2.27554 15

210 -1.63191 24 58 -2.28177 12

62 -1.65405 20 300 -2.29936 15

177 -1.67483 19 164 -2.42779 16

314 -1.70929 22 348 -2.82378 10

34 -1.72136 21 38 -3.23233 7

在表 4-4-1 中，學生編號 62 和 311 的答對題數同為 20 題，其所得到的能力值並不同，原因是他們答對的題目不同，而各題的難度不同，所得到的能力值就不同。也就驗證了當代測驗理論中所提到同時考慮受試者的反應組型與試題參數等特性，因此在估計個人能力時，除了能夠提供一個較精確的估計值外，對於原始得分相同的受試者，也往往給予不同的能力估計值（余民寧,1991）。

第五節常模建立

本測驗建有中部地區一年級普通班學生的百分等級常模（如表 4-4-1 所示）。所謂「百分等級（Percentile Rank， PR）」就是指各百分點（即把一個團體分成一百個等分的等分點）以下包含有多少百分比的人數，意即落在某一個原始分數以下人數百分比（郭生玉，2000）。假定有位國小一年級學生在「國小一年級數學學習困難篩選測驗」的原始分數為 24 分，對照表 4-4-1 之百分等級為 8。這個結果表示這位學生只贏過 8%的國小一年級學生。

若欲篩選出「國小一年級數學學習困難」的學生，研究者依據數學學習困難學生的能力值，建議採用原始分數 24 分（百分等級為 8），做為切截的分數。因為此種方法較簡易，不失為國小基層教師篩選數學困難學生時的另一種參考。意即若甲生的測驗原始分數 24 分，等於 24 分，他就是數學學習困難的學生。若乙生的測驗原始分數 20 分，小於 24 分，他也是數學學習困難的學生。

表 4-5-1 中部地區國小一年級百分等級常模原始分數百分等級（PR）原始分數百分等級（PR）

35 95 26 11 34 82 25 9 33 66 24 8 32 50 23 6

31 38 21-22 5

第五節個案分析

研究者在篩選出的 30 位數學學習困難學生中，訪問了其中三位數學學習困難學生的老師，以了解學生在生活上和學習上的狀況。

個案一：

在整份測驗中各個分測驗的通過率分別為 88％、14％、100％、71％及 71

％，其中數大小工作記憶分測驗的通過率最低 14%，理解能力最高 100%，能力值為-1.37425，原始分數為 24 分，篩選為數學學習困難的學生。

研究者和個案一導師訪談後，導師告知該生在課堂的學習專注力很差，上課總是玩自己的東西，或和同學聊天講話。又吃飯時會吃到一半突然停住不動，

不知在想什麼，需要導師叫他，他才會繼續吃。因該生的語文能力和理解力都不差，九九乘法背誦的很好，所以導師很疑惑，為什麼他的數學成績總是較其他學

在文檔中國小一年級數學學習困難篩選測驗編製研究 (頁 38-0)

第四章 結果與分析

第一節 傳統試題分析

壹、試題難度及鑑別度指標分析

貳、信度分析

參、效度分析

第二節 試題反應理論（IRT）模式分析

壹、logistic 參數模式適合度檢定

貳、logistic 雙參數之難度、鑑別度估計值的分析

參、試題特徵曲線（item characteristic curve, ICC）

肆、測驗特徵曲線（test characteristic curve, TCC）

第三節 試題檢討

第四節 篩選過程

第五節 常模建立

第五節 個案分析

第四章結果與分析

第一節傳統試題分析

第二節試題反應理論（IRT）模式分析

第三節試題檢討

第四節篩選過程

第五節常模建立

第五節個案分析