傳統紙筆測驗與線上電腦化測驗試題參數估計差異之比較

(1)

傳統紙筆測驗與線上電腦化測驗試題參數估計差異之比較

摘要

本研究主要是比較傳統紙筆測驗與線上電腦化測驗試題參數估計上之差異，除了比較傳統的試題參數之外，還加入以試題反應理論為基礎的試題參數估計以及受試者能力之估計，利用變異數分析，比較在實際資料中，受試者人數的不同是否亦會造成參數估計上之不同。

經過資料的收集及分析，本研究主要獲致以下的結論。在參數的估計上，難度在紙筆與線上是沒有明顯差異，線上版一（五題一組依序出現）比線上版二（單題隨機出現）還要難，在鑑別度上則是線上版優於紙筆版，線上版一（五題一組依序出現）比線上版二（單題隨機出現）還要差；當人數大致相等時，傳統紙筆測驗與線上電腦化測驗的試題參數估計是一致的，這與文獻上大部分學者的研究有一致的結果。因此本研究發現施測樣本人數因素，對於試題參數估計的穩定性，有決定性的貢獻。

關鍵字：紙筆測驗、試題反應理論、線上電腦化測驗、試題參數估計

Abstract

陳新豐 Shing-Feng Chen

國立屏東教育大㈻初等教育㈻系助理教授

Assistant Professor, Department of Elementary Education, National PingTung University of Education

Comparison of Item Parameter Estimation between

Traditional Paper-and-Pencil-Based Testing and Online

Computer-Based Testing

(2)

parameter, item response theory was applied for item parameter estimation and estimation of subjects’ ability. Further research on the number of subjects and its influence to parameter estimation in terms of variance analysis was also provide.

After further data collection and analysis, major findings of this study were summarized as follow: first of all, when the numbers of subjects among all forms were closed, parameter estimation to either paper-and-pencil-based or computer-based testing was quite consistent—a result which was also identical to many scholars’ studies. However, controlling of certain amount of subjects indeed offers a decisive contribution to the stability of item parameter estimation.

Keyword:paper-and-pencil-based testing, item response theory, computer-based testing, item parameter estimation

前言

電腦化測驗（Computer Based Testing）的發展在目前資訊科技蓬勃發展下，日益成為社會與學校評估學習成效的主要工具。並且由於電腦化測驗在測驗的計分、回饋及迷思概念上的診斷愈來愈有效率，亦即採用電腦化測驗在講求時效的現代社會中，是一種測驗的最佳選擇。不過，雖然電腦化測驗在時間的效率上遠比傳統式的紙筆測驗佔有絕對的優勢，但在測驗的試題特徵（難度、鑑別度、誘答力等）、測驗特徵（信度、效度等）以及受試者對於測驗本身的反應態度上，是否仍具有一致性的趨勢，是一個值得探討的問題。事實上，電腦化測驗的發展已經具有數十年的歷史了，並且有許多的專家學者對於傳統式的紙筆測驗，以及以電腦呈現的電腦化測驗已經有許多的探討了，但是由於時代的進步，近幾年的資訊科技突發猛進，尤其是在網際網路的發展上，造就了許多跳躍式的進程。因此，突破時間與空間的網路電腦化測驗已是銳不可擋的時代趨勢，身為這個時代的我們更應正視網路電腦化測驗在現階段，施測及計分結果對於受試者的能力估計、試題參數估計之差異以及所產生的影響。

Mazzeo和Harvey（1988）年在研究中曾發現，在大部分和電腦化測驗與傳統的紙筆測驗的測驗表現中，受試者的反應在平均得分的表現上都沒有

(3)

達到顯著的差異。但是傳統的紙筆測驗的得分總是會略高於電腦化測驗上的平均得分。當施測的時間有所限制時，Greaud & Green（1986）曾表現，在速度測驗時，傳統的紙筆測驗與電腦化測驗的平均得分上，呈顯著的差異，

在作答時間上，電腦化測驗也會比傳統的紙筆測驗還要久。

Parshall（1992）的論文資料中，設計（1）人口統計變項（性別，年齡等）；（2）電腦操作變項（使用經驗，次數等）；（3）測驗實施策略變項

（缺失資料，允許修改等）三個模式，了解電腦化測驗與傳統紙筆測驗之實施差異，獲得不一致的結果，亦即三種控制的模式之間並沒有太明顯的差異。

Neal（1992）利用包括閱讀（Readig）、寫作（Writing）以及數學（

Mathematics）CompuPASS的電腦化大學基本能力測驗，結果發現在閱讀方面，電腦化評量方式顯著優於紙筆式評量策略。焦慮方面電腦化測驗亦顯著於紙筆測驗，至於性別、電腦操作經驗與否以及態度則沒有顯著性的差異。

Bugbee & Alan（1996）認為電腦化測驗與紙筆測驗相較，電腦化測驗是較有優勢的，尤其是在實施上電腦化測驗的標準化程度相對於紙筆測驗，

更為準確。

Stephens（2001）在電腦輔導評量的研究中，一併考慮了性別、測驗的客觀性電腦焦慮，及與紙筆測驗的比較，在比較紙筆測驗與電腦化測驗未達到顯著的差異，亦即電腦化測驗與紙筆測驗在學生的成就方面，並不會因為施測的媒介之不同而有所不同。

Englert ， Mando & Zhao（2004）探討了電腦化與紙筆測驗對低成就的兒童在描述的能力上的關係。根據研究發現，我們發現低成就的學生在紙筆測驗和電腦化上的表現時，低學習成就的學生在用筆來回答電腦螢幕的問題，比回答在紙上的問題的還來的好，而且根據數據上的顯示，電腦化作答比傳統的紙筆測驗更來的有效。

Tancock & Segedy（2004）用行動研究的方式對於二年級的學生做紙筆與電腦化上的做比較。用閱讀的方式將文章分數個等級和ㄧ群學生利用書面閱讀的方式，一群學生則在電腦上閱讀，發現書面閱讀的學生在對於文章內容的瞭解，優於在電腦上面閱讀的學生，在態度方面，學生則較喜歡在電腦

(4)

由以上的研究結果可以發現，許多的研究在認知方面發現，紙筆測驗與電腦化測驗上的成就並沒有差異，但也有一些研究的結果呈現不一致的結果，而在試題的參數估計方面，是否在試題編製階段，利用電腦施測以及紙筆施測所得到的結果是否會有不一致的結果，這是本研究主要的研究動機。

因此，本研究主要是比較傳統紙筆測驗與網路電腦化測驗試題參數估計上之差異，除了比較傳統的試題參數之外，還加入以試題反應理論為基礎的試題參數估計以及受試者能力之估計，並且利用變異數分析，比較在實際資料中，受試者人數的不同是否亦會造成參數估計上之不同。

研究樣本

本研究的研究樣本來源主要是國民小學五年級及六年級的學生，抽樣方面乃是由研究者利用分層隨機抽樣，以地區為分層依據（高雄、屏東及台南），再隨機抽取適當的樣本為本研究的研究樣本。

本研究的研究樣本詳細資料，依紙筆版、線上版（一）、線上版（二）

分述如下表：

表1 研究樣本一覽表(紙筆版)

學校班級人數

台南市崇學國小五年九班 34

屏東縣潮州國小五年四班 29

六年三班 35

小計 98

(5)

表2 研究樣本一覽表(線上版一)

學校班級人數

台南市崇學國小五年一班 45

五年六班 30

小計 75

表3 研究樣本一覽表(線上版二)

學校班級人數

台南市崇學國小五年三班 30

五年八班 45

六年七班 36

六年十三班 36

高雄縣正義國小五年一班 20

五年二班 23

五年三班 24

五年四班 26

小計 217

由上表1、2及3中可以發現，本研究的研究樣本主要是來自於台南、高雄及屏東等三個縣市；其中台南市7個班級，高雄縣4個班級，屏東縣2個班級，總共有13個班級；紙筆版共98位受試者，線上版一75，線上版二217位受試者，合計共390位五、六年級的學生。

研究工具

本研究旨在探討紙筆測驗以及網路電腦化測驗，在試題參數估計方面的差異比較。因此，在研究工具主要有二，分述如下：

(6)

一、國民小學九年一貫課程第二階段數學能力測驗（紙筆版）

研究者根據九年一貫課程能力指標，第二階段的數與計算中N201（能透過位值概念、延伸整數的認識到大數，並作位值單位的換算）的指標，編製30題四選一的單選題。

測驗編製完成，首先請國民小學數學科的任教老師，先行審閱，再請二位國小五年級及三位國小六年學生，進行試題的答題，並且在作答之後，

將語意不清及正確答案有所疑義的部分，加以修正。修正之後再請測驗專家學者，進行初步的審題，並採其建議修改語意不清、試題中含有答題線索、

雙重否定的問題修改為正向的問題等違反試題編製原則的試題，再行修改彙整成正式施測的成就測驗。

二、線上數學能力測驗系統

研究者利用Red Hat 8.0、PHP Script以及MySQL資料庫，利用結構化分析方法，將初步完成的紙筆測驗，利用五題一組，依序將傳統紙筆測驗的試題分成六組之施測內容，建置成線上測驗界面（如下圖1、2、3），並且經過黑箱及白箱測試，測試資料的讀出以及寫入都正確無誤。

其中的線上版一及線上版二主要的差異，主要在於線上版一所呈現的試題是五題一組依序出現，而線上版二則是每次出現一題，而且出題的順序是隨機出現。

(7)

圖1 線上數學能力測驗系統主畫面

上圖1為線上版一及二的施測主畫面，首先呈現施測指導語，向接受施測的學生說明本研究主要是針對學生的數學能力做檢測，並且提醒作答者施測時需填答之相關資料以及作答時間最長為四十分鐘。

若施測學生對於施測指導語的內容沒有問題，即可點選﹝開始測驗﹞

進入就讀學校、班級以及座號等資料的選擇。

(8)

圖2 選擇考試內容(N201)

上圖為選擇就讀學校以及班級座號等資料之後，進入考試內容選擇的畫面，其中要求受試者選擇所要進行的考試內容。

圖3 作答試題內容

(9)

上圖3為受試者選擇考試內容之後的線上版一試題內容，一頁共有五題，每一頁皆會檢查學生是否有漏答的情形，若發現學生漏答，系統自動再呈現漏答的試題，請學生再填答，因此，經過本測驗，學生不會有漏答的情形。

另外，若學生30題試題內容未答完，可選擇下次再繼續作答，系統會依上次學生所作答的內容，依續呈現未答的內容。不過，本次研究皆請受試者一次將30題試題內容作答完畢。

進行線上版測驗的受測者其施測環境的硬軟體需求為，作業系統 Windows XP/2000/98，需具備瀏覽器（例如：IE），螢幕畫面解析度建議為 1024x768，主記憶體為128MB（含）以上即可。線上版本中受試者藉由瀏覽器即可進行施測，不需額外安裝任何應用軟體，所以受試者的硬體設備及軟體要求可以說是非常基本。

研究程序

以下將本研究主要的研究程序說明如下。首先邀請國民小學數學科教師編製九年一貫課程能力指標第二階段，以N201指標為主要內容的選擇題 30題。然後經由國小數學教師、國小五以及六年級的學生，經預試之後修正一些詞意不清以及答案有所疑義的試題。再經過測驗專家學者，根據測驗編製原則修正試題中有所不當之試題。

正式施測的樣本抽取方式是以地區為分層依據（高雄縣、屏東縣以及台南市），依隨機抽樣的原則進行學校的選擇，選擇適當的樣本進行紙筆式的數學能力測驗，同時以紙筆測驗為內容，建置以網際網路為主要網路媒體的線上電腦化數學能力測驗，並聯絡隨機抽取的學校進行電腦化版本的數學能力測驗。整理資料，利用ITEMAN、SPSS 11.0以及XCALIBRE等試題分析及參數估計軟體，進行測驗及試題分析，並建構以試題反應理論為基礎的試題參數，並利用SPSS 11.0資料統計分析軟體進行必要的分析以及報表整理、分析及解讀。

(10)

結果與討論

本研究主要是比較傳統紙筆測驗與線上電腦化測驗試題參數估計上之差異，除了比較傳統的試題參數之外，還加入以試題反應理論為基礎的試題參數估計以及受試者能力之估計，並且利用變異數分析，比較在實際資料中，

受試者人數的不同是否亦會造成參數估計上之不同。

首先針對三種施測版本進行試題的描述統計資料分析，包括題數、人數、平均數、變異數、標準差、偏態、峰度、最小值、最大值、中數、內部一致性係數（Alpha 係數）、測量標準誤、平均通過率、點二系列相關平均、

二系列相關係數平均等描述性統計資料；而有關於試題反應理論參數估計方法部分，三種版本皆利用三參數的估計方面，所選擇的計分方法（scoring method selected）則為最大概似法（maximum-likelhood）。所採用的分析軟體為Assessment Systems Corporation所設計之XCALIBRE for Windows（32 Bits）1.10c的版本。

下表為三種版本之描述統計資料及試題反應理論分析之試題資料一覽表：

表4 三式測驗試題描述統計資料一覽表

紙筆版線上版(一) 線上版(二)

題數 30 30 30

人數 98 75 217

平均數(Mean) 24.02 25.04 22.57

變異數(Variance) 17.04 15.53 57.08

標準差(Std. Dev.) 4.13 3.94 7.56

偏態(Skew) -1.11 -1.80 -1.32

峰度(Kurtosis) 1.20 0.45 0.54

最小值(Minimum) 11.00 8.00 2.00

最大值(Maximum) 29.00 30.00 30.00

中數(Median) 25.00 26.00 25.00

內部一致性係數(Alpha) 0.78 0.78 0.94

測量標準誤 1.93 1.83 1.90

(11)

平均通過率(Mean P) 0.80 0.84 0.75

點二系列相關平均(Mean Item-Tot.) 0.38 0.39 0.60

二系列相關平均(Mean Biserial) 0.59 0.62 0.82

最大值(低分組) 22 24 21

人數(低分組) 31 25 59

最小值(高分組) 27 27 28

人數(低分組) 31 33 62

鑑別度a(平均) 0.76 0.73 1.14

鑑別度a(標準差) 0.06 0.04 0.16

難度b(平均) -1.25 -1.50 -0.67

難度b(標準差) 0.96 0.80 0.41

猜測度c(平均) 0.25 0.25 0.22

猜測度c(標準差) 0.00 0.00 0.01

由上表資料可以得知，三種版本的受試者分別是98、75及217人，題數 30題，受試者答對題數的平均數至少22.57以上，亦即試題的難度是屬於較容易的情形，這從其它的統計量數，例如：偏態及平均通過率等皆呈現一致的結果。

關於測驗的穩定部分，在內部一致性指標（Alpha 係數），三種版本至少皆呈現可以接受的程度（Alpha最小值為0.78），最高值則為線上版（二）

內部一致性指標值最高為0.94，亦即表示測驗的內容呈現一致的狀態。

以試題反應理論為基礎的分析資料結果，在鑑別度（a）指標部分，以線上版（二）呈現較為理想的情形，而紙筆版及線上版（一）則為一致的情形；難度值（b）亦是線上版（二）的資料較為難，紙筆版及線上版則呈現一致的情形；至於猜測度（c）部分，則三種版本皆為一致的情形。

接續所呈現的資料，則將三種版本各題傳統試題分析之難度、鑑別度及點二系列相關係數；試題反應理論分析之三參數（鑑別度a、難度b及猜測度c）等資料列述如下，並且將三式各受試者之得分長條圖、測驗特徵曲線、測驗訊息曲線繪製圖形如後。

(12)

表5 試題分析資料一覽表（紙筆版）

題號難度鑑別度點二系列

相關鑑別度a 難度b 猜測度c

1 0.66 0.42 0.29 0.74 -0.16 0.26

2 0.82 0.39 0.39 0.75 -1.18 0.25

3 0.31 0.29 0.23 0.80 1.70 0.24

4 0.73 0.39 0.40 0.69 -0.72 0.25

5 0.77 0.48 0.57 0.78 -0.91 0.25

6 0.50 0.71 0.56 0.86 0.41 0.24

7 0.72 0.48 0.49 0.79 -0.63 0.25

8 0.94 0.19 0.62 0.89 -2.25 0.25

9 0.78 0.26 0.11 0.64 -0.87 0.26

10 0.91 0.29 0.46 0.83 -1.87 0.25

11 0.89 0.29 0.41 0.78 -1.75 0.25

12 0.98 0.06 0.11 0.78 -2.96 0.25

13 0.85 0.19 0.35 0.71 -1.48 0.25

14 0.96 0.13 0.36 0.83 -2.55 0.25

15 0.93 0.06 0.27 0.73 -2.26 0.25

16 0.79 0.32 0.43 0.74 -1.02 0.25

17 0.88 0.32 0.45 0.80 -1.64 0.25

18 0.87 0.10 0.13 0.66 -1.77 0.25

19 0.71 0.48 0.44 0.76 -0.60 0.25

20 0.60 -0.03 0.00 0.55 -0.09 0.26

21 0.83 0.42 0.49 0.80 -1.24 0.25

22 0.89 0.19 0.39 0.75 -1.80 0.25

23 0.88 0.32 0.49 0.80 -1.67 0.25

24 0.90 0.29 0.49 0.82 -1.84 0.25

25 0.94 0.13 0.38 0.79 -2.32 0.25

26 0.79 0.39 0.35 0.73 -0.98 0.25

27 0.85 0.32 0.41 0.75 -1.46 0.25

28 0.95 0.13 0.23 0.76 -2.46 0.25

29 0.71 0.48 0.54 0.78 -0.61 0.25

30 0.71 0.45 0.46 0.77 -0.57 0.25

(13)

圖4 受試者得分長條圖(紙筆版)

5 測驗特徵曲線(紙筆版) Score

29.00 28.00 27.00 26.00 25.00 24.00 23.00 22.00 21.00 20.00 19.00 18.00 17.00 16.00 13.00 12.00 11.00

Count.

14 12 10 8 6 4

2 0

Test Characteristic Curve for 3-PL Form PP

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3

THETA

SUM of P(u=1 | THETA)

TCC formPP

(14)

圖6 測驗訊息曲線(紙筆版)

表6 試題分析資料一覽表(線上版一)

1 0.83 0.22 0.17 0.68 -1.26 0.25

2 0.73 0.10 0.27 0.66 -0.69 0.25

3 0.95 0.16 0.24 0.75 -2.39 0.25

4 0.83 0.32 0.34 0.71 -1.31 0.25

5 0.92 0.20 0.30 0.75 -2.07 0.25

6 0.77 0.28 0.43 0.71 -1.00 0.25

7 0.92 0.16 0.28 0.73 -2.13 0.25

8 0.92 0.20 0.55 0.79 -2.11 0.25

9 0.77 0.25 0.32 0.67 -0.97 0.25

10 0.91 0.24 0.48 0.79 -1.91 0.25

11 0.93 0.09 0.25 0.72 -2.31 0.25

12 0.97 0.04 0.36 0.78 -2.87 0.25

13 0.91 0.24 0.51 0.77 -1.95 0.25

14 0.97 0.08 0.53 0.81 -2.84 0.25

15 0.87 0.08 0.21 0.68 -1.63 0.25

16 0.84 0.32 0.48 0.74 -1.43 0.25

Test Information Function for 3-PL Form PP

0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 16.0 18.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

THETA

INFORMATION

TIF form PP

(15)

17 0.93 0.16 0.59 0.80 -2.26 0.25

18 0.87 0.22 0.34 0.70 -1.63 0.25

19 0.56 0.42 0.41 0.71 0.21 0.25

20 0.72 0.37 0.43 0.70 -0.66 0.25

21 0.61 0.46 0.38 0.73 -0.05 0.25

22 0.91 0.17 0.35 0.73 -1.99 0.25

23 0.84 0.29 0.50 0.74 -1.43 0.25

24 0.91 0.17 0.31 0.71 -1.99 0.25

25 0.81 0.37 0.37 0.70 -1.23 0.25

26 0.57 0.36 0.43 0.72 0.13 0.25

27 0.81 0.41 0.53 0.75 -1.23 0.25

28 0.93 0.20 0.67 0.82 -2.25 0.25

29 0.69 0.30 0.34 0.67 -0.48 0.25

30 0.83 0.26 0.27 0.69 -1.28 0.25

圖7 受試者得分長條圖(線上版一)

Score

30.00 29.00 28.00 27.00 26.00 25.00 24.00 23.00 22.00 21.00 20.00 19.00 18.00 17.00 14.00 13.00 8.00

Count

20 18 16 14 12 10 8 6 4 2 0

(16)

圖8 測驗特徵曲線(線上版一)

圖9 測驗訊息曲線(線上版一)

Test Characteristic Curve for 3-PL Form CT1

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3

THETA

TCC form CT1

Test Information Function for 3-PL Form CT1

0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 16.0 18.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

THETA

INFORMATION

TIF form CT1

(17)

表7 試題分析資料一覽表(線上版二)

1 0.77 0.41 0.44 0.87 -0.77 0.22

2 0.68 0.65 0.55 1.01 -0.30 0.22

3 0.83 0.44 0.65 1.13 -1.13 0.22

4 0.82 0.36 0.32 0.87 -0.93 0.23

5 0.79 0.44 0.60 0.98 -0.93 0.21

6 0.60 0.49 0.43 0.86 0.08 0.22

7 0.76 0.56 0.60 1.09 -0.68 0.22

8 0.82 0.58 0.73 1.31 -0.98 0.21

9 0.78 0.29 0.24 0.80 -0.70 0.24

10 0.85 0.42 0.42 1.05 -1.05 0.23

11 0.81 0.53 0.68 1.19 -0.95 0.21

12 0.86 0.49 0.78 1.42 -1.28 0.21

13 0.82 0.53 0.65 1.15 -1.02 0.22

14 0.88 0.42 0.69 1.33 -1.41 0.22

15 0.76 0.59 0.62 1.12 -0.69 0.22

16 0.74 0.58 0.62 1.07 -0.59 0.21

17 0.80 0.54 0.71 1.21 -0.91 0.21

18 0.75 0.58 0.64 1.12 -0.64 0.21

19 0.55 0.72 0.55 1.16 0.19 0.21

20 0.68 0.71 0.64 1.18 -0.32 0.21

21 0.66 0.58 0.40 1.14 -0.06 0.23

22 0.82 0.53 0.61 1.12 -1.03 0.22

23 0.74 0.81 0.78 1.44 -0.58 0.20

24 0.82 0.58 0.68 1.27 -0.93 0.22

25 0.77 0.63 0.71 1.25 -0.76 0.21

26 0.58 0.73 0.53 1.05 0.14 0.21

27 0.72 0.80 0.77 1.41 -0.50 0.20

28 0.77 0.68 0.75 1.31 -0.75 0.21

29 0.65 0.62 0.58 0.99 -0.21 0.21

30 0.68 0.76 0.65 1.18 -0.32 0.21

(18)

圖10 受試者得分長條圖(線上版二)

圖11 測驗特徵曲線(線上版二)

Score

29.00 27.00 25.00 23.00 21.00 19.00 17.00 14.00 11.00 8.00 6.00 4.00 2.00

Count

32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 20

Test Characteristic Curve for 3-PL Form CT2

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3

THETA

TCC formCT2

(19)

圖12 測驗訊息曲線(線上版二)

由上述資料可以得知，紙筆版與線上版一的試題分析一覽表、試題特徵曲線及試題訊息曲線呈一致性的情形，而線上版二則與上述二版本有所不同，明顯在試題的特徵曲線及訊息曲線上呈現較豐富的資訊。

以下就三種版本在傳統試題分析下之難度及鑑別度的差異分析，以單因子變異數分析就三種版本的平均數是否有所差異，進行統計的考驗檢定。

表8 紙筆與線上版本描述性統計資料一覽表

版本題數平均數標準差標準誤最小值最大值

難度紙筆版 30 0.80 0.15 0.03 0.31 0.98

線上版一 30 0.83 0.11 0.02 0.56 0.97

線上版二 30 0.75 0.08 0.02 0.55 0.88

鑑別度紙筆版 30 0.30 0.16 0.03 -0.03 0.71

線上版一 30 0.24 0.11 0.02 0.04 0.46

線上版二 30 0.57 0.13 0.02 0.29 0.81

Test Information Function for 3-PL Form CT2

0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0 16.0 18.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

THETA

INFORMATION

TIF form CT2

(20)

表9 紙筆與線上版本單因子變異數分析摘要一覽表

SS DF MS F P

難度組間 0.10 2 0.05 3.72 0.028

組內 1.21 87 0.01

總和 1.31 89

鑑別度組間 1.86 2 0.93 50.65 0.001

組內 1.60 87 0.02

總和 3.45 89

由上述單因子變異數分析摘要一覽表中可以得知，在難度及鑑別度方面，紙筆版與線上版差異皆達到顯著水準，亦即三種版本之間的平均數差異達到統計考驗的顯著水準。繼續進行事後比較得知在難度方面，線上版１>

線上版2；而在鑑別度：方面則為，線上版2>紙筆版，線上版2>線上版1。

下圖所呈現的分別就紙筆版與線上版在難度、鑑別度及測驗特徵曲線、測驗訊息曲線等圖形上之比較。

圖13 三種版本難度資料折線圖

��

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ��

�

��

(21)

圖14 三種版本鑑別度資料折線圖

由以上在測驗的試題難度及鑑別度上，大致皆有一致的趨勢，除了在鑑別度上線上版二各題折線圖分佈，一致地比紙筆版及線上版一高，可見人數在參數估計上是有其穩定性及有效性。

圖15 三種版本測驗特徵曲線圖

��

-0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

��

�

��

TCC Comparison of Three Forms

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

Theta

P(theta)

Form CT1 TCC Form PP TCC Form CT2 TCC

(22)

圖16 三種版本測驗訊息曲線圖

由圖15及16上可以發現，紙筆版本及線上版一的表現大約一致，而線上版二則有明顯地不同，其主要原因是在人數上，因此人數到達一定的數量對於試題參數估計的穩定性，有主要的貢獻性。

結論

由上述資料，本研究主要獲致以下的結論。本研究旨在探討紙筆版以及線上版的成就測驗，在試題參數估計上是否有顯著的不同。在參數的估計上，難度在紙筆與線上是沒有明顯差異，線上版一（五題一組依序出現）比線上版二（單題隨機出現）還要難，在鑑別度上則是線上版優於紙筆版，線上版一（五題一組依序出現）比線上版二（單題隨機出現）還要差；當人數大致相等時，傳統紙筆測驗與線上電腦化測驗的試題參數估計是一致的，這與文獻上大部分學者的研究有一致的結果。因此施測樣本人數因素，對於試題參數估計的穩定性，有決定性的貢獻。

Test Information Functions for Forms PP , CT1 ,CT2

0 2 4 6 8 10 12 14 16 18

-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3

Theta

Information

Form PP TIF Form CT1 TIF Form CT2 TIF

(23)

參考文獻

Bugbee, J. & Alan, C.（1996）. The equivalence of paper-and-pencil and computer-based testing.

Journal of Research on Computing in Education, 28（3）,p.282-289.

Englert, C.S., Mando, M., Zhao, Y.（2004）.I Can Do It Better on the Computer: The Effects of Technology-enabled Scaffolding on Young Writers’ Composition. Journal of Special Education Technology, 19（1）, p.5-21.

Greaud, V. A. & Green, B. F.（1986）. Equivalence of conventional and computer presentation of speed tests. Applied Psychological Measurement, 10（1）, p.23-24.

Mazzeo, J. & Harvey, A. L.（1988）. The equivalence of scores from automated and conventional version of educational and psychological tests: A review of the literature.（Report No. CBR 87-8, ETS PR 88-21）. Princeton, NJ: Educational Testing Service.

Neal, V. A.（1992）.Comparing CompuPass with a paper and pencil version considering gender, computer experience, attitude toward computers, and test-taking anxiety. Texas Woman’s University. M. A.

Parshall, C. G.（1992）.Computer testing vs. paper-and-pencil testing: An analysis of examinee characteristics associated with mode effects on the GRE general test.

Stephens, D.（2001）. Use of computer assisted assessment: Benefits to students and staff.

Education for Information, 19, p.265-275.

Tancock, S.M. , Segedy, J（2004）.A Comparsion of Young Chrildrens Technology-Enhanced and Traditional Responses to Texts：An Action Research Project. Journal of Research in Children Education,19（1）,p58-65.

(24)