電腦化適性測驗 - 衛生教育訓練電腦輔助教學模式之系統規劃與評估; Planning and Evaluating of The CAI Model of Hygienic Training

由於教學上的需要，一般常使用考試測驗來了解學生的學習情況與學習成就。而電腦在教學活動上的應用已經漸漸廣泛，使用電腦來輔助測驗也逐漸地推行。美國著名的GRE測驗在1992年已經可以電腦版本來進行考試；1993年開始利用電腦化適性測驗(Computerized Adaptive Test，以下簡稱CAT)的方式來進行測驗，並且在1999年停用現行的紙筆測驗，改採電腦考試。美國IBM和Arthur Andersen目前也在著手發展電腦輔助測驗系統。紐西蘭的三位學者也曾提出一套“Knowledge Based Computer Assisted Instruction System”，這套系統最大的特色在於進行測驗時系統會自動變換題目中所包含有數字的部份，以避免受測者

應不同考試科目，著重於測驗系統裡的分類。近年來，愈來愈多學者研

另外還必須依據課程的需要來建立題庫。學者 Millman 與 Arter(1984) 認為題庫應為一群使用方便的試題彙編，該群試題可運用於各種測驗場

結果的可信度之外，對測驗編製者而言還能夠節省編製測驗所花的時間。在實際建立題庫常會面臨以下五個重大課題(余民寧，1993)：

1. 題庫應該包含多少試題：基本上而言，題庫內的試題當然是愈多愈好，但是應該考慮所加入題庫的試題，是否具有內容效度和統計品質應達成的標準，以及考慮測驗的目的何在？學者 Prosser(1974) 建議每個概念至少要包含 10 個試題，每一單元課程內容至少要包含 50 題；Reckase(1981)則建議 100 至 200 個難度均勻分佈，且具有合理的鑑別度的試題，便可適用在電腦化適性測驗裡。另外，測驗

3. 題庫內試題是否必需具備量尺化的參數：所謂量尺化的試題參數，

5. 題庫是否安全：題庫的建立固然可以使日後的測驗編製更加容易，抗拒的趨勢。通常電腦化測驗分為電腦輔助測驗(Computerized Based Test)與電腦化適性測驗兩大類，以下為此二類測驗系統的簡介：

A. 呈現更真實的試題：利用多媒體的方式，電腦不再受限於

能的反應情形，這是傳統紙筆測驗不容易做到的。

電腦依據受試者估計的能力水準估計值，自動選擇符合受試者能力的題目加以施測，然後重新估算受試者能力，並依此選取下一題目供受測者作答，直到受試者能力的估計值已經達到很精確的地步或是答完一定的題數才停止測驗，以下為CAT的優點（何榮桂，2000）：

l 具個別化測驗的特性：CAT 的個別化有兩層意義：一是

數，而測驗結果通常以受試者在總題數中答對多少題來加以評估。如果兩個以上受試者在同一測驗得滿分，是否能真正表示這些人的能力水準一樣，值得商榷；相反的，若有一些受試者未答對任何題目 (即零分 )，這些人的能力水準也未必相同。這個情況在傳統測驗無法解釋碰到此種上限(Ceiling)及下限 (Bottom) 效應的問題。傳統測驗結果的解釋容易讓人誤解，以為能力 (傳實得總分(Observe Score)或受試者在理論上的真分數(True Score)。

在古典測驗理論中，受試者在測驗上的實得總分是受試者每部分試題得分的總和，但受試者在各個部分的試題上得分不一定相同，而總分卻出現相同的情形。因此我們無法由受試者在測驗總分反推得知受試者在每一個試題的得分；換句話說，若只憑分數的高低，實難以深入了解受測

者的學習問題與困難所在 (鄭富森，1993)。CAT能夠以比傳統測驗較少的試題,便可以精確地估算受試者的能力水準，同時若結合題目反應理論(Item Response theory，簡稱IRT)來實施個別化適性測驗,精確分析各試題的特性，則可讓測驗的評分更為客觀及公正，容易蒐集學生作答訊息以供教師進行學習診斷。關於IRT的基本概念，主要可以分為下列三項來說明(Hambleton & Swaminathan，1985)：

1. 受試者在某測驗試題上的表現情形，可由一組因素來加以預測或解釋，這組因素稱為潛在特質(Latent Traits)或能力(Abilities)。

2. 受試者的表現和這組潛在特質之間的關係，可透過一條連續嚴格遞增(Monotonically Increasing)的函數來加以詮釋，此函數稱為試題特徵函數(Item Characteristic Function )，而把不同能力的學生在某試題的得分期望連結成線，此曲線稱為試題特徵曲線(Item Characteristic Curve；簡稱ICC)。

3. 試題反應理論的目在於提供試題不變量(Invariant)和能力估計值。由於IRT試題反應理論是針對古典測驗理論的缺失而發展出來的, 所以有以下三項特色(Hambleton & Swaminathan，1985)：

A. 在受試母群中，試題參數估計值是不受取樣波動(Sampling Fluction)的影響；不同的取樣結果只呈現ICC的局部區間，

連結了不同的取樣結果，則可呈現完整的ICC圖。

B. 在試題的選擇過程中，受試者能力估計值不受波動的影響。

C. 能力可以被確切地估算。

要能夠精確地分析試題及受測者的資料，必須要在以下的假設都成立的情況下，才能合理而確切地估算並解釋受測者能力：

1. 單維度(Unidimensionality)：單維度是指影響測驗的表現由一個主要成份(Dominant)或因素所決定；而這個成分或因素就是測驗所測

2.局部獨立(Local Independence)：當影響測驗結果的能力固定時，受試者對測驗中某一試題的作答情形不受其他試題作答的影響。此假設是由於採用最大可能估計值(Maximun Likelihood Estimator)的估算方法而產生。

3.非速度測驗：受試者在試題上的反應,不應受時間因素的影響；換言

之，受試者不應有時間不夠而無法答完所題目的現象產生。受試者沒有回答的題目是因為本身能力不足所致的 ,而非受時間的限制所造成 (Hambleton & Swaminathan，1985;余民寧，1992；古松民，2001)。

IRT以試題特徵函數表達受試者能力和測驗反應間之關係，因函數中所採用的參數個數不同，可被區分為不同的模式。常用的數學模式有單參數、雙參數及三參數等三種，各模式之試題特徵函數如下三種公式所示：

單參數模式：

雙參數模式：

三參數模式：

其中D=1.702；e：自然對數；j：受試者編號；

θj：第 j 位受試者之能力值；i：題目編號；

ai，bi，ci：第i題的鑑別參數、難度參數、猜測參數 pij(θj)：能力θj答對第i題的機率函數。

將上列函數式以圖形表示之，則稱為試題特徵曲線（ICC）。圖2-1 為典型的三參數模式ICC，橫軸θ表示受試群體之能力分佈，縱軸P則為

受試能力 θ 答對此題的機率。圖中的 ICC1(a,b,c)=(1,-1,0.07),ICC2(a,b,c)=(1,0,0.05) ,ICC3(a,b,c)=(

1,1,0.05)。

圖2-1、試題特徵曲線（圖片來源：古松民，2001.8）

然而，在電腦適性測驗中，由於題庫裡的每一個項目皆有其區域獨立性，因此在適性測驗進行時，每次只能出現一個題目，而且不能夠提供受試者有關項目答案的回饋，受試者不能跳過任何一題，也無法選擇答題次序。而在過去幾年，許多國外的學者研究受試者對於電腦適性測驗與紙筆測驗間的心理與行為上的差異，發現試題呈現方式（例如試題一次只呈現一題、受試者不能選擇答題順序、不能更改答案等）確實會影響受試者的心裡因素，進而連帶影響其測驗表現。學者吳裕益與王佳文（1997）認為電腦適性測驗的缺點如下：

l 必須依順序作答，不能跳答。

l 必須要有電腦設備。

l 某些題型（如申論題、作文等）無法使用電腦。

l 能力分數解釋較困難。

l 需了解項目反應理論。

l 部份受試者及家長可能無法接受測驗結果，特別是考試題目及題數不同，所得分數如何比較的問題。

l 電腦化適性測驗與紙筆施測之題目內容以及題目出現之順序

（或前後位置）不同，可能影響能力分數之等值性。

在文檔中衛生教育訓練電腦輔助教學模式之系統規劃與評估; Planning and Evaluating of The CAI Model of Hygienic Training (頁 29-43)