由於教學上的需要,一般常使用考試測驗來了解學生的學習情況與 學習成就。而電腦在教學活動上的應用已經漸漸廣泛,使用電腦來輔助 測驗也逐漸地推行。美國著名的GRE測驗在1992年已經可以電腦版本來 進行考試;1993年開始利用電腦化適性測驗(Computerized Adaptive Test,以下簡稱CAT)的方式來進行測驗,並且在1999年停用現行的紙筆 測驗,改採電腦考試。美國IBM和Arthur Andersen目前也在著手發展電 腦輔助測驗系統。紐西蘭的三位學者也曾提出一套“Knowledge Based Computer Assisted Instruction System”,這套系統最大的特色在於 進行測驗時系統會自動變換題目中所包含有數字的部份,以避免受測者
應不同考試科目,著重於測驗系統裡的分類。近年來,愈來愈多學者研
另外還必須依據課程的需要來建立題庫。學者 Millman 與 Arter(1984) 認為題庫應為一群使用方便的試題彙編,該群試題可運用於各種測驗場
結果的可信度之外,對測驗編製者而言還能夠節省編製測驗所花的時 間。在實際建立題庫常會面臨以下五個重大課題(余民寧,1993):
1. 題庫應該包含多少試題:基本上而言,題庫內的試題當然是愈多愈 好,但是應該考慮所加入題庫的試題,是否具有內容效度和統計品 質應達成的標準,以及考慮測驗的目的何在?學者 Prosser(1974) 建議每個概念至少要包含 10 個試題,每一單元課程內容至少要包含 50 題;Reckase(1981)則建議 100 至 200 個難度均勻分佈,且具有 合理的鑑別度的試題,便可適用在電腦化適性測驗裡。另外,測驗
3. 題庫內試題是否必需具備量尺化的參數:所謂量尺化的試題參數,
5. 題庫是否安全:題庫的建立固然可以使日後的測驗編製更加容易, 抗拒的趨勢。通常電腦化測驗分為電腦輔助測驗(Computerized Based Test)與電腦化適性測驗兩大類,以下為此二類測驗系統的簡介:
A. 呈現更真實的試題:利用多媒體的方式,電腦不再受限於
能的反應情形,這是傳統紙筆測驗不容易做到的。
電腦依據受試者估計的能力水準估計值,自動選擇符合受試者能力的題 目加以施測,然後重新估算受試者能力,並依此選取下一題目供受測者 作答,直到受試者能力的估計值已經達到很精確的地步或是答完一定的 題數才停止測驗,以下為CAT的優點(何榮桂,2000):
l 具個別化測驗的特性:CAT 的個別化有兩層意義:一是
數, 而測驗結果通常以受試者在總題數中答對多少題來加以評 估。 如果兩個以上受試者在同一測驗得滿分,是否能真正表示 這些人的能力水準一樣 ,值得商榷;相反的,若有一些受試者 未答對任何題目 (即零分 ),這些人的能力水準也未必相同。這個 情況在傳統測驗無法解釋碰到此種上限(Ceiling)及 下 限 (Bottom) 效應的問題。傳統測驗結果的解釋容易讓人誤解,以為能力 (傳 實得總分(Observe Score)或受試者在理論上的真分數(True Score)。
在古典測驗理論中,受試者在測驗上的實得總分是受試者每部分試題得 分的總和,但受試者在各個部分的試題上得分不一定相同,而總分卻出 現相同的情形。因此我們無法由受試者在測驗總分反推得知受試者在每 一個試題的得分;換句話說,若只憑分數的高低,實難以深入了解受測
者的學習問題與困難所在 (鄭富森,1993)。CAT能夠以比傳統測驗較少 的試題,便可以精確地估算受試者的能力水準,同時若結合題目反應理 論(Item Response theory,簡稱IRT)來實施個別化適性測驗,精確分析 各試題的特性,則可讓測驗的評分更為客觀及公正,容易蒐集學生作答 訊息以供教師進行學習診斷。關於IRT的基本概念,主要可以分為下列 三項來說明(Hambleton & Swaminathan,1985):
1. 受試者在某測驗試題上的表現情形,可由一組因素來加以預測或解 釋,這組因素稱為潛在特質(Latent Traits)或能力(Abilities)。
2. 受試者的表現和這組潛在特質之間的關係,可透過一條連續嚴格遞 增(Monotonically Increasing)的函數來加以詮釋,此函數稱為試 題特徵函數(Item Characteristic Function ),而把不同能力的學 生在某試題的得分期望連結成線,此曲線稱為試題特徵曲線(Item Characteristic Curve;簡稱ICC)。
3. 試題反應理論的目在於提供試題不變量(Invariant)和能力估計 值。由於IRT試題反應理論是針對古典測驗理論的缺失而發展出來的, 所以有以下三項特色(Hambleton & Swaminathan,1985):
A. 在受試母群中,試題參數估計值是不受取樣波動(Sampling Fluction)的影響;不同的取樣結果只呈現ICC的局部區間,
連結了不同的取樣結果,則可呈現完整的ICC圖。
B. 在試題的選擇過程中,受試者能力估計值不受波動的影響。
C. 能力可以被確切地估算。
要能夠精確地分析試題及受測者的資料,必須要在以下的假設都成 立的情況下,才能合理而確切地估算並解釋受測者能力:
1. 單維度(Unidimensionality):單維度是指影響測驗的表現由一個主 要成份(Dominant)或因素所決定;而這個成分或因素就是測驗所測
2.局部獨立(Local Independence):當影響測驗結果的能力固定時,受 試者對測驗中某一試題的作答情形不受其他試題作答的影響。此假設是 由於採用最大可能估計值(Maximun Likelihood Estimator)的估算方法 而產生。
3.非速度測驗:受試者在試題上的反應,不應受時間因素的影響;換言
之,受試者不應有時間不夠而無法答完所題目的現象產生。受試者沒有 回答的題目是因為本身能力不足所致的 ,而非受時間的限制所造成 (Hambleton & Swaminathan,1985;余民寧,1992;古松民,2001)。
IRT以試題特徵函數表達受試者能力和測驗反應間之關係,因函數中 所採用的參數個數不同,可被區分為不同的模式。常用的數學模式有單 參數、雙參數及三參數等三種,各模式之試題特徵函數如下三種公式所 示:
單參數模式:
雙參數模式:
三參數模式:
其中D=1.702;e:自然對數;j:受試者編號;
θj:第 j 位受試者之能力值;i:題目編號;
ai,bi,ci:第i題的鑑別參數、難度參數、猜測參數 pij(θj):能力θj答對第i題的機率函數。
將上列函數式以圖形表示之,則稱為試題特徵曲線(ICC)。圖2-1 為典型的三參數模式ICC,橫軸θ表示受試群體之能力分佈,縱軸P則為
受 試 能 力 θ 答 對 此 題 的 機 率 。 圖 中 的 ICC1(a,b,c)=(1,-1,0.07),ICC2(a,b,c)=(1,0,0.05) ,ICC3(a,b,c)=(
1,1,0.05)。
圖2-1、試題特徵曲線(圖片來源:古松民,2001.8)
然而,在電腦適性測驗中,由於題庫裡的每一個項目皆有其區域獨 立性,因此在適性測驗進行時,每次只能出現一個題目,而且不能夠提 供受試者有關項目答案的回饋,受試者不能跳過任何一題,也無法選擇 答題次序。而在過去幾年,許多國外的學者研究受試者對於電腦適性測 驗與紙筆測驗間的心理與行為上的差異,發現試題呈現方式(例如試題 一次只呈現一題、受試者不能選擇答題順序、不能更改答案等)確實會 影響受試者的心裡因素,進而連帶影響其測驗表現。學者吳裕益與王佳 文(1997)認為電腦適性測驗的缺點如下:
l 必須依順序作答,不能跳答。
l 必須要有電腦設備。
l 某些題型(如申論題、作文等)無法使用電腦。
l 能力分數解釋較困難。
l 需了解項目反應理論。
l 部份受試者及家長可能無法接受測驗結果,特別是考試題目及 題數不同,所得分數如何比較的問題。
l 電腦化適性測驗與紙筆施測之題目內容以及題目出現之順序
(或前後位置)不同,可能影響能力分數之等值性。