電腦化適性測驗

第二章文獻探討

第四節電腦化適性測驗

第四節第四節

第四節電腦化適性測驗電腦化適性測驗電腦化適性測驗電腦化適性測驗

壹壹壹

壹、、、試題反應理論、試題反應理論試題反應理論試題反應理論

測驗理論分成古典測驗理論及現代測驗理論，後者以試題反應理論(Item Response Ttheory, IRT)為主要架構，其目的是為了改進古典測驗理論的缺失發展而來，主要在探討受試者的答對機率受到受試者的能力(abilities)或潛在特質 (latent traits)及試題參數（難度、鑑別度、猜測度）影響的關係。而這種數學關係即為機率，其重點是以機率的概念來解釋受試者的能力和測驗反應之間的關係，且依據受試者的測驗結果，經過數學模式的運算，推估受試者的能力或心理特質(何明鏡，劉湘川，郭伯臣，2004)。

依據受試者在每一試題上的作答反應，IRT 都會有與其相對應的一條試題特徵曲線，此曲線以一個或多個參數來描述試題的特性及受試者的潛在特質，

依照所考慮到的試題參數不同可分為單參數模式 (Rasch, 1986)、二參數模式與三參數模式(Birnbaum, 1968; Lord , 1952)，都僅適用於二元計分的反應資料，即是受試者反應正確時計分為1，反應錯誤則計分為0（余民寧，1992）。

各參數模式公式如下：

(一)、單參數模式(one-parameter logistic model)，為難度參數b

(三)、三參數模式(three-parameter logistic model)，為難度參數 b、鑑別度

參數a及猜測度參數c

大型測驗中，因此本研究即以 IRT 為基礎的電腦化適性測驗來研發華語文化能力測驗。

貳貳貳

貳、、、電腦、電腦電腦化電腦化化適性測驗化適性測驗適性測驗適性測驗

隨著電腦科技快速的發展，以電腦進行測驗已是確定的趨勢。越來越多研

究顯示網際網路的出現，使得第二語言學習及測驗的方式更加多元化。由於電腦可以儲存大量測驗訊息、紀錄測驗分數以及分析施測的結果，加上科技資訊、

網路越來越發達，因此利用電腦來作適性測驗的發展已變得愈來愈有利。電腦化適性測驗（Computerized Adaptive Testing,CAT）結合試題反應理論(IRT)，會依照受試者的程度選擇適合的試題，並以受試者的作答反應立即進行能力的估計，作為挑選下一試題的依據，直到受試者的能力得到精確的估計為止。簡單的來說，如果受試者答對了一個問題，則下一個題目會難一些；如果受試者答錯了一個問題，則下一個題目會簡單一些(Lord,1980)。如此不僅可以節省施測時間，因才施測，亦可準確評量受試者的能力(Dodd & De Ayala,1989)，和傳統紙筆測驗比較起來，電腦化適性測驗更能達到測驗上客觀與效率的目標(Weiss, 1982)。

依據 Weiss & Kingsbury(1984)所提出的 CAT 基本要素有六項，分別為試題反應模式、測驗題庫、測驗起點、能力估計、選題策略與測驗終止條件，試題反應模式已於前面有介紹(頁 24、25)，以下則對其他五點一一做概要介紹。

一一一

一、、、測驗題庫、測驗題庫測驗題庫測驗題庫

由於CAT在選題時需依據試題參數，因此對於題庫的品質與試題參數的精確性要求較大。陳麗如（1999）的研究中指出，難度參數應能涵蓋所有受試者的能力，測量一般常態分佈的群體之電腦適性測驗題庫，其難度最好在 −3.0 至 3.0，

且均勻分佈，鑑別度參數應在 .8 以上。

三參數模式中之猜測度表示能力很低的考生答對某試題的機率，數值越大，

表示越容易猜中，因此若猜測度太高，題目訊息量低，則題目無鑑別度（余民寧，

1993a）。另外陳新豐（2002）的研究中指出猜測參數應在 .3 以下。

何榮桂（1991）的研究中指出，對於題庫品質的參考指標，有許多研究者對於題庫中的試題參數性質，其建議如表 2.3 所示。

表 2.3 評估題庫品質之試題參數參考標準

試題參數的統計特質（k=選項數）

研究者

a(鑑別度) b(難度) c(猜測度)

Urry(1977) > .8 均等分配 ≤ .3 Baker(1985) .5~2.0 − .3~ .3 0~ .3 MicroCAT Testing System(1989) .4~2.5 −3.0~3.0 .05~2/k CAT題庫的大小在施測長度為傳統紙筆測驗長度的一半時，則 CAT 題庫大小最好是傳統紙筆測驗長度的 6 至 8 倍(Stocking, 1994)，當題庫大小為施測長度的3倍長時，精確度及作答效率才有顯著差異(Hung, 1988)。Prosser(1974) 則建議每個概念至少要包含 10 個試題，每一單元課程內容至少要包含 50 題。Reckase(1981)建議一百至二百個難度均勻分佈，且具有合理的鑑別度的試題，便可適用在電腦化適性測驗裡。

二二二

二、、、測驗的起始點、測驗的起始點測驗的起始點測驗的起始點

CAT在施測之始，因未能得知受試者的能力高低，通常會使用以下幾種方式來決定測驗的起始題目（陳麗如，1998；陳俊宏，2004）：

(一)、選取中等難度題目

即假設受試者為中等能力，在題庫中挑選難度適中的題目作為施測的起始

題。然中等難度題目有限，受試者可能使用相同的題目開始，因此其保密性需要考量。本研究的選題為此方式。

(二)、由受試者之基本資料估算起點能力值

例如：年齡、學習、經驗或其他測驗結果等。

(三)、受試者自由選題

由受試者自行判定自己的程度，以決定施測的起始題。

(四)、電腦隨機選題

由電腦隨機選題，一般限定試題難度參數b介於 −.5至 .5間為選取範圍。此 外，以隨機選取試題當做測驗起始題時，在題數超過25題時，則受試者的能力估計值會接近其真實能力值(Lord,1977)。

三三三

三、、、能力估計、能力估計能力估計能力估計

在受試者進行CAT的過程中，系統會先根據第一題中的作答反應初步估計受試者的能力估計值，之後受試者每做一題目，系統就會重新估計一次能力，

以挑選出對應該能力值可發揮最大估計功效的試題，這種施測過程一直持續到預定之測驗題數測完或設定的能力估計值標準已獲得為止。

目前最常使用能力估計方法有最大概似估計法 (Maximuml liklihood estimation, MLE)與貝氏估計法(Bayesian procedure)。貝氏估計又分為最大後驗估計法(Maximum a posteriori, MAP)與期望後驗估計法(expected a posteriori, EAP）。

(一)、最大概似估計法(Maximumlliklihood estimation, MLE)

最大概似估計法是將受試者的反應組型代入概似函數公式中，以求出的最 大概似估計值。若受試者在某份測驗的答題反應為 Xj，其反應不是 1（答對）

就是 0（答錯），根據 IRT 局部獨立性的假設，整份測驗的整體表現就是答題 Swanimathan & Rogers,1991)；或者是受試者作答反應為全對或全錯時，MLE 也無法有效估計受試者的能力值 (Wang & Vispoel, 1998)。

(二)、貝氏估計法(Bayesian procedure)

貝氏估計法需先假設受試者能力的先驗分配(prior distribution)，將先驗分配乘以概似函數後會得到一個後驗分配(posterior distribution)，將此後驗分配的期望值當做能力估計值就稱為期望後驗估計法(expected a posteriori, EAP)；而此後驗分配所對應最大

θ

當做能力估計值的稱為最大後驗估計法 (Maximum a posteriori, MAP)（陳昇座，2007）。運用貝式估計法時，即使受試者的作答反應為全對或全錯時，仍可進行估計，避免了最大概似估計法(Maximuml liklihood estimation, MLE)在此情況估計值無法收斂的缺點。但對先驗分配的假設如果不

當的話，卻會產生有所偏差的能力估計值（余民寧，1993d）。本研究採期望後驗估計法(expected a posteriori, EAP)。

四四四

四、、、選題策略、選題策略選題策略選題策略

選題策略為CAT重要的核心要素之一，不同的選題策略會導致不同的測驗效率，常用的選題策略有最大訊息選題法(maximum information strategies)與貝氏選題法(Bayesian strategies)，簡述如下：

(一)、最大訊息選題法(maximum information strategies)

在三參數的模式下，此法為在得到受試者能力的暫時估計值後，系統會選

(二)、貝氏試題選擇法(Bayesian strategies)

本研究採貝氏試題選擇法。貝氏選題法會先將受試者能力的先驗分配(prior distribution)設定為一平均數為 .0，變異數為 1.0 之常態分配，待受試者作答後，系統會將更新之能力估計值和變異數，當成選擇下一題的事先估計值，再

從題庫裡未受試的試題中挑選能夠使受試者能力事後分配之變異數為最小的試題，作為下一題施測的試題。使用貝氏選題法，頗受事前先驗分配之假設的影響很大，但是只要施測的試題足夠多，這種影響就可以被排除（余民寧，1993d）。

五

五五

五、、、終止條件、終止條件終止條件終止條件

CAT的測驗終止的條件由施測者依據施測目的及性質而決定，不同的受試者也因其能力不同會接受到不同題目與題數的測驗。實務上，運用終止測驗的方式，有以下幾種：

(一)、設定最大施測題數

當受試者施測的題數到達設定的題數限制時，即終止測驗，一般以 20～30 題為原則，此方法較常用於模擬研究中。

(二)、設定估計標準誤

當受試者的能力估計標準誤低於預設的標準時，即終止測驗。亦即當能力估計精確度達到預訂標準時，代表施測的題數已經足夠了，通常是以貝氏選題法為選題策略。

(三)、設定測驗訊息量

在達到預先設定的試題訊息量標準時，能力的估計已經穩定，再做題目也無法獲得更多測驗訊息，即終止測驗，通常與最大訊息選題法搭配使用（陳新豐，2000）。

通常CAT的選題策略會同時採用(一)、(二)或(一)、(三)作為終止條件（潘靖

瑛，2007）。

參參參

參、、、小結、小結小結小結

透過電腦化適性測驗可以依據受試者的能力出題，減少受試者回答太簡單

或太難試題的時間，可以快速提供結果報告，並且測試地點及時間較有彈性。

而電腦化適性測驗的應用相關研究不勝枚舉，在各領域皆有相關研究，但在華語文化能力測驗方面較少有文獻，故本研究針對華語文化能力測驗建置適性測驗系統，並評估其成效，以提供未來華語文學習的一項實用測驗工具。

在文檔中華語文化能力測驗之研發 (頁 30-40)

第二章 文獻探討

第四節 電腦化適性測驗

第四節 第四節

第四節 電腦化適性測驗 電腦化適性測驗 電腦化適性測驗 電腦化適性測驗

壹 壹 壹

壹、 、 、試題反應理論 、 試題反應理論 試題反應理論 試題反應理論

(一)、單參數模式(one-parameter logistic model)，為難度參數b

(三)、三參數模式(three-parameter logistic model)，為難度參數 b、鑑別度

參數a及猜測度參數c

貳 貳 貳

貳、 、 、電腦 、 電腦 電腦化 電腦 化 化適性測驗 化 適性測驗 適性測驗 適性測驗

一 一 一

一、 、 、測驗題庫 、 測驗題庫 測驗題庫 測驗題庫

二 二 二

二、 、 、測驗的起始點 、 測驗的起始點 測驗的起始點 測驗的起始點