試題反應理論與電腦化適性測驗

第二章文獻探討

第三節試題反應理論與電腦化適性測驗

科技日新月異，隨著電腦運算能力的提升，加上適性測驗理論的發展，電腦化適性測驗逐漸被應用在實務中。電腦化適性測驗是由試題反應理論發展而來的，而試題反應理論則是促進當今測驗進步的重要關鍵。因此本節將介紹試題反應理論及其優缺點與電腦化適性測驗。

壹、試題反應理論（item response theory, IRT）

為了改善古典測驗理論的缺失，現代測驗理論因運而生。現代測驗理論是以試題反應理論作為理論架構，由 Lord 於 1980 年正式命名。雖然理論的發展較晚，理論的模式也還在發展中，加上計算公式繁複，但因理論與假設較為嚴謹，對測驗資料也有較嚴格的限制，因此深受測驗學者們的喜愛，自 1990 年代後大規模應用在教育測驗方案或教育研究中（Drasgow & Hulin, 1990;

Embretson & Yang, 2006; Hambleton, 1989; Yen, 1992; Yen & Fitzpatrick, 2006）。

一、試題反應理論的定義

IRT 主要是用來估計試題特性（難易度、鑑別度、猜測度）與受試者的能力（潛在特質）影響其作答反應機率的一種數學模式（余民寧，2009）。

二、試題反應理論的模式

IRT 的模式依據計分方式的不同分為二元化計分與多元化計分。二元化計分又分為一參數模式（ one-parameter logistic model ）、二參數模式

（two-parameter logistic model）與三參數模式（three-parameter logistic model）

（Birnbaum, 1968）；而多元化計分則分為等級反應模式（graded response model, GRM）、名義反應模式（nominal response model, NRM）、評定量表模式（rating scale model, RSM）與部分計分模式（partial credit model, PCM）。因本研究設計的關係，因此只介紹二元化計分的部分，分別介紹如下（余民寧，2009）。

（一）一參數模式（one-parameter logistic model）

一參數模式因為與 Rasch 模式相通，因此又叫做 Rasch 模式，如公式 (1)所示（Rasch, 1960）。

i＝1,2,…,n (1) 其中 是受試者答對某個題目的機率，i 是 n 個試題中第 i 個試題，θ 是受試者的能力，是試題 i 的難度，e 是底為 2.718 的指數，n 是測驗 的總題數。是一種 S 型曲線，其值介於 0 與 1 之間，其試題特徵曲線圖如圖 2-6。

圖 2-6 一參數模式的試題特徵曲線圖

資料來源：引自余民寧（2009）。試題反應理論（IRT）及其應用（頁 63）。

臺北市：心理。

由圖 2-6 可看出四條曲線的形狀是一致的，但其能力量尺的位置則有所不同。這表示一參數模式認為影響受試者作答表現的試題特性是「難易度」，並假設所有試題的鑑別度都是 1.0、猜對率為 0，也就是不考慮猜測度的問題。此模式對試題特性及受試者的作答反應有較嚴格的要求，

若這些要求都能符合，則估計出來的能力值就是受試者的真實能力，且其能力量尺是等距的。若正確率為 0.5，則會落在能力量尺上。也就是說，當能力值等於難度參數時，受試者答對的機率有 50%；當能力值大於難度參數時，受試者答對的機率會高於 50%；當能力值小於難度參數時，

受試者答對的機率會低於 50%。受試者的能力愈高，其答對的機率就愈高。

（二）二參數模式（two-parameter logistic model）

二參數模式為 Lord(1952)發表二參數常態肩型模式時提出來的，此模式也被視為是 IRT 的源起，之後再經 Birnbaum(1968)修改成較簡單的對數模式，如公式(2)所示。

i＝1,2,…,n (2)

其中是試題 i 的鑑別度，其值介於 0～2 之間。其他的符號意義與公式

(1)相同，其試題特徵曲線圖如圖 2-7。

圖 2-7 二參數模式的試題特徵曲線圖

資料來源：引自余民寧（2009）。試題反應理論（IRT）及其應用（頁 66）。

臺北市：心理。

由公式(2)可知，二參數模式多了試題的鑑別度，而鑑別度為難度在試題特徵曲線上的斜率值。由圖 2-7 可看出有的曲線的中段是比較陡峭的（如試題 1、3、4），有的是比較平緩的（如試題 2）。試題特徵曲線愈陡峭的，表示試題的鑑別度愈高；愈平緩的表示試題的鑑別度預低。當受試者的能力值等於試題難度時，此時的正確率為 0.5，表示能力的變化與答對率的變化的關係最為強烈。在二參數模式中，與一參數最大的不

同點是題目可以被允許有不同的鑑別度，而這些不同的鑑別度會對受試者答對題目的機率有不同程度的調節性影響。這種模式與實際資料的分析結果較為接近，因為命題者所設計出來的試題很難都具有相同的高鑑別度，有些題目的鑑別度總是不符合預期，但是依然能發揮部份的測量功能。

（三）三參數模式（three-parameter logistic model）

三參數模式為 Lord(1952) 的三參數常態肩型模式經過 Lord &

Novick(1968)與 Lord (1980)修改來的。這種模式主要是針對那些可以經由猜測來答對試題的測驗情況，如是非題、選擇題等，如公式(3)所示。

i＝1,2,…,n (3)

其中是試題 i 的猜對率，此猜對率指的是能力極低者猜對該題的機率。

其他的符號意義與公式(2)相同，其試題特徵曲線圖如圖 2-8。

圖 2-8 三參數模式的試題特徵曲線圖

資料來源：引自余民寧（2009）。試題反應理論（IRT）及其應用（頁 69）。

臺北市：心理。

由公式(3)可知，三參數模式多了試題的猜對率，每個題目除了有難易度與鑑別度的特徵外，還有可以被猜對的可能性，因此這種模式比二參數模式更能符合實際的資料。由圖 2-8 可看出試題特徵曲線更具有多

參、電腦化適性測驗（computerized adaptive test, CAT）

電腦化適性測驗因具有有效縮減測驗長度及增加能力估計精準度的優點

（Chen & Lei, 2005），因此國內外大型測驗機構均朝向以電腦化適性測驗取代傳統的紙筆測驗與電腦化測驗（computer-based test，CBT），如美國軍方電腦化職業性向測驗系統（ Computer Adaptive Test-Armed Services Vocational Aptitude Battery, CAT-ASVAB）、美國教育測驗服務社（Educational Testing Service, ETS）所辦理之英語能力認證測驗、商學院研究所入學測驗（Graduate

Management Admission Test, GMAT）、美國研究所入學測驗（Graduate Record Examinations, GRE）等皆屬此類。

CAT-ASVAB 系統每年要對近百萬人施測。以往紙筆測驗的版本需花費 3 個小時進行施測，改採後 CAT 測驗只需要一半的時間，也就是 90 分鐘，提高測驗效率；ETS 是目前規模最大的私人教育測驗及研究的非營利組織，其所承辦的托福（Test of English as a Foreign Language, TOFEL）自 1988 年 7 月開始實施 CAT，臺灣也於 2000 年 10 月開始實施 TOEFL-CBT（劉約蘭，2001）；

GMAT 在 1997 年 10 月辦理第一次的適性化測驗（楊淑如、蔡蕙仲，2009）； GRE 中的普通測驗（general test）自 1998 年由紙筆測驗轉換為電腦化測驗，

2002 年 10 月進一步轉換成 CAT（考選部，2007）。

電腦化適性測驗適合用以進行學習診斷，瞭解學生在某一特定領域之能力，

但所提供的訊息並不適用於錯誤類型診斷（余民寧，2009）。若欲深入探討個別受試者在特定題目可能出現之困難為何，則需加測更高層次之題目，以獲取相關訊息。

一、電腦化適性測驗的定義

電腦化適性測驗就是在測驗進行中，電腦隨時依據受試者的能力給予不同的測驗題目（Green, 1991），並根據受試者的作答狀況，選擇難易度最適合其目前能力的題目，直到達到預先設定的終止標準為止。

二、電腦化適性測驗的實施步驟

電腦化適性測驗的目的就是要將試題難度調整到盡量符合受試者的能力水準，因此施測者必須建置足夠的試題庫，以便從中挑選出適當的試題

（Millman & Arter, 1984）。此外另需依測驗目的設計適合的電腦程式，讓電腦自動選擇適合的題目供受試者作答。最後依據測驗結果估計受試者的能力水準（Lord, 1980）。由此可知，實施電腦化適性測驗的過程及步驟需透過詳盡規劃、檢核及預試，方能收事半功倍之效（余民寧，2009）。茲介紹如下。

（一）挑選試題反應的模式

依據研究需求選擇符合測驗目的之模式。其中二元化計分的模式包含一參數模式、二參數模式與三參數模式；適用於多元化計分的模式則包含等級反應模式、名義反應模式、評定量表模式與部分計分模式等。

以選擇題題型的測驗而言，目前最常被選用的是三參數模式。

（二）建置電腦化題庫

根據受試者學習階段、測量目的、各學科所欲傳達之知識，以及所欲探測之學生能力與技巧，設計、篩選出適合之題目。設計好的題目需經過預試、校正、統計檢驗等過程，確認每一題目均能精準測量學生特定能力、知識與技巧，方能納入題庫之中。建置好一套已校準過參數的電腦化題庫系統是電腦化適性測驗的必要條件。

（三）選擇測驗起點

實施電腦化適性測驗需考量相關因素，其中最基本的要求為試題的難易度一定要符合受試者的能力。而選擇測驗起點的方法有三：1.由難易度適中的試題中隨機抽取一個試題；2.完全隨機抽取一個試題；3.先調查學生的背景，再決定選出哪一類的試題。至於要選擇哪一種方法，

Lord(1977)認為只要總題數有 25 題以上，選擇哪一種方法對測驗起點沒有太大影響。通常電腦化適性測驗會提供每位受試者 3～5 題相同的練習題。測驗系統會根據受試者答題時的作答反應，利用最大近似值估計法估計受試者的起始能力（initial value）。

（四）選擇試題

選擇試題的方法有三：1.挑選能提供受試者能力估計最大訊息量的試題；2.利用貝氏選題法來挑選試題；3.挑選難易度最接近受試者能力估計值的試題。若使用貝氏選題法來挑選試題，要注意事前分配假設的影響，除非施測的題數夠多。

（五）估計受試者的能力值

電腦化適性測驗會在受試者每作答一題就重新估計一次受試者的能力值，而最常用的能力估計方法為最大近似值估計法（maximum likelihood estimation, MLE）與貝氏估計法（Bayesian estimation）。而貝氏估計法又分為最大後驗法（maximum a posteriori, MAP）與期望後驗法（expected a posteriori, EAP）。MLE 較沒有迴歸性偏誤，但會有較大的估計標準誤；

MAP 和 EAP 較容易有迴歸性偏誤，但估計標準誤較小（Lord, 1977）。洪碧霞（1989）認為在電腦化適性測驗的前幾題，使用貝氏估計法較為適

在文檔中國小二年級電腦化適性閱讀理解測驗編製 (頁 43-55)

第二章 文獻探討

第三節 試題反應理論與電腦化適性測驗

第二章文獻探討

第三節試題反應理論與電腦化適性測驗