• 沒有找到結果。

試題反應理論 試題反應理論 試題反應理論 試題反應理論( ( ( (IRT) ) ) )與古典測驗理論 與古典測驗理論 與古典測驗理論 與古典測驗理論

第二節 第二節 試題反應理論 試題反應理論 試題反應理論 試題反應理論( ( ( (IRT) ) ) )與古典測驗理論 與古典測驗理論 與古典測驗理論 與古典測驗理論

( ( (

(CTT) ) )相關評論 ) 相關評論 相關評論 相關評論

一一

一一、、、IRT 的特色、 的特色的特色 的特色

IRT 的特色大致可以從模式特性、試題參數特性、能力與分數量尺特 性、測量精準度與應用等幾個層面來看:(陳柏熹,2006)

(一)模式特性:

IRT 模式是針對單一試題的作答反應所提出的數學模式,同時考量 了受試者能力與試題特性對答對機率的影響,比古典測驗理論更為仔細 且精確。

(二)試題參數特性:

IRT 模式同時考量試題參數與受試者能力,因此所估計出來的試題 參數(難易度、鑑別度、猜對度)不會受到受試者能力所影響,也就是 說,不論誰來做這個題目,其試題難易度或鑑別度是固定不變的。反觀 在古典測驗理論中,試題參數則是完全取決於受試群體的能力。

(三)能力與分數量尺特性:

IRT 對受試者的能力估計值也不會受到試題特性所影響,所估計出 來的受試者能力值具有等距量尺的特性,亦即其能力量尺可以作加減乘 除的運算,而且根據 IRT 模式與概似函數(likelihood)所估計出來的程 度值,有比較強的數學理論基礎。反觀在古典測驗理論中,受試者的能 力值是測驗中各題目的得分加總(實得分數),忽略受試者之試題反應 組型,實得分數也不具備等距量尺的特性,因此也不適合直接進行四則 運算,更不適合拿來做 t 檢定或因素分析等統計運算。

(四)測量精準度:

IRT 的測量精準度是以訊息量(information)的概念來表示。訊息 量愈高,對受試者的測量就愈精準,測量誤差愈低。同樣的測驗對高能 力者而言,題目太過簡單而測不出其能力;對低能力者而言,題目可能 過難也測不出其能力;只有對中等能力者而言,較能精確地測出其能 力,而 IRT 的訊息量概念可以反映出測驗對不同能力者有不同的測量 精準度。古典測驗理論中,假設接受相同測驗的受試者其信度都相同,

因此測量標準誤也視為相同,如此與實際的測驗情況不相符,因為測驗 中的題目不見得對各種不同能力的受試者都適用。

(五)應用:

基於 IRT 的單向度假定與受試者能力估計的不變性,接受不同題 目的受試者其能力可以比較,因此就能讓受試者都接受適合自己能力的 題目,達到適性測驗的目的。IRT 的試題參數較不受樣本所影響,因此 很適合用來發展題庫;而 IRT 的能力也較不受試題參數所影響,所以 也適合進行能力分數的等化。而根據古典測驗理論,很難進行題庫建 立、試題等化與試題偏誤之分析。

二二

二二、、、IRT 、 與與與與 CTT 之異同之異同之異同之異同

試題反應理論係測驗學者為改進古典測驗理論的缺失而發展的測驗 理論,兩者理論的差異:(黃國清、吳寶桂,2006)

(一)理論的相異處 1.樣本的影響

古典測驗理論之難度指標、鑑別度指標,隨受試者能力水準而 變,是樣本依賴。而試題反應理論的試題參數之估計不因樣本不同而

改變,如難度參數 b 及鑑別度參數 a,經過不同群體受試者的施測,

仍舊保持不變。

2.題目難度的影響

古典測驗理論的觀察分數隨測驗的難度而改變,會造成不同受試 者接受不同題目的結果無法直接比較。而試題反應理論之受試者能力 估計不因測驗難度而不同,且不同受試者的能力值可直接比較。

3.測量誤差

古典測驗理論中,所有受試者接受同一測驗的結果皆具有相同的 測量誤差,無法反應受試者間之個別差異。而在試題反應理論中,測 量誤差之估計因受試者程度而不同,因此有不同的受試者能力估計 值。

4.測驗結果的解釋

古典測驗理論以受試者在測驗中答對的試題得分即原始總分來 做解釋,忽視了受試者的試題反應組型,因為答對試題的難度有高有 低。而在試題反應理論中,則考慮試題難度的訊息,因此原始得分相 同者,能力估計值不見得相同。

5.理論的假設

古典測驗理論依據弱勢假設(weak assumption),其理論模式 簡單易行,適用於多數的心理測驗資料。而試題反應理論基於強勢假 設(strong assumption),雖然限制了許多資料的應用性,但可帶來 較準確的測驗結果。

(二)理論的共通處 1.試題分析

若試題反應理論在只考慮一個參數下(亦即單參數模式),則兩 種理論所推估出的難度呈現幾乎相同的極高正相關;相同道理,計算 題目的鑑別指數時,試題反應理論在雙參數模式下,其推估出的鑑別 度參數 ai,應會與古典測驗理論所計算的鑑別度指數(如點二系列相 關係數)呈現高度正相關。

2.理論的假設

試題反應理論與古典測驗理論都有其假設的前提,其中題目的

「單向度」、「知道—正確假設」之前提都是必要的。

3.受試者評定的一致性

對於受試者的優劣評定,雖然試題反應理論較古典測驗理論更嚴 謹(例如受試者答對題數相同時,試題反應理論能分辨出兩受試者之 間的能力高低),但兩種理論所得的能力值及總分,具有一致性,都 有極高的正相關。

三 三 三

三、、、學者評論、學者評論學者評論學者評論

余民寧建議:在小規模班級的教學評量下,可能是適合使用古典測驗 理論的情境;但在大規模的測驗評量情境(如升學考試、檢定考試、或就 業考試等)下,可能才是試題反應理論派得上用場的地方。

而三個參數的對數型模式,適合用來解釋一般學校的考試題目的作答 情形。就一般課室內用的(如教師自編成就測驗)、升學用的(如升高中 的基本學力測驗和升大學的學科能力測驗)、或檢定用的(如全民英檢、

TOEIC、TOEFL、GRE 等)考試題目而言,多半都是以單選的選擇題型

的試題(即 multiple-choice items),作為考試的測量工具,此時使用三個 參數的對數型模式,是解釋學生的作答反應行為最為恰當的測量模式(余 民寧,2005)。

IRT 之理論架構嚴謹,應用層面較廣,其所提出的測驗特性較符合實 際的測驗狀況,雖然 IRT 的模式複雜,但隨著電腦科技的進步,利用電腦 軟體進行 IRT 的分析更顯輕而易舉,因此以 IRT 編製測驗或試題分析逐漸 被應用在大型測驗當中。(陳柏熹,2006)

IRT 雖計算複雜,非一般測驗編製者或使用者能確切理解應用,但其 試題難度參數、考生能力指標及訊息函數皆架構在同一量尺上,可以提供 更精確的能力評估,加上應用 IRT 電腦自動化編製測驗的發展已臻成熟,

因此成為需嚴謹編製的大型測驗的最佳選擇。IRT 的另一個理想是希望能 以最少的題目達成預期要求的目標訊息量。(潘靖瑛,2005)

IRT 以試題訊息量(item information)及測驗訊息量(test information) 來評定測驗的「測量準確性」,因此在考生能力評估上,IRT 比「古典測 驗理論」更為精確(許擇基,1995)

綜合上述,研究者擬取得較多的試題參數,以便分析獲得更完整的試 題資訊,決定應用試題反應理論(IRT)洛吉數三參數模式,讓本研究更 具有科學客觀的價值。