• 沒有找到結果。

第二章 文獻探討

第一節 試題反應理論

測驗可系統化呈現出受試者的某些潛在特質 (Allen & Yen,1979)。然一個優 良的測驗不僅提供教師作為改進教學的診斷,還可藉由測驗的結果,得知學生的 學習成效;更提供學生適當的回饋,並增強學生對教學目標的了解,激發出學習 的動機。測驗理論 (test theory) ,亦稱為心理測驗理論,主要在於詮釋測驗訊息 間的實證關係 (empirical relationships)。一般的學者將其歸類成二大學派:一為古 典測驗理論 (classical test theory, CTT) ,主要是以真實分數模式 (true score model) 為基礎,其公式為X =T +e,公式中X 為受試者經過測驗得到的分數,即觀察分 數 (observed score) ;T為受試者真實的能力值 (true ability),e為測驗中所產生 的隨機誤差 (random error) ,即受試者經過測驗得到的分數等於真實的能力值與 誤差值之加總;另一為現代測驗理論 (modern test theory),主要是以試題反應理 論 (item response theory, IRT)為架構 (余民寧,1991)。

試題反應理論有以下的基本假設。

(一)單向度 (unidimensionality)

測驗試題都測量到同一種共同的能力或潛在特質;此單一能力或潛在特質(因 素)包含在測驗試題裡的假設,就是單向度的假設 (余民寧,1992a)。

(二)局部獨立性 (local independence)

局部獨立性的涵義是指當受試者在某一測驗試題作答時,不受其它試題的 影響,也就是受試者在任何一道試題上的反應是獨立的 (王寶墉,1995)。

(三)非速度測驗 (non-speeded test)

受試者無法作答完所有的試題,是受試者能力不足,而不是由於測試的時 間不夠所致。

(四)知道-正確假設 (know-correct assumption)

在潛在能力特質之下,若受試者知道某一道試題的正確答案,他必然會答 對該道試題;反之,若受試者答錯某一道試題,則他必然會不知道該道試題的 答案 (余民寧,1992a)。

基本模式常用的為單參數對數模式 (one-parameter logistic model, 1PL) 、二 參 數 對 數 模 式 (two-parameter logistic model, 2PL) 與 三 參 數 對 數 模 式 (three-parameter logistic model, 3PL),每一種模式都依其採用的試題參數的數目 多寡來命名,都僅適用於二元計分 (余民寧,1992b) 。分別臚列說明如下。

其中ci是試題i的猜測率,其他的符號意義與公式(2)相同。

在試題反應理論與古典測驗理論之基本理論比較上,其中較明顯的差異有 以下五項 (方秀惠,2003;余民寧,1991;黃國清、吳寶桂,2006; Hambleton

& Cook, 1977)。

(一)在樣本的影響上

在古典測驗理論中,難度指標就是受試群組答對該題的百分比,亦稱為通過 率。鑑別度指標就是試題分數與測驗總分之相關係數。在此定義下,將表示隨著 不同受試群組進行同一份測驗,因不同群組會有不同的能力表現,故估計出不同 的試題參數值,這情形表示試題參數值有樣本依賴 (sample-dependence) 或團體 依賴 (group-dependent) 的特性。在試題反應理論的試題參數值估計中,不會受 樣本不同而有任何影響 (sample-free) ,不論難度或鑑別度,在經過不同被施測群 組的測驗下,仍不受影響並保持不變。

(二)在難度參數值上

在古典測驗理論下,受試者經過測驗得到的分數(公式中的X )會隨測驗的難 度值不同而有所差異。換言之,受試者的得分係依測驗而改變 (test-dependent) , 故會導致不同受試者在接受不同的測驗後,得到的分數無法拿來直接比較。但在 試題反應理論下,受試者的能力值不會因測驗不同而有不同影響 (item-free) ,亦 指不同受試者在接受不同的測驗後,所估出來的能力值即可直接比較。

(三)在測量誤差的估計上

在古典測驗理論下,不論多少受試者在接受同一份測驗,其測驗得到的分數 (公式中的X)都會具有相同的測量誤差,故無法得知受試者間的個別差異。而在 試題反應理論中,因受試者能力值不同,會使測量誤差估算值也不同。

(四)測驗結果的分析

在古典測驗理論下,一般測驗結果的分析,是由受試者在測驗中答對的試題 給予以計分,卻沒有討論到每一道測驗難題的難度不盡相同。但在試題反應理論

中,會隨著答對的試題難度參數不同而不同,故在考慮試題難度的情形下,就算 真實得分相同的受試者,其估計出的能力值也不一定相同。

(五)理論的假設方面

古典測驗理論本身的假設為較弱的假設 (weak assumptions) ,故其理論模 式運用與發展較廣,亦適用於大多數心理計量的測驗資料。然試題反應理論本 身的假設為較強的假設 (stong assumptions) ,雖然限制了許多測驗資料的應用 層面,但較強的假設卻可帶來較強的測驗結果 (方秀惠,2003;傅怡銅,2002)。

試題反應理論與古典測驗理論之基本理論比較上,其中共通處有以下三點 (黃國清,2004;黃國清、吳寶桂,2006)。

(一)試題參數的分析

兩種理論在進行試題分析時,若試題反應理論在只有難度值的單參數對數 模式下,則兩種理論所估算出的難度值將呈現幾乎相同的極高正相關;同理,

在計算試題的鑑別度時,試題反應理論若只考慮雙參數對數模式下的兩個參 數,其推估出的鑑別度值ai,應會與古典測驗理論所計算的鑑別度 (如點二系 列的相關係數) 呈現高度正相關 (Lord, 1980 )。

(二)理論上的假設前提

試題反應理論與古典測驗理論都是建立在有假設的前提下,其中「試題的 單向度」與「知道-正確」這二項假設前提,對前述兩種理論而言,都是必要的 假設前提。

(三)能力值及總分評估一致性

對於受試者的能力值估算,雖然試題反應理論比古典測驗理論嚴密(例如受 試者答對的總題數相同時,試題反應測驗理論亦能分辨出兩位受試者的能力高 低),但兩種理論所得的能力值及總分,對測驗而言具有一致性,都能有極高的 正相關。

根據上述的內容,古典測驗理論雖比較不夠嚴密,但其理論卻淺顯易懂,

易於在實際測驗上實施,尤其是小規模測驗;而試題反應理論雖嚴密,但理論

較多數學艱深難懂的公式,並適用於大規模的樣本測驗。所以兩套測驗理論各 有應用上的空間,雖各有所長,但也有不足及限制之處,故依據測驗的種類不 同而做出適當選擇,才能有效提升測驗功能(方秀惠,2003;黃國清、吳寶桂,

2006)。

試題反應理論的運用很廣,其應用領域也不同,分述如下。

(一) 結合電腦上的運用 1.類神經網路方面

鄭海東 (1998) 嘗試使用類神經網路來估計適性測驗題目參數,並比較IRT 參數估計與類神經網路參數估計在不同樣本大小時,對題目參數估計之準確度。

結果顯示,類神經網路估計的參數值接近IRT所估計的結果。而蔡志煌 (2000) 則 是結合類神經網路及題目反應理論,實際建構出一套可在視窗作業系統下執行題 目反應理論之參數估計系統。Wacgiwuak, Elmaghraby, Smolikova and Zurada (2001) 將通用迴歸類神經網路,成功運用於函數預估上。

2.電腦化適性測驗

Wainer (2000) 說明適性測驗的方法是給予難度適中的題目,由受試者作答之 後,若受試者答對則給更難的題目,否則給予較簡單的題目,如此一來,不但可 以快速逼近估計受試者的能力,亦可節省時間。

Weiss (1980) 出了第一本論電腦化適性測驗的論文集,內容是利用試題反應 理論用於電腦化適性測驗的實例。而 Billy (1988) 研究結果發現學生接受電腦作 為教學工具,其在空間測驗成績比紙筆測驗為教學工具來得高。蕭顯勝、黃啟彥、

游光昭 (2005) 設計出適用於IRT模式的科技素養適性測驗題庫及系統,實施網路 化適性測驗。而李村林 (2006) 指出,在電腦化適性測驗時,一旦有異常的猜測 行為發生時,就會對能力估計值產生某種程度的影響。研究中再以 MSD方式分 析猜測行為對能力估計值的影響,結果發現,即使僅有1次的猜測行為,也會對 能力估計值造成約0.48的誤差。

3.認知診斷評量

賴泳伶、洪燕竹、林居鶴 (2003) 說明認知診斷測驗,主要的目的是透過 測驗的結果,分析學生對於教材中哪些概念不會,藉以提供教學評量回饋或補 救教學的參考。葉俊谷 (2007) 開發「完成國小五年級數學課程之數常識電腦 化診斷測驗系統」,分析學童在數常識中,各組成成份間的發展具有顯著之差 異,並且比較及統整學生的學習迷思,並提供迷思概念類型。曹書豪、林原宏 (2007) 研發一套網路施測系統,繪製受試者知識結構之階層次序圖,可提供教 師參考,有助於教師針對個別學生或全班進行補救教學,亦可以做為往後改進 教學的參考。

(二) 大型測驗

例如基本學力測驗、美國的托福測驗 (TOEFL, Test of English as a Foreign Language)、多益測驗 (TOEIC, Test of English for International Communication)、

GRE (Graduate Record Examinations) 等。

黃鈺菁 (2001) 針對第二次正式施測北基等八區的「高職免試登記入學方 案」英語科,進行分析,得到題庫中新題型達到預期的難度水準、具高鑑別度、

符合良好試題特徵曲線與選項分析的要求,因此具有使用價值,所組成題本(整 份測驗)的信度係數值均高於0.8,顯示題本的穩定性很高。此外,林妙香 (2007) 建議教育部誠實面對基測成績是作為分發入學依據而不是作為門檻功用,應該 以常模意義的量尺分數型態 ( scale with property of normative meaning) 取代目 前心測中心所用的量尺計分方式。

(三) 理論研究 1. 參數議題

在相關研究上,常利用實徵資料與模擬資料相互比對的方式,去估算能力值 或三個試題參數 (鑑別度、難度及猜測度)。

趙素珍 (1998) 採用實徵資料與模擬資料並用的方式,利用三參數對數模式製

造二元計分資料,來測試BILOG-MG、ICCNP、MULTILOG、PARSCALE等四種 IRT軟體的實際應用情形及其參數估計精準度。在能力值的估計,發現三個試題 參數皆為常態分配的模擬情境下,以BILOG-MG 和MULTILOG較適用,至於在 試題參數值的估計,都以BILOG-MG的估計最為精確與穩定。鄭海東 (1998) 及 蔡志煌 (2000) 則結合類神經網路及題目反應理論,執行題目反應理論之參數估 計。而李銘峰 (2004) 提出一個模糊適性測驗受試者能力估計之模式,將模糊理 論帶入項目反應理論,其作法是將受試者在答題過程中估計的能力給予模糊化,

變成一種模糊數,利用模糊迴歸之運算估計受試者能力值。

2. DIF議題

DIF (Differential Item Functioning) 的研究著重於不同的性別、種族或地區等

DIF (Differential Item Functioning) 的研究著重於不同的性別、種族或地區等