第二章 文獻探討
第一節 詴題計分類型
以認知測驗中,有多種題型的呈現方式,但在詴題結構分析的計分方式中可 分為二點計分與多點計分兩類,以下以此兩類加以介紹。
壹、二點計分
二點計分法是客觀計分法中使用最廣泛的,其只對學生的作答反應做全對或 全錯的判斷,不需要依據作答反應的完整程度或正確程度而給予部分分數(歐滄和,
2002),其可概分為標準計分法及非標準計分法。標準計分法是指各題答對得1分,
答錯得0分之計分方式;而不為標準計分法時則為非標準計分法,常用之二點計 分之非標準計分方式可分為下列四種(劉湘川、簡茂發,1993):
一、答對第i 題得Ci分,答錯得0分,其中Ci>1。
二、答對第i 題得Ci分,答錯倒扣di分,其中di與Ci無關,且0<di<Ci。
三、m選項之單選題答對第i題得Ci分,答錯倒扣Ci/(m-1)分,其中Ci>0,m≧2。
四、m 選項之複選題答對第 i 題得Ci分,答錯倒扣Ci/(2m-1)分,其中Ci>0,m≧2。
二點計分法因具有方法簡易、時間節省及結果一致的特性,而被廣泛採用,
像傳統的是非題、選擇題等都是採用此計分法(歐滄和,2002)。二點計分常用的 基本詴題反應模式有下列幾種(王寶墉,1995):
一、潛在線性模式(Latent Linear Model) 二、完全量尺模式(Perfect Scale Model) 三、潛在距離模式(Laent Distance Model)
四、一、二、三參數常態肩形模式(One, Two, Three Parameter Normal Ogive Models) 五、一、二、三參數對數型模式(One, Two, Three Parameter Logistic Models;1PL,
2PL, 3PL)
六、四參數對數模式(Four-Parameter Logistic Model)
其中又以1PL、2PL、3PL 的詴題反應理論最常被使用,以下將分別扼要說 明其模式(余民寧,2009)。
一、一參數對數型模式
一參數對數型模式相通於歐洲、丹麥學者George Rasch(1960/1980)所獨自建 構的模式,因此亦有「Rasch 模式」之稱,其數學公式如下:
Pi(θ) ≡ Pi(Xi = 1|θ) = eDa̅(θ−bi)
1+eDa̅(θ−bi) i= 1,2,…, n 公式(2-1)
其中Pi(θ)代表任一位能力值為θ 的學生在詴題i 上做出正確反應的機率,是 一條S 曲線,其值介於0 與1 之間;a̅ 代表所有詴題共有的鑑別度參數,通常是 設定為1;bi代表詴題i 的難度參數;D是一個量化因子、一個常數,其值為1.7或 1.702;n 代表該份測驗的詴題總數;e代表以2.718 為底的指數(exponential)。
一參數對數型模式並不把鑑別度考慮在內,亦即假設所有的詴題鑑別度都是 相等的,因此每一條曲線的彎曲形狀都相同,僅差在曲線座落位置不同而已。一 參數對數型模式通常適用於二點計分的心理測驗情境中,即學生作答不需猜測,
因作答無對錯之分,只有選項類別(即A 選項或B 選項)之分。
二、二參數對數型模式
二參數對數型模式是美國學者Birnbaum(1968)修改自Lord(1952)之原始二參 數常態肩形模式而成,因其比常態肩形模式容易計算及解釋,目前已取代之而成 為主要的詴題反應模式之一,其數學公式如下:
Pi(θ) ≡ Pi(Xi = 1|θ) = eDa̅(θ−bi)
1+eDa̅(θ−bi) i= 1,2,…, n 公式(2-2)
其中各符號的定義與公式(2-1)所示相同。二參數對數型模式與一參數對數型 模式一樣都不把學生的猜題因素考慮在內,使二參數對數型模式可適用於自由反 應的詴題分析,或詴題不太難的單選題測驗資料分析,對於有良好施測指導語之 能力測驗亦可適用。
三、三參數對數型模式
三參數對數型模式亦是由Lord 和Novick(1968)與Lord(1980)修改Lord(1952) 之前所提出之三參數常態肩形模式而成,目前亦已取代常態肩形模式,而成為分 析成就測驗資料的基本詴題反應模式之一,其數學公式如下:
Pi(θ) ≡ Pi(Xi = 1|θ) = ci+ (1 − ci) eDa̅(θ−bi)
1+eDa̅(θ−bi) i= 1,2, …, n 公式(2-3)
其中各符號的定義與公式(2-1)所示相同,唯多出一個ci代表機運參數,是指 能力很低的學生答對某詴題的機率。三參數對數型模式特別適用於四選一的單選 題,且答錯不倒扣分數的成就測驗資料的分析,但對心理測驗資料的分析則是不 適用的。
傳統的認知測驗中的二點計分詴題順序理論(ordering theory),首先由 Airasian & Bart(1973)提出,又稱為 OT 理論,竹谷誠(1980)考慮兼顧相依程 度之詴題順序,提出二點計分詴題關聯結構理論(item relational structure),簡稱 IRS 理論。
總結以上所敘述之二點計分是指受詴者的作答反應,結果只有對或錯二種情 況,成為正確(1)與錯誤(0)之二元資料。常見的測驗題型包含單選題、是非 題均屬於二點計分的題型。
貳、多點計分
余民寧(2009)認為多點計分往往都是適用在心理測驗資料的分析,因心理測 驗大多是測量受詴者的某種潛在特質(如:人格、態度、性向等),其作答並沒有 所謂的「標準答案」,所以受詴者沒有必要進行猜題,因此,在此種作答情形下,
三參數對數型模式中的 c 參數是不存在的,所以此類模型是根據一參數對數型模
式所發展而來,可作為分析李克特量表所屬的各種測量工具,可以改進社會科學 研究的測量精確度,對於社會、行為科學及教育研究的量化方法學而言,具有著 實的貢獻。以下將介紹四種基本的單向度多點計分模式。
一、等級反應模式(Graded Response Model, GRM)
Samejima(1997)所提出的的等級反應模式,是延伸 Lord 的二參數常態肩形曲 線而來,即是適用於詴題選項間具有次序大小關係的一種詴題反應模式。等級反 應模式歸屬於 Thissen 和 Steinberg(1986)所分類的差異模式(difference model)之一,
因估算受詴者在某個類別上的作答反應之條件機率時,頇使用到兩階段的步驟,
算是一種間接的 IRT 模式,其詴題題型可參考下列範例。
範例:您對政府即將實施「以英語作為第二個官方語言」政策的看法?
A B C D E
極反對 反對 沒意見 贊成 極贊成
得 X 分 0 1 2 3 4
1 2 3 4
由上述範例可知,等級反應模式的詴題,在每個作答選項或類別之間均呈現 獨立、互斥,且有一定的次序大小關係存在,像問卷調查、心理測驗通常使用這 種具有等級反應資料的計分方式來進行。
二、名義反應模式(Nominal response Model, NRM)
Bock(1972)和 Samejima(1972)所提出的名義反應模式,是一種可適用作答名 義反應和次序反應資料的直接的 IRT 模式,也屬於 Thissen 和 Steinberg(1986)所 歸類的除總模式(divide-by-total model)之一,通常被當作是所有除總模式和直接模 式的通式,其詴題題型可參考下列範例。
範例一:你最喜歡下列何種顏色?
(1)紫色 (2)橙色 (3)藍色 (4)紅色
範例二:某題數學題的解法有多種,計分方式是根據考生的作答形式,再加以判 斷。他是採用下列何種方式解題的?
(1)直覺式 (2)演算法式 (3)折衷式 (4)嘗詴錯誤式
由上述範例可知,名義反應模式的詴題,每個作答選項或類別之間是呈現獨 立、互斥,但不具有任何次序大小關係的,因此可以用來分析單選題中每個選項 被選中的機率,像這類的詴題也出現在人格和態度的測量裡(Thissen,1993)。
三、部分計分模式
Masters(1982,1988a,1988b)所提之部分計分模式,是具有次序反應資料的 模式和計分特色,並加以擴增計分功能和特色的一種詴題反應模式,亦可適用在 各種次序反應資料的計分上,其發展目的是要解決成就測驗中認可部分知識存在 事實的一種計分方式,即對於答對部分詴題者給予部分得分,是用來區分於「全 部答對和全部答錯」這種二點計分的不公帄現象(余民寧,1992;Yu, 1991),目前 於態度測量、人格測驗或社會科學中問卷調查經常使用的李克特氏量表的作答反 應
資料,部分計分模式皆可適用,詴題題型可參考下列範例。
範例一:√5.4 ÷ 0.3 − 9 =?
【計分標準:解出結果為 3 者(即完全答對)得 3 分,解出結果為 9 者(即 具有除法及減法部分知識者)得 2 分,解出結果為 18 者(即僅具有除法部 分知識者)得 1 分,而解出其他結果者(即完全答錯)得 0 分。】
範例二:作文題:「夢想」(請以不超過五百字的篇幅,寫出一篇作文)
【評分標準:分成六個級分(分數 1、2、3、4、5、6)來評定作文的品質,
級分愈高,表示作文品質越好,反之,則表示作文品質愈差。】
部分計分模式是假設每一題詴題的作答,都可以分成幾個步驟來完成,學生
通過一個解題步驟,即可得到局部分數,來代表他具有局部的知識。
四、評定量表模式
李坤崇(1999)認為評定量表是一種用來作為判斷依據的行為或特質,依其品 質做一種數量化的程度分類,可評量學生本身的情意發展狀況、人格、策略或學 習態度,並指出學生在每種屬性中不同程度的量表,而 Wortham(2005)認為評定 量表最適用於觀察學生在學習過程中行為的發展與態度的表現,此種量表是針對 社會科學研究中最常使用的李克特氏五點評定量表的態度測量問卷而來,李克特 氏評定量表在測量尺度的假設上,是假設彼此間的距離是等距的,即受詴者所選 擇的每一項的心理距離是相等的,此量表的型式通常是在行為品質的兩個極端特 徵間,分成三個、五個或七個等級,以作為觀察時判斷及評量行為的基架(吳明清,
1991),其詴題題型可參考下列範例(余民寧,2009)。
範例一:您對政府擬恢復對國中小學教師進行課稅的問題看法如何?
(1) 非常不同意 (2)不同意 (3)沒意見 (4)滿意 (5)非常同意
範例二:您於最近一週內發生頭痛的頻率為何?
(1) 從未發生(未及一次)
(2) 偶爾發生(介於一到二次之間) (3) 時常發生(介於三到四次之間) (4) 一直發生(五次以上)
Linn 和 Grnlund(1995)、Linn 和 Miller(2005)指出評定量表具有下列三項重 要的功能:
(1)可將觀察方向導引至具體、明確界定的行為或特質層面。
(2)可提供一個共同的參照架構,即能使同一組特質來比較每一個學生的優劣。
(3)可提供記錄觀察者評判結果的簡便方法。
評定量表可用於評量廣泛、多樣的學習結果和身心發展的方向,Linn 和 Gronlund(1995)將評定量表使用領域分為「過程或程序評量」(process or procedure assessment)、「結果評量」(product assessment)等兩類,而評定量表特別適用於「過 程或程序評量」,因此種評量可觀察每位學生在相同行為的表現,亦可在共同的 量尺記錄、評定學生的學習結果。本研究的測驗是使用評定量表,詴題計分方式 是由 0 至 1 之間分成 100 等份,依據學生選擇答案的程度給予計分。
在二點計分底下無法呈現詴題難易的區別,因此劉湘川(2007)提出多點計 分有助於異質詴題的分析比較,透過多點計分規格化的轉換,具有二點計分考慮 到作答者的反應程度,更可以呈現出詴題難易程度的分析比較。