國立臺灣師範大學教育心理學系 教育心理學報,民間, 20 期, 131-182 頁
潛在特質理論與其應用於
遍性測驗之評估研究
林世莘
本研究主要的目的在於探討: (一)潛在特質理論與傳統測驗理論二者之間的關係。口潛在 特質理論JIi舟於遍性測驗時,對於心理測量所產生的助益。 研究者使用電腦模擬的方式,模接受試者對項目的反應,並就遍性測驗。已知興。未知的 兩種情況模擬反應的過程,從事系列性的追琮觀察。 結果發現: 一、潛在特質理論的 a 多數、 b 參數及。參數分別與傅統測驗理論的 r b1 1 、 P 及個人得 分等奮起計數之間均有很高的相關 o 二、。已知時的遍性測驗路徑,根攘 b 參數進行車聚分析結果可以得到三種類型。這三 種類型的路徑,也就是為、中、低三種不同能力;t.ì1學受試者的路徑。這些路徑主要是依照能 力與項目難度相匹配的原則所形成。就測量的功能而言,使用題庫中不到50彩的題目所測量 的結果真使用所有題目所測量的結果是一樣的。而且隨著越數達步增加,測量結果也達漸趨 於穩定。 三、對 0 未知的遍性測驗路徑進行軍聚分析的結果顯示:根攘 a 星星數可以得到爾頓,根 據 b 參數可以得到三頰,根擾。參數則可以得到四頰。每一種類型的路徑都代表某個能力水 車範圍內受試者的路徑。路徑的形成主要還是依照能力與項目難度相匹配的原則。惟,在測 量的功能上則晏不穩定的現象;測量的結果並不會因題數的增加而趨於種定。 被被本研究的結果可以得到本研究的結論是: 一、潛在特質理論與傳統測驗理論二者之基本觀念上是相通一致的。 二、將潛在特質理論應用於遍性測驗是可行的,而且可以改善測量工作。但是因為目前 使用的方法產生的偏差仍舊相當大,所以在技術上仍有待進-步研究突破。 / \ 本文最後研究者根據結論提出,估計。有關按衡的改善建詣,以利遍性測驗的實際應 用。• 131
.,
對潛在特質理論的出現,測驗學界是以「革命」性的字眼來加以描述 (Marco,1977; Warm
1978) 。顯然的,造反映出傳統測驗理論遭到困難,無法再滿足測量上的需要。林-真(民71)指出 傳統測驗理論的兩大困難:第-是在估計項目難度時受到樣本程度干擾。第二是在估計個人能力時受 到項目難度影響。這兩個困難在測量工作上會形成下列兩個現象: 廿一個測驗工具往往是針對某-特定的受試組靈而編製。如為國中生編製的智力測驗,在高中、 在小學都無法直接使用。當然也可以編製→個貫穿小學、園中、高中的智力測驗,但是這個測驗恐怕 會長得不切實際。 同兩位受試者的測驗結果要比較,必讀做同-個測驗。例如「小學生與大學生的智力誰高 ?J 這 個胡適就很難直接去岡答,因為小學生與大學生,很難有-個二者均適用的測驗。 學測驗的人很快就會發現,上述兩種現象有例外,那就是個別智力測驗一一比商量表。但嚴格的• 132 •
教育心理學報 說,比西量表的編製,並不是傳統測驗理論的概念,反而是潛在特質理論的概念。因為不同的受試者 ,有可能作不同的題目,但結果是可比較的。 測量學者負有改善測量工作的責任。這改善包括使測量更簡便、測量更正確。潛在特質理論的興 起,已為此種改善測量工作奠定深厚基礎。適性測驗就是潛在特質理論在實際應用上改善測量工作的 具體方式。 上述傳統測驗理論的困難,導致現行測驗出現瓶頸的現象,那就是測驗種類繁復,非但測量未改 善,而且使用上有更繁瑣之處。 就是因為潛在特質理論有希墓突破傳統測驗理論的瓶頸,驅使研究者進行本研究。 基於上述動機,研究者期望本研究的完成能達成下列四項目的: 第一、了解潛在特質理論的內涵。 第二、比較傳統測驗理論與潛在特質理論之間的關係。 第三、探討適性測驗在潛在特質理論下如何運作。 第四、探討適性測驗在潛在特質理論下如何改善測暈工作。 畫、文獻棵樹 一、潛在特質理論: (→潛在特質理論與項目反應理論潛在特質理論 (Latent
trait
theory ,簡稱 LTT) 與另→個名詞,項目反應理論(I temresponse
theory ,簡稱 IRT) ,在心理測量領域中有交五混用的現象,隨著學者的習債不同,而有所不悶,如 Urry
(1
977)
,
Weiss
(1 983) 較常用潛在特質理論,而 Lord(1
980a)
,
Ham-bleton
&
Cook
(1
977)
,等則較常用項目反應理論,然而基本上,這兩個詞所指的東西,並沒有 什麼差別。 Weiss (1 983) 曾指出這兩個名詞的關係,他認為將 LTT 應用於能力測驗或是成就測 驗上,便是 IRT 0 IRT 強調的是測驗項日 (test item) 與受試者反應 (responseof
exami-nees) 。而 Ham
bleton
(1985) 則認為 LTT 與 IRT 並無不同,差別在於 LTT 容易與因素分析(Factor
analysis)
,多向度量尺分析 CMultidimensional sca Ii ng) 及潛在結構分析(Latent structure
analysis) 等研究潛在架構的方法產生混淆,因為畢竟 LLT 是在研究測驗 項目與個人反應之間的關係,所以他較傾向使用 IRT' 然而這些說法並未引起心理測量學者們的爭 執。事實上 Weiss (1 983) 自己也承認混用 LTT 及 IRT 這兩名詞。因此本研究所指 LTT 與 IRT 並無不同。那麼不管使用 LTT 或使用 IRT ,這個測驗理論最常使用於能力測驗,尤其是 選擇式 (mul
tiple-choice) 能力測驗 (Warm ,1978)
,乃是個不爭的事實,因此在本研究中所指 之 LTT' 亦僅針對 LTT 在能力測驗上應用或 IRT 在能力測驗上之應用而言。或許也正因為 LTT大部份的研究均用於能力測驗上,所以也就沒有過分去辨別 LTT 及 IRT 的必要。 仁}潛在特質理諧與潛在特質棋王主潛在特質理論包含著一組數學模式 (a
family of mathematical models) (Hambleton
&
Cook
,
1977; Weiss
,
1983)
0Lord
(198()a) 亦指出 IRT 的觀點是從數學陳述出發來說明個人反應與項目特性的關保,並進而推知個人潛在特質與個人反應的關係,它們之間存在的→種數學函 數關係。由於數學函數關係的簡明及其映射關係的模式化,學者們亦常用潛在特質模式 (Latent
trait
model 簡稱 LTM) 替代 LTT' 實際上 LTT 及 LTM所指亦是完全相同的東西。 目什廈是潛在特質理論所謂潛在特質理論是用來解釋測驗項目,受試者反應及個人特質三者之間相互關係的→種理論架 構 (Ham
bleton
,
1985)
0 i整個理論中包含了一組完整的命題,這些命題是用來說明個人對測驗項潛在特質理論與其應用於遍性測驗之評估研究
• 133 •
組成之諸元素,逐項加以闡述: 1.測驗項目:在 LTT 中,測驗項目是一種刺激變項;研究者將這些變項基現給受試者或刺激 受試者,以獲得可被觀察及可被紀錄的反應活動 CWeiss, 1983) 。 從實驗心理學操弄刺激變項的觀點來看,測驗學者是根據什麼測驗項目特性(i
tem
charac-teristics) 來操弄測驗項目呢?也就是說一個測驗設計者是會根攘什麼測驗項目特性或怎樣的測驗項 目特性來安排測驗呢?在 LTT 中描述測驗特性,觀念上仍就是以項目難度 Citem difficulty) 、 鑑別度 Cdiscrimination) 等指數來描述一個項目的特性。在 LTT 的觀念中,每一個測驗項目 均有其「不變的」指數來加以界定。所謂「不變J Ci nvaríant) 指的是這些用來描述測驗項目的指 標,並不因為樣本不同,而有所改變。因此,在 LTT 中會將這些指數稱為項目參數(i tempara-meter) CLord
,
1980a) 所踩的是一種絕對性的觀點。這顯然與過去傳統測驗理論的相對性觀點不 相同。以干研究者就 LTT 中使用的項目參數,逐一加以探討。在討論項目參數時,我們必須先瞭解
LTT 中另外兩個重要的名詞,那就是項目反應函數(i tem
response
function ,簡稱 IRF) 和項目特性曲線(i tem
characteristic
curve ,簡稱 ICC) ,此外,還須瞭解兩個在 LLT 中與個人反應及個人特質之間關係的概念,其中一個是個人對測驗項目,反應答對的機率,通常是以 P 來 表示;另一則是個人能力在一個連續線上所在的位置,通常是以 0 來表示。這里,先探討 IRT
l!J..
ICC 二個概念。 IRF 指的是從個人能力映射到個人反應答對機率的一種數學函數闢係 CLord , 1980a) 。這個函數關係的定義域是個人能力。,理論上可定義在十∞到一∞。而其對應域是個人民應 答對的饑率 p ,理論上對應範圍乃介於 O 與 1 。函數關係則是以 P(o) 來表示,整個 IRF 如圖 1 所 刀可。 定義域
8
函數關係 P(O) 個人反應答對機率P
團 1 項目反應商數圍 自圖 1 可以看出:一個 0 透過 PCO) 恰可以對映出一個 P ,不同的。,可能對映出相同的 pj 但 是相同的。不可能對映不同的 P 0 IRF 函數 P(o)=P(u=1)
0u=
1 表示通過或答對 'u=O表示答錯或未答 (Lord ,
1980a)
0 IRF 則是被以下所要討論的項目參數所定義,至於在 LTT 項目 參數有那些,其又如何定義 IRF 以及定義出來之函數關係的種類,是 LTT 的核心所在,都是以 下陸續要討論的重點。至於 ICC 是將 IRF 的函數關係表達於正交座標平面圖上"以橫軸 (X 軸) 表示個人能力。,以縱軸 (Y 軸)表示個人民應答對機率 P 時,。與 P 所形成的數對在座標平面上對 應點聯結而成的曲線(林一真,民 71j Hambleton
,
1985; Hambleton
&
Cook
,
1977) 。當。 越大時 P 值也越大,墨現一種單調性遞升 Cmonotoneincreasing) (Lord
,
1980a)
,簡單的說 ICC 便是 IRF 之函數園。各種不同的項目特性曲線可以反映出不同模式之 LTT 。P(OJZCI+1+e1173:Mi
>(公式 1)
報
一連續線上的位置。而 a , b, c 所指的說是項目參數,也就是用以描述測驗項目的指數。國 2 之實線
部分曲線,便是 a,
b
,
c
決定後所形成之 ICC(Lord
,
1980a) 。以下研究者將藉用函數 1 的 IRF及圖 2 的 ICC '說明測驗項目及用以描述測驗項目之項目參數。 學 理 4心 育 教
• 134 ..
P(O)
1.0 轉草、r
-f
-7ι--- →----τ---/大
c
。
一。。.5
。
+∞ 項目特性曲軸 (1) 參數 b :在 LTT ,函數 1 之中的 b 值是難度的指數,每一個測驗項目均有其 b 值 (Warm ,1978)
,它決定了 ICC 的位置, b 值越大,表示測驗項目越難。從國 2 可以看出實線部分之 IC-C 有一個轉折點,在此一轉折點之前 ICC 下凹,之後 ICC 上凸,那麼此一轉折點的橫軸坐標值,是 一個 0 值便是 b 值 (Lord , 19個a) 。在 ICC 上,通過此一轉折點的切線斜率也是最大 (Hambleton
&
Cook.
1977) 。另外當測驗項目不可能被猜對時,則在這一轉折點的縱軸坐標值,是一個 P 值,將會是 0.5
(Hambleton
,
1985; Lord
,
1980a)
,若測驗項目:有可能被猜中的話,則此 一轉折點的縱軸坐標值,將會超過0.5 。在 LTT 中, b 值一般均會落在一 2 及 +2 之間(林一真, 民 71;Hambleton
,
1985)
,
b 值越接近一 2 ,則語測驗項目越簡易, ICC 會偏左些,個人反 圖 2PCO)
8
'
J I I@,
J
J
J J'
--r---r O. ∞@
2.o
g
o 口, -eON--。
3.00 2. ∞ 1.∞ 固 s 不開 b 值不項目特性曲軸(@b=-2.0
,
a=1.39
,
c=0
@b =+2.0'
a 目 1.誨 'c=O -1.∞g
0_3. ∞ -2.∞潛在特質理論與其應用於遍性測驗之評估研究
• 135 •
應答對的機率 P 值會大些,如圖 3 ,實線部分,第→測驗項目的 b 值便是一 2 。若 b 值越趨近+
2
,
則該測驗項目便較難些, ICC 也會偏右些,如圖 3 '虛線部分,第二測驗項目的 b 值便是 +2' 個 人反應答對的懺率也會小一點。(2) 參數 a 在 IRF 函數 1 中的 a 值,是項目鑑別度的指數。在國 2 ICC 上轉折點的切線斜率
與 a 值是成正比例的 (Hambleton ,
1985; Lord
,
1980a; Warm
,
1978) 。實際上聽折點上切線斜率值等於 .425a
(1 -
c)
,此地的 c 以後再加說賜。當個人能力。值逐次改變時,個人反應答對機率 P 值也隨之在改變;當 0 改變,而 P 值改變的程度,便可以從 a 值反映出來 (Lord,凹的a) 。從 理論上看 a 值可以界定在一∞到+∞之間,但通常我們對負的 a 值不感興趣。另外實際上也不易求得
一個大於 2 的 a 值,因此通常使用的 a 值多半會介於 O 與 2 之間 (Hambleton
&
Cook
,
1977) 。通常 a 值接近於 2 時,則表示該測驗項目鍾別性能佳, ICC 呈現險昇健坡,如圖 4 第二測驗項目( 虛線部分)的 a 值便是接近+
2
0 a 值若接近 o ,小於 0.8 ,貝。這儕測驗項目就不可說是好的項目了(Warm
,
1978)
,那它的 ICC 也會呈現緩升坡,如圖 4 第一測驗項目(實線部份)的 a 值就是接 近 o 的。PC
/J)g
罰 。I
J'
。
。面 .o s 動 。s
og
o -3. ∞ -2.ω- 1.∞ 0.00 1.00 2. ∞ 3. ∞ 圖" ~間 a 值是項目特性曲線(@bEO扣 a=O.恥 c=O
、
@b=O.O
,
a=
1.
90'
c=O
(3)
c 參數:在 IRF 函數 1 中的 c 值,指的是當個人能力。值等於一∞,間是一種完全缺乏某種能力時,飽仍能答對測驗項目的棧率 (Lord ,凹的a) ,個人也許根援部分知識而猜測 (Lord
&
Novick
,
1968)
,也可能命題本身提供了某些暗示的線索, ];竟是由於配置選項不當提示了個人而答對測驗項目,因而增加了個人反應答對機率 P 值的提高 (Ham
bleton & Cook
,
1977)
,因此 c 參數
有時亦被稱為猜測參數 (guessing
parameter)
,但 c 值的存在區升高,並不全然是個人對測驗
項目的隨撥猜測所導致,尚有其它上述的可能性,因此 c 參數有時也被稱為偎性犧會分數 (psuedo
chance score leve
l)
(Lord ,凹的a) 。從國 2 的 ICC 來看, c 值所指的是 ICC 在往低走向 時,逐漸靠近一∞的 P 值。大部份的 c 值是界於 o 與0.4 之間,當測驗項目 c 值大於ß\G等於 0.3 時, 此測驗項目,不是一個好的項目, c 值越大表示測驗項目愈盞,如國 5 ,實線部份第-個測驗項目的c 值便是接近於 0.30 c 值越小越好,測驗項目的佳能亦越怯。 c 值為 o 是-個最理想的狀視。如闡
• 136 •
教育心理學報PCO)
S
。咱.。?//'
,
@
"
建釗L
一.白..
..
口. 一3.00 -2.∞-1. 00 O.ω 1.∞ 2.ω3.00g
o 。可 .D ON--個 5 不同 c 值之項目特性曲線 (@b=ω'a=ω9'c =0.25; \
@b =0.0' a =0.99' c =0.0
(4)
0 參數:也有學者稱 T 參數 (Hambleton
,
1985)
,即使是個人能力。值趨近於+∞,也不一 定能說個人反應答對機率 P 值必然是 1 ,只能說是接近 1 。因為個人畢竟時有筆誤、粗心的鐵會,或 甚至未解或誤解測驗項目的意義 (Barton&
Lord
,
1981; Ham bleton
,
1985) 。當測驗項目的 8 值越大,表示該測驗項目有問題的可能性也越大。理想狀況是 8 值趨近於 0 。圖 2 賞線部份的 ICC ,其 s 值便是趨向於 O 。倘若此 ICC 高走向時,當 0 接近+∞時的 P 值未接近 1 ,則它與 1 之間的 距離便是 8 值,簡言之 , o=l-P(O=+ ∞)。 以上分別說幾個項目參數 b 、 a 、 c 、 8 加以探討,這些項目參數正是 LTT 中用以描述測驗 項目的指數。由各種項目參數不同的值做出不同的組合,便可形成各種不同測驗項目的 IRF 。若再 將 IRF 形成正交座標圖,便可得到各式各樣 ICC 。應用 LTT 的測驗學者,便是操弄這些項目參 數來從事測驗研究或是測驗編製工作。 2. 受試者反應:在 LTT 中,個人對測驗項目的反應通常以 u 來做記錄,如在第 i 個項目的反應 ,則以 Ul 記錄。當答對測驗項目,即個人反應正確,則 u.=l ,若個人反應不正確時則 U. 口 0; 當 個人對 k 個測驗項目做反膺,則可記錄為向量 (Ul' Uz '
...…
Ul ' ... 'Ut)
,此地叫不是 1 便是0 。此一由 1 歲 O 組成的向量亦可稱為項目反應組型 (pattern
of item response) (Lord &
Novick, 1助8) 。在 LTT 中,受試者反應的兩種機率,一是個人反應答對測驗項目機率,即前述 的 P(O) ; 表示當個人特賀。值已知,答對某測驗項目的饑率,亦可寫成 P(Ul= 110) 條件撥率的 形式。這是針對某一特定測驗項目而言。另一個是個人反應通過某些測驗項目的機率,表示當個人能 力。值已知時,答對某些測驗項目的機率,亦即 0 值已知時,個人反應形成某種項目反應組型的機率
,可以寫成 P
(Ul' UZ...Uk
I
0)
(Ham bleton
,
1985) 。從理論上看,不管。值為何,只要。已知,對於 k 個測驗項目而言,個人反應會有 f 個不間形式的項目反應組型。任何形式都有機會得到 ,只是得到的機率不同而已。例如,當個人能力。值接近+∞,那麼他的項目反應組型的向量有可能 是單完向壘,也有可能是零向量,亦間可能答對全部測驗項目,也可能全部答錯。只不過這時候我們 會說項目反應組型得到單元向量的機率會比得到零向量要多一些。這是 L1' T 中-個重要的觀念。若 是我們將此觀念反過來看,那就顯得更接近事實,而且更為有用了。間已知的部份由原先的。,變為 項目反應組型。這是符合事實的,我們是很難先知道。的,測量中我們會先得到項目反應組型的。}
潛在特質理論與其應用於遇性測驗之評估研究
• 137 •
個固定的項目反應組型,亦有可能被任何的。所得到,只是不同的。,得到的棧率也不同。例如當一 個人得到的項目反應組型為單元向量,亦即通過全部測驗項目,則我們可能比較願意相信他的。是接 近+∞,而不會去相信他的。是接近一∞。 3. 個人特質:在 LTT 中,個人特質所扮演的是中介變項的角色,是一個心理建構 (psychological construct)
,幾乎所有從事心理學研究工作者,所感興趣的便是這個變項,尤其是認知心 理學家。對於人類行為的理解,在心理建構的基礎之上,才不致於破碎及無能。當然心理建構也有它 的特點,如它是一種假設性的,它是無法直接觀察的,物理特性上它是不存在的,自然它也就可能有 具有喝。也正因它可能是正確,也可能是錯誤,所以就更具可研究性。 LTT 中的個人特質的特性就如同上述,所以它更常被稱為潛在特質(l atent trait) 及潛在變 項(l atentvariable)
,看不見摸不著的,到底存在與否還是個問題,但它經常被拿來對個人行為做心理學上的描述 (Anastasi,
1982; Hulin
,
Drasgow
&
Parsons
,
1983; Lord
,,
1980a;
Weiss
,
1983) 。然而心理測量學者,所關心的並不是個人特質,因為這東西他們畢竟無法去面對它 ,更遑言去度量它。他們所真正感興趣的是呈現測驗項目,觀察紀錄個人反應,進而推估個人特賀。 他們欲瞭解個人特質,去H只是依附個人特質,大事研究如何去安排測驗項目及如何去從個人反應中推 估個人特質 (Weiss , 1983) 。因此在 LTT 中,個人特質也只以一個 0 參數來加以描述。這不同於 以 a 、 b 、 c 、 8 參數來描述測驗項目。本研究所欲研究的個人特質是「能力」這一個心理建構,所 以 0 所指的通常是個人能力的指數。理論上。參數可以是在主∞之間,但是沒有自然零點及單位,因 此習慣上是標準化的,亦即以 O 為平均數, 1 為標準差,以便。易於理解,因此。便會經常界於 +3 與一 3 之間,但 0 仍舊有可能超出::t 3 之外 (Warm ,1978)
4.
LTT 的理論模式:前述的三項 LTT 組成的基本元素一一測驗項目、受試者反應及個人特質 ,三者之間的關係如何串起來,亦即整個理論架構如何運作起來,關鍵就在所跨用的理論模式。 LTT 的理論模式串聯了測驗項目與受試者反應之間,再從受試者反應到個人特質之間 (Hulin ,Drasgow
&
Parsons
,
1983) 。串聯這三者的,經常是一些數學函數,所以整個 LTT 的理論模 費 1 LTT 的理請讀 5克處理資料性質 理 論 模 式
一分類資料 潛在線性模式
(Latent Linear)
完全量 t 尺模式
(Perfect Scale)
潛在距離模式
(Latent Distance)
常態肩形模式(One-
,
Two-
,
Three-(單一、三、三參數〉
Parameter Normal Ogive)
對 數 才真 式
(One-
,
Two-
,
Three-(單一、二、三參數)
Parameter Logistic)
四參數對數模式
(Four-Parameter Logistic)
多分類資料 名義反應模式
(Nominal Response)
等級反應模式
(Graded Response)
局部給分模式(Partial Credit Model)
連續性資料 連續反應模式
(Continuous Response)
• 138 •
教育心理學報式大抵均是數學模式 (Ham
bleton
,
19師) ,還是 LTT 的核心所在 (Weiss ,1983)
,是 LTT研究工作者爭議最多,也是工作努力最多之所在。那盾是整個理論架構復雜的起漲也就是在這衷。
Hambleton
(985) 將 LTT 的理論模式根攘處理資料的性質,將理論模式分為三大類,詳如 表 1 。由表 1 可以看出目前的 LTT 的理論模式,大抵均集中於二分類資料的理論模式。所謂二分獲 資料,指的就是 0 與 1 的資料,即受試者反應苦正確,以 1 表示,否則以 O 表示。 研究者僅列寧常聽屑形模式及對數模式: (1)一、二、三參數常鹽、肩形模式:Lord
(1980a) 指出:偎設有一潛在變項 Y/ ,它的大小決定了個人對第 i 個測驗項個反應的正 確與否。另有一常數 r1
'它是指對第 i 個測驗項目的常數。當個人的潛在變項 Y1
' 大於常數 r1 '
則它對第 i 個測驗項目反應正確,記為 u1=1 。當 Y/小於 r l' 則表示反應錯誤,記為恥 =0 。在 這里, Y/ 潛在變項的內涵相當復雜,因為它的大小直接決定了個人對第 i 個測驗項目的正確與錯韻 。因此前述個人能力。值與 Y/ 會有相當密切的關係,因為決定個人反應正確與杏,個人能力。是相 當重要的因素,但均不是唯一的決定因素。換句話說, Y1
' 的組成有一大部分是() ,另亦有一部份其u,
=l
r
,
u
,
=O
.
.
, ,
t';
, =p;。
圖 6 Y/ 在三個() *2塵土造條件分配及戶 '11. 之迴歸轍 , Y1
'=r1 之直線 (區自 Lord ,1980a)
。
它未必可預知的因素,沒有系統的在影響 Y/ 。因此偎定個人。固定,則可能形成的 Y/ '也會有相 當大的變異。基於上述, Lord 再進一步骰定 :CD在 0 的連續線上,每一個 0 上,均會形成許許多多 的 Y/ '而它們的平均數 p'll , ,也就是這 Y/ 集中的位置;此 μ心 1 ,與 0 之間呈現線性關係。@在 每一個 0 上, Y/ 的離散情形也是同質的,即在每個 0 上 Y/ 的條件變異量 a2d. 都是相同的,可用 a2卜,表示。@在每一個0
上 Y1
的條件分配均是常態分配。如個6 所示。從圖中我們可以看出個人 能力。下,其對第 i個測驗項目之反應正確纖率 P(8)=P
(吭 '>rI18) , 它是等於標準化常態分配曲線下的一塊區域面積。現若將 r1 標準化為 (r1-p'II.)/aJol ' 用一 L
1
表示,則-L
1
在
0
固定 狀態下,會成為標準化常態分配。為方便討論,將0
及
Y/ 均標擎化為平均數 o ,標準差 1 的量尺 ,則根攘 0 預測 Y/ 的迴歸方程式便是 μ'd , =ρ'1
00 ' 此 ρ'1 指的便是 0 與Y/ 的相關係數,此姐歸 線的估計變異誤便是 1 一 ρ戶,也就是前述的 u丸,現在再將 -L1
= (r1-p' J! .)!a1.. 改寫一下便成 公式 2:
潛在特質理論與其應用於遍性測驗之評估研究
一 L
Ti 一 ρ'1'0
一-1 -V
1 _p/2
ρJ a 一 1 -V
l-p/2
b.=~
-ρl' (去式 2) (公式的 (公式 4)• 139 •
其次令 a1
、 bl
分別如(公式3) 、(公式 4) 則一 L1
=al(bl-())
,
L1=a1
(0
-b1
) 。由圖 6 也可 以看出每一個 0 上Y/ 的標準化常態分配曲線上 Y1
大於們的那一區域面積便是P1(0) , 表示個人的)= f 立法ze-z%dg
=
f
~
(bl-
0)而 e
= j L 1 4 e - d h
一∞ v 2π=f 州 -b1)1e-zzh
一∞ Ý2
7r
(公式 5) (公式 6) 對第 i 個測驗項目反應正確的機率。當 0 上升時,這一塊面積也有增大的趨勢,亦國當 0 上升時,其 反應答對機率也必然逐漸上升,而這個反應答對機率 P1(0) , 便可以函數 5 及函數 6 的形式表示出來 (Lord, 1980a) 。上述 p'II , =ρ/0 中的 ρJ 指的是 p'll ,與 0 的相關係數,是姐歸線的斜率,
它與測驗項目的鑑別度有密切的關係。另外 Y
1
=r1 此一平行於 0 軸 (X 軸)的直線,其 r1 所在的 位置,與測驗項目的難度有直接的關係存在。(a1(0-bl) 1
-Z2/a
P1(0
)=CI+
(1 一 C1) J 一∞?古7r
e
(公式 7) 上述推演結果形成的函數 5 讀函數 6 ,指的是三參數常態肩形模式,因為從函數 3 及函數 4 ,得 知其涉及的項目參數有 a 參數及 b 參數。 a 寥數是測驗項目的鑑別度指數, b 參數是難度指數。現在 令 a1=1
,則形成函數 8 ,便是單一參數常態肩形模式。(0
-b
1
1
-z2/a
P
1(0)=
J 一∞高7r
e
(公式 8) 此-模式只是將二參數肩形模式中 a 參數模式均設定為 1 。另外若在二參數模式中亦考慮 c 寥數,節 前述的猜測的指數,則可形成如面數 7 的三參數常態肩形模式。 LTT 的發展中,以常態肩形模式發跡較早,從1943年起至 1970年有相當多的學者如 Lawley(1
943; 1944)
,
Tucker
(1
946)
,
Lord
(1
952)
,
Bock & Lieberman
(1970) 及 Kolakowski
&
Bock
(1
970)
,
(H
ul泊,Drasgow
&
Parsons
,
1983)1 , 從事常態肩形模式之 LTT 的研究 ,過了七十年代位就乎少之又少了,原因可能是對數模式的提出。(3) 一、二、三參數對數模式
Birnbaum
(1切8) 提出對數分配面數(logisticdistribution function)
,如面數 9:
ψ﹒ (x)=eX
/ (1
+e
X)= 1/
(1
+e-
Z )(一∞<x<∞) (公式 9)
• 140 •
教育心理學報φ(x)={x-Le-z%dz( 一∞<x<∞)
j 一∞ V2
n-
(公式 10) 二者的分配函數圓形差異極小。此地累積常態分配函數便是前述常態肩形模式所採用的數學函數。 Birnbaum 並指出'1'(1. 7x) 與 φ(x) 之間的關係是: !φ(x) 一 ψ(1.7x)
I
<0.01
表示二者之間差異極小。 ψ (1 .7) 與 φ(x) 之間差異關係在 Warm
(1
978)
,及Bi rnbaum (1 968) 均有詳細討論,此處只引用其結論 :φ(x) 與 ψ (1 .7x) 的分配情形是極其相似的。然而在 應用上對數分配函數要比累積常態分配函數簡便得多,因為累積常態分配函數涉及積分的問題,在數 理處理上麻煩得多 (Hambleson ,1985; Hulin
,
Drasgow
&
Parsons
,
1983; Warm
, 1978) 。
以下研究者將逐一將三種對數模式加以探討。 @單一參數對數模式:
在西元 1966 年,丹麥數學家 Georg Rasch 獨立研究測驗理論,便已提出單一參數模式的理 論。另外跟進研究的學者有 Anderson ,
Kearney & Everett (1968); Wright
(1
968
,
1977);
Wright
&
Panchapakesan
(1
969);. Wright
&
Stone
(1
977) i(Hambleton
,
19前)。至 今仍有相當多的學者擁護單一參數對數模式,尤其是美國芝加哥大學的 BenjaminD. Wright
。 畢竟它有它吸引人的長處,例如它涉及的參數較少,易於處理。再者,在估計參數時所遭遇的問題顯 然少於其它的對數模式 (Hambleton&
Cook
,
1977; Hambleton
,
1985) 。由於 Georg Rasch 的關係'單一參數對數模式也被稱為 Rasch 模式 (Rasch Model)。 它的 IRF 如函數 11:
P1(O)
1
+e-1月區。 -1
bl) (公式 11) 其實若罔到函數 1 之上,令 CI=0
'al
= 且常數,則函數 1 便可形成函數 11 。顯然地它假定一個 測驗當中所有測驗項目鑑別度都一樣。另則假定無猜測因素影響個人反應 (Hambleton , 1985) 。換 言之,影響個人反應答對機率的大小,除了項目參數以外,一切便自個人能力。所決定。這樣的值定 在實際狀況下似乎是相當困難,因為在一般狀況下的測驗很難符合所有測驗項目鑑別度都一致的基本 假定。此外,個人反應答對機率完全由個人能力決定也是不容易達到,因為影響個人反應答對機率的,還有其它如猜測、動機等其它系統或非系統影響的因素 (Hulin ,
Drasgow
&
Parsons
,
1983)
。 @二參數對數模式。 這是 Birnbaum (1 968) 所提出的,它的 IRF 如函數 12:
p i ( 0 ) = 1
(公式 12) 它比單一參數對數模式多考慮一個項目參數 a ,即鑑別度的參數,在二參數對數模式里不再是常數 ã' 而是每一測驗項目均可能不同的 al 。但若比起函數 1 ,它仍是令 CI=0
,也是不考慮猜測的因 素。因此二參數對數模式是較為適合於開放性做答的測驗,而較不適合於選擇式的測驗,因為只有開 放性做答,猜測因素影響個人反應答對的犧率,可以降到較接近 o ,比較可能符合二參數對數模式(l
Julin
,
Drasgow
&
Parsons
,
1983) 。f 三 J
@三寥數對數模式:
潛在特質理論與其應用於遍性測驗之評估研究
• 141 •
個項目參數 c 來描述測驗項目,其 ICC 如函數 1 '圖 2 中實線部分曲線,便是一個標準的三參數對數 模式的 ICC 。當 0 趨向於 ∞時,P
((})到底是否等於 o '是三寥數對數模式涉及的→項重要問題 。在前述的單一參數對數模式及二參數對數模式中,實際上均是骰定 c 舉數爵 o '而三參數對數模式 中,所提出之 c 參數是可為 o ,也可能是大於 o 0 c 寥數的介入使得 P((}) 的全距由原先的 O 到 1,
縮小為 c 到 1 ,對 ICC 會有壓扁的現象,如國 5 0 c 參數影響公式 4 中的叭,當 c 上升,其實們 也要上升,若要保持 bl
不變,則必須縮小 ρ l' ,所以說當 c 參數上升時, ICC 的壓扁現象,也就 是 ICC 上升的坡度減緩 (Warm ,1978)
,實際上是減低了測驗項目的鑑別度。 在實際的測驗資料中,尤其是選擇式測駿項目,當一個能力極差的,郎。趨近一∞者,他對測驗 項目反應答對率 P((})
,未必見得等於 o ,換言之,以單一參數或二參數對數模式是無法解釋的。這 樣的現象,在 LTT 未發展出來之前已受到學者的關心。最早的解釋是將其歸於隨棧猜測,則認定 C 參數為 11m 'm 是提供的選項數。然而在實際的測驗狀況之下,即使是→個人對某一測驗頃目完全 不懂,他也不會隨機猜測 (Lord&
Novick
,
1968)
0Lord
(1 974) 指出估計的 c 參數值通常小於 11m' 理由是命題者通常會配置→些誘惑性很高的錯誤選項,能力極差的個人,也比較容易選上 這些錯誤答案。 Warm (1 978) 的研究指出,四個選項 A 、 B 、 C 、 D 的測驗,標準答案為 C 的測 驗項目,估計出來的 C 轍會高啥。這現象說明了,命題者傾向以 C 答案做幫確答案,而個人反 應亦有傾向選 C 的答案。 Warm (1978) 的解釋認為命題者傾向於將正確答案隱藏在中間,當個人不 知道正確答案時,其反應亦傾向於選擇隱藏在中間的選項做為正確答案。 c 參數的解釋,正如同上述的多樣性,顯示出在三參數對數模式中的 c 參數並不如 a 、 b 二參數 那樣有系統地在變化。故而引發許許多多學者,如 Lord
(1
969
,
1970
,
1974
,
1975
,
1980)
,
Ham-bleìon
&
Traub
(1
971)
,
Marco
(1 977) 的研究 (Hul恤,Drasgow
&
Parsons
,
1983) 。 甚至有的學者持反對意見。 Wright (1977) 認為 c 參數介入對數模式,大大破壞了實際測量工作 的邏輯,而且最主要的問題是 c 參數的介入並不能滿足實際測量工作上的需要;他引用 Lord在1968 年的研究指出 Lord 在三參數對數模式中參數的估計並不是聚欽得很理想,而且結果並不十分體定 。其實這現象至今仍存在,許多學者也正努力從事改善的研究工作 CJones ,1982
,
1983; Lord
,
198
1,
1982
,
1984) 。這只是→個技術上的問題,→時可能還無法完全滿足實際測量上的需要。但就 整個三參數對數模式的概念上來看,它頗符合-般測驗的概念,尤其是針對選擇式的測驗(Ham-bleton
,
1985;
Hul泊,Drasgow
&
Parsons
,
1983) 。因此它仍被絕大多數學者所接納,例如Warm
(1 978) 便指出三參數對數是符合事實的。 LTT 的大師級學者如 ETS(Educational
Testing
Service) 的 LordUSCSC (United States Civil Service Commission)
的 Urry 以及明尼蘇達大學的 Weiss' 大揖均是從事三參數模式的研究。最近的實證性研究
<
Jones
,
Wainer
&
Kaplan
,
1984; Thissen
&
Wainer
,
1985) 也以實際測驗結果符合三參 數對數模式,而進→步支持三參數對數模式的可靠性。因此在本研究中 LTT 所採用的便是此三學 數對數模式。 @四星星數對數模式:四參數對數模式比上述三參數對數模式又增加一個項目舉數 o ,用以描述測 驗項目。在單一參數及二參數對數模式中,當 0 趨向於+∞時,其 P((}) 都等於 1 當 0 趨向於一∞ 時,P
((})等於 0 。換言之,在單→及二參數對數模式中,個人對某測驗項目反對答對的機率,除 了 a 、 b 參數之外,便完全由能力。所決定。當個人能力極高時,閣。等於+∞時,則可保證答對該 測驗項目,因為 P((}) 等於 1 。當個人能力極差時,郎。等於一∞時,則可確定無法通過測驗項目, 因為 P(o) 等於 O 。前述三參數對數模式中,項目參數 c 的介入,便是討論當 0 趨向一∞時,P (0)
未必是 O 的問壇。此地的四參數對數模式中, 0 參數所涉及的是 ICC 的另→端,即當個人能力。趨 向+∞玲,P
((})也未必是 l 的問單 (Hambleton , 1985) 。其 IRF 如函數 13:
• 142 •
教育心還學報ò.-c.
P1((})-C1+Y有訂訂ie423
(去式 13)Barton
&
Lord (1 98l)的研究中使用了四參數對數模式,結果發現:多 Tò 參數對於個人能力。的估計並無助益。因此 , ò 寥數始終沒有引起學者的興趣。 二、潛在特質理輸與傳輯瀾艙理輸
乍看之"f LTT 的觀念與傳統測驗理論 (Classical
Test
Theory,簡稱 CTT) 的觀念截
然不同。然而 Weiss (19間)認為 CTT 的觀念中早說隱含著 LTT 的觀念,甚至指出 CTT 就 LTT 的→個簡單模式。 Hulin 等(1 983) 也認為此二者之間是局部重疊的。以下研究者擬簡要 比較 CTT
"&
LTT 二者,探討其異同:H 能力參數。與真正分數
CTT 的最重要目的就是要根據受試者反應組型計分所得的觀察分數 (observed score) 讀稱 貪得分數 (obtained
score)
,來推估受試者的真正分數 (ture score ,以 τ 符號)。正如同在/ \ LTT 中,恨鐵受試者反應組型估計個人能力。,以便推估受試者真正的。所在。 在 CTT 中的'1" ,從理論上看,指的是對同一受試者實施同一個或復本測驗無限多次,得到無限 多個觀察分數,這些電察封數的期望值便是 τ 。因此若以 x 代表觀察分數,則 τ 與 0 的關係便可如去 式14 。在 LTT 中已知 P((}) 會隨上升而遞升,亦可推知是P
j
((}) 也是隨。r=EK)zEEUI=ZLE(U1)
=耳 1xP(Uj=
11
(})+
0
XP (Uj=
01
(})J
=芷Pj(())
(去式 14)上升而遞升的。所以說 τ 與 0 的關係也是當 0 上升 τ 亦會上升的 (Hulin ,
Ðrasgow
&
Parsons
,
1983) 。至此 τ 與 0 的關係一白了然。難怪 Weiss (1 9,間)指出 CTT 的 τ 與 LTT 的。是顛倒的 ,所不同的只是它們各自使用不同的量尺罷了。 其實。與 τ 真正的差異是在功能上。若有兩個測量相同能力的測驗,而其中→個測驗項目較為艱 難,另一個比較簡易,現→受試者同時接受此二測驗,理論上看,受試者能力在兩測驗上是-致的, 但所得的三個 τ 甜不一定會→樣的。很有可能在前-個測驗所得的 τ 會小些,因為測驗項目艱難,不 易答對。這真顯現一個 Lord (1980a) 所指出的 CTT 之缺點,那就是 CLL 中 τ 的量尺是被所選 用的測驗項目所左右。這也使得 CTT 在實際應用上面值一些難題,那說是測驗重覆的現象
(
Warm
,
1978) 。往往基於標車化使用的理由,測量相間能力的測驗,經常會不只-個。因此從CTT 看, τ 的使用是有很大的限制。 / \ 上述 τ 的限制,在 LTT 的。事數,並不存在。因為 0 的估計不只和反應答對與否有關,更與 項目參數有直接的關係。也就是,在 CTT 答對一題就是一題,不管是怎樣的→題;而在 LTT 中 答對→題是一題,但尚得看看是怎樣的→題,是艱難的?抑讀是簡易的?答對的意義不同。也正因為 此一特性,使得遍性測驗 (tailor testing) 更加有實際意羲。因為遍性測驗正是根按每個受試者 的能力水車,選擇適當難度的測驗項目給予實施,因此每位受試者不一定接受相同的測驗項目,但在LTT 下,他們的結果是可比較的 (Hulin ,
Ðrasgow
&
Parsons
,
1983) 這在 CTT 是辦不到的。
臼項目參數與項目統計數
潛在特質理論與其應用於遍性測驗之評估研究
• 143 •
統計數 Otem statistics) 來描述測驗項目。 Lord (1980的指出 CTT 是以反應正磷受試者之百
分比,做為難度指數(以 P 表示) ,是以項目分數與觀察分數的點二系列相關係數(以的 x 表示) 或二系列相關係數(以ρlX 表示〉做為鑑別度指數。根攘前述二參數常態肩形模式中。與 Y/ 的關係
'Lord
(1 980a) 指出 LTT 中的 a 、 b 項目參數與 CTT 中的 P 及 ρlz 的關係分別如公式 15 及 公式 16:
ρlz a1=ý1 苟言b.=
--L.L
.ρlz (合式 15) (公式 16) 公式 16 中的 rJ 指的是圖 6 中的 rl; CTT 中的 P 便是 rl 以上的常態曲線內的面積,當 rl 上升峙, p 便會減小。可見 LTT 中的 b 參數與 CTT 中的反應正確受試者百分比 P 是基互為消長 的關係。Warm
(1 978) 指出 CTT 中所使用 P 與樣本能力有關係。當受試者能力偏高時, p 值會升高 ;反之則 P 會降低。除此之外,Lord
C1980a) 指出 P 的矛盾現象;二個測驗項目 P 值的高低順序, 會因取樣不同而改變順序,如圖 7 所示。就樣本 A (能力偏低者)而言,第 1 題比第 2 題難;說樣本B
(能力偏高者〉第 2 題比第 1 題難。 Warm (1 978) 認為這現象不是取樣誤差的問題,而是 P 本身 不是-個適當的難度指數。P
1
1.
0
0.0
。
圖 7 A 、 B兩個樣本輿兩個項目的闢係Hambleton
(1 985) 亦指出 CTT 中所用的鑑別度指數 ρlx 與所取接本能力分佈的情形有密切 關係,當樣本能力分佈廣時, ρ1" 亦較有升高的可能。 在 CTT 中所使用的 p 、 ρFix E車 ρlx 均會受取樣所影響,也正因此, CTT 的難度及鑑別度 指數,只堪稱項目統計數。 LTT 的二大目的,其-是估計個人能力參數 θ ,其二便是尋求不變的項目參數。所謂「不變」 指的就是不因樣本改變而改變的意思。從 LTT 的理論上看,項目參數 b 、 a 、 c 是不會隨樣本而改變的。
同測量的精確性• 144 •
教育心理學報Hunlin
(1983) 指出在 CTT 中,最主要的三個測量精確性指數,一個是測驗信度(以 ρ"x 表示) .另一是測量變異誤 (11 ;)。從公式 17測驗信度定義上看來, ρ口,與 11: 根本就是同-岡事 。其中 11: 是指真正分數的變異數。值得注意的是 .CTT 的 P"x 與 11~ 的變異均來自於全體樣本 2 σ ρ ,--
'::"~ xx 11~ + σt (公式 17) ,而且也是將此指數反應間全體樣本。換句話說,對於全體樣本的測量,無論其能力水準如何, ρ口, 及 ut 都是同→個。 CTT 無法說明測驗在某能力水章中的測暈精確性如何,或甚至針對某-受誠 者而言,測量精確性如何。事實上,任何測量工具的精確性都會因所測量特質之程度而有所不同,正 如同我們拿天平稱毛譜,天平的精確性會不理想。叉,當以極艱難的測驗項目去測量→章能力極差的 受試者,結果沒有一個受試者答對,則此一項目精確性一定低。但我們用此同一測驗項目去測量能力 偏高者,情況就會不同。顯然 CTT 所使用的精確性指數,是無法勝任上述的工作。 CTT 的 px ,,' 常是以重測信度、折半信度、庫李信度 (Kuder-Richarsonformula-20).
來加以估計。顯然的,這些估計用的係數,也會隨著取樣不同而有不同。LTT 中引用項目訊息函數 (item
information
function ,簡稱 IIF) 的觀念,來說明測量 精確性的問題。根據 Warm (1 978) 的說咧,項目訊息與 ICC 每→個 θ 點上的斜率有密切的關係 。從它的定義企式 18 看,項目訊息是 P1(0) 對。第-階導數的平方 P?(O) 除以答對反應續率 P1(0) 再除以反應答錯機率。 Ql(0)=1-P1
(0) 如公式 18I({}
,
Ul)=P/2(0)/Pl(0)Ql(0)
這樣的一個精確性指數有它的特性如: (公式 18) 1.項目訊息函數不像 CTT 的 ρ口,或 11: 是整個測驗的指數,它沿襲 LTT 的觀念,是針對 單→測驗項目而言。 2. 它不像 CTT 的 Px ,,'或村是單一的指數,而是 0 的函數。顯然每~個 0 均會對應到它自 己的 IIFo 3.ICC 上科率最大的。點,也最靠近 IIF 最大值的點。4.
LTT模式中的 a 參數上升,則 IIF 也會上升,因為參數 a 與 ICC 的斜率有正相關。5.
LTT模式中的 c 參數上升,則 IIF 會下降,因為參數 c 的上升,會降低 ICC的斜率。6. 1 1
F 與 b 參數的關係比較徵妙困 b 參數直接關係著 P({}). 而 P({}) 在 IIF 的定義中撈 演的是校正的角色。若 ICC 上三個不同的。點斜率相同則 PCO) 接近 0.5 ·它的 IIF 會大 P (0) 接近 O 或 1 .則 IIF 會小。 由於 IIF 具備主述的諸多特性,使得 LTT 在測驗的研究上及應用上產生了突破性的發展, 如測驗編製選題、測驗對等 (equating) 、測驗偏差研究等,尤其是在適性測驗上的應用。因為 LTT 一反 CTT 測驗全體項目共赴使命的觀點,改採針對測驗中每個單一項目的觀點,處理測量 問題的能力遠比 CTT 強得多。 岫理論模式的基本假定Hambleton
(1 985) 指出 CTT~的觀念直接了當,其基本假定較弱,且多數測驗資料均可符合 其基本假定,所以較易於按受。而 LTT 則必須符合較強的基本假定,也正因此 LTT 會有較強的 能力。換言之,促使 LTT具有較強的功能,乃是聽自其基本假定 (Hambleton , 1985) 。 三、遍性測驗與潛在特質理論 (→適性測驗的性質Lord
(1980b) 認為所謂遍性測驗是指對是試者實施測驗的→種方式,它是針對一持定受試者,潛在特質理論與其應用於遍性測驗之評估研究
• 145 •
根按其先前的反應來選取最適合此→特定受試者的測驗項目,做為下一題要實施用的項目:每實施→ 題便有可能對此一特定受試者評分;如此,→次選取→題,實施一題,評分→次,適而復始,直到預 定題數達到,萬預定的測量精確水準達到為止。 Weiss (1 983) 更具體指出:適性測驗是根攘→套法 則,在題庫(item pool)中選取項目難度與受試者能力相匹配的項目來實施。上述三者的觀點差異 在於測驗項目選取的邏輯。 Weiss 的觀點集中在項目難度與個人能力的相匹配,此一觀點為多數學 者所揖用 (Hambleton ,1985; Hulin
,
Ðrasgow & Parsons
油田;Urry
,
1977) 。而 Lord 的觀點則保留了較多 LTT 的觀點;以 Warm (1 978) 的用語來說,測驗項目選取的邏輯是選取 有助於對受試者能力估計的項目。據 Lord (1 980a) 指出適性測驗一詞乃西元1951年學者 William
W.
Turnbull 所提出使用。它與 adaptive
testing
,
branch testing
,
individualized testing
,
programmed
testing
,
sequential item testing
,
response contigent
testing 等詞,所指的是相同的 概念。其實適性測驗也不是什麼新觀念。根攘 Weiss (1983) 所指,以前就有適性測驗的觀念了: 1.西元 1905年法國比奈 (Alfred Binet) 所發展的第-套智力測驗,便具備了適性測驗的特徵 :如(1)每位受試者是根據美年齡來決定開始實施的材料。 (2)立即評分,並據以選取往下繼續實施的材 料。 (3)受試者不必做完整個測驗即可結束。換言之,每個受試者可能都接受了不同測驗材料組合而成 的測驗,而測驗結果是可比較的。 目前的適性測驗當然是復雜得多,但仍具備上述特性。 2. 遍性測驗的概念在心理物理學上早就用在感覺闌限的測量。實驗心理學家測量感覺闆限所用的方法,如極限法 (The
method of
limit) 、調整法 (Themethod of adjustment)
,也就是使用適性測驗的不同概念而已。
所以適性測驗也只不過是舊瓶新錢的舊觀念,只是以新方法來處理而已。 目適性測驗的基本立論:
1.在 CTT 的標準化測驗中,為使測驗範圍擴大,即能力範圍擴大,必然的測驗項目難度也擴
大,當然也加長了測驗長度。 Kreitzbery
&
Jonse (1980) 引述 Weiss 的研究指出高能力的受試者對於 CTT 的測驗中簡單項目會厭煩,而影響測驗結果。低能力的受試者則會對 CTT 測驗中 艱難的測驗項目感到挫折,產生焦慮。 Weiss 研究亦指出低能力受試者對於 CTT 的測驗較常猜 測,致使測驗結果較不正確。遍性測驗基本上就是依據個人能力不同,而選擇難度相匹配的測驗項目 來實施,因此→般說來高能力受試者做低難度項目,低能力受試者做高難度項目的機率均很小,因此 便可杜絕上述厭煩及挫折的問題,進而改善測量的正確性。 2. 在 CTT 的測驗,經常是所謂單宰測驗 (peaked test) 指的是大部份測驗項目是屬於中難 度,而偏高及偏低的極端難度只有少數,因此從 LTT 的觀點 CTT 的測驗是較適於測量中等能力 受試者,而不適於測量高興低能力的受試者。適佳測驗往往是在-個廣大的題庫中擅尋適當的題目, 因此當測量極端能力的受試者,適佳測驗亦可實施相當多極端難度的項目'1也正因此 Lord (1鋪8,
1980b) 復說遍性測驗對於極織能力受試者的測量使於 CTT 的測驗。 Kreitzberg
&
Jones
(1 980) 引述 Lord
(1970)
,
Mcbride
(1976) 及 Symposn (1 970) 的研究指出:當受試者答對機率是在 .50到 .65時,則該項目的項目訊息最大,答對機率太高或太低的測驗項目,對測量均無太大 助益。適性測驗則企圖增進測量正確性,降低測量標車誤。 因適性測驗的發展
Weiss
(1983) 指出 1950年代紙筆式的適性測驗便已出現,但因其實施復雜,而終告放棄。直到 1970年代左右,遍性測驗再度受到注意。其原因有二: 1.高速電腦的問世:Green
(1970) 預測測驗擺脫不了電腦出現的影響。適性測驗有時也被稱為司 146
•
教育心理學講話電腦化測驗 (Lord ,凹的a)0
Weiss
(1 974) 更指出電腦化測驗比 CTT 的測驗更不受主試者影響,更符合標準化測驗的原則。而高速電腦問世對於遍性測驗直接影響是電腦可以承擔適佐測驗中復雜 的實施程序。
2.
LTT 的發展是促進適性測驗發展的主因:國內外測驗學者(林一員,民 71; Anastas
i,
1982; Urry
,
1977; Weiss
,
19昀〉均指出 LTT 的出現,為適性測驗建立了良好的理論基礎。而且LTT 的優點特性,也最容易表現在遍性剖驗的應用上。
Kreitzberg
&
Jones
(1980) 指出 Angoff&
H
uddleston 於1958年便試圖應用 CTT 來發展適性測驗,但 CTT 應用於遍性測驗存有三個重大困難: 1.計分的問題:由於適性測驗的結果,不同的受試者接受不同安餅的測驗項目,測驗內容可能不 間,;甚至測驗題數也不同。而 CTT 使用答對題數來計分易導致測驗結果解釋上及比較上的困難。 2. 項目參數的問題:在適性測驗選取適合受試者測驗項目的過程中,項目參數必須具備參數不變 性,部項目參數不會隨著樣本改變而改變。在 CTT 中,Gulliksen
(1950) 指出項目參數是以畫體 資料來加以界定,項目參數值的大小,會隨樣本而變動。 3. 研究比較的問題 :CTT 中比較不同測驗實施方式,常用的是信度‘放度之類的相關指數,也 於這類指數並未具備不變性,故而並不適用於適性測驗研究使用。 上述三大困難阻礙了遍性測驗在 CTT 中的發展。直到 LTT 的出現才解決了 CTT 中的三 大困難。在 LTT 之下,不同的受試者所接受的測驗項目不同,而讓以估計所得的能力參數是可比 較的,而且理論上它是具備參數不變性。 LTT 的項目參數理論上也是具備參數不變性。 LTT 並提供測驗訊息的觀念使適性測驗研究工 作上,具體了許多。 Weiss (1983) 更指出 LTT 提供了受試者反應與其能力參數。之間的理論建 構使得電腦摸摸測驗實施及受試者反應的模擬研究變得可能。因此許多測驗的評估研究工作,便可以 在 LTT 的模式下和模擬的情境下進行。這種測驗研究方式的特點是快速且省時經濟;研究結果常 具備理論導向的作用。適性測驗研究使經常採取這種研究方式。研究者也是應用 LTT 的特性踩用 電腦模擬適性測驗進行本研究。 岫潛在特質理論應用在適性測驗 Hulin 等(1983) 說明遍性測驗的主要程序有三:第一、決定起始點:是指適性測驗如何開始 測量的工作。第三、估計能力與項目選取:估計能力也說是前述的計分工作。第三、結束測量的標 準。 上述三者是適性測驗的三大程序,其中又以第二項估計能力及項目選取為最重要,因為這兩項工 作是 CTT 中最感困難的。而 LTT 的優點也正是表現在這兩項工作。大多數適性測驗研究主題也 集中在此。下面就這三個程序再加以說明: 1.決定起始點: Hulin 等(1983) 指出遍性測驗選擇第一題的方式有兩種,一是選取適中難度 的項目,另→是以受試者有關資料如教育水摯的高低,來選取較為符合某教育水準之適中難度的項目 。簡單的說,前→種是不管是那一位受試者接受適性測驗,第一題都一樣。後者則可能是同→個年級 的受試者,所做的第一題相同:Lord
(1 980a) 指出在1970年前後遍性測驗研究,相當重視起始點的 研究,因為當時的適性測驗項目選取策略主要是上下法 (up-and-down) 及羅一門三民法 (Rob bins-Monro) 。這類的方法主要是依援項目難度來選取項目, r受試者答對,則下一題會難一些; 答錯,則下一題會簡單些。因此所選取的第一題,若項目難度與受試者能力相差太大時,則往往在開 始階段要耗費較多測驗項目,才能大致估計出受試者能力。對於低能力的受試者,這開始階段可能會 耗費更多的測驗項目,因為低能力受試者的反應,有相當的部份是由猜測因素所決定。所以那時的適 性測驗研究會重視起始點。直到 1977年 Lord 自己的一項電腦模擬適性測驗研究,在個人能力事數潛在特質理論與其應用於遇性測驗之評估研究
• 147
.ι 已知的缺況下,安排第-題,使第→題的項目難度與個人能力之間的差距,在控制下進行研究,結果 發現在受試者完成25題的情況下,不管第一題如何安排其測量精確的程度,大致是-樣的。 Lord 的結論是:起始點的安排是無關緊要的。研究者認為這個研究不夠詳盡,因為它是在25題的狀況下評 估,並未對25題之前的結果做交待,也許不必25題,結果也會穩定下來。總之,對於25題之前未逐→ 探討,是浪費資料,也使問題的真相模糊不清。不過大致上, Lord 的結論仍可看出,第-題的安排 方法對測量精確度並沒有多大的影響。 2. 項目選取與估計能力:根攘 Hulin 等(19的)指出,適性測驗的進行,其項目選取的方式有 下列四種: / \ @個人能力與項目難度的匹配:即根拔前面的反應組型估計出一個暫時的能力參數((J) ,然後再接此言,選取尚未用過的項目中其難度與古最接近者,再實施之。
@考慮猜測因素、個人能力與項目難度匹配:當無猜測因素影響時,此-方式與第→種方式是相 / \ 同的。而此方式是很接{} ,再考慮猜測的因素,然接選擇項目難度是大於或等於 0 的題目。 / \ @最大項目訊息:是根撥。算出尚未使用項目的訊息,以最大者為下一題實施之。@貝民估計的項目選取:根援貝氏估計 (Bayesian estimation) 估計出言,然後再計算尚未
使用的項目的降不確定 (reductionin
uncertainty) 指數。這個指數用以表示貝民估計方法對 於能力估計的貢獻程度,越大表示其對於能力估計越有助益。與項目訊息指數有類似的意議。而貝氏 估計在適性測驗項目選取上,是選取降不確定指數最大者的項目,為干→題實施之。 上述的四種選取項目的方式,除了第-種方式可以不在 LTT 進行,其餘三種均是在 LTT 之 下,才有進行的可能。 由於遍性測驗下,每個受試者所傲的測驗項目都不同,如何計分,才有比較上的意義,這也是適 性測驗上一個特殊的問題。 Weiss (1974) , Hulin 等(1 983) 指出遍性測驗對於個人能力估計方法, 大致也有四種: / \ @以所做最後一題的項目難度做為最後的。。 / \ @以做完最後→題,再選一題適合的項目,但不對受試者實施,而以該項目難度做為最後的。。 / \@使用最大可能性法估計 (maximum
likelihood
estimate,簡稱 MLE) {}。@以貝民估計方法,估計云。
/ \ 以上四種估計能力的方法的共同特性,是 0 均建立在相同的暈尺上,間使不同的受試者傲的是不 / \ 間測驗項目,估計出來的。,仍是可比較的。其中第一、二種方法,可以不在 LTT 之下進行,而第 三、四種方法,則完全依附在 LTT之下。 3. 結束測量:適性測驗-步→步估計能力,選取下一題再傲,週而復始,如何停止,也是適性測 驗上一個特殊的問題。適佐測驗結束的方法,主要有三 (Hulin,
Drasgow
&
Parsons
,
19臼;Warm
,
1978):
@當指定的題數達到時便可以停止。 @當測量標車誤已低於預定標準時可以停止。 @當未使用項目中,無法再提供有意義的項目訊息時便可停止。 通常遍性測驗有可能因為方法上的限制,而使遍性測驗所必氯完成→樣數量但內容不一樣的測驗 項目,因此它們並未涉及結束測量的問題。這種狀況在此不予討論。研究者要討論的是測量結束不定 的問題。假定有→個能力測驗居庫有 2∞題,它的項目參數事先均已校準 (ca Ii brated) ,項目參數 都是已知,則可按前述的方法進行適性測驗的程序。如果我們還用的是-個測量結束不定的方法,則 適佳測草鞋也可能是在做了第 200 個項目後才結束。苦果真如此,則與在 CTT 里要做完整個測驗的 結果是-樣拘,所不同的是項目安排油!跟車。 CTT 的安排,難度通常是由簡入難,而遍性削驗的安
• 148 •
教育心理學報 排則是從適合的項目到不適合的項目。因此,研究者要提出第一個適性測驗研究的概念:適性測驗研 究其實就是研究如何安排測驗項目的順序,使測量工作達到最佳的狀視。所謂最佳狀況指的是用的題 數少,測量精確性高 o 上述結束測量的方法,在實際情況下,有它的必要性。但從測驗研究的角度上看,這些結束測量 的方法,基本上必須嚴定當結束測量條件符合時,則測量已經到達最佳狀況,也就是說如果有機會再 往下傲,測量精確性不會再降低,但可能還會上升。這樣的骰定,在適性測驗實際狀況下運作,可能 有相當的風險。理由是真實測驗情境下,受試者的能力並錄法事先預知。換言之,在適性測驗研究中 ,冒然決定測量結束的條件,可能會使研究結果產生誤解。因此面對這樣的基本位定,適性測驗無論 是研究或是實際運作,其結束測量的問題,就不得不格外的儷重小心,而且有待進-步研究澄清的必 要。 研究者基於上面提出的適性測驗研究的概念與上述基本假定,擬以電腦模擬研究,以適性測驗項 目選取的方法,安排受試者按順序逐→接受適合的項目,直到題庫中的所有項目均被用過,同時記錄 受試者適性測驗全程的所有變化,藉此澄清適性測驗測量結束問題。 國遍性測驗的實際具體策略: 根據 Weiss (1 974) 及 Hulin 等(1983) ,適性測驗策略大致可區分為二。其-是兩段式策 略 (two-stagestrategy)
,另一是多段式策略 (mu1t i-stagestrategy)
,多段式策略又可分為固定分支模式 (fixed
branch
model)及可變分支模式 (variablebranch
model)。1.兩段式策略:指的是讓受試者先做→個前導測驗。 outing test) 然後再根攘前導測驗立即 計分的結果,從幾個測量測驗 (measurement test) 中挑選-個適合的給受試者做。每個受試者 傲的都是同→個前導測驗,但測量測驗就不→定是同→個。這種策略計分方法有二,第一是以受試者 答對題目之難度平均來計分,另一則是以 LTT 最大可能性的方法,估計個人能力舉數。兩股式策 略是適性測驗中最為簡單的策略。 2. 固定分支模式多階段策略:指的是根接受試者前→個測驗項目的答對答錯,來決定下-題。客 對則難度升高,答錯則難度降低 o 至於升高難度多少或降低難度參少,是一個重要課題。前述上下法 便是這一類的策略,升高降低難度的水準都一樣,而且前後也→致。高低法 (H-L method) 是上 升小降低大,但前後-致;這是考慮猜測因素的策略。羅一門二民法則是前面項目難度上升下降較大 ,而後面項目則上升下降難度趨小。這種策略的計分方法除了上述三種之外,尚可以最後-題的難度 指數來估計個人能力。大部份的適世測驗都是屬於這種策略。
3. 可變分支模式多階陸策略:主要的有最大項目訊息策略與貝民估計策略。前者是以古計算項目
/ \ 訊息,選擇最大者做為下一題。後者是以 0 計算降不確定指數,亦是選擇最大者。這種策略直接著眼 於測量觀點。它的計分方法主要的有最大可能性法及貝民估計法。 上述三種適性測駿策略,若以它們應用 LTT 的程度大小排列,由小而大應該是二階段策略、 固定分支模式多階段策略、可變分支模式多階役策略。前二者在項目選取上主要是在個人能力與項目 難度匹配上做考慮與第三種策略是以 LTT 的另兩個指數做考慮。 上述三種策略拘另→種重異是:前二者的超車先依難度給予結構化,所以某種測驗反應順序產生 某持定適住測驗路徑 (path) 。題慮的結構化,導致遍性測驗路徑固定而有眼。這種現象在第三種策 略不會有的 (Hambleton
,
198日 Weiss ,1974)
0 Weiss 的這個說法恐怕有點提慮,因為即使第三種策略,題靡不須結構化,它的遍性測驗路徑恐怕也是固定而有眠的。只是種類多,變化多→點罷 了,在本研究中也試著去探究這些路徑問題。
同適性測驗評估研究的特徵
潛在特質理論與其應用於遇性測驗之詩估研究
• 149 •
研究或實證研究。為學者所最熱衷的研究主題,應該就是依適性測驗的結果與傳統測驗 (Conven
tionaI
test) 的結果相比較,試圖透過比較以顯示適性測驗的優越性能。最具代表性的一個研究是美國測驗服務社 F.
M.
Lord 所領導的一個自 1977 年至 1980:年的計畫 (Kreitzberg&
Jones
,
1980) 。這個研究的適性測驗策略是最大訊息策略,以 25 題做為結束測量點。它的結果主要是與傳統 測驗中的單宰測驗25題結果相比較,以測驗訊息指數為依變項。結果發現在各水車能力上,適性測驗 所得訊息指數是傳統測驗訊息指數的 2 倍,表示遍性測驗的測量標準誤,僅是傳統測驗的l/-v2而已
;測量是精確了些。
事實上,
Lord
(1揭8) 早已在 LTT 剛出現時 (Lord&
Novick
,
1968) 便以 LTT 從事 遍性測驗研究。結果以相對教能 (relative efficiency) 為指標,指出適性測驗對於高能力及低能 力的受試者測量得更好。 Lord (1 977) 說明了何以適性測驗會比較適用於極能力的受試者。理由是 傳統測驗尤其是單宰測驗的設計,通常最適合用來測暈中等能力的受試者,而適性測驗可以在各種能 力水準都做有殼的測量。換言之,遍性測驗適合極端能力受試者的測量,是因為傳統測驗在極端能力 受試者測量得較差的緣故。因此, Lord 原先樂觀的想法,並不是建立在適性測驗對於各個能力水準 上的比較,而是與傳統測驗比較之相對性觀點。因此,適性測驗比較適用於極端能力受試者測量的想 法,有待進一步研究。 適性測驗研究的另一特徵是對於結束測量點的取決不太重視。從早期二階段策略,及固定分支模 式多階段策略 (HuIi n ,Drasgow
&
Parasons
,
1983; Lord
,
1980a;
Wei間,1974)
,根本不 必去討論結束測量的問題。因為→旦題庫結構固定,適性測驗的題數就固定了,設有必要取決何時結 束測量。影響所歪,使可變分支樣式多階段策略,亦都固定題數,做為取決結束測量的依接。例如Kreitzberg & Jones
(1980) 是25題, Stocking (1984) 是 20 題, HuIi n 等(1983) 是25題,McBride
&
Martin
(1 983) 是30題,Reckase
(1983) 的 20 題, Urry (1 977) 的30題。事實 上 Warm (1 978) 指出適性測驗最大的好處就是能夠在不減低測量精確性的狀況下,以最少的題數 來測量出一個人的能力。 Warm (1978) 也指出適性測驗只須要傳統測驗題數的10彩到50%便可以獲 得與傳統測驗同樣精確的教果。然而這題數的決定到底是多少呢?一個預定的統一的標傘,適當嗎? 適性測驗對於各個能力水準受試者測量性能一致嗎?都有待研究進一步﹒澄清。另一個問題是研究者在 前面結束測量一節所提的:用固定題數來決定結束測量。這樣的說法,在測量的穗定性上,是無法保 證的,因為也許再多做→題,精確性文要降低了。 歸結上述,遍性測驗研究特徵所產生的困境,研究者以為主要是因為它的研究方法所導致。前述 的研究多半採橫斷研究,亦即在統一的條件下比較適性測驗與傳統測驗之間的不同。而對於適性測驗本身做系列性 (seq
uen
tiaI)的研究則較少。 Green (1 970) 早已推介以系列方法研究適性測驗,以了解全貌。 貳、研究問題與假設 -、研究問題 基於上述研究者對 LTT 與適性測驗上的探討與認知,研究者擬透過本研究問答下列諸項有關 LTT 與它在適性測驗應用上的問題: