潛在特質理論與其應用於適性測驗之評估研究

(1)

國立臺灣師範大學教育心理學系教育心理學報，民間， 20 期， 131-182 頁

潛在特質理論與其應用於

遍性測驗之評估研究

林世莘

本研究主要的目的在於探討: (一)潛在特質理論與傳統測驗理論二者之間的關係。口潛在特質理論JIi舟於遍性測驗時，對於心理測量所產生的助益。研究者使用電腦模擬的方式，模接受試者對項目的反應，並就遍性測驗。已知興。未知的兩種情況模擬反應的過程，從事系列性的追琮觀察。結果發現: 一、潛在特質理論的 a 多數、 b 參數及。參數分別與傅統測驗理論的 r b1 1 、 P 及個人得分等奮起計數之間均有很高的相關 o 二、。已知時的遍性測驗路徑，根攘 b 參數進行車聚分析結果可以得到三種類型。這三種類型的路徑，也就是為、中、低三種不同能力;t.ì1學受試者的路徑。這些路徑主要是依照能力與項目難度相匹配的原則所形成。就測量的功能而言，使用題庫中不到50彩的題目所測量的結果真使用所有題目所測量的結果是一樣的。而且隨著越數達步增加，測量結果也達漸趨於穩定。三、對 0 未知的遍性測驗路徑進行軍聚分析的結果顯示:根攘 a 星星數可以得到爾頓，根據 b 參數可以得到三頰，根擾。參數則可以得到四頰。每一種類型的路徑都代表某個能力水車範圍內受試者的路徑。路徑的形成主要還是依照能力與項目難度相匹配的原則。惟，在測量的功能上則晏不穩定的現象;測量的結果並不會因題數的增加而趨於種定。被被本研究的結果可以得到本研究的結論是: 一、潛在特質理論與傳統測驗理論二者之基本觀念上是相通一致的。二、將潛在特質理論應用於遍性測驗是可行的，而且可以改善測量工作。但是因為目前使用的方法產生的偏差仍舊相當大，所以在技術上仍有待進-步研究突破。 / \ 本文最後研究者根據結論提出，估計。有關按衡的改善建詣，以利遍性測驗的實際應用。

• 131

.,

對潛在特質理論的出現，測驗學界是以「革命」性的字眼來加以描述 (Marco，

1977; Warm

1978) 。顯然的，造反映出傳統測驗理論遭到困難，無法再滿足測量上的需要。林-真(民71)指出傳統測驗理論的兩大困難:第-是在估計項目難度時受到樣本程度干擾。第二是在估計個人能力時受到項目難度影響。這兩個困難在測量工作上會形成下列兩個現象: 廿一個測驗工具往往是針對某-特定的受試組靈而編製。如為國中生編製的智力測驗，在高中、在小學都無法直接使用。當然也可以編製→個貫穿小學、園中、高中的智力測驗，但是這個測驗恐怕會長得不切實際。同兩位受試者的測驗結果要比較，必讀做同-個測驗。例如「小學生與大學生的智力誰高 ?J 這個胡適就很難直接去岡答，因為小學生與大學生，很難有-個二者均適用的測驗。學測驗的人很快就會發現，上述兩種現象有例外，那就是個別智力測驗一一比商量表。但嚴格的

(2)

• 132 •

教育心理學報說，比西量表的編製，並不是傳統測驗理論的概念，反而是潛在特質理論的概念。因為不同的受試者，有可能作不同的題目，但結果是可比較的。測量學者負有改善測量工作的責任。這改善包括使測量更簡便、測量更正確。潛在特質理論的興起，已為此種改善測量工作奠定深厚基礎。適性測驗就是潛在特質理論在實際應用上改善測量工作的具體方式。上述傳統測驗理論的困難，導致現行測驗出現瓶頸的現象，那就是測驗種類繁復，非但測量未改善，而且使用上有更繁瑣之處。就是因為潛在特質理論有希墓突破傳統測驗理論的瓶頸，驅使研究者進行本研究。基於上述動機，研究者期望本研究的完成能達成下列四項目的: 第一、了解潛在特質理論的內涵。第二、比較傳統測驗理論與潛在特質理論之間的關係。第三、探討適性測驗在潛在特質理論下如何運作。第四、探討適性測驗在潛在特質理論下如何改善測暈工作。畫、文獻棵樹一、潛在特質理論: (→潛在特質理論與項目反應理論

潛在特質理論 (Latent

trait

theory ，簡稱 LTT) 與另→個名詞，項目反應理論(I tem

response

theory ，簡稱 IRT) ，在心理測量領域中有交五混用的現象，隨著學者的習債不同，而

有所不悶，如 Urry

(1

977)

,

Weiss

(1 983) 較常用潛在特質理論，而 Lord

(1

980a)

,

Ham-bleton

&

Cook

(1

977)

，等則較常用項目反應理論，然而基本上，這兩個詞所指的東西，並沒有什麼差別。 Weiss (1 983) 曾指出這兩個名詞的關係，他認為將 LTT 應用於能力測驗或是成就測驗上，便是 IRT 0 IRT 強調的是測驗項日 (test item) 與受試者反應 (response

of

exami-nees) 。而 Ham

bleton

(1985) 則認為 LTT 與 IRT 並無不同，差別在於 LTT 容易與因素

分析(Factor

analysis)

，多向度量尺分析 CMultidimensional sca Ii ng) 及潛在結構分析

(Latent structure

analysis) 等研究潛在架構的方法產生混淆，因為畢竟 LLT 是在研究測驗項目與個人反應之間的關係，所以他較傾向使用 IRT' 然而這些說法並未引起心理測量學者們的爭執。事實上 Weiss (1 983) 自己也承認混用 LTT 及 IRT 這兩名詞。因此本研究所指 LTT 與 IRT 並無不同。那麼不管使用 LTT 或使用 IRT ，這個測驗理論最常使用於能力測驗，尤其是選擇式 (m

ul

tiple-choice) 能力測驗 (Warm ，

1978)

，乃是個不爭的事實，因此在本研究中所指之 LTT' 亦僅針對 LTT 在能力測驗上應用或 IRT 在能力測驗上之應用而言。或許也正因為 LTT大部份的研究均用於能力測驗上，所以也就沒有過分去辨別 LTT 及 IRT 的必要。仁}潛在特質理諧與潛在特質棋王主

潛在特質理論包含著一組數學模式 (a

family of mathematical models) (Hambleton

&

Cook

,

1977; Weiss

,

1983)

0

Lord

(198()a) 亦指出 IRT 的觀點是從數學陳述出發來說明個

人反應與項目特性的關保，並進而推知個人潛在特質與個人反應的關係，它們之間存在的→種數學函數關係。由於數學函數關係的簡明及其映射關係的模式化，學者們亦常用潛在特質模式 (Latent

trait

model 簡稱 LTM) 替代 LTT' 實際上 LTT 及 LTM所指亦是完全相同的東西。目什廈是潛在特質理論

所謂潛在特質理論是用來解釋測驗項目，受試者反應及個人特質三者之間相互關係的→種理論架構 (Ham

bleton

,

1985)

0 i整個理論中包含了一組完整的命題，這些命題是用來說明個人對測驗項

(3)

潛在特質理論與其應用於遍性測驗之評估研究

• 133 •

組成之諸元素，逐項加以闡述: 1.測驗項目:在 LTT 中，測驗項目是一種刺激變項;研究者將這些變項基現給受試者或刺激受試者，以獲得可被觀察及可被紀錄的反應活動 CWeiss， 1983) 。從實驗心理學操弄刺激變項的觀點來看，測驗學者是根據什麼測驗項目特性

(i

tem

charac-teristics) 來操弄測驗項目呢?也就是說一個測驗設計者是會根攘什麼測驗項目特性或怎樣的測驗項目特性來安排測驗呢?在 LTT 中描述測驗特性，觀念上仍就是以項目難度 Citem difficulty) 、鑑別度 Cdiscrimination) 等指數來描述一個項目的特性。在 LTT 的觀念中，每一個測驗項目均有其「不變的」指數來加以界定。所謂「不變J Ci nvaríant) 指的是這些用來描述測驗項目的指標，並不因為樣本不同，而有所改變。因此，在 LTT 中會將這些指數稱為項目參數(i tem

para-meter) CLord

,

1980a) 所踩的是一種絕對性的觀點。這顯然與過去傳統測驗理論的相對性觀點不相同。

以干研究者就 LTT 中使用的項目參數，逐一加以探討。在討論項目參數時，我們必須先瞭解

LTT 中另外兩個重要的名詞，那就是項目反應函數(i tem

response

function ，簡稱 IRF) 和

項目特性曲線(i tem

characteristic

curve ，簡稱 ICC) ，此外，還須瞭解兩個在 LLT 中與

個人反應及個人特質之間關係的概念，其中一個是個人對測驗項目，反應答對的機率，通常是以 P 來表示;另一則是個人能力在一個連續線上所在的位置，通常是以 0 來表示。這里，先探討 IRT

l!J..

ICC 二個概念。 IRF 指的是從個人能力映射到個人反應答對機率的一種數學函數闢係 CLord ， 1980a) 。這個函數關係的定義域是個人能力。，理論上可定義在十∞到一∞。而其對應域是個人民應答對的饑率 p ，理論上對應範圍乃介於 O 與 1 。函數關係則是以 P(o) 來表示，整個 IRF 如圖 1 所刀可。定義域

8

函數關係 P(O) 個人反應答對機率

P

團 1 項目反應商數圍自圖 1 可以看出:一個 0 透過 PCO) 恰可以對映出一個 P ，不同的。，可能對映出相同的 pj 但是相同的。不可能對映不同的 P 0 IRF 函數 P(o)=P(u=

1)

0

u=

1 表示通過或答對 'u=O

表示答錯或未答 (Lord ，

1980a)

0 IRF 則是被以下所要討論的項目參數所定義，至於在 LTT 項目參數有那些，其又如何定義 IRF 以及定義出來之函數關係的種類，是 LTT 的核心所在，都是以下陸續要討論的重點。至於 ICC 是將 IRF 的函數關係表達於正交座標平面圖上"以橫軸 (X 軸) 表示個人能力。，以縱軸 (Y 軸)表示個人民應答對機率 P 時，。與 P 所形成的數對在座標平面上對應點聯結而成的曲線(林一真，民 71

j Hambleton

,

1985; Hambleton

&

Cook

,

1977) 。當。越大時 P 值也越大，墨現一種單調性遞升 Cmonotone

increasing) (Lord

,

1980a)

，簡單的說 ICC 便是 IRF 之函數園。各種不同的項目特性曲線可以反映出不同模式之 LTT 。

P(OJZCI+1+e1173:Mi

>

(公式 1)

(4)

報

一連續線上的位置。而 a ， b， c 所指的說是項目參數，也就是用以描述測驗項目的指數。國 2 之實線

部分曲線，便是 a，

b

,

c

決定後所形成之 ICC

(Lord

,

1980a) 。以下研究者將藉用函數 1 的 IRF

及圖 2 的 ICC '說明測驗項目及用以描述測驗項目之項目參數。學理 4心育教

• 134 ..

P(O)

1.0 轉

草、r

-f

-7ι--- →

----τ---/大

c

。

一。。

.5

。

+∞ 項目特性曲軸 (1) 參數 b :在 LTT ，函數 1 之中的 b 值是難度的指數，每一個測驗項目均有其 b 值 (Warm ，

1978)

，它決定了 ICC 的位置， b 值越大，表示測驗項目越難。從國 2 可以看出實線部分之 IC-C 有一個轉折點，在此一轉折點之前 ICC 下凹，之後 ICC 上凸，那麼此一轉折點的橫軸坐標值，是一個 0 值便是 b 值 (Lord ， 19個a) 。在 ICC 上，通過此一轉折點的切線斜率也是最大 (Ham

bleton

&

Cook.

1977) 。另外當測驗項目不可能被猜對時，則在這一轉折點的縱軸坐標值，是一

個 P 值，將會是 0.5

(Hambleton

,

1985; Lord

,

1980a)

，若測驗項目:有可能被猜中的話，則此一轉折點的縱軸坐標值，將會超過0.5 。在 LTT 中， b 值一般均會落在一 2 及 +2 之間(林一真，民 71;

Hambleton

,

1985)

,

b 值越接近一 2 ，則語測驗項目越簡易， ICC 會偏左些，個人反圖 2

PCO)

8 '

J I I

@,

J

J J

'

--r---r O. ∞

@

2.o

g

o 口， -e

ON--。

3.00 2. ∞ 1.∞ 固 s 不開 b 值不項目特性曲軸

(@b=-2.0

,

a=1.39

,

c=0

@b =+2.0'

a 目 1.誨 'c=O -1.∞

g

0_3. ∞ -2.∞

(5)

• 135 •

應答對的機率 P 值會大些，如圖 3 ，實線部分，第→測驗項目的 b 值便是一 2 。若 b 值越趨近+

2 ,

則該測驗項目便較難些， ICC 也會偏右些，如圖 3 '虛線部分，第二測驗項目的 b 值便是 +2' 個人反應答對的懺率也會小一點。

(2) 參數 a 在 IRF 函數 1 中的 a 值，是項目鑑別度的指數。在國 2 ICC 上轉折點的切線斜率

與 a 值是成正比例的 (Hambleton ，

1985; Lord

,

1980a; Warm

,

1978) 。實際上聽折點上切線斜

率值等於 .425a

(1 -

c)

，此地的 c 以後再加說賜。當個人能力。值逐次改變時，個人反應答對機

率 P 值也隨之在改變;當 0 改變，而 P 值改變的程度，便可以從 a 值反映出來 (Lord，凹的a) 。從理論上看 a 值可以界定在一∞到+∞之間，但通常我們對負的 a 值不感興趣。另外實際上也不易求得

一個大於 2 的 a 值，因此通常使用的 a 值多半會介於 O 與 2 之間 (Hambleton

&

Cook

,

1977) 。

通常 a 值接近於 2 時，則表示該測驗項目鍾別性能佳， ICC 呈現險昇健坡，如圖 4 第二測驗項目( 虛線部分)的 a 值便是接近+

2

0 a 值若接近 o ，小於 0.8 ，貝。這儕測驗項目就不可說是好的項目了

(Warm

,

1978)

，那它的 ICC 也會呈現緩升坡，如圖 4 第一測驗項目(實線部份)的 a 值就是接近 o 的。

PC

/J)

g

罰。

I

J

'

。

。面 .o s 動。

s

o

g

o -3. ∞ -2.ω- 1.∞ 0.00 1.00 2. ∞ 3. ∞ 圖" ~間 a 值是項目特性曲線

(@bEO扣 a=O.恥 c=O

、

@b=O.O

,

a=

1. 90'

c=O

(3)

c 參數:在 IRF 函數 1 中的 c 值，指的是當個人能力。值等於一∞，間是一種完全缺乏某

種能力時，飽仍能答對測驗項目的棧率 (Lord ，凹的a) ，個人也許根援部分知識而猜測 (Lord

&

Novick

,

1968)

，也可能命題本身提供了某些暗示的線索， ];竟是由於配置選項不當提示了個人而答對

測驗項目，因而增加了個人反應答對機率 P 值的提高 (Ham

bleton & Cook

,

1977)

，因此 c 參數

有時亦被稱為猜測參數 (guessing

parameter)

，但 c 值的存在區升高，並不全然是個人對測驗

項目的隨撥猜測所導致，尚有其它上述的可能性，因此 c 參數有時也被稱為偎性犧會分數 (psuedo

chance score leve

l)

(Lord ，凹的a) 。從國 2 的 ICC 來看， c 值所指的是 ICC 在往低走向時，逐漸靠近一∞的 P 值。大部份的 c 值是界於 o 與0.4 之間，當測驗項目 c 值大於ß\G等於 0.3 時，此測驗項目，不是一個好的項目， c 值越大表示測驗項目愈盞，如國 5 ，實線部份第-個測驗項目的

c 值便是接近於 0.30 c 值越小越好，測驗項目的佳能亦越怯。 c 值為 o 是-個最理想的狀視。如闡

(6)

• 136 •

教育心理學報

PCO)

S

。咱.。

?//'

,

@

"

建釗L

一.白..

..

口. 一3.00 -2.∞-1. 00 O.ω 1.∞ 2.ω3.00

g

o 。可 .D ON--個 5 不同 c 值之項目特性曲線 (@b=ω'a=ω9'

c =0.25; \

@b =0.0' a =0.99' c =0.0

(4)

0 參數:也有學者稱 T 參數 (Ham

bleton

,

1985)

，即使是個人能力。值趨近於+∞，也不一定能說個人反應答對機率 P 值必然是 1 ，只能說是接近 1 。因為個人畢竟時有筆誤、粗心的鐵會，或甚至未解或誤解測驗項目的意義 (Barton

&

Lord

,

1981; Ham bleton

,

1985) 。當測驗項目的 8 值越大，表示該測驗項目有問題的可能性也越大。理想狀況是 8 值趨近於 0 。圖 2 賞線部份的 ICC ，其 s 值便是趨向於 O 。倘若此 ICC 高走向時，當 0 接近+∞時的 P 值未接近 1 ，則它與 1 之間的距離便是 8 值，簡言之， o=l-P(O=+ ∞)。以上分別說幾個項目參數 b 、 a 、 c 、 8 加以探討，這些項目參數正是 LTT 中用以描述測驗項目的指數。由各種項目參數不同的值做出不同的組合，便可形成各種不同測驗項目的 IRF 。若再將 IRF 形成正交座標圖，便可得到各式各樣 ICC 。應用 LTT 的測驗學者，便是操弄這些項目參數來從事測驗研究或是測驗編製工作。 2. 受試者反應:在 LTT 中，個人對測驗項目的反應通常以 u 來做記錄，如在第 i 個項目的反應，則以 Ul 記錄。當答對測驗項目，即個人反應正確，則 u.=l ，若個人反應不正確時則 U. 口 0; 當個人對 k 個測驗項目做反膺，則可記錄為向量 (Ul

' Uz '

...…

Ul ' ... 'Ut)

，此地叫不是 1 便是

0 。此一由 1 歲 O 組成的向量亦可稱為項目反應組型 (pattern

of item response) (Lord &

Novick， 1助8) 。在 LTT 中，受試者反應的兩種機率，一是個人反應答對測驗項目機率，即前述的 P(O) ; 表示當個人特賀。值已知，答對某測驗項目的饑率，亦可寫成 P(Ul= 110) 條件撥率的形式。這是針對某一特定測驗項目而言。另一個是個人反應通過某些測驗項目的機率，表示當個人能力。值已知時，答對某些測驗項目的機率，亦即 0 值已知時，個人反應形成某種項目反應組型的機率

，可以寫成 P

(Ul' UZ...Uk

I

0)

(Ham bleton

,

1985) 。從理論上看，不管。值為何，只要。已

知，對於 k 個測驗項目而言，個人反應會有 f 個不間形式的項目反應組型。任何形式都有機會得到，只是得到的機率不同而已。例如，當個人能力。值接近+∞，那麼他的項目反應組型的向量有可能是單完向壘，也有可能是零向量，亦間可能答對全部測驗項目，也可能全部答錯。只不過這時候我們會說項目反應組型得到單元向量的機率會比得到零向量要多一些。這是 L1' T 中-個重要的觀念。若是我們將此觀念反過來看，那就顯得更接近事實，而且更為有用了。間已知的部份由原先的。，變為項目反應組型。這是符合事實的，我們是很難先知道。的，測量中我們會先得到項目反應組型的。}

(7)

潛在特質理論與其應用於遇性測驗之評估研究

• 137 •

個固定的項目反應組型，亦有可能被任何的。所得到，只是不同的。，得到的棧率也不同。例如當一個人得到的項目反應組型為單元向量，亦即通過全部測驗項目，則我們可能比較願意相信他的。是接近+∞，而不會去相信他的。是接近一∞。 3. 個人特質:在 LTT 中，個人特質所扮演的是中介變項的角色，是一個心理建構 (psycho

logical construct)

，幾乎所有從事心理學研究工作者，所感興趣的便是這個變項，尤其是認知心理學家。對於人類行為的理解，在心理建構的基礎之上，才不致於破碎及無能。當然心理建構也有它的特點，如它是一種假設性的，它是無法直接觀察的，物理特性上它是不存在的，自然它也就可能有具有喝。也正因它可能是正確，也可能是錯誤，所以就更具可研究性。 LTT 中的個人特質的特性就如同上述，所以它更常被稱為潛在特質(l atent trait) 及潛在變項(l atent

variable)

，看不見摸不著的，到底存在與否還是個問題，但它經常被拿來對個人行為

做心理學上的描述 (Anastasi，

1982; Hulin

,

Drasgow

&

Parsons

,

1983; Lord

,,

1980a;

Weiss

,

1983) 。然而心理測量學者，所關心的並不是個人特質，因為這東西他們畢竟無法去面對它，更遑言去度量它。他們所真正感興趣的是呈現測驗項目，觀察紀錄個人反應，進而推估個人特賀。他們欲瞭解個人特質，去H只是依附個人特質，大事研究如何去安排測驗項目及如何去從個人反應中推估個人特質 (Weiss ， 1983) 。因此在 LTT 中，個人特質也只以一個 0 參數來加以描述。這不同於以 a 、 b 、 c 、 8 參數來描述測驗項目。本研究所欲研究的個人特質是「能力」這一個心理建構，所以 0 所指的通常是個人能力的指數。理論上。參數可以是在主∞之間，但是沒有自然零點及單位，因此習慣上是標準化的，亦即以 O 為平均數， 1 為標準差，以便。易於理解，因此。便會經常界於 +3 與一 3 之間，但 0 仍舊有可能超出::t 3 之外 (Warm ，

1978)

4.

LTT 的理論模式:前述的三項 LTT 組成的基本元素一一測驗項目、受試者反應及個人特質，三者之間的關係如何串起來，亦即整個理論架構如何運作起來，關鍵就在所跨用的理論模式。 LTT 的理論模式串聯了測驗項目與受試者反應之間，再從受試者反應到個人特質之間 (Hulin ，

Drasgow

&

Parsons

,

1983) 。串聯這三者的，經常是一些數學函數，所以整個 LTT 的理論模費 1 LTT 的理請讀 5克

處理資料性質理論 _模 _式

一分類資料潛在線性模式

(Latent Linear)

完全量 t 尺模式

(Perfect Scale)

潛在距離模式

(Latent Distance)

常態肩形模式

_(One-

_,

_Two-

_,

Three-(單一、三、三參數〉

Parameter Normal Ogive)

對數才真式

(One-

,

Two-

,

Three-(單一、二、三參數)

Parameter Logistic)

四參數對數模式

(Four-Parameter Logistic)

多分類資料名義反應模式

(Nominal Response)

等級反應模式

(Graded Response)

局部給分模式

(Partial Credit Model)

連續性資料連續反應模式

(Continuous Response)

(8)

• 138 •

教育心理學報

式大抵均是數學模式 (Ham

bleton

,

19師) ，還是 LTT 的核心所在 (Weiss ，

1983)

，是 LTT

研究工作者爭議最多，也是工作努力最多之所在。那盾是整個理論架構復雜的起漲也就是在這衷。

Hambleton

(985) 將 LTT 的理論模式根攘處理資料的性質，將理論模式分為三大類，詳如表 1 。由表 1 可以看出目前的 LTT 的理論模式，大抵均集中於二分類資料的理論模式。所謂二分獲資料，指的就是 0 與 1 的資料，即受試者反應苦正確，以 1 表示，否則以 O 表示。研究者僅列寧常聽屑形模式及對數模式: (1)一、二、三參數常鹽、肩形模式:

Lord

(1980a) 指出:偎設有一潛在變項 Y/ ，它的大小決定了個人對第 i 個測驗項個反應的正確與否。另有一常數 r

1

'它是指對第 i 個測驗項目的常數。當個人的潛在變項 Y

₁

' 大於常數 r

1 '

則它對第 i 個測驗項目反應正確，記為 u1=1 。當 Y/小於 r l' 則表示反應錯誤，記為恥 =0 。在這里， Y/ 潛在變項的內涵相當復雜，因為它的大小直接決定了個人對第 i 個測驗項目的正確與錯韻。因此前述個人能力。值與 Y/ 會有相當密切的關係，因為決定個人反應正確與杏，個人能力。是相當重要的因素，但均不是唯一的決定因素。換句話說， Y

₁

' 的組成有一大部分是() ，另亦有一部份其

u,

=l

r

,

u

,

=O

.

, ,

t';

， =p;。

圖 6 Y/ 在三個() *2塵土造條件分配及戶 '11. 之迴歸轍， Y

₁

'=r1 之直線 (區自 Lord ，

1980a)

。

它未必可預知的因素，沒有系統的在影響 Y/ 。因此偎定個人。固定，則可能形成的 Y/ '也會有相當大的變異。基於上述， Lord 再進一步骰定 :CD在 0 的連續線上，每一個 0 上，均會形成許許多多的 Y/ '而它們的平均數 p'll ，，也就是這 Y/ 集中的位置;此 μ心 1 ，與 0 之間呈現線性關係。@在每一個 0 上， Y/ 的離散情形也是同質的，即在每個 0 上 Y/ 的條件變異量 a2_{d. 都是相同的，可用} a2_{卜，表示。@在每一個}

₀

_{上 Y}

₁

_{的條件分配均是常態分配。如個}_{6 所示。從圖中我們可以看出個人} 能力。下，其對第 i個測驗項目之反應正確纖率 P

(8)=P

(吭 '>rI18) ，它是等於標準化常態分配

曲線下的一塊區域面積。現若將 r1 標準化為 (r1-p'II.)/aJol ' 用一 L

₁

表示，則

-L

₁

在

0

固定狀態下，會成為標準化常態分配。為方便討論，將

₀

_及

_{Y/ 均標擎化為平均數 o ，標準差 1 的量尺} ，則根攘 0 預測 Y/ 的迴歸方程式便是 μ'd ， =ρ'

₁

0_{0 ' 此 ρ'1 指的便是 0 與Y/ 的相關係數，此姐歸} 線的估計變異誤便是 1 一 ρ戶，也就是前述的 u丸，現在再將 -L

₁

= (r1-p' J! .)!a1.. 改寫一下便成公式 2

:

(9)

一 L

Ti 一 ρ'1'0

一-1 -

V

1 _p/2

ρJ a 一 1 -

_V

l-p/2

b.=~

-ρl' (去式 2) (公式的 (公式 4)

• 139 •

其次令 a

₁

、 b

l

分別如(公式3) 、(公式 4) 則一 L

1

=al(bl-

())

,

L1=a1

(0

-b

₁

) 。由圖 6 也可以看出每一個 0 上Y/ 的標準化常態分配曲線上 Y

1

大於們的那一區域面積便是P1(0) ，表示個人

的)= f 立法ze-z%dg

=

f

~

(bl-

0)而 e

= j L 1 4 e - d h

一∞ v 2π

=f 州 -b1)1e-zzh

一∞ Ý

2 7r

(公式 5) (公式 6) 對第 i 個測驗項目反應正確的機率。當 0 上升時，這一塊面積也有增大的趨勢，亦國當 0 上升時，其反應答對機率也必然逐漸上升，而這個反應答對機率 P1(0) ，便可以函數 5 及函數 6 的形式表示出

來 (Lord， 1980a) 。上述 p'II ， =ρ/0 中的 ρJ 指的是 p'll ，與 0 的相關係數，是姐歸線的斜率，

它與測驗項目的鑑別度有密切的關係。另外 Y

1

=r1 此一平行於 0 軸 (X 軸)的直線，其 r1 所在的位置，與測驗項目的難度有直接的關係存在。

(a1(0-bl) 1

-Z2/a

P1(0

)=CI+

(1 一 C1) J 一∞?古7r

e

(公式 7) 上述推演結果形成的函數 5 讀函數 6 ，指的是三參數常態肩形模式，因為從函數 3 及函數 4 ，得知其涉及的項目參數有 a 參數及 b 參數。 a 寥數是測驗項目的鑑別度指數， b 參數是難度指數。現在令 a1=

1

，則形成函數 8 ，便是單一參數常態肩形模式。

(0

-b

1

1 -z2/a

P

1

(0)=

J 一∞高7r

e

(公式 8) 此-模式只是將二參數肩形模式中 a 參數模式均設定為 1 。另外若在二參數模式中亦考慮 c 寥數，節前述的猜測的指數，則可形成如面數 7 的三參數常態肩形模式。 LTT 的發展中，以常態肩形模式發跡較早，從1943年起至 1970年有相當多的學者如 Lawley

(1

943; 1944)

,

Tucker

(1

946)

,

Lord

(1

952)

,

Bock & Lieberman

(1970) 及 Kolakowski

&

Bock

(1

970)

,

(H

ul泊，

Drasgow

&

Parsons

,

1983)1 ，從事常態肩形模式之 LTT 的研究，過了七十年代位就乎少之又少了，原因可能是對數模式的提出。

(3) 一、二、三參數對數模式

Birnbaum

(1切8) 提出對數分配面數(logistic

distribution function)

，如面數 9

:

ψ﹒ (x)=eX

/ (1

+e

X

)= 1/

(1

+e-

Z )

(一∞<x<∞) (公式 9)

(10)

• 140 •

教育心理學報

φ(x)={x-Le-z%dz( 一∞<x<∞)

j 一∞ V

2 n-

(公式 10) 二者的分配函數圓形差異極小。此地累積常態分配函數便是前述常態肩形模式所採用的數學函數。 Birnbaum 並指出'1'(1. 7x) 與 φ(x) 之間的關係是: !φ(x) 一 ψ(1.

7x)

I

<0.01

表示二者之間差異極小。 ψ (1 .7) 與 φ(x) 之間差異關係在 Warm

(1

978)

，及Bi rnbaum (1 968) 均有詳細討論，此處只引用其結論 :φ(x) 與 ψ (1 .7x) 的分配情形是極其相似的。然而在應用上對數分配函數要比累積常態分配函數簡便得多，因為累積常態分配函數涉及積分的問題，在數理處理上麻煩得多 (Hambleson ，

1985; Hulin

,

Drasgow

&

Parsons

,

1983; Warm

, 1978) 。

以下研究者將逐一將三種對數模式加以探討。 @單一參數對數模式:

在西元 1966 年，丹麥數學家 Georg Rasch 獨立研究測驗理論，便已提出單一參數模式的理論。另外跟進研究的學者有 Anderson ，

Kearney & Everett (1968); Wright

(1

968 ,

1977);

Wright

&

Panchapakesan

(1

969);. Wright

&

Stone

(1

977) i(Hambleton

,

19前)。至今仍有相當多的學者擁護單一參數對數模式，尤其是美國芝加哥大學的 Benjamin

D. Wright

。畢竟它有它吸引人的長處，例如它涉及的參數較少，易於處理。再者，在估計參數時所遭遇的問題顯然少於其它的對數模式 (Hambleton

&

Cook

,

1977; Hambleton

,

1985) 。

由於 Georg Rasch 的關係'單一參數對數模式也被稱為 Rasch 模式 (Rasch Model)。它的 IRF 如函數 11:

P1(O)

₁

_+e-1月區。 -

1

bl) (公式 11) 其實若罔到函數 1 之上，令 CI=

0

'a

_l

= 且常數，則函數 1 便可形成函數 11 。顯然地它假定一個測驗當中所有測驗項目鑑別度都一樣。另則假定無猜測因素影響個人反應 (Hambleton ， 1985) 。換言之，影響個人反應答對機率的大小，除了項目參數以外，一切便自個人能力。所決定。這樣的值定在實際狀況下似乎是相當困難，因為在一般狀況下的測驗很難符合所有測驗項目鑑別度都一致的基本假定。此外，個人反應答對機率完全由個人能力決定也是不容易達到，因為影響個人反應答對機率的

，還有其它如猜測、動機等其它系統或非系統影響的因素 (Hulin ，

Drasgow

&

Parsons

,

1983)

。 @二參數對數模式。這是 Birnbaum (1 968) 所提出的，它的 IRF 如函數 12

:

p i ( 0 ) = 1

(公式 12) 它比單一參數對數模式多考慮一個項目參數 a ，即鑑別度的參數，在二參數對數模式里不再是常數 ã' 而是每一測驗項目均可能不同的 al 。但若比起函數 1 ，它仍是令 CI=

0

，也是不考慮猜測的因素。因此二參數對數模式是較為適合於開放性做答的測驗，而較不適合於選擇式的測驗，因為只有開放性做答，猜測因素影響個人反應答對的犧率，可以降到較接近 o ，比較可能符合二參數對數模式

(l

Julin

,

Drasgow

&

Parsons

,

1983) 。

f 三 J

@三寥數對數模式:

(11)

• 141 •

個項目參數 c 來描述測驗項目，其 ICC 如函數 1 '圖 2 中實線部分曲線，便是一個標準的三參數對數模式的 ICC 。當 0 趨向於 ∞時，

P

((})到底是否等於 o '是三寥數對數模式涉及的→項重要問題。在前述的單一參數對數模式及二參數對數模式中，實際上均是骰定 c 舉數爵 o '而三參數對數模式中，所提出之 c 參數是可為 o ，也可能是大於 o 0 c 寥數的介入使得 P((}) 的全距由原先的 O 到 1

,

縮小為 c 到 1 ，對 ICC 會有壓扁的現象，如國 5 0 c 參數影響公式 4 中的叭，當 c 上升，其實們也要上升，若要保持 b

_l

不變，則必須縮小 ρ l' ，所以說當 c 參數上升時， ICC 的壓扁現象，也就是 ICC 上升的坡度減緩 (Warm ，

1978)

，實際上是減低了測驗項目的鑑別度。在實際的測驗資料中，尤其是選擇式測駿項目，當一個能力極差的，郎。趨近一∞者，他對測驗項目反應答對率 P

((})

，未必見得等於 o ，換言之，以單一參數或二參數對數模式是無法解釋的。這樣的現象，在 LTT 未發展出來之前已受到學者的關心。最早的解釋是將其歸於隨棧猜測，則認定 C 參數為 11m 'm 是提供的選項數。然而在實際的測驗狀況之下，即使是→個人對某一測驗頃目完全不懂，他也不會隨機猜測 (Lord

&

Novick

,

1968)

0

Lord

(1 974) 指出估計的 c 參數值通常小

於 11m' 理由是命題者通常會配置→些誘惑性很高的錯誤選項，能力極差的個人，也比較容易選上這些錯誤答案。 Warm (1 978) 的研究指出，四個選項 A 、 B 、 C 、 D 的測驗，標準答案為 C 的測驗項目，估計出來的 C 轍會高啥。這現象說明了，命題者傾向以 C 答案做幫確答案，而個人反應亦有傾向選 C 的答案。 Warm (1978) 的解釋認為命題者傾向於將正確答案隱藏在中間，當個人不知道正確答案時，其反應亦傾向於選擇隱藏在中間的選項做為正確答案。 c 參數的解釋，正如同上述的多樣性，顯示出在三參數對數模式中的 c 參數並不如 a 、 b 二參數那樣有系統地在變化。故而引發許許多多學者，如 Lord

(1

969 ,

1970

,

1974

,

1975

,

1980)

,

Ham-bleìon

&

Traub

(1

971)

,

Marco

(1 977) 的研究 (Hul恤，

Drasgow

&

Parsons

,

1983) 。甚至有的學者持反對意見。 Wright (1977) 認為 c 參數介入對數模式，大大破壞了實際測量工作的邏輯，而且最主要的問題是 c 參數的介入並不能滿足實際測量工作上的需要;他引用 Lord在1968 年的研究指出 Lord 在三參數對數模式中參數的估計並不是聚欽得很理想，而且結果並不十分體定。其實這現象至今仍存在，許多學者也正努力從事改善的研究工作 CJones ，

1982

,

1983; Lord

,

198 1,

1982

,

1984) 。這只是→個技術上的問題，→時可能還無法完全滿足實際測量上的需要。但就整個三參數對數模式的概念上來看，它頗符合-般測驗的概念，尤其是針對選擇式的測驗

(Ham-bleton

,

1985;

Hul泊，

Drasgow

&

Parsons

,

1983) 。因此它仍被絕大多數學者所接納，例如

Warm

(1 978) 便指出三參數對數是符合事實的。 LTT 的大師級學者如 ETS

(Educational

Testing

Service) 的 Lord

USCSC (United States Civil Service Commission)

的 Urry 以及明尼蘇達大學的 Weiss' 大揖均是從事三參數模式的研究。最近的實證性研究

<

Jones

,

Wainer

&

Kaplan

,

1984; Thissen

&

Wainer

,

1985) 也以實際測驗結果符合三參數對數模式，而進→步支持三參數對數模式的可靠性。因此在本研究中 LTT 所採用的便是此三學數對數模式。 @四星星數對數模式:四參數對數模式比上述三參數對數模式又增加一個項目舉數 o ，用以描述測驗項目。在單一參數及二參數對數模式中，當 0 趨向於+∞時，其 P((}) 都等於 1 當 0 趨向於一∞ 時，

P

((})等於 0 。換言之，在單→及二參數對數模式中，個人對某測驗項目反對答對的機率，除了 a 、 b 參數之外，便完全由能力。所決定。當個人能力極高時，閣。等於+∞時，則可保證答對該測驗項目，因為 P((}) 等於 1 。當個人能力極差時，郎。等於一∞時，則可確定無法通過測驗項目，因為 P(o) 等於 O 。前述三參數對數模式中，項目參數 c 的介入，便是討論當 0 趨向一∞時，

P (0)

未必是 O 的問壇。此地的四參數對數模式中， 0 參數所涉及的是 ICC 的另→端，即當個人能力。趨向+∞玲，

P

((})也未必是 l 的問單 (Hambleton ， 1985) 。其 IRF 如函數 13

:

(12)

• 142 •

教育心還學報

ò.-c.

P1((})-C1+Y有訂訂ie423

(去式 13)

Barton

&

Lord (1 98l)的研究中使用了四參數對數模式，結果發現:多 Tò 參數對於個人能

力。的估計並無助益。因此， ò 寥數始終沒有引起學者的興趣。二、潛在特質理輸與傳輯瀾艙理輸

乍看之"f LTT 的觀念與傳統測驗理論 (Classical

Test

Theory，簡稱 CTT) 的觀念截

然不同。然而 Weiss (19間)認為 CTT 的觀念中早說隱含著 LTT 的觀念，甚至指出 CTT 就 LTT 的→個簡單模式。 Hulin 等(1 983) 也認為此二者之間是局部重疊的。以下研究者擬簡要比較 CTT

"&

LTT 二者，探討其異同:

H 能力參數。與真正分數

CTT 的最重要目的就是要根據受試者反應組型計分所得的觀察分數 (observed score) 讀稱貪得分數 (obtained

score)

，來推估受試者的真正分數 (ture score ，以 τ 符號)。正如同在

/ \ LTT 中，恨鐵受試者反應組型估計個人能力。，以便推估受試者真正的。所在。在 CTT 中的'1" ，從理論上看，指的是對同一受試者實施同一個或復本測驗無限多次，得到無限多個觀察分數，這些電察封數的期望值便是 τ 。因此若以 x 代表觀察分數，則 τ 與 0 的關係便可如去式14 。在 LTT 中已知 P((}) 會隨上升而遞升，亦可推知是P

j

((}) 也是隨。

r=EK)zEEUI=ZLE(U1)

=耳 1

xP(Uj=

11 (})+

0

X

P (Uj=

01 (})J

=芷Pj(()

)

(去式 14)

上升而遞升的。所以說 τ 與 0 的關係也是當 0 上升 τ 亦會上升的 (Hulin ，

Ðrasgow

&

Parsons

,

1983) 。至此 τ 與 0 的關係一白了然。難怪 Weiss (1 9，間)指出 CTT 的 τ 與 LTT 的。是顛倒的，所不同的只是它們各自使用不同的量尺罷了。其實。與 τ 真正的差異是在功能上。若有兩個測量相同能力的測驗，而其中→個測驗項目較為艱難，另一個比較簡易，現→受試者同時接受此二測驗，理論上看，受試者能力在兩測驗上是-致的，但所得的三個 τ 甜不一定會→樣的。很有可能在前-個測驗所得的 τ 會小些，因為測驗項目艱難，不易答對。這真顯現一個 Lord (1980a) 所指出的 CTT 之缺點，那就是 CLL 中 τ 的量尺是被所選用的測驗項目所左右。這也使得 CTT 在實際應用上面值一些難題，那說是測驗重覆的現象

(

Warm

,

1978) 。往往基於標車化使用的理由，測量相間能力的測驗，經常會不只-個。因此從CTT 看， τ 的使用是有很大的限制。 / \ 上述 τ 的限制，在 LTT 的。事數，並不存在。因為 0 的估計不只和反應答對與否有關，更與項目參數有直接的關係。也就是，在 CTT 答對一題就是一題，不管是怎樣的→題;而在 LTT 中答對→題是一題，但尚得看看是怎樣的→題，是艱難的?抑讀是簡易的?答對的意義不同。也正因為此一特性，使得遍性測驗 (tailor testing) 更加有實際意羲。因為遍性測驗正是根按每個受試者的能力水車，選擇適當難度的測驗項目給予實施，因此每位受試者不一定接受相同的測驗項目，但在

LTT 下，他們的結果是可比較的 (Hulin ，

Ðrasgow

&

Parsons

,

1983) 這在 CTT 是辦不到

的。

臼項目參數與項目統計數

(13)

• 143 •

統計數 Otem statistics) 來描述測驗項目。 Lord (1980的指出 CTT 是以反應正磷受試者之百

分比，做為難度指數(以 P 表示) ，是以項目分數與觀察分數的點二系列相關係數(以的 x 表示) 或二系列相關係數(以ρlX 表示〉做為鑑別度指數。根攘前述二參數常態肩形模式中。與 Y/ 的關係

'Lord

(1 980a) 指出 LTT 中的 a 、 b 項目參數與 CTT 中的 P 及 ρlz 的關係分別如公式 15 及公式 16

:

ρlz a1=ý1 苟言

b.=

--L.L

.ρlz (合式 15) (公式 16) 公式 16 中的 rJ 指的是圖 6 中的 rl; CTT 中的 P 便是 rl 以上的常態曲線內的面積，當 rl 上升峙， p 便會減小。可見 LTT 中的 b 參數與 CTT 中的反應正確受試者百分比 P 是基互為消長的關係。

Warm

(1 978) 指出 CTT 中所使用 P 與樣本能力有關係。當受試者能力偏高時， p 值會升高 ;反之則 P 會降低。除此之外，

Lord

C1980a) 指出 P 的矛盾現象;二個測驗項目 P 值的高低順序，會因取樣不同而改變順序，如圖 7 所示。就樣本 A (能力偏低者)而言，第 1 題比第 2 題難;說樣本

B

(能力偏高者〉第 2 題比第 1 題難。 Warm (1 978) 認為這現象不是取樣誤差的問題，而是 P 本身不是-個適當的難度指數。

P

1

1.

0

0.0 _。

圖 7 A 、 B兩個樣本輿兩個項目的闢係

Hambleton

(1 985) 亦指出 CTT 中所用的鑑別度指數 ρlx 與所取接本能力分佈的情形有密切關係，當樣本能力分佈廣時， ρ1" 亦較有升高的可能。在 CTT 中所使用的 p 、 ρFix E車 ρlx 均會受取樣所影響，也正因此， CTT 的難度及鑑別度指數，只堪稱項目統計數。 LTT 的二大目的，其-是估計個人能力參數 θ ，其二便是尋求不變的項目參數。所謂「不變」指的就是不因樣本改變而改變的意思。從 LTT 的理論上看，項目參數 b 、 a 、 c 是不會隨樣本而

改變的。

同測量的精確性

(14)

• 144 •

教育心理學報

Hunlin

(1983) 指出在 CTT 中，最主要的三個測量精確性指數，一個是測驗信度(以 ρ"x 表示) .另一是測量變異誤 (11 ;)。從公式 17測驗信度定義上看來， ρ口，與 11: 根本就是同-岡事。其中 11: 是指真正分數的變異數。值得注意的是 .CTT 的 P"x 與 11~ 的變異均來自於全體樣本 2 σ ρ ，-

-

'::"~ xx 11~ + σt (公式 17) ，而且也是將此指數反應間全體樣本。換句話說，對於全體樣本的測量，無論其能力水準如何， ρ口，及 ut 都是同→個。 CTT 無法說明測驗在某能力水章中的測暈精確性如何，或甚至針對某-受誠者而言，測量精確性如何。事實上，任何測量工具的精確性都會因所測量特質之程度而有所不同，正如同我們拿天平稱毛譜，天平的精確性會不理想。叉，當以極艱難的測驗項目去測量→章能力極差的受試者，結果沒有一個受試者答對，則此一項目精確性一定低。但我們用此同一測驗項目去測量能力偏高者，情況就會不同。顯然 CTT 所使用的精確性指數，是無法勝任上述的工作。 CTT 的 px ，，' 常是以重測信度、折半信度、庫李信度 (Kuder-Richarson

formula-20).

來加以估計。顯然的，這些估計用的係數，也會隨著取樣不同而有不同。

LTT 中引用項目訊息函數 (item

information

function ，簡稱 IIF) 的觀念，來說明測量精確性的問題。根據 Warm (1 978) 的說咧，項目訊息與 ICC 每→個 θ 點上的斜率有密切的關係。從它的定義企式 18 看，項目訊息是 P1(0) 對。第-階導數的平方 P?(O) 除以答對反應續率 P1(0) 再除以反應答錯機率。 Ql(0)=1-P

₁

(0) 如公式 18

I({}

,

Ul)=P/2(0)/Pl(0)Ql(0)

這樣的一個精確性指數有它的特性如: (公式 18) 1.項目訊息函數不像 CTT 的 ρ口，或 11: 是整個測驗的指數，它沿襲 LTT 的觀念，是針對單→測驗項目而言。 2. 它不像 CTT 的 Px ，，'或村是單一的指數，而是 0 的函數。顯然每~個 0 均會對應到它自己的 IIFo 3.ICC 上科率最大的。點，也最靠近 IIF 最大值的點。

4.

LTT模式中的 a 參數上升，則 IIF 也會上升，因為參數 a 與 ICC 的斜率有正相關。

5.

LTT模式中的 c 參數上升，則 IIF 會下降，因為參數 c 的上升，會降低 ICC的斜率。

6. 1 1

F 與 b 參數的關係比較徵妙困 b 參數直接關係著 P({}). 而 P({}) 在 IIF 的定義中撈演的是校正的角色。若 ICC 上三個不同的。點斜率相同則 PCO) 接近 0.5 ·它的 IIF 會大 P (0) 接近 O 或 1 .則 IIF 會小。由於 IIF 具備主述的諸多特性，使得 LTT 在測驗的研究上及應用上產生了突破性的發展，如測驗編製選題、測驗對等 (equating) 、測驗偏差研究等，尤其是在適性測驗上的應用。因為 LTT 一反 CTT 測驗全體項目共赴使命的觀點，改採針對測驗中每個單一項目的觀點，處理測量問題的能力遠比 CTT 強得多。岫理論模式的基本假定

Hambleton

(1 985) 指出 CTT~的觀念直接了當，其基本假定較弱，且多數測驗資料均可符合其基本假定，所以較易於按受。而 LTT 則必須符合較強的基本假定，也正因此 LTT 會有較強的能力。換言之，促使 LTT具有較強的功能，乃是聽自其基本假定 (Hambleton ， 1985) 。三、遍性測驗與潛在特質理論 (→適性測驗的性質

Lord

(1980b) 認為所謂遍性測驗是指對是試者實施測驗的→種方式，它是針對一持定受試者，

(15)

• 145 •

根按其先前的反應來選取最適合此→特定受試者的測驗項目，做為下一題要實施用的項目:每實施→ 題便有可能對此一特定受試者評分;如此，→次選取→題，實施一題，評分→次，適而復始，直到預定題數達到，萬預定的測量精確水準達到為止。 Weiss (1 983) 更具體指出:適性測驗是根攘→套法則，在題庫(item pool)中選取項目難度與受試者能力相匹配的項目來實施。上述三者的觀點差異在於測驗項目選取的邏輯。 Weiss 的觀點集中在項目難度與個人能力的相匹配，此一觀點為多數學者所揖用 (Hambleton ，

1985; Hulin

,

Ðrasgow & Parsons

油田;

Urry

,

1977) 。而 Lord 的觀點則保留了較多 LTT 的觀點;以 Warm (1 978) 的用語來說，測驗項目選取的邏輯是選取有助於對受試者能力估計的項目。

據 Lord (1 980a) 指出適性測驗一詞乃西元1951年學者 William

W.

Turnbull 所提出使

用。它與 adaptive

testing

,

branch testing

,

individualized testing

,

programmed

testing

,

sequential item testing

,

response contigent

testing 等詞，所指的是相同的概念。其實適性測驗也不是什麼新觀念。根攘 Weiss (1983) 所指，以前就有適性測驗的觀念了: 1.西元 1905年法國比奈 (Alfred Binet) 所發展的第-套智力測驗，便具備了適性測驗的特徵 :如(1)每位受試者是根據美年齡來決定開始實施的材料。 (2)立即評分，並據以選取往下繼續實施的材料。 (3)受試者不必做完整個測驗即可結束。換言之，每個受試者可能都接受了不同測驗材料組合而成的測驗，而測驗結果是可比較的。目前的適性測驗當然是復雜得多，但仍具備上述特性。 2. 遍性測驗的概念在心理物理學上早就用在感覺闌限的測量。實驗心理學家測量感覺闆限所用的

方法，如極限法 (The

method of

limit) 、調整法 (The

method of adjustment)

，也就

是使用適性測驗的不同概念而已。

所以適性測驗也只不過是舊瓶新錢的舊觀念，只是以新方法來處理而已。目適性測驗的基本立論:

1.在 CTT 的標準化測驗中，為使測驗範圍擴大，即能力範圍擴大，必然的測驗項目難度也擴

大，當然也加長了測驗長度。 Kreitzbery

&

Jonse (1980) 引述 Weiss 的研究指出高能力的受

試者對於 CTT 的測驗中簡單項目會厭煩，而影響測驗結果。低能力的受試者則會對 CTT 測驗中艱難的測驗項目感到挫折，產生焦慮。 Weiss 研究亦指出低能力受試者對於 CTT 的測驗較常猜測，致使測驗結果較不正確。遍性測驗基本上就是依據個人能力不同，而選擇難度相匹配的測驗項目來實施，因此→般說來高能力受試者做低難度項目，低能力受試者做高難度項目的機率均很小，因此便可杜絕上述厭煩及挫折的問題，進而改善測量的正確性。 2. 在 CTT 的測驗，經常是所謂單宰測驗 (peaked test) 指的是大部份測驗項目是屬於中難度，而偏高及偏低的極端難度只有少數，因此從 LTT 的觀點 CTT 的測驗是較適於測量中等能力受試者，而不適於測量高興低能力的受試者。適佳測驗往往是在-個廣大的題庫中擅尋適當的題目，因此當測量極端能力的受試者，適佳測驗亦可實施相當多極端難度的項目'1也正因此 Lord (1鋪8，

1980b) 復說遍性測驗對於極織能力受試者的測量使於 CTT 的測驗。 Kreitzberg

&

Jones

(1 980) 引述 Lord

(1970)

,

Mcbride

(1976) 及 Symposn (1 970) 的研究指出:當受試者答對

機率是在 .50到 .65時，則該項目的項目訊息最大，答對機率太高或太低的測驗項目，對測量均無太大助益。適性測驗則企圖增進測量正確性，降低測量標車誤。因適性測驗的發展

Weiss

(1983) 指出 1950年代紙筆式的適性測驗便已出現，但因其實施復雜，而終告放棄。直到 1970年代左右，遍性測驗再度受到注意。其原因有二: 1.高速電腦的問世:

Green

(1970) 預測測驗擺脫不了電腦出現的影響。適性測驗有時也被稱為

(16)

司 146

•

教育心理學講話

電腦化測驗 (Lord ，凹的a)0

Weiss

(1 974) 更指出電腦化測驗比 CTT 的測驗更不受主試者影響

，更符合標準化測驗的原則。而高速電腦問世對於遍性測驗直接影響是電腦可以承擔適佐測驗中復雜的實施程序。

2.

LTT 的發展是促進適性測驗發展的主因:國內外測驗學者(林一員，民 71

; Anastas

i,

1982; Urry

,

1977; Weiss

,

19昀〉均指出 LTT 的出現，為適性測驗建立了良好的理論基礎。而

且LTT 的優點特性，也最容易表現在遍性剖驗的應用上。

Kreitzberg

&

Jones

(1980) 指出 Angoff

&

H

uddleston 於1958年便試圖應用 CTT 來發展適性測驗，但 CTT 應用於遍性測驗存有三個重大困難: 1.計分的問題:由於適性測驗的結果，不同的受試者接受不同安餅的測驗項目，測驗內容可能不間，;甚至測驗題數也不同。而 CTT 使用答對題數來計分易導致測驗結果解釋上及比較上的困難。 2. 項目參數的問題:在適性測驗選取適合受試者測驗項目的過程中，項目參數必須具備參數不變性，部項目參數不會隨著樣本改變而改變。在 CTT 中，

Gulliksen

(1950) 指出項目參數是以畫體資料來加以界定，項目參數值的大小，會隨樣本而變動。 3. 研究比較的問題 :CTT 中比較不同測驗實施方式，常用的是信度‘放度之類的相關指數，也於這類指數並未具備不變性，故而並不適用於適性測驗研究使用。上述三大困難阻礙了遍性測驗在 CTT 中的發展。直到 LTT 的出現才解決了 CTT 中的三大困難。在 LTT 之下，不同的受試者所接受的測驗項目不同，而讓以估計所得的能力參數是可比較的，而且理論上它是具備參數不變性。 LTT 的項目參數理論上也是具備參數不變性。 LTT 並提供測驗訊息的觀念使適性測驗研究工作上，具體了許多。 Weiss (1983) 更指出 LTT 提供了受試者反應與其能力參數。之間的理論建構使得電腦摸摸測驗實施及受試者反應的模擬研究變得可能。因此許多測驗的評估研究工作，便可以在 LTT 的模式下和模擬的情境下進行。這種測驗研究方式的特點是快速且省時經濟;研究結果常具備理論導向的作用。適性測驗研究使經常採取這種研究方式。研究者也是應用 LTT 的特性踩用電腦模擬適性測驗進行本研究。岫潛在特質理論應用在適性測驗 Hulin 等(1983) 說明遍性測驗的主要程序有三:第一、決定起始點:是指適性測驗如何開始測量的工作。第三、估計能力與項目選取:估計能力也說是前述的計分工作。第三、結束測量的標準。上述三者是適性測驗的三大程序，其中又以第二項估計能力及項目選取為最重要，因為這兩項工作是 CTT 中最感困難的。而 LTT 的優點也正是表現在這兩項工作。大多數適性測驗研究主題也集中在此。下面就這三個程序再加以說明: 1.決定起始點: Hulin 等(1983) 指出遍性測驗選擇第一題的方式有兩種，一是選取適中難度的項目，另→是以受試者有關資料如教育水摯的高低，來選取較為符合某教育水準之適中難度的項目。簡單的說，前→種是不管是那一位受試者接受適性測驗，第一題都一樣。後者則可能是同→個年級的受試者，所做的第一題相同:

Lord

(1 980a) 指出在1970年前後遍性測驗研究，相當重視起始點的研究，因為當時的適性測驗項目選取策略主要是上下法 (up-and-down) 及羅一門三民法 (Rob bins-Monro) 。這類的方法主要是依援項目難度來選取項目， r受試者答對，則下一題會難一些; 答錯，則下一題會簡單些。因此所選取的第一題，若項目難度與受試者能力相差太大時，則往往在開始階段要耗費較多測驗項目，才能大致估計出受試者能力。對於低能力的受試者，這開始階段可能會耗費更多的測驗項目，因為低能力受試者的反應，有相當的部份是由猜測因素所決定。所以那時的適性測驗研究會重視起始點。直到 1977年 Lord 自己的一項電腦模擬適性測驗研究，在個人能力事數

(17)

潛在特質理論與其應用於遇性測驗之評估研究

• 147

.ι 已知的缺況下，安排第-題，使第→題的項目難度與個人能力之間的差距，在控制下進行研究，結果發現在受試者完成25題的情況下，不管第一題如何安排其測量精確的程度，大致是-樣的。 Lord 的結論是:起始點的安排是無關緊要的。研究者認為這個研究不夠詳盡，因為它是在25題的狀況下評估，並未對25題之前的結果做交待，也許不必25題，結果也會穩定下來。總之，對於25題之前未逐→ 探討，是浪費資料，也使問題的真相模糊不清。不過大致上， Lord 的結論仍可看出，第-題的安排方法對測量精確度並沒有多大的影響。 2. 項目選取與估計能力:根攘 Hulin 等(19的)指出，適性測驗的進行，其項目選取的方式有下列四種: / \ @個人能力與項目難度的匹配:即根拔前面的反應組型估計出一個暫時的能力參數((J) ，然後

再接此言，選取尚未用過的項目中其難度與古最接近者，再實施之。

@考慮猜測因素、個人能力與項目難度匹配:當無猜測因素影響時，此-方式與第→種方式是相 / \ 同的。而此方式是很接{} ，再考慮猜測的因素，然接選擇項目難度是大於或等於 0 的題目。 / \ @最大項目訊息:是根撥。算出尚未使用項目的訊息，以最大者為下一題實施之。

@貝民估計的項目選取:根援貝氏估計 (Bayesian estimation) 估計出言，然後再計算尚未

使用的項目的降不確定 (reduction

in

uncertainty) 指數。這個指數用以表示貝民估計方法對於能力估計的貢獻程度，越大表示其對於能力估計越有助益。與項目訊息指數有類似的意議。而貝氏估計在適性測驗項目選取上，是選取降不確定指數最大者的項目，為干→題實施之。上述的四種選取項目的方式，除了第-種方式可以不在 LTT 進行，其餘三種均是在 LTT 之下，才有進行的可能。由於遍性測驗下，每個受試者所傲的測驗項目都不同，如何計分，才有比較上的意義，這也是適性測驗上一個特殊的問題。 Weiss (1974) ， Hulin 等(1 983) 指出遍性測驗對於個人能力估計方法，大致也有四種: / \ @以所做最後一題的項目難度做為最後的。。 / \ @以做完最後→題，再選一題適合的項目，但不對受試者實施，而以該項目難度做為最後的。。 / \

@使用最大可能性法估計 (maximum

likelihood

estimate，簡稱 MLE) {}。

@以貝民估計方法，估計云。

/ \ 以上四種估計能力的方法的共同特性，是 0 均建立在相同的暈尺上，間使不同的受試者傲的是不 / \ 間測驗項目，估計出來的。，仍是可比較的。其中第一、二種方法，可以不在 LTT 之下進行，而第三、四種方法，則完全依附在 LTT之下。 3. 結束測量:適性測驗-步→步估計能力，選取下一題再傲，週而復始，如何停止，也是適性測驗上一個特殊的問題。

適佐測驗結束的方法，主要有三 (Hulin，

Drasgow

&

Parsons

,

19臼;

Warm

,

1978):

@當指定的題數達到時便可以停止。 @當測量標車誤已低於預定標準時可以停止。 @當未使用項目中，無法再提供有意義的項目訊息時便可停止。通常遍性測驗有可能因為方法上的限制，而使遍性測驗所必氯完成→樣數量但內容不一樣的測驗項目，因此它們並未涉及結束測量的問題。這種狀況在此不予討論。研究者要討論的是測量結束不定的問題。假定有→個能力測驗居庫有 2∞題，它的項目參數事先均已校準 (ca Ii brated) ，項目參數都是已知，則可按前述的方法進行適性測驗的程序。如果我們還用的是-個測量結束不定的方法，則適佳測草鞋也可能是在做了第 200 個項目後才結束。苦果真如此，則與在 CTT 里要做完整個測驗的結果是-樣拘，所不同的是項目安排油!跟車。 CTT 的安排，難度通常是由簡入難，而遍性削驗的安

(18)

• 148 •

教育心理學報排則是從適合的項目到不適合的項目。因此，研究者要提出第一個適性測驗研究的概念:適性測驗研究其實就是研究如何安排測驗項目的順序，使測量工作達到最佳的狀視。所謂最佳狀況指的是用的題數少，測量精確性高 o 上述結束測量的方法，在實際情況下，有它的必要性。但從測驗研究的角度上看，這些結束測量的方法，基本上必須嚴定當結束測量條件符合時，則測量已經到達最佳狀況，也就是說如果有機會再往下傲，測量精確性不會再降低，但可能還會上升。這樣的骰定，在適性測驗實際狀況下運作，可能有相當的風險。理由是真實測驗情境下，受試者的能力並錄法事先預知。換言之，在適性測驗研究中，冒然決定測量結束的條件，可能會使研究結果產生誤解。因此面對這樣的基本位定，適性測驗無論是研究或是實際運作，其結束測量的問題，就不得不格外的儷重小心，而且有待進-步研究澄清的必要。研究者基於上面提出的適性測驗研究的概念與上述基本假定，擬以電腦模擬研究，以適性測驗項目選取的方法，安排受試者按順序逐→接受適合的項目，直到題庫中的所有項目均被用過，同時記錄受試者適性測驗全程的所有變化，藉此澄清適性測驗測量結束問題。國遍性測驗的實際具體策略: 根據 Weiss (1 974) 及 Hulin 等(1983) ，適性測驗策略大致可區分為二。其-是兩段式策略 (two-stage

strategy)

，另一是多段式策略 (mu1t i-stage

strategy)

，多段式策略又可分

為固定分支模式 (fixed

branch

model)及可變分支模式 (variable

branch

model)。

1.兩段式策略:指的是讓受試者先做→個前導測驗。 outing test) 然後再根攘前導測驗立即計分的結果，從幾個測量測驗 (measurement test) 中挑選-個適合的給受試者做。每個受試者傲的都是同→個前導測驗，但測量測驗就不→定是同→個。這種策略計分方法有二，第一是以受試者答對題目之難度平均來計分，另一則是以 LTT 最大可能性的方法，估計個人能力舉數。兩股式策略是適性測驗中最為簡單的策略。 2. 固定分支模式多階段策略:指的是根接受試者前→個測驗項目的答對答錯，來決定下-題。客對則難度升高，答錯則難度降低 o 至於升高難度多少或降低難度參少，是一個重要課題。前述上下法便是這一類的策略，升高降低難度的水準都一樣，而且前後也→致。高低法 (H-L method) 是上升小降低大，但前後-致;這是考慮猜測因素的策略。羅一門二民法則是前面項目難度上升下降較大，而後面項目則上升下降難度趨小。這種策略的計分方法除了上述三種之外，尚可以最後-題的難度指數來估計個人能力。大部份的適世測驗都是屬於這種策略。

3. 可變分支模式多階陸策略:主要的有最大項目訊息策略與貝民估計策略。前者是以古計算項目

/ \ 訊息，選擇最大者做為下一題。後者是以 0 計算降不確定指數，亦是選擇最大者。這種策略直接著眼於測量觀點。它的計分方法主要的有最大可能性法及貝民估計法。上述三種適性測駿策略，若以它們應用 LTT 的程度大小排列，由小而大應該是二階段策略、固定分支模式多階段策略、可變分支模式多階役策略。前二者在項目選取上主要是在個人能力與項目難度匹配上做考慮與第三種策略是以 LTT 的另兩個指數做考慮。上述三種策略拘另→種重異是:前二者的超車先依難度給予結構化，所以某種測驗反應順序產生某持定適住測驗路徑 (path) 。題慮的結構化，導致遍性測驗路徑固定而有眼。這種現象在第三種策略不會有的 (Ham

bleton

,

198日 Weiss ，

1974)

0 Weiss 的這個說法恐怕有點提慮，因為即使第

三種策略，題靡不須結構化，它的遍性測驗路徑恐怕也是固定而有眠的。只是種類多，變化多→點罷了，在本研究中也試著去探究這些路徑問題。

同適性測驗評估研究的特徵

(19)

潛在特質理論與其應用於遇性測驗之詩估研究

• 149 •

研究或實證研究。為學者所最熱衷的研究主題，應該就是依適性測驗的結果與傳統測驗 (Conven

tionaI

test) 的結果相比較，試圖透過比較以顯示適性測驗的優越性能。最具代表性的一個研究是

美國測驗服務社 F.

M.

Lord 所領導的一個自 1977 年至 1980:年的計畫 (Kreitzberg

&

Jones

,

1980) 。這個研究的適性測驗策略是最大訊息策略，以 25 題做為結束測量點。它的結果主要是與傳統測驗中的單宰測驗25題結果相比較，以測驗訊息指數為依變項。結果發現在各水車能力上，適性測驗所得訊息指數是傳統測驗訊息指數的 2 倍，表示遍性測驗的測量標準誤，僅是傳統測驗的l/-v2而已

;測量是精確了些。

事實上，

Lord

(1揭8) 早已在 LTT 剛出現時 (Lord

&

Novick

,

1968) 便以 LTT 從事遍性測驗研究。結果以相對教能 (relative efficiency) 為指標，指出適性測驗對於高能力及低能力的受試者測量得更好。 Lord (1 977) 說明了何以適性測驗會比較適用於極能力的受試者。理由是傳統測驗尤其是單宰測驗的設計，通常最適合用來測暈中等能力的受試者，而適性測驗可以在各種能力水準都做有殼的測量。換言之，遍性測驗適合極端能力受試者的測量，是因為傳統測驗在極端能力受試者測量得較差的緣故。因此， Lord 原先樂觀的想法，並不是建立在適性測驗對於各個能力水準上的比較，而是與傳統測驗比較之相對性觀點。因此，適性測驗比較適用於極端能力受試者測量的想法，有待進一步研究。適性測驗研究的另一特徵是對於結束測量點的取決不太重視。從早期二階段策略，及固定分支模式多階段策略 (HuIi n ，

Drasgow

&

Parasons

,

1983; Lord

,

1980a;

Wei間，

1974)

，根本不必去討論結束測量的問題。因為→旦題庫結構固定，適性測驗的題數就固定了，設有必要取決何時結束測量。影響所歪，使可變分支樣式多階段策略，亦都固定題數，做為取決結束測量的依接。例如

Kreitzberg & Jones

(1980) 是25題， Stocking (1984) 是 20 題， HuIi n 等(1983) 是25題，

McBride

&

Martin

(1 983) 是30題，

Reckase

(1983) 的 20 題， Urry (1 977) 的30題。事實上 Warm (1 978) 指出適性測驗最大的好處就是能夠在不減低測量精確性的狀況下，以最少的題數來測量出一個人的能力。 Warm (1978) 也指出適性測驗只須要傳統測驗題數的10彩到50%便可以獲得與傳統測驗同樣精確的教果。然而這題數的決定到底是多少呢?一個預定的統一的標傘，適當嗎? 適性測驗對於各個能力水準受試者測量性能一致嗎?都有待研究進一步﹒澄清。另一個問題是研究者在前面結束測量一節所提的:用固定題數來決定結束測量。這樣的說法，在測量的穗定性上，是無法保證的，因為也許再多做→題，精確性文要降低了。歸結上述，遍性測驗研究特徵所產生的困境，研究者以為主要是因為它的研究方法所導致。前述的研究多半採橫斷研究，亦即在統一的條件下比較適性測驗與傳統測驗之間的不同。而對於適性測驗

本身做系列性 (seq

uen

tiaI)的研究則較少。 Green (1 970) 早已推介以系列方法研究適性測驗，

以了解全貌。貳、研究問題與假設 -、研究問題基於上述研究者對 LTT 與適性測驗上的探討與認知，研究者擬透過本研究問答下列諸項有關 LTT 與它在適性測驗應用上的問題:

1.

LTT的項目舉數 (a ， b.c 參數)及個人能力寥數。與 CTT 中項目統計數 P

• rb

Ja "&個人得分之間是否一致?

2.

()已知的適性測驗的測驗路徑結構為何?

3.

()已知的遍性測驗的測量精確穩定性如何? 4. 。未知的適性測驗的測驗路徑結構為何?

5.

()未知的適性測驗的測量精確穩定性如何?

(20)

• 150 •

教育心理學報二、研究假設根據上述所列問題，研究者提出下列研究骰設，以供考驗分析之用。 /汽

1-1

LTT 的。參數與估計的。有正相關存在。

1-2

LTT 的。參數與 CTT 的個人得分有正相關存在。

1-3

1-4

1-5

2-1

2-2

2-3

3-1

3-2

3-3

3-4

4-1

4-2

4-3

5-1

5-2

5-3

5-4

LTT 的 a 參數與 CTT 的 r

b1S

值有正相關存在。 LTT 的 b 參數與 CTT 的 P 值有負相關存在。 LTT 項目中 a

,

b 參數相同， c 參數不同的二組測驗項目，其 rb1S 值有差異。 0 已知時，受試者可以根據適性測驗路徑的 a 參數加以分類。。已知時，受試者可以根攘適性測驗路徑的 b 參數加以分類。。已知時，受試者可以根據適性測驗路徑的 c 參數加以分類。 / \ / \ 0 己知時，適性測驗里做完題庫所估得的 (}F 與每一步驟所估得的() 1 之間差的絕對值基單調性遞降趨近於 O 。。已知時，適性測驗真做完題庫計分所得的答對百分比 P

_F

與每一步驟計分所得的答對百分比 P

1

之間差異的絕對值壘單調性遞降趨近o 。 / \ 。已知時，適性測驗每一步暸估計 () 1 時，疊代法聚斂的受試者數佔全體受試者之百分比基單調性遞升趨近於 100 。 / \ 0 已知時，遍性測驗每一步驟估計所得測驗訊息 1

(()

1)

，佔做完題庫所估得測驗訊息 / \

1

((}F) 之百分比，曇單調性遞升趨近於 100 。。未知時，受試者可以根接通性測驗路徑的 a 參數加以分類。 θ 未知時，受試者可以根攘適性測驗路徑的 b 參數加以分頰。 0 未知時，受試者可以根據適性測驗路徑的 c 參數加以分類。 / \ / \ θ 未知時，適性測驗做完題庫所估得的 (}F 與每一步驗所估得的() 1 之間差的絕對值，星單調性遞降趨近於 o 0 。未知時，遍性測驗做完題庫計分所得的答對百分比 P

_F

與每一步驟計分所得的答對百

分比

P

1

之間差異的絕對值，基單調性遞降趨近於0 。 / \ 0米知時，適性測驗每一步驟估計() 1 時，疊代法聚斂的受試者，佔全體受試者百分比，基單調性遞升趨近於 1000 / \ θ未知時，遍性測驗每一步驟估計所得之測驗訊息 1

(()

1)

，佔做完題庫所估得測驗訊 /'、息 1

(()

F) 之百分比，畢單調性遞升趨近 100 。

方法

-、研究架構為解答本研究所援的問題，並驗證本研究各項假設，研究者根據三喜歡對數模式，利用預先設定項目參數的 130 個測驗項目所組成的「題庫」及預先設定個人能力的 610 位「受試者 J '以電腦模擬方式產生每-受試者對 130 個項目之反應組型。並藉此 610 位受試者對 130 個項目的反應結果，從事 ?列分析:

抖估計個人能力言，計算個人得分，並對 130 個項目進行項目分析，以求得 P

,

rbla 等項目統

計數，並研究比較其與預先設定之各項星星數的關係。叫使每一受試者在 0 已知的情況下，還→接受適性測驗，亦割根撥。選取項目，安排適性測驗步驟，以分析。已知的適性測驗路徑結構及其測量精確種定性。