• 沒有找到結果。

第二章 文獻探討

第四節 評估測量工具應具備之特質

一、 心理測量學特質

心理測量學是一門研究心理測驗(psychological testing)與評 斷(assessment)的科學(Cohen, Montague, Nathanson, & Swerdlik, 1988),是一門包括量化心理學(quantitative psychology)、個別 差 異 (individual differences)、 和心理測驗理論(mental test theories)等研究範圍的學問。而其中「測量」是依照一定的步驟(法 則)、對個體(人、事、物)使用數值(分派數字)來表示個體的 特 性 。 測 量 的 實 際 用 途 主 要 包 括 了 選 擇 ( selection) 、 分 類

(classification)、評鑑(evaluation)及諮商(counseling)

(姚開文,民 85)。在臨床的使用上,測量也常被用來做為評定

(assessment)、診斷(diagnosis)及預測(prediction)的工具,

因而測量必需具有相當的水準-良好的信度與效度才能測量所期望 得知的結果。倘若所使用的測量不良,則無法就測量結果對受測對 象的情形做了解、下定論甚至預估受測對象的未來發展情形(姚開 屏,民 85)。

心理測量理論(test theory)是一種解釋測驗資料間實證關係 (empirical relationships)的有系統的理論學說,它的發展,迄今 已邁入不同的新紀元,測驗理論學者通常把它劃分成二大學派:一 為古典測驗理論(classical test theory)—主要是以真實分數模式 (true score model) (Gullikson,1987;Lordb等,1968)為骨幹;

另一為當代測驗理論(modern test theory) —主要是以試題反應理 論(item response theory)(Hambletond等,1985;Hambletone 等,

1991; Hulin 等,1983;Lorda,1980)為架構。這兩派理論目前並行

44

流通於測驗學界,但試題反應理論卻有後來居上,逐漸凌駕古典測 驗理論之上,甚至進而取而代之之勢。

1. 古典測驗理論

古典測量理論主要是以「真實分數模式」為基礎。古典測量理論 是一種直線關係的數學模式,任何測量的觀察分數(X)皆由「真實 分數(T)」與「誤差分數(E)」所構成的數學函數關係,數學公 式為 X = T + E。其中,真實分數指的是研究者真正想測量的特質,

誤差分數則是研究者欲想避免的部分。誤差又可分為「系統誤差」

與「隨機誤差」,系統誤差的發生如:問卷測量在題目語意不清,

造成選填錯誤,不論對每一位受測者都具有此誤差,此誤差並不會 影響測量結果的一致性,但會使測量分數不準確;而隨機誤差的發 生如:受測者在填答時分心、猜測或受心情影響,會造成降低測量 結果的一致性,也降低測量結果的準確性(Allen 等,1979;姚開 屏,民 91;Hambletone等,1991)。

古典測量理論模式的發展歷史悠久,且頗具規模,所採用的計算 公式簡單明瞭、淺顯易懂,適用於大多數的教育與心理測驗資料,

以及社會科學資料的分析,為目前測驗學界使用與流通最廣的理論 依據。而古典測量理論之假設如下(Allen 等,1979;姚開屏,民 85):

A. X = T + E,即觀察值=真實值+誤差值。這種觀察值 含有誤差,而此誤差有時大於真實值也有時小於真 實值,但總平均誤差為零。由於此隨機誤差的存在,

因此即使受試者的真實值 T 是固定不變的,但每一 次的觀察值不一定都相等,不過觀查值的分配為常 態分配。

45

B. ε(X)=ε(T + E)= T,觀察值的期望值=真實值。

相同測量方式重覆測同一個人很多次所得觀察值分 配的平均值為受試者的真實值,而誤差值的期望值 等於零。

C. ρET=0,誤差值與真實值不相關。也就是說真實值的 高低不會與其測量誤差的高低有關係。

D. 一個人在一測驗上有較高的誤差,不一定在另一測 驗上有較高(或較低)的誤差。這個假設只有在某 些情形下才不成立,例如當受試者疲倦時、前二次 測驗產生了練習效果時以及受試者受情緒或環境因 素影響時。如同 X1 = T1 + E1與 X2= T2 + E2,則ρ

E1E2 = 0,兩測驗間之誤差不相關。

E. ρE1T2 = 0,一個測驗的誤差與另一個測驗的真實值 不相關。因此在測驗某種特質時,不受另一種測驗 誤差的影響。

F. 平行測驗(parallel tests):若兩測驗符合假說 1 至假說 5,且兩測驗有相同的真實值以及相同誤差 變異量,則此兩測驗稱作平行測驗。

古典測驗理論的內涵,主要是以真實分數模式為理論架構,依據 弱勢假設(weak assumption)而來,其理論模式的發展已為時甚久,

且發展得相當規模,可以發現主要優點如下(Hambletone等,1991):

A. 所採用的計算公式簡單明瞭、淺顯易懂。

46

B. 適用於大多數的教育與心理測驗資料,以及社會科 學資料的分析,為目前測驗學界使用與流通最廣的 理論依據。

然而,除上述各項優點外,古典測驗理論卻有下列諸項先天的缺 失(Guion 等,1983;Wright,1979):

A. 古 典 測 驗 理 論 所 採 用 的 指 標 , 諸 如 : 難 度 (difficulty)、鑑別度(discrimination)、和信度 (reliability) 等 , 都 是 一 種 樣 本 依 賴 (sample dependent)的指標;也就是說,這些指標的獲得會 因接受測驗的受試者樣本的不同而不同,因此,同 一份試卷很難獲得一致的難度、鑑別度、或信度。

B. 古典測量理論在測量上,測量誤差會影響到觀察 值 ; 古 典 測 量 理 論 以 一 個 相 同 的 測 量 標 準 誤 (Standard Error of Measurement),作為每位受測 者的測量誤差指標,這種作法並沒有考慮受測者能 力的個別差異,對高、低能力兩組極端的受測者而 言,這種指標極為不合理且不準確。不論能力好壞,

每位受測者所接受的測驗都一樣。

C. 古典測驗理論對於非複本(nonparallel)但功能相 同的測驗所測得的分數間,無法提供有意義的比 較,有意義的比較僅侷限於相同測驗的前後測分數 或複本測驗分數之間。

D. 古 典 測 驗 理 論 對 信 度 的 假 設 , 是 建 立 在 複 本 (Parallel Forms)測量的概念假設上,但是這種假

47

設往往不存在於實際測驗情境裡。因為不可能要求 每位受試者接受同一份測驗無數次,而仍然假設每 次測量間都彼此獨立不相關,況且,每一種測驗並 不一定同時都有製作複本,因此複本測量的理論假 設是行不通的,從方法學邏輯觀點而言,它的假設 也是不合理的、矛盾的。

E. 古典測驗理論忽視受試者的試題反應組型(item response pattern),認為原始得分相同的受試者,

其能力必定一樣;其實不然,即使原始得分相同的 受試者,其反應組型亦不見得會完全一致,因此,

其能力估計值應該會有所不同。

F. 古典測量理論無法對受測者的能力作預測。

2. 試題反應理論

自70年代起,試題反應理論(Item Response Theory,IRT)成 為測驗學者們研究的焦點,但是從30年代到60年代末,測驗領域仍已 強調真分數理論為主,儘管如此,真分數理論的問題和弱點卻也逐漸 突顯。古典測驗理論(Classical Test Theory,CTT)的假設較弱,

較容易獲得滿足,而且對使用的人而言根本不談理論假設,也因此流 行ㄧ時,甚至造成大家對數學模式、交代嚴謹的試題反應理論有些排 斥或不適應。但古典測試理論在測驗上有些缺點:例如測驗題目的參 數(信度、難度及鑑別度)隨著受測樣本的特質而有所不同;且古典 測試理論不夠適性,無法兼顧各個不同能力點的受測者;無法以概率 的方式預測某位受測者面對一個未曾考過題目時答對的可能;且都假 設一個測驗下,所有受測者的測驗誤差都ㄧ樣,很明顯的不適切

(McHorney,1997)。

48

試題反應理論與古典測試理論主要之差距在於前者強調題目特 徵曲線(Item Characteristic Curve,ICC),後者以強調真分數(True Score)為主。由於古典測試理論無法正確評量出受測者之個人真正 潛在能力(Talent),而試題反應理論係以機率模型為基礎,將潛在 能力與題目難度以同一尺度標準化測定,所發展出這套的理論,已成 為近代心理測量之主流(Cooper,1998)。

而對於試題反應理論的所作基本假設,依據模式的不同,分別介 紹如下(Hambletone,1991):

A. 單一向度(Unidimensionality)假設:試題反應理 論中的各種模式有個最常用的共同假設,那就是測 驗中的各個試題都測量到同一種共同的能力或潛在 特質;這種單一能力或潛在特質(因素)必須包含 在測驗試題裡的假設,便是單向度的假設。

B. 局部獨立(Local Independence)假設:假定所回 答的每一個題目皆局部獨立。即針對某一受試能力 而言,題目彼此間不存在任何相關,即一個題目不 能為另一個題目提供線索。

C. 非速度測驗假設:由於試題反應模式所應用的試題 均屬難度測驗,受試者須有機會回答所有試題才能 有效測出受試者的潛在特質或能力。故假設是測驗 的實施不是在速度限制下完成的;換句話說,受試 者的受試成績不理想,是由於能力不足所引起,而 不是由於時間不夠答完所有試題所致。

49

D. 知道—正確假設(know--correct assumption):如 果考生知道某一試題的正確答案,必然會答對該試 題;換句話說,如果考生答錯某一試題,必然不知 道該試題的答案。當然,把正確答案填錯在別的格 子上以致整個試卷都錯的例子,不在本假設所考慮 的範圍內,因為人為的疏忽不是任何測驗理論所能 顧及到的。此外,省略不答的試題(omitted items) 和未答完的試題(unreached items)有所不同,前者 是受能力影響所致,後者是受施測速度影響所致。

本假設僅能適用於前者,它和前個假設一樣,都隱 含在單向度假設裡,故殊少被提及。

當代測驗理論是為了改進古典測驗理論的缺失而來,它具有下列 幾項特點,這些特點正是古典測驗理論所無法具備的(Hambletonb 等,1989;Hambletonc等,1977;Hambletond等,1985; Hambletone 等,1991;Lorda,1980):

A. 當代測驗理論所採用的試題參數(item parameters)

(如:難度、鑑別度、猜測度等),是一種不受樣 本影響(sample-free)的指標;也就是說,這些參數 的獲得,不會因為所選出接受測驗的受試者樣本的 不同而不同。

B. 當代測驗理論能夠針對每位受試者,提供個別差異 的測量誤差指標,而非單一相同的測量標準誤,因 此能夠精確推估受試者的能力估計值。

C. 當代測驗理論可經由適用的同質性試題組成的分測 驗,測量估計出受試者個人的能力,不受測驗的影

50

響(test-free),並且對於不同受試者間的分數,亦 可進行有意義的比較。

D. 當 代 測 驗 理 論 提 出 以 試 題 訊 息 量 (item information)及試卷訊息量(test information)的 概念,來作為評定某個試題或整份試卷的測量準確

D. 當 代 測 驗 理 論 提 出 以 試 題 訊 息 量 (item information)及試卷訊息量(test information)的 概念,來作為評定某個試題或整份試卷的測量準確