評估測量工具應具備之特質

第二章文獻探討

第四節評估測量工具應具備之特質

一、心理測量學特質

心理測量學是一門研究心理測驗(psychological testing)與評斷(assessment)的科學(Cohen, Montague, Nathanson, & Swerdlik, 1988)，是一門包括量化心理學(quantitative psychology)、個別差異 (individual differences)、和心理測驗理論(mental test theories)等研究範圍的學問。而其中「測量」是依照一定的步驟（法則）、對個體（人、事、物）使用數值（分派數字）來表示個體的特性。測量的實際用途主要包括了選擇（ selection）、分類

（classification）、評鑑（evaluation）及諮商（counseling）

（姚開文，民 85）。在臨床的使用上，測量也常被用來做為評定

（assessment）、診斷（diagnosis）及預測（prediction）的工具，

因而測量必需具有相當的水準－良好的信度與效度才能測量所期望得知的結果。倘若所使用的測量不良，則無法就測量結果對受測對象的情形做了解、下定論甚至預估受測對象的未來發展情形（姚開屏，民 85）。

心理測量理論(test theory)是一種解釋測驗資料間實證關係 (empirical relationships)的有系統的理論學說，它的發展，迄今已邁入不同的新紀元，測驗理論學者通常把它劃分成二大學派：一為古典測驗理論(classical test theory)—主要是以真實分數模式 (true score model) (Gullikson，1987；Lord^b等，1968)為骨幹；

另一為當代測驗理論(modern test theory) —主要是以試題反應理論(item response theory)(Hambleton^d等，1985；Hambleton^e等，

1991; Hulin 等，1983;Lord^a，1980)為架構。這兩派理論目前並行

流通於測驗學界，但試題反應理論卻有後來居上，逐漸凌駕古典測驗理論之上，甚至進而取而代之之勢。

1. 古典測驗理論

古典測量理論主要是以「真實分數模式」為基礎。古典測量理論是一種直線關係的數學模式，任何測量的觀察分數（X）皆由「真實分數（T）」與「誤差分數（E）」所構成的數學函數關係，數學公式為 X = T + E。其中，真實分數指的是研究者真正想測量的特質，

誤差分數則是研究者欲想避免的部分。誤差又可分為「系統誤差」

與「隨機誤差」，系統誤差的發生如：問卷測量在題目語意不清，

造成選填錯誤，不論對每一位受測者都具有此誤差，此誤差並不會影響測量結果的一致性，但會使測量分數不準確；而隨機誤差的發生如：受測者在填答時分心、猜測或受心情影響，會造成降低測量結果的一致性，也降低測量結果的準確性（Allen 等，1979；姚開屏，民 91；Hambleton^e等，1991）。

古典測量理論模式的發展歷史悠久，且頗具規模，所採用的計算公式簡單明瞭、淺顯易懂，適用於大多數的教育與心理測驗資料，

以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據。而古典測量理論之假設如下（Allen 等，1979；姚開屏，民 85）：

A. X = T + E，即觀察值=真實值+誤差值。這種觀察值含有誤差，而此誤差有時大於真實值也有時小於真實值，但總平均誤差為零。由於此隨機誤差的存在，

因此即使受試者的真實值 T 是固定不變的，但每一次的觀察值不一定都相等，不過觀查值的分配為常態分配。

B. ε（X）=ε（T + E）= T，觀察值的期望值=真實值。

相同測量方式重覆測同一個人很多次所得觀察值分配的平均值為受試者的真實值，而誤差值的期望值等於零。

C. ρ^ET=0，誤差值與真實值不相關。也就是說真實值的高低不會與其測量誤差的高低有關係。

D. 一個人在一測驗上有較高的誤差，不一定在另一測驗上有較高（或較低）的誤差。這個假設只有在某些情形下才不成立，例如當受試者疲倦時、前二次測驗產生了練習效果時以及受試者受情緒或環境因素影響時。如同 X¹ = T¹ + E¹與 X²= T² + E²，則ρ

E1E2 = 0，兩測驗間之誤差不相關。

E. ρ^E1T2 = 0，一個測驗的誤差與另一個測驗的真實值不相關。因此在測驗某種特質時，不受另一種測驗誤差的影響。

F. 平行測驗（parallel tests）：若兩測驗符合假說 1 至假說 5，且兩測驗有相同的真實值以及相同誤差變異量，則此兩測驗稱作平行測驗。

古典測驗理論的內涵，主要是以真實分數模式為理論架構，依據弱勢假設(weak assumption)而來，其理論模式的發展已為時甚久，

且發展得相當規模，可以發現主要優點如下（Hambleton^e等，1991）：

A. 所採用的計算公式簡單明瞭、淺顯易懂。

B. 適用於大多數的教育與心理測驗資料，以及社會科學資料的分析，為目前測驗學界使用與流通最廣的理論依據。

然而，除上述各項優點外，古典測驗理論卻有下列諸項先天的缺失(Guion 等，1983；Wright，1979)：

A. 古典測驗理論所採用的指標，諸如：難度 (difficulty)、鑑別度(discrimination)、和信度 (reliability) 等，都是一種樣本依賴 (sample dependent)的指標；也就是說，這些指標的獲得會因接受測驗的受試者樣本的不同而不同，因此，同一份試卷很難獲得一致的難度、鑑別度、或信度。

B. 古典測量理論在測量上，測量誤差會影響到觀察值；古典測量理論以一個相同的測量標準誤 (Standard Error of Measurement)，作為每位受測者的測量誤差指標，這種作法並沒有考慮受測者能力的個別差異，對高、低能力兩組極端的受測者而言，這種指標極為不合理且不準確。不論能力好壞，

每位受測者所接受的測驗都一樣。

C. 古典測驗理論對於非複本(nonparallel)但功能相同的測驗所測得的分數間，無法提供有意義的比較，有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。

D. 古典測驗理論對信度的假設，是建立在複本 (Parallel Forms)測量的概念假設上，但是這種假

設往往不存在於實際測驗情境裡。因為不可能要求每位受試者接受同一份測驗無數次，而仍然假設每次測量間都彼此獨立不相關，況且，每一種測驗並不一定同時都有製作複本，因此複本測量的理論假設是行不通的，從方法學邏輯觀點而言，它的假設也是不合理的、矛盾的。

E. 古典測驗理論忽視受試者的試題反應組型(item response pattern)，認為原始得分相同的受試者，

其能力必定一樣；其實不然，即使原始得分相同的受試者，其反應組型亦不見得會完全一致，因此，

其能力估計值應該會有所不同。

F. 古典測量理論無法對受測者的能力作預測。

2. 試題反應理論

自70年代起，試題反應理論（Item Response Theory，IRT）成為測驗學者們研究的焦點，但是從30年代到60年代末，測驗領域仍已強調真分數理論為主，儘管如此，真分數理論的問題和弱點卻也逐漸突顯。古典測驗理論（Classical Test Theory，CTT）的假設較弱，

較容易獲得滿足，而且對使用的人而言根本不談理論假設，也因此流行ㄧ時，甚至造成大家對數學模式、交代嚴謹的試題反應理論有些排斥或不適應。但古典測試理論在測驗上有些缺點：例如測驗題目的參數（信度、難度及鑑別度）隨著受測樣本的特質而有所不同；且古典測試理論不夠適性，無法兼顧各個不同能力點的受測者；無法以概率的方式預測某位受測者面對一個未曾考過題目時答對的可能；且都假設一個測驗下，所有受測者的測驗誤差都ㄧ樣，很明顯的不適切

（McHorney，1997）。

試題反應理論與古典測試理論主要之差距在於前者強調題目特徵曲線（Item Characteristic Curve，ICC），後者以強調真分數（True Score）為主。由於古典測試理論無法正確評量出受測者之個人真正潛在能力（Talent），而試題反應理論係以機率模型為基礎，將潛在能力與題目難度以同一尺度標準化測定，所發展出這套的理論，已成為近代心理測量之主流（Cooper，1998）。

而對於試題反應理論的所作基本假設，依據模式的不同，分別介紹如下（Hambleton^e，1991）：

A. 單一向度（Unidimensionality）假設：試題反應理論中的各種模式有個最常用的共同假設，那就是測驗中的各個試題都測量到同一種共同的能力或潛在特質；這種單一能力或潛在特質（因素）必須包含在測驗試題裡的假設，便是單向度的假設。

B. 局部獨立（Local Independence）假設：假定所回答的每一個題目皆局部獨立。即針對某一受試能力而言，題目彼此間不存在任何相關，即一個題目不能為另一個題目提供線索。

C. 非速度測驗假設：由於試題反應模式所應用的試題均屬難度測驗，受試者須有機會回答所有試題才能有效測出受試者的潛在特質或能力。故假設是測驗的實施不是在速度限制下完成的；換句話說，受試者的受試成績不理想，是由於能力不足所引起，而不是由於時間不夠答完所有試題所致。

D. 知道—正確假設(know--correct assumption)：如果考生知道某一試題的正確答案，必然會答對該試題；換句話說，如果考生答錯某一試題，必然不知道該試題的答案。當然，把正確答案填錯在別的格子上以致整個試卷都錯的例子，不在本假設所考慮的範圍內，因為人為的疏忽不是任何測驗理論所能顧及到的。此外，省略不答的試題(omitted items) 和未答完的試題(unreached items)有所不同，前者是受能力影響所致，後者是受施測速度影響所致。

本假設僅能適用於前者，它和前個假設一樣，都隱含在單向度假設裡，故殊少被提及。

當代測驗理論是為了改進古典測驗理論的缺失而來，它具有下列幾項特點，這些特點正是古典測驗理論所無法具備的(Hambleton^b 等，1989；Hambleton^c等，1977；Hambleton^d等，1985； Hambleton^e 等，1991；Lord^a，1980)：

A. 當代測驗理論所採用的試題參數(item parameters)

（如：難度、鑑別度、猜測度等），是一種不受樣本影響(sample-free)的指標；也就是說，這些參數的獲得，不會因為所選出接受測驗的受試者樣本的不同而不同。

B. 當代測驗理論能夠針對每位受試者，提供個別差異的測量誤差指標，而非單一相同的測量標準誤，因此能夠精確推估受試者的能力估計值。

C. 當代測驗理論可經由適用的同質性試題組成的分測驗，測量估計出受試者個人的能力，不受測驗的影

響(test-free)，並且對於不同受試者間的分數，亦可進行有意義的比較。

D. 當代測驗理論提出以試題訊息量 (item information)及試卷訊息量(test information)的概念，來作為評定某個試題或整份試卷的測量準確

在文檔中歐洲癌症治療與研究組織生活品質核心問卷、肺癌生活品質問卷之信效度研究; Quality of life in patients with lung cancer in Taiwan: Validation of a Chinese version of the EORTC QLQ-C30 and the EORTC QLQ-LC13 (頁 54-70)

第二章 文獻探討

第四節 評估測量工具應具備之特質

第二章文獻探討

第四節評估測量工具應具備之特質