• 沒有找到結果。

壹、測驗理論的轉變

數千年前的中國早已懂得運用各項測驗來選拔人才,但儘管此制度歷史悠 久,卻常流於主觀的判斷,沒有一套客觀且標準化的計分系統來鑑別受試者的高 低。直至 20 世紀,比奈-西蒙(Binet-Simon)的第一個心理測驗問世後,揭開心 理計量學的序幕,測驗學家開始關切心理測驗評量之信效度及統計估算程序,而 H.Gulliksen(1950)所著作的《心理測驗理論》(Theory of Mental Test)係第一本 討論測驗理論的專書,也確立了古典測驗理論(classical test theory, CTT)的名稱。

由於該理論簡單易懂,廣受社會大眾接受,因而引領了 20 世紀測驗編製的發展。

古典測驗理論採真實分數模式為理論架構,亦即實得分數(observed score)

等於真實分數(true score)與誤差分數(error score)之和,並以整份測驗來解釋 分數的涵義,其單題的得分不具任何的意義(Gulliksen, 1987)。此種以測驗得分 來評定受試者能力高低,以答對或同意率來展現測驗難度的方式面臨兩項考驗,

第一:受試者的能力優劣取決於試題的難易程度,此即測驗依賴(test dependent); 第二:試題的難易程度受制於受試者本身的特性,此為樣本依賴(sample depend- ent)。換言之,受試者的能力估計與試題的難度估計互受干擾,難以達到客觀測 量的標準,若欲運用原始分數表達團體間的差異與進步,將使後續的分析具有詬 病之處。(王文中,民 93)

為了克服古典測驗理論的缺失,才有試題反應理論(item response theory, IRT)

的誕生。此理論以個別試題為觀點來解釋分數的涵義,認為受試者在每一題的表 現與其潛在特質(latent trait)或能力(ability)相關,可透過一條連續性遞增的 數學函數加以表示,此數學函數稱作「試題特徵曲線」(item characteristic curve, ICC),亦即此曲線係用來描述測驗所欲測量的受試者潛在特質與其在試題上做出

正確反應的機率(Tucker, 1946)。相較於古典測驗理論,試題反應理論具有參數 不變性(parameter invariance)的特色,意指用來描述一道題目的試題參數(難 度、鑑別度、猜測度)不受受試者能力高低影響,而用來描述受試者的能力參數,

也不受測驗試題的影響(Hambleton & Swaminathan, 1985),此解決了古典測驗理 論受試者能力估計與試題難度估計互相干擾的難題。在試題反應理論下,計分的 型態主要分為二元計分(dichotomous scoring)與多元化計分(polytomous scoring)兩 種。二元計分係將作答結果轉換成兩種分數來表示,正確的反應記為 1,錯誤的 反應記為 0,成就測驗中的選擇題即是典型代表;另外,多元計分則是針對同一 試題中的不同層面給予不同的得分,申論題及心理量表多用此計分方式。本研究 旨在編製量表,測量受試者的團隊合作與領導能力特質,作答反應無標準答案,

因此受試者無須猜題,猜測度即不存在,除此,一般的心理測驗試題,應具有相 等的鑑別度功能,習慣將鑑別度設定為 1(Embretson & Reise, 2000)。而適合用 來分析心理測驗資料的反應模式頗多,多半依據一參數對數型模式,統稱為

「Rasch 家族模式」(family of Rasch models)(Masters & Wright, 1984)。

貳、Rasch 模式的特性

心理測量的標的為潛在特質或能力,但此標的無法直接測量,使得心理計量 學面臨所得的測驗分數是否客觀及等距的考驗。為了解決此一問題,丹麥學者 George Rasch(1960)提出 Rasch 模式,希望透過受試者的作答反應,得到等距 和客觀的量尺。Rasch 模式的假設非常嚴格,認為影響考生表現好壞的試題特性 只有試題難度(item difficulty),而試題鑑別度(item discrimination)及猜測度

(guess)不考慮其中。此外,受試者答對某試題的機率,可用受試者的能力參數 估計值以及試題難度參數估計值來表示,並將測量的單位由非線性的原始分數轉 化為線性的 logit,經由 logit 的轉換,潛在特質和試題特性則呈線性關係,符合 所預期的等距且客觀的特性。另外,在 Rasch 模式中,答對題數是個人能力參數

的充分統計量(sufficient statistics),意即原始分數相同,能力值就相同;原始分 數越高,能力值就越高,反之亦然。但在多參數模式裡,原始分數和能力值並沒 有一對一的對應關係(王文中,民 93)。

在試題反應理論下,有多種參數型的模式,而分析資料時該使用何種模式,

則應該視模式與資料的適配情形而定。一般而言,雖然多參數模式比 Rasch 模式 更能吻合測驗的資料,但若各試題的鑑別度參數遇有變動,則受試者的能力量尺 則不具等距特性,既然客觀、等距特性不存在,則測量結果將有所瑕疵;反之,

若將鑑別度參數設為固定值 1,則又回到 Rasch 模式的假設(王文中,民 93)。

本研究為追求心理計量的客觀性及考量量尺的等距性,因而選擇 Rasch 模式作為 資料分析的模式,並針對試題的適配度指標進行選題及修題時的參考依據。

參、評等量尺的 Rasch 分析

Rasch 模式假設符合單向度、線性、客觀性的要求,提升了測量的品質。除 了運用於二元計分,在多元化的計分上也衍生許多模式,包括評等量尺模式(Rat- ing scale model, RSM)、部分計分模式(Partial credit model)等,上述皆屬於 Rasch 模式的延伸,假設同一份測驗中所有試題均有相等的鑑別度參數,換言之,每道 試題均具有相同的品質程度(Masters & Wright, 1984)。

鑒於本研究所使用的量表採用李克特氏五點計分模式,因而選擇評等量尺模 式作深入研究。此模式由 Andrich 於 1978 年提出,適用於試題反應資料之間具有 次序大小關係的情況,例如:非常同意(5 分)、同意(4 分)、沒意見(3 分)、

不同意(2 分)、非常不同意(1 分)。事實上,其最初的構想,即針對研究中最常 用的李克特氏五點計分量表而來。在量尺的假設上,設定選項彼此間的距離是等 距的,意即受試者在回答所有題目時,對各選項間的心理距離是一樣的。

Rasch 模式需要龐雜的計算程序,幸而有多種電腦軟體程式可提供支援,其 中較常運用於 Rasch 分析的程式包括 WINSTEPS(Linacre & Wright, 2000)和 Con-

Quest(Wu, Adams & Wilson, 2007)。在此僅針對本研究的使用工具 ConQuest 軟 體做簡要說明:ConQuest 由 Wu、Adams 和 Wilson(2007)所發展,應用於 Rasch 家族模式,不論二元計分或多元計分模式皆適用。ConQuest 使用邊緣最大概似估 計法(MML)進行試題參數估計,在能力參數的估計上包括最大概似估計法

(MLE)、期望後驗估計法(EAP)、加權概似估計法(WLE)及潛在估計法(latent)。 此因運用漸廣,已逐漸成為 Rasch 分析的主流程式。(余民寧,民 98)

第三章 研究方法與設計

相關文件