簡介羅序分析

第一章前言

第三節簡介羅序分析

一、羅序模式及項目反應理論 (IRT)：

羅序分析，意指使用羅序模式 (Rasch model) 驗證測量工具。羅序模式為丹麥學者Georg Rasch 於 1960 年所創，可視作項目反應理論 (item response theory, IRT) 的分支、或者數學上等同於 IRT 中的單參數模式 (one-parameter logistic model, 1PLM) (Wohlk Olsen, 2003)。

IRT 由美國學者 Lord 及 Novick 於 1968 年所創，相較於古典測驗理論 (classical test theory) 而言屬於比較新的測驗理論，常應用於教育、心理及醫學等相關領域中。

IRT 具有二個重要的假設：「單向度 (unidimensionality)」及「局部獨立性 (local independence)」。

1. 單向度是 IRT 各種模式中最常用的基本假設，意指測驗中的所有題目都評量到同一種潛在特質 (latent trait)（指的是評量者想評量的建構，可以是個案的能力、態度、特徵或特質）。此外，僅有同一種潛在特質也代表該評量工具僅有一個建構，所有題目都在測量該建構。

2. 局部獨立性指的是當影響測驗表現的能力（潛在特質）固定不變時，個案對測驗中某一題目之反應與其他任一題目之反應為獨立或不相關的。此意謂著個案能力才是唯一影響個案在測驗試題上做反應的因素。

此外 IRT 又被稱作「潛在特質理論」(latent trait theory) (Lord, 1968)，原因來自於其具有二個核心理念：

1. 個案在某一測驗題目的作答反應，可由其潛在特質加以預測或解釋。

2. 個案之作答反應及該潛在特質間的關係，可透過一條連續性遞增的函數加以詮釋，此函數稱作試題特徵曲線 (item characteristic curve, ICC)。（ICC 便是該題答對機率對個案潛在特質的迴歸線，後續會詳細說明）。

綜上所述，IRT 重視個案的潛在特質，透過描述個案對於每個題目的答對機率，可推論潛在特質及題目特性（難度、鑑別度）如何影響作答反應。

後來的研究學者按照 IRT 之假設及核心理念發展出多種適用於不同測驗情境的模式：依據參數個數的不同，可分為單參數模式、及二參數模式 (two-parameter logistic model, 2PLM)；依據計分量尺的不同，可分為二分題

(dichotomous items) 模式、及多元計分 (polytomous) 模式；而依據作答方式的不同，可分為評等量尺模式 (rating scale model)、及部份得分模式 (partial credit model) 等。

羅序模式的設計其實就等同於 IRT 之中的單參數模式，也擁有前述提及 IRT 之核心理念及假設，雖然二者之間仍有部分原理及方法學上的差異，但於基本應用上是類似的。

之後有一派學者承襲了 Rasch 精神發展了因應不同情境的多種模式，通稱為Rasch 家族（王文中, 1997）。為求容易理解，接下來先介紹 Rasch 家族之中最簡單的二分題模式，其適用的作答反應必須為二元計分（對或錯、是或否、

成功或失敗、同意或不同意等）。

二、羅序模式之二分題模式：

以下會先介紹二分題模式之數學式，並且說明依據羅序模式畫出之 ICC。

1. 數學式 (Rasch, G., 1960)

𝑃_ni1= exp(𝜃_𝑛 − 𝑏_𝑖) 1 + exp(𝜃_𝑛− 𝑏_𝑖)

也能轉換成另一種形式：log (^𝑃ⁿⁱ¹

𝑃_ni0) = 𝜃_𝑛− 𝑏_𝑖

(1) 𝑃_ni1：第n 個人在第 i 題答對的機率。

此處以最基本的二分題為例，以1 代表正確、0 代表錯誤。故𝑃_ni0則為第n 個人在第i 題答錯的機率，且𝑃_ni1+ 𝑃_ni0= 1。

(2) 𝜃_𝑛：第n 個人的能力或稱為潛在特質。

(3) 𝑏_𝑖：第i 題的難度。

(4) ^𝑃ⁿⁱ¹

𝑃ni0：同一個案、答對題目機率除以答錯相同題目機率，又稱為勝算比。

若個案能力 (𝜃_𝑛) 大於題目難度 (𝑏_𝑖)，則答對機率大於 50%；反之，若個案能力 (𝜃_𝑛) 小於或等於題目難度 (𝑏_𝑖)，則答對機率變為小於或等於 50%

(Wright, 2000)。

由上述公式可知，羅序模式認為個案回答某一題目是否正確之機率取决於個案能力和題目難度之間的比較。也可以說，只要了解個案能力及題目難度，

便能知道該個案在某題目的答對機率為多少。

2. ICC

依據羅序模式之假設，個案的作答反應及其潛在特質的關係都能由 ICC 詮釋，ICC 便是該題目之答對機率對個案潛在特質的迴歸線，如圖 1。因此，每一個題目都能畫出自己的ICC。

ICC 具有以下四個特性：

(1) 對同一個題目而言，當個案的能力值越高，其答對該題目的機率也會隨之變高，代表ICC 為單調遞增 (monotonic increasing) 曲線。

(2) 因為個案答對機率取决於個案能力和題目難度之間的比較，故 ICC 形狀亦由個案能力及題目難度決定。

(3) ICC 具有預測作答反應的功能。憑藉著 ICC 可以預測某能力程度的個案，在回答某種難度的題目時，其答對的機率是多少。

(4) 於應用層面上，ICC 有助於評量人員針對不同能力程度的個案，挑選適合難度的題目，此即為適性測驗 (adaptive testing) 的精神。只要挑選對個案而言最適當的題目就能獲得最多的資訊，也能避免讓個案執行對其太過困難、或者太過容易的題目，同時減輕個案、治療人員及研究人員的負擔。

三、優勢：

相較於傳統的測驗理論，羅序模式具有三個優勢：「計分轉換為等距量尺」、「解決題目依賴性及樣本依賴性問題」、及「個案能力及題目難度可立即、

直接比較」。

1. 計分轉換為等距量尺：

透過羅序分析，只要測驗數據符合羅序模式的預期，即可將原始分數轉換為等距量尺之羅序分數 (logit) (Rasch, G., 1960; Wright, 2000)。

轉換為等距量尺後，能夠進行合理的數學運算，分數間的比較、後續統計分析才有意義。

2. 解決題目依賴性及樣本依賴性問題：

前一章節提過，羅序分析能同時估計個案能力及題目難度參數，且二者之估計彼此不會互相影響，解決題目依賴性及樣本依賴性問題。

3. 個案能力及題目難度可立即、直接比較：

以往的測驗理論中，個案能力及題目難度無法立即、直接比較。依據以往的測驗理論，個案能力之判定是來自答對題目分數的加總，加總分數高者被視為能力較高；而題目難度之判定是來自答對該題目的百分比，答對率低者被視為難度較高。然而，即使發現某題目答對機率較低，也無法直接判斷是因為題目本身難度較高、或是答題者的能力太低造成的。

羅序模式能夠同時估計個案能力及題目難度，並將二者置於共同的等距 logit 量尺上。因此，評量者能夠直接、立即地比較個案能力及題目難度，也能清楚指出二者間的差距。

個案能力及題目難度可立即、直接比較有二個好處：

(1) 就題目的角度而言，協助評量者了解哪些題目對於個案是可以答對的、或比較困難的，也能更清楚辨別個案能力及題目難度之間的差距有多大。

(2) 就測驗的角度而言，可幫助評量者檢視整份測驗的難度是否適合該群個案。舉例來說，如果分析結果發現多數個案的能力值皆高於測驗中所有題目的難度值，則可視為該測驗無法有效地評量能力較高的個案，因為測驗中的題目難度對能力高者而言偏易。

四、應用：

羅序模式於分析、驗證評量工具上擁有三種應用方式：「可同時估計個案能力及題目難度參數」、「可檢驗評量工具是否為單向度」、「可檢驗評量工具之羅序信度 (Rasch reliability)」。

1. 可同時估計個案能力及題目難度參數：

羅序模式能將原始作答分數轉換為 logit 分數，估計出個案能力；也能同時以logit 量尺估計出每一題目之難度參數。羅序模式估計個案能力或題目難度的參數估計法有很多種，常用的包含最大近似估計法 (maximum likelihood

estimation)、邊際最大近似估計法 (marginal maximum likelihood estimation)等。

不過通常在實際的估計情境中，往往無法事先得知能力及題目的參數，因此必須同時進行估計。而其中常用的同時估計能力及題目參數的最大近似估計法，

叫作聯合最大近似估計法 (joint maximum likelihood estimation, JMLE)。

2. 可檢驗評量工具是否為單向度（適配度檢定, goodness-of-fit test）：

單向度是羅序模式的基本假設，若蒐集而來的樣本資料符合羅序模式的預期，則該評量工具便具有單向度的性質。換句話說，唯有選用的羅序模式適用於測驗資料時，單向度的假設才會成立。因此，評量者可以透過檢定資料及模式間是否具有滿意的適配度，以確認評量工具是否為單向度。

羅序模式使用「加權均方適配統計值 (infit mean square, infit MNSQ)」及

「未加權之均方適配統計值 (outfit MNSQ)」當作適配度指標。當 infit MNSQ 及outfit MNSQ 皆落於 0.60~1.40 區間代表符合羅序模式之預期 (Linacre, 1994)，也就是該題目具有單向度。

此外補充說明單向度的意義，當檢驗出評量工具為單向度時也代表其具有良好的建構效度 (construct validity)，因為當評量工具只評量一種潛在特質也代表本身僅具有一個建構，所有的題目都在評量此一建構。

3. 可檢驗評量工具之羅序信度：

羅序模式也能計算出評量工具的信度，不過其估計理念跟以往的信度不盡相同。相較於以往測驗理論假設所有個案都具有相同的測量誤差，在羅序模式中，測量標準誤會隨著個案能力程度不同而有所差異。

首先，不論是古典測驗理論或是羅序模式，信度計算方式皆為真實變異量 (true variance) 除以觀察變異量 (observed variance) 之比值，其中，分母的觀察變異量等於真實變異量及誤差變異量 (error variance) 之和。因此當測量誤差越小時，信度會越大。

以此計算出之信度在古典測驗理論中便是該測驗信度之核心指標。然而在羅序模式中更強調估計每位個案的精準度，當個案能力越接近中等程度時，會有較小之測量誤差、羅序信度則較大；反之，當個案能力程度較極端時（偏大或偏小），測量誤差則較大、羅序信度較小 (Boone, Staver, & Yale, 2014)。

此外，古典測驗理論計算之測驗信度僅屬於「個案信度 (person

reliability)」；羅序信度則可估計「個案信度」及「題目信度 (item reliability)」，

二者具有不同的涵義及應用方式。個案信度代表測驗能區辨個案並分為不同群體的程度，會因為個案能力範圍越廣、測驗題目數量越多而越大；題目信度則代表題目影響總分數變異量的程度，會因為題目難度範圍越廣、受測個案數量越多而越大。

有時候研究人員會將個案信度轉換為另一種估計指標，稱作「個案區辨指

在文檔中使用羅序分析交叉檢驗中風復健動作評估量表上肢／下肢動作次量表之心理計量特性 (頁 23-31)

第一章 前言

第三節 簡介羅序分析

第一章前言

第三節簡介羅序分析