第二章 文獻探討
第三節 無母數試題反應理論
2.3.3 無母數試題反應理論模型
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
15
第二種摩根量表無母數試題反應理論模型為雙重單調性模型,雙重單調性 模型是單調同質性模型的特例,除了單調同質性模型的單一向度假設、單調性 假設與局部獨立性假設三種假設外,又增加了「非相交性」假設。非相交性假 設指任兩個試題反應函數(或試題階段式反應函數)彼此不相交,可表示成若對 於某個潛在特質
0,存在P(Xi
x|
0)
P(Xj
y|
0),則對於其它的潛在特 質
,也需滿足P(Xi
x|
)
P(Xj
y|
),其中對於二元計分試題,X
i x
其實即是
X
i 1
的情況,而Xj
y即Xj
1的情況。例如圖 2-7 的六個試題反應 函數即違反非相交性假設,而圖 2-8 的三個試題反應函數即符合非相交性假 設。圖 2-8 滿足雙重單調性模型的試題反應函數(亦會滿足單調同質性模型)
在二元計分試題下,滿足雙重單調性模型即表示不論潛在特質多少,對於 試題的排序均相同,稱為具有試題順序不變(Invariant Item Ordering, IIO)性質 (Sijtsma and Junker, 1996),因此除了可以排序受試者潛在特質的大小,亦可排 序試題的難易。然而在多元計分試題下,滿足雙重單調性模型僅表示試題階段 具有順序關係,並不代表試題間的順序。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y 第三章 研究方法與設計
第一節 研究方法
一份測驗或問卷的試題,其填答的選項很可能設計成具有順序性的多元類 別,例如滿意度的調查問卷,每個試題的選項可以是「非常不滿意、不滿意、
普通、滿意、非常滿意」,共五個類別,此時我們稱這種試題的計分方式為多 元計分。另一方面,即使原始的測驗或問卷是以多元計分的形式給予受試者進 行測驗或填答,在分析受試者的回答結果時,實務上我們也可能把它進一步化 為二元計分的形式來分析,例如將上述滿意度調查例子的「非常不滿意、不滿 意」歸於一類,而「普通、滿意、非常滿意」歸於另一類,共兩個類別。
由於在無母數試題反應理論中,在單一向度假設、單調性假設與局部獨立 性假設成立的前提下,可以證得二元計分試題所形成的總分
X
和潛在特質
間具有 MLR 性質,並推得二元計分試題的X
對於
具有 SOL 性質,因而在二元計分試題下,可透過受試者
X
的大小來推論其潛在特質的大小順序。然 而,多元計分試題只有在 PCM 與其特例 RSM 兩種模型下才一定具有 MLR 性 質,其餘的有母數試題反應理論模型與無母數試題反應理論模型則不一定具有 MLR 或 SOL 性質,因此並無理論確保在所有的多元計分試題下,透過總分X
來推論所有受試者潛在特質大小順序關係的適當性。過去在分析多元計分的測驗或問卷結果時,不少研究者並非維持原本的多 元計分資料格式去分析,而是採用將其化為二元計分的形式來分析。本文擬透 過模擬的方式,欲了解當一份測驗或問卷本身的試題是多元計分的情形時,若 這份問卷的反應可以藉由一個滿足摩根量表並具有 MLR 性質的模型來加以描 述的話,亦即存在理論支持使用摩根量表分析,透過受試者對試題的回答總分 以排序受試者潛在特質的合適性下,使用多元計分總分(X.p)排序受試者潛在
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
17
特質(
)的排序正確率,以及若使用的是轉化為二元計分的總分(X.d)排序受試者潛在特質(
)的排序正確率,此兩種計分方式分別的整體排序正確率範圍。此外我們更想了解在多元計分且試題反應符合一個具有 MLR 性質的模型下,
使用多元計分的總分X.p,是否比轉化為使用二元計分的總分X.d,在排序受 試者的潛在特質
上更加準確。經由模擬,我們先生成受試者的潛在特質,並產生來自該位受試者對於一 份測驗或問卷的填答資料。透過模擬出一定數量的受試者潛在特質與其填答資 料,並計算出每位受試者的多元計分總分X.p與二元計分總分X.d。由於 SOL 性質指出,潛在特質與總分
X
會滿足P ( t | X
C ) P ( t | X
K )
,而SOL 可以進一步推論到
E ( | X
C ) E ( | X
K )
。然而這並不表示對於所 有的單一受試者,我們足以準確地排序每一位受試者的潛在特質順序,只意味 著平均而言,我們可透過總分X
的大小,以排序受試者潛在特質
的大小順 序,因此我們希望藉由模擬的方式來了解其排序的正確程度。在探討透過總分(X.p或X.d)排序受試者潛在特質(θ)是否排序正確上,
此處我們將排序定義成任兩兩受試者間的排序。
第二節 研究設計
模擬條件設定:
潛在特質維度與分配:單一維度,且潛在特質(
)來自標準常態分配,1) (0,
~
。 試題題數:設定一份測驗或問卷的題數(L)有三種情況,分別為三題、五 題與十題,即考慮 L = 3, 5, 10。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
試題的原始反應類別數與計分方式:多元計分,且假設同一份測驗或問 卷的每題試題反應類別數相同,每題有 m 類,以 0、1、…、(m – 1)共 m 種分數表示。考慮 m = 3, 4, 5。
多元計分化為二元計分方式:考慮每種順序性切割方式,因此若試題具 有 m 類,則共有 m – 1 種切割方式。第一種為將「0」歸於一類,將「1、…、
(m – 2)或(m – 1)」歸於另一類;第二種將「0 或 1」視為一類,「2、…、
(m – 2)或(m – 1)」視為另一類;…,第 m – 1 種為將「0、…、(m – 3)或 (m –2)」視作一類,而「m – 1」視作另一類。原則上每道多元計分的試 題可以採用任意二元轉換的方式,然而本文僅針對所有試題均採相同轉 換方式的情形進行討論。
試題反應理論模型:具有 MLR 性質的 PCM,同時亦滿足 MHM 的要求。
試題階段式反應函數的參數值:設定試題階段式反應函數的參數值(
ix) 散佈於(-3, 3)之間,並考慮四種階段難度參數分配狀況,分別為等距的階 段難度、常態的階段難度、右偏的階段難度,以及左偏的階段難度。其 參數值
ix(i = 1, …, L;x = 1, …, m – 1)的取值方式分別為
11、
12、…、1) -(m ,
1 ,
21、
22、…、
2,(m-1),…,
i1、
i2、…、
i,(m-1),…,
L1、2
L 、…、
L,(m-1)依序來自 (1)Uniform(-3 , 3)
的百分位數;(2)
(0, 1)
的百分位數;(3)
(-3, 2)
但值大於-3 的百分位數,即分配右偏,試題階段偏易;(4)
(3, 2)
但值小於 3 的百分位數,即分配左偏,試題階段偏難。以試題數三題,每題三反應類別為例,則圖 3-1(a)呈現的是上述設 計下,階段難度參數等距分佈的 fix(
)與
ix(
);圖 3-1(b)是階段難度參‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
數常態分佈的 fix(
)與
ix(
);圖 3-1(c)為階段難度參數右偏分佈的 fix(
) 與
ix(
);圖 3-1(d)則呈現階段難度參數左偏分佈的 fix(
)與
ix(
)。 受試者人數:1000 人。
模擬次數:1000 次。
圖 3-1 試題三題,每題三反應類別,不同階段難度參數分佈的 fix()與ix()
(a) 階段難度參數等距分佈 (b) 階段難度參數常態分佈
(c) 階段難度參數右偏分佈 (d) 階段難度參數左偏分佈
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
21
元計分總分不同,多元計分總分相同,屬於多元計分無法排序但使用二元計分 可以排序的類型,編號(23)與(33),編號(24)與(34),同屬此種狀況。另一方面,
編號(11)的受試者與編號(12)的受試者,其多元計分總分不同,二元計分總分 相同,屬於使用二元計分無法排序,但使用多元計分可以排序的類型,編號(22) 與(23),編號(22)與(24),編號(23)與(24),編號(33)與(34),編號(33)與(35),編 號(33)與(36),編號(34)與(35),編號(34)與(36),編號(35)與(36),同屬此類情 況。其餘部分則是無論使用二元計分或多元計分都可以排序的部分,且此部分 對於兩兩配對受試者的排序,大部分的排序順序在二元計分總分與多元計分總 分都相同,只有編號(24)的受試者與編號(33)的受試者,在二元計分總分與多 元計分總分下排序會不同,而這種對於同一批受試者,不同計分方式對其的排 序不同的格數,在試題數或反應類別數上升時格數會增加。
表 3-1 模擬X.d與X.p之總分列表
X.p
6 35 (36)
5 105 (35)
4 146 (24) 67 (34) 3 246 (23) 11 (33) 2 163 (12) 80 (22)
1 117 (11) 0 30 (00)
人數 (𝑋+.𝑑, 𝑋+.𝑝) 0 1 2 3
X
.d‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 3-2 為將表 3-1 的兩兩配對受試者排序狀況分類整理成之圓餅圖。事實 上,此為最複雜的狀況。而當試題數只有一題時,則不可能出現二元總分可排 序但多元總分無法排序的部分,然而實務上極少一份測驗或問卷僅包含一題試 題。
圖 3-2 受試者總分排序分類圖
因而,在比較多元計分總分X.p與二元計分總分
X
.d對受試者潛在特質
的排序上,除了通常使用多元計分總分能夠排序的兩兩配對受試者遠多於使用 二元計分總分時,加上使用這兩種計分方式下分別能夠排序的兩兩配對受試者 並非完全相同,因此若我們想要使用「整體正確率」作為比較多元計分總分與 二元計分總分排序正確程度的指標,但由於這兩種計分方式可以排序的基準不 同,顯然不夠恰當,所以我們分別將其拆解成兩部分進行比較,一為兩種計分 總分均可排序的受試者配對中排序正確的比例,二為個別計分方式的總分額外二元總分與多 元總分均可排
序部分 二元總分可排
序但多元總分 無法排序部分 二元總分與多 元總分均無法
排序部分
多元總分可排 序但二元總分 無法排序部分
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y 第四章 研究結果與討論
第一節 研究結果
在多元計分試題的回答結果可以藉由具有 MLR 性質且同時滿足摩根量表 MHM 的部分計分模型來做說明時,針對多元計分與轉化的二元計分此兩種計 分方式個別的整體排序正確率,其結果將在 4.1.1 節呈現,而使用多元計分的 總分與採用轉化為二元計分的總分,這兩種總分在排序受試者潛在特質的可能 差異,我們將在 4.1.2 節進行相關比較與探討。
4.1.1 多元計分總分與二元計分總分排序潛在特質之整體正確率
當多元計分試題反應符合具有 MLR 性質同時也滿足摩根量表要求的 PCM 時,若使用的是多元計分總分X.p作為排序受試者潛在特質的工具,經由模 擬實驗,在我們的假設條件(三種試題數、三種反應類別數,以及四種試題階 段式反應函數參數值分佈狀況)下,可以獲得不同模擬條件組合下使用多元計 分總分X.p排序受試者潛在特質的整體正確率P ,我們將 1000 次模擬所獲p 得結果的最小值(Min.)、第一四分位數(Q )、中位數(Med.)、平均數(Mean)、第1 三四分位數(Q )、最大值(Max.)與標準差(Std.)這些敘述性統計呈現於表 4-1。 3
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
我們發現在這些不同模擬條件組合下,模擬結果呈現使用多元計分總分排 序受試者潛在特質的最低整體正確率為 76.06%,此最低的整體正確率出現在 試題數三題,每題反應類別數為三類,且試題階段式反應函數參數左偏分佈時。
從平均數的角度亦可發現,當試題數三題,每題反應類別數三類,試題階段式 反應函數參數為右偏或左偏分佈下,整體正確率最低。而在試題數十題,每題 五種反應類別數,且試題階段式反應函數參數值常態分佈時,1000 次模擬結 果的整體正確率P 均在 90%以上,平均值為 91.34%,最大值甚至達到 92.23%。 p 從模擬的結果亦可發現,無論參數的分佈為何種分配狀況,當試題數或反
從平均數的角度亦可發現,當試題數三題,每題反應類別數三類,試題階段式 反應函數參數為右偏或左偏分佈下,整體正確率最低。而在試題數十題,每題 五種反應類別數,且試題階段式反應函數參數值常態分佈時,1000 次模擬結 果的整體正確率P 均在 90%以上,平均值為 91.34%,最大值甚至達到 92.23%。 p 從模擬的結果亦可發現,無論參數的分佈為何種分配狀況,當試題數或反