• 沒有找到結果。

第三章 研究方法與設計

第二節 研究設計

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17

特質(

)的排序正確率,以及若使用的是轉化為二元計分的總分(X.d)排序受

試者潛在特質(

)的排序正確率,此兩種計分方式分別的整體排序正確率範圍。

此外我們更想了解在多元計分且試題反應符合一個具有 MLR 性質的模型下,

使用多元計分的總分X.p,是否比轉化為使用二元計分的總分X.d,在排序受 試者的潛在特質

上更加準確。

經由模擬,我們先生成受試者的潛在特質,並產生來自該位受試者對於一 份測驗或問卷的填答資料。透過模擬出一定數量的受試者潛在特質與其填答資 料,並計算出每位受試者的多元計分總分X.p與二元計分總分X.d。由於 SOL 性質指出,潛在特質與總分

X

會滿足

P (   t | X

C )  P (   t | X

K )

,而

SOL 可以進一步推論到

E (  | X

C )  E (  | X

K )

。然而這並不表示對於所 有的單一受試者,我們足以準確地排序每一位受試者的潛在特質順序,只意味 著平均而言,我們可透過總分

X

的大小,以排序受試者潛在特質

的大小順 序,因此我們希望藉由模擬的方式來了解其排序的正確程度。

在探討透過總分(X.pX.d)排序受試者潛在特質(θ)是否排序正確上,

此處我們將排序定義成任兩兩受試者間的排序。

第二節 研究設計

 模擬條件設定:

 潛在特質維度與分配:單一維度,且潛在特質(

)來自標準常態分配,

1) (0,

~ 

 試題題數:設定一份測驗或問卷的題數(L)有三種情況,分別為三題、五 題與十題,即考慮 L = 3, 5, 10。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 試題的原始反應類別數與計分方式:多元計分,且假設同一份測驗或問 卷的每題試題反應類別數相同,每題有 m 類,以 0、1、…、(m – 1)共 m 種分數表示。考慮 m = 3, 4, 5。

 多元計分化為二元計分方式:考慮每種順序性切割方式,因此若試題具 有 m 類,則共有 m – 1 種切割方式。第一種為將「0」歸於一類,將「1、…、

(m – 2)或(m – 1)」歸於另一類;第二種將「0 或 1」視為一類,「2、…、

(m – 2)或(m – 1)」視為另一類;…,第 m – 1 種為將「0、…、(m – 3)或 (m –2)」視作一類,而「m – 1」視作另一類。原則上每道多元計分的試 題可以採用任意二元轉換的方式,然而本文僅針對所有試題均採相同轉 換方式的情形進行討論。

 試題反應理論模型:具有 MLR 性質的 PCM,同時亦滿足 MHM 的要求。

 試題階段式反應函數的參數值:設定試題階段式反應函數的參數值(

ix) 散佈於(-3, 3)之間,並考慮四種階段難度參數分配狀況,分別為等距的階 段難度、常態的階段難度、右偏的階段難度,以及左偏的階段難度。其 參數值

ix(i = 1, …, L;x = 1, …, m – 1)的取值方式分別為

11

12、…、

1) -(m ,

1

21

22、…、

2,(m-1),…,

i1

i2、…、

i,(m-1),…,

L1

2

L 、…、

L,(m-1)依序來自 (1)

Uniform(-3 , 3)

的百分位數;

(2)

 (0, 1)

的百分位數;

(3)

 (-3, 2)

但值大於-3 的百分位數,即分配右偏,試題階段偏易;

(4)

 (3, 2)

但值小於 3 的百分位數,即分配左偏,試題階段偏難。

以試題數三題,每題三反應類別為例,則圖 3-1(a)呈現的是上述設 計下,階段難度參數等距分佈的 fix(

)與

ix(

);圖 3-1(b)是階段難度參

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

數常態分佈的 fix(

)與

ix(

);圖 3-1(c)為階段難度參數右偏分佈的 fix(

) 與

ix(

);圖 3-1(d)則呈現階段難度參數左偏分佈的 fix(

)與

ix(

)。

 受試者人數:1000 人。

 模擬次數:1000 次。

圖 3-1 試題三題,每題三反應類別,不同階段難度參數分佈的 fix()與ix()

(a) 階段難度參數等距分佈 (b) 階段難度參數常態分佈

(c) 階段難度參數右偏分佈 (d) 階段難度參數左偏分佈

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

元計分總分不同,多元計分總分相同,屬於多元計分無法排序但使用二元計分 可以排序的類型,編號(23)與(33),編號(24)與(34),同屬此種狀況。另一方面,

編號(11)的受試者與編號(12)的受試者,其多元計分總分不同,二元計分總分 相同,屬於使用二元計分無法排序,但使用多元計分可以排序的類型,編號(22) 與(23),編號(22)與(24),編號(23)與(24),編號(33)與(34),編號(33)與(35),編 號(33)與(36),編號(34)與(35),編號(34)與(36),編號(35)與(36),同屬此類情 況。其餘部分則是無論使用二元計分或多元計分都可以排序的部分,且此部分 對於兩兩配對受試者的排序,大部分的排序順序在二元計分總分與多元計分總 分都相同,只有編號(24)的受試者與編號(33)的受試者,在二元計分總分與多 元計分總分下排序會不同,而這種對於同一批受試者,不同計分方式對其的排 序不同的格數,在試題數或反應類別數上升時格數會增加。

表 3-1 模擬X.dX.p之總分列表

X.p

6 35 (36)

5 105 (35)

4 146 (24) 67 (34) 3 246 (23) 11 (33) 2 163 (12) 80 (22)

1 117 (11) 0 30 (00)

人數 (𝑋+.𝑑, 𝑋+.𝑝) 0 1 2 3

X

.d

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-2 為將表 3-1 的兩兩配對受試者排序狀況分類整理成之圓餅圖。事實 上,此為最複雜的狀況。而當試題數只有一題時,則不可能出現二元總分可排 序但多元總分無法排序的部分,然而實務上極少一份測驗或問卷僅包含一題試 題。

圖 3-2 受試者總分排序分類圖

因而,在比較多元計分總分X.p與二元計分總分

X

.d對受試者潛在特質

的排序上,除了通常使用多元計分總分能夠排序的兩兩配對受試者遠多於使用 二元計分總分時,加上使用這兩種計分方式下分別能夠排序的兩兩配對受試者 並非完全相同,因此若我們想要使用「整體正確率」作為比較多元計分總分與 二元計分總分排序正確程度的指標,但由於這兩種計分方式可以排序的基準不 同,顯然不夠恰當,所以我們分別將其拆解成兩部分進行比較,一為兩種計分 總分均可排序的受試者配對中排序正確的比例,二為個別計分方式的總分額外

二元總分與多 元總分均可排

序部分 二元總分可排

序但多元總分 無法排序部分 二元總分與多 元總分均無法

排序部分

多元總分可排 序但二元總分 無法排序部分

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y 第四章 研究結果與討論

第一節 研究結果

在多元計分試題的回答結果可以藉由具有 MLR 性質且同時滿足摩根量表 MHM 的部分計分模型來做說明時,針對多元計分與轉化的二元計分此兩種計 分方式個別的整體排序正確率,其結果將在 4.1.1 節呈現,而使用多元計分的 總分與採用轉化為二元計分的總分,這兩種總分在排序受試者潛在特質的可能 差異,我們將在 4.1.2 節進行相關比較與探討。

4.1.1 多元計分總分與二元計分總分排序潛在特質之整體正確率

當多元計分試題反應符合具有 MLR 性質同時也滿足摩根量表要求的 PCM 時,若使用的是多元計分總分X.p作為排序受試者潛在特質的工具,經由模 擬實驗,在我們的假設條件(三種試題數、三種反應類別數,以及四種試題階 段式反應函數參數值分佈狀況)下,可以獲得不同模擬條件組合下使用多元計 分總分X.p排序受試者潛在特質的整體正確率P ,我們將 1000 次模擬所獲p 得結果的最小值(Min.)、第一四分位數(Q )、中位數(Med.)、平均數(Mean)、第1 三四分位數(Q )、最大值(Max.)與標準差(Std.)這些敘述性統計呈現於表 4-1。 3

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

我們發現在這些不同模擬條件組合下,模擬結果呈現使用多元計分總分排 序受試者潛在特質的最低整體正確率為 76.06%,此最低的整體正確率出現在 試題數三題,每題反應類別數為三類,且試題階段式反應函數參數左偏分佈時。

從平均數的角度亦可發現,當試題數三題,每題反應類別數三類,試題階段式 反應函數參數為右偏或左偏分佈下,整體正確率最低。而在試題數十題,每題 五種反應類別數,且試題階段式反應函數參數值常態分佈時,1000 次模擬結 果的整體正確率P 均在 90%以上,平均值為 91.34%,最大值甚至達到 92.23%。 p 從模擬的結果亦可發現,無論參數的分佈為何種分配狀況,當試題數或反 應類別數增加,大體而言,多元計分總分排序受試者潛在特質的整體正確率都 會上升,且整體正確率P 的標準差均會下降。 p

另一方面,不同的試題階段式反應函數參數值分佈狀況對於多元計分總分 排序受試者潛在特質的整體正確率P 的影響程度不一。在假設潛在特質來自p 對稱的常態分配下,大體而言,試題階段式反應函數參數值常態分佈的多元計 分整體正確率P 最高,參數值等距分佈時次之,而參數值右偏或左偏分佈時,p 多元計分整體正確率P 差不多,為四種試題階段式反應函數參數值分佈狀況p

中最低者;此外,多元計分整體正確率P 的標準差在試題階段式反應函數參p 數值為常態分佈時最小,在參數值等距分佈時次之,在參數值右偏或左偏分佈 時則標準差最大。

我們將試題數三題,每試題三反應類別下,不同試題階段式反應函數參數 值分佈狀況的多元計分整體正確率P 經平滑處理後的分配狀況,呈現於圖p 4-1(a)。大致上而言,當試題階段式反應函數參數值為常態分佈時,多元計分 整體正確率Pp最高;當參數值等距、右偏或左偏分佈時,多元計分整體正確 率Pp則差距不大,但約略可看出參數值等距分佈下的多元計分整體正確率Pp

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

有高於參數值右偏或左偏分佈時的傾向。而當試題數與反應類別數上升時,由 圖 4-1(b)與(c)可以發現這四類型的試題階段式反應函數參數值分佈狀況的多 元計分整體正確率P 差距會擴大,不過試題階段式反應函數參數值右偏與左p 偏分佈的多元計分整體正確率P 分配差異依舊不大。 p

(a) 試題三題,每題三反應類別時

(b) 試題五題,每題四反應類別時

(c) 試題十題,每題五反應類別時

圖 4-1 不同 ISRF 參數分佈的多元計分整體正確率Pp

0.76 0.78 0.80 0.82 0.84

0102030405060

Pp

Frequency

參數等距分佈 參數常態分佈 參數右偏分佈 參數左偏分佈

0.82 0.84 0.86 0.88

020406080

Pp

Frequency

參數等距分佈 參數常態分佈 參數右偏分佈 參數左偏分佈

0.87 0.88 0.89 0.90 0.91 0.92 0.93

050100150

Pp

Frequency

參數等距分佈 參數常態分佈 參數右偏分佈 參數左偏分佈

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在我們的模擬結果顯示試題階段式反應函數參數值右偏與左偏的多元計 分整體正確率P 分配幾乎相同。這是由於雖然這兩種階段難度參數分佈不同,p 參數右偏分佈的試題階段難度偏易,對於潛在特質低的受試者,這部分受試者 多元計分總分X.p值的分佈範圍較廣,而對於潛在特質高的這些受試者,則

X.p集中於值大的部分;參數左偏分佈的試題階段難度偏難,對於潛在特質低 的受試者,他們的X.p集中於值小的部分,而對於潛在特質高的這些受試者,

X.p值的分佈範圍則較廣,故在潛在特質來自對稱的分配下,潛在特質低的受 試者與潛在特質高的受試者出現機率大約相同,會呈現試題階段難度參數右偏 分佈時,多元計分總分X.p同分者集中於X.p值大的部分,參數左偏分佈時則

X.p值的分佈範圍則較廣,故在潛在特質來自對稱的分配下,潛在特質低的受 試者與潛在特質高的受試者出現機率大約相同,會呈現試題階段難度參數右偏 分佈時,多元計分總分X.p同分者集中於X.p值大的部分,參數左偏分佈時則

相關文件