模擬流程

第三章研究方法

第二節模擬流程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

係數矩陣𝑅𝑅(𝛼𝛼)⁽¹⁾，並進行 GEE 估計，得到估計值𝜃𝜃�⁽¹⁾

[ 步驟二 ] 由前步驟所得之估計值將 N 位受試者依大小排序，得到 (𝜃𝜃�₍₁₎⁽¹⁾, 𝜃𝜃�₍₂₎⁽¹⁾, … , 𝜃𝜃�_(𝑁𝑁)⁽¹⁾)，接著針對各個受試者，使用與其能力估計值𝜃𝜃�_(𝑖𝑖)⁽¹⁾最接近的 n 名受試者(𝜃𝜃�_{(𝑖𝑖−2/𝑛𝑛)}⁽¹⁾ , … , 𝜃𝜃�_(𝑖𝑖)⁽¹⁾, … , 𝜃𝜃�_{(𝑖𝑖+2/𝑛𝑛)}⁽¹⁾ )之作答結果計算新的相關係數矩陣𝑅𝑅(𝛼𝛼)_(𝑖𝑖)⁽²⁾， 𝑖𝑖 =1,2,….,N，此處每位受試者都具有各自的工作相關矩陣。

[步驟三]以𝑅𝑅(𝛼𝛼)_(𝑖𝑖)⁽²⁾作為第𝑖𝑖名受試者的工作相關矩陣，使用 GEE 估計每位受試者的能力值，得到𝜃𝜃�⁽²⁾，並以𝜃𝜃�⁽²⁾作為新的排序依據，重複進行步驟二和三直到欲進行的迭代次數。

本次研究預計共進行 3 次迭代，並藉由比較各個階段估計值(𝜃𝜃�⁽¹⁾, 𝜃𝜃�⁽²⁾, … , 𝜃𝜃�⁽⁴⁾) 與真實值𝜃𝜃的差距來評估多階段分組 GEE 的效果。

第二節模擬流程

一、題目設定與題目訊息量

本次研究共模擬 60 道題目，題目之作答結果皆為 0,1 的二元變項，即只有對、錯兩種結果。每道題目含有兩個參數，分別為 a(鑑別度)與 b(難度)，由於本次測驗欲透過電腦模擬產生題組測驗的作答結果，在設定能力與試題參數時，需考慮模擬上的限制，舉例來說，無法在答對機率 0.9 和答對機率 0.1 的考生之間產生相關係數 0.5 的二元資料作為作答結果，因此為了順利產生資料，將鑑別度範圍定為 0 到 1 之間，難度範圍定為-2 到 2 之間，本次研究所設計的試題參數詳見附錄。

在測驗編製的過程中，我們可以使用題目訊息量(Item Information)作為選題、

建立題庫的依據，題目訊息量使用了 Fisher Information 的概念，當訊息量愈大，

對於能力估計的標準誤就會愈小，因此題目訊息量能幫助我們了解該測驗對於各能力區間的受試者在能力估計上的準確度。

題目訊息函數的定義如下:

𝐼𝐼𝑖𝑖(𝜃𝜃) = [𝑃𝑃_𝑖𝑖^′(𝜃𝜃)]² 𝑃𝑃_𝑖𝑖(𝜃𝜃)𝑄𝑄_𝑖𝑖(𝜃𝜃)

其中𝜃𝜃為受試者能力值、𝑃𝑃𝑖𝑖(𝜃𝜃)為能力值𝜃𝜃在該題的答對機率、𝑄𝑄𝑖𝑖(𝜃𝜃) = 1 − 𝑃𝑃𝑖𝑖(𝜃𝜃)、

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝐼𝐼_𝑖𝑖(𝜃𝜃)表示試題𝑖𝑖在能力值為𝜃𝜃之下提供的訊息量。

在 IRT 的假設下，整份測驗的訊息量𝐼𝐼(𝜃𝜃)為各題目訊息量的加總，以 2-PL IRT 為例，整份測驗的訊息量可以寫為:

𝐼𝐼(𝜃𝜃) = � 𝐼𝐼𝑖𝑖(𝜃𝜃)

𝑛𝑛 𝑖𝑖=1

= � 𝑎𝑎_𝑖𝑖²𝑃𝑃𝑖𝑖(𝜃𝜃)𝑄𝑄𝑖𝑖(𝜃𝜃)

𝑛𝑛

𝑖𝑖=1

其中𝜃𝜃為受試者能力值、𝑃𝑃𝑖𝑖(𝜃𝜃) =_1+𝑒𝑒−𝑎𝑎𝑖𝑖(𝜃𝜃−𝑏𝑏𝑖𝑖)¹ 、𝑄𝑄𝑖𝑖(𝜃𝜃) = 1 − 𝑃𝑃𝑖𝑖(𝜃𝜃)。

在測驗具題組結構的情況下，因為試題之間有相關性存在，所以題目所提供的資訊量會減少，此時可以使用 GEE 中對於分配函數變異數的假設來計算題組訊息量，訊息函數可以表示為:

I(𝜃𝜃) = �𝜕𝜕𝜇𝜇^′

𝜕𝜕𝜃𝜃 �

𝑇𝑇

𝑊𝑊⁻¹𝜕𝜕𝜇𝜇^′

𝜕𝜕𝜃𝜃

其中𝜇𝜇為測驗之概似函數，𝑊𝑊 = 𝐴𝐴¹²𝑅𝑅(𝛼𝛼)𝐴𝐴¹²，𝑅𝑅(𝛼𝛼)為工作相關矩陣，當𝑅𝑅(𝛼𝛼)為對角矩陣時，表示題目間互相獨立，此時上式的計算結果會等同於 IRT 中的訊息函數。

由於試題參數的設定會影響測驗對於各能力值區間的估計情形，因此下面以本次研究設定的 60 道試題的試題參數，計算該測驗在不同能力值下所提供的訊息量。另外也分別以題目間相互獨立；和以 5 題為一題組，題組內為 AR1 相關結構下，觀察不同相關係數對於測驗訊息量的影響，結果如下圖:

圖 3- 1、本次題組測驗在各能力值下的訊息量

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

從圖中可看出，本次測驗對於估計能力值𝜃𝜃接近 0，也就是中等程度的受試者有較高的準確度，而對於程度較好和較差的受試者，測驗所提供的訊息量則較少。另外，隨著題目間相關性增加，測驗訊息量也會隨之減少，但是對於各能力區間而言，下降的幅度相當接近。

二、考生能力設定

給定每位考生一已知的能力值𝜃𝜃，𝜃𝜃為一常數，一般介於-2.5 到 2.5 之間，可為一定值或由給定之分配中隨機抽出，同樣的，在模擬題組測驗的作答結果時因為模擬上的限制，因此僅在-2~2 之間取值，另外，此𝜃𝜃值亦為本次實驗欲估計之目標參數。

在第四章中，將分別探討(1)定點產生單一能力值𝜃𝜃以觀察各區間下不同方法的估計情形，以及(2)從特定分配中產生受試者能力值來模擬真實測驗情況，並比較不同方法的估計情形。

三、產生作答結果

以電腦模擬作答結果，依題目間答對機率是否獨立分為兩種情形:

1.題目間相互獨立:

在 2-PL IRT 模型下，第 s 位受試者在第 i 題的答對機率可以用下面公式表達:

𝑃𝑃𝑖𝑖(𝜃𝜃𝑠𝑠) =_1+𝑒𝑒−𝑎𝑎𝑖𝑖(𝜃𝜃𝑠𝑠−𝑏𝑏𝑖𝑖)¹ 其中，𝜃𝜃_𝑠𝑠為該考生之能力值、𝑎𝑎_𝑖𝑖為題目鑑別度、𝑏𝑏_𝑖𝑖為題目難度。

將前步驟產生之𝜃𝜃代入公式後可得到對應的答對機率，以此答對機率當作二項分配之參數 p，接著使用所產生之二項分配亂數模擬作答結果。

2.考慮題組效果:

在題目具題組特性下，各題間的答對機率並非獨立，因此無法單純由二項分配產生作答結果，因此，在 60 道題目中，以 5 題為一題組，使用 R 中的 bindata 套件(Leisch et al., 1998)，在給定邊際機率與題目間相關結構下，模擬題目間答對機率有相關(及含有題組結構)之作答結果。邊際機率，即考生對於每一道題目之答對機率，可由 2-PL IRT 模型，在給定難度，鑑別度下，由考生能力值計算而

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

得；題目間相關結構在本次研究中則為事先決定(可參考圖 3-2)，以觀察不同的相關程度和結構對估計產生的影響。

圖 3- 2、不同的題目間相關結構

表 3-1 為模擬能力值𝜃𝜃 = 1之考生 2000 位，在題組結構設定為 AR1(如表 3-2)，相關係數為 0.3 之下的作答結果，答對記為 1，答錯記為 0，表 3-3 則是由作答結果計算之題目間相關係數矩陣，由表 3-3 可看出，由於模擬作答結果時須同時考慮邊際機率與題組結構，因此產生之作答結果的相關結構會與原始參數設定有些微差別。

表 3- 1、考生之作答結果(下略 1995 筆)

考生編號

Item1 Item2 Item3 Item4 Item5

A

1 1 1 0 0

B

1 1 0 1 1

C

0 0 1 1 1

D

1 0 0 0 0

E

1 0 0 1 0

… … … …

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3- 2、題目間相關係數之原始參數設定

Item1 Item 2 Item 3 Item 4 Item 5

Item 1

1 0.3 0 0 0

Item 2

0.3 1 0.3 0 0

Item 3

0 0.3 1 0.3 0

Item 4

0 0 0.3 1 0.3

Item 5

0 0 0 0.3 1

表 3- 3、由作答結果計算之相關係數矩陣

Item1 Item 2 Item 3 Item 4 Item 5 Item 1

1 0.301 -0.029 0.019 -0.009

Item 2

0.301 1 0.279 -0.042 0.018

Item 3

-0.029 0.279 1 0.271 0.008

Item 4

0.019 -0.042 0.271 1 0.291

Item 5

-0.009 0.018 0.008 0.291 1

四、參數估計、極端值處理與評估指標

有了前面步驟所模擬的作答結果，接下來便可以使用不同的估計方法估計𝜃𝜃，

然而，在進行 GEE 和最大概似估計時，有時候會遇到估計值無法收斂的情況，

例如受試者答對或答錯全部的試題，此時會針對不收斂的值進行調整，作法是事先設定𝜃𝜃�值的上下界，本次研究將𝜃𝜃�值的範圍定為-2.5~2.5 之間，當估計值出現無法收斂的情況時，藉由觀察該受試者的作答情形決定估計值，例如該受試者答對全部試題，則給予𝜃𝜃� = 2.5，此外，大於 2.5 或小於-2.5 的估計值也會修正至設定的範圍內。SCORIGHT 在進行估計時，由於其對於𝜃𝜃有先驗分配的假設，因此未出現無法收斂的情形，但為了進行公平的比較，我們也將 SCORIGHT 中�𝜃𝜃�� > 2.5 的估計值進行相同的處理。

在評估估計結果方面，由於在進行模擬時紀錄了原始的能力參數，所以我們可以藉由比較𝜃𝜃� 與 𝜃𝜃 來評估估計方法的效率 (efficiency) 。主要評估指標為

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

MSE(Mean Square Error)，即:

MSE�𝜃𝜃�� = E ��𝜃𝜃� − 𝜃𝜃�²� = Var�𝜃𝜃�� + Bias(𝜃𝜃�, 𝜃𝜃)²

MSE 同時包含了估計偏誤與估計值本身的變異，MSE 越小意味著估計值對於真實參數的估計越準確，除此之外，也會記錄估計結果之平均值、中位數、估計值標準差及正負向偏誤(bias)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中廣義估計方程式在題組式測驗的應用 - 政大學術集成 (頁 20-26)

第三章 研究方法

第二節 模擬流程

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 模擬流程

一、 題目設定與題目訊息量

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

二、 考生能力設定

三、 產生作答結果

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Item1 Item2 Item3 Item4 Item5

A

B

C

D

E

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

Item1 Item 2 Item 3 Item 4 Item 5

Item 1

Item 2

Item 3

Item 4

Item 5

Item1 Item 2 Item 3 Item 4 Item 5 Item 1

Item 2

Item 3

Item 4

Item 5

四、 參數估計、極端值處理與評估指標

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法

第二節模擬流程

立政治大學

第二節模擬流程

一、題目設定與題目訊息量

立政治大學

立政治大學

二、考生能力設定

三、產生作答結果

立政治大學

立政治大學

四、參數估計、極端值處理與評估指標

立政治大學

立政治大學