• 沒有找到結果。

第三章 研究方法

第二節 模擬流程

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

係數矩陣𝑅𝑅(𝛼𝛼)(1),並進行 GEE 估計,得到估計值𝜃𝜃�(1)

[ 步 驟 二 ] 由 前 步 驟 所 得 之 估 計 值 將 N 位 受 試 者 依 大 小 排 序 , 得 到 (𝜃𝜃�(1)(1), 𝜃𝜃�(2)(1), … , 𝜃𝜃�(𝑁𝑁)(1)),接著針對各個受試者,使用與其能力估計值𝜃𝜃�(𝑖𝑖)(1)最接近的 n 名 受試者(𝜃𝜃�(𝑖𝑖−2/𝑛𝑛)(1) , … , 𝜃𝜃�(𝑖𝑖)(1), … , 𝜃𝜃�(𝑖𝑖+2/𝑛𝑛)(1) )之作答結果計算新的相關係數矩陣𝑅𝑅(𝛼𝛼)(𝑖𝑖)(2), 𝑖𝑖 =1,2,….,N,此處每位受試者都具有各自的工作相關矩陣。

[步驟三]以𝑅𝑅(𝛼𝛼)(𝑖𝑖)(2)作為第𝑖𝑖名受試者的工作相關矩陣,使用 GEE 估計每位受試者 的能力值,得到𝜃𝜃�(2),並以𝜃𝜃�(2)作為新的排序依據,重複進行步驟二和三直到欲進 行的迭代次數。

本次研究預計共進行 3 次迭代,並藉由比較各個階段估計值(𝜃𝜃�(1), 𝜃𝜃�(2), … , 𝜃𝜃�(4)) 與真實值𝜃𝜃的差距來評估多階段分組 GEE 的效果。

第二節 模擬流程

一、 題目設定與題目訊息量

本次研究共模擬 60 道題目,題目之作答結果皆為 0,1 的二元變項,即只有 對、錯兩種結果。每道題目含有兩個參數,分別為 a(鑑別度)與 b(難度),由於本 次測驗欲透過電腦模擬產生題組測驗的作答結果,在設定能力與試題參數時,需 考慮模擬上的限制,舉例來說,無法在答對機率 0.9 和答對機率 0.1 的考生之間 產生相關係數 0.5 的二元資料作為作答結果,因此為了順利產生資料,將鑑別度 範圍定為 0 到 1 之間,難度範圍定為-2 到 2 之間,本次研究所設計的試題參數 詳見附錄。

在測驗編製的過程中,我們可以使用題目訊息量(Item Information)作為選題、

建立題庫的依據,題目訊息量使用了 Fisher Information 的概念,當訊息量愈大,

對於能力估計的標準誤就會愈小,因此題目訊息量能幫助我們了解該測驗對於各 能力區間的受試者在能力估計上的準確度。

題目訊息函數的定義如下:

𝐼𝐼𝑖𝑖(𝜃𝜃) = [𝑃𝑃𝑖𝑖(𝜃𝜃)]2 𝑃𝑃𝑖𝑖(𝜃𝜃)𝑄𝑄𝑖𝑖(𝜃𝜃)

其中𝜃𝜃為受試者能力值、𝑃𝑃𝑖𝑖(𝜃𝜃)為能力值𝜃𝜃在該題的答對機率、𝑄𝑄𝑖𝑖(𝜃𝜃) = 1 − 𝑃𝑃𝑖𝑖(𝜃𝜃)、

13

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

𝐼𝐼𝑖𝑖(𝜃𝜃)表示試題𝑖𝑖在能力值為𝜃𝜃之下提供的訊息量。

在 IRT 的假設下,整份測驗的訊息量𝐼𝐼(𝜃𝜃)為各題目訊息量的加總,以 2-PL IRT 為例,整份測驗的訊息量可以寫為:

𝐼𝐼(𝜃𝜃) = � 𝐼𝐼𝑖𝑖(𝜃𝜃)

𝑛𝑛 𝑖𝑖=1

= � 𝑎𝑎𝑖𝑖2𝑃𝑃𝑖𝑖(𝜃𝜃)𝑄𝑄𝑖𝑖(𝜃𝜃)

𝑛𝑛

𝑖𝑖=1

其中𝜃𝜃為受試者能力值、𝑃𝑃𝑖𝑖(𝜃𝜃) =1+𝑒𝑒−𝑎𝑎𝑖𝑖(𝜃𝜃−𝑏𝑏𝑖𝑖)1 、𝑄𝑄𝑖𝑖(𝜃𝜃) = 1 − 𝑃𝑃𝑖𝑖(𝜃𝜃)。

在測驗具題組結構的情況下,因為試題之間有相關性存在,所以題目所提供 的資訊量會減少,此時可以使用 GEE 中對於分配函數變異數的假設來計算題組 訊息量,訊息函數可以表示為:

I(𝜃𝜃) = �𝜕𝜕𝜇𝜇

𝜕𝜕𝜃𝜃 �

𝑇𝑇

𝑊𝑊−1𝜕𝜕𝜇𝜇

𝜕𝜕𝜃𝜃

其中𝜇𝜇為測驗之概似函數,𝑊𝑊 = 𝐴𝐴12𝑅𝑅(𝛼𝛼)𝐴𝐴12,𝑅𝑅(𝛼𝛼)為工作相關矩陣,當𝑅𝑅(𝛼𝛼)為 對角矩陣時,表示題目間互相獨立,此時上式的計算結果會等同於 IRT 中的訊息 函數。

由於試題參數的設定會影響測驗對於各能力值區間的估計情形,因此下面以 本次研究設定的 60 道試題的試題參數,計算該測驗在不同能力值下所提供的訊 息量。另外也分別以題目間相互獨立;和以 5 題為一題組,題組內為 AR1 相關 結構下,觀察不同相關係數對於測驗訊息量的影響,結果如下圖:

圖 3- 1、本次題組測驗在各能力值下的訊息量

14

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

從圖中可看出,本次測驗對於估計能力值𝜃𝜃接近 0,也就是中等程度的受試 者有較高的準確度,而對於程度較好和較差的受試者,測驗所提供的訊息量則較 少。另外,隨著題目間相關性增加,測驗訊息量也會隨之減少,但是對於各能力 區間而言,下降的幅度相當接近。

二、 考生能力設定

給定每位考生一已知的能力值𝜃𝜃,𝜃𝜃為一常數,一般介於-2.5 到 2.5 之間,可 為一定值或由給定之分配中隨機抽出,同樣的,在模擬題組測驗的作答結果時因 為模擬上的限制,因此僅在-2~2 之間取值,另外,此𝜃𝜃值亦為本次實驗欲估計之 目標參數。

在第四章中,將分別探討(1)定點產生單一能力值𝜃𝜃以觀察各區間下不同方法 的估計情形,以及(2)從特定分配中產生受試者能力值來模擬真實測驗情況,並比 較不同方法的估計情形。

三、 產生作答結果

以電腦模擬作答結果,依題目間答對機率是否獨立分為兩種情形:

1.題目間相互獨立:

在 2-PL IRT 模型下,第 s 位受試者在第 i 題的答對機率可以用下面公式表 達:

𝑃𝑃𝑖𝑖(𝜃𝜃𝑠𝑠) =1+𝑒𝑒−𝑎𝑎𝑖𝑖(𝜃𝜃𝑠𝑠−𝑏𝑏𝑖𝑖)1 其中,𝜃𝜃𝑠𝑠為該考生之能力值、𝑎𝑎𝑖𝑖為題目鑑別度、𝑏𝑏𝑖𝑖為題目難度。

將前步驟產生之𝜃𝜃代入公式後可得到對應的答對機率,以此答對機率當作二 項分配之參數 p,接著使用所產生之二項分配亂數模擬作答結果。

2.考慮題組效果:

在題目具題組特性下,各題間的答對機率並非獨立,因此無法單純由二項分 配產生作答結果,因此,在 60 道題目中,以 5 題為一題組,使用 R 中的 bindata 套件(Leisch et al., 1998),在給定邊際機率與題目間相關結構下,模擬題目間答對 機率有相關(及含有題組結構)之作答結果。邊際機率,即考生對於每一道題目之 答對機率,可由 2-PL IRT 模型,在給定難度,鑑別度下,由考生能力值計算而

15

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

得;題目間相關結構在本次研究中則為事先決定(可參考圖 3-2),以觀察不同的 相關程度和結構對估計產生的影響。

圖 3- 2、不同的題目間相關結構

表 3-1 為模擬能力值𝜃𝜃 = 1之考生 2000 位,在題組結構設定為 AR1(如表 3-2),相關係數為 0.3 之下的作答結果,答對記為 1,答錯記為 0,表 3-3 則是由作 答結果計算之題目間相關係數矩陣,由表 3-3 可看出,由於模擬作答結果時須同 時考慮邊際機率與題組結構,因此產生之作答結果的相關結構會與原始參數設定 有些微差別。

表 3- 1、考生之作答結果(下略 1995 筆)

考生編號

Item1 Item2 Item3 Item4 Item5

A

1 1 1 0 0

B

1 1 0 1 1

C

0 0 1 1 1

D

1 0 0 0 0

E

1 0 0 1 0

… … … …

16

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 3- 2、題目間相關係數之原始參數設定

Item1 Item 2 Item 3 Item 4 Item 5

Item 1

1 0.3 0 0 0

Item 2

0.3 1 0.3 0 0

Item 3

0 0.3 1 0.3 0

Item 4

0 0 0.3 1 0.3

Item 5

0 0 0 0.3 1

表 3- 3、由作答結果計算之相關係數矩陣

Item1 Item 2 Item 3 Item 4 Item 5 Item 1

1 0.301 -0.029 0.019 -0.009

Item 2

0.301 1 0.279 -0.042 0.018

Item 3

-0.029 0.279 1 0.271 0.008

Item 4

0.019 -0.042 0.271 1 0.291

Item 5

-0.009 0.018 0.008 0.291 1

四、 參數估計、極端值處理與評估指標

有了前面步驟所模擬的作答結果,接下來便可以使用不同的估計方法估計𝜃𝜃,

然而,在進行 GEE 和最大概似估計時,有時候會遇到估計值無法收斂的情況,

例如受試者答對或答錯全部的試題,此時會針對不收斂的值進行調整,作法是事 先設定𝜃𝜃�值的上下界,本次研究將𝜃𝜃�值的範圍定為-2.5~2.5 之間,當估計值出現無 法收斂的情況時,藉由觀察該受試者的作答情形決定估計值,例如該受試者答對 全部試題,則給予𝜃𝜃� = 2.5,此外,大於 2.5 或小於-2.5 的估計值也會修正至設定 的範圍內。SCORIGHT 在進行估計時,由於其對於𝜃𝜃有先驗分配的假設,因此未 出現無法收斂的情形,但為了進行公平的比較,我們也將 SCORIGHT 中�𝜃𝜃�� > 2.5 的估計值進行相同的處理。

在評估估計結果方面,由於在進行模擬時紀錄了原始的能力參數,所以我們 可 以 藉 由 比 較𝜃𝜃� 與 𝜃𝜃 來 評 估 估 計 方 法 的 效 率 (efficiency) 。 主 要 評 估 指 標 為

17

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

MSE(Mean Square Error),即:

MSE�𝜃𝜃�� = E ��𝜃𝜃� − 𝜃𝜃�2� = Var�𝜃𝜃�� + Bias(𝜃𝜃�, 𝜃𝜃)2

MSE 同時包含了估計偏誤與估計值本身的變異,MSE 越小意味著估計值對 於真實參數的估計越準確,除此之外,也會記錄估計結果之平均值、中位數、估 計值標準差及正負向偏誤(bias)。

18

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件