第三章 研究方法
第二節 模擬流程
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
係數矩陣𝑅𝑅(𝛼𝛼)(1),並進行 GEE 估計,得到估計值𝜃𝜃�(1)
[ 步 驟 二 ] 由 前 步 驟 所 得 之 估 計 值 將 N 位 受 試 者 依 大 小 排 序 , 得 到 (𝜃𝜃�(1)(1), 𝜃𝜃�(2)(1), … , 𝜃𝜃�(𝑁𝑁)(1)),接著針對各個受試者,使用與其能力估計值𝜃𝜃�(𝑖𝑖)(1)最接近的 n 名 受試者(𝜃𝜃�(𝑖𝑖−2/𝑛𝑛)(1) , … , 𝜃𝜃�(𝑖𝑖)(1), … , 𝜃𝜃�(𝑖𝑖+2/𝑛𝑛)(1) )之作答結果計算新的相關係數矩陣𝑅𝑅(𝛼𝛼)(𝑖𝑖)(2), 𝑖𝑖 =1,2,….,N,此處每位受試者都具有各自的工作相關矩陣。
[步驟三]以𝑅𝑅(𝛼𝛼)(𝑖𝑖)(2)作為第𝑖𝑖名受試者的工作相關矩陣,使用 GEE 估計每位受試者 的能力值,得到𝜃𝜃�(2),並以𝜃𝜃�(2)作為新的排序依據,重複進行步驟二和三直到欲進 行的迭代次數。
本次研究預計共進行 3 次迭代,並藉由比較各個階段估計值(𝜃𝜃�(1), 𝜃𝜃�(2), … , 𝜃𝜃�(4)) 與真實值𝜃𝜃的差距來評估多階段分組 GEE 的效果。
第二節 模擬流程
一、 題目設定與題目訊息量
本次研究共模擬 60 道題目,題目之作答結果皆為 0,1 的二元變項,即只有 對、錯兩種結果。每道題目含有兩個參數,分別為 a(鑑別度)與 b(難度),由於本 次測驗欲透過電腦模擬產生題組測驗的作答結果,在設定能力與試題參數時,需 考慮模擬上的限制,舉例來說,無法在答對機率 0.9 和答對機率 0.1 的考生之間 產生相關係數 0.5 的二元資料作為作答結果,因此為了順利產生資料,將鑑別度 範圍定為 0 到 1 之間,難度範圍定為-2 到 2 之間,本次研究所設計的試題參數 詳見附錄。
在測驗編製的過程中,我們可以使用題目訊息量(Item Information)作為選題、
建立題庫的依據,題目訊息量使用了 Fisher Information 的概念,當訊息量愈大,
對於能力估計的標準誤就會愈小,因此題目訊息量能幫助我們了解該測驗對於各 能力區間的受試者在能力估計上的準確度。
題目訊息函數的定義如下:
𝐼𝐼𝑖𝑖(𝜃𝜃) = [𝑃𝑃𝑖𝑖′(𝜃𝜃)]2 𝑃𝑃𝑖𝑖(𝜃𝜃)𝑄𝑄𝑖𝑖(𝜃𝜃)
其中𝜃𝜃為受試者能力值、𝑃𝑃𝑖𝑖(𝜃𝜃)為能力值𝜃𝜃在該題的答對機率、𝑄𝑄𝑖𝑖(𝜃𝜃) = 1 − 𝑃𝑃𝑖𝑖(𝜃𝜃)、
13
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝐼𝐼𝑖𝑖(𝜃𝜃)表示試題𝑖𝑖在能力值為𝜃𝜃之下提供的訊息量。
在 IRT 的假設下,整份測驗的訊息量𝐼𝐼(𝜃𝜃)為各題目訊息量的加總,以 2-PL IRT 為例,整份測驗的訊息量可以寫為:
𝐼𝐼(𝜃𝜃) = � 𝐼𝐼𝑖𝑖(𝜃𝜃)
𝑛𝑛 𝑖𝑖=1
= � 𝑎𝑎𝑖𝑖2𝑃𝑃𝑖𝑖(𝜃𝜃)𝑄𝑄𝑖𝑖(𝜃𝜃)
𝑛𝑛
𝑖𝑖=1
其中𝜃𝜃為受試者能力值、𝑃𝑃𝑖𝑖(𝜃𝜃) =1+𝑒𝑒−𝑎𝑎𝑖𝑖(𝜃𝜃−𝑏𝑏𝑖𝑖)1 、𝑄𝑄𝑖𝑖(𝜃𝜃) = 1 − 𝑃𝑃𝑖𝑖(𝜃𝜃)。
在測驗具題組結構的情況下,因為試題之間有相關性存在,所以題目所提供 的資訊量會減少,此時可以使用 GEE 中對於分配函數變異數的假設來計算題組 訊息量,訊息函數可以表示為:
I(𝜃𝜃) = �𝜕𝜕𝜇𝜇′
𝜕𝜕𝜃𝜃 �
𝑇𝑇
𝑊𝑊−1𝜕𝜕𝜇𝜇′
𝜕𝜕𝜃𝜃
其中𝜇𝜇為測驗之概似函數,𝑊𝑊 = 𝐴𝐴12𝑅𝑅(𝛼𝛼)𝐴𝐴12,𝑅𝑅(𝛼𝛼)為工作相關矩陣,當𝑅𝑅(𝛼𝛼)為 對角矩陣時,表示題目間互相獨立,此時上式的計算結果會等同於 IRT 中的訊息 函數。
由於試題參數的設定會影響測驗對於各能力值區間的估計情形,因此下面以 本次研究設定的 60 道試題的試題參數,計算該測驗在不同能力值下所提供的訊 息量。另外也分別以題目間相互獨立;和以 5 題為一題組,題組內為 AR1 相關 結構下,觀察不同相關係數對於測驗訊息量的影響,結果如下圖:
圖 3- 1、本次題組測驗在各能力值下的訊息量
14
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
從圖中可看出,本次測驗對於估計能力值𝜃𝜃接近 0,也就是中等程度的受試 者有較高的準確度,而對於程度較好和較差的受試者,測驗所提供的訊息量則較 少。另外,隨著題目間相關性增加,測驗訊息量也會隨之減少,但是對於各能力 區間而言,下降的幅度相當接近。
二、 考生能力設定
給定每位考生一已知的能力值𝜃𝜃,𝜃𝜃為一常數,一般介於-2.5 到 2.5 之間,可 為一定值或由給定之分配中隨機抽出,同樣的,在模擬題組測驗的作答結果時因 為模擬上的限制,因此僅在-2~2 之間取值,另外,此𝜃𝜃值亦為本次實驗欲估計之 目標參數。
在第四章中,將分別探討(1)定點產生單一能力值𝜃𝜃以觀察各區間下不同方法 的估計情形,以及(2)從特定分配中產生受試者能力值來模擬真實測驗情況,並比 較不同方法的估計情形。
三、 產生作答結果
以電腦模擬作答結果,依題目間答對機率是否獨立分為兩種情形:
1.題目間相互獨立:
在 2-PL IRT 模型下,第 s 位受試者在第 i 題的答對機率可以用下面公式表 達:
𝑃𝑃𝑖𝑖(𝜃𝜃𝑠𝑠) =1+𝑒𝑒−𝑎𝑎𝑖𝑖(𝜃𝜃𝑠𝑠−𝑏𝑏𝑖𝑖)1 其中,𝜃𝜃𝑠𝑠為該考生之能力值、𝑎𝑎𝑖𝑖為題目鑑別度、𝑏𝑏𝑖𝑖為題目難度。
將前步驟產生之𝜃𝜃代入公式後可得到對應的答對機率,以此答對機率當作二 項分配之參數 p,接著使用所產生之二項分配亂數模擬作答結果。
2.考慮題組效果:
在題目具題組特性下,各題間的答對機率並非獨立,因此無法單純由二項分 配產生作答結果,因此,在 60 道題目中,以 5 題為一題組,使用 R 中的 bindata 套件(Leisch et al., 1998),在給定邊際機率與題目間相關結構下,模擬題目間答對 機率有相關(及含有題組結構)之作答結果。邊際機率,即考生對於每一道題目之 答對機率,可由 2-PL IRT 模型,在給定難度,鑑別度下,由考生能力值計算而
15
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
得;題目間相關結構在本次研究中則為事先決定(可參考圖 3-2),以觀察不同的 相關程度和結構對估計產生的影響。
圖 3- 2、不同的題目間相關結構
表 3-1 為模擬能力值𝜃𝜃 = 1之考生 2000 位,在題組結構設定為 AR1(如表 3-2),相關係數為 0.3 之下的作答結果,答對記為 1,答錯記為 0,表 3-3 則是由作 答結果計算之題目間相關係數矩陣,由表 3-3 可看出,由於模擬作答結果時須同 時考慮邊際機率與題組結構,因此產生之作答結果的相關結構會與原始參數設定 有些微差別。
表 3- 1、考生之作答結果(下略 1995 筆)
考生編號
Item1 Item2 Item3 Item4 Item5
A
1 1 1 0 0B
1 1 0 1 1C
0 0 1 1 1D
1 0 0 0 0E
1 0 0 1 0… … … …
16
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 3- 2、題目間相關係數之原始參數設定
Item1 Item 2 Item 3 Item 4 Item 5
Item 1
1 0.3 0 0 0Item 2
0.3 1 0.3 0 0Item 3
0 0.3 1 0.3 0Item 4
0 0 0.3 1 0.3Item 5
0 0 0 0.3 1表 3- 3、由作答結果計算之相關係數矩陣
Item1 Item 2 Item 3 Item 4 Item 5 Item 1
1 0.301 -0.029 0.019 -0.009Item 2
0.301 1 0.279 -0.042 0.018Item 3
-0.029 0.279 1 0.271 0.008Item 4
0.019 -0.042 0.271 1 0.291Item 5
-0.009 0.018 0.008 0.291 1四、 參數估計、極端值處理與評估指標
有了前面步驟所模擬的作答結果,接下來便可以使用不同的估計方法估計𝜃𝜃,
然而,在進行 GEE 和最大概似估計時,有時候會遇到估計值無法收斂的情況,
例如受試者答對或答錯全部的試題,此時會針對不收斂的值進行調整,作法是事 先設定𝜃𝜃�值的上下界,本次研究將𝜃𝜃�值的範圍定為-2.5~2.5 之間,當估計值出現無 法收斂的情況時,藉由觀察該受試者的作答情形決定估計值,例如該受試者答對 全部試題,則給予𝜃𝜃� = 2.5,此外,大於 2.5 或小於-2.5 的估計值也會修正至設定 的範圍內。SCORIGHT 在進行估計時,由於其對於𝜃𝜃有先驗分配的假設,因此未 出現無法收斂的情形,但為了進行公平的比較,我們也將 SCORIGHT 中�𝜃𝜃�� > 2.5 的估計值進行相同的處理。
在評估估計結果方面,由於在進行模擬時紀錄了原始的能力參數,所以我們 可 以 藉 由 比 較𝜃𝜃� 與 𝜃𝜃 來 評 估 估 計 方 法 的 效 率 (efficiency) 。 主 要 評 估 指 標 為
17
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
MSE(Mean Square Error),即:
MSE�𝜃𝜃�� = E ��𝜃𝜃� − 𝜃𝜃�2� = Var�𝜃𝜃�� + Bias(𝜃𝜃�, 𝜃𝜃)2
MSE 同時包含了估計偏誤與估計值本身的變異,MSE 越小意味著估計值對 於真實參數的估計越準確,除此之外,也會記錄估計結果之平均值、中位數、估 計值標準差及正負向偏誤(bias)。
18