• 沒有找到結果。

第三章 研究方法

第一節 估計方法

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法

本次研究旨在透過分析題組結構的資料來比較不同方法的估計結果。首先由 2-PL IRT 模型,在給定受試者能力值分布下由電腦模擬產生作答結果,之後藉由 作答結果來估計受試者能力值,並比較三種估計方法:最大概似估計(MLE)、廣義 估計方程式(GEE)和貝氏題組模型使用在具題組結構的測驗時的估計結果。

由於分析的資料主要透過電腦模擬產生,所以在此比較了一些常見大型考試 的題目設計結構,作為參數設定(如題目數量、題組大小)的依據。英文閱讀理解 是一般較為人所知的題組測驗,測驗在每個段落會要求受試者閱讀一篇文章或書 信,並根據內容回答數個問題,而在同一段落內的題目,其答對機率存在相關性,

因此可視為一個題組(testlet),以托福(TOEFL)閱讀測驗為例,整個測驗約有 3-4 篇長篇文章理解,每篇會有 12-14 道題目;而多益(TOEIC)閱讀測驗則有共近 50 題的文章理解,文章長度較短,每個題組約有 2-5 題,而本次研究的測驗設計為 60 道題目,每 5 題為一題組,在結構上較接近多益測驗的文章理解。

以下將分節敘述估計方法與模擬流程。

第一節 估計方法

一、 最大概似估計(Maximum likelihood estimation)

令𝑥𝑥𝑖𝑖為第 i 位受試者的作答結果向量,𝑥𝑥𝑖𝑖 = 1代表答對,𝑥𝑥𝑖𝑖 = 0代表答錯,𝑥𝑥𝑖𝑖𝑖𝑖 即為第 i 位受試者在第 j 題的作答結果,由於 IRT 中局部獨立性的假設,我們可 以將測驗中每一題的作答結果相乘,得到受試者在該次測驗中的反應概似函數 (response likelihood function),寫為以下形式:

L(𝜃𝜃𝑖𝑖|𝑥𝑥𝑖𝑖, 𝛽𝛽) = P(𝑥𝑥𝑖𝑖|𝜃𝜃𝑖𝑖, 𝛽𝛽) = � 𝑃𝑃𝑖𝑖(𝜃𝜃𝑖𝑖)𝑥𝑥𝑖𝑖𝑖𝑖

𝑖𝑖

𝑄𝑄𝑖𝑖(𝜃𝜃𝑖𝑖)1−𝑥𝑥𝑖𝑖𝑖𝑖 其中,𝛽𝛽𝑖𝑖為第 j 道題目的試題參數向量(𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖, 𝑐𝑐𝑖𝑖),𝑄𝑄(𝜃𝜃) = 1 − 𝑃𝑃(𝜃𝜃)。

在 得 到 概 似 函 數 後 , 便 可 利 用 最 大 概 似 估 計 法 (Maximum Likelihood Estimation)來估計受試者能力值𝜃𝜃。

8

在配適二元作答結果的資料時,2-PL 的 TRT(Testlet Response Theory)模型如 下:

在貝氏題組模型中使用了 MCMC(Markov chain Monte Carlo)來計算後驗分 布,令Λ = (𝜃𝜃, 𝑎𝑎, 𝑏𝑏, 𝛾𝛾)為欲估計之參數集合,MCMC 大致的計算過程如下:

以上所述之 Bayesian testlet model 估計方法,可透過 Wang(2004)等人所建立的 SCORIGHT3.0 軟體來完成,以下簡述 SCORIGHT 的操作步驟,詳細的參數設定 可參考附錄:

[步驟一]輸入考生人數、題目數量

[步驟二]決定題目作答方式為二元(binary)或多元(polytomous) [步驟三]輸入題組結構

SCORIGHT 的模型假設是以 testlet response theory 為基礎,在原有的 IRT 模 型加入一題組參數γ來估計題組效果,因此需事先設定題組的結構,例如 1 到 5 SCORIGHT 的使用說明中建議需至少進行 4000 次迭代才能達到收斂(Wang, Bradlow, & Wainer, 2004)。

[步驟六]輸入估計後驗分布前欲丟棄的模擬樣本數量 [步驟七]決定 Markov Chain 的進行次數

SCORIGHT 可進行數個 Markov Chain 的估計,使用者可透過進行多個 Markov Chain 觀察估計值收斂的狀況,但須花費較多計算時間。

[步驟八]決定是否事先給定試題參數 a、b [步驟九]決定是否事先給定能力值𝜃𝜃

在輸入以上資訊後,SCORIGHT 便可以開始進行參數的估計,而在接下來 的章節中,會使用 SCORIGHT 來代稱貝氏題組模型的估計方法。

三、 廣義估計方程式(Generalized estimating equation)

廣義估計方程式(GEE)可適用於任何廣義線性模型下的參數估計,而本次研 究的分析資料建立在 IRT 的雙參數對數模式下,因此使用 logit function 作為連結 函數(link function),其形式為:

10

題組內之題目個數,𝑅𝑅(𝛼𝛼)為工作相關矩陣(working correlation matrix),用來表現 資料間的相關性。GEE 的方法確保了當我們選擇合適的工作相關矩陣時,所估計 之𝜃𝜃�為𝜃𝜃的一致性估計量,且𝜃𝜃為漸進常態分配。

Scoring algorithm 是常見用來估計廣義線性模型參數的方法,估計方程式可 以寫為:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

係數矩陣𝑅𝑅(𝛼𝛼)(1),並進行 GEE 估計,得到估計值𝜃𝜃�(1)

[ 步 驟 二 ] 由 前 步 驟 所 得 之 估 計 值 將 N 位 受 試 者 依 大 小 排 序 , 得 到 (𝜃𝜃�(1)(1), 𝜃𝜃�(2)(1), … , 𝜃𝜃�(𝑁𝑁)(1)),接著針對各個受試者,使用與其能力估計值𝜃𝜃�(𝑖𝑖)(1)最接近的 n 名 受試者(𝜃𝜃�(𝑖𝑖−2/𝑛𝑛)(1) , … , 𝜃𝜃�(𝑖𝑖)(1), … , 𝜃𝜃�(𝑖𝑖+2/𝑛𝑛)(1) )之作答結果計算新的相關係數矩陣𝑅𝑅(𝛼𝛼)(𝑖𝑖)(2), 𝑖𝑖 =1,2,….,N,此處每位受試者都具有各自的工作相關矩陣。

[步驟三]以𝑅𝑅(𝛼𝛼)(𝑖𝑖)(2)作為第𝑖𝑖名受試者的工作相關矩陣,使用 GEE 估計每位受試者 的能力值,得到𝜃𝜃�(2),並以𝜃𝜃�(2)作為新的排序依據,重複進行步驟二和三直到欲進 行的迭代次數。

本次研究預計共進行 3 次迭代,並藉由比較各個階段估計值(𝜃𝜃�(1), 𝜃𝜃�(2), … , 𝜃𝜃�(4)) 與真實值𝜃𝜃的差距來評估多階段分組 GEE 的效果。

相關文件