第三章 研究方法
為評估在電腦化分類測驗中 IRT-based SPRT 與 SPRT 在分類精確度與測 驗長度上,比較此兩種方法在不同題庫性質與調整施測參數後的差異,本研究以 模擬方法模擬以1PL IRT 為真實模式下,比較實施 SPRT 與 IRT-based SPRT 在進 行CCT 時的分類情形與測驗長度資訊。在選擇共同的控制因素上則以試題特徵、
α 與 β 參數的設定與未決策區間寬度為控制變項,其餘各項因素在模擬中採固定 數值進行,原因為在通過分數設定因素上因採用模擬方式做估計,受試者能力值 與題庫內試題參數均可直接指定,對於通過分數可不需透過實證數據加以校正而 將其固定為0 以方便模擬上數據的觀測;也因為採用模擬產生的題庫與受試者,
因此在試題曝光率控制、內容平衡、與測驗長度的限制因素上不做控制。
在本模擬實驗中對於題庫內試題參數難度分布情形,選取以下四種分布型態 的題庫,分別為試題難度均勻分散、試題難度較集中於通過分數上、試題難度偏 難與試題難度偏易;在未決策區間寬度上在0.2~2.0,以每 0.2 為一個選取值,共 十個數值;而在錯誤比例參數α 與 β 則取 0.1 每次折半共六次進行模擬,依序分 別為0.1、0.05、0.025、0.0125、0.00625、0.003125,共六個數值。
實驗進行分類正確性的比較及測驗長度的比較兩部份。分類正確性的比較以 搜集正確分類為通過、正確分類為未通過、Type I error 與 Type II error 四項資料
進行分析;測驗長度依其定義搜集完成分類決策所需的測驗題數並計算其測驗長 度平均值比較分析。
依據前述研究目的及相關理論文獻依序說明本研究之研究步驟、研究工具與 實驗設計。
第一節 研究步驟
本研究之研究步驟如下:
1. 分別建立 SPRT 與 IRT-based SPRT 的 CCT 模擬系統。
2. 建立四組題庫分別代表難度值較分散、較集中於通過分數、偏難與偏易。
3. 比較 SPRT 與 IRT-based SPRT 於上述四組題庫,以一般最常選取的施測 參數進行模擬施測並搜集其結果。
4. 以未決策區間寬度為變項,觀察比較 SPRT 與 IRT-based SPRT 在調整未 決策區間寬度後,分類正確性與測驗長度的變化情形。
5. 以錯誤比例參數 α 與 β 為變項,觀察比較 SPRT 與 IRT-based SPRT 在調 整α 與 β 參數後,分類正確性與測驗長度的變化情形。
第二節 研究工具
實驗模擬所用的系統及開發環境。硬體平台為個人電腦 P4-2.4GHz、記憶體
Studio .NET 2005 作為開發環境,程式語言以 C++ 語言撰寫。隨機亂數產生的因 需較大數量受試者,而 VC++內建的亂數產生循環比例恐太過頻繁,所以改採 Agner Fog 於 2004 年所開發的虛擬隨機亂數產生器(pseudo random number generator)來產生。
第三節 實驗設計
本研究以所完成的SPRT 與 IRT-based SPRT 系統進行模擬測驗,模擬大量依 常態分布的受試者在進行不同試題難度分布情形的題庫下的分類情形。針對本研 究之研究目的一,探討在試題難度參數偏難或偏易時,IRT-based SPRT 可解決 SPRT 在分類誤失率提升上的缺失,此處的未決策區間寬度與 α 和 β 固定選取於 一般進行 SPRT 測驗時最常選用的數值(未決策區間寬度為 0.5,α 和 β 參數均為 0.05)。而針對研究目的二,調整進行測驗時的未決策區間寬度參數與 α 和 β 參數,
再進行模擬測驗,觀察比較對於錯誤分類比例的降低情形與測驗長度的變化量。
模擬施測過程當中的受試者答題反應以1PL IRT 模型為真實模型,將其真實能力 值計算所得的答對機率值,與一由0 與 1 之間均勻隨機選取的數值相比較,若大 於該選取的數值,則記錄為 1(答對),否則記錄為 0(答錯)。將實驗過程依其順序 條列如下:
1. 建立 SPRT 與 IRT-based SPRT 模擬測驗系統。
2. 以亂數產生器產生能力值 θ 為以平均數為 0 標準差 1 常態分布的受試者 1,000,000 名。
3. 產生四組不同難度分布的題庫,分別為難度較分散、難度較為集中、試 題均較偏難與試題均較偏易四組各300 題。其中難度較分散組為以 IRT 中b 難度參數值介於-3 至 3 間隨機產生均勻分布的試題;難度較為集中 組是以IRT 中 b 難度參數平均值為 0 標準差為 1 的常態分布隨機產生;
偏難組以IRT 中 b 參數平均值為 1 標準差為 1 的常態分布隨機產生;偏 易組以IRT 中 b 參數平均值為-1 標準差為 1 的常態分布隨機產生。每組 各300 題試題之平均數與標準差如表 3-1。
表3-1 各組試題庫難度參數值 b 之平均值與標準差 參數b 的平均值 參數 b 的標準差 難度較分散組 0.105 1.716 難度較集中組 0.089 0.929
難度偏難組 1.089 0.928
難度偏易組 -0.911 0.930
4. 分別記錄在各組題庫以 θ0=-.25、θ1=.25、α=.05 與 β=.05 進行 SPRT 與
5. 調整未決策區間寬度為 0.2~2.0,以每 0.2 為一個選取值,共十組。紀錄 各組題庫在各選定的未決策區間寬度下SPRT 與 IRT-based SPRT 的測驗 分類結果與測驗長度。
6. 調整 α 與 β 數值為 0.1、0.05、0.025、0.0125、0.00625 與 0.003125,共 六組。紀錄各組題庫在各選定的未決策區間寬度下 SPRT 與 IRT-based SPRT 的測驗分類結果與測驗長度。
7. 將記錄下的測驗分類結果與測驗長度資料進行比較分析。