題目曝光率議題

第三節第三節題目曝光率議題題目曝光率議題題目曝光率議題題目曝光率議題

傳統的紙筆測驗中通常讓大量的受試者在同一時間測驗，且測驗相同或複本的題目，所以沒有題目曝光率的問題。而電腦適性測驗與傳統的紙筆測驗最大的不同點在於電腦適性測驗能針對不同受試者的能力給予不同的題目，電腦適性測驗為了能縮短測驗題目數與估計的精準度，給予適合受試者難度且鑑別度大的題目，因此有些鑑別度高的題目過度被使用，而過度的曝光率使得題目的保密性受到威脅，有一些人可能事先知道題目與答案而比較容易答對該題目，造成對受試者能力的誤判，也導致題庫的安全性與測驗的公平性遭受危機。

在此，將題目曝光率定義測驗長度中每題使用的相對次數(如,Chang &

Ying, 1999；Sympson & Hetter, 1985)，如下

eri=(第i題被使用的次數)/N (2.20) 其中N為受試者人數，若題目曝光率為 0.2，則表示 100 名受試者中就有 20 位受試者測驗過此題目。若 L 為平均的測驗長度或固定的測驗長度，

則平均曝光率為 n L

er = / (2.21)

為顧及題目曝光率的均勻度，使題庫內的題目皆能被施測，期望題庫內每題曝光率應接近於平均曝光率。

最理想控制曝光率與題目重複率的方法是不經由選題方法選擇題目，

對每一位受試者從題庫中隨機選題，但這並不符合適性測驗的原則。若每次選題都給予題庫中最佳的題目，則能增進測驗效能，但易造成最佳題目的濫用，使測驗遭到質疑，故當發展測驗系統時，必須同時考量「估計精準度」與「均勻題目曝光率」。

第四節

(二)、題目重複率

Way(1997)將題目重複率(test overlap rate)定義為題目被兩位受試者施測，所有成對比較平均的比例，即表示區塊或成對的題目，在不同測驗同時讓受試者施測的程度，簡單的計算方式可為兩個隨機選出的受試者施測的重複題目數，除上測驗長度。所以若 N 為受試者人數，題目重複率的計算步驟為：

(1)計算N(N−1)/2對受試者重複題目數；

(2)加總此N(N −1)/2個數；

(3)將此總數除以LN(N−1)/2。

若測驗的題目重複率越高，表示受試者測驗相同題目的比例越高，所以，理想上，任一對受試者重複題目數應該被最小化。

第三章第三章第三章

第三章研究方法研究方法研究方法研究方法

透過前兩章所參閱的相關理論與提出之研究目的進行研究設計，本章分為研究架構、研究工具與適性化測驗流程設計。

第一節第一節

第一節第一節研究架構研究架構研究架構研究架構

本研究利用電腦模擬資料的方式，藉以比較不同選題法在不同條件下對於估計精準度與題目曝光率之效果，圖 3-1 乃依據本研究之研究動機、

研究目的、研究背景以及參考相關文獻後設計之研究架構圖。

擬定研究主題

學習 MATLAB 程式語言

相關文獻探討

電腦模擬

估算能力參數

撰寫報告精準度分析

與曝光率分析

圖 3-1 研究架構圖

第二節第二節

第二節第二節研究工具研究工具研究工具研究工具

本研究所使用的主要軟體工具為 MATLAB，而選擇 MATLAB 的原因為其有功能強大的計算能力與高階但簡單的程式環境，可使用簡單的指令呼叫函數的方式，數值計算、模擬與繪圖等。故採用此軟體作為模擬題庫題目參數、模擬電腦適性測驗與繪製統計圖。

第第第

第三三三三節節節節適性測驗流程設計適性測驗流程設計適性測驗流程設計適性測驗流程設計

不成立

成立設定測驗模式

模擬受試者能力值

設定初始值模擬資料：

設定人數、題目數以及參數範圍及樣式

能力估計選題方法

作答反應

誤差與題庫效能評估

模擬題目各參數

圖 3-2 實施流程圖

資料模擬階段電腦適性測驗階段

終止條件

ㄧ

鑑別度參數設定上參考 Patz 與 Junker(1999)的研究，考慮鑑別度參數為 lognormal(0,1)的情況，考慮六種不同的題庫參數樣式，如表 3-3 所示，並將題庫大小設為 160、300 與 600 題，以題庫樣式配合 3 種題庫大小作組

表 3-3 模擬題庫樣式

題庫樣式難度鑑別度猜測度

PA U(-2.8,2.8) U(0.5,2) 0

PB N(0,1) U(0.5,2) 0

PC N(0,1) lognormal(0,1) 0

PD U(-2.8,2.8) U(0.5,2) U(0,0.25)

PE N(0,1) U(0.5,2) U(0,0.25)

PF N(0,1) lognormal(0,1) U(0,0.25)

三三三

三、、、、模擬受試者作答反應資料模擬受試者作答反應資料模擬受試者作答反應資料模擬受試者作答反應資料

本研究所使用的受試者作答反應是根據 Birnbaum(1968)的三參數對數模式產生，假設受試者人數為 N 人，題庫題數 n 題，模擬受試者作答反應資料的步驟：

(1)設定受試者能力參數，與題庫題目參數。

(2)依(1)之設定，產生受試者答題機率P_i(θ)，i=1,2,...,n。 (3)以隨機方式產生 n 個介於 0 至 1 的亂數u_i，i=1,2,...,n。

(4)比較P_i(θ)與u_i，若P_i(θ)>u_i，則受試者答對此題，反之則表示答錯。

四四四

四、、、初始值設定、初始值設定初始值設定初始值設定

由於 CAT 施測題目會隨受試者的答題反應調整施測題目的難度，

Lord(1977)發現不同起始點對於測驗標準誤(standard error of measurement) 並沒有很大差別。所以偏差的起始題應不致於影響測量結果，但較正確的起始題，的確有助於縮短施測題數，而使能力估計提早完成。若從難易適中的題目開始施測，經過多次使用後必然增加洩題的可能，基於保密性的考量，洪碧霞等(1992)建議採用隨機選取起始點的方式，隨機提供受試者

第一個題目。但是，隨機選取的方式並不能保證找到最佳起始點，同時也不符合適性測驗的精神。故本研究起始題以隨機選取中難度的題目，使題目對受試者不至於太難或太簡單，且避免產生過高的題目曝光率。

五五五

五、、、、選題方法選題方法選題方法選題方法

在以往的文獻中並未研究 KL 訊息法的曝光率，且未比較鄰近法與考慮 b 參數的 a 分層法，故本研究針對最接近偏移難度法、區間式最大訊息法、KL 訊息法、鄰近法與考慮 b 參數的 a 分層法等五種選題法進行估計誤差與曝光率的評估。

六六六

六、、、、終止條件終止條件終止條件終止條件

測驗終止條件可分為固定測驗長度 (fixed-length) 與變動測驗長度 (variable-length)兩種。固定測驗長度法常用於施測目的為瞭解受試者能力之測驗，例如成就測驗；變動測驗長度法則是通常用於電腦化精熟測驗，

此種測驗只關心受試者是否達到通過標準，例如證照測驗(Wang, 1997)。

因採用固定測驗長度能透過預定每個內容領域要施測的題目數目，能更直接控制施測內容，並且較符合一般受試者對測驗的預期，目前大多數電腦化適性測驗採用固定測驗長度，故本研究使用之停止條件為固定測驗長度為 20 題與 40 題，設定其停止條件的代號各為 t2 與 t4。

第四章

法(0.2261)與考慮 b 參數的 a 分層法(0.2414)較大；PB1、PC1、PD1、PE1、

PF1 也有此順序關係。以 PF1 的最接近偏移難度法(0.3457)、考慮 b 參數的

在受測能力為 SA1(1000 人)、題庫樣式為 PA1、PB1、PC1、PD1、PE1、

在題庫樣式為 PB1、PC1、PD1、PE1、PF1，其題目曝光率低於 0.05 的題目數在選題法為區間式最大訊息法和 KL 訊息法與 PA1 差異不大；對其他選題法，以 PA1 題目數最多、PD1 次之，其他題庫則較少，以 PB1 為例，最接近偏移難度法為 10 題，佔題庫的 6.25%；考慮 b 參數的 a 分層

法為 13 題，佔題庫的 8.125%；鄰近法為 25 題，佔題庫的 15.625%，由 PA1 (整理附表 1,6,11,16,21,26)

題目曝光率低於 0.05 題目數為 PB3、PC3、PD3、PE3、PF3 與 PA3 有相同的順序關係，除 PF3 的最接近偏移難度法(0.4123)、考慮 b 參數的 a 分層法(0.3766)均方根差大於 0.3。

的 a 分層法的最大曝光率介於 0.2120 至 0.3310。

在題庫樣式為 PB3、PC3、PD3、PE3、PF3，其題目曝光率低於 0.05 的題目數與 PA3 略有差異，各選題法以區間式最大訊息法最多，較少的是最接近偏移難度法與考慮 b 參數的 a 分層法。

表 4-6 題庫樣式 PX3 之曝光率低於 0.05 題目數 (整理附表 2,7,12,17,22,27)

曝光率低於 0.05 題目數 PB6、PC6、PD6、PE6、PF6 與 PA6 有相同的順序關係，而 PF6 的最接近偏移難度法(0.3345)、考慮 b 參數的 a 分層法(0.3283)均方根差大於 0.3。

0.4030 至 0.5610，鄰近法的最大曝光率介於 0.2280 至 0.3530，考慮 b 參數

在題庫樣式為 PB6、PC6、PD6、PE6、PF6，其題目曝光率低於 0.05 的題目數與 PA6 略有差異，各選題法以區間式最大訊息法最多，較少的是最接近偏移難度法與考慮 b 參數的 a 分層法。

表 4-9 題庫樣式 PX6 之題目曝光率低於 0.05 題目數 (整理附表 3,8,13,18,23,28)

題目曝光率低於 0.05 題目數

大體上，對各題庫樣式均方誤以區間式最大訊息法與 KL 訊息法最小，次之為鄰近法，以考慮 b 參數的 a 分層法與最接近偏移難度法最大；

而題目最大曝光率以區間式最大訊息法最大，次之為 KL 訊息法、鄰近法，

以考慮 b 參數的 a 分層法與最接近偏移難度法較低，且題目最大曝光率會隨題庫越大而下降。

對於不同題庫大小，各選題法在曝光率低於 0.05 的題目數以區間式最大訊息法最多，且隨題庫題數越多，其題目數佔整個題庫的比例越高，

顯示當題庫題數增加時，區間式最大訊息法選題仍然易集中於某些題目，

使得大部分的題目曝光率低於 0.05，而其圖形也反映出此特點而呈現出陡峭的題目曝光率圖形，而相對於最接近偏移難度法曝光率低於 0.05 的題目數較少，其圖形也較平緩。

第二節第二節第二節

第二節測測測測驗長度對適性測驗的影響驗長度對適性測驗的影響驗長度對適性測驗的影響驗長度對適性測驗的影響

在受測能力為 SA1(1000 人)、題庫樣式為 PX6(600 題)、測驗長度為 20 題與 40 題，對各題庫的均方根差整理於表 4-10，以能力均方根差比較測驗長度對能力估計效率與精準度的影響，以題庫樣式 PA6 為例可發現當測驗長度增長時，區間式最大訊息法 (0.1679—0.1191) 、 KL 訊息法 (0.1644—0.1173)與鄰近法(0.1776—0.1318)的估計誤差有微幅的下降，相對於最接近偏移難度法 (0.2294—0.1534) 與考慮 b 參數的 a 分層法 (0.2325—0.1489)下降較為明顯。

若停止條件設為變動測驗長度，以均方根差達 0.18 為停止條件，則區間式最大訊息法、KL 訊息法與鄰近法在受試者平均施測 20 題內可達到此停止條件，相對於最接近偏移難度法與考慮 b 參數的 a 分層法必須測驗 20 題以上、40 題以內才能達到此估計精準度。

表 4-10 題庫樣式 PX6_tx 之能力均方根差 (整理附表 3,5,8,10,13,15,18,20,23,25,28,30)

能力均方根差 (499—417)、鄰近法(473—300)與考慮 b 參數的 a 分層法(461—283)在測驗長度增長時對曝光率低於 0.05 題目數減少的趨勢。

在題庫樣式為 PB6、PC6、PD6、PE6、PF6，測驗長度為 20 題與 40 題，其能力估計均方根差與 PA6 略有差異，仍是以最接近偏移難度法與考

表 4-11 題庫樣式 PX6_tx 之題目曝光率低於 0.05 題目數 (整理附表 3,5,8,10,13,15,18,20,23,25,28,30)

題目曝光率低於 0.05 題目數

在題庫樣式為 PA6、PB6、PC6、PD6、PE6、PF6，測驗長度為 20 題與 40 題，其題目重複率與 PA6 略有差異，仍顯示出微幅的上升現象，且各選題法的題目重複率排序以區間式最大訊息法與 KL 訊息法較大，在測驗長度為 20 題時，區間式最大訊息法的題目重複率介於 0.2184 與 0.2912 之間、KL 訊息法介於 0.1742 與 0.2095 之間，而題目重複率為 0.2912 表示

受試者在測驗 20 題中，平均有 5.8(20*0.2912)題與其他受試者相同；在測驗長度為 40 題時，最接近偏移難度法的題目重複率介於 0.0757 與 0.1074 之間、考慮 b 參數的 a 分層法介於 0.0795 與 0.1085 之間、鄰近法介於 0.0920

在文檔中電腦適性測驗題目曝光率之模擬研究 (頁 24-0)

第三節 第三節 題目曝光率議題 題目曝光率議題 題目曝光率議題 題目曝光率議題

第四節

第三章 第三章 第三章

第三章 研究方法 研究方法 研究方法 研究方法

第一節 第一節

第一節 第一節 研究架構 研究架構 研究架構 研究架構

第二節 第二節

第二節 第二節 研究工具 研究工具 研究工具 研究工具

第 第 第

第三 三 三 三節 節 節 節 適性測驗流程設計 適性測驗流程設計 適性測驗流程設計 適性測驗流程設計

ㄧ

三 三 三

三、 、 、 、模擬受試者作答反應資料 模擬受試者作答反應資料 模擬受試者作答反應資料 模擬受試者作答反應資料

四 四 四

四、 、 、初始值設定 、 初始值設定 初始值設定 初始值設定

五 五 五

五、 、 、 、選題方法 選題方法 選題方法 選題方法

六 六 六

六、 、 、 、終止條件 終止條件 終止條件 終止條件

第四章

第二節 第二節 第二節

第二節 測 測 測 測驗長度對適性測驗的影響 驗長度對適性測驗的影響 驗長度對適性測驗的影響 驗長度對適性測驗的影響