第三章 研究方法
第二節 研究步驟
本研究根據上述所提之六種不同次級量尺分數計算方法,欲探討不同方法於 於單一測驗設計與等化測驗設計情境下,其測驗分數估計之效果。在研究步驟中 依次介紹本研究的研究流程、模擬實驗之變項設計、實驗設計及實驗步驟。
壹、 研究流程
根據文獻探討,Bock 方法、OPI 方法、REG 方法及 PC 方法,皆可用於次級 量尺分數之計算,加上本研究提出之新次級量尺分數計算方法,REGP 方法及 W-Bock 方法,共有六種不同次級量尺分數計算方法。因此,本模擬研究欲探討 不同方法於不同情境中,次級量尺分數計算之精準度。在單一測驗設計中,本研 究將比較六種次級量尺分數計算方法之測驗分數估計精準度;在等化測驗設計 中,由於 REG 方法及 PC 方法是以 CTT 為基礎,故在等化上使用 CTT 等化估計 方法,並且比較不同 CTT 等化估計方法之優劣;而其餘方法則使用現代測驗理 論等化估計方法。研究流程請參閱下方模擬實驗架構圖。
圖 3-1 研究步驟流程圖
貳、 模擬實驗之變項設計
一、 共同變項設定
本研究欲比較不同次級量尺分數計算方法對於測驗分數估計之精準度,且模 擬單一測驗設計與等化測驗設計兩種情境。茲將本研究的共同變項設定整理如表 3-1 及表 3-2。
測驗題本設計 模擬受試者能力參數
實驗設計 文獻探討
單一測驗設計 等化測驗設計
單一題型 混合題型
使用不同方法估計分數精準度 產生模擬資料
使用不同方法估計 次級量尺分數
IRT 等化 CTT 等化
(一) 單一測驗設計
表 3-1 單一測驗設計之共同變項設定對照表
研究變項 變項設定
測驗題本長度 24 題、36 題及 72 題
次級量尺測驗長度 6 題、12 題或 18 題
題本次級量尺個數 2 個、4 個或 6 個
次級量尺相關程度 大約 1.0、0.8、0.5 及 0.2
次級量尺之CR /MC試題數比例 0、20%及 50%
受試人數 500、1000 及 3000 人
每一種情形模擬次數 100 次
根據研究目的,本研究模擬不同的情境之測驗資料。單一測驗設計之參數估 計使用 PARSCALE 軟體;模擬資料的產生設計六種不同因素,如表 3-1 所示。
1. 在測驗題本長度中,模擬 24 題、36 題及 72 題三種題本長度。
2. 在次級量尺測驗長度中,模擬各次級量尺為 6 題、12 題或 18 題三種試題數。
3. 在題本次級量尺個數中,模擬題本包含 2 個、4 個或 6 個三種次級量尺個數。
本研究固定測驗題本長度(24 題、36 題及 72 題),欲探討不同的次級量尺 測驗長度及不同的題本次級量尺個數對於次級量尺分數估計的影響。舉例來說,
當測驗長度為 24 題時,研究中探討 2 個及 4 個次級量尺個數的配置情形,且探 討次級量尺測驗長度為 12 題及 6 題的配置情形;測驗長度為 36 題時,探討 2 個 及 6 個次級量尺個數的配置情形,且次級量尺測驗長度為 18 題及 6 題的配置情 形;測驗長度為 72 題時,探討 4 個及 6 個次級量尺個數的配置情形,且次級量 尺測驗長度為 18 題及 12 題的配置情形。因此,在上述三種因素中,總共有3×2=6 種配置情形。
4. 在次級量尺相關程度中,本研究欲探討次級量尺相關性與次級量尺分數估計
誤差之影響,因此,模擬不同次級量尺之受試者能力值θ ,服從標準多變量
常態分布(standardized multivariate normal distribution),並假設能力值之間 的相關係數(correlation coefficients)為約等於 1.0、0.8、0.5 及 0.2 四種情形。
5. 在次級量尺之CR /MC試題數比例中,本研究欲探討單一測驗設計中,單一 測驗題型(single format tests)與混合測驗題型(mixed format tests)對於次 級量尺分數估計誤差之影響。因此,模擬 0、20%及 50%三種比例。例如,
次級量尺測驗長度 6 題,且CR /MC試題數比例為 20%,即代表此次級量尺 包含 5 題 MC 的試題及 1 題 CR 的試題。
6. 在施測人數中,模擬施測人數為 500 人、1000 人及 3000 人三種情形。
因此 ,根 據模 擬實 驗 之變 項設 定, 本研 究在 單一 測驗 設計 中 ,共 探討 648
4 3 3 3
6× × × × = 種配置情形。
(二) 等化測驗設計
表 3-2 等化測驗設計之共同變項設定對照表
研究變項 變項設定
次級量尺相關程度 大約 1.0、0.8、0.5 及 0.2
受試人數 500、1000 及 3000 人
定錨試題配置 相同次級量尺與不同次級量尺
等化估計方法 平均數等化法、線性等化法、等百
分位數等化法及同時估計法
每一種情形模擬次數 100 次
在等化測驗設計中,本研究擬比較以不同次級量尺分數計算方法用於等化測 驗之成效,參數估計方面使用 BILOG-MG 軟體,其共同變項設定如表 3-2 所示。
1. 題本配置方面,每個測驗題本長度設定為 24 題、題本次級量尺個數為 2 個、
次級量尺測驗長度為 12 題(24/2=12)、定錨試題比例為1/4(6 題,
6 4 / 1
24× = )。本研究使用定錨不等組設計(non-equivalent groups with anchor test design, NEAT)。
2. 定錨試題配置方面,模擬定錨試題在相同與不同次級量尺兩種等化設計。例 如,次級量尺個數為 2 個(次級量尺 1 及次級量尺 2),且定錨試題數為 6 題,
即探討定錨試題均在次級量尺 1 與定錨試題平分在次級量尺 1 及次級量尺 2 之等化估計效果。
3. 產生模擬資料時,考慮了受試者人數以及次級量尺相關程度兩個因素。
4. 次級量尺計算方法中,由於 REG 方法及 PC 方法是以 CTT 為基礎。因此,
比較兩計算方法於平均數等化法、線性等化法及等百分位數等化法之等化估 計效果;其餘的次級量此計算方法(Bock 方法、W-Bock 方法、OPI 方法及 REGP 方法)則使用同時估計法。
此外,本研究對於單一測驗設計與等化測驗設計中,每一不同的條件均重覆 進行 100 次的資料模擬,來估計次級量尺分數之精準度,精準度是以次級量尺分 數之根均方差(root mean square error, RMSE)作為評估準則。
二、 參數設定 1. 受試者能力參數設定
模擬不同次級量尺之受試者能力分布,為標準多變量常態分布。
假設θ =(θ1,...,θj)服從多變量常態分布,記為MN(µ,Σ),其中,θ ,...,1 θj分別 為截尾常態分布,即θ1 ~ N(0,1),...,θj ~ N(0,1),平均數為 0,標準差為 1,範 圍界定於−3~3,相關約為 1.0、0.8、0.5 與 0.2。
2. 試題參數設定
(1) 鑑別度參數設定
模擬鑑別度參數分布為截尾常態分布,平均數為 1,標準差為 0.5,將範圍 界定於0.5~1.5,記為N(1,0.25)。
(2) 難度參數設定
模擬難度參數分布為截尾常態分布N(0,1),範圍−3~3。
(3) 猜測度參數設定
模擬猜測度參數分布為截尾常態分布,平均數為 0.125,標準差為 0.25,
將範圍界定於0~0.25,記為N(0.125,0.0625)。
參、 實驗設計
一、 單一測驗設計
本研究撰寫程式模擬產生72題MC試題及36題CR試題(研究中設定3點計 分,即0分、1分及2分)之題庫,以及模擬產生受試者人數3000人。因此,探討 不同測驗題本長度之次級量尺分數精準度時,再隨機由題庫抽取所需試題。舉例 來說,若題本內包含4個次級量尺,次級量尺測驗長度為6題,且CR /MC試題數 比率為20%,則代表在此狀況中,須由題庫抽取20題MC試題及4題CR試題。探討 不同人數之次級量尺分數精準度時,再隨機抽取所需之人數。
二、 等化測驗設計
等化測驗設計比較定錨試題在相同與不同次級量尺對於次級量尺分數估計 誤差之影響。在模擬研究中,每個題本的施測題數為 24 題、定錨試題比例為1/4, 施測人數為 500、1000 及 3000 人,故撰寫程式模擬產生等化測驗所需 42 題 MC 試題之題庫以及模擬產生所需總受試者人數 6000 人,探討不同人數之等化後次 級量尺分數精準度時,再隨機抽取所需之人數。
肆、 模擬實驗步驟
本研究為模擬實驗,實驗的程序如下:
一、 建立試題題庫,並從題庫中挑選試題至各次級量尺組成題本;
二、 模擬不同次級量尺之受試者能力分布,服從標準多變量常態分布,並假設 相關約為 1.0、0.8、0.5 及 0.2;
三、 利用 IRT 三參數模式計算各次級量尺之Pij(θ)及Pijk(θ),其中,i為試題、
j為次級量尺、k為類別;
四、 使用步驟 3 之Pij(θ)及Pijk(θ)計算每個次級量尺之真實分數,舉例來說,若
次級量尺有 6 題 MC 試題(試題 1 到試題 6),則此次級量尺的真實分數為 6 題試題Pij(θ)之總和。研究中假設此為真實分數,使用來比較不同次級量 尺分數計算方法之基準。
五、 使用步驟 3 之Pij(θ)及Pijk(θ)產生作答反應(response)y ; ij 六、 使用步驟 5 之作答反應y ,估計不同方法之次級量尺分數; ij
七、 重複進行 100 次步驟 5 及步驟 6,比較不同方法對於次級量尺分數的 RMSE。