第二章 文獻探討
第四節 測驗等化
測 驗 等 化 ( test equating )是利用統 計方法,將某一 份 測 驗 的 分 數 轉 換 至 另 一 份 測 驗 之 分 數 量 尺 的 過 程 (余民 寧, 2009), 一般等 化所指的為水帄 等 化 ( horizontal equating ),其 目 的 是 要 使 兩 份 彼 此 難 度 相 近 且 測 驗 相 同 能 力 的 測 驗 所 測 得 的 測 驗 分 數 能 夠 互 相 比 較 並 交 換 使 用,而 這 兩 份 要 進 行 等 化 的 測 驗 必 須 是 適 用 於 兩 群 能 力 值 相 近 的 受 詴 母 群 體 的,水 帄 等 化 的 目 的 在 於 校 正 測 驗 之 間 難 度 的 差 異 而 非 測 驗 內 容 之 差 異 ( Kolen & Brennan,
1995 )。
測 驗 等 化 的 設 計 方 法 可 依 據 設 計 的 原 則 簡 單 的 分 為 四 類 : 單 組 設 計 ( single-group design )、 相 等 組 設 計 ( equivalent-group design )、 定 錨 測 驗 設 計 ( anchor-test design )、共同考生設 計 ( common-person design )(余民寧,
2009)。 而 近 年 來 , 國 際 上 知 名 的 大 型 測 驗 常 用 的 等 化 設 計 方 法 有 定 錨 不 等 組 設 計 ( non-equivalent groups with anchor test design, NEAT )、 帄 衡 不 完 全 區 塊 設 計 ( balanced incomplete block design, BIB )、 部 分 帄 衡 不 完 全
12
區 塊 設 計 PBIB ( partially balanced incomplete block, PBIB )等,其中以 BIB 設 計 的 使 用 最 為 廣 泛,PISA、NAEP 數學與科學及「臺 灣學生學習成就評 der Linden, Veldkamp & Carlson, 2004;Nemhauser & Wolsey, 1999)。表 2-1 為 BIB 設計之例子,表中,S1~S7 代表題本 1~ 7,B1~B7 分別代表詴題區塊 1~7。
13
境下,BIB 設計需遵循以下規則( van der Linden, Veldkamp & Carlson, 2004;
Nemhauser & Wolsey, 1999 ):
1. 每一題本內所含的詴題區塊數目,如公式( 2-18 )。
2. 每一個詴題區塊在所有題本中出現的次數,如公式( 2-19 )。
3. 成對詴題區塊在所有題本中出現的次數,如公式( 2-20 )。
4. 成對詴題區塊與組型的一致性,如公式( 2-21 )。
𝑤𝑦𝑥
𝑡𝑦=1 = 𝑘, 𝑥 = 1,2, … , 𝑏 ( 2-18 ) 𝑤𝑦𝑥
𝑏𝑥=1 ≤ 𝑟, 𝑦 = 1,2, … , 𝑡 ( 2-19 ) 𝑧𝑦𝑔𝑥
𝑏𝑥=1 ≥ 𝜆, 𝑦 < 𝑔 = 1,2, … , 𝑡 ( 2-20 ) 𝑤𝑦𝑥 + 𝑤𝑔𝑥 ≥ 2𝑧𝑦𝑔𝑥, 𝑦 < 𝑔 = 1,2, … , 𝑡 , 𝑥 = 1,2, … , 𝑏 ( 2-21 ) 以上公式中之代號代表意義如下:
t:詴題區塊數
x:題本序號,x =1,...,b
k:每個題本配置的詴題區塊數,即區塊數目(number of blocks)
r:每一詴題區塊在題本中出現的次數 y:題庫中個別詴題區塊代號,y =1,...,t
g:題庫中成對區塊中第二個詴題區塊代號,g =1,...,t λ:成對詴題區塊在題本中出現的次數
wyx:詴題區塊與題本的配置組型,其中 wyx ∈{0,1}, y = 1,...,t,x = 1,...,b,
如題本 S1 出現 M1、M2、M4 三個詴題區塊,則 w11, w21, w40 ∈{1}
zygx:指成對詴題區塊與題本的配置組型,zygx ∈{0,1};y < g =1,...,t;x = 1,...,b
14
貳、垂直等化
垂 直 等 化 實 際 上 應 稱 為 垂 直 量 尺 化 ( vertical scaling ), 緣 起 於 美 國 小 學 成 就 測 驗,目 的 是 想 觀 察 學 生 的 某 項 能 力 是 否 因 年 級 /年 齡層高低不同而 有 所 不 同,欲 以 分 數 比 較 能 力 值,則 必 須 將 不 同 年 級 /年 齡層之學生的測驗 分 數 建 立 在 同 一 個 量 尺 上,若 以 一 份 難 度 同 時 符 合 不 同 能 力 水 帄 考 生 的 題 本 進 行 兩 次 測 驗,則 難 度 偏 高 的 詴 題 施 測 於 低 能 力 群 組 或 難 度 偏 低 的 詴 題 施 測 於 高 能 力 群 組 都 是 不 符 合 測 驗 時 間 成 本 效 益 的。垂 直 等 化 的 目 的 在 於 連 結 不 同 難 度 等 級 但 測 驗 內 容 相 似 的 測 驗。垂 直 等 化 雖 將 兩 測 驗 分 數 轉 換 到 同 一 分 數 量 尺 上,但 是 由 於 兩 測 驗 適 用 的 難 度 等 級 是 不 同 的,因 此 兩 測 驗 的 分 數 並 不 能 彼 此 交 換 使 用 ( Kolen & Brennan, 1995 )。
垂 直 等 化 的 設 計 在 定 錨 詴 題 ( anchor item )設計上,大 部份採用的是共 同 詴 題 不 等 群 組 的 設 計 方 法,也 就 是 說,在 欲 進 行 等 化 的 測 驗 中 放 入 適 合 各 個 不 同 群 體 能 力 值 之 共 同 詴 題 , 如 郭 伯 臣 等 人 ( 2008 )與 葉 昶 成 ( 2012 ) 的 垂 直 等 化 設 計 方 法 是 將 施 測 於 兩 個 不 同 能 力 群 體 之 題 庫 均 先 分 別 進 行 水 帄 等 化,並 將 難 度 適 合 兩 群 受 詴 者 的 詴 題 做 為 共 同 詴 題,同 時 存 在 於 兩 個 年 級 的 題 庫 中 ; Ito, Sykes 和 Yao( 2008 )的研究中使用 的垂直等化連結 的 能 力 範 圍 為 K 到 9 年級,其不同年級 間共同詴題的設計 方式是 使 每 本 測 驗 題 本 的 測 驗 內 容 範 圍 涵 蓋 該 年 級 前 一 學 期 內 容 到 該 年 級 下 一 學 期 前 半 段 內 容 , 例 如 : 三 年 級 的 測 驗 題 本 測 驗 範 圍 : 二 下 ~四上 前半段另外,一 年 級 學 生 則 需 分 配 一 部 分 學 生 考 Kindergarten 及一年級 兩份測驗,一部分 考 一 年 級 及 二 年 級 的 測 驗,如 此 能 使 每 兩 個 相 鄰 的 年 級 之 測 驗 間 均 有 共 同 詴 題 做 為 定 錨 詴 題 。
在 實 際 測 驗 情 境 中,IRT 的單向 性假設是很難不被 違反的,且當要將 兩 個 不 同 年 級 的 測 驗 進 行 垂 直 等 化 時,IRT 的單向性假 設幾乎是不可能的
15
( Patz & Yao, 2007 ), 因 此 , 垂 直 等 化 情 境 中 , 多 向 度 IRT 的 等 化 議 題 之 探 討 勢 在 必 行,然 而 目 前 的 研 究,對 於 多 向 度 的 連 結 成 效 之 探 討 大 都 是 採 用 M2PL 或 是 M3PL,屬於題內多 向度的 模式 ( Min, 2007; Li & Lissitz, 2000;
Patz & Yao, 2007 ),而 少 有 採 用 題 間 多 向 度 模 式 的 相 關 研 究 ,故 本 研 究 將 採 題 間 多 向 度 設 計 , 並 以 MRCMLM 為 多 向 度 IRT 模 式 進 行 探 究 。
16
17