自古以來,從科舉考試到現在的基測、大學指考,都是使用「測驗」來了 解受試者的學習成效、分辨受試者程度的優劣,不管是何種測驗,測驗的內容 都有一定的範圍,畢竟試題是由「人」所編寫的,難免在撰寫的試題內容上可 能會有所爭議,計分結果也可能會有所偏頗,故試題編製的內容是否能有效測 驗出受試者個人的能力,所得的測驗結果是否能使大眾信服,這些都是舉辦測 驗時相當重要、受到關注的議題。
近幾年來,國際間有許多團體對於學生學習評量進行整合性的研究,如:
國際數理趨勢研究(The Trends in International Mathematics and Science Study, TIMSS)或是國際學生評量(Programme for International Student Assessment, PISA ) 等 。 而 國 內 也 建 立 了 「 臺 灣 學 生 學 習 成 就 評 量 資 料 庫 」 ( Taiwan Assessment of Student Achievement, TASA),以客觀、縱貫性(longitudinal)的 角度來瞭解學生的學習表現及成長情形。當進行國際間跨國性學生學習評量的 研究時,若試題受到各國風土民情或是種族差異而影響了受試者的作答反應,
其測驗的公平性也會令人質疑,這份測驗亦將無法公平的評斷及比較各國受試 者的表現。而這類型的試題在試題反應理論(item response theory, IRT)的研究 中,稱之為具「差異試題功能」(differential item functioning, DIF)的試題。換 言之,「當隸屬於不同群體但能力相同的受試者對於同一道試題有不同的作答 反應」的現象,稱這樣的試題具有 DIF。
為了避免測驗中的試題對不同群體產生不公平的情形,故在編製測驗時,
許多研究學者建議除了檢驗其測驗信、效度之外,也應該進行加入 DIF 檢核的 程序。國內外學者對於 DIF 的研究已有相當的成果,亦提出了許多 DIF 檢核的 方式,但如何改善 DIF 檢核的效能是目前重要的議題之一,以下此章將分為
「研究背景與動機」以及「研究目的與問題」兩部份進行介紹及說明。
第一節 研究背景與動機
測驗中即使只有少部份試題具有 DIF 現象,或多或少都會影響到受試者的 作答情形,而產生測驗結果不公平的情況。探究許多有關 DIF 文獻,可以知道 在 IRT 取向中,主要有二種方式可以檢核試題是否具有 DIF 現象,分別為試題 與差異功能檢測法(differential functioning of items and tests, DFIT; Raju, van der Linden, & Fleer, 1995)及概似比檢定法 (likelihood ratio test, LRT; Thissen, Steinberg, & Wainer, 1988)。雖然以上二種方法能找出具有 DIF 現象的試題,但 在以往的 DIF 研究也發現到,當測驗中含有較多 DIF 試題時,多數 DIF 檢核方 法的結果均容易產生型一誤差(Type I error)失控與檢核力(power)下降的情 況(Shih & Wang, 2009; Wang & Yeh, 2003)。而為解決此一狀況,許多研究學 者提出量尺淨化(scale purification)程序且建議在 DIF 檢核過程中加入此程 序,以期控制 DIF 檢核時的型一誤差(Candell & Drasgow, 1988; French & Maller, 2007; Holland & Thayer, 1988; Lord, 1980; Park & Lautenschlager, 1990; Wang, Shih,
& Yang, 2009)。不過,Wang 等人(2009)發現測驗中 DIF 試題的比例高於 20
%時,即使在檢核過程中加入量尺淨化程序,多數的 DIF 檢核方法進行檢核後 所得之型一誤差仍然會發生膨脹而失控的情況,檢核力也隨之降低,因此,定 題法(constant item method ,CI; Thissen, Steinberg, & Wainer, 1988; Wang & Yeh, 2003)的概念被提出且運用於 DIF 檢核之中。定題法為研究者選擇一組定錨題
(anchor item)作為配對變項(matching variable),以檢核測驗中其他剩餘試 題是否具有 DIF,以期控制 DIF 檢核後所得之型一誤差失控的情形。依據文獻 指出,當所選擇的定錨題確實為 DIF-free,也就是定錨試題為不具有 DIF 情況 時,可有效控制檢核後之型一誤差並 且提升其檢核力(Stark, Chernyshenko, Oleksandr, & Drasgow, 2006; Wang, 2004; Wang & Yeh, 2003)。而經由定題法的 概念,Wang(2008)提出了「先定錨後檢核」(DIF-free-then-DIF, DFTD)策略
運用於 DIF 檢核方法上,以改善檢核效能。
第二節 研究目的與問題
近年來有幾位學者提出了不同的選擇定錨題的方式,並透過模擬研究驗證 其效果。Shih 與 Wang(2009)在 MIMIC 法的架構下,以迭代定題法(iterative constant item method, ICI method; Wang, 2004)選擇定錨題;Woods(2009)則是 在概似比檢定法下以排序選題(rank-based)法來選擇定錨題。然而,除了前述 兩種方法之外,量尺淨化程序也常被學者建議加入 DIF 檢核程序之中,故本研 究也將以量尺淨化程序來挑選出最不具有 DIF 的試題做為定錨題,並比較以這 三種選題法篩選出之定錨題來進行 DIF 檢核時的成效。
以往的研究結果顯示,當定錨題確實為 DIF-free 題目時,即便只有一題定 錨題,型一誤差依然可以控制合理的範圍之內(Stark et al., 2006; Wang, 2004;
Wang & Yeh, 2003),倘若 DIF-free 的定錨題數增加時,其檢核力會比只有一道 DIF-free 定錨題的檢核力來得好(Wang, 2004; Wang & Yeh, 2003)。
關於上述研究,已有學者完成二元計分(dichotomous)資料下的探討。本 研究擬延伸至多元計分(polytomous)資料情境下,比較迭代定題法、量尺淨化 法、排序選題法在多分題情境下選取 DIF-free 試題的正確率,並比較利用此三 種選題法所選取之定錨題進行後續檢核後的型一誤差及檢核力。