第一章第一章第一章第一章緒論緒論緒論緒論

(1)

第一章第一章第一章第一章緒論緒論緒論緒論

本章旨在說明研究動機、目的以及研究問題，並對於相關名詞給予定義。

本章共分為三節，第一節為研究動機和目的，第二節為研究問題，第三節則為名詞釋義。

第一節第一節

第一節第一節 研究動機研究動機研究動機研究動機和目的和目的和目的和目的

一、研究動機

大型測驗的公平性是心理測驗或教育測量上相當受到關注的議題。舉例來說，我們的高中入學測驗試題對同樣能力的普通生和身心障礙考生來說，試題是否有同樣的難度？如果難度不同，那麼這些題目就會對於某個群體比較有利，對於另一個群體比較不利，影響到日後的教育安置。效度是測驗最重要的部分，我們希望測驗測量到所欲測量的能力並且不測量到無關測量能力的部分（American Educational Research Association, American Psychological Association, National Council on Measurement in Education, 以下簡稱 AERA, APA, NCME）（1999）。

換言之，一份良好的測驗具備了對於各個族群考生測量到相同特質或能力的特徵。檢測測驗是否具有效度的其中一種方式就是透過「差別試題功能」分析

（differential item function, 以下簡稱 DIF）。有關 DIF 的名稱，在測驗學上早期被稱為試題偏誤（item bias），近年來，為了針對此統計檢驗的歷程給予更中性的名稱，因此以 DIF 稱之（Holland & Thayer, 1988）。

大體上，學者們對於 DIF 的定義有某種程度的共識，DIF 的意義是指「來自不同群體，但能力相同者，如果在答對某個試題上的機率有所不同的話，則該試題便顯現出 DIF 的現象」（Lord, 1980）。以上述普通生和身心障礙考生的例子而言，兩組考生來自不同的族群，理論上兩組當中相同能力者應該會在某試題上具有同樣的答對機率，但是如果答對機率有所差異，就代表該試題測量到其他無關因素，此時，該試題即具有 DIF。換言之，如果在某試題上普通生和身心障礙考生的答對機率不同並不能夠稱之為 DIF，因為普通生的能力有可能本來就高於少

(2)

數群體，自然在答對機率上佔有優勢，若以答對機率為依變項，則此時的答對機率同時受到身分別（普通生和視障生）和能力兩項自變項的影響。因此，為了避免能力不同造成結果的混淆，一定要控制兩組考生在相同能力的狀況之下，此時在某題的答對機率不同才能夠稱為 DIF。

目前有關於 DIF 的檢測方式，大致上可以分為 IRT 取向和非 IRT 取向（盧雪梅，民 88）。以 IRT 取向的方式大致有，Lord（1980）的卡方檢定法、比較兩團體之間試題特徵參數或是計算 ICC 區域的面積法（例如：Runder,1977，引自林明弘，民 88）以及概率比檢定法（Likelihood ratio test，簡稱 LRT）（Thissen, Steinberg & Wainer, 1993）；非 IRT 取向的方法包含了，MH 法（Mantel-Hanzel）

（Holland & Thayer, 1988）、羅吉斯回歸分析（Logistitc regression，簡稱 LR）

（Swaminathan & Rogers, 1990）、SIBTEST 法（Simultaneous item bias test，或簡稱 SIB）（Shealy & Stout, 1993），或為從驗證性因素分析方式進行 DIF 分析的 MIMIC model（multiple indicators, multiple causes）（Muthen, 1989）。上述的方法各自有其特點，但是大體上 IRT 取向的方法，適用在樣本人數較大的情況下，才能夠得到穩定的參數估計。

國外許多的大型測驗為了達到測驗試題內容對於各個群體公平，因此開始採用方法檢測試題是否產生 DIF。例如：美國教育測驗服務社（ETS）從 1986 年就將其納入固定的工作項目中。ETS 運用 Mantel-Hanzel 法（簡稱 MH）進行統計上的檢測，再請專家判斷這些試題是否確實產生試題偏誤，目的在於了解不同背景考生對於試題作答上的影響，並對這些產生 DIF 的試題進行處理，以確保測驗對於不同族群的使用者具有同等的意義（ETS, 2007）。國內的大學入學測驗也曾以教育資源、就讀學校、類組和性別作為分組變項進行 DIF 研究（大學入學考試中心，民 90，民 94），分析民國八十三年至九十三年的入學測驗試題。

在國中基測方面，余民寧、謝進昌（民 95）也曾以九十一年的國中基測作答反應進行 DIF 分析，其目的在於各個地區之間所造成的 DIF。但是，目前國內尚無以身心障礙生和普通生作為分組變項進行 DIF 檢測之研究。

(3)

然而，要進行身心障礙生和普通生的 DIF 研究，面臨的主要問題就是身心障礙考生樣本人數較少。例如，參加九十四年度第一次國中基測數學科的視障生，實際出席者只有 134 人。目前大多數檢測 DIF 的方法，在樣本人數較大的情況才會有較佳且較穩定的偵測效果，有一些研究標榜小樣本的 DIF 方法，研究中的最低人數仍為 200 人（Tang, 1994），或是利用提高第一類型錯誤率的方式來增加正確偵測率（Fidalgo, Ferreres, & Muñiz, 2004），有的研究雖然建議一些在小樣本情況下偵測 DIF 的方法，但文章中並沒有實證研究（Lai, Teresi, &

Gershon, 2005），除此之外，雖有研究為比較各方法的偵測結果，而以樣本人數一百人作為操弄水準，但在 DIF 程度設定為 0.9logit 的情況下結果只能夠達到 0.6 的正確偵測率（Narayanan & Swaminathan, 1994）。由於以往的結果並不令人滿意，因此，本研究希望先納入樣本人數一百人的情況進行模擬研究並確認偵測效果，再進行後續的實證資料分析。

由於過去研究顯示 MH 較適合小樣本情境中（盧雪梅，民 89；Hills, 1989;

Mazor, Clauser, & Hambleton, 1992; Swaminathan & Rogers, 1990），因此，本研究決定採用 MH 相關方法進行 DIF 分析。雖然以往研究顯示，在樣本人數較少的情況下可以採用減少分組組數的方式提高正確偵測率（簡茂發、劉湘川、許天維、

郭伯臣、殷志文，民 84；Clauser et al., 1994），然而有鑒於以往的研究採用大樣本建議分組組數 5 組或是將條件設定於三參數之下，無法提供單參數、小樣本情境下的分組組數訊息。因此，本研究擬先將分組組數納入研究範圍。除此之外，

過去的研究當中也顯示 MH 的偵測方法會受到樣本人數比率、能力差異、試題長度、純化方法使用等因素影響，考量到實際情況當中可能受到這些因素影響，

因此本研究亦將這些變項納入研究當中。

另外，本研究欲比較身心障礙生和普通生在大型測驗的試題是否具有 DIF，

理由如下：（一）國內尚無以身心障礙生作為 DIF 研究對象之外（二）隨著科學知識、醫療實務、社會政策的進展，越來越多的身心障礙者能夠更全面性的參與教育、職業生活和社會活動，在這個前提之下，我們對於身心障礙者的能力必

(4)

須有正確的評量，才能將其安置在適當的環境當中（三）測驗的目的在於瞭解受試者之真實能力，測驗當中測量的是身心障礙者的能力，而非考生的身心障礙特質，因此，與測驗無關的特質對於測驗的影響應該縮減至最小（AERA, APA, NCME, 1999）。而在身心障礙族群當中，研究者選擇視障生作為研究對象，因為過去的研究顯示目前大型測驗可能有不適合視障生作答的情形（何華國，民 76；陳蓓蓉，民 92；劉信雄、王亦榮、林慶仁，民 89；萬明美，民 86）。針對有可能不利視障考生的考量，國民中學基本學力測驗小組對於視障生在作答考題上，也有進行某些調整，例如：使用適當輔具（擴視機）、放大考卷字體、點字卷、經學者專家討論刪除不適合點字卷呈現試題…等措施（參見每年國中基測簡章）。只是經過這些調整之後，對於每年參加國中基測一百多人的視障生而言，

他們的作答反應是否就和普通生之間沒有 DIF 存在呢？就測驗的角度而言，在已經考慮到性別、地區差距對於考生可能產生 DIF 的同時，更應該逐漸開始重視弱勢族群的部分，讓測量的結果更具有公平性。

綜合上述的研究動機，本研究大致上可以分為三個部分，研究一為前置研究，目的在於了解能力分組組數對於檢測效果的影響；研究二操弄樣本人數、試題 DIF 比率、偵測方法、測驗長度、能力差異等變項及不同水準，欲了解各種操弄情況下 DIF 的正確偵測率和第一類型錯誤率；研究三以九十四年和九十五年第一次國中基測數學科視障生和普通生的作答反應進行 DIF 分析並進行解釋。

二、研究目的

綜合上述各段的說明，本研究希望能夠找出適用於樣本人數較少時的檢測 DIF 方法，經過模擬研究確認其效果之後，再以國中基測視障生和普通生的實際作答反應進行 DIF 分析，並針對產生 DIF 的題目討論可能產生的原因，希望能夠提供國內教育和試務相關單位參考。因此本研究主要分為三個研究，研究一和研究二為模擬研究，研究一先針對小樣本的情況下了解分組組數的偵測效果，再運用到研究二當中，研究二操弄各種情況以了解偵測 DIF 的效果，並採用適當

(5)

的方式運用到研究三當中，也就是研究三會採用研究二結果較佳的方式對於實證資料進行分析。綜合上述內容，本研究之具體研究目的分述如下：

（一）研究一：瞭解能力分組組數對於DIF檢測效果的影響。

（二）研究二：操弄焦點組樣本人數、樣本人數比例、偵測方法等影響 DIF偵測效果的重要變項，進行模擬研究瞭解焦點組一百人之下各情境的DIF偵測效果，並以焦點組五百人作為對照。

（三）研究三：針對九十四年和九十五第一次國中基測數學科視障生和普通生的實際作答反應進行DIF分析，並對於可能原因進行討論。

(6)

第二節第二節第二節

第二節 研究問題研究問題研究問題研究問題

一、研究問題

根據研究目的和文獻探討的結果，本研究提出的研究問題如下：

（一）研究一：能力分組組數對於DIF偵測效果的影響如何？

1. 在何種能力分組組數下DIF的檢測效果較佳？

（二）研究二：操弄焦點組樣本人數、樣本人數比例、偵測方法等影響DIF 偵測效果的重要變項對於偵測效果的影響為何？

1. 焦點組一百人和焦點組五百人的情況下，正確偵測率和第一類型錯誤率的偵測效果為何？

2. 焦點組一百人的情況下，各種操弄變項對於偵測效果的影響程度為何？

3. 焦點組五百人的情況下，各種操弄變項對於偵測效果的影響程度為何？

（三）研究三：以民國九十四年、九十五年第一次國中基測數學科為例，視障生和普通生的實際作答反應是否具有DIF？

1. 國中基測視障生和普通生的實際作答反應在哪些題目上具有DIF？

2. 造成視障生和普通生在實際作答反應產生DIF的可能原因為何？

(7)

第三節第三節第三節

第三節 名詞釋義名詞釋義名詞釋義名詞釋義

一、差別試題功能（DIF）

DIF意指來自不同群體、但能力相同者，如果在答對某個試題上的機率有所不同的話，則該試題便顯現出DIF的現象」（Lord, 1980）。DIF是統計上的計算數值，可以藉由不同的方法加以偵測。產生DIF的試題，可能會影響試題對於不同組別考生的公平性。

二、小樣本

在進行DIF分析時，會區分為焦點組和參照組，焦點組通常為少數群體，參照組通常為一般大眾。在本研究當中，小樣本意指將焦點組的人數控制為一百人。

三、差別試題功能（DIF）的偵測效果

本研究的DIF偵測效果是模擬研究當中的依變項。偵測效果包含兩個部分，

一種是正確偵測率，或為統計考驗力，也就是「在操弄有DIF的題目中被正確偵測有DIF的比率」；另一種是第一類型錯誤率，也就是「在操弄沒有DIF的題目中被錯誤偵測有DIF的比率」。

四、視障生

在本研究當中，視障生在國中基測的作答反應資料為國中基測推動工作委員會提供。在國中基測當中登記為視覺障礙考生必須領有身心障礙手冊或持有各縣市鑑輔會核發證明，且類別為視覺障礙者。在本研究當中的視障生為排除點字卷作答的視障生。

(8)

第一章 第一章 第一章 第一章 緒論 緒論 緒論 緒論