• 沒有找到結果。

研究一:不同局部試題依賴偵測方法之偵測效果比較

第三章 研究方法

第一節 研究一:不同局部試題依賴偵測方法之偵測效果比較

一、 研究設計

研究一的目的是希望能透過模擬的方式,比較三種局部試題依賴偵測方法在不

同受測者人數、不同題組效果程度及不同題組內試題數之下,其偵測效果是否有 差異。欲比較的偵測方法有三,包括:(一)Rasch 題組模式之題組效果估計(二)

題組-殘差主成分分析及(三)Q3指標。其中,研究者主要是先比較 Rasch 題組 模式在不同情境之下的參數回覆情形,之後再探討 Rasch 題組模式之題組效果估 計用來判斷題組有無局部試題依賴情形的標準應如何設定。其次,再就其他兩種 偵測方法的偵測結果進行討論(這部份同樣會探討這兩種方法用來判斷題組有無 局部試題依賴情形的標準該如何設定)。最後,再利用各種偵測方法之偵測結果 與題組效果真值進行相關係數的計算,以瞭解相對而言,哪一種偵測方法的偵測 效果較佳。

24

25

寡所影響。然而,對於其他兩種偵測方法而言,雖然過去的文獻並未明確地指出 需要多少受測者才能使這兩種局部試題依賴的偵測方法的偵測結果能夠準確,但 由於此兩種作法的理論基礎仍是建立於 IRT 之上,因此可以合理的推斷受測者人 數的多寡對於此兩種偵測方法的偵測效果應是具有影響力的。而在參考 Wang 和 Wilson(2005)的研究之後,為了凸顯受測者人數差異對於題組效果參數之回覆 情形的影響力,研究一即將模擬情境的受測者的人數訂為 500 人與 1500 人兩種。

2、 題組效果

為了驗證過去研究的相關發現及比較不同局部試題依賴偵測方法的偵測效果

(Wang & Wilson, 2005),本模擬研究亦操弄了題組效果的高低,以瞭解其對各 種局部試題依賴偵測方法之偵測效果的影響。其中,高題組效果是指題組效果的 變異佔能力變異的 90%~100%,主要是用來瞭解各種局部試題依賴偵測方法之 偵測結果在不同判斷標準之下的統計考驗力(Power),而低題組效果是指題組效 果的變異佔能力變異的 10%~20%,用以瞭解各種局部試題依賴偵測方法之偵測 結果在不同判斷標準之下的第一類型錯誤率(α)。

3、 題組內試題數

根據文獻探討的結果(Wang & Wilson, 2005),研究者認為 Rasch 題組模式之 題組效果估計的準確性會受到題組內部的試題數所影響;但從過去的研究之中,

仍無法確定此因素是否會影響到其他兩種局部試題依賴的偵測方法的偵測效果。

是故,研究一即將此一變項分成題組內 2、4、6、8 題四個水準,探討其對於各 種局部試題依賴偵測方法之偵測效果的影響。

(三)依變項

1、 均方根誤(root mean square error, 以下簡稱 RMSE)

指參數估計值與其相對應之模擬真值間的平均無方向性差異,其公式如下:

RMSE( ) = (3.1)

26

其中, 與 分別是指各次的參數估計值與參數真值,n 則指的是模擬的次數。

此指標是用來瞭解 Rasch 題組模式在不同情境之下的參數回覆情形,用以確認該 模式對於題組局部試題依賴情形的偵測效果。

2、 偏誤(Bias)

指參數估計值與其相對應之模擬真值間的平均有方向性差異,其公式如下:

Bias ( ) = (3.2)

其中, 與 分別是指各次的參數估計值與參數真值,n 則指的是模擬的次數。

該指標是用來瞭解在不同情境之下,Rasch 題組模式對於題組效果估計的偏差情 形。

3、Spearman's ρ 係數

由 Galton 以心理學家 Spearman 之名所命名之相關統計法,適用於變項皆為次 序變項之資料,其公式如下:

(3.3)

其中,d 為兩變項之等級差異, 為兩變項之等級差異的平方總和,N 為等 級的數目。

由於題組-殘差主成分分析與 Q3指標之偵測結果並非屬於常態分佈的型態 , 並不適合用一般的 Person 相關來計算不同偵測方法之偵測結果與題組效果真值 的相關情形。因此,在相對性比較的部分,本研究將利用Spearman's ρ 係數來比 較在不同情境之下,各種局部試題依賴偵測方法的偵測效果。

27

二、 研究程序

關於研究一的研究程序部分,主要可以概括分成以下幾個部份:

其一,關於 Rasch 題組模式之參數回覆情形的比較部份,研究者是先利用 Fortran 電腦程式產生在各種不同情境下的模擬作答反應資料,接著再透過 ACER ConQuest(Wu, Adams, Wilson, & Haldane, 2007)進行參數估計,並利用 Excel 2007 計算各參數的 RMSE 值及題組效果估計的平均 RMSE 值與 Bias 值,此外,也根 據 Rasch 題組模式之題組效果估計的估計值,探討用來判斷題組有無局部試題依 賴情形的標準應如何設定。

其二,關於題組-殘差主成分分析與 Q3指標的計算部份,研究者同樣是利用上 述 Fortran 電腦程式產生之不同情境下的模擬作答反應資料,以 WINSTEPS 3.31(Linacre, 2001)進行參數估計並輸出標準化的殘差分數(Standardized residual),

之後再利用這些標準化的殘差分數來進行各題組之殘差主成分分析與 Q3指標的 計算。關於這部分,研究者除了會針對此兩種偵測方法的偵測結果進行討論之外,

亦同樣會根據此兩個偵測方法的偵測結果,探討用來判斷題組有無局部試題依賴 情形的標準應如何設定。

其三,利用 Rasch 題組模式之題組效果估計值、Q3指標與題組-殘差主成分分 析之第一與第二主成分比值分別與題組效果真值進行Spearman's ρ 係數的計算,

以瞭解相對而言,何種偵測方法的偵測效果較佳。

除了對於研究一的整個程序進行以上的概述之外,研究者也將分別針對此三個 部分的一些細節進行詳細地說明:

(一)產生模擬作答反應資料

研究一的模擬作答反應資料主要是依照其研究設計,以不同的受測者人數(500、

1500 人)、題組效果(高、低)、題組內試題數(2、4、6、8 題)等變項所模擬 產生 48 題二元計分的試題,其試題難度的分佈均落於均等分佈〔-2~2〕之間,

能力的變異設為 1,題組佔總題數的比例為 100%,每種情境均重複產生 20 次,

28

29

瞭解該模式在不同情境之下的參數回覆情形。此外,也根據 Rasch 題組模式之題 組效果估計的估計值,探討用來判斷題組有無局部試題依賴情形的標準應如何設 定,使用的軟體為 Excel 2007。

(四)題組-殘差主成分分析與 Q3指標的計算

利用 WINSTEPS 3.31 進 行 參 數 估 計 並 輸 出 不 同 情 境 之 標 準 化 殘 差 分 數

(Standardized residual),再以 SPSS 12 及 Excel 2007 進行題組-殘差主成分分析 與 Q3指標的計算,而由於題組-殘差主成分分析與 Q3指標的偵測結果並不完全 符合等距變項的特性,所以在結果部分,研究者主要是針對其偵測結果的中位數、

最小值與最大值等部分進行討論。除此之外,也同樣會根據此兩個偵測方法的偵 測結果,探討用來判斷題組有無局部試題依賴情形的標準應如何設定。

其中,在題組-殘差主成分分析的部分,研究者主要是參考過去 Chou 和 Wang

(2010)的研究,以各個題組之第一主成分與第二主成分的比值作為各題組之局 部試題依賴情形的判斷依據,而在 Q3指標的部分,研究者則是先分別針對各個 題組求出其題組內試題配對之兩兩殘差分數的相關,再以這些相關係數的平均數 作為各題組之局部試題依賴情形的判斷依據。

(五)不同局部試題依賴偵測方法之偵測效果比較

此部份是利用 SPSS 12 分別計算 Rasch 題組模式之題組效果估計值、Q3指標 與題組-殘差主成分分析之第一與第二主成分比值與題組效果真值的 Spearman's ρ 係數,以瞭解在各種情境之下,三種偵測方法之偵測效果的表現。

三、 研究工具

(一)資料產生工具

研究一的所有作答反應資料皆是利用研究者所屬之研究團隊所撰寫之 Fortran 電腦程式所模擬產生。

(二)資料分析工具

研究一的資料分析工具主要有四,其一為 ACER ConQuest,這是因為 Rasch

30

題組模式在分析題組資料時,其實是假設各個題組除了可以用來測量一個共同的 受測者能力之外,還可能會測到其他不相關的能力,以這樣的角度來看,該模式 其實是多向度試題反應模式的一個特例,所以可以直接利用該軟體進行估計。其 二為 WINSTEPS 3.31 分析軟體,該軟體最主要是用來針對受測者的反應進行 Rasch 家族模式的分析,若為非對即錯的二元計分試題,即要選擇 Rasch 模式來 進行分析,而若試題是採多元計分形式的話,則必須選擇部分給分或評定量尺模 式來進行分析,即分析者必須視資料的計分形態,利用不同的控制指令來選擇欲 分析資料的模式。然而,在參數估計過後,分析者同樣也可以利用不同的輸出指 令來要求 WINSTEPS 3.31 輸出一些想要的報表或是圖形資料,以做後續的分析。

也就是因為 WINSTEPS 3.31 有這樣的功能存在,研究者才可以利用其輸出之各 個受測者在各個題目上的標準化殘差分數,以進行後續題組-殘差主成分分析與 Q3指標的計算。最後,關於 Rasch 題組模式之參數回覆情形的 RMSE 值、Rasch 題組模式之題組效果估計的平均 RMSE 值與 Bias 值、Rasch 題組模式之題組效 果估計的偵測結果在不同判斷標準之下的α與 Power 摘要、題組-殘差主成分分 析與 Q3指標之偵測結果的描述統計摘要、題組-殘差主成分分析與 Q3指標之偵 測結果在不同判斷標準之下的α與 Power 摘要以及不同局部試題依賴偵測方法 之偵測結果與題組效果真值之 Spearman's ρ 係數的計算部分,研究者則是使用 Excel 2007 與 SPSS 12 來完成。

31

第二節 研究二:93~98 年國中基本學力測驗英文科題組之局部試