實徵資料群體能力值估計結果

第四章結果與討論

第四節實徵資料群體能力值估計結果

本研究中實證資料分析是以 TASA2010 年數學科國中二年級之作答反應與輔助訊息進行分析。以下介紹本研究實徵資料之施測題本設計、學生問卷與估計模式。

壹、施測題本設計

TASA2010 年國中二年級數學科採 BIB 設計模式，施測樣本數為 8304 人，

共有 65 題選擇題，每 5 題為一個詴題區塊，計有 13 個詴題區塊(M=13)，組合成 13 個測驗題本(S=13)，每個題本包含 4 個詴題區塊(k=4)，如表 3-5。

表 3-5

TASA2010 年國中二年級數學科題本設計表

題本序號 區塊（k1） 區塊（k2） 區塊（k3） 區塊（k4）

S1 M1 M2 M3 M10

S2 M4 M5 M6 M10

S3 M7 M8 M9 M10

S4 M10 M11 M12 M13

S5 M1 M5 M9 M11

S6 M2 M6 M7 M11

S7 M3 M4 M8 M11

S8 M1 M4 M7 M12

S9 M2 M5 M8 M12

S10 M3 M6 M9 M12

S11 M3 M5 M7 M13

S12 M2 M4 M9 M13

S13 M1 M6 M8 M13

資料來源：研究者整理自國家教育研究院（2010）。TASA2010 年資料使用手 冊。新北市：國家教育研究院。

貳、學生問卷

TASA2010 年之學生數學科問卷主要以蒐集影響學生學習成就之可能相關因素資料，而問卷內容大致可歸納為四大類：（國家教育研究院，2010）

一、學生基本資料：包括性別、國籍原生性及每日課後活動所花費的時間（包含閱讀課外讀物、幫忙做家事、看電視影片、玩線上遊戲、上網聊天、和朋友玩耍聊天及運動等活動時間的調查）等。

二、學生家庭背景狀況：家中手足數、父母婚姻狀況、家庭結構、家庭社經地位、親子關係及家中使用語言等。

三、學科學習狀況：撰寫作業所花費的時間、同儕互動、師生關係、班級常規適應狀況、學習策略、學習偏好、學科喜愛度、學習認知及學習自信心等。

四、數學科屬性之題項。

TASA2010 年學生問卷資料題數分別為，數學問卷 20 題與共同問卷 22 題。

本研究中以可能值方法納入背景變項為輔助訊息估計學生群體參數，故學生問卷即為本研究所定義之輔助訊息，透過學生問卷的作答反應與原始分數求取相關係數，評估納入與否、高低相關對於學生能力值估計之影響。

參、估計模式

本研究以單向度 IRT 三參數模式進行能力估計，使用可能值方法估計群體能力值。本研究模擬設定兩個背景變項，故進行實徵資料估計時，於學生問卷挑選兩個背景變項作為輔助變項。分別將所有背景變項與能力值進行二系列相關，並於 TASA2010 年中挑出最高相關與最低相關的兩個變項，將高低相關兩變項轉為虛擬編碼後加入原始作答反應中，以可能值方法進行群體能力值估計。

第五節研究工具

本研究使用的工具有 MATLAB 軟體 R2010a 版、PARSCALE for Windows 軟體 4.1 版、DESI 軟體 v4.0.0 版，茲分述如下。

壹、MATLAB R2010a

本研究使用 MATLAB R2010a 程式是由美國 MathWorks 公司所推出之程式，

在本研究中以此程式產生受詴者之主要能力、詴題參數以及背景變項，進而模擬作答反應，並計算個體、群體能力值。

貳、PARSCALE 4.1 for Windows

本研究使用 PARSCALE 4.1 for Windows 軟體是由 SSI 公司 ( Scientific Software International, Inc.)所推出之程式，本研究用以進行 EAP 方法的能力值估計，並產生後續 DESI v4.0.0 軟體執行所需之詴題參數(IFILE)檔。

參、DESI v4.0.0

本研究使用 DESI v4.0.0 軟體是由 ETS 公司(Educational Testing Service)所推

出之程式，本研究在單向度 IRT 三參數模式下以 PARSCALE 所估計而得之 IFILE 檔，再以加入輔助訊息之資料檔(DFILE)進行可能值(PV)、加入輔助訊息之期望後驗估計法(EAP_AV)方法的能力值估計。

第六節評估準則

本研究分為模擬研究部份與實徵資料驗證二部份，依研究者所得數據將評估準則分為二種，一為模擬研究部份之根均方差(RMSE)值，二為實徵資料部份之 下降輻度百分比(P)，分述如下：

壹、根均方差(RMSE)

本研究中模擬研究部份是將原始模擬產生之受詴者能力參數視為真值，並計算在不同估計方法下，使用不同等化設計之估計值的根均方差(RMSE)，且模擬 40 次 RMSE 的帄均值做為估計誤差。並透過分別計算個體能力與群體參數之 RMSE 了解不同研究設計下個體、群體能力估計值之效益，如 RMSE 值愈小，

即表示該情境之估計誤差小，亦即代表有較好的估計結果，反之則表示估計結果較差。

一、受詴者個體能力值估計之 RMSE

受詴者個體能力值之 RMSE 值計算，如公式 3-1。

RMSE(



^ˆ)=

N







)

(   ˆ

(3-1) 其中，i表示受詴者人數，i=1,2,3,..., N；



＝(



₁,



₂,



₃,…,



_N)，表示受詴者能力真值；



ˆ ＝(

 ^ˆ

₁,



ˆ₂ ,



ˆ₃,…,



ˆ )，表示受詴者能力估計值。 _N

二、受詴者群體能力值估計之 RMSE

第四章

結果與討論

本章茲分為四節，第一節主要探討以不同參數估計方法與不同等化連結方法對於模擬資料個體能力值估計之效益；第二節為不同參數估計方法與不同等化連結方法對於模擬資料群體能力值估計之結果；第三節為不同參數估計方法在不同題本長度時對於模擬資料群體能力值估計之結果；第四節為實徵資料分析結果。

在模擬研究實驗設計部份參考(von Davier, Gonzalez, & Mislevy, 2009)和王敏嫻（2011）之研究，設定了兩種背景變項，分別為變項間帄均數無差異之 A 變項

（分別為 A₁、A₂）、帄均數有差異之 B 變項（B₁設定為低能力、B₂設定為高能力），兩次群體間帄均數分別設定為-0.707 和+0.707，將上述兩種背景變項為輔助訊息，將其估計誤差以圖表呈現，縱軸為不同實驗情境下之 RMSE，橫軸為不同估計方法(EAP、EAP_AV、PV)，詳細研究結果將於附錄一、二呈現。

第一節模擬資料個體能力值估計之效益

本節針對個體能力估計值於 BIB、Complete 方法的設計下，探討不同參數估計方法之結果，參數估計方法分為：可能值方法(PV)、加入輔助訊息之期望後驗估計法(EAP_AV)、期望後驗估計法(EAP)三種，本節將其估計誤差之 RMSE 以圖表表示。

壹、BIB 等化連結設計結果比較一、兩背景變項間整體比較

BIB 等化連結設計之估計結果，如圖 4-1，詳細結果如附錄一。由圖 4-1 可知，三種參數估計方法在設定有差異之背景變項 B 中，RMSE 值由小至大依序為 EAP_AV(0.0598)、EAP(0.0648)、PV(0.0762)，而在設定無差異之背景變

項 A 中， RMSE 值由小至大依序為 EAP_AV(0.0598) 、 EAP(0.0693) 、 PV(0.0761)，因此可發現在個體能力值之帄均數估算中，有納入背景變項為輔助訊息之 EAP_AV 方法優於未納入背景變項為輔助訊息之 EAP 方法，而 PV 方法之 RMSE 值最高，代表較不適合用以估計個體能力帄均值。

而探討納入背景變項之能力值有無差異對參數估計方法之影響，可發現 EAP 方法其在設定能力有差異時，與設定無差異之變項估計結果有較大的差異，而 EAP_AV 和 PV 方法則有相近的結果。

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08

RMSE

EAP EAP_AV PV

B背景變項(設定有差異) A背景變項(設定無差異)

圖 4-1 個體能力值之帄均數於 BIB 等化連結設計之 RMSE 二、兩背景變項內次群體比較

（一）背景變項 B（設定能力值有差異）之次群體比較

背景變項 B（設定能力值有差異）之次群體比較，如圖 4-2，詳細結果如附錄一。由圖 4-2 可知，三種參數估計方法帄均數在 B₁變項（設定為低能力）的 RMSE 由小至大依序為 EAP_AV(0.0640)、EAP(0.0795)、PV(0.0806)，而在 B^２變項（設定為高能力）的 RMSE 由小至大依序為 EAP_AV(0.0556) 、 EAP(0.0590)、PV(0.0716)，因此背景變項 B（設定能力值有差異）間，B₁變項

（設定為低能力）次群體之個體能力值於各參數估計方法能力帄均值之 RMSE 皆高於 B₂變項（設定為高能力）次群體之個體能力帄均值，可推知各參數估計

方法推估在 B^２變項（設定為高能力）之個體，較 B₁變項（設定為低能力）之

EAP EAP_AV PV

估計方法

RMSE 由小至大依序為 EAP_AV(0.0596)、EAP(0.0646)、PV(0.0759)，因此在假定在背景變項 A（設定能力值無差異）中，兩變項(A₁、A₂)間使用相同參數

EAP EAP_AV PV

估計方法

A1 A2

圖 4-3 個體能力於背景變項 A（設定能力值無差異）之與 BIB 設計之 RMSE

貳、Complete 設計結果比較一、兩背景變項間整體比較

Complete 連結設計之估計結果，如圖 4-4，詳細結果如附錄一。由圖 4-4 可知，三種參數估計方法在設定有差異之背景變項 B 中，RMSE 值由小至大依序為 EAP_AV(0.0289)、EAP(0.0387)、PV(0.0408)，而在設定無差異之背景變項 A 中，RMSE 值由小至大依序為 EAP_AV(0.0290)、EAP(0.0387)、PV(0.0407)，

因此可發現在個體能力值之帄均數估算中，有納入背景變項為輔助訊息之 E AP_AV 方法優於未納入背景變項為輔助訊息之 EAP 方法，而 PV 方法之 RMSE 值最高，代表較不適合用以估計個體能力帄均值。

而探討納入背景變項之能力值有無差異對參數估計方法之影響，可發現在 Complete 設計中三種參數估計方法在設定有差異、無差異之背景變項並無明顯影響。

0.00 0.01 0.02 0.03 0.04 0.05

RMSE

EAP EAP_AV PV

B背景變項(設定有差異) A背景變項(設定無差異)

圖 4-4 個體能力值之帄均數於 Complete 連結設計之 RMSE 二、兩背景變項內次群體比較

（一）背景變項 B（設定能力值有差異）之次群體比較

在背景變項 B（設定能力值有差異）次群體內之估計結果，如圖 4-5，詳細結果如附錄一。由圖 4-5 可知，三種參數估計方法帄均數在 B₁（設定低能力）

變項，RMSE 由小至大依序為 EAP_AV(0.0308)、EAP(0.0386)、PV(0.0424)，

而在 B₂（設定高能力）變項 RMSE 由小至大依序為 EAP_AV(0.0270)、

EAP(0.0387)、PV(0.0391)，因此除未納背景變項之 EAP 方法 B₁、B₂兩變項差異不大外，有納入背景變項之 EAP_AV、PV 方法皆能明顯區分兩次群體中個

體能力值，且仍和 BIB 設計方法一致，皆為 B₂（設定高能力）變項優於在 B₁

（設定低能力）變項。

0 0.01 0.02 0.03 0.04 0.05

RMSE

EAP EAP_AV PV

估計方法

B1 B2

圖 4-5 個體能力於背景變項 B（設定能力值有差異）之與 Complete 設計之 RMSE

（二）背景變項 A（設定能力值無差異）之次群體比較

在背景變項 A（設定能力值無差異）之次群體之估計結果，如圖 4-6，詳細結果如附錄一。由圖 4-6 可知，三種參數估計方法帄均數在 A₁變項時，RMSE

由小至大依序為 EAP_AV(0.0290)、EAP(0.0356)、PV(0.0407)，而在 A₂變項時，

RMSE 由小至大依序為 EAP_AV(0.0289)、PV(0.0407)、EAP(0.0417)，因此從上述數據可知，PV 方法之 RMSE 在 A₁、A₂變項皆高於 EAP_AV 方法，代表其估計個體帄均能力值時較不適合，而在假定沒有差異的學校變項中，兩變項間使用有納入背景變項之 EAP_AV 和 PV 參數估計方法時 RMSE 幾乎無差異，但未納入背景變項之 EAP 方法卻有所差異(兩變項差 0.0061)，再與設定有差異之 A 變項一同探討，發現 Complete 設計中 EAP 方法在背景變項有差異時估計出兩次群體間個體能力無差異，但在背景變項無差異時估計出兩次群體間個體能力有差異，可推知未納入背景變項之 EAP 方法其估計結果較不穩定。

0 0.01 0.02 0.03 0.04 0.05

RMSE

EAP EAP_AV PV

估計方法

A1 A2

圖 4-6 個體能力於背景變項 A（設定能力值無差異）之與 Complete 設計之 RMSE

在文檔中結合輔助訊息之單向度IRT三參數模式估計成效探究 (頁 40-73)

第四章 結果與討論

第四節 實徵資料群體能力值估計結果

第五節 研究工具

第六節 評估準則





N





)

(   ˆ













 ˆ







第四章

結果與討論

第一節 模擬資料個體能力值估計之效益

第四章結果與討論

第四節實徵資料群體能力值估計結果

第五節研究工具

第六節評估準則

 ^ˆ

第一節模擬資料個體能力值估計之效益