受試者測驗成績之平均數差異分析

第四章結果分析

第五節受試者測驗成績之平均數差異分析

本線上適性測驗共發出400份邀請函，168人進入系統註冊，148人註冊成功後進入測驗系統。其中13人沒有進行測試，另7人只進行部份測試，最後只有128人完成整個測試過程，回收率佔所有邀請函的32%，另有4名受試者的資料因有三組 (CTT10、PYR15、PYR25的能力值)沒有辦法收歛而放棄，故最後實得124名受試者的作答資料(31%)，在124名中，有20份CTT10無法收歛(16%)，1份PYR15無法收歛，無法收歛的受試者大都是低分組，除了一份CTT10因全對而無法收歛，故CTT10 能力值及成績在解釋統計資料時要特別注意。

表4-8主要探討在不同型態的測驗中，受試者的傳統分數及領域分數之間是否有明顯的差異存在。並探討金字塔適性測驗的傳統分數、領域分數及位置分數之間是否有明顯的差異存在。因此在傳統測驗理論及試題反應理論下，分別對受試者的測驗成績進行相依樣本平均數之考驗。

第一組傳統隨機出題 10 題比較傳統分數及領域分數，計算其平均分數分別為 49.516 及 49.794(標準差分別為 19.248 及 17.968)，兩者相差.278，兩個樣本的相關 高達.940，(95%信賴區間為 –1.921~1.365)，t(123)=-.471，p=.638>.006，未達.05 顯著水準，效果量 d 為.042。從樣本平均數大小可以看出，傳統分數(49.516)及領 域分數(49.794)沒有顯著差別，顯示隨機出題的成績差異性不大。原因是隨機的出題，試題平均分配，不容易出現全部很昜或全部很難的試題，所以成績的差異性較小。

第二組金字塔15題比較傳統分數及領域分數，計算其平均分數分別為46.452 及47.118(標準差分別為15.834及14.912)，兩者相差.666，兩個樣本的相關高達.950，

(95%信賴區間為-1.902~.569)，t(123)=-1.502，p=.136>.006，未達.05顯著水準，效 果量d為.135。從樣本平均數大小可以看出，傳統分數(46.452)及領域分數(47.118) 沒有顯著差別，顯示經由金字塔選題的方式所換算的成績，與傳統的計分方式沒有明顯的差異。

表 4-8 受試者測驗成績之平均數差異分析摘要表

計分方式有明顯的差異。最大訊息量選題是依受試者的能力，選擇題庫中對受試者最大訊息量的試題來施測，最後經由能力值換算的成績會較傳統計算的成績低。

第五組傳統隨機出題 10 題+最大訊息量 15 題其 25 題比較傳統分數及領域分數，計算其平均分數分別為 50.903 及 49.329(標準差分別為 12.361 及 12.686)，兩者相差 1.574，兩個樣本的相關高達.938，(95%信賴區間為.468~2.680)，

t(123)=3.964，p<.001，達.05 顯著水準，效果量 d 為.356。從樣本平均數大小可以

看出，傳統分數(50.903)及領域分數(49.329)有顯著差別，顯示經由隨機出題加上最大訊息量選題的方式所換算的成績，與傳統的計分方式還是有明顯的差異。雖然總試題中有部份隨機出題，但可視為能力的預估，再從能力預估值中依題庫中對受試者最大訊息量的試題來選題，結果顯示經由能力值換算的成績較傳統計算的成績低。

第六組傳統隨機出題 10 題+最大訊息量 15 題+金字塔 15 題共 40 題比較傳統分數及領域分數，計算其平均分數分別為 49.234 及 48.079(標準差分別為 12.486 及 12.571)，兩者相差 1.155，兩個樣本的相關高達.962，(95%信賴區間

為.286~2.024)，t(123)=3.702，p<.001，達.05 顯著水準，效果量 d 為.332。從樣本 平均數大小可以看出，傳統分數(49.234)及領域分數(48.079)有顯著差別，顯示經由隨機出題加上最大訊息量及金字塔選題的方式所換算的成績，與傳統的計分方式還是有明顯的差異。雖然隨機加金字塔出題在傳統分數及領域分數沒有明顯差異，但是以最大訊息量來選題，答對的機率接近一半一半，其結果顯示經由能力值換算的成績還是較傳統計算的成績低。

第七組金字塔 15 題比較傳統分數及位置分數，計算其平均分數分別為 46.452 及 45.066(標準差分別為 15.834 及 16.294)，兩者相差 1.385，兩個樣本的相關高 達.977，(95%信賴區間為.768~2.002)，t(123)=4.441，p<.001，達.05 顯著水準，

效果量 d 為.399。從樣本平均數大小可以看出，傳統分數(46.452)及位置分數(45.066) 有顯著差別，顯示經由金字塔選題的方式，受試者達到最後位置所換算的成績，

與傳統的計分方式有明顯的差異存在。由於傳統分數的平均分數較位置分數的平均分數高，而且兩者相差達 1.385，表示金字塔位置分數得分較低。

第八組金字塔 15 題比較領域分數及位置分數，計算其平均分數分別為 47.118 及 45.066(標準差分別為 14.912 及 16.294)，兩者相差 2.051，兩個樣本的相關高 達.933，(95%信賴區間為 1.011~3.093)，t(123)=3.901，p=<.001，達.05 顯著水準，

效果量 d 為.350。從樣本平均數大小比較可以看出，領域分數(47.118)及位置分數 (45.066)有顯著差別顯示經由金字塔選題的方式，受試者達到最後位置所換算的成

績，與能力值估計換算的計分方式有明顯的差異。

綜合上述結果顯示，第一組傳統測驗沒有顯著差別，顯示隨機出題的成績差異性不大。原因是隨機的出題，試題平均分配，不容易出現全部很昜或全部很難的試題，而且試題只有 10 題，所以成績的差異性較小，而且在能力值兩端受試者的估計能力值有部份無法收歛，但經能力值換算後對領域分數的影響比較少。

第二組、第七組及第八組金字塔適性測驗(15 題)平均數結果綜合比較顯示，位置分數(45.066) < 傳統分數(46.452) < 領域分數 (47.118)，傳統分數及領域分數沒有明顯的差異，但傳統分數與位置分數、領域分數與位置分數卻有明顯的差異。

因為金字塔測驗的能力值估算之平均數差異分析中顯示有高估的現象，所以受試者的平均數顯示，位置分數是比較接近受試者的實際能力值。

由於第三組是由第一組加上第二組經運算後的結果，而第一組及第二組都沒有明顯差異，所以其傳統分數與領域分數當然沒有明顯差異。

第四、五、六組，因為是以適性測驗(CAT)最大訊息量選題為主幹，最大訊息量選題是依受試者的能力，選擇題庫中對受試者最大訊息量的試題來施測，最後經由能力值換算，所以領域分數會較傳統計算的分數低。而且各組的傳統分數與領域分數都有顯著的差異存在。

在文檔中線上適性測驗系統之建置以婦產科學為例 (頁 82-85)

第四章 結果分析

第五節 受試者測驗成績之平均數差異分析

t(123)=3.964，p<.001，達.05 顯著水準，效果量 d 為.356。從樣本平均數大小可以

第四章結果分析

第五節受試者測驗成績之平均數差異分析