• 沒有找到結果。

結果與討論 結果與討論 結果與討論 結果與討論

第四章 第四章

第四章 結果與討論 結果與討論 結果與討論 結果與討論

本章乃根據前三章之研究動機、問題、目的與架構進行一連串研 究活動,再探討與分析研究活動後之研究結果,首先以受試者的測驗 資料做相關的學生學習成就之分析,接著針對試題和測驗題本做有關 質與量的分析。因此,本章將所得之研究結果分為四節呈現,其順序 分別為:第一節、學習成就分析;第二節、試題 IRT 模式分析;第三 節、試卷與試題特性之分析;第四節、綜合分析。

第一節 第一節 第一節

第一節 學習成就分析 學習成就分析 學習成就分析 學習成就分析

本節主要分成四個部分。首先,針對全市受試學生之測驗結果分 析其整體通過情形;其次,依據九年一貫課程綱要所列國語學習領域 之主題進行分析,以了解全市學生在各主題之學習概況;復次,按照 全市受測學生在各題之回答型態進行分析,並進一步推測可能錯誤之 原由;最後,就不同性別和學校規模,分析其在試題表現上之差異。

壹、測驗結果整體通過情形之分析

一、受測兒童在國語成就評量得分之描述統計量

本研究將全市三年級受測兒童之國語得分進行統計分析,倘若將 受測兒童作答資料的答對得分轉換為「百分記分法」,則最低分為 0 分,最高分為 100 分(如表 4-1)。

表 4444----1111 全市三年級受測兒童國語得分之描述統計量全市三年級受測兒童國語得分之描述統計量全市三年級受測兒童國語得分之描述統計量全市三年級受測兒童國語得分之描述統計量

人數 最小值 最大值 平均數 標準差

語文總分 19335 0 100 60.43 16.81

有效的樣本 19335

由表 4-1 來看,全市三年級受測兒童的有效樣本為 19335 人,在 此次測驗中得分最低者為 0 分,最高者為 100 分,而所有受測兒童得 分的平均數是 60.43 分,標準差為 16.81 分。

二、受測兒童在國語成就評量上通過人數之統計量

本研究將全市三年級受測兒童通過人數進行統計,設定通過標準 在 50 分,而精熟標準在 80 分(如表 4-2)。

表 4444----2222 全市三年級受測兒童通過人數統計表全市三年級受測兒童通過人數統計表全市三年級受測兒童通過人數統計表全市三年級受測兒童通過人數統計表

人數 百分比 有效百分比 累積百分比

未通過 4811 24.88 24.88 24.88 通過 11838 61.23 61.23 86.11 精熟 2686 13.89 13.89 100.00 總和 19335 100.00 100.00

從表 4-2 顯示,在全市 19335 位受測兒童中有 4811 人的得分低 於 50 分,乃屬於「未通過」,約佔全市受測兒童人數的 24.88%。相 較之下,全市受測兒童中有 14524 人通過此次測驗,約佔全部人數的 75.12%,其中更有 2686 人達到精熟的程度,約佔全部人數的 13.89

%。

貳、在各學習主題之學習情形分析

本研究將不同組別的受測兒童在注音符號、識字寫字、閱讀與寫 作四個學習主題的得分進行統計分析,其中高分組兒童有 5638 人,

中分組兒童為 8150 人,低分組兒童則有 5547 人(如表 4-3)。

表 4444----3333 不同組別在各學習主題的得分統計表不同組別在各學習主題的得分統計表不同組別在各學習主題的得分統計表不同組別在各學習主題的得分統計表

組別 注音符號 識字寫字 閱讀 寫作

平均數 73.51 81.08 79.26 82.12 高分組 標準差 18.80 10.79 9.70 13.09 平均數 57.51 62.20 62.16 63.11 中分組 標準差 20.06 12.30 11.44 16.17 平均數 42.09 39.14 38.54 38.29 低分組 標準差 20.81 14.20 14.13 17.88 平均數 57.75 61.09 60.37 61.53 合計 標準差 23.23 20.27 19.54 23.05

由表 4-3 來看,高分組和中分組在四個學習主題的得分平均數,

由高至低依序是:寫作、識字寫字、閱讀與注音符號。而低分組則有 些不同,其得分平均數由高至低依序是:注音符號、識字寫字、閱讀 及寫作。由此可知,對高分組和中分組的兒童而言,寫作能力較佳,

注音符號的能力稍差;但對低分組的兒童而言,注音符號的能力較 佳,而寫作的能力稍差。就整體而言,除注音符號的得分平均低於 60 分外,其餘各學習主題的得分平均皆在 60 分以上;足見以全市所 有三年級受測兒童而言,注音符號的能力屬仍需加強的一部分。

參、各題回答型態之分析

以下將全市受試學生依答題情況分為高分組、中分組及低分組,

並將其於各題回答情形進行分析。

一、第(1)題

三、第(3)題

五、第(5)題

七、第(7)題

九、第(9)題

十一、第(11)題

十三、第(13)題

十五、第(15)題

十七、第(17)題

十九、第(19)題

二十一、第(21)題

二十三、第(23)題

二十五、第(25)題

二十七、第(27)題

二十九、第(29)題

三十一、第(31)題

三十三、第(33)題

三十五、第(35)題

三十七、第(37)題

三十九、第(39)題

肆、不同背景兒童在國語成就評量表現之差異性比較

一、不同性別的兒童在國語成就評量表現之差異

本研究將不同性別的受測兒童在國語成就評量表現進行 t 考驗分 析,男女生各有 10048 及 9287 人,共 19335 人(如表 4-4)。

表 4444----4444 不同性別成就評量表現不同性別成就評量表現不同性別成就評量表現不同性別成就評量表現 t 考驗分析表考驗分析表考驗分析表考驗分析表

性別 人數 平均數 標準差 平均數差異 t 值 p 值

男生 10048 58.24 17.22

女生 9287 62.79 16.02 -4.55 -19.02** 0.0000

(**p<.01)

由表 4-4 顯示,男生在國語成就評量上表現的平均數是 58.24 分,女生則為 62.79 分,兩者平均數差異是-4.55 分,經統計方法得 知,t 值為-19.02,p 值小於 0.01,達顯著水準。故男生與女生在國 語成就評量上的表現有顯者差異;換言之,女生在國語成就評量上之 表現優於男生。

二、不同規模學校的兒童在國語成就評量表現之差異

本研究將不同規模學校的兒童在國語成就評量之表現進行單因 子變異數分析。其中,小型學校有 30 所,中型學校有 34 所及大型學 校有 24 所(如表 4-5)。

表 4444----5555 不同學校規模成就評量單因子變異數摘要表不同學校規模成就評量單因子變異數摘要表不同學校規模成就評量單因子變異數摘要表不同學校規模成就評量單因子變異數摘要表

變異來源 平方和 自由度 平均平方和 F 檢定 p 值 組間 62609.9 2 31304.95

組內 5400512 19332 279.36 112.06** 0.0000 總和 5463122 19334

(**p<.01)

由表 4-5 來看,因為 F 值為 112.06,p 值小於 0.01,達顯著水 準,因此結果呈現大、中、小型三種規模的學校之間存在差異。為瞭 解哪種規模的學校有差異存在,故再進一步進行薛費法(Scheffe)事 後比較(如表 4-6)。

表 4444----6 6 6 不同學校規模成就評量的薛費法事後比較6 不同學校規模成就評量的薛費法事後比較不同學校規模成就評量的薛費法事後比較不同學校規模成就評量的薛費法事後比較

平均差異 (I-J) p 值 標準誤 (I) 學校規模 (J) 學校規模

26 班以下 27~53 班 -2.75** 0.0000 0.39 54 班以上 -5.25** 0.0000 0.38 27~53 班 26 班以下 2.75** 0.0000 0.39 54 班以上 -2.50** 0.0000 0.26 54 班以上 26 班以下 5.25** 0.0000 0.38 27~53 班 2.50** 0.0000 0.26

(**p<.01)

由表 4-6 顯示,發現 p 值皆小於 0.01,全部達顯著水準。由此 可知,大型學校的兒童在國語成就評量上之表現優於中型學校的兒 童,而中型學校的兒童表現又優於小型學校的兒童。

第二節 第二節 第二節

第二節 試題 試題 試題 IRT 模式分析 試題 模式分析 模式分析 模式分析

試題特性之分析,可分為質與量的分析,而量的分析是以 IRT 模 式進行分析,此種模式的限制在於測驗作答資料必須符合 IRT 模式的 一般性假設,並在符合假設的前提之下從事模式本身的適合度檢測。

因此本節將先從一般性假設之檢測開始,再分別探討單參數、雙參數 與三參數模式的模式適合度檢測。

壹、一般性假設之檢測

IRT 最主要的假設即是單向性假設,其他如:局部獨立性、非速 度性、知道-正確假設等一般性的假設則通常被包含在單向性假設 中,因此本研究僅進行單向性假設的檢定。而檢測方法則採用因素分 析中的主成份分析法。首先以 KMO 及 Bartlett’考驗本試題作答資料 是否適用於因素分析法(如表 4-7),再以因素分析中的主成份分析 法來進行單向性假設之檢測(如表 4-8 和圖 4-1)。

表 4444----7777 KMO 與與 Bartlett 檢定表 檢定表檢定表 檢定表

Kaiser-Meyer-Olkin 取樣適切性量數 0.95

近似卡方分配 71640.19**

自由度 780

Bartlett 球形檢定

p 值 0.0000

(**p<.01)

由表 4-7 來看,KMO 取樣適切性檢定值為 0.95,接近 1;以及 Bartlett 球形檢定值是 71640.19(df=780),p 值小於 0.01,達顯著 水準,顯示本測驗適於進行因素分析。

因素 Reckase(1979)提出單向性假設評鑑標準,亦即符合 IRT 單向性的 假設,可進行 IRT 模式的分析。

電腦程式內附隨機取樣的功能,從全體 19335 位受試者中,隨機抽樣 1000 位,分別針對單參數模式、雙參數模式,以及三參數模式進行 卡方適合度考驗(如表 4-9)。

表 4444----9 9 9 各模式之資料9 各模式之資料各模式之資料各模式之資料----模式適合度摘要表模式適合度摘要表模式適合度摘要表模式適合度摘要表

單參數 雙參數 三參數

卡方值 自由度 P 值 卡方值 自由度 P 值 卡方值 自由度 P 值

1 15.4 9 0.0814 5.8 9 0.7586 7.5 9 0.5802 2 5.1 9 0.7516 7.6 9 0.5725 10.7 9 0.2968 3 31.0* 9 0.0003 4.5 9 0.8730 2.6 9 0.9783 4 10.2 9 0.3380 4.6 9 0.8645 3.9 9 0.9198 5 9.3 9 0.4072 3.0 9 0.9637 5.0 9 0.8361 6 15.7 9 0.0729 8.5 9 0.4880 4.5 9 0.8719 7 10.1 9 0.3449 6.0 9 0.7449 9.3 9 0.4131 8 27.1* 9 0.0007 5.5 9 0.6976 8.3 9 0.4018 9 22.4* 9 0.0022 8.2 9 0.3155 2.6 9 0.9225 10 11.4 9 0.2520 8.5 9 0.4892 8.0 9 0.5376 11 7.5 9 0.5885 8.2 9 0.5149 4.9 9 0.8393 12 33.9* 9 0.0001 13.3 9 0.1025 10.9 9 0.2796 13 7.5 9 0.5844 7.4 9 0.5975 9.3 9 0.4130 14 17.9* 9 0.0223 16.1* 9 0.0409 22.3* 9 0.0080 15 19.8* 9 0.0195 14.5 9 0.1042 11.2 9 0.2633 16 29.7* 9 0.0005 13.3 9 0.1512 14.0 9 0.1208 17 43.2* 9 0.0000 19.2* 9 0.0238 10.6 9 0.3046 18 35.3* 9 0.0000 4.6 9 0.7980 3.4 9 0.9061 19 20.8* 9 0.0135 12.0 9 0.2146 5.0 9 0.8336 20 9.9 9 0.3625 5.6 9 0.7833 5.6 9 0.7807 21 36.5* 9 0.0000 15.2 9 0.0551 18.9* 9 0.0152 22 16.4 9 0.0584 24.2* 9 0.0041 27.3* 9 0.0013

(*p<.05)

表 4444----9 9 9 各模式之資料9 各模式之資料各模式之資料各模式之資料----模式適合度摘要表模式適合度摘要表模式適合度摘要表模式適合度摘要表((續續)

單參數 雙參數 三參數

卡方值 自由度 P 值 卡方值 自由度 P 值 卡方值 自由度 P 值

23 30.2* 9 0.0004 5.6 9 0.7831 5.1 9 0.8299 24 8.7 9 0.4636 4.7 9 0.8565 4.2 9 0.9003 25 45.8* 9 0.0000 2.8 9 0.9448 3.4 9 0.9084 26 38.3* 9 0.0000 19.4* 9 0.0220 7.8 9 0.5577 27 12.4 9 0.1905 8.3 9 0.5084 14.4 9 0.1079 28 13.8 9 0.1288 7.7 9 0.5673 11.8 9 0.2267 29 7.8 9 0.5541 17.4* 9 0.0434 11.3 9 0.2588 30 37.9* 9 0.0000 5.8 9 0.6653 7.2 9 0.5173 31 31.1* 9 0.0001 8.0 9 0.5298 6.3 9 0.7142 32 12.8 9 0.1197 13.2 9 0.1541 8.0 9 0.5307 33 5.4 9 0.7945 7.1 9 0.6250 3.8 9 0.9239 34 28.4* 9 0.0004 4.9 9 0.7676 3.9 9 0.8667 35 8.6 9 0.4709 8.5 9 0.4810 15.3 9 0.0833 36 5.9 9 0.6563 3.8 9 0.9253 7.1 9 0.6239 37 15.4 9 0.0798 9.1 9 0.4262 6.4 9 0.6972 38 16.7 9 0.0534 10.2 9 0.3319 12.5 9 0.1841 39 18.3* 9 0.0314 8.3 9 0.5057 9.5 9 0.3955 40 31.5* 9 0.0002 19.2* 9 0.0235 13.3 9 0.1481

*p<.05)

由表 4-9 得知,在單參數模式中,適合度較佳的題目共有 21 題,

佔總題數的 52.5%;在雙參數模式方面,適合度較佳的題目共有 34 題,佔總題數的 85%;而就三參數模式而言,適合度較佳的題目共 有 37 題,佔總題數的 92.5%。由上述結果顯示,三參數模式的題目 適合度明顯優於單參數模式及雙參數模式。

第三節 第三節

第三節 第三節 試卷與試題特性之分析 試卷與試題特性之分析 試卷與試題特性之分析 試卷與試題特性之分析

本節就試題及試卷的統計特徵作質與量的分析。首先,在質的分 析方面,是根據試題檢核表及雙向細目表,分別對試題及試卷進行分 析。其次,在量的分析方面,則是根據執行 BILOG-MG 及 SPSS 軟 體所獲得的資料,進行比較分析。

壹、試題特性之分析

一、質的分析

本研究針對此次試題所設計的試題檢核表來檢視試題是否符合 命題原則及測驗目標,以下針對此份試題之檢核結果進行說明(參考 附錄一):從試題檢核表中每一縱向欄位來看,只有第 6、15、16、

33、36、38 和 40 題皆至少有一項不符合該表的檢核項,其他試題則 完全符合該表的檢核項。而從試題檢核表中的橫列檢核項來看,不符 合檢核項 1-2「試題只提一個問題,避免同時包含太多概念」有第 16

33、36、38 和 40 題皆至少有一項不符合該表的檢核項,其他試題則 完全符合該表的檢核項。而從試題檢核表中的橫列檢核項來看,不符 合檢核項 1-2「試題只提一個問題,避免同時包含太多概念」有第 16

相關文件