第三章 研究方法
第三節 研究工具
第三節 第三節 研究工具 研究工具 研究工具 研究工具
本節分別敘述本研究之研究工具,主要用到的統計軟體有二,分別為 SPSS 統計分析軟體以及 BILOG-MG 軟體,針對以上兩者研究工具茲做以下簡單說 明:
壹 壹
壹 壹、 、 、 、SPSS 統計 統計 統計分析 統計 分析 分析軟體 分析 軟體 軟體 軟體
統計套裝軟體 SPSS 是一個用於進行統計學上資料分析及數據運算的輔助 決策工具,藉以進行基本統計分析、資料剖析及協助決策判斷。
本研究使用 SPSS12.0 版本之軟體以分析各分測驗的信度係數及效度係數 的相關分析。
貳 貳 貳
貳、 、 、 、BILOG-MG 軟體 軟體 軟體 軟體
BILOG-MG 軟體主要用以估計出試題的參數值,如難度、鑑別度、猜測度 及受試者的能力值,也可提供測驗的訊息量、信度指數與測驗訊息曲線圖
(Zimowski, Muraki, Mislevy, & Bock, 2003)。
本研究使用 BILOG-MG 軟體估計試題參數以及受試者能力值,估計得到的 參數可提供試題進行等化之用,依照等化後的試題參數值和模式適合度,可做 為未來試題修審及入庫使用的依據參考。
第四節 第四節
第四節 第四節 研究 研究 研究 研究範圍與限制 範圍與限制 範圍與限制 範圍與限制
壹 壹 壹
壹、 、 、 、研究試題方面 研究試題方面 研究試題方面 研究試題方面
本研究的命題原則為分析學科能力測驗社會科的歷屆試題所得,雖完整蒐 集了 17 年 19 卷的試題量,但由於課綱改變,所得的命題標準無法適用於 102 學年度以後的應考者,系統設計上已透過 95 暫綱對照 99 課綱以及財團法人大 學入學考試中心提供的參考試卷說明做轉換,然仍不足以實際對應得以逼近真 正的命題內容;再者因成本及時間不足,目前僅開發了 957 題,希望未來可以 逐年根據教學內容調整或教育政策上路有更清楚的新課綱命題標準,藉以修改 或新增更多的社會科試題,以充實本研究的試題庫內容。
貳 貳 貳
貳、 、 、 、研究對象方面 研究對象方面 研究對象方面 研究對象方面
本研究透過學效學會舉行聯合模擬考方式辦理,邀請全省高中生進行預 試,然因時空及經費預算上的限制,僅能以北、中、南三地主要都市舉辦,總 樣本數為 33,173 人,研究結果可能會受到抽樣範圍的影響,造成推論上的誤差 或限制;另外受試者在應試時的作答心態與作答情形也很難等同於參與正式學 科能力測驗時謹慎小心,作答的認真程度亦可能影響測驗結果。
第四章
評量內容 題數 單題出
第二節 第二節
CTT IRT
CTT IRT
第三節 第三節
第三節 第三節 不良 不良 不良 不良試題 試題 試題 試題標記表 標記表 標記表 標記表
本研究以上述同一試卷為例,整理出不良試題標記表,如表 4.3,與學科專 家討論後,雖有部分的試題參數未達優良試題標準,但考量編製試題不易,檢 視試題後發現試題符合命題適切檢查表的項目,因此予以保留,第 5、7、45、
49、59 題,因古典鑑別度過低,並且通過率也不高,經學科專家判定,應是題 目太難所致,因此刪除此部分試題,其餘試題則保留並置入試題庫中;其他試 卷施測結果有標記不良試題的部分,採以上相同方式處理。最後篩選完成的試 題數量需高於或等於預計的 10 倍試題數量 720 題。
表 4.3 不良試題標記表
CTT IRT
不良 試題 題號
通過率 鑑別度 鑑別度 難度 猜測度 通過率 標記不良原因
1
0.234
0.27 1.112 1.63 0.138 0.227 CTT 試題通過率低於 0.253 0.261 0.025 0.536
3.614
0.223 0.26 IRT 試題難度參數大於或等於 3 5 0.642-0.065 N/A N/A N/A N/A
CTT 試題鑑別度指數小於 0 70.046 -0.169 N/A N/A N/A N/A
CTT 試題通過率低於 0.25CTT 試題鑑別度指數小於 0 9
0.114
0.079 0.5993.84
0.093 0.119 CTT 試題通過率低於 0.25IRT 試題難度參數大於或等於 3 17 0.817 0.154
0.398
-1.863 0.229 0.818 IRT 試題鑑別度參數介於 0〜0.4 18 0.581 0.1260.329
0.427 0.242 0.579 IRT 試題鑑別度參數介於 0〜0.4 190.231
0.078 0.643.194
0.193 0.23 CTT 試題通過率低於 0.25IRT 試題難度參數大於或等於 3 21
0.147
0.025 0.6413.903
0.132 0.15 IRT 試題難度參數大於或等於 3 300.104
0.028 0.6334.291
0.096 0.11 IRT 試題難度參數大於或等於 3CTT IRT
小於或等於-3 或大於或等於 3;三、試題猜測度參數大於或等於 0.3。本研究整 體試題平均通過率介於 0.6048,而 IRT 的平均鑑別度為 0.6214,平均難度為 -0.1660,平均猜測度為 0.1995,以上均未落於不良試題標記的範圍,可見本試 題庫整體而言編製良好。
表 4.4 IRT 試題參數分向度平均值
平均鑑別度 平均難度 平均猜測度
測驗 1 0.6374 0.4384 0.2132 測驗 2 0.5096 -0.5667 0.2289 測驗 3 0.5945 -0.9895 0.2239 測驗 4 0.5722 -0.5680 0.2161 測驗 5 0.6290 -0.1750 0.2060 測驗 6 0.8328 0.9661 0.1859 測驗 7 0.5749 0.3809 0.1454 測驗 8 0.6655 -0.2253 0.1766 定錨測驗 0.6812 0.5625 0.1957 整體測驗 0.6214 -0.1660 0.1995
第五節 第五節 第五節
第五節信度分析 信度分析 信度分析 信度分析
信度(reliability)是測驗分數具有精確性或可靠性的程度,一般多以內部一 致性來加以表示該測驗信度的高低。本研究以 SPSS 軟體來分析信度,在社會 科試卷的信度方面,擬採 Cronbach’s α 數值來進行測驗的內部一致性分析,α 係 數是由 Cronbach 所發展的,當測驗的評分方式不只二分計分時,例如 likert 五 點量表,不能採用庫李信度,而須採用α 係數。Cronbach’s α 相關係數越高,
表示該題與其他題目的內部一致性越高,即表此一試卷的信度越高。本系統於 社會科試卷的測驗題數為 72 題,得信度為 0.692。
第六節 第六節
第六節 第六節 效 效 效 效度分析 度分析 度分析 度分析
效度(validity)是指測驗分數的正確性,亦即一個測驗分數能夠測量到它 所想要的特質的程度。本研究使用效標關聯效度做為測驗的效度依據,透過比 較學生的預試成績以及學生實際參加學科能力測驗的成績,得到相關係數 0.688;除了預試成績之外,並利用試題反應理論進行分析,估計出每位學生的 能力值,藉以比較學生的能力值與學科能力測驗級分之間的相關,得相關係數 0.704,藉以驗證題庫試題的效度,如表 4.5 所示。
表 4.5 學科能力測驗級分 vs.預試成績及學科能力測驗級分 vs.能力值相關程度 科目 學科能力測驗級分 vs.預試成績 學科能力測驗級分 vs.能力值
社會 0.688*** 0.704***
*** p<0.001
第五章 第五章 第五章
第五章 結論與建議 結論與建議 結論與建議 結論與建議
本研究透過測驗等化技術得以完成量尺化高中社會學科能力測驗的試題 庫,並建置成可應用於電腦化測驗的題庫系統。利用估計所有試題等化後之試 題參數值及其模式適合度,由研究之結果評估其成效,先進行測驗的內部一致 性分析,使用 Cronbach’s α 係數得到信度 0.692;另驗證題庫試題的效度,使用 效標關聯效度做分析,以學生預試的成績以及實際參加學科能力測驗後的成績 比較,得到相關係數 0.688;再求得每位學生的能力值數據,藉以比較學生能力 值與學科能力測驗級分之間的相關性,得到相關係數 0.704,上述具有高度相 關。據以上歸納可得,本研究結果於學科能力測驗社會科目中獲得的信效度皆 高,故可證明本系統在實際施測上將有不錯的預測成效,可做為預測高中生參 與學科能力測驗社會科考試前的良好預測工具。
在歷屆試題資料分析上,由於社會考科為歷史科、地理科和公民與社會科 三個學科的組合,整理時間略顯不足,建議若能在之後考量進每個時期的環境 趨勢進行配題分析,對於系統出題方面上或能更加準確。
由於學科能力測驗將於民國 102 年全面施測,目前所建置的試題庫勢必不 足以因應屆時課綱急遽變化產生學習能力指標上的差異,在針對 99 課綱的考題 應對來說是學生以及教師最大的困難,建議本研究建置完成的系統,若能根據 日後學科能力測驗施行每年更新命題架構藉以修審試題,並進行刪題、補題的 動作,將更有助於本系統預測學生學科能力測驗成績之功效。
參考文獻 參考文獻 參考文獻 參考文獻
中文部分 中文部分 中文部分 中文部分
大學多元入學升學網(2012)。入學方案架構圖。臺北市:教育部。取自:
http://nsdua.moe.edu.tw/index.php?option=com_content&task=view&id=13&Ite mid=49
中等教育司(2004)。普通高級中學課程暫行綱要。臺北市:教育部。取自
http://www.edu.tw/high-school/content.aspx?site_content_sn=8411
中 等 教 育 司 ( 2009a )。 普 通 高 級 中 學 地 理 科 課 程 綱 要 補 充 說 明 。 取 自
http://www.edu.tw/high-school/content.aspx?site_content_sn=23880
中等教育司(2009b)。普通高級中學公民與社會科課程綱要補充說明。取自
http://www.edu.tw/high-school/content.aspx?site_content_sn=23880
中等教育司(2011a)。普通高級中學課程綱要總綱。臺北市:教育部。取自
http://www.edu.tw/high-school/content.aspx?site_content_sn=8403
中等教育司(2011b)。普通高級中學歷史課程綱要。取自
http://www.edu.tw /high-school/content.aspx?site_content_sn=8403
行政院研究發展考核委員會(2012)。我國大學多元入學制度之評估研究。臺北 市:行政院研究發展考核委員會。
余民寧(1993a),「試題反應理論的介紹(十一):題庫的建立」,研習資訊研習資訊研習資訊研習資訊 10(4),
9-13。
余民寧(1993b)。試題反應理論的介紹(九)-測驗分數的等化(上)。研習資訊研習資訊研習資訊 10(2),研習資訊 6-11。
吳裕益(1991)。IRT 等化法在題庫建立之應用。初等教育學報初等教育學報初等教育學報初等教育學報,,,4,, ,,,319-365。國 立臺南師範學院初等教育學系,臺南市。
財團法人大學入學考試中心(2002)。我國大學入學制度改革建議書。臺北市:
大學入學考試中心。
財團法人大學入學考試中心(2008)。學科能力測驗暨指定科目考試各考科考試 說明公告 學測-社會。取自
http://www.ceec.edu.tw/95 課綱考試說明/95 課綱 (98 年施測)考試說明.htm
財團法人大學入學考試中心(2011)。學科能力測驗暨指定科目考試各考科考試 說明公告學測-社會。取自
http://www.ceec.edu.tw/99 課綱考試說明/1000930/99 課綱考試說明.htm
財團法人大學入學考試中心(2012)。學科能力測驗—簡介。取自
http://www.
ceec.edu.tw/abilityexam/AbilityExamProfile.htm
國民中學學生基本學力測驗推動工作委員會(2010)。「九十九年國民中學學生基 本學力測驗專輯」電腦化測驗的演進及發展。飛揚月刊飛揚月刊飛揚月刊飛揚月刊,,,,第第第 61 期第 期期期。2010 年 1 月,取自:http://www.bctest.ntnu.edu.tw/99annuals/flying61_5.html
教育部(2009)。「普通高級中學課程綱要」補充說明。教育部全球資訊網。中等 教育司/高中課程標準及課程綱要/普通高級中學課程綱要補充說明。取自
http://www.edu.tw/high-school/content.aspx?site_content_sn=23880
教育部 (2010)。「升學制度審議委員會總結報告。臺北市:教育部。取自
http://www.edu.tw/files/site_content/EDU01/教育部「升學制度審議委員會」總 結報告-詳版(定版)-990817(再修).pdf
郭伯臣、曾建銘、吳慧珉(2011)。大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於 TASA 之研之研之研之研 究究
究究。新北市:國家教育研究院。
張芳全(2007)。一綱多本的問題與對策。教師天地教師天地教師天地教師天地,,,特刊,特刊特刊特刊,,,,61-73。
英文部分 英文部分 英文部分 英文部分
Hambleton, R.K., & Swaminathan, H. (1985) . Item Response Theory: Principles and Application. Boston, MA:Kivwer-Nijhoff.
Kolen, M.J. & Brennan, R.L. (1995). Test Equating: Methods and Practices. New York: Springer-Verlag.
Kolen, M.J., & Brennan, R.L. (2004). Test equating, scaling and linking: Methods and practices. 2nd Ed.
Lord, F.M. (1980). Applications of item response theory to practional testing problems. Hillsdale, NJ: Lawrence Erlbawn Associates.
von Davier, A.A., Holland, P.W., & Thayer, D.T. (2004). The kernel method of test equating. New York: Springer.
Wainer, H., Dorans, N.J., Flaugher, R., Green, B.F., Mislevy, R.J., Steinberg, L., &
Thissen, D.(Eds.)(1990). Computerized adaptive testing: A primer. Hillsdale, NJ: Lawrence Erlbaum Associates.
Zimowski, M.F., Muraki, E., Mislevy, R.J., & Bock, R. (2003). BILOG-MG.
Chicago, IL:Scientific Software International.
附錄一
檢核項目 測驗目標
99 課綱 課綱 課綱 課綱
檢核項目 測驗目標
附錄二
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼
編碼 編碼 編碼
編碼 敘述敘述 敘述敘述
11.3.2.0 經濟全球化 11.3.3.0 地球村與反思
11.4.0.0 永續發展的經濟課題 11.4.1.0 國民所得
11.4.0.0 永續發展的經濟課題 11.4.1.0 國民所得