國立臺中教育大學教育測驗統計研究所理學碩士論文
指導教授:許天維 博士
量尺化
量尺化
量尺化
量尺化高中
高中
高中
高中社會學科能力測驗的建置與
社會學科能力測驗的建置與
社會學科能力測驗的建置與
社會學科能力測驗的建置與
應用
應用
應用
應用
The Establishment and the Applications
for the Scaling of Social Studies in
General Scholastic Ability Test for
Ordinary Senior High School Students
研究生:許志良 撰
I
謝
謝
謝
謝誌
誌
誌
誌
本研究感謝經濟部工業局民國 99 年 12 月 07 日數位內容產業發展補助計畫 99 年度第 07 次審議會核定通過之「高中數學個別指導行動教學輔助示範計畫 (新技網路科技股份有限公司、毅夫文化事業股份有限公司)」,計畫編號 99-0094。II
中文摘要
中文摘要
中文摘要
中文摘要
因應民國 97 年 1 月 24 日發布之普通高級中學課程綱要(簡稱 99 課綱), 自 99 學年度高中一年級起逐年實施,大學入學考試中心舉辦的學科能力測驗將 於民國 102 年改對 99 課綱進行施測。鑒於時值課綱轉換,目前尚未有針對 99 課綱建置並具有良好成效的高中社會學科能力測驗電腦化的題庫系統。因此本 研究欲發展針對 99 課綱之高中學科能力測驗社會科量尺化題庫及評估該科題 庫系統之信度與效度。 依據 95 暫綱及學科能力測驗社會科歷屆試題,歸納出命題原則進行組卷; 經高中生預試後,將得到的受試學生答題反應資料透過 SPSS 統計分析軟體進 行信度與效度分析,並透過 BILOG-MG 軟體估計出受試者的能力值及試題參 數,如難度、鑑別度、猜測度,最後將分析結果回饋給命題單位進行修題與審 題,作為後續提升命題品質的依據。完成後的試題重新依照 99 課綱以及大學入 學考試中心公布的參考試卷說明做調整後入庫。 本研究研究結果顯示:一、本研究採用 Cronbach’s α 係數進行試卷的信度 分析,測驗題數為 72 題,得測驗信度為 0.692,表示題庫具有良好的內部一致 性。二、本研究使用效標關聯效度做為效度分析的依據,先比較學生預試成績 和實際成績得相關係數 0.688;再根據試題反應理論估計出學生的能力值,比較 能力值與學科能力測驗級分之間得相關係數 0.704,由以上兩種相關係數可驗證 題庫的效度良好。三、本研究整體獲得的信效度皆高,證明可做為高中社會學 科能力測驗之量尺化題庫。 關鍵詞: 99 課綱、學科能力測驗、社會科、量尺化III
Abstract
The Ordinary Senior High school Courses Interim Outline, announced on January 24, 2008 (Guidelines 99), was applied by College Entrance Examination Center to the first grade students of ordinary senior high schools since School Year 99. The achievement test on Guidelines 99 should be held in School Year 102. During the exchange of Guidelines, not yet any efficient computerized scaling item bank for social studies has been established. Therefore, the study aims at establishing the computerized scaling item bank for the subject of social studies, and examining its reliability and validity.
According to the temporary Guidelines 95, the test questions of social studies were collected from General Scholastic Ability Tests (GSAT) over the past decades. First, the researcher analyzed the question-formulating principles, and re-organized new test papers. Secondly, pre-tests were taken by senior high school students. The data was analyzed by SPSS to examine the reliability and validity. Tests’ ability positioning values and item parameters, such as item difficulty parameter, item discrimination parameter, and pseudo-chance parameter were also estimated through BILOG-MG. Thirdly, the tester team re-examined and modified new test questions from the outcomes. Bases on Guidelines 99 and its referential tests, the finalized questions were adjusted and collected in the new question item bank.
The results of the study indicate the followings:
1. Cronbach’s α coefficients were adopted to analyze the reliability of the test papers. The validity from a total of 72 questions scored 0.692, which showed fairly reliable internal equity.
IV
2. The Correlation coefficients of Criterion-related validity were adopted as the basis to examine the validity in the study. The comparison coefficient from students’ pre-tests and real GSAT tests scored 0.688. Students’ ability positioning values scaled by Item Response Theory (IRT) were compared with their rankings from GSAT; again, the correlation coefficient scored 0.704. The two correlation coefficients proved the fair validity of the test item bank.
3. Since both the reliability and the validity were of high-level, results of the study were qualified as the scaling item bank for social studies in GSAT.
Keywords: Guidelines 99, General Scholastic Ability Test (GSAT), social studies, scaling
V
目錄
目錄
目錄
目錄
謝誌 ...I 中文摘要 ... II Abstract... III 目錄 ... V 表目錄 ... VII 圖目錄 ... VIII 第一章 緒論 ...1 第一節 研究動機 ...1 第二節 研究目的 ...5 第二章 文獻探討 ...6 第一節 學科能力測驗 ...6 第二節 題庫試題編製 ...7 壹、 95 暫綱與 99 課綱的差異 ...7 貳、 試題命題原則 ...12 第三節 電腦化測驗 ...15 第三章 研究方法 ...16 第一節 研究流程 ...17 第二節 研究步驟 ...18 第三節 研究工具 ...21 壹、 SPSS 統計分析軟體 ...21 貳、 BILOG-MG 軟體 ...21 第四節 研究範圍與限制 ...22 壹、 研究試題方面 ...22 貳、 研究對象方面 ...22 第四章 研究結果 ...23 第一節 社會科測驗題數細目表 ...23 第二節 社會科預試試題參數表 ...25 第三節 不良試題標記表 ...28 第四節 試題分析結果探討 ...29 第五節 信度分析 ...30 第六節 效度分析 ...31 第五章 結論與建議 ...32 參考文獻 ...33VI 中文部分 ...33 英文部分 ...35 附錄一 社會科命題適切檢查表 ...36 附錄二 能力指標分析 ...40 附錄三 學科能力測驗社會科參考試卷 ...66 附錄四 計畫成果同意使用證明書 ...95
VII
表目錄
表目錄
表目錄
表目錄
表 2.1 學科能力測驗社會考科公民與社會科考試說明比較表 ...7 表 2.2 學科能力測驗社會考科考試範圍暨測驗目標比較表 ...13 表 3.1 NEAT 設計 ...18 表 4.1 學科能力測驗社會科之測驗題數細目表 ...23 表 4.2 社會科預試試題參數表 ...25 表 4.3 不良試題標記表 ...28 表 4.4 IRT 試題參數分向度平均值 ...30 表 4.5 學科能力測驗級分 vs.預試成績及學科能力測驗級分 vs.能力值相關程度 ...31VIII
圖目錄
圖目錄
圖目錄
圖目錄
圖 1.1 大學多元入學方案架構圖 ...2 圖 3.1 量尺化題庫建置暨分工之研究流程圖 ...17第一章
第一章
第一章
第一章
緒論
緒論
緒論
緒論
第一節
第一節
第一節
第一節 研究動機
研究動機
研究動機
研究動機
傳統大學聯招自民國 43 年起實施了 48 年之久,過往臺灣功績主義的意識 形態加重了大學一紙文憑的份量,也長久引來各界輿論壓力,隨著時代推進, 具有提升人力素質的高等教育,在選才制度上亦不得不進行教育改革,於民國 91 年開始大學多元入學方案。針對大學聯招政策的缺失,財團法人大學入學考 試中心(2002)在民國 91 年提出的【我國大學入學制度改革建議書】中,即 談到以多元入學方式替代大學聯招的三大具體目標,分別為:(1)學生學習與 選擇方面:重視學習歷程、顧及學生性向與興趣、激勵向學動機、提供多元入 學途徑、尊重家長教育選擇權、顧及弱勢族群教育機會;(2)學校特色與選才 方面:尊重學校招生自主性、促進學校間均衡發展、輔導學校發展特色、建立 學生多元價值觀念、多元評量學生學習成就、符合公平公正、公開的精神;(3) 教育發展方面:促進學生五育均衡發展、提升適性教學品質、減緩過度升學競 爭壓力。 教育部(2010)在【升學制度審議委員會總結報告】中對各種升學管道的 優缺點進行全面性的檢討,內容提及實施大學多元入學制度以來,學生升學壓 力仍在的三大主因:(1)升學管道過於繁雜,仍有諸多家長和學生不瞭解實施 內容;(2)傳統價值觀念影響,無法跳脫考試引導教學的弊病;(3)多元入學 方案規劃未臻周延,無法合乎時勢的需求。如上述之檢討,高等教育在調整教 育政策的比重也依循著公平性、選擇機會、卓越性等三個指標之順序,大學多 元入學方案始能本就多元性、大學自主、學生適性發展…等理念更新;現階段 屬於多元變革時期,從學校推薦、個人申請、繁星推薦、考試分發等入學管道, 都回歸到注重於學生的適性發展為主要目標(行政院研究發展考核委員會,2012)。故在升學流程設計上,也更努力避免會產生「一試定終身」的缺憾。由 以下大學多元入學方案架構圖可見一斑,如圖 1.1。 圖 1.1 大學多元入學方案架構圖 資料來源 資料來源 資料來源 資料來源::::大學多元入學升學網(2012)。入學方案架構圖。臺北市:教育部。取自: http://nsdua.moe.edu.tw/index.php?option=com_content&task=view&id=13&Itemid=49
在此多元入學架構之下,雖不單僅以一次考試就決定大學校系,但仍存在 可讓大學作為選擇學生能力、興趣取向…等標準奠定的正式大型測驗,而最為 通用的即為財團法人大學入學考試中心舉行的學科能力測驗,舉凡國內升學管 道下的繁星推薦入學、個人申請入學、考試分發入學皆以學科能力測驗的成績, 作為各自評量、篩選、檢定、…等的選才條件標準。因應如此的考試趨勢,家 長或學校為了讓考生能在正式應考時有優異表現,參與模擬考試以培養臨場感 和反應訓練是不二選擇,而模擬考試的成績更是作為考生掌握自我能力、修正 讀書方向的不二工具。目前來說,高中各校內通常會尋找區域學校聯合舉辦模 擬考試,以求得大樣本的受試人數,同時也較接近實際考試的成績分布;但傳 統模擬考試方式也一直存在著各回試卷難度不一、題型過於重複或近似教科書 內容、題目觀念太過偏頗刁鑽…等問題,讓人質疑模擬考試成績預測學科能力 測驗成績的有效性與可信度。 目前國內大型考試,如基本學力測驗、學科能力測驗、指定科目考試等, 皆透過常模將學生成績建立在同一把量尺上評斷,但傳統模擬考卻缺乏統一的 測量標準供教師、學生或家長參考,實際情況是學校並無專門建置量尺化題庫 的人資物力,而聯合模擬考試遂透過招標方式交由資訊廠商處理;模擬考廠商 為了更貼近真實的考試情形,在辦理試題編製,如題型、題數、考試時間、分 數計算方式…等,雖儘量仿照實際考試的內容來設計,但每次試題難度不一、 內容參差不齊,又或配分標準與比例因出題者而異,加上成績統計以粗糙的方 式進行,並未經過測驗等化求得真實量尺分數,這樣的測驗結果就不容易有助 於教師評量學生或考生自我檢討。 原高中能力指標為教育部中華民國 93 年 8 月 31 日以台中(一)字第○九三○ 一一二一三○號令修訂發布的普通高級中學課程暫行綱要(簡稱「95 暫綱」), 適用 95 學年度以後入學的高一新生,現因應民國 97 年 1 月 24 日(台中(一) 字第○九七○○一一六○四 B 號令修正)發布之普通高級中學課程綱要,將自 99
學年度高中一年級起逐年實施(簡稱「99 課綱」),惟國文科與歷史科內容及實 施日期另案發布(教育部,2009)。而學科能力測驗亦於民國 102 年改為針對 99 課綱進行施測。新課綱上路,考生面臨了課綱的急遽變化,許多教育政策的 配套措施不完全,加上一綱多本政策推動之下,一綱多本的一綱,如何訂定出 合理規範?各種多樣版本如何達成一綱的內涵要求,卻又可以呈現多元特色? (張芳全,2007)以上眾多紛擾不定,導致考生學習上的徬徨無措、難以適從, 家長因無法掌握現況的慌張焦慮、惶恐以對。 其實歷年來針對國內大型測驗的相關研究或文獻多針對單一測驗的個別學 科做試題探討,或某一年度的試題研究,或學業成績與大型測驗成績的關聯分 析,更甚者有提出指定科目考試與學科能力測驗的相關比較,然在國中基本學 力測驗部分偶見單一學科發展線上適性測驗系統之試題分析探索,在高中學科 能力測驗部分卻未有直接發展可配合測驗等化(test equating)技術的試題研究, 實為可惜。 因此,如果能有一研究能針對以上所有問題,提供一個以目前教育政策上 所使用的課綱為基礎的學科能力測驗試題庫,讓考題更貼近實際的出題標準, 並將成績等同大型測驗作量尺分數的轉換,將更增加模擬考試的成效,並讓考 生獲得更精準的學習方向;故本研究建置一個量尺化高中學科能力測驗社會科 題庫系統,希冀能提供正規教學單位更豐沛的試題資源,並作為教育用途上一 個良好的學科能力測驗成績預測工具,並能更有效的輔助學生學習和協助教師 擬訂教學策略。
第二節
第二節
第二節
第二節 研究目的
研究目的
研究目的
研究目的
依據上開研究動機,本研究擬針對社會科建置一個量尺化高中學科能力測 驗題庫之電腦化測驗系統,以解決不同試卷間存在難易度等方面差異以及課綱 轉換的問題;將依據 95 暫綱為基礎,參考學科能力測驗社會科範圍(高一至高 二必修科目歷史、高一至高二必修科目地理、高一至高二必修科目公民與社會) 及歷屆試題分析結果,邀集專家學者共同訂定命題原則並出題,試題經預試後 取得受試者之答題反應,將所得資料進行信度與效度分析,再將分析結果回饋 命題單位作為修題、審題之依據,藉由提升本研究試題品質,後續將修審完的 試題依照 99 課綱及大學入學考試中心公布的社會科參考試題重新配置,並根據 章節授課時數進行調整,始得建立量尺化高中學科能力測驗社會科電腦測驗題 庫系統。在此歸納整理本研究之研究目的條列如下: 一、建置『量尺化高中學科能力測驗社會科之電腦化測驗題庫系統』。 二、評估『量尺化高中學科能力測驗社會科之電腦化測驗題庫系統』之功效。第二章
第二章
第二章
第二章 文獻探討
文獻探討
文獻探討
文獻探討
本研究欲實踐一個量尺化高中學科能力測驗社會科之電腦化測驗題庫系 統,基於此目的,在此將建置過程中運用到的理論背景,如學科能力測驗、題 庫試題編製及電腦化測驗分別進行主題式的文獻探討。第一節
第一節
第一節
第一節 學科能力測驗
學科能力測驗
學科能力測驗
學科能力測驗
「學科能力測驗」是各大學校系初步篩選學生的門檻依據,實施用意在於 評量考生是否具有接受大學教育的基本學科能力。由於學科能力測驗側重評量 考生進入大學的基本學科知能,故就現行大學多元入學方案而言,學科能力測 驗主要作為「甄選入學制」的依據,即大學校系可以依其性質、需要,先訂定 一個學科能力測驗成績標準(門檻),只要達到此一標準,並且在一定人數倍率 以內的考生,才可以參加該校系自辦的指定項目甄試,進而擇優錄取(大學入 學考試中心,2012)。 社會考科測驗範圍為高一高二的歷史、高一高二的地理以及高一高二的公 民與社會。學科能力測驗是以電腦可讀的題型為主,例如:選擇題(單選題、 多選題)、選填題。另社會考科中的歷史、地理、公民與社會三科試題所佔比例 相當;社會考科結合不同學科的設計,有考察考生綜合運用這些學科內容的用 意。學科能力測驗各考科的成績計算皆採級分制,最高為 15 級分。級分的計算 方式參見簡章說明(財團法人大學入學考試中心,2012)。 社會考科包括歷史、地理、公民與社會三個學科,歷史知識的學習是以培 養高中生對於歷史認識與分析的能力。地理知識的學習有助於高中生理解自然 與人文因素如何形塑地理空間,並學習分析地理議題及解決地理問題的能力。公民與社會知識的學習因課綱轉換有部分差異,如表 2.1。社會考科以人文社會 相關學科基礎知識與技能為主要命題內容,歷史、地理、公民與社會三科試題 依據課程標準分配(財團法人大學入學考試中心,2008;財團法人大學入學考 試中心,2011)。 表 2.1 學科能力測驗社會考科公民與社會科考試說明比較表 考試說明 95 暫綱 99 課綱 公民與社會科 公民與社會是以提升學生具備 適應現代社會生活應有的公民 資質為目標,學習心理、社會、 文化、教育、倫理、法律、政 治、經濟及環境等多面向的公 民基本知識,建立高中生多元 價值觀與關懷心。 公民與社會是以提升學生具備 適應現代社會生活應有的公民 資質為目標,學習社會、文化、 政治、道德、法律、經濟、永 續發展等多面向的公民基本知 識,建立高中生多元價值觀與 關懷心。
第二節
第二節
第二節
第二節 題庫
題庫
題庫
題庫試題編製
試題編製
試題編製
試題編製
在編製學科能力測驗社會科的測驗試題上,為了使試題庫可具代表性,先 整理出高中學科能力測驗自民國 83 年至 99 年所有的歷屆試題並參考高中目前 學習的能力指標,以編製所需的測驗題數細目表,再依據此架構訂定試題命題 原則以供遵循。以下將分別就學科能力測驗社會科探討 95 暫綱與 99 課綱的差 異以及試題命題原則。壹
壹
壹
壹、
、
、
、95 暫綱
暫綱
暫綱
暫綱與
與
與
與 99 課綱
課綱
課綱
課綱的差異
的差異
的差異
的差異
95 暫綱為教育部於中華民國 93 年 8 月 31 日發布,中華民國 94 年 1 月 20 日修正發布的普通高級中學課程暫行綱要(中等教育司,2004),適用 95 學年 度至 98 學年度入學的高一新生;而自 99 學年度起,至目前高中各學科學習上遵循的能力指標都改為 99 課綱,此為教育部中華民國 97 年 1 月 24 日發布,中 華民國 99 年 5 月 4 日修正發布,中華民國 100 年 7 月 14 日修正再發布的普通 高級中學課程綱要(中等教育司,2011a)。茲針對社會科在兩個課綱之間的差 異情形說明如下: 一、 歷史學科部分(中等教育司,2011b): 1. 必修科目「臺灣史」:95 暫綱原有四大單元、12 主題及 25 重點,99 課 綱調整為四大單元、13 主題及 28 重點;內容增加強調國際關係、族群 互動、臺灣人民參與第二次世界大戰及民主運動發展等史實。 2. 必修科目「中國史」:95 暫綱原有六大單元、16 主題及 37 重點,99 課 綱調整為六大單元、18 主題及 43 重點;內容增加主要有以下四項: (1) 增列第四單元晚清之變局以增進學生瞭解清末至 1949 年的社會 經濟與文化。 (2) 強調各朝代學術思想與社會文化發展的特色。 (3) 強化宋、元、明至盛清時期貨幣經濟的發展、海上貿易的活動等 內容。 (4) 有關 1949 年以前的民國史強調法制發展如臨時約法、憲法等的 制訂及中外關係。 3. 必修科目「世界史」:95 暫綱原有九大單元、24 主題及 57 重點,99 課 綱調整為五大單元、14 主題及 40 重點。在上中古史內容的差異及近代 以後歷史的差異上作課程架構的調整;另增列中東、非洲、中南美洲 等地區的發展。 二、 地理學科部分(中等教育司,2009a):針對 95 暫綱有爭議的概念作修 正,並加入必要的概念,僅作小幅度改變;修訂重點集中在主題、主 要概念與具體目標的一貫性與配合度,各主要次領域並刪減了約 1/4 至 1/3 的主要概念之數目,以因應高中教師普遍反應授課時數不足之狀
況。部分單元名稱與主題順序考慮高一至高三之間的相互銜接,作先 後順序上的調整。 1. 必修科目「通論地理」下冊:99 課綱刪除了 95 暫綱的第四單元『第四 級產業』的用詞,以『高科技知識產業』一詞取代。 2. 必修科目「區域地理」上冊: (1) 99 課綱將 95 暫綱的第二單元名稱由『美國』改為『北美洲』, 並刪減了主題四—美國面臨的發展問題。 (2) 99 課綱將 95 暫綱的第三單元名稱由『日本』改為『東北亞』, 並增列了對東北中韓國的介紹,說明東北亞經濟圈在世界的地位 與影響;另增列東北亞的觀光資源與文化特色。 (3) 99 課綱將 95 暫綱第四單元增列東歐的歐洲發展與歐洲個案實 例。 (4) 99 課綱將 95 暫綱的第五單元名稱由『國協』改為『俄羅斯及國 協』。 (5) 99 課綱將 95 暫綱的第七單元『非洲』調整至「區域地理」下冊, 此單元改為 95 暫綱中「區域地理」下冊的第二單元『東南亞』。 (6) 99 課綱將 95 暫綱的第九單元『中南美洲』調整至「區域地理」 下冊,此單元改為 95 暫綱中「區域地理」下冊的第一單元『西 亞』。 3. 必修科目「區域地理」下冊: (1) 99 課綱將 95 暫綱的第一單元『西亞』調整至「區域地理」上冊, 此單元改為 95 暫綱中「區域地理」上冊的第九單元『中南美洲』。 並將主題三由『經濟的發展與困境』修改為『政治經濟的發展與 困境』,且刪除主題四個案。 (2) 99 課綱將 95 暫綱的第二單元『東南亞』調整至「區域地理」上
冊,此單元改為 95 暫綱中「區域地理」上冊的七單元『非洲』。 並將主題三『人口與環境問題』的概念並入主題一、二說明,且 增列主題三『黑人文化』。 三、 公民與社會學科部分(中等教育司,2009b): 1. 必修科目「自我、社會與文化」: (1) 參照 95 暫綱但重新設計各主題為:『自我成長』、『人己關係』、『人 權』、『公益』、『公民參與』、『媒體識讀』、『文化位階』及『多元 文化』;其中主題一、二討論自我發展與成長的問題,主題三〜 五討論人權與公民社會的問題,主題六〜八討論文化之多元與平 等的問題,這幾個主題可共同構成後續三個單元的相關基礎。 (2) 新增加『人權』與『媒體識讀』主題,可增進學生的公民權利意 識及對現實社會的認識與瞭解,並且可以和單元二、三的『人權』 與相關主題有所呼應。文化主題則除原有的『多元文化』之外, 更進一步強調文化位階、多元平等發展的面向。 2. 必修科目「政治與民主」: (1) 單元二內容以國家、政府與民主制度為核心,同時介紹憲政主 義、依法行政等概念,有助於第三單元,即在民主政治之下,以 憲法為主的法律規範及其概念之開展。 (2) 本單元名稱源自 95 暫綱的「政府與民主政治」。其中將「政府」 修改為「政治」, 取「政治」一詞是社會科學學科畫分的最上層 觀念,而政府體制則是政治科學下層的概念,如此,亦符合課程 綱要之核心能力,有關認識政治科學領域基本知識的目的。並 且,因民主是當前人類社會追求的首要政治目標,標題標示「民 主」,有助於學生明瞭本單元的最終學習目標。 (3) 本單元大致遵循 95 暫綱的基本架構,但內容份量有所減輕,主
題順序略有調整。本次修訂的主要前提,在建立高中生階段應具 備的基本政治學知識,並對我國當前的國內、外政治情勢與制度 能夠有所認識。 3. 必修科目「道德與法律規範」: (1) 基於「道德與法律規範」共屬社會規範的特性,本單元以此為主 軸,且增加兩者的整合性;原 95 暫綱中「教育」的內涵,則融 入各單元之中。 (2) 本單元中一、二主題與「道德」相關,分別由社會規範及個人發 展兩個面向加以闡述,可凸顯本課程對於當代公民德行養成的明 確具體內容,且彰顯本課程對於道德認知、情感與行動等層面兼 顧,以及現代生活中多元道德思考、判斷與溝通論辯的重視。 (3) 遵循 95 暫綱「法律」部分的學習目標與精神,唯在課程內容方 面略為減輕,調整 95 暫綱中各主題間、各主要內容間的縱向連 接關係,將 95 暫綱中比較抽象的內容名稱,以較為具體的內容 名稱替代之,並且加強法律知識系統的周延性和逐步發展性。 (4) 首先說明法律做為現代社會主要規範體系的特質,進而以憲政主 義為基礎,引導學生理解國家與人民之間的互動和權利義務關 係,並延伸至憲法如何落實,保障人民基本權利,再則說明憲法 的人權理念,如何化為更具體的行政法和行政程序基本原理原 則,深入人民日常生活當中。 (5) 本單元針對「民法」和日常生活的關係,以及刑法和刑事訴訟程 序對於人民之權利義務所發揮的規制作用予以說明,以便使即將 邁入成人社會生活的高中生,能夠充分理解民法與刑法所建構起 來的日常法律關係。再則以「刑事訴訟程序」、「民事訴訟程序」 與「行政救濟程序」等的基本原則說明,強調高中生應該理解的
訴訟程序和行政救濟程序內涵,以完整呈現「程序法」對於「實 體法」所發揮之落實功能。 4. 必修科目「經濟與永續發展」: (1) 簡化並重新安排 95 暫綱的相關內容。以主題五「永續發展」的 相關問題為主架構,藉由檢視此問題,延伸介紹經濟學分析方法。 (2) 各主題儘量納入「永續發展」相關課題,如主題三:「地球村」; 主題四的「國民所得」與「永續發展」的對照,引伸出包括綠色 GDP、社會公平、社會資本,以及主題五的「環境生態」等外部 性問題。由於永續發展屬於經濟學裡的「市場失靈」,因此先安 排主題一的「經濟制度」與主題二的「市場機能」。此外,因為 主題五涉及政府角色,故以主題六較完整的討論政府功能,包括 「公共財與租稅」問題。 (3) 考慮學習時數與培育公民素養之需要,本單元並不以追求完整的 經濟學架構,或完整的永續發展內涵為目標。 (4) 95 暫綱中的「總體經濟」以及「生產函數」部分,除非與「永 續發展」的理解有關,其他的部分均予以簡化或刪除。
貳
貳
貳
貳、
、
、
、試題命題原則
試題命題原則
試題命題原則
試題命題原則
高中教科書開放多個版本,在此一綱多本的設計下,各考科的命題都以普 通高中課程綱要所列之主要概念為原則,並依據各考科的測驗目標設計試題(財 團法人大學入學考試中心,2012)。由於本研究目的主要是在建置一個量尺化高 中學科能力測驗社會科之電腦化測驗題庫系統,故必須參照正式學科能力測驗 社會考科的命題方向,針對 95 暫綱及 99 課綱在社會考科方面各自的考試範圍及測驗目標進行建置,有關 95 暫綱及 99 課綱的比較如表 2.2 所示(財團法人 大學入學考試中心,2008;財團法人大學入學考試中心,2011);並依照此三大 項目標發展細項目標以制訂命題適切檢查表,因篇幅有限,表格整理置於附錄 一。 表 2.2 學科能力測驗社會考科考試範圍暨測驗目標比較表 95 暫綱 99 課綱 考試範圍 歷史:臺灣史、中國史、世界史 地理:通論地理、區域地理 公民與社會:心理、社會與文化; 教育、道德與法律;政府與民主 政治;經濟與永續發展 歷史:臺灣史、中國史、世界史 地理:通論地理、區域地理 公民與社會:自我、社會與文化; 政府與民主;道德與法律規範; 經濟與永續發展 測驗目標 一 評量考生是否明瞭社會考科的基 本知識,主要測驗各學科的基本 事實、概念、理論,是高中生學 習社會學科的基礎,故考生應當 要瞭解重要的基本概念,並能加 以分析與指認。 測驗考生是否明瞭社會學科的基 礎知識,主要測驗各學科的基本 事實、概念、理論,這些是高中 生學習社會學科的基礎,故考生 應當要了解重要的基本概念,並 能加以分析與指認。 測驗目標 二 評量考生是否具備社會考科的分 析方法與技能,此重於考生面對 各種社會科學研究時,透過對於 資(史)料性質的瞭解,有邏輯 性地蒐集與分類資料,並能分析 或展現資料,以突顯學科特性。 測驗考生是否了解社會學科的基 本 分 析 方 法 並 具 備 基 本 分 析 技 能。考生面對各種人文社會科學 研究時,須能透過對於資(史) 料性質的了解,有邏輯性地蒐集 與分類資料,並能分析資料。
95 暫綱 99 課綱 測驗目標 三 評量考生是否具備社會考科的解 釋、評論及生活應用能力,此著 重評量考生對於所呈現的資料與 事實能夠瞭解,包括史料的評論 與發展、區域環境特色的說明、 解決環境問題的程序與方法。 測驗考生是否具備社會學科基本 的解釋、評論及生活應用能力, 著重評量考生對於所呈現的資料 與事實能夠了解並應用,包括史 料的評論與發展、區域環境特色 的解釋說明、環境問題解決的程 序與方法等。 資料來源:財團法人大學入學考試中心(2008)。學科能力測驗暨指定科目考試各考科考試說明公告 學 測社會。取自http://www.ceec.edu.tw/95課綱考試說明/95 課綱(98 年施測)考試說明.htm;財團法人大學入 學 考 試 中 心 ( 2011 )。 學 科 能 力 測 驗 暨 指 定 科 目 考 試 各 考 科 考 試 說 明 公 告 學 測 社 會 。 取 自 http://www.ceec.edu.tw/99課綱考試說明/1000930/99 課綱考試說明.htm
第三節
第三節
第三節
第三節 電腦化測驗
電腦化測驗
電腦化測驗
電腦化測驗
電腦化測驗(Computer Based Tests, CBT)源自於傳統的紙筆測驗(Paper
Based Tests, PBT),由於九十年代起後電腦科技的快速興起,部分大型測驗亦轉
向以電腦單機操作的方向發展,經過數十年發展的歷史,國民中學學生基本學 力測驗推動工作委員會(2010)將電腦化測驗根據使用時機及理論根據的不同, 可簡單分為以下兩大類型:即常規型態與適性形式。
常規型態即電腦化測驗(Computer Based Tests, CBT)。狹義上來說,單指 運用電腦設備來施測;廣義上來說,只要用到資訊科技進行實施、協助或閱卷
等,皆可稱之為電腦化測驗。一般為了避免混淆,通常將 CBT 採用狹義的定義,
也就是傳統紙筆測驗的電腦化,測驗題目不會隨著學生答題狀況而調整或改變 數量(國民中學學生基本學力測驗推動工作委員會,2010)。
適性形式即電腦化適性測驗(Computer Adaptive Tests, CAT)。是依據試題 反應理論(Item Response Theory, IRT)為基礎而發展成的電腦化測驗,對應著 受試者能力的高低,給予不同的測驗題目;一般來說,試題可能從隨機或中等 難度的題目作為測驗起始點,如果受試者答對,接下來的題目會再難一點,反 之若答錯則下一題會再簡單一點,施測過程中電腦根據作答者的反應情況進行 選題以符合受試者目前的能力,反覆進行直至達到預設的終止條件為止(國民 中學學生基本學力測驗推動工作委員會,2010)。 本研究因需建置一個電腦化的高中學科能力測驗社會科試題庫,不需依照 受試者作答反應調整試題或施測題數,故比照正式學科能力測驗的測驗方式, 在預試過程中採用傳統紙筆測驗來進行,利用電腦程式將收集的答題狀況(如 受試者能力、難度…等)等資料進行分析,交由專家學者修審試題,後續透過 電腦始將試題建置入庫,完成量尺化的高中學科能力測驗社會科題庫系統,可 供日後教學單位透過電腦線上施測介面來進行仿照學科能力測驗的校內測驗。
第三章
第三章
第三章
第三章 研究方法
研究方法
研究方法
研究方法
本研究依據 95 暫綱為基礎,並參考學科能力測驗社會科範圍及歷屆試題分 析資料,邀集專家學者共同訂定評量架構,以做為命題參考。透過中華學習效 能發展及教育學會(簡稱學效學會)舉辦聯合模擬考試進行預試後獲得受試學 生答題反應資料,將得到的資料進行信效度分析,再將分析結果回饋學效學會 邀集的專家學者進行修題與審題,作為後續提升本系統命題品質的依據;修審 完的試題重新依照 99 課綱的章節建議授課時數、學科能力測驗社會科的測驗範 圍以及財團法人大學入學考試中心公布的 99 課綱參考試卷說明製訂命題架 構,建置完成的量尺化高中學科能力測驗社會科之電腦化測驗題庫系統即可根 據 99 課綱的命題原則建立測驗試卷並出題施測。 以上主要的研究方法將根據試題反應理論中的測驗等化技術來執行,藉此 以建立題庫系統的統一量尺。測驗等化是利用統計方法將受試者在某一測驗的 分數轉換至另一測驗分數量尺,讓不同測驗的所得結果可以相互比較的一種程 序,簡單的說就是讓兩個測驗可以在同一個量尺上進行比較的一套方法;測驗 等化的目的是為了校準測驗難度的差異,而非測驗內容的差異(Kolen & Brennan,1995;吳裕益,1991)。量尺化的試題參數是指將試題參數(如難度值)經過校 準後,換算成同一量尺單位的指標(余民寧,1993a)。因為不同試卷之間存在 試題難度、鑑別度、猜測度等差異,故需透過測驗等化讓參加測驗的受試者在 兩次不同的測驗中所得的分數,藉由統一的標準來進行客觀且有效的比較。 Lord(1980)認為測驗分數的等化不應該受到試題內容和受試者能力分布 的影響,所以進行前需先確認是否滿足公平性(equity)、團體不變性(invariance
across groups)、對稱性(symmetry)和單向度(unidimensionality of the tests) 等以上四個特性(Hambleton & Swaminathan, 1985)。
第一節
第一節
第一節
第一節 研究流程
研究流程
研究流程
研究流程
本研究在量尺化題庫建置暨分工的研究流程圖,如圖 3.1。從蒐集資料開 始,學科能力測驗自民國 83 年開辦,而 91、92 年歷經甲、乙、丙案(此兩年 舉辦過重考),故共蒐集 83〜99 年總卷數為 19 卷的考試試題;由學效學會邀集 深具社會學科經驗的專家學者組成命題委員會,進行命題、試前審題挑選試題 及組卷的試務工作。經過高中生預試後,再將作答反應資料進行分析,透過分 析後結果重新交由命題小組修題、審題,最後才將完成的所有試題電腦入庫。 其中命題委員會主要工作將分別對 95 暫綱及 99 課綱建立命題架構,以便做為 後續進行命題、審題、修題的依據。 圖 3.1 量尺化題庫建置暨分工之研究流程圖資
料
蒐
集
資
料
蒐
集
資
料
蒐
集
資
料
蒐
集
召
開
命
題
委
員
會
分
配
命
題
指
標
召
開
命
題
委
員
會
分
配
命
題
指
標
召
開
命
題
委
員
會
分
配
命
題
指
標
召
開
命
題
委
員
會
分
配
命
題
指
標
依
照
命
題
原
則
命
題
依
照
命
題
原
則
命
題
依
照
命
題
原
則
命
題
依
照
命
題
原
則
命
題
題
本
編
製
與
測
驗
設
計
題
本
編
製
與
測
驗
設
計
題
本
編
製
與
測
驗
設
計
題
本
編
製
與
測
驗
設
計
事
前
審
題
挑
選
試
題
事
前
審
題
挑
選
試
題
事
前
審
題
挑
選
試
題
事
前
審
題
挑
選
試
題
組
織
試
卷
組
織
試
卷
組
織
試
卷
組
織
試
卷
高
三
生
預
試
高
三
生
預
試
高
三
生
預
試
高
三
生
預
試
作
答
反
應
分
析
作
答
反
應
分
析
作
答
反
應
分
析
作
答
反
應
分
析
分
析
後
修
審
試
題
分
析
後
修
審
試
題
分
析
後
修
審
試
題
分
析
後
修
審
試
題
試
題
置
入
題
庫
系
統
試
題
置
入
題
庫
系
統
試
題
置
入
題
庫
系
統
試
題
置
入
題
庫
系
統
中 華 學 習 效 能 發 展 及 教 育 學 會 國 立 臺 中 教 育 大 學 ( 本 研 究 者 ) 中 華 學 習 效 能 發 展 及 教 育 學 會 中 華 學 習 效 能 發 展 及 教 育 學 會 國 立 臺 中 教 育 大 學 ( 本 研 究 者 ) 國 立 臺 中 教 育 大 學 ( 本 研 究 者 )
量尺化題庫的建置過程中,欲進行兩兩測驗間的等化,需先確定收集到作 答反應資料在各測驗中有共同試題存在或是使用相同的受試者作答,故本研究 流程在題本編製與測驗設計上,將採用定錨不等組設計(Non-Equivalent Groups with Anchor Test Design, NEAT)。NEAT 設計是將題庫試題編製成不同之分測 驗,各分測驗間必須存有共同試題即定錨試題存在,進行施測時分別以不同之 分測驗於不同受試群,通常定錨試題在每群受試者的測驗順序是一樣的,以避 免順序因素的影響(Kolen & Brennan, 1995;Kolen & Brennan, 2004;余民寧, 1993b)。
本研究的 NEAT 設計,如表 3.1,把欲連結的 N 個分測驗,測驗 1、測驗 2、…、 測驗 N,給予 N 同的受試樣本 P1, P2,…,Pn,P1, P2,…,Pn 分別從受試母群 Q1,
Q2,…,Qn 中隨機抽出,且各組受試樣本皆需另外接受一份共同測驗 X,X 即為
定錨測驗 (Kolen & Brennan,1995;von Davier, Holland & Thayer, 2004)。 表 3.1 NEAT 設計 受試樣本群 測驗 1 測驗 2 … 測驗 N 定錨測驗 X P1 V V P2 V V … V V Pn V V 註:P1, P2,…,Pn是取自母群體 Q1, Q2,…,Qn的隨機樣本;“V”為受試者必須受測之測驗
第二節
第二節
第二節
第二節 研究步驟
研究步驟
研究步驟
研究步驟
本研究依據試題反應理論編製量尺化試題庫的程序,主要有「建立測驗題 數細目表」、「依據命題原則設計試題、審查及挑選試題」、「舉行預試」、「測驗 結果試題分析」、「修審並篩選試題」、「將試題內容與試題參數輸入電腦資料庫」等幾個步驟(Wainer, H. et al., 1990)。各研究步驟內容詳述如下: 一、 建立測驗題數細目表 此步驟主要工作項目有二:一是針對 95 暫綱和 99 課綱的能力指標進行分 析;二是透過學效學會組成命題委員會訂定命題架構並進行測驗題數的分配。 在第一項工作中,透過蒐集 17 年 19 卷的學科能力測驗高中社會科歷屆試題完 成資料分析,95 暫綱的能力指標和 99 課綱的能力指標整理於附錄二;第二項 工作項目的完成,則透過財團法人大學入學考試中心公布的參考試卷說明及各 章節建議授課時數,依照「教材內容」和「教學目標」作規劃,以教材內容為 橫軸,進一步訂定本研究命題架構之測驗題數細目表。 二、 依據命題原則設計試題、審查及挑選試題 學效學會組成的命題委員會,將根據上述步驟建立的命題架構,並參考正 式學科能力測驗社會科的命題方向及命題原則編製試題;在試題審查方面,具 有歷史、地理、公民與社會之各學科教學經驗專家教師將配合附錄一的命題適 切檢查表逐項確認之;在試題挑選方面,則根據以上建立完成的測驗題數細目 表進行各試卷的試題挑選。 三、 舉行預試 命題委員會根據以上命題程序將完成的社會科試題編製成紙筆試卷,題型 為選擇題,仿照聯合模擬考方式舉辦全省高中生預試,以即將參考學科能力測 驗的高三學生為主要邀請對象。 四、 測驗結果試題分析 在建置量尺化題庫的過程,將測驗結果進行試題分析是非常重要的研究步 驟,經由測量模式估計試題參數、受試者能力值以得知試題特性,或利用一般
性描述統計方法分析試題各項參數以得知測驗的穩定度,透過以上回饋資訊可 以提高試題庫的施測品質,讓學科能力測驗社會科的學習成就預測上更具成效。
五、 修審並篩選試題
本研究將剔除無效預試樣本,以有效樣本資料並進行試題的參數分析,進 行各試題分析方式與各試題選項的點二系列相關得到以上的估計參數值,依照 臺灣學生學習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA)對於不良試題的選擇標準(郭伯臣、曾建銘、吳慧珉,2011)進行檢測, 分別採古典測驗理論(classical test theory, CTT)及試題反應理論探討試題特性 及受試者能力分析,作為試題修審或篩選入庫的依據。研究者將標記為不良的 試題惠與學科專家進行剔除或需修審入庫的判斷;另本研究針對不良試題標記 的標準如下: 1. 依據古典測驗理論訂定的標準: (1) 試題通過率低於 0.25。 (2) 試題鑑別度指數介於 0 ~ 0.2 之間。 2. 依據試題反應理論訂定的標準: (1) 試題鑑別度參數介於 0 ~ 0.4 之間。 (2) 試題難度參數小於或等於-3 或試題難度參數大於或等於 3。 (3) 試題猜測度參數大於或等於 0.3。 六、 將試題內容與試題參數輸入電腦資料庫 將不良試題刪除或重新修審以得到符合入庫標準的試題數量,然合格的試 題需再配合 99 課綱之命題原則,進行題數細目分配,重新配題或修審試題,不 足的題數需經過命題檢核…等命題的審視步驟進行補題動作,最後完成課綱轉 換始可入試題的資料庫。
第三節
第三節
第三節
第三節 研究工具
研究工具
研究工具
研究工具
本節分別敘述本研究之研究工具,主要用到的統計軟體有二,分別為 SPSS 統計分析軟體以及 BILOG-MG 軟體,針對以上兩者研究工具茲做以下簡單說 明:壹
壹
壹
壹、
、
、
、SPSS 統計
統計
統計分析
統計
分析
分析軟體
分析
軟體
軟體
軟體
統計套裝軟體 SPSS 是一個用於進行統計學上資料分析及數據運算的輔助 決策工具,藉以進行基本統計分析、資料剖析及協助決策判斷。 本研究使用 SPSS12.0 版本之軟體以分析各分測驗的信度係數及效度係數 的相關分析。貳
貳
貳
貳、
、
、
、BILOG-MG 軟體
軟體
軟體
軟體
BILOG-MG 軟體主要用以估計出試題的參數值,如難度、鑑別度、猜測度 及受試者的能力值,也可提供測驗的訊息量、信度指數與測驗訊息曲線圖 (Zimowski, Muraki, Mislevy, & Bock, 2003)。本研究使用 BILOG-MG 軟體估計試題參數以及受試者能力值,估計得到的 參數可提供試題進行等化之用,依照等化後的試題參數值和模式適合度,可做 為未來試題修審及入庫使用的依據參考。
第四節
第四節
第四節
第四節 研究
研究
研究
研究範圍與限制
範圍與限制
範圍與限制
範圍與限制
壹
壹
壹
壹、
、
、
、研究試題方面
研究試題方面
研究試題方面
研究試題方面
本研究的命題原則為分析學科能力測驗社會科的歷屆試題所得,雖完整蒐 集了 17 年 19 卷的試題量,但由於課綱改變,所得的命題標準無法適用於 102 學年度以後的應考者,系統設計上已透過 95 暫綱對照 99 課綱以及財團法人大 學入學考試中心提供的參考試卷說明做轉換,然仍不足以實際對應得以逼近真 正的命題內容;再者因成本及時間不足,目前僅開發了 957 題,希望未來可以 逐年根據教學內容調整或教育政策上路有更清楚的新課綱命題標準,藉以修改 或新增更多的社會科試題,以充實本研究的試題庫內容。貳
貳
貳
貳、
、
、
、研究對象方面
研究對象方面
研究對象方面
研究對象方面
本研究透過學效學會舉行聯合模擬考方式辦理,邀請全省高中生進行預 試,然因時空及經費預算上的限制,僅能以北、中、南三地主要都市舉辦,總 樣本數為 33,173 人,研究結果可能會受到抽樣範圍的影響,造成推論上的誤差 或限制;另外受試者在應試時的作答心態與作答情形也很難等同於參與正式學 科能力測驗時謹慎小心,作答的認真程度亦可能影響測驗結果。第四章
第四章
第四章
第四章 研究結果
研究結果
研究結果
研究結果
第一節
第一節
第一節
第一節 社會科測驗題數細目表
社會科測驗題數細目表
社會科測驗題數細目表
社會科測驗題數細目表
本研究依照「教材內容」和「教學目標」作規劃,透過財團法人大學入學 考試中心公布的參考試卷說明及各章節建議授課時數,並考量歷屆試題的題數 配置,以教材內容為橫軸,訂定本研究命題架構之測驗題數細目表,如表 4.1。 表 4.1 學科能力測驗社會科之測驗題數細目表 評量內容 題數 單題出 題比例 學科出 題比例 1100、早期灣 1 1.39% 4.00% 1200、清代的長期統治 3 4.17% 12.00% 1300、日本統治時期 3 4.17% 12.00% 2300、近世的發展(宋、元明、清) 6 8.33% 24.00% 2400、近代的衝擊(晚清) 1 1.39% 4.00% 3100、古代文明的遺產 2 2.78% 8.00% 3200、普世宗教與中古文明 1 1.39% 4.00% 3300、世界文明的蛻變與互動 1 1.39% 4.00% 4100、遽變的時代 2 2.78% 8.00% 4300、歷史的轉折 2 2.78% 8.00% 4400、世界霸權的爭奪 2 2.78% 8.00% 歷史 科 4700、環境變遷(一):全球暖化 1 1.39% 4.00% 歷史科小計 25 34.72% 100.00% 5200、地圖 2 2.78% 9.09% 5400、地形 4 5.56% 18.18% 5500、氣候與水文 2 2.78% 9.09% 5700、第一級產業(農、林、漁、牧) 2 2.78% 9.09% 5800、第二級產業 2 2.78% 9.09% 5900、第三級產業(商業、遊憩、跨國企業) 1 1.39% 4.55% 51200、都市聚落與都市化 1 1.39% 4.55% 地理 科 6100、世界的劃分 3 4.17% 13.64%評量內容 題數 單題出 題比例 學科出 題比例 6800、南亞 2 2.78% 9.09% 61000、西亞 1 1.39% 4.55% 61800、中國的人口與都市 1 1.39% 4.55% 62000、中國的環境 1 1.39% 4.55% 地理科小計 22 30.56% 100.00% 7100、自我與社會 1 1.39% 4.00% 7200、性別差異與性別平等 1 1.39% 4.00% 7300、婚姻與家庭 1 1.39% 4.00% 7700、發現文化 1 1.39% 4.00% 7800、多元文化 2 2.78% 8.00% 8100、教育、公民素養與終身學習 1 1.39% 4.00% 8300、法律與社會規範 1 1.39% 4.00% 8400、憲法與人權 1 1.39% 4.00% 8600、民法與生活 1 1.39% 4.00% 8700、刑法與生活 1 1.39% 4.00% 8800、糾紛處理與權利救濟 2 2.78% 8.00% 9200、民主政治與公民德行 1 1.39% 4.00% 9300、政府的組織、功能與權限 2 2.78% 8.00% 9500、政黨政治與選舉制度 3 4.17% 12.00% 9700、兩岸關係 1 1.39% 4.00% 10200、市場經濟制度 1 1.39% 4.00% 10500、總體經濟指標 1 1.39% 4.00% 公民 與社 會科 10600、總體經濟政策 3 4.17% 12.00% 公民與社會科小計 25 34.72% 100.00% 總計 72 100.00% 本研究針對社會考科的評量架構建置完成後,歷史科和公民與社會科分別 佔整體 34.72%的出題比例,地理科佔整體 30.56%的出題比例,並得以下結果: 歷史科部分,以「近世的發展(宋、元明、清)」佔整體最大出題比例 8.33%; 地理科部分,以「地形」佔最大出題比例 5.56%;公民與社會科部分,以「政 黨政治與選舉制度」、「 總體經濟政策」兩項評量內容,佔最大出題比例 4.17%。
第二節
第二節
第二節
第二節 社會科預試
社會科預試
社會科預試
社會科預試試題
試題
試題
試題參數表
參數表
參數表
參數表
命題委員會根據命題程序總共完成社會科 1,020 個試題,其中歷史科 316 題、地理科 330 題、公民與社會科 374 題,最後將試題編製成紙筆試卷以進行 預試,每卷仿學科能力測驗社會科題數,共有 72 題。 在此列舉其中一份試卷為例,該卷經預試而得的試題參數表,如表 4.2。 表 4.2 社會科預試試題參數表 CTT IRT 題號 受測 人數 答對 人數 通過率 鑑別度 鑑別度 難度 猜測度 通過率 1 394 92 0.234 0.270 1.112 1.630 0.138 0.227 2 394 103 0.261 0.266 0.964 1.535 0.140 0.255 3 394 103 0.261 0.025 0.536 3.614 0.223 0.260 4 394 125 0.317 0.196 0.819 1.810 0.217 0.3105 394 253 0.642 -0.065 N/A N/A N/A N/A
6 394 247 0.627 0.324 0.595 -0.199 0.186 0.628 7 394 18 0.046 -0.169 N/A N/A N/A N/A
8 394 136 0.345 0.325 0.969 1.160 0.173 0.337 9 394 45 0.114 0.079 0.599 3.840 0.093 0.119 10 394 341 0.865 0.162 0.430 -2.363 0.212 0.868 11 394 181 0.459 0.285 0.808 0.886 0.238 0.451 12 394 268 0.680 0.333 0.775 -0.292 0.245 0.680 13 394 342 0.868 0.242 0.591 -1.896 0.202 0.873 14 394 99 0.251 0.111 0.812 2.422 0.198 0.247 15 394 283 0.718 0.321 0.665 -0.746 0.166 0.725 16 394 140 0.355 0.151 0.863 1.952 0.277 0.346 17 394 322 0.817 0.154 0.398 -1.863 0.229 0.818 18 394 229 0.581 0.126 0.329 0.427 0.242 0.579 19 394 91 0.231 0.078 0.640 3.194 0.193 0.230 20 394 259 0.657 0.191 0.445 -0.179 0.263 0.655
CTT IRT 題號 受測 人數 答對 人數 通過率 鑑別度 鑑別度 難度 猜測度 通過率 21 394 58 0.147 0.025 0.641 3.903 0.132 0.150 22 394 334 0.848 0.209 0.514 -1.802 0.234 0.850 23 394 307 0.779 0.262 0.597 -1.037 0.240 0.782 24 394 372 0.944 0.157 0.619 -2.864 0.202 0.948 25 394 370 0.939 0.259 0.867 -2.249 0.189 0.947 26 394 377 0.957 0.180 0.761 -2.722 0.206 0.961 27 394 251 0.637 0.323 0.726 -0.023 0.258 0.634 28 394 132 0.335 0.096 0.472 2.866 0.250 0.331 29 394 362 0.919 0.156 0.490 -2.847 0.223 0.920 30 394 41 0.104 0.028 0.633 4.291 0.096 0.110 31 394 355 0.901 0.209 0.620 -2.211 0.195 0.907 32 394 356 0.904 0.220 0.649 -2.188 0.188 0.910 33 394 348 0.883 0.159 0.410 -2.690 0.218 0.884 34 394 136 0.345 0.236 0.973 1.471 0.225 0.335 35 394 279 0.708 0.359 0.847 -0.340 0.279 0.706 36 394 386 0.980 0.076 0.498 -4.536 0.214 0.979 37 394 362 0.919 0.142 0.466 -3.019 0.204 0.921 38 394 192 0.487 0.203 0.505 1.059 0.251 0.482 39 394 156 0.396 0.145 0.503 1.980 0.257 0.390 40 394 284 0.721 0.044 0.242 -1.217 0.258 0.718 41 394 130 0.330 0.254 0.775 1.486 0.183 0.324 42 394 106 0.269 0.132 0.562 2.388 0.170 0.267 43 394 290 0.736 0.270 0.611 -0.842 0.192 0.741 44 394 375 0.952 0.105 0.446 -3.855 0.213 0.952 45 394 386 0.980 0.009 0.061 19.020 N/A N/A 46 394 308 0.782 0.218 0.559 -1.087 0.248 0.783 47 394 179 0.454 0.265 0.858 0.992 0.260 0.444
CTT IRT 題號 受測 人數 答對 人數 通過率 鑑別度 鑑別度 難度 猜測度 通過率 48 394 385 0.977 0.141 0.700 -3.482 0.199 0.979
49 394 188 0.477 -0.138 N/A N/A N/A N/A
50 394 173 0.439 0.246 0.726 1.103 0.242 0.431 51 394 188 0.477 0.305 0.717 0.667 0.199 0.472 52 394 202 0.513 0.379 0.747 0.244 0.132 0.513 53 394 248 0.629 0.335 0.736 -0.043 0.237 0.627 54 394 179 0.454 0.292 0.731 0.833 0.208 0.448 55 394 164 0.416 0.323 0.826 0.928 0.194 0.409 56 394 73 0.185 0.151 1.159 2.206 0.145 0.182 57 394 261 0.662 0.396 0.918 -0.256 0.211 0.664 58 394 359 0.911 0.265 0.832 -1.955 0.184 0.920
59 394 135 0.343 -0.115 N/A N/A N/A N/A
60 394 130 0.330 0.352 1.056 1.097 0.151 0.321 61 394 155 0.393 0.044 0.405 3.120 0.305 0.387 62 394 278 0.706 0.151 0.349 -0.861 0.227 0.705 63 394 303 0.769 0.235 0.491 -1.196 0.211 0.772 64 394 344 0.873 0.240 0.560 -2.019 0.207 0.878 65 394 166 0.421 0.325 0.747 0.842 0.169 0.417 66 394 25 0.063 0.191 1.052 2.668 0.043 0.068 67 394 55 0.140 0.015 0.740 3.681 0.127 0.143 68 394 175 0.444 0.321 0.685 0.801 0.180 0.440 69 394 37 0.094 0.077 0.656 3.771 0.078 0.100 70 394 45 0.114 0.163 0.603 3.038 0.063 0.119 71 394 38 0.096 0.198 0.969 2.474 0.060 0.099 72 394 118 0.299 0.358 0.979 1.165 0.121 0.293 分向度平均值 0.6712 0.5542 0.1957 0.5429 註:“N/A”表示前一項參數不佳而無法於其後求得之數值。
第三節
第三節
第三節
第三節 不良
不良
不良
不良試題
試題
試題
試題標記表
標記表
標記表
標記表
本研究以上述同一試卷為例,整理出不良試題標記表,如表 4.3,與學科專 家討論後,雖有部分的試題參數未達優良試題標準,但考量編製試題不易,檢 視試題後發現試題符合命題適切檢查表的項目,因此予以保留,第 5、7、45、 49、59 題,因古典鑑別度過低,並且通過率也不高,經學科專家判定,應是題 目太難所致,因此刪除此部分試題,其餘試題則保留並置入試題庫中;其他試 卷施測結果有標記不良試題的部分,採以上相同方式處理。最後篩選完成的試 題數量需高於或等於預計的 10 倍試題數量 720 題。 表 4.3 不良試題標記表 CTT IRT 不良 試題 題號 通 過 率 鑑 別 度 鑑 別 度 難 度 猜 測 度 通 過 率 標記不良原因 1 0.234 0.27 1.112 1.63 0.138 0.227 CTT 試題通過率低於 0.25 3 0.261 0.025 0.536 3.614 0.223 0.26 IRT 試題難度參數大於或等於 3 5 0.642 -0.065 N/A N/A N/A N/A CTT 試題鑑別度指數小於 07 0.046 -0.169 N/A N/A N/A N/A CTT 試題通過率低於 0.25
CTT 試題鑑別度指數小於 0 9 0.114 0.079 0.599 3.84 0.093 0.119 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 17 0.817 0.154 0.398 -1.863 0.229 0.818 IRT 試題鑑別度參數介於 0〜0.4 18 0.581 0.126 0.329 0.427 0.242 0.579 IRT 試題鑑別度參數介於 0〜0.4 19 0.231 0.078 0.64 3.194 0.193 0.23 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 21 0.147 0.025 0.641 3.903 0.132 0.15 IRT 試題難度參數大於或等於 3 30 0.104 0.028 0.633 4.291 0.096 0.11 IRT 試題難度參數大於或等於 3
CTT IRT 不良 試題 題號 通 過 率 鑑 別 度 鑑 別 度 難 度 猜 測 度 通 過 率 標記不良原因 36 0.98 0.076 0.498 -4.536 0.214 0.979 IRT 試題難度參數小於或等於-3 37 0.919 0.142 0.466 -3.019 0.204 0.921 IRT 試題難度參數小於或等於-3 40 0.721 0.044 0.242 -1.217 0.258 0.718 IRT 試題鑑別度參數介於 0〜0.4 44 0.952 0.105 0.446 -3.855 0.213 0.952 IRT 試題難度參數小於或等於-3 45 0.98 0.009 0.061 19.02 N/A N/A IRT 試題難度參數大於或等於 3 48 0.977 0.141 0.7 -3.482 0.199 0.979 IRT 試題難度參數小於或等於-3 49 0.477 -0.138 N/A N/A N/A N/A CTT 試題鑑別度指數小於 0 56 0.185 0.151 1.159 2.206 0.145 0.182 CTT 試題通過率低於 0.25 59 0.343 -0.115 N/A N/A N/A N/A CTT 試題鑑別度指數小於 0
61 0.393 0.044 0.405 3.12 0.305 0.387 IRT 試題難度參數大於或等於 3 IRT 試題猜測度參數大於 0.3 62 0.706 0.151 0.349 -0.861 0.227 0.705 IRT 試題鑑別度參數介於 0〜0.4 66 0.063 0.191 1.052 2.668 0.043 0.068 CTT 試題通過率低於 0.25 67 0.14 0.015 0.74 3.681 0.127 0.143 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 69 0.094 0.077 0.656 3.771 0.078 0.1 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 70 0.114 0.163 0.603 3.038 0.063 0.119 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3
第四節
第四節
第四節
第四節 試題分析結果探討
試題分析結果探討
試題分析結果探討
試題分析結果探討
將各卷及整體的試題參數做分向度平均值的估計,根據本研究中對於不良 試題所訂的標準:一、試題鑑別度參數介於 0〜0.4 之間;二、試題難度參數需小於或等於-3 或大於或等於 3;三、試題猜測度參數大於或等於 0.3。本研究整 體試題平均通過率介於 0.6048,而 IRT 的平均鑑別度為 0.6214,平均難度為 -0.1660,平均猜測度為 0.1995,以上均未落於不良試題標記的範圍,可見本試 題庫整體而言編製良好。 表 4.4 IRT 試題參數分向度平均值 平均鑑別度 平均難度 平均猜測度 測驗 1 0.6374 0.4384 0.2132 測驗 2 0.5096 -0.5667 0.2289 測驗 3 0.5945 -0.9895 0.2239 測驗 4 0.5722 -0.5680 0.2161 測驗 5 0.6290 -0.1750 0.2060 測驗 6 0.8328 0.9661 0.1859 測驗 7 0.5749 0.3809 0.1454 測驗 8 0.6655 -0.2253 0.1766 定錨測驗 0.6812 0.5625 0.1957 整體測驗 0.6214 -0.1660 0.1995
第五節
第五節
第五節
第五節信度分析
信度分析
信度分析
信度分析
信度(reliability)是測驗分數具有精確性或可靠性的程度,一般多以內部一 致性來加以表示該測驗信度的高低。本研究以 SPSS 軟體來分析信度,在社會 科試卷的信度方面,擬採 Cronbach’s α 數值來進行測驗的內部一致性分析,α 係 數是由 Cronbach 所發展的,當測驗的評分方式不只二分計分時,例如 likert 五 點量表,不能採用庫李信度,而須採用α 係數。Cronbach’s α 相關係數越高, 表示該題與其他題目的內部一致性越高,即表此一試卷的信度越高。本系統於 社會科試卷的測驗題數為 72 題,得信度為 0.692。第六節
第六節
第六節
第六節 效
效
效
效度分析
度分析
度分析
度分析
效度(validity)是指測驗分數的正確性,亦即一個測驗分數能夠測量到它 所想要的特質的程度。本研究使用效標關聯效度做為測驗的效度依據,透過比 較學生的預試成績以及學生實際參加學科能力測驗的成績,得到相關係數 0.688;除了預試成績之外,並利用試題反應理論進行分析,估計出每位學生的 能力值,藉以比較學生的能力值與學科能力測驗級分之間的相關,得相關係數 0.704,藉以驗證題庫試題的效度,如表 4.5 所示。 表 4.5 學科能力測驗級分 vs.預試成績及學科能力測驗級分 vs.能力值相關程度 科目 學科能力測驗級分 vs.預試成績 學科能力測驗級分 vs.能力值 社會 0.688*** 0.704*** *** p<0.001第五章
第五章
第五章
第五章 結論與建議
結論與建議
結論與建議
結論與建議
本研究透過測驗等化技術得以完成量尺化高中社會學科能力測驗的試題 庫,並建置成可應用於電腦化測驗的題庫系統。利用估計所有試題等化後之試 題參數值及其模式適合度,由研究之結果評估其成效,先進行測驗的內部一致 性分析,使用 Cronbach’s α 係數得到信度 0.692;另驗證題庫試題的效度,使用 效標關聯效度做分析,以學生預試的成績以及實際參加學科能力測驗後的成績 比較,得到相關係數 0.688;再求得每位學生的能力值數據,藉以比較學生能力 值與學科能力測驗級分之間的相關性,得到相關係數 0.704,上述具有高度相 關。據以上歸納可得,本研究結果於學科能力測驗社會科目中獲得的信效度皆 高,故可證明本系統在實際施測上將有不錯的預測成效,可做為預測高中生參 與學科能力測驗社會科考試前的良好預測工具。 在歷屆試題資料分析上,由於社會考科為歷史科、地理科和公民與社會科 三個學科的組合,整理時間略顯不足,建議若能在之後考量進每個時期的環境 趨勢進行配題分析,對於系統出題方面上或能更加準確。 由於學科能力測驗將於民國 102 年全面施測,目前所建置的試題庫勢必不 足以因應屆時課綱急遽變化產生學習能力指標上的差異,在針對 99 課綱的考題 應對來說是學生以及教師最大的困難,建議本研究建置完成的系統,若能根據 日後學科能力測驗施行每年更新命題架構藉以修審試題,並進行刪題、補題的 動作,將更有助於本系統預測學生學科能力測驗成績之功效。參考文獻
參考文獻
參考文獻
參考文獻
中文部分
中文部分
中文部分
中文部分
大學多元入學升學網(2012)。入學方案架構圖。臺北市:教育部。取自: http://nsdua.moe.edu.tw/index.php?option=com_content&task=view&id=13&Ite mid=49 中等教育司(2004)。普通高級中學課程暫行綱要。臺北市:教育部。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=8411 中 等 教 育 司 ( 2009a )。 普 通 高 級 中 學 地 理 科 課 程 綱 要 補 充 說 明 。 取 自 http://www.edu.tw/high-school/content.aspx?site_content_sn=23880 中等教育司(2009b)。普通高級中學公民與社會科課程綱要補充說明。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=23880 中等教育司(2011a)。普通高級中學課程綱要總綱。臺北市:教育部。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=8403 中等教育司(2011b)。普通高級中學歷史課程綱要。取自 http://www.edu.tw /high-school/content.aspx?site_content_sn=8403 行政院研究發展考核委員會(2012)。我國大學多元入學制度之評估研究。臺北 市:行政院研究發展考核委員會。 余民寧(1993a),「試題反應理論的介紹(十一):題庫的建立」,研習資訊研習資訊研習資訊研習資訊 10(4), 9-13。 余民寧(1993b)。試題反應理論的介紹(九)-測驗分數的等化(上)。研習資訊研習資訊研習資訊 10(2),研習資訊 6-11。吳裕益(1991)。IRT 等化法在題庫建立之應用。初等教育學報初等教育學報初等教育學報初等教育學報,,,4,, ,,,319-365。國 立臺南師範學院初等教育學系,臺南市。 財團法人大學入學考試中心(2002)。我國大學入學制度改革建議書。臺北市: 大學入學考試中心。 財團法人大學入學考試中心(2008)。學科能力測驗暨指定科目考試各考科考試 說明公告 學測-社會。取自http://www.ceec.edu.tw/95 課綱考試說明/95 課綱 (98 年施測)考試說明.htm 財團法人大學入學考試中心(2011)。學科能力測驗暨指定科目考試各考科考試 說明公告學測-社會。取自http://www.ceec.edu.tw/99 課綱考試說明/1000930/99 課綱考試說明.htm 財團法人大學入學考試中心(2012)。學科能力測驗—簡介。取自 http://www. ceec.edu.tw/abilityexam/AbilityExamProfile.htm 國民中學學生基本學力測驗推動工作委員會(2010)。「九十九年國民中學學生基 本學力測驗專輯」電腦化測驗的演進及發展。飛揚月刊飛揚月刊飛揚月刊飛揚月刊,,,,第第第 61 期第 期期期。2010 年 1 月,取自:http://www.bctest.ntnu.edu.tw/99annuals/flying61_5.html 教育部(2009)。「普通高級中學課程綱要」補充說明。教育部全球資訊網。中等 教育司/高中課程標準及課程綱要/普通高級中學課程綱要補充說明。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=23880 教育部 (2010)。「升學制度審議委員會總結報告。臺北市:教育部。取自 http://www.edu.tw/files/site_content/EDU01/教育部「升學制度審議委員會」總 結報告-詳版(定版)-990817(再修).pdf 郭伯臣、曾建銘、吳慧珉(2011)。大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於 TASA 之研之研之研之研 究 究 究 究。新北市:國家教育研究院。
張芳全(2007)。一綱多本的問題與對策。教師天地教師天地教師天地教師天地,,,特刊,特刊特刊特刊,,,,61-73。
英文部分
英文部分
英文部分
英文部分
Hambleton, R.K., & Swaminathan, H. (1985) . Item Response Theory: Principles and Application. Boston, MA:Kivwer-Nijhoff.
Kolen, M.J. & Brennan, R.L. (1995). Test Equating: Methods and Practices. New York: Springer-Verlag.
Kolen, M.J., & Brennan, R.L. (2004). Test equating, scaling and linking: Methods
and practices. 2nd Ed.
Lord, F.M. (1980). Applications of item response theory to practional testing
problems. Hillsdale, NJ: Lawrence Erlbawn Associates.
von Davier, A.A., Holland, P.W., & Thayer, D.T. (2004). The kernel method of test
equating. New York: Springer.
Wainer, H., Dorans, N.J., Flaugher, R., Green, B.F., Mislevy, R.J., Steinberg, L., & Thissen, D.(Eds.)(1990). Computerized adaptive testing: A primer. Hillsdale, NJ: Lawrence Erlbaum Associates.
Zimowski, M.F., Muraki, E., Mislevy, R.J., & Bock, R. (2003). BILOG-MG. Chicago, IL:Scientific Software International.