量尺化高中社會學科能力測驗的建置與應用

(1)

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：許天維博士

量尺化

量尺化高中

高中

高中社會學科能力測驗的建置與

社會學科能力測驗的建置與

應用

The Establishment and the Applications

for the Scaling of Social Studies in

General Scholastic Ability Test for

Ordinary Senior High School Students

研究生：許志良撰

(2)

I

謝

謝誌

誌

本研究感謝經濟部工業局民國 99 年 12 月 07 日數位內容產業發展補助計畫 99 年度第 07 次審議會核定通過之「高中數學個別指導行動教學輔助示範計畫（新技網路科技股份有限公司、毅夫文化事業股份有限公司）」，計畫編號 99-0094。

(3)

II

中文摘要

因應民國 97 年 1 月 24 日發布之普通高級中學課程綱要（簡稱 99 課綱），自 99 學年度高中一年級起逐年實施，大學入學考試中心舉辦的學科能力測驗將於民國 102 年改對 99 課綱進行施測。鑒於時值課綱轉換，目前尚未有針對 99 課綱建置並具有良好成效的高中社會學科能力測驗電腦化的題庫系統。因此本研究欲發展針對 99 課綱之高中學科能力測驗社會科量尺化題庫及評估該科題庫系統之信度與效度。依據 95 暫綱及學科能力測驗社會科歷屆試題，歸納出命題原則進行組卷；經高中生預試後，將得到的受試學生答題反應資料透過 SPSS 統計分析軟體進行信度與效度分析，並透過 BILOG-MG 軟體估計出受試者的能力值及試題參數，如難度、鑑別度、猜測度，最後將分析結果回饋給命題單位進行修題與審題，作為後續提升命題品質的依據。完成後的試題重新依照 99 課綱以及大學入學考試中心公布的參考試卷說明做調整後入庫。本研究研究結果顯示：一、本研究採用 Cronbach’s α 係數進行試卷的信度分析，測驗題數為 72 題，得測驗信度為 0.692，表示題庫具有良好的內部一致性。二、本研究使用效標關聯效度做為效度分析的依據，先比較學生預試成績和實際成績得相關係數 0.688；再根據試題反應理論估計出學生的能力值，比較能力值與學科能力測驗級分之間得相關係數 0.704，由以上兩種相關係數可驗證題庫的效度良好。三、本研究整體獲得的信效度皆高，證明可做為高中社會學科能力測驗之量尺化題庫。關鍵詞： 99 課綱、學科能力測驗、社會科、量尺化

(4)

III

Abstract

The Ordinary Senior High school Courses Interim Outline, announced on January 24, 2008 (Guidelines 99), was applied by College Entrance Examination Center to the first grade students of ordinary senior high schools since School Year 99. The achievement test on Guidelines 99 should be held in School Year 102. During the exchange of Guidelines, not yet any efficient computerized scaling item bank for social studies has been established. Therefore, the study aims at establishing the computerized scaling item bank for the subject of social studies, and examining its reliability and validity.

According to the temporary Guidelines 95, the test questions of social studies were collected from General Scholastic Ability Tests (GSAT) over the past decades. First, the researcher analyzed the question-formulating principles, and re-organized new test papers. Secondly, pre-tests were taken by senior high school students. The data was analyzed by SPSS to examine the reliability and validity. Tests’ ability positioning values and item parameters, such as item difficulty parameter, item discrimination parameter, and pseudo-chance parameter were also estimated through BILOG-MG. Thirdly, the tester team re-examined and modified new test questions from the outcomes. Bases on Guidelines 99 and its referential tests, the finalized questions were adjusted and collected in the new question item bank.

The results of the study indicate the followings:

1. Cronbach’s α coefficients were adopted to analyze the reliability of the test papers. The validity from a total of 72 questions scored 0.692, which showed fairly reliable internal equity.

(5)

IV

2. The Correlation coefficients of Criterion-related validity were adopted as the basis to examine the validity in the study. The comparison coefficient from students’ pre-tests and real GSAT tests scored 0.688. Students’ ability positioning values scaled by Item Response Theory (IRT) were compared with their rankings from GSAT; again, the correlation coefficient scored 0.704. The two correlation coefficients proved the fair validity of the test item bank.

3. Since both the reliability and the validity were of high-level, results of the study were qualified as the scaling item bank for social studies in GSAT.

Keywords: Guidelines 99, General Scholastic Ability Test (GSAT), social studies, scaling

(6)

V

謝誌 ...I 中文摘要 ... II Abstract... III 目錄 ... V 表目錄 ... VII 圖目錄 ... VIII 第一章緒論 ...1 第一節研究動機 ...1 第二節研究目的 ...5 第二章文獻探討 ...6 第一節學科能力測驗 ...6 第二節題庫試題編製 ...7 壹、 95 暫綱與 99 課綱的差異 ...7 貳、試題命題原則 ...12 第三節電腦化測驗 ...15 第三章研究方法 ...16 第一節研究流程 ...17 第二節研究步驟 ...18 第三節研究工具 ...21 壹、 SPSS 統計分析軟體 ...21 貳、 BILOG-MG 軟體 ...21 第四節研究範圍與限制 ...22 壹、研究試題方面 ...22 貳、研究對象方面 ...22 第四章研究結果 ...23 第一節社會科測驗題數細目表 ...23 第二節社會科預試試題參數表 ...25 第三節不良試題標記表 ...28 第四節試題分析結果探討 ...29 第五節信度分析 ...30 第六節效度分析 ...31 第五章結論與建議 ...32 參考文獻 ...33

(7)

VI 中文部分 ...33 英文部分 ...35 附錄一社會科命題適切檢查表 ...36 附錄二能力指標分析 ...40 附錄三學科能力測驗社會科參考試卷 ...66 附錄四計畫成果同意使用證明書 ...95

(8)

VII

表目錄

表 2.1 學科能力測驗社會考科公民與社會科考試說明比較表 ...7 表 2.2 學科能力測驗社會考科考試範圍暨測驗目標比較表 ...13 表 3.1 NEAT 設計 ...18 表 4.1 學科能力測驗社會科之測驗題數細目表 ...23 表 4.2 社會科預試試題參數表 ...25 表 4.3 不良試題標記表 ...28 表 4.4 IRT 試題參數分向度平均值 ...30 表 4.5 學科能力測驗級分 vs.預試成績及學科能力測驗級分 vs.能力值相關程度 ...31

(9)

VIII

圖目錄

圖 1.1 大學多元入學方案架構圖 ...2 圖 3.1 量尺化題庫建置暨分工之研究流程圖 ...17

(10)

第一章

緒論

第一節

第一節研究動機

研究動機

傳統大學聯招自民國 43 年起實施了 48 年之久，過往臺灣功績主義的意識形態加重了大學一紙文憑的份量，也長久引來各界輿論壓力，隨著時代推進，具有提升人力素質的高等教育，在選才制度上亦不得不進行教育改革，於民國 91 年開始大學多元入學方案。針對大學聯招政策的缺失，財團法人大學入學考試中心（2002）在民國 91 年提出的【我國大學入學制度改革建議書】中，即談到以多元入學方式替代大學聯招的三大具體目標，分別為：（1）學生學習與選擇方面：重視學習歷程、顧及學生性向與興趣、激勵向學動機、提供多元入學途徑、尊重家長教育選擇權、顧及弱勢族群教育機會；（2）學校特色與選才方面：尊重學校招生自主性、促進學校間均衡發展、輔導學校發展特色、建立學生多元價值觀念、多元評量學生學習成就、符合公平公正、公開的精神；（3）教育發展方面：促進學生五育均衡發展、提升適性教學品質、減緩過度升學競爭壓力。教育部（2010）在【升學制度審議委員會總結報告】中對各種升學管道的優缺點進行全面性的檢討，內容提及實施大學多元入學制度以來，學生升學壓力仍在的三大主因：（1）升學管道過於繁雜，仍有諸多家長和學生不瞭解實施內容；（2）傳統價值觀念影響，無法跳脫考試引導教學的弊病；（3）多元入學方案規劃未臻周延，無法合乎時勢的需求。如上述之檢討，高等教育在調整教育政策的比重也依循著公平性、選擇機會、卓越性等三個指標之順序，大學多元入學方案始能本就多元性、大學自主、學生適性發展…等理念更新；現階段屬於多元變革時期，從學校推薦、個人申請、繁星推薦、考試分發等入學管道，都回歸到注重於學生的適性發展為主要目標（行政院研究發展考核委員會，

(11)

2012）。故在升學流程設計上，也更努力避免會產生「一試定終身」的缺憾。由以下大學多元入學方案架構圖可見一斑，如圖 1.1。圖 1.1 大學多元入學方案架構圖資料來源資料來源資料來源資料來源：：：：大學多元入學升學網（2012）。入學方案架構圖。臺北市：教育部。取自： http://nsdua.moe.edu.tw/index.php?option=com_content&task=view&id=13&Itemid=49

(12)

在此多元入學架構之下，雖不單僅以一次考試就決定大學校系，但仍存在可讓大學作為選擇學生能力、興趣取向…等標準奠定的正式大型測驗，而最為通用的即為財團法人大學入學考試中心舉行的學科能力測驗，舉凡國內升學管道下的繁星推薦入學、個人申請入學、考試分發入學皆以學科能力測驗的成績，作為各自評量、篩選、檢定、…等的選才條件標準。因應如此的考試趨勢，家長或學校為了讓考生能在正式應考時有優異表現，參與模擬考試以培養臨場感和反應訓練是不二選擇，而模擬考試的成績更是作為考生掌握自我能力、修正讀書方向的不二工具。目前來說，高中各校內通常會尋找區域學校聯合舉辦模擬考試，以求得大樣本的受試人數，同時也較接近實際考試的成績分布；但傳統模擬考試方式也一直存在著各回試卷難度不一、題型過於重複或近似教科書內容、題目觀念太過偏頗刁鑽…等問題，讓人質疑模擬考試成績預測學科能力測驗成績的有效性與可信度。目前國內大型考試，如基本學力測驗、學科能力測驗、指定科目考試等，皆透過常模將學生成績建立在同一把量尺上評斷，但傳統模擬考卻缺乏統一的測量標準供教師、學生或家長參考，實際情況是學校並無專門建置量尺化題庫的人資物力，而聯合模擬考試遂透過招標方式交由資訊廠商處理；模擬考廠商為了更貼近真實的考試情形，在辦理試題編製，如題型、題數、考試時間、分數計算方式…等，雖儘量仿照實際考試的內容來設計，但每次試題難度不一、內容參差不齊，又或配分標準與比例因出題者而異，加上成績統計以粗糙的方式進行，並未經過測驗等化求得真實量尺分數，這樣的測驗結果就不容易有助於教師評量學生或考生自我檢討。原高中能力指標為教育部中華民國 93 年 8 月 31 日以台中(一)字第○九三○ 一一二一三○號令修訂發布的普通高級中學課程暫行綱要（簡稱「95 暫綱」），適用 95 學年度以後入學的高一新生，現因應民國 97 年 1 月 24 日（台中（一）字第○九七○○一一六○四 B 號令修正）發布之普通高級中學課程綱要，將自 99

(13)

學年度高中一年級起逐年實施（簡稱「99 課綱」），惟國文科與歷史科內容及實施日期另案發布（教育部，2009）。而學科能力測驗亦於民國 102 年改為針對 99 課綱進行施測。新課綱上路，考生面臨了課綱的急遽變化，許多教育政策的配套措施不完全，加上一綱多本政策推動之下，一綱多本的一綱，如何訂定出合理規範？各種多樣版本如何達成一綱的內涵要求，卻又可以呈現多元特色？（張芳全，2007）以上眾多紛擾不定，導致考生學習上的徬徨無措、難以適從，家長因無法掌握現況的慌張焦慮、惶恐以對。其實歷年來針對國內大型測驗的相關研究或文獻多針對單一測驗的個別學科做試題探討，或某一年度的試題研究，或學業成績與大型測驗成績的關聯分析，更甚者有提出指定科目考試與學科能力測驗的相關比較，然在國中基本學力測驗部分偶見單一學科發展線上適性測驗系統之試題分析探索，在高中學科能力測驗部分卻未有直接發展可配合測驗等化（test equating）技術的試題研究，實為可惜。因此，如果能有一研究能針對以上所有問題，提供一個以目前教育政策上所使用的課綱為基礎的學科能力測驗試題庫，讓考題更貼近實際的出題標準，並將成績等同大型測驗作量尺分數的轉換，將更增加模擬考試的成效，並讓考生獲得更精準的學習方向；故本研究建置一個量尺化高中學科能力測驗社會科題庫系統，希冀能提供正規教學單位更豐沛的試題資源，並作為教育用途上一個良好的學科能力測驗成績預測工具，並能更有效的輔助學生學習和協助教師擬訂教學策略。

(14)

第二節

第二節研究目的

研究目的

依據上開研究動機，本研究擬針對社會科建置一個量尺化高中學科能力測驗題庫之電腦化測驗系統，以解決不同試卷間存在難易度等方面差異以及課綱轉換的問題；將依據 95 暫綱為基礎，參考學科能力測驗社會科範圍（高一至高二必修科目歷史、高一至高二必修科目地理、高一至高二必修科目公民與社會）及歷屆試題分析結果，邀集專家學者共同訂定命題原則並出題，試題經預試後取得受試者之答題反應，將所得資料進行信度與效度分析，再將分析結果回饋命題單位作為修題、審題之依據，藉由提升本研究試題品質，後續將修審完的試題依照 99 課綱及大學入學考試中心公布的社會科參考試題重新配置，並根據章節授課時數進行調整，始得建立量尺化高中學科能力測驗社會科電腦測驗題庫系統。在此歸納整理本研究之研究目的條列如下：一、建置『量尺化高中學科能力測驗社會科之電腦化測驗題庫系統』。二、評估『量尺化高中學科能力測驗社會科之電腦化測驗題庫系統』之功效。

(15)

第二章

第二章文獻探討

文獻探討

本研究欲實踐一個量尺化高中學科能力測驗社會科之電腦化測驗題庫系統，基於此目的，在此將建置過程中運用到的理論背景，如學科能力測驗、題庫試題編製及電腦化測驗分別進行主題式的文獻探討。

第一節

第一節學科能力測驗

學科能力測驗

「學科能力測驗」是各大學校系初步篩選學生的門檻依據，實施用意在於評量考生是否具有接受大學教育的基本學科能力。由於學科能力測驗側重評量考生進入大學的基本學科知能，故就現行大學多元入學方案而言，學科能力測驗主要作為「甄選入學制」的依據，即大學校系可以依其性質、需要，先訂定一個學科能力測驗成績標準（門檻），只要達到此一標準，並且在一定人數倍率以內的考生，才可以參加該校系自辦的指定項目甄試，進而擇優錄取（大學入學考試中心，2012）。社會考科測驗範圍為高一高二的歷史、高一高二的地理以及高一高二的公民與社會。學科能力測驗是以電腦可讀的題型為主，例如：選擇題（單選題、多選題）、選填題。另社會考科中的歷史、地理、公民與社會三科試題所佔比例相當；社會考科結合不同學科的設計，有考察考生綜合運用這些學科內容的用意。學科能力測驗各考科的成績計算皆採級分制，最高為 15 級分。級分的計算方式參見簡章說明（財團法人大學入學考試中心，2012）。社會考科包括歷史、地理、公民與社會三個學科，歷史知識的學習是以培養高中生對於歷史認識與分析的能力。地理知識的學習有助於高中生理解自然與人文因素如何形塑地理空間，並學習分析地理議題及解決地理問題的能力。

(16)

公民與社會知識的學習因課綱轉換有部分差異，如表 2.1。社會考科以人文社會相關學科基礎知識與技能為主要命題內容，歷史、地理、公民與社會三科試題依據課程標準分配（財團法人大學入學考試中心，2008；財團法人大學入學考試中心，2011）。表 2.1 學科能力測驗社會考科公民與社會科考試說明比較表考試說明 95 暫綱 99 課綱公民與社會科公民與社會是以提升學生具備適應現代社會生活應有的公民資質為目標，學習心理、社會、文化、教育、倫理、法律、政治、經濟及環境等多面向的公民基本知識，建立高中生多元價值觀與關懷心。公民與社會是以提升學生具備適應現代社會生活應有的公民資質為目標，學習社會、文化、政治、道德、法律、經濟、永續發展等多面向的公民基本知識，建立高中生多元價值觀與關懷心。

第二節

第二節題庫

題庫

題庫試題編製

試題編製

在編製學科能力測驗社會科的測驗試題上，為了使試題庫可具代表性，先整理出高中學科能力測驗自民國 83 年至 99 年所有的歷屆試題並參考高中目前學習的能力指標，以編製所需的測驗題數細目表，再依據此架構訂定試題命題原則以供遵循。以下將分別就學科能力測驗社會科探討 95 暫綱與 99 課綱的差異以及試題命題原則。

壹

壹、

、

、95 暫綱

暫綱

暫綱與

與

與 99 課綱

課綱

課綱的差異

的差異

95 暫綱為教育部於中華民國 93 年 8 月 31 日發布，中華民國 94 年 1 月 20 日修正發布的普通高級中學課程暫行綱要（中等教育司，2004），適用 95 學年度至 98 學年度入學的高一新生；而自 99 學年度起，至目前高中各學科學習上

(17)

遵循的能力指標都改為 99 課綱，此為教育部中華民國 97 年 1 月 24 日發布，中華民國 99 年 5 月 4 日修正發布，中華民國 100 年 7 月 14 日修正再發布的普通高級中學課程綱要（中等教育司，2011a）。茲針對社會科在兩個課綱之間的差異情形說明如下：一、歷史學科部分（中等教育司，2011b）： 1. 必修科目「臺灣史」：95 暫綱原有四大單元、12 主題及 25 重點，99 課綱調整為四大單元、13 主題及 28 重點；內容增加強調國際關係、族群互動、臺灣人民參與第二次世界大戰及民主運動發展等史實。 2. 必修科目「中國史」：95 暫綱原有六大單元、16 主題及 37 重點，99 課綱調整為六大單元、18 主題及 43 重點；內容增加主要有以下四項： (1) 增列第四單元晚清之變局以增進學生瞭解清末至 1949 年的社會經濟與文化。 (2) 強調各朝代學術思想與社會文化發展的特色。 (3) 強化宋、元、明至盛清時期貨幣經濟的發展、海上貿易的活動等內容。 (4) 有關 1949 年以前的民國史強調法制發展如臨時約法、憲法等的制訂及中外關係。 3. 必修科目「世界史」：95 暫綱原有九大單元、24 主題及 57 重點，99 課綱調整為五大單元、14 主題及 40 重點。在上中古史內容的差異及近代以後歷史的差異上作課程架構的調整；另增列中東、非洲、中南美洲等地區的發展。二、地理學科部分（中等教育司，2009a）：針對 95 暫綱有爭議的概念作修正，並加入必要的概念，僅作小幅度改變；修訂重點集中在主題、主要概念與具體目標的一貫性與配合度，各主要次領域並刪減了約 1/4 至 1/3 的主要概念之數目，以因應高中教師普遍反應授課時數不足之狀

(18)

況。部分單元名稱與主題順序考慮高一至高三之間的相互銜接，作先後順序上的調整。 1. 必修科目「通論地理」下冊：99 課綱刪除了 95 暫綱的第四單元『第四級產業』的用詞，以『高科技知識產業』一詞取代。 2. 必修科目「區域地理」上冊： (1) 99 課綱將 95 暫綱的第二單元名稱由『美國』改為『北美洲』，並刪減了主題四—美國面臨的發展問題。 (2) 99 課綱將 95 暫綱的第三單元名稱由『日本』改為『東北亞』，並增列了對東北中韓國的介紹，說明東北亞經濟圈在世界的地位與影響；另增列東北亞的觀光資源與文化特色。 (3) 99 課綱將 95 暫綱第四單元增列東歐的歐洲發展與歐洲個案實例。 (4) 99 課綱將 95 暫綱的第五單元名稱由『國協』改為『俄羅斯及國協』。 (5) 99 課綱將 95 暫綱的第七單元『非洲』調整至「區域地理」下冊，此單元改為 95 暫綱中「區域地理」下冊的第二單元『東南亞』。 (6) 99 課綱將 95 暫綱的第九單元『中南美洲』調整至「區域地理」下冊，此單元改為 95 暫綱中「區域地理」下冊的第一單元『西亞』。 3. 必修科目「區域地理」下冊： (1) 99 課綱將 95 暫綱的第一單元『西亞』調整至「區域地理」上冊，此單元改為 95 暫綱中「區域地理」上冊的第九單元『中南美洲』。並將主題三由『經濟的發展與困境』修改為『政治經濟的發展與困境』，且刪除主題四個案。 (2) 99 課綱將 95 暫綱的第二單元『東南亞』調整至「區域地理」上

(19)

冊，此單元改為 95 暫綱中「區域地理」上冊的七單元『非洲』。並將主題三『人口與環境問題』的概念並入主題一、二說明，且增列主題三『黑人文化』。三、公民與社會學科部分（中等教育司，2009b）： 1. 必修科目「自我、社會與文化」： (1) 參照 95 暫綱但重新設計各主題為：『自我成長』、『人己關係』、『人權』、『公益』、『公民參與』、『媒體識讀』、『文化位階』及『多元文化』；其中主題一、二討論自我發展與成長的問題，主題三〜五討論人權與公民社會的問題，主題六〜八討論文化之多元與平等的問題，這幾個主題可共同構成後續三個單元的相關基礎。 (2) 新增加『人權』與『媒體識讀』主題，可增進學生的公民權利意識及對現實社會的認識與瞭解，並且可以和單元二、三的『人權』與相關主題有所呼應。文化主題則除原有的『多元文化』之外，更進一步強調文化位階、多元平等發展的面向。 2. 必修科目「政治與民主」： (1) 單元二內容以國家、政府與民主制度為核心，同時介紹憲政主義、依法行政等概念，有助於第三單元，即在民主政治之下，以憲法為主的法律規範及其概念之開展。 (2) 本單元名稱源自 95 暫綱的「政府與民主政治」。其中將「政府」修改為「政治」，取「政治」一詞是社會科學學科畫分的最上層觀念，而政府體制則是政治科學下層的概念，如此，亦符合課程綱要之核心能力，有關認識政治科學領域基本知識的目的。並且，因民主是當前人類社會追求的首要政治目標，標題標示「民主」，有助於學生明瞭本單元的最終學習目標。 (3) 本單元大致遵循 95 暫綱的基本架構，但內容份量有所減輕，主

(20)

題順序略有調整。本次修訂的主要前提，在建立高中生階段應具備的基本政治學知識，並對我國當前的國內、外政治情勢與制度能夠有所認識。 3. 必修科目「道德與法律規範」： (1) 基於「道德與法律規範」共屬社會規範的特性，本單元以此為主軸，且增加兩者的整合性；原 95 暫綱中「教育」的內涵，則融入各單元之中。 (2) 本單元中一、二主題與「道德」相關，分別由社會規範及個人發展兩個面向加以闡述，可凸顯本課程對於當代公民德行養成的明確具體內容，且彰顯本課程對於道德認知、情感與行動等層面兼顧，以及現代生活中多元道德思考、判斷與溝通論辯的重視。 (3) 遵循 95 暫綱「法律」部分的學習目標與精神，唯在課程內容方面略為減輕，調整 95 暫綱中各主題間、各主要內容間的縱向連接關係，將 95 暫綱中比較抽象的內容名稱，以較為具體的內容名稱替代之，並且加強法律知識系統的周延性和逐步發展性。 (4) 首先說明法律做為現代社會主要規範體系的特質，進而以憲政主義為基礎，引導學生理解國家與人民之間的互動和權利義務關係，並延伸至憲法如何落實，保障人民基本權利，再則說明憲法的人權理念，如何化為更具體的行政法和行政程序基本原理原則，深入人民日常生活當中。 (5) 本單元針對「民法」和日常生活的關係，以及刑法和刑事訴訟程序對於人民之權利義務所發揮的規制作用予以說明，以便使即將邁入成人社會生活的高中生，能夠充分理解民法與刑法所建構起來的日常法律關係。再則以「刑事訴訟程序」、「民事訴訟程序」與「行政救濟程序」等的基本原則說明，強調高中生應該理解的

(21)

訴訟程序和行政救濟程序內涵，以完整呈現「程序法」對於「實體法」所發揮之落實功能。 4. 必修科目「經濟與永續發展」： (1) 簡化並重新安排 95 暫綱的相關內容。以主題五「永續發展」的相關問題為主架構，藉由檢視此問題，延伸介紹經濟學分析方法。 (2) 各主題儘量納入「永續發展」相關課題，如主題三：「地球村」；主題四的「國民所得」與「永續發展」的對照，引伸出包括綠色 GDP、社會公平、社會資本，以及主題五的「環境生態」等外部性問題。由於永續發展屬於經濟學裡的「市場失靈」，因此先安排主題一的「經濟制度」與主題二的「市場機能」。此外，因為主題五涉及政府角色，故以主題六較完整的討論政府功能，包括「公共財與租稅」問題。 (3) 考慮學習時數與培育公民素養之需要，本單元並不以追求完整的經濟學架構，或完整的永續發展內涵為目標。 (4) 95 暫綱中的「總體經濟」以及「生產函數」部分，除非與「永續發展」的理解有關，其他的部分均予以簡化或刪除。

貳

貳、

、

、試題命題原則

試題命題原則

高中教科書開放多個版本，在此一綱多本的設計下，各考科的命題都以普通高中課程綱要所列之主要概念為原則，並依據各考科的測驗目標設計試題（財團法人大學入學考試中心，2012）。由於本研究目的主要是在建置一個量尺化高中學科能力測驗社會科之電腦化測驗題庫系統，故必須參照正式學科能力測驗社會考科的命題方向，針對 95 暫綱及 99 課綱在社會考科方面各自的考試範圍

(22)

及測驗目標進行建置，有關 95 暫綱及 99 課綱的比較如表 2.2 所示（財團法人大學入學考試中心，2008；財團法人大學入學考試中心，2011）；並依照此三大項目標發展細項目標以制訂命題適切檢查表，因篇幅有限，表格整理置於附錄一。表 2.2 學科能力測驗社會考科考試範圍暨測驗目標比較表 95 暫綱 99 課綱考試範圍歷史：臺灣史、中國史、世界史地理：通論地理、區域地理公民與社會：心理、社會與文化；教育、道德與法律；政府與民主政治；經濟與永續發展歷史：臺灣史、中國史、世界史地理：通論地理、區域地理公民與社會：自我、社會與文化；政府與民主；道德與法律規範；經濟與永續發展測驗目標一評量考生是否明瞭社會考科的基本知識，主要測驗各學科的基本事實、概念、理論，是高中生學習社會學科的基礎，故考生應當要瞭解重要的基本概念，並能加以分析與指認。測驗考生是否明瞭社會學科的基礎知識，主要測驗各學科的基本事實、概念、理論，這些是高中生學習社會學科的基礎，故考生應當要了解重要的基本概念，並能加以分析與指認。測驗目標二評量考生是否具備社會考科的分析方法與技能，此重於考生面對各種社會科學研究時，透過對於資（史）料性質的瞭解，有邏輯性地蒐集與分類資料，並能分析或展現資料，以突顯學科特性。測驗考生是否了解社會學科的基本分析方法並具備基本分析技能。考生面對各種人文社會科學研究時，須能透過對於資（史）料性質的了解，有邏輯性地蒐集與分類資料，並能分析資料。

(23)

95 暫綱 99 課綱測驗目標三評量考生是否具備社會考科的解釋、評論及生活應用能力，此著重評量考生對於所呈現的資料與事實能夠瞭解，包括史料的評論與發展、區域環境特色的說明、解決環境問題的程序與方法。測驗考生是否具備社會學科基本的解釋、評論及生活應用能力，著重評量考生對於所呈現的資料與事實能夠了解並應用，包括史料的評論與發展、區域環境特色的解釋說明、環境問題解決的程序與方法等。資料來源：財團法人大學入學考試中心（2008）。學科能力測驗暨指定科目考試各考科考試說明公告學測社會。取自http://www.ceec.edu.tw/95課綱考試說明/95 課綱(98 年施測)考試說明.htm；財團法人大學入學考試中心（ 2011 ）。學科能力測驗暨指定科目考試各考科考試說明公告學測社會。取自 http://www.ceec.edu.tw/99課綱考試說明/1000930/99 課綱考試說明.htm

(24)

第三節

第三節電腦化測驗

電腦化測驗

電腦化測驗（Computer Based Tests, CBT）源自於傳統的紙筆測驗（Paper

Based Tests, PBT），由於九十年代起後電腦科技的快速興起，部分大型測驗亦轉

向以電腦單機操作的方向發展，經過數十年發展的歷史，國民中學學生基本學力測驗推動工作委員會（2010）將電腦化測驗根據使用時機及理論根據的不同，可簡單分為以下兩大類型：即常規型態與適性形式。

常規型態即電腦化測驗（Computer Based Tests, CBT）。狹義上來說，單指運用電腦設備來施測；廣義上來說，只要用到資訊科技進行實施、協助或閱卷

等，皆可稱之為電腦化測驗。一般為了避免混淆，通常將 CBT 採用狹義的定義，

也就是傳統紙筆測驗的電腦化，測驗題目不會隨著學生答題狀況而調整或改變數量（國民中學學生基本學力測驗推動工作委員會，2010）。

適性形式即電腦化適性測驗（Computer Adaptive Tests, CAT）。是依據試題反應理論（Item Response Theory, IRT）為基礎而發展成的電腦化測驗，對應著受試者能力的高低，給予不同的測驗題目；一般來說，試題可能從隨機或中等難度的題目作為測驗起始點，如果受試者答對，接下來的題目會再難一點，反之若答錯則下一題會再簡單一點，施測過程中電腦根據作答者的反應情況進行選題以符合受試者目前的能力，反覆進行直至達到預設的終止條件為止（國民中學學生基本學力測驗推動工作委員會，2010）。本研究因需建置一個電腦化的高中學科能力測驗社會科試題庫，不需依照受試者作答反應調整試題或施測題數，故比照正式學科能力測驗的測驗方式，在預試過程中採用傳統紙筆測驗來進行，利用電腦程式將收集的答題狀況（如受試者能力、難度…等）等資料進行分析，交由專家學者修審試題，後續透過電腦始將試題建置入庫，完成量尺化的高中學科能力測驗社會科題庫系統，可供日後教學單位透過電腦線上施測介面來進行仿照學科能力測驗的校內測驗。

(25)

第三章

第三章研究方法

研究方法

本研究依據 95 暫綱為基礎，並參考學科能力測驗社會科範圍及歷屆試題分析資料，邀集專家學者共同訂定評量架構，以做為命題參考。透過中華學習效能發展及教育學會（簡稱學效學會）舉辦聯合模擬考試進行預試後獲得受試學生答題反應資料，將得到的資料進行信效度分析，再將分析結果回饋學效學會邀集的專家學者進行修題與審題，作為後續提升本系統命題品質的依據；修審完的試題重新依照 99 課綱的章節建議授課時數、學科能力測驗社會科的測驗範圍以及財團法人大學入學考試中心公布的 99 課綱參考試卷說明製訂命題架構，建置完成的量尺化高中學科能力測驗社會科之電腦化測驗題庫系統即可根據 99 課綱的命題原則建立測驗試卷並出題施測。以上主要的研究方法將根據試題反應理論中的測驗等化技術來執行，藉此以建立題庫系統的統一量尺。測驗等化是利用統計方法將受試者在某一測驗的分數轉換至另一測驗分數量尺，讓不同測驗的所得結果可以相互比較的一種程序，簡單的說就是讓兩個測驗可以在同一個量尺上進行比較的一套方法；測驗等化的目的是為了校準測驗難度的差異，而非測驗內容的差異（Kolen & Brennan,

1995；吳裕益，1991）。量尺化的試題參數是指將試題參數（如難度值）經過校準後，換算成同一量尺單位的指標（余民寧，1993a）。因為不同試卷之間存在試題難度、鑑別度、猜測度等差異，故需透過測驗等化讓參加測驗的受試者在兩次不同的測驗中所得的分數，藉由統一的標準來進行客觀且有效的比較。 Lord（1980）認為測驗分數的等化不應該受到試題內容和受試者能力分布的影響，所以進行前需先確認是否滿足公平性（equity）、團體不變性（invariance

across groups）、對稱性（symmetry）和單向度（unidimensionality of the tests）等以上四個特性（Hambleton & Swaminathan, 1985）。

(26)

第一節

第一節研究流程

研究流程

本研究在量尺化題庫建置暨分工的研究流程圖，如圖 3.1。從蒐集資料開始，學科能力測驗自民國 83 年開辦，而 91、92 年歷經甲、乙、丙案（此兩年舉辦過重考），故共蒐集 83〜99 年總卷數為 19 卷的考試試題；由學效學會邀集深具社會學科經驗的專家學者組成命題委員會，進行命題、試前審題挑選試題及組卷的試務工作。經過高中生預試後，再將作答反應資料進行分析，透過分析後結果重新交由命題小組修題、審題，最後才將完成的所有試題電腦入庫。其中命題委員會主要工作將分別對 95 暫綱及 99 課綱建立命題架構，以便做為後續進行命題、審題、修題的依據。圖 3.1 量尺化題庫建置暨分工之研究流程圖

資

料

蒐

集

資

料

蒐

集

資

料

蒐

集

資

料

蒐

集

召

開

命

題

委

員

會

分

配

命

題

指

標

召

開

命

題

委

員

會

分

配

命

題

指

標

召

開

命

題

委

員

會

分

配

命

題

指

標

召

開

命

題

委

員

會

分

配

命

題

指

標

依

照

命

題

原

則

命

題

依

照

命

題

原

則

命

題

依

照

命

題

原

則

命

題

依

照

命

題

原

則

命

題

本

編

製

與

測

驗

設

計

題

本

編

製

與

測

驗

設

計

題

本

編

製

與

測

驗

設

計

題

本

編

製

與

測

驗

設

計

事

前

審

題

挑

選

試

題

事

前

審

題

挑

選

試

題

事

前

審

題

挑

選

試

題

事

前

審

題

挑

選

試

題

組

織

試

卷

組

織

試

卷

組

織

試

卷

組

織

試

卷

高

三

生

預

試

高

三

生

預

試

高

三

生

預

試

高

三

生

預

試

作

答

反

應

分

析

作

答

反

應

分

析

作

答

反

應

分

析

作

答

反

應

分

析

分

析

後

修

審

試

題

分

析

後

修

審

試

題

分

析

後

修

審

試

題

分

析

後

修

審

試

題

試

題

置

入

題

庫

系

統

試

題

置

入

題

庫

系

統

試

題

置

入

題

庫

系

統

試

題

置

入

題

庫

系

統

中華學習效能發展及教育學會國立臺中教育大學 ( 本研究者 ) 中華學習效能發展及教育學會中華學習效能發展及教育學會國立臺中教育大學 ( 本研究者 ) 國立臺中教育大學 ( 本研究者 )

(27)

量尺化題庫的建置過程中，欲進行兩兩測驗間的等化，需先確定收集到作答反應資料在各測驗中有共同試題存在或是使用相同的受試者作答，故本研究流程在題本編製與測驗設計上，將採用定錨不等組設計（Non-Equivalent Groups with Anchor Test Design, NEAT）。NEAT 設計是將題庫試題編製成不同之分測驗，各分測驗間必須存有共同試題即定錨試題存在，進行施測時分別以不同之分測驗於不同受試群，通常定錨試題在每群受試者的測驗順序是一樣的，以避免順序因素的影響(Kolen & Brennan, 1995；Kolen & Brennan, 2004；余民寧， 1993b)。

本研究的 NEAT 設計，如表 3.1，把欲連結的 N 個分測驗，測驗 1、測驗 2、…、測驗 N，給予 N 同的受試樣本 P1, P2,…,Pn，P1, P2,…,Pn 分別從受試母群 Q1,

Q2,…,Qn 中隨機抽出，且各組受試樣本皆需另外接受一份共同測驗 X，X 即為

定錨測驗 (Kolen & Brennan,1995；von Davier, Holland & Thayer, 2004)。表 3.1 NEAT 設計受試樣本群測驗 1 測驗 2 _… 測驗 N 定錨測驗 X P1 V V P2 V V … V V Pn V V 註：P1, P2,…,Pn是取自母群體 Q1, Q2,…,Qn的隨機樣本；“V”為受試者必須受測之測驗

第二節

第二節研究步驟

研究步驟

本研究依據試題反應理論編製量尺化試題庫的程序，主要有「建立測驗題數細目表」、「依據命題原則設計試題、審查及挑選試題」、「舉行預試」、「測驗結果試題分析」、「修審並篩選試題」、「將試題內容與試題參數輸入電腦資料庫」

(28)

等幾個步驟（Wainer, H. et al., 1990)。各研究步驟內容詳述如下：一、建立測驗題數細目表此步驟主要工作項目有二：一是針對 95 暫綱和 99 課綱的能力指標進行分析；二是透過學效學會組成命題委員會訂定命題架構並進行測驗題數的分配。在第一項工作中，透過蒐集 17 年 19 卷的學科能力測驗高中社會科歷屆試題完成資料分析，95 暫綱的能力指標和 99 課綱的能力指標整理於附錄二；第二項工作項目的完成，則透過財團法人大學入學考試中心公布的參考試卷說明及各章節建議授課時數，依照「教材內容」和「教學目標」作規劃，以教材內容為橫軸，進一步訂定本研究命題架構之測驗題數細目表。二、依據命題原則設計試題、審查及挑選試題學效學會組成的命題委員會，將根據上述步驟建立的命題架構，並參考正式學科能力測驗社會科的命題方向及命題原則編製試題；在試題審查方面，具有歷史、地理、公民與社會之各學科教學經驗專家教師將配合附錄一的命題適切檢查表逐項確認之；在試題挑選方面，則根據以上建立完成的測驗題數細目表進行各試卷的試題挑選。三、_舉行預試命題委員會根據以上命題程序將完成的社會科試題編製成紙筆試卷，題型為選擇題，仿照聯合模擬考方式舉辦全省高中生預試，以即將參考學科能力測驗的高三學生為主要邀請對象。四、_{測驗結果試題分析} 在建置量尺化題庫的過程，將測驗結果進行試題分析是非常重要的研究步驟，經由測量模式估計試題參數、受試者能力值以得知試題特性，或利用一般

(29)

性描述統計方法分析試題各項參數以得知測驗的穩定度，透過以上回饋資訊可以提高試題庫的施測品質，讓學科能力測驗社會科的學習成就預測上更具成效。

五、修審並篩選試題

本研究將剔除無效預試樣本，以有效樣本資料並進行試題的參數分析，進行各試題分析方式與各試題選項的點二系列相關得到以上的估計參數值，依照臺灣學生學習成就評量資料庫（Taiwan Assessment of Student Achievement, TASA）對於不良試題的選擇標準（郭伯臣、曾建銘、吳慧珉，2011）進行檢測，分別採古典測驗理論（classical test theory, CTT）及試題反應理論探討試題特性及受試者能力分析，作為試題修審或篩選入庫的依據。研究者將標記為不良的試題惠與學科專家進行剔除或需修審入庫的判斷；另本研究針對不良試題標記的標準如下： 1. 依據古典測驗理論訂定的標準： (1) 試題通過率低於 0.25。 (2) 試題鑑別度指數介於 0 ~ 0.2 之間。 2. 依據試題反應理論訂定的標準： (1) 試題鑑別度參數介於 0 ~ 0.4 之間。 (2) 試題難度參數小於或等於-3 或試題難度參數大於或等於 3。 (3) 試題猜測度參數大於或等於 0.3。六、將試題內容與試題參數輸入電腦資料庫將不良試題刪除或重新修審以得到符合入庫標準的試題數量，然合格的試題需再配合 99 課綱之命題原則，進行題數細目分配，重新配題或修審試題，不足的題數需經過命題檢核…等命題的審視步驟進行補題動作，最後完成課綱轉換始可入試題的資料庫。

(30)

第三節

第三節研究工具

研究工具

本節分別敘述本研究之研究工具，主要用到的統計軟體有二，分別為 SPSS 統計分析軟體以及 BILOG-MG 軟體，針對以上兩者研究工具茲做以下簡單說明：

壹

壹、

、

、SPSS 統計

統計

統計分析

統計

分析

分析軟體

分析

軟體

統計套裝軟體 SPSS 是一個用於進行統計學上資料分析及數據運算的輔助決策工具，藉以進行基本統計分析、資料剖析及協助決策判斷。本研究使用 SPSS12.0 版本之軟體以分析各分測驗的信度係數及效度係數的相關分析。

貳

貳、

、

、BILOG-MG 軟體

軟體

BILOG-MG 軟體主要用以估計出試題的參數值，如難度、鑑別度、猜測度及受試者的能力值，也可提供測驗的訊息量、信度指數與測驗訊息曲線圖（Zimowski, Muraki, Mislevy, & Bock, 2003）。

本研究使用 BILOG-MG 軟體估計試題參數以及受試者能力值，估計得到的參數可提供試題進行等化之用，依照等化後的試題參數值和模式適合度，可做為未來試題修審及入庫使用的依據參考。

(31)

第四節

第四節研究

研究

研究範圍與限制

範圍與限制

壹

壹、

、

、研究試題方面

研究試題方面

本研究的命題原則為分析學科能力測驗社會科的歷屆試題所得，雖完整蒐集了 17 年 19 卷的試題量，但由於課綱改變，所得的命題標準無法適用於 102 學年度以後的應考者，系統設計上已透過 95 暫綱對照 99 課綱以及財團法人大學入學考試中心提供的參考試卷說明做轉換，然仍不足以實際對應得以逼近真正的命題內容；再者因成本及時間不足，目前僅開發了 957 題，希望未來可以逐年根據教學內容調整或教育政策上路有更清楚的新課綱命題標準，藉以修改或新增更多的社會科試題，以充實本研究的試題庫內容。

貳

貳、

、

、研究對象方面

研究對象方面

本研究透過學效學會舉行聯合模擬考方式辦理，邀請全省高中生進行預試，然因時空及經費預算上的限制，僅能以北、中、南三地主要都市舉辦，總樣本數為 33,173 人，研究結果可能會受到抽樣範圍的影響，造成推論上的誤差或限制；另外受試者在應試時的作答心態與作答情形也很難等同於參與正式學科能力測驗時謹慎小心，作答的認真程度亦可能影響測驗結果。

(32)

第四章

第四章研究結果

研究結果

第一節

第一節社會科測驗題數細目表

社會科測驗題數細目表

本研究依照「教材內容」和「教學目標」作規劃，透過財團法人大學入學考試中心公布的參考試卷說明及各章節建議授課時數，並考量歷屆試題的題數配置，以教材內容為橫軸，訂定本研究命題架構之測驗題數細目表，如表 4.1。表 4.1 學科能力測驗社會科之測驗題數細目表評量內容題數單題出題比例學科出題比例 1100、早期灣 1 1.39% 4.00% 1200、清代的長期統治 3 4.17% 12.00% 1300、日本統治時期 3 4.17% 12.00% 2300、近世的發展（宋、元明、清） 6 8.33% 24.00% 2400、近代的衝擊（晚清） 1 1.39% 4.00% 3100、古代文明的遺產 2 2.78% 8.00% 3200、普世宗教與中古文明 1 1.39% 4.00% 3300、世界文明的蛻變與互動 1 1.39% 4.00% 4100、遽變的時代 2 2.78% 8.00% 4300、歷史的轉折 2 2.78% 8.00% 4400、世界霸權的爭奪 2 2.78% 8.00% 歷史科 4700、環境變遷（一）：全球暖化 1 1.39% 4.00% 歷史科小計 25 34.72% 100.00% 5200、地圖 2 2.78% 9.09% 5400、地形 4 5.56% 18.18% 5500、氣候與水文 2 2.78% 9.09% 5700、第一級產業（農、林、漁、牧） 2 2.78% 9.09% 5800、第二級產業 2 2.78% 9.09% 5900、第三級產業（商業、遊憩、跨國企業） 1 1.39% 4.55% 51200、都市聚落與都市化 1 1.39% 4.55% 地理科 6100、世界的劃分 3 4.17% 13.64%

(33)

評量內容題數單題出題比例學科出題比例 6800、南亞 2 2.78% 9.09% 61000、西亞 1 1.39% 4.55% 61800、中國的人口與都市 1 1.39% 4.55% 62000、中國的環境 1 1.39% 4.55% 地理科小計 22 30.56% 100.00% 7100、自我與社會 1 1.39% 4.00% 7200、性別差異與性別平等 1 1.39% 4.00% 7300、婚姻與家庭 1 1.39% 4.00% 7700、發現文化 1 1.39% 4.00% 7800、多元文化 2 2.78% 8.00% 8100、教育、公民素養與終身學習 1 1.39% 4.00% 8300、法律與社會規範 1 1.39% 4.00% 8400、憲法與人權 1 1.39% 4.00% 8600、民法與生活 1 1.39% 4.00% 8700、刑法與生活 1 1.39% 4.00% 8800、糾紛處理與權利救濟 2 2.78% 8.00% 9200、民主政治與公民德行 1 1.39% 4.00% 9300、政府的組織、功能與權限 2 2.78% 8.00% 9500、政黨政治與選舉制度 3 4.17% 12.00% 9700、兩岸關係 1 1.39% 4.00% 10200、市場經濟制度 1 1.39% 4.00% 10500、總體經濟指標 1 1.39% 4.00% 公民與社會科 10600、總體經濟政策 3 4.17% 12.00% 公民與社會科小計 25 34.72% 100.00% 總計 72 100.00% 本研究針對社會考科的評量架構建置完成後，歷史科和公民與社會科分別佔整體 34.72%的出題比例，地理科佔整體 30.56%的出題比例，並得以下結果：歷史科部分，以「近世的發展（宋、元明、清）」佔整體最大出題比例 8.33%；地理科部分，以「地形」佔最大出題比例 5.56%；公民與社會科部分，以「政黨政治與選舉制度」、「總體經濟政策」兩項評量內容，佔最大出題比例 4.17%。

(34)

第二節

第二節社會科預試

社會科預試

社會科預試試題

試題

試題參數表

參數表

命題委員會根據命題程序總共完成社會科 1,020 個試題，其中歷史科 316 題、地理科 330 題、公民與社會科 374 題，最後將試題編製成紙筆試卷以進行預試，每卷仿學科能力測驗社會科題數，共有 72 題。在此列舉其中一份試卷為例，該卷經預試而得的試題參數表，如表 4.2。表 4.2 社會科預試試題參數表 CTT IRT 題號受測人數答對人數通過率鑑別度鑑別度難度猜測度通過率 1 394 92 0.234 0.270 1.112 1.630 0.138 0.227 2 394 103 0.261 0.266 0.964 1.535 0.140 0.255 3 394 103 0.261 0.025 0.536 3.614 0.223 0.260 4 394 125 0.317 0.196 0.819 1.810 0.217 0.310

5 394 253 0.642 -0.065 N/A N/A N/A N/A

6 394 247 0.627 0.324 0.595 -0.199 0.186 0.628 7 394 18 0.046 -0.169 N/A N/A N/A N/A

8 394 136 0.345 0.325 0.969 1.160 0.173 0.337 9 394 45 0.114 0.079 0.599 3.840 0.093 0.119 10 394 341 0.865 0.162 0.430 -2.363 0.212 0.868 11 394 181 0.459 0.285 0.808 0.886 0.238 0.451 12 394 268 0.680 0.333 0.775 -0.292 0.245 0.680 13 394 342 0.868 0.242 0.591 -1.896 0.202 0.873 14 394 99 0.251 0.111 0.812 2.422 0.198 0.247 15 394 283 0.718 0.321 0.665 -0.746 0.166 0.725 16 394 140 0.355 0.151 0.863 1.952 0.277 0.346 17 394 322 0.817 0.154 0.398 -1.863 0.229 0.818 18 394 229 0.581 0.126 0.329 0.427 0.242 0.579 19 394 91 0.231 0.078 0.640 3.194 0.193 0.230 20 394 259 0.657 0.191 0.445 -0.179 0.263 0.655

(35)

CTT IRT 題號受測人數答對人數 _{通過率鑑別度鑑別度} _難度 _{猜測度通過率} 21 394 58 0.147 0.025 0.641 3.903 0.132 0.150 22 394 334 0.848 0.209 0.514 -1.802 0.234 0.850 23 394 307 0.779 0.262 0.597 -1.037 0.240 0.782 24 394 372 0.944 0.157 0.619 -2.864 0.202 0.948 25 394 370 0.939 0.259 0.867 -2.249 0.189 0.947 26 394 377 0.957 0.180 0.761 -2.722 0.206 0.961 27 394 251 0.637 0.323 0.726 -0.023 0.258 0.634 28 394 132 0.335 0.096 0.472 2.866 0.250 0.331 29 394 362 0.919 0.156 0.490 -2.847 0.223 0.920 30 394 41 0.104 0.028 0.633 4.291 0.096 0.110 31 394 355 0.901 0.209 0.620 -2.211 0.195 0.907 32 394 356 0.904 0.220 0.649 -2.188 0.188 0.910 33 394 348 0.883 0.159 0.410 -2.690 0.218 0.884 34 394 136 0.345 0.236 0.973 1.471 0.225 0.335 35 394 279 0.708 0.359 0.847 -0.340 0.279 0.706 36 394 386 0.980 0.076 0.498 -4.536 0.214 0.979 37 394 362 0.919 0.142 0.466 -3.019 0.204 0.921 38 394 192 0.487 0.203 0.505 1.059 0.251 0.482 39 394 156 0.396 0.145 0.503 1.980 0.257 0.390 40 394 284 0.721 0.044 0.242 -1.217 0.258 0.718 41 394 130 0.330 0.254 0.775 1.486 0.183 0.324 42 394 106 0.269 0.132 0.562 2.388 0.170 0.267 43 394 290 0.736 0.270 0.611 -0.842 0.192 0.741 44 394 375 0.952 0.105 0.446 -3.855 0.213 0.952 45 394 386 0.980 0.009 0.061 19.020 N/A N/A 46 394 308 0.782 0.218 0.559 -1.087 0.248 0.783 47 394 179 0.454 0.265 0.858 0.992 0.260 0.444

(36)

CTT IRT 題號受測人數答對人數 _{通過率鑑別度鑑別度} _難度 _{猜測度通過率} 48 394 385 0.977 0.141 0.700 -3.482 0.199 0.979

49 394 188 0.477 -0.138 N/A N/A N/A N/A

50 394 173 0.439 0.246 0.726 1.103 0.242 0.431 51 394 188 0.477 0.305 0.717 0.667 0.199 0.472 52 394 202 0.513 0.379 0.747 0.244 0.132 0.513 53 394 248 0.629 0.335 0.736 -0.043 0.237 0.627 54 394 179 0.454 0.292 0.731 0.833 0.208 0.448 55 394 164 0.416 0.323 0.826 0.928 0.194 0.409 56 394 73 0.185 0.151 1.159 2.206 0.145 0.182 57 394 261 0.662 0.396 0.918 -0.256 0.211 0.664 58 394 359 0.911 0.265 0.832 -1.955 0.184 0.920

59 394 135 0.343 -0.115 N/A N/A N/A N/A

60 394 130 0.330 0.352 1.056 1.097 0.151 0.321 61 394 155 0.393 0.044 0.405 3.120 0.305 0.387 62 394 278 0.706 0.151 0.349 -0.861 0.227 0.705 63 394 303 0.769 0.235 0.491 -1.196 0.211 0.772 64 394 344 0.873 0.240 0.560 -2.019 0.207 0.878 65 394 166 0.421 0.325 0.747 0.842 0.169 0.417 66 394 25 0.063 0.191 1.052 2.668 0.043 0.068 67 394 55 0.140 0.015 0.740 3.681 0.127 0.143 68 394 175 0.444 0.321 0.685 0.801 0.180 0.440 69 394 37 0.094 0.077 0.656 3.771 0.078 0.100 70 394 45 0.114 0.163 0.603 3.038 0.063 0.119 71 394 38 0.096 0.198 0.969 2.474 0.060 0.099 72 394 118 0.299 0.358 0.979 1.165 0.121 0.293 分向度平均值 0.6712 0.5542 0.1957 0.5429 註：“N/A”表示前一項參數不佳而無法於其後求得之數值。

(37)

第三節

第三節不良

不良

不良試題

試題

試題標記表

標記表

本研究以上述同一試卷為例，整理出不良試題標記表，如表 4.3，與學科專家討論後，雖有部分的試題參數未達優良試題標準，但考量編製試題不易，檢視試題後發現試題符合命題適切檢查表的項目，因此予以保留，第 5、7、45、 49、59 題，因古典鑑別度過低，並且通過率也不高，經學科專家判定，應是題目太難所致，因此刪除此部分試題，其餘試題則保留並置入試題庫中；其他試卷施測結果有標記不良試題的部分，採以上相同方式處理。最後篩選完成的試題數量需高於或等於預計的 10 倍試題數量 720 題。表 4.3 不良試題標記表 CTT IRT 不良試題題號通過率鑑別度鑑別度難度猜測度通過率標記不良原因 1 0.234 0.27 1.112 1.63 0.138 0.227 CTT 試題通過率低於 0.25 3 0.261 0.025 0.536 3.614 0.223 0.26 IRT 試題難度參數大於或等於 3 5 0.642 -0.065 N/A N/A N/A N/A CTT 試題鑑別度指數小於 0

7 0.046 -0.169 N/A N/A N/A N/A CTT 試題通過率低於 0.25

CTT 試題鑑別度指數小於 0 9 0.114 0.079 0.599 3.84 0.093 0.119 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 17 0.817 0.154 0.398 -1.863 0.229 0.818 IRT 試題鑑別度參數介於 0〜0.4 18 0.581 0.126 0.329 0.427 0.242 0.579 IRT 試題鑑別度參數介於 0〜0.4 19 0.231 0.078 0.64 3.194 0.193 0.23 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 21 0.147 0.025 0.641 3.903 0.132 0.15 IRT 試題難度參數大於或等於 3 30 0.104 0.028 0.633 4.291 0.096 0.11 IRT 試題難度參數大於或等於 3

(38)

CTT IRT 不良試題題號通過率鑑別度鑑別度難度猜測度通過率標記不良原因 36 0.98 0.076 0.498 -4.536 0.214 0.979 IRT 試題難度參數小於或等於-3 37 0.919 0.142 0.466 -3.019 0.204 0.921 IRT 試題難度參數小於或等於-3 40 0.721 0.044 0.242 -1.217 0.258 0.718 IRT 試題鑑別度參數介於 0〜0.4 44 0.952 0.105 0.446 -3.855 0.213 0.952 IRT 試題難度參數小於或等於-3 45 0.98 0.009 0.061 19.02 N/A N/A IRT 試題難度參數大於或等於 3 48 0.977 0.141 0.7 -3.482 0.199 0.979 IRT 試題難度參數小於或等於-3 49 0.477 -0.138 N/A N/A N/A N/A CTT 試題鑑別度指數小於 0 56 0.185 0.151 1.159 2.206 0.145 0.182 CTT 試題通過率低於 0.25 59 0.343 -0.115 N/A N/A N/A N/A CTT 試題鑑別度指數小於 0

61 0.393 0.044 0.405 3.12 0.305 0.387 IRT 試題難度參數大於或等於 3 IRT 試題猜測度參數大於 0.3 62 0.706 0.151 0.349 -0.861 0.227 0.705 IRT 試題鑑別度參數介於 0〜0.4 66 0.063 0.191 1.052 2.668 0.043 0.068 CTT 試題通過率低於 0.25 67 0.14 0.015 0.74 3.681 0.127 0.143 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 69 0.094 0.077 0.656 3.771 0.078 0.1 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3 70 0.114 0.163 0.603 3.038 0.063 0.119 CTT 試題通過率低於 0.25 IRT 試題難度參數大於或等於 3

第四節

第四節試題分析結果探討

試題分析結果探討

將各卷及整體的試題參數做分向度平均值的估計，根據本研究中對於不良試題所訂的標準：一、試題鑑別度參數介於 0〜0.4 之間；二、試題難度參數需

(39)

小於或等於-3 或大於或等於 3；三、試題猜測度參數大於或等於 0.3。本研究整體試題平均通過率介於 0.6048，而 IRT 的平均鑑別度為 0.6214，平均難度為 -0.1660，平均猜測度為 0.1995，以上均未落於不良試題標記的範圍，可見本試題庫整體而言編製良好。表 4.4 IRT 試題參數分向度平均值平均鑑別度平均難度平均猜測度測驗 1 0.6374 0.4384 0.2132 測驗 2 0.5096 -0.5667 0.2289 測驗 3 0.5945 -0.9895 0.2239 測驗 4 0.5722 -0.5680 0.2161 測驗 5 0.6290 -0.1750 0.2060 測驗 6 0.8328 0.9661 0.1859 測驗 7 0.5749 0.3809 0.1454 測驗 8 0.6655 -0.2253 0.1766 定錨測驗 0.6812 0.5625 0.1957 整體測驗 0.6214 -0.1660 0.1995

第五節

第五節信度分析

信度分析

信度（reliability）是測驗分數具有精確性或可靠性的程度，一般多以內部一致性來加以表示該測驗信度的高低。本研究以 SPSS 軟體來分析信度，在社會科試卷的信度方面，擬採 Cronbach’s α _{數值來進行測驗的內部一致性分析，}α _係數是由 Cronbach 所發展的，當測驗的評分方式不只二分計分時，例如 likert 五點量表，不能採用庫李信度，而須採用α _{係數。Cronbach’s} α _{相關係數越高，} 表示該題與其他題目的內部一致性越高，即表此一試卷的信度越高。本系統於社會科試卷的測驗題數為 72 題，得信度為 0.692。

(40)

第六節

第六節效

效

效度分析

度分析

效度（validity）是指測驗分數的正確性，亦即一個測驗分數能夠測量到它所想要的特質的程度。本研究使用效標關聯效度做為測驗的效度依據，透過比較學生的預試成績以及學生實際參加學科能力測驗的成績，得到相關係數 0.688；除了預試成績之外，並利用試題反應理論進行分析，估計出每位學生的能力值，藉以比較學生的能力值與學科能力測驗級分之間的相關，得相關係數 0.704，藉以驗證題庫試題的效度，如表 4.5 所示。表 4.5 學科能力測驗級分 vs.預試成績及學科能力測驗級分 vs.能力值相關程度科目學科能力測驗級分 vs.預試成績學科能力測驗級分 vs.能力值社會 0.688*** 0.704*** *** p<0.001

(41)

第五章

第五章結論與建議

結論與建議

本研究透過測驗等化技術得以完成量尺化高中社會學科能力測驗的試題庫，並建置成可應用於電腦化測驗的題庫系統。利用估計所有試題等化後之試題參數值及其模式適合度，由研究之結果評估其成效，先進行測驗的內部一致性分析，使用 Cronbach’s α 係數得到信度 0.692；另驗證題庫試題的效度，使用效標關聯效度做分析，以學生預試的成績以及實際參加學科能力測驗後的成績比較，得到相關係數 0.688；再求得每位學生的能力值數據，藉以比較學生能力值與學科能力測驗級分之間的相關性，得到相關係數 0.704，上述具有高度相關。據以上歸納可得，本研究結果於學科能力測驗社會科目中獲得的信效度皆高，故可證明本系統在實際施測上將有不錯的預測成效，可做為預測高中生參與學科能力測驗社會科考試前的良好預測工具。在歷屆試題資料分析上，由於社會考科為歷史科、地理科和公民與社會科三個學科的組合，整理時間略顯不足，建議若能在之後考量進每個時期的環境趨勢進行配題分析，對於系統出題方面上或能更加準確。由於學科能力測驗將於民國 102 年全面施測，目前所建置的試題庫勢必不足以因應屆時課綱急遽變化產生學習能力指標上的差異，在針對 99 課綱的考題應對來說是學生以及教師最大的困難，建議本研究建置完成的系統，若能根據日後學科能力測驗施行每年更新命題架構藉以修審試題，並進行刪題、補題的動作，將更有助於本系統預測學生學科能力測驗成績之功效。

(42)

參考文獻

中文部分

大學多元入學升學網（2012）。入學方案架構圖。臺北市：教育部。取自： http://nsdua.moe.edu.tw/index.php?option=com_content&task=view&id=13&Ite mid=49 中等教育司（2004）。普通高級中學課程暫行綱要。臺北市：教育部。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=8411 中等教育司（ 2009a ）。普通高級中學地理科課程綱要補充說明。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=23880 中等教育司（2009b）。普通高級中學公民與社會科課程綱要補充說明。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=23880 中等教育司（2011a）。普通高級中學課程綱要總綱。臺北市：教育部。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=8403 中等教育司（2011b）。普通高級中學歷史課程綱要。取自 http://www.edu.tw /high-school/content.aspx?site_content_sn=8403 行政院研究發展考核委員會（2012）。我國大學多元入學制度之評估研究。臺北市：行政院研究發展考核委員會。余民寧（1993a），「試題反應理論的介紹（十一）：題庫的建立」，研習資訊研習資訊研習資訊研習資訊 10(4)， 9-13。余民寧（1993b）。試題反應理論的介紹(九)-測驗分數的等化(上)。研習資訊研習資訊研習資訊 10(2)，研習資訊 6-11。

(43)

吳裕益（1991）。IRT 等化法在題庫建立之應用。初等教育學報初等教育學報初等教育學報初等教育學報，，，4，，，，，319-365。國 立臺南師範學院初等教育學系，臺南市。財團法人大學入學考試中心（2002）。我國大學入學制度改革建議書。臺北市：大學入學考試中心。財團法人大學入學考試中心（2008）。學科能力測驗暨指定科目考試各考科考試說明公告學測-社會。取自http://www.ceec.edu.tw/95 課綱考試說明/95 課綱 (98 年施測)考試說明.htm 財團法人大學入學考試中心（2011）。學科能力測驗暨指定科目考試各考科考試說明公告學測-社會。取自http://www.ceec.edu.tw/99 課綱考試說明/1000930/99 課綱考試說明.htm 財團法人大學入學考試中心（2012）。學科能力測驗—簡介。取自 http://www. ceec.edu.tw/abilityexam/AbilityExamProfile.htm 國民中學學生基本學力測驗推動工作委員會（2010）。「九十九年國民中學學生基本學力測驗專輯」電腦化測驗的演進及發展。飛揚月刊飛揚月刊飛揚月刊飛揚月刊，，，，第第第 61 期第期期期。2010 年 1 月，取自：http://www.bctest.ntnu.edu.tw/99annuals/flying61_5.html 教育部（2009）。「普通高級中學課程綱要」補充說明。教育部全球資訊網。中等教育司/高中課程標準及課程綱要/普通高級中學課程綱要補充說明。取自 http://www.edu.tw/high-school/content.aspx?site_content_sn=23880 教育部（2010）。「升學制度審議委員會總結報告。臺北市：教育部。取自 http://www.edu.tw/files/site_content/EDU01/教育部「升學制度審議委員會」總結報告-詳版(定版)-990817(再修).pdf 郭伯臣、曾建銘、吳慧珉（2011）。大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於大型標準化測驗建置流程應用於 TASA 之研之研之研之研究究究究。新北市：國家教育研究院。

(44)

張芳全(2007)。一綱多本的問題與對策。教師天地教師天地教師天地教師天地，，，特刊，特刊特刊特刊，，，，61-73。

英文部分

Hambleton, R.K., & Swaminathan, H. (1985) . Item Response Theory: Principles and Application. Boston, MA：Kivwer-Nijhoff.

Kolen, M.J. & Brennan, R.L. (1995). Test Equating: Methods and Practices. New York: Springer-Verlag.

Kolen, M.J., & Brennan, R.L. (2004). Test equating, scaling and linking: Methods

and practices. 2nd Ed.

Lord, F.M. (1980). Applications of item response theory to practional testing

problems. Hillsdale, NJ: Lawrence Erlbawn Associates.

von Davier, A.A., Holland, P.W., & Thayer, D.T. (2004). The kernel method of test

equating. New York: Springer.

Wainer, H., Dorans, N.J., Flaugher, R., Green, B.F., Mislevy, R.J., Steinberg, L., & Thissen, D.（Eds.）(1990). Computerized adaptive testing: A primer. Hillsdale, NJ: Lawrence Erlbaum Associates.

Zimowski, M.F., Muraki, E., Mislevy, R.J., & Bock, R. (2003). BILOG-MG. Chicago, IL:Scientific Software International.

量尺化高中社會學科能力測驗的建置與應用

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：許天維 博士

量尺化

量尺化

量尺化

量尺化高中

高中

高中

高中社會學科能力測驗的建置與

社會學科能力測驗的建置與

社會學科能力測驗的建置與

社會學科能力測驗的建置與

應用

應用

應用

應用

The Establishment and the Applications

for the Scaling of Social Studies in

General Scholastic Ability Test for

Ordinary Senior High School Students

研究生：許志良 撰

謝

謝

謝

謝誌

誌

誌

誌

中文摘要

中文摘要

中文摘要

中文摘要

Abstract

目錄

目錄

目錄

目錄

表目錄

表目錄

表目錄

表目錄

圖目錄

圖目錄

圖目錄

圖目錄

第一章

第一章

第一章

第一章

緒論

緒論

緒論

緒論

第一節

第一節

第一節

第一節 研究動機

研究動機

研究動機

研究動機

第二節

第二節

第二節

第二節 研究目的

研究目的

研究目的

研究目的

第二章

第二章

第二章

第二章 文獻探討

文獻探討

文獻探討

文獻探討

第一節

第一節

第一節

第一節 學科能力測驗

學科能力測驗

指導教授：許天維博士

研究生：許志良撰

第一節研究動機

第二節研究目的

第二章文獻探討

第一節學科能力測驗

第二節題庫

第三節電腦化測驗

第三章研究方法

第一節研究流程