量尺化高中英文學科能力測驗的建置與應用

(1)

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：許天維博士

量尺化

量尺化高中

高中

高中英文

英文

英文學科能力測驗

學科能力測驗

學科能力測驗的建置與

的建置與

應用

The Establishment and the Applications

for the Scaling of English in General

Scholastic Ability Test for Ordinary

Senior High School Students

研究生：楊淑媖撰

(2)

謝

謝誌

誌

本研究感謝經濟部工業局民國 99 年 12 月 07 日數位內容產業發展補助計畫

99 年度第 07 次審議會核定通過之「高中數學個別指導行動教學輔助示範計畫

（新技網路科技股份有限公司、毅夫文化事業股份有限公司）」，計畫編號

99-0094。

(3)

中文摘要

本研究旨在發展一個高中學科能力測驗英文科之量尺化題庫系統，除可提

供教師評估學生能力以及學生自我檢測的參考依據外，也可作為在高中學科能

力測驗英文科目上推估實際表現的一種預測工具。本研究主要分為兩個工作階

段：第一階段為命題、組卷及預試，先針對高中學科能力測驗歷屆試題進行質

的分析，即利用高中學習能力指標歸納以得到高中學科能力測驗英文科的命題

原則以及測驗題數細目表，藉此原則來出題並進行組卷，再透過量的分析，即

施測後所得的試題參數值（如：難度、鑑別度、猜測度）

、受試者能力值作為量

尺化試題庫建置的修正基礎，進而發展成一線上電腦測驗題庫系統；第二階段

將評估該系統的設計成效，藉由比較受試者施測後的量尺分數、能力值與實際

參加學科能力測驗的量尺分數相關性，驗證該系統之信度與效度，以得其施行

之成效分析。

另本研究可知悉以下結果：

一、

從高中學科能力測驗英文科的命題原則得知，在評量內容「對高中常用

詞彙語意、搭配詞的瞭解與運用」上占最大出題比例 26.79%，其次是「能

掌握文章內容細節」，出題比例為 21.43%。

二、

_{在高中學科能力測驗英文科出題數為 56 題時，採用 Cronbach’s α 係數進}

行英文科測驗試卷內部一致性的分析，得信度為 0.897，表示該組題庫試

題的內部一致性十分良好。

三、

使用效標關聯效度來驗證題庫試題的效度，一比較題庫模擬考及學生實

際學測成績而得相關係數 0.836；二比較每位學生能力值與學測級分間的

關鍵詞：量尺化、高中英文、學科能力測驗

(4)

Abstract

The study aims to develop a scaling item bank in High School General

Scholastic Ability Test (GSAT) for the subject English. Teachers may apply the

scaling item bank as the basic tool to estimate students’ ability positioning, and

students may examine their present achievements as references for their GSAT in the

future.

The process of the research was divided into two phases. Phase1: the

researcher formulated questions, organized test papers, and gave pre-tests. The test

questions of English were collected from GSAT over the past decades for qualitative

analysis. That is, by utilizing the questioning principles generated from the

ordinary senior high student English Subject Competence Indicators, and the

number/item analysis of test questions, test papers were organized, formulated, and

then invested in qualitative analysis. Establishment of the Scaling item bank was

revised through corrective feedbacks from the quantitative analysis, the item

parameters, (such as: item difficulty parameter, item discrimination parameter, and

pseudo-chance parameter), and testees’ ability values. Furthermore, it was

developed into a computerized system of scaling item bank. Phase 2: the researcher

estimated the efficiency of the system design. The reliability and the validity of the

system were examined by comparing the testees’ scaling scores after the pre-tests,

their ability values, and scaling scores gained from GSAT for the forthcoming

efficacy analysis.

The results of the study indicate the followings:

(5)

student English Subject Competence Indicators, in the assessment contents,

“understanding and applying often-used lexicon, syntax and matching

vocabulary” indicated a major ratio of formulating questions by 26.79%.

Meanwhile, “being able to grasp the article content details” showed a ratio of

21.42%.

2. Cronbach’s α coefficients were adopted to analyze the reliability of the high

school GSAT English test papers. The validity from a total of 56 questions

scored 0.897, which showed fairly reliable internal equity of the item bank.

3. The Correlation coefficients of Criterion-related validity was adopted as the

basis to examine the validity in the study. Firstly, the comparison

coefficients from students’ pre-tests in the Mock Exam and that from real

GSAT tests scored 0.836. Secondly, students’ ability positioning values

were compared with their rankings from GSAT. The correlation coefficient

scored 0.841. Both correlation coefficients proved the fairly high-level

validity of the test item bank and its forecasting capability.

(6)

謝誌 ...I 中文摘要 ... II ABSTRACT ... III 目錄 ... V 表目錄 ... VII 圖目錄 ... VIII 第一章緒論 ...1 第一節研究動機...1 第二節研究目的...4 第三節名詞解釋...5 壹、學科能力測驗 ...5 貳、指定科目考試 ...5 參、模擬考試 ...6 肆、成就測驗 ...7 第二章文獻探討 ...8 第一節測驗試題編製...8 壹、高中能力指標 ...8 貳、試題命題原則 ... 11 第二節試題反應理論...14 壹、 IRT 的基本假設 ...14 貳、 IRT 的模式及其特性 ...15 第三節線上電腦測驗...17 第三章研究方法 ...19 第一節研究流程...19 第二節研究步驟...21 第三節研究工具...25 壹、統計分析軟體 SPSS ...25 貳、 BILOG-MG 軟體 ...25 第四節研究範圍與限制...26

(7)

壹、研究試題方面 ...26 貳、研究對象方面 ...26 第四章研究結果 ...27 第一節高中學測英文科命題架構...27 第二節高中學測英文科測驗題數分配表...29 第三節高中學測英文科命題適切檢查表...30 第四節高中學測英文科題本編製與測驗設計結果...30 第五節高中學測英文科組卷探討...31 第六節高中學測英文科試題參數表...32 第七節不良試題標記表...35 第八節試題刪除題數統計表...35 第九節試題結果分析...36 第十節 99 課綱高中學測英文科命題原則... 37 第十一節信度分析...39 第十二節效度分析...39 第五章結論與建議 ...40 參考文獻 ...41 中文部分 ...41 英文部分 ...43 附錄一英文科命題適切檢查表 ...45 附錄二英文科預試試題參數表 ...49 附錄三 99 課綱學測英文科參考試卷說明 ...75 附錄四 95 暫綱學測英文科參考試卷說明 ...83 附錄五計畫成果同意使用證明書 ...91

(8)

表目錄

表 1.1 學科能力測驗歷年報名人數統計表 ...2 表 2.1 99 課綱與 95 暫綱之分析 ...9 表 3.1 NEAT 設計 ...21 表 4.1 高中學測英文科命題架構 ...27 表 4.2 高中學測英文科測驗題數分配表 ...29 表 4.3 詞彙與慣用語的命題適切檢查表 ...30 表 4.4 高中學測英文科題本編製與測驗設計 ...30 表 4.5 學科能力測驗英文科組卷試卷架構（95 暫綱） ...31 表 4.6 學科能力測驗英文科組卷試卷架構（99 課綱） ...31 表 4.7 高中學測英文科試題參數表 ...32 表 4.8 不良試題標記表 ...35 表 4.9 試題刪除題數統計表 ...36 表 4.10 測驗試題參數平均值分析表 ...37 表 4.11 邏輯思考、判斷與創造力檢查表 ...38 表 4.12 學測成績以及模考成績以及能力值之相關 ...39

(9)

圖目錄

(10)

第一章

第一章緒論

緒論

第一節

第一節研究動機

研究動機

財團法人大學入學考試中心（以下簡稱大考中心）舉辦的學科能力測驗（以

下簡稱學測）是評量學生高一至高二學習成效的ㄧ項重要測驗，學生以此作為

大學甄試入學中繁星推薦或個人申請的主要依據或為是否通過考試入學分發檢

定標準需跨越的門檻。自大學多元入學方案推行以來，設計上較以往傳統大學

聯招「一試定終身」的單一考試方式，讓學生有更多選擇的機會（張鈿富、葉

連祺、張奕華，2005），再加上近年來學測的報考人數與日俱增，如表 1.1，由

此可得見大學學測對高中學子的重大意義。

在此趨勢之下，為使學子能在面臨學測考試時表現出最優異的成績，正規

教育單位通常會聯合區域內的同等學校舉辦多次模擬考試，以尋求大樣本的受

試人數，讓高三學生能依此成績調整讀書方向並事先做好學測應試的準備工

作，故模擬考成績以往主要為學子評量自我實力、選擇理想志願的依據；但模

擬考試題也總存在著各回考試難易度不一、考題題型重複或近似教科書內容、

試題分配太過狹隘、…等問題，在教學現場上就常出現老師或學生質疑如此是

否真的能有效預測學測表現。

再加上坊間模擬考多委由出版社或專門的資訊廠商辦理試題編製及成績統

計，為使能更貼近真實的學測考試情況，在題型、題數、考試時間、分數計算

方式…等已仿照學測的內容來設計，但測驗試題雖經由各家專家教師精心編擬

而成，然每次考題程度不一、內容參差不齊，又或配分標準、比例因人而異，

實則缺乏統一的測量標準供教師、學生或家長參考。因此，如果能讓模擬考的

考題更符合高中學測的出題標準，甚而能等同大型測驗將成績作量尺分數的轉

(11)

換，將更能提升模擬考的考試成效，也能讓學子得到更精確的學習目標及更清

楚的應試準備方向。

表 1.1 學科能力測驗歷年報名人數統計表

集報人數個報人數學年度集報單位數小計高中職補習班小計郵遞網路合計較去年人數增減等同 83 年幾倍人數 83 167 8,224 -- -- -- -- -- 8,224 -- 1.00 84 192 25,538 -- -- -- -- -- 25,538 17,314 3.11 85 210 37,047 -- -- -- -- -- 37,047 11,509 4.50 86 215 47,816 -- -- -- -- -- 47,816 10,769 5.81 87 230 59,806 -- -- -- -- -- 59,806 11,990 7.27 88 383 85,269 79,698 5,571 5,375 -- -- 90,644 30,838 11.02 89 410 103,972 93,589 10,383 7,184 -- -- 111,156 20,512 13.52 90 468 122,143 106,055 16,088 10,025 -- -- 132,168 21,012 16.07 91 517 137,934 118,843 19,091 8,704 -- -- 146,638 14,470 17.83 92 553 150,482 131,175 19,307 14,039 12,631 1,408 164,521 17,883 20.00 93 546 143,759 124,362 19,397 13,785 10,126 3,659 157,544 -6,977 19.16 94 563 146,204 130,853 15,351 14,318 8,732 5,586 160,522 2,978 19.52 95 564 147,419 135,851 11,568 14,148 5,490 8,658 161,567 1,045 19.65 96 571 142,521 133,815 8,706 10,843 3,313 7,530 153,364 -8,203 18.65 97 566 141,500 135,732 5,768 8,514 2,655 5,859 150,014 -3,350 18.24 98 562 135,189 131,086 4,103 6,669 2,032 4,637 141,858 -8,156 17.25 99 565 135,625 131,178 4,447 6,504 2,080 4,424 142,129 271 17.28 100 565 139,761 134,274 5,487 6,541 1,648 4,893 146,302 4,173 17.79 101 577 147,186 140,428 6,758 7,374 1,588 5,786 154,560 8,258 18.79 資料來源資料來源資料來源資料來源：：：：大考中心第二處（ 2012/1/2 ）。學科能力測驗歷年報名人數統計表學科能力測驗歷年報名人數統計表學科能力測驗歷年報名人數統計表。取自學科能力測驗歷年報名人數統計表 http://www.ceec.edu.tw/AbilityExam/AbilityExamStat.htm

(12)

高中目前學習能力指標主要根據中華民國 97 年 1 月 24 日發布，中華民國

100 年 7 月 14 日修正發布的普通高級中學課程綱要（以下簡稱 99 課綱）

，大考

中心網站中提及學測將於民國 102 年進行 99 課綱的全面施測，相關學測考試資

訊可至大考中心網站/學科能力測驗/簡介之網站頁面查詢（

http://www.ceec.

edu.tw/AbilityExam/AbilityExamProfile.htm

）

。將之與先前民國 98 年實施至今的

課綱作比較，在不同學科上有著不同比例的差異；就學測英文科而言，與之前

最大的差異在於課程目標新增「邏輯思考、判斷與創造力」一項，以及教材綱

要部分新增「A、B 分版」的設計，以因應學生程度之參差（葉錫南，2009），

兩者不同之處約達 15%，面對新課綱上路，坊間業者或教學單位尚缺乏針對 99

課綱完整設計的學測線上試題庫。

綜合以上所述，本研究希冀發展出一個學測英文科量尺化的線上電腦測驗

題庫系統，根據教育局最新頒布的普通高級中學課程綱要為基礎，藉由統一的

測量標準得到量尺分數讓參與學測的學子能作為應試準備的參考資料，標準化

的量尺分數使得不同次的測驗間可以相互比較，學生可以作為個人學習的評

斷，教師也可以作為教學補強之參考，也透過該系統豐富的試題資源供教學單

位作量尺化題庫來應用，作為教學單位在有限時空與資源下的線上輔助教學工

具以實現更完善的教學計畫。

(13)

第二節

第二節研究目的

研究目的

根據以上闡釋之研究動機，本研究擬針對高中學測英文科建置一個量尺化

之線上電腦測驗題庫系統，利用測驗等化技術解決上述現況之種種缺失。

先以原有之普通高級中學課程綱要為知識地圖，進而開展學測英文科範圍

（第一至第四學期必修課程，暫不包含聽力與口語題型）以建立評量架構，同

時邀集中華學習效能發展及教育學會（以下簡稱學效學會）召開命題委員會分

配命題指標並挑選試題，經試前審題並組卷後舉行預試以取得受試者答題反應

等相關資料，接續進行信效度分析，再以分析之結果作為修題與審題的回饋資

料，藉此提高系統的命題品質；最後參照大考中心公告的 99 課綱學測英文科參

考試卷及學效學會之專家學者建議的各章節授課時數，作為調整以 99 課綱為評

量架構的修正基礎後匯入試題庫。

歸納上述欲達成之目標

，

本研究具體之研究目的可條列如下：

一、

建置『量尺化高中學測英文科』之評量架構。

二、

建置『量尺化高中學測英文科之線上電腦測驗題庫系統』。

三、

評估本研究開發『量尺化高中學測英文科之線上電腦測驗題庫系統』之

成效。

(14)

第三節

第三節名詞解釋

名詞解釋

以下針對本研究中常用到的名詞，進一步解釋如下：

壹

壹、

、

、學科能力測驗

學科能力測驗

「學科能力測驗（General Scholastic Ability Test）」包括國文、英文、數學、

社會、自然五個考科，旨在評量考生是否具有接受大學教育的基本學科能力，

是大學校系初步篩選學生的門檻。自民國 83 年開辦以來，其測驗內容隨著高中

課程的變化迭有調整。由於學測側重評量考生進入大學的基本學科知能，故就

現行大學多元入學方案而言，學測主要作為「甄選入學制」的依據，即大學校

系可以依其性質、需要，先訂定一個學測成績標準（門檻）

，只有達到此一標準

並且在一定人數倍率以內的考生，才可以參加該校系自辦的指定項目甄試，進

而擇優錄取（財團法人大學入學考試中心，2012a）。

學測各科測驗範圍為高一及高二之必修課程綱要，考生五科都必須應考，

成績採級分制，可用於大學繁星推薦入學、大學個人申請入學、大學考試入學，

及科技校院申請入學…等招生管道。其主要測驗目標有以下四個面向可參考：

一、評量考生是否具備高中生應有的基本學科知能；二、評量考生是否具備接

受大學教育應有的基本知能；三、以通識為導向，結合生活或整合不同領域；

四、重視理解與應用的能力。（財團法人大學入學考試中心，2012a）。

貳

貳、

、

、指定科目考試

指定科目考試

「指定科目考試（Department Required Test）」包括國文、英文、數學甲、

數學乙、歷史、地理、公民與社會、物理、化學、生物十個考科，旨在檢測考

生是否具備校系要求的能力，為大學考試入學招生管道的主要依據。自民國 91

年開辦以來，其測驗內容隨著高中課程的變化迭有調整。指定科目考試的測驗

成績僅運用於大學考試入學招生的升學管道，透過選填志願方式完成，其考科

(15)

內容及計分方式較類似於大學多元入學方案推行以前的聯招考試，但略有不

同；各校系可依其招生特色及需求，就十個考科當中，指定某些考科，以考試

成績選才；而考生則依個人興趣及能力，就其志願校系所指定的考試科目，自

由選擇應考，此即「校系指定，考生選考」的雙向選擇（財團法人大學入學考

試中心，2012b）。

指定科目考試之各科測驗範圍以高一、高二、高三之必修及選修課程綱要

為準，成績採百分制；其奠定的測驗目標與學測所要求的測驗目標頗有差異，

主要亦可分為以下四個面向：一、測驗考生對重要學科知識的了解；二、測驗

考生資料閱讀、判斷、推理、分析的能力；三、測驗考生表達的能力；四、測

驗考生應用學科知識的能力（財團法人大學入學考試中心，2012b）。

參

參、

、

、模擬考

模擬考

模擬考試

試

舉凡國內所能進行的知名大型測驗，皆可找到大大小小「模擬考試（mock

examination）

」發展的記錄與軌跡，為使考生能在正式測驗進行時穩定應戰、展

露出最佳的表現並得到較好的成績，模擬考為任何考生參加正式考試前均不可

或缺的測驗方式。以學測為例：規模較大的模擬考試為地區性高中學校聯合所

舉辦，定期遴選專業廠商處理試題印製、分數評估、事後成績分析等考試事務，

如：北區聯合模擬考（參加學校多為建國中學、北一女中、師大附中、…等北

部高中）

、中區聯合模擬考（參加學校多為臺中一中、臺中二中、臺中女中、…

等中部高中）

、南區聯合模擬考（參加學校多為高雄中學、高雄女中、鳳山高中、…

等南部高中）

、臺灣區聯合模擬考（臺灣省內的公私立高中皆可參加，多為未參

加北區、中區或南區聯合模擬考的學校）

；另外也有出版業者會提供個別學校小

型模擬測驗或補習業者會針對自己的學生舉辦班內的模擬考試。

學校舉辦學測的模擬考試時間多半自高中三年級上學期開始舉行，因臨近

(16)

學測考試時間，故校內一般皆實施兩次規模較大的模擬考試，測驗範圍比照學

測辦理，主要為高中一年級至高中二年級的所有學科內容，舉例來說：如英文

科即為第一學期至第四學期的必修課程，但不包含聽力和口語題型。

肆

肆、

、

、成就測驗

成就測驗

「成就測驗（Achievement Test）」主要用來評量學習者的學習狀況及能力進

展，是為檢測受試者於特定領域對於相關知識和技能的掌握程度而設計的，由

於成就測驗多重於內容效度，故就功能面上較有別於智力測驗（Intelligence

Tests）或性向測驗（又稱能力傾向測驗，Aptitude Tests）

。中國最早正式開始的

成就測驗是公元 1370 年（明朝初期）透過筆試取士的科舉制度；而目前在世界

各地廣泛應用的標準化成就測驗為賴斯（Rice, J.M）創始，於美國發源；還有

教育測驗的鼻祖愛德華·李·桑代克（Edward Lee Thorndike）也是早期的奠基者

（MBA 智庫百科，2012）。

在全球最大的中文經管百科—MBA 智庫百科網站（2012）中提及依據測驗

各自不同的性質作分類，成就測驗大致上可以以下列六種方法區分：一、按反

應方式，可分為實作測驗和紙筆測驗；二、按編製方法可分為標準化成就測驗

和教師自編測驗；三、從用途上可分為形成性測驗和總結性測驗；四、按解釋

分數的方法可分為標準參照測驗和常模參照測驗；五、從測驗的功能上可分為

檢查測驗、水平測驗、預測性測驗、診斷性測驗和準備性測驗；六、從測驗的

內容範圍可分為成套成就測驗和單科測驗。

另有盧雪梅（2004）提出較簡易的三種分類方式：一、從編製和實施主導

權來看，分為教師自編測驗和外部測驗（external tests）兩大類；二、從編製和

實施是否經標準化程序來看，分成標準化測驗和非標準化測驗兩類。；三、從

測驗的內涵和用途來看，分成單科成就測驗、綜合測驗組合（test batteries）和

診斷測驗三類。

(17)

第二章

第二章文獻探討

文獻探討

本研究鑑於欲發展一套量尺化高中學測英文科之線上電腦測驗題庫系統的

目的，故就所運用到的背景知識、理論技術、基礎模式、…等進行測驗試題編

製、試題反應理論與電腦化測驗之個別主題探討。

第一節

第一節測驗試題編製

測驗試題編製

在編製學測英文科的測驗試題上，為了使試題庫可具代表性，將先整理出

83-99 年高中學測共 17 年總卷數為 19 卷的考試試題的歷屆試題，參考高中學習

的能力指標編製所需的測驗題數細目表，再依據此架構訂定試題命題原則，預

計整理出符合學測英文科至少 10 倍試題量的試題以供高中生預試。以下分別探

討高中能力指標以及試題命題原則。

壹

壹、

、

、高中能力指標

高中能力指標

95 學年度高一新生適用的高中能力指標為教育部中華民國 93 年 8 月 31 日

以臺中（一）字第 0930112130 號令修訂發布，中華民國 94 年 1 月 20 日以臺中

（一）字第 0940006099B 號令修正再發布的普通高級中學課程暫行綱要（以下

簡稱 95 暫綱），總綱中說明了普通高級中學教育目的除延續國民教育階段之

外，並以提昇普通教育素質，增進身心健康，養成術德兼修、五育並重之現代

公民為目的。而實現方法須從生活素養、生涯發展及生命價值三層面來輔導學

生始能達成以下目標：一、提昇人文、社會與科技的知能；二、加強邏輯思考、

判斷、審美及創造的能力；三、增進團隊合作與民主法治的精神及責任心；四、

強化自我學習的能力及終身學習的態度；五、增強自我了解及生涯發展的能力；

六、深植尊重生命與全球永續發展的觀念（中等教育司，2011a）。

然目前高中各學科學習上遵循的能力指標主要根據教育部中華民國 97 年 1

月 24 日以臺中（一）字第 0970011604B 號令發布，中華民國 99 年 5 月 4 日以

(18)

臺中（三）字第 0990070888 號令修正發布，中華民國 100 年 7 月 14 日以臺中

（三）字第 1000114161B 號令修正再發布的 99 課綱，已於 99 學年度高一新生

適用，總綱目標延續 95 暫綱精神而作分科內容調整發展（中等教育司，2011b）

。

本計畫執行由於時值課綱轉換階段，故於試題建立時採用當時高三生熟悉的 95

暫綱為基礎以進行預試時的施測，於試題分析並完成修審試題後，依照 99 課綱

學測英文科參考試卷及各章節授課時數作為修正始進行試題入庫。

李坤崇

（2010）針對 99 課綱提出了十大優點：一、99 課綱之總綱與自然領

域修訂的歷程較 95 暫綱嚴謹許多；二、99 課綱完善化解了 95 暫綱總綱與自然

領域的各科節數分配之衝突；三、99 課綱採橫向統整，減少 95 暫綱不必要重

疊與學習；四、99 課綱解決了 95 暫綱各科教學時間的序列問題；五、99 課綱

增加研擬各科的補充說明，而 95 暫綱並無研擬；六、99 課綱強化通識素養；

七、99 課綱針對各科課程分版，提供適性學習的機會，95 暫綱則無；八、99

課綱較 95 暫綱減少必修科目 2-4 學分；九、99 課綱更能落實全人教育；十、99

課綱更強化學校專業自主與排課彈性。另李坤崇（2010）表示 95 暫綱執行的是

「暫時」的任務，讓教育部有更充裕的時間針對課程準備與配套措施進行更周

延的安排，普通高中課程發展委員會亦是秉持這種理想來修訂 95 暫綱後才產生

99 課綱；故 99 課綱與 95 暫綱的修訂各自有其時空背景，在社會環境劇烈變

遷的情況下，很難以單一標準評斷孰優孰劣，如表 2.1，可扼要表現兩者不同課

綱的內涵及 99 課綱的優點，對改善前次課綱的缺失裨益良多，參照以下內容

可見作者提出了相當精彩的剖析。

表 2.1 99 課綱與 95 暫綱之分析

99 課綱優點 99 課綱 95 暫綱一總綱與自然領域修訂歷程較 95 暫綱 1. 研修自 93 年 10 月至 96 年 12 月，為期 3 年 3 個月。 2. 進行五項基礎研究。 1. 95 暫綱修訂雖自民國 90 年 5 月至 93 年 12 月，為期 3 年 8 個月。然因受 93 年 4 月「全

(19)

99 課綱優點 99 課綱 95 暫綱嚴謹國高中教育發展會議」影響，致使總綱及歷史、自然領域四科修訂僅於 96 年 6 月至 12 月半年匆促完成。 2. 僅進行一項基礎研究。二化解 95 暫綱總綱與自然領域各科節數分配衝突經召開自然領域課綱召集人聯席會議，決議加註：「學生依興趣與專長之需要，至少修習 2 學分」。已化解衝突。總綱與自然領域各科課綱節數分配衝突，後者規定之學分數遠高於總綱之規定，衍生擴增必修現象。三橫向統整，減少 95 暫綱不必要重疊與學習召開二次高中跨領域統整研討會，處理 95 暫綱中頗多各科不必要重疊的內涵分析，並提出教材與教學的建議。各科課程綱要出現頗多不必要的重疊，增加師生教、學負擔。如公民與社會分別與家政、健康與護理、全民國防教育、生涯規劃出現頗多重疊。四解決 95 暫綱各科教學時間序列問題召開二次高中跨領域統整研討會，已有效處理 95 暫綱頗多各科教學時間序列問題：並將出版橫向整合分析手冊供教師教學及教材編寫者參酌。各科綱要存在頗多各科教學時間序列問題，如數學的對數安排於高一下，而物理、化學可能需於高一上述及對數，造成教學困擾。五研擬各科補充說明發展具備「參考性、詮釋性、補充性、實務性、示例性」五項特性的補充說明，減少對課程綱要的混淆或誤解。首次出現課程「綱要」，教師對鬆綁的「綱要」易產生混淆或誤解。六強化通識素養 1. 必修社會領域為 24 學分、自然領域為 16 學分：自然領域較 95 暫綱增加 2-4 學分。 2. 上述調整可避免社會組學生過早放棄學習自然領域的現象。頗多社會組學生於高二即放棄自然領域的學習，造成通識素養不足，更難以銜接大學延後分流與強調通識教育的趨勢。七課程分版，提供適性學習的機會提出「數學、英文、基礎物理於高二開始分為 A、B 兩版，且 A 包含於 B」，可提供適性學習、因材適教的機會。高中生占高中職學生總數的比例，83 至 96 學年度由 31.92%遽升到 55.91%，學生間個別差異亦逐漸加大，高二起僅以一套英數理教材，難以令學生適性學習。八較 95 暫綱減必修科目為 138 學分（不含必修必修科目為 140-142（不含必修

(20)

99 課綱優點 99 課綱 95 暫綱少必修科目 2-4 學分不計學分之綜合活動 12 學分），乃呼應「全國高中教育發展會議」建議「降低高中學分數及刪減必修科目」、《普通高級中學課程必選修之研究》、學生代表意見，並顧及配套措施的可行性，減少必修科目 2-4 學分。不計學分之綜合活動 12 學分），較 84 年頒布《高級中學課程標準》必修 154 學分。然秉持「科目整併」原則，將必修科目由 27 科降為 20 科。九更能落實全人教育為更落實全人教育，減少藝術領域、生活領域與全民國防教育各必修 2 學分，但選修課程非大學指定考試類科者必選 12 學分。調查 50 所高中開設 95 暫綱選修課程，發現：高二、高三預定開設選修語文類、數學類、社會學科類與自然科學類者平均高於九成。開課深受升學主義，且遠離全人教育的理念。十更強化學校專業自主與排課彈性 1. 社會領域歷史、地理、公民與社會等三科，學校得採取每學期 4 學分的排課方式。 2. 放棄自然領域四科均分的方式，採取四科 16 學分總量管制的方式。 3. 社會、自然領域均賦予學校更多專業自主權。規定高一、高二地理歷史各 8 學分，採取二學年中每學期各 2 學分的排課方式，此規定未賦予學校排課彈性。資料來源資料來源資料來源資料來源：：：：李坤崇（2010），高中課程 99 課綱與 95 暫綱之分析。教育資料與研究雙月刊，92，1-24。

貳

貳、

、

、試題命題原則

試題命題原則

藉由參考大考中心編製的學測參考試卷說明和蒐集 17 年 19 卷的高中英文

科學測歷屆試題，考慮試題難易度及測驗內容對應課綱之分布進行整理分析，

使得訂定本研究之命題架構。在本研究中，命題架構依照「教材內容」和「教

學目標」作規劃，參照正式學測英文考科的命題方向，由學效學會邀請具有英

文學科教學經驗之專家教師制訂試題命題原則，以下為 95 暫綱學測英文考科測

驗目標（財團法人大學入學考試中心，2008）：

(21)

一、

評量考生對高中常用實詞詞彙（content words）的構詞、語意、搭配詞

（collocation）的了解與運用能力。

二、

評量考生能參酌上下文意發展，掌握各類詞彙（含實詞、虛詞、慣用語及

轉折詞等）

、句法及篇章結構應用的能力。

三、

_{評量考生依據篇章段落的文意發展，掌握實詞詞彙（含慣用語）及轉折詞}

運用的能力。

四、

評量考生能綜合運用詞彙、慣用語、語意、語法、語用的知識，了解整篇

或局部文意，並加以分析與推理的能力。

五、

評量考生依提示字詞合併或改寫句子的能力。

六、

_{評量考生將中文句子譯成正確、通順、達意之英文的能力。}

七、

評量考生根據選文之上下文意，將段落中的中文句子譯成正確、達意且連

貫之英文句子的能力。

八、

_{評量考生依據提示，運用所學詞彙、句法寫出切合主題，並具有連貫性短}

文的能力。

另參考高級中學課務發展工作圈英文學科中心 99 年度教學資源研發小組

之研發成果——英文科教學評量命題實務，該英文研習小組依據大考中心公佈

之命題適切性檢查表（由張武昌教授編輯，其擔任英文科有關命題之研究及業

務之建議與諮商的專業顧問 91.7 迄今）研發出各題型的命題原則詳列如下：

詞彙題的命題原則大致分為以下九點：一、所測試之詞彙（含選項）是否

為常用之實詞？二、題幹的上下文語意是否明確？是否提供充分的解題線索？

三、題幹長度是否適中（在 20 字以內）？四、正答及各選項字母數是否相近？

五、正答與各選項詞類是否相同？六、正答及各選項難易度是否相近？七、選

項誘答力是否平均？八、題幹和選項是否正確？九、是否沒有其他問題？

綜合測驗（克漏字測驗，Cloze test）的命題原則大致分為以下十點：一、

是否符合測驗目標？二、各選文是否有不同主題、風格、體裁？三、選文是否

(22)

兼顧教育性、知識性、及趣味性，並配合學生的生活、學習經驗與認知能力？

四、選文的難易是否適中？五、是否避免首尾命題？六、每個空格是否有足夠

的解題線索（每 7〜8 字一挖空）？七、測試重點是否整體理解與局部理解並重，

並兼顧語意及語法？八、選項是否避免拼字、用詞或文法錯誤？九、選項是否

避免爭議性或不適當的誘答？十、選項誘答力是否平均？

文意選填的命題原則大致分為以下十三點：一、選文是否配合學生的生

活、學習經驗與認知能力？二、選文難易是否適中？三、選文內容及組織結構

是否清楚合理？四、是否避免以選文首句命題？五、每個空格是否有足夠解題

線索？六、是否避免不依據句意或上下文意，而是僅憑大寫字母、單詞的類、

名詞單複數、動詞是否加詞尾-s、局部性的片語等即可對號入座之題目？七、

是否避免答案間詞性各異，語法、語意、語用功能相去太遠而欠缺誘答力？八、

詞類、句法等基本屬性相似之選項是否每種各有三、四個？九、學生若有二格

不會，就不會想作題目。因此前二格要可以讓學生不難作答。十、挖空的選項

不可以在同一句。十一、留意使用的文字、結構是否讓文章的難度提高？十二、

文章是否為課文相關改寫？十三、命題版面是否跨正反兩頁，不易作答？

閱讀測驗的命題原則大致分為四大主題：一、選文與教學目標之間的契合

度（FT）

；二、題目設計與選文的關係（QC）

；三、題目多樣性（VQ）

；四、選

項設計（IM）。

翻譯試題的命題原則大致分為四點：一、中文句子應合乎語法、通順達意；

二、可依情況需要提供考生英文詞彙或結構作為提示；三、試題的詞彙與結構

應有變化，相同類型的字詞不宜重複出現；四、詞彙以高中英文參考詞彙表所

列為主。

然因篇幅有限，各題型相關示例如普通高級中學英文學科中心網站所示

（

http://english.tyhs.edu.tw/xoops/html/tyhs/teach_source99.php#A

）。

(23)

第二節

第二節試題反應理論

試題反應理論

測驗理論主要是用來探討測驗資料之間的實證關係並具有系統化的一門理

論與學說，學術研究上通常將其分為兩大學派：一為古典測驗理論（Classical Test

Theory）——以真實分數模式（true score model）

（Gullikson, 1987; Lord & Novick,

1968）來建立，目的在估計某個測驗實得分數（observed score）的信度，或可

說

實得分數與真實分數的關聯程度；二為當代測驗理論（ Modern Test

Theory ） —— 以試題反應理論（ item response theory, IRT ）（ Hambleton &

Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Hulin, Drasgow, &

Parsons, 1983; Lord, 1980）為架構，依 Rasch（1960）提出的測驗模式進而發展，

用以改善實得分數會產生非等距量尺和仍停留在非科學層次的客觀。

為了改善古典測驗理論的缺失，試題反應理論主要在探討受試者的答對機率

會受到能力值（abilities）

、潛在特質（latent trails）以及難度、鑑別度、猜測度…

等試題參數的影響其相互之間的關聯性，以下分別就其基本假設、模式及其特

性來作說明。

壹

壹、

、

、IRT 的基本假設

的基本假設

試題反應理論可根據受試者的表現，經試題特徵函數（item characteristic

function, ICF）運算後推估受試者的能力，而將受試者的表現與受試者的能力間

的關係繪製成一條連續遞增的試題特徵曲線（item characteristic curve, ICC）

，這

種受試者表現得到的受試測驗結果與能力、潛在特質之間存在的關係，可歸納

為一種數學函數來表現，所以試題反應模式也是一種數學模式（Hambleton &

Swaminathan,1985；Van Der Linden & Glas,2000；陳新豐，2002）

。

這種數學模式的建立需具有以下兩個基本假設：

一、

單向度（unidimensionality）：單向度是指測驗中的各個試題都測量到同一

種共同的能力或潛在特質。但實際上，考生在真實環境的測驗表現很少

(24)

會只受到一種因素的影響，像成就動機、考試焦慮、應試技巧、及人格

特質等因素都會使得此模式無法建立；因此，試題反應理論認為只要測

驗能具有影響測驗結果的一個「主控」成份或因素，即測驗推估出的能

力或潛在特質，便算符合單向度的基本假設（Lord,1980）。

二、

_{局部獨立性（local independence）：在統計學上，當影響測驗表現結果的}

能力因素被固定時，受試者對任何試題的反應是為獨立，也就是說，受

試者對不同試題的反應間不存在任何關係。局部獨立性說明了這組能力

因素代表整個潛在空間（complete latent space），是唯一影響受試者對試

題反應的因素；故上述之單向度假設成立時，局部獨立性的假設始有可

能成立。

貳

貳、

、

、IRT 的

的

的模式及其

的

模式及其

模式及其特性

模式及其

特性

試題反應模式是用來描述測驗推估出的能力或潛在特質與正確反應機率的

數學關係，依使用的試題參數多寡，可分為單參數對數模式（one-parameter

logistic model）

、二參數對數模式（two-parameter logistic model）以及三參數對

數模式（three-parameter logistic model）三種；每個模式都具有其特性，以下簡

單說明之。

一、

_{單參數對數模式：這個模式的數學公式如式子（2.1）所示。其假設試題}

的鑑別度是ㄧ樣的，亦即能力低的學生絕不可能猜題猜中，答對的機率

僅跟試題難度（difficulty）有關，雖然現實況狀往往並非如此。由於這個

假設十分嚴格，所以較適當的使用時機通常是有良好施測指導的效標參

照測驗（criterion-referenced tests）。另這個模式又有 Rasch 模式之稱，其

發展詳情可參閱 Rasch（1960）

、Wright & Stone（1979）

、和 Wright & Masters

（1982）。

) ( ) ( 1 ) ( P i i b b i e e − − + = θ θ

θ

_{i = 1,2,…,n}

（2.1）

(25)

其中，P

i

（θ）

表示任何ㄧ位能力為 θ 的考生答對試題 i 或在試題 i 上正確

反應的機率；b

i

表示試題難度參數；n 是該測驗的試題總數；e 表示以底

為 2.718 的指數；且 P

i

（θ）是ㄧ種 S 型曲線，其值介於 0 與 1 之間。

二、

二參數對數模式：這個模式的數學公式如式子（2.2）所示。是由單參數

對數模式延伸而來，把試題鑑別度參數加入作考慮，便形成二參數對數

模式。換句話說，當我們把試題鑑別度（item discrimination）視為一致時，

單參數對數模式即為二參數對數模式的特例，而現在所看到的二參數對

數模式是 Birnbaum（1968）針對 Lord（1952）的原始二參數常態肩形模

式（normal ogive model）作修改而來，由於後來較容易計算解釋，逐漸

取代常態肩形模式。

) ( ) ( 1 ) ( P i i i i b b i e e − − + = θ α θ α

θ

_{i = 1,2,…,n}

_（2.2）

其中，各符號的定義與式子（2.1）相同，唯多了ㄧ個參數：試題鑑別度

α

_i

_{，它的涵義與在古典測驗理論中的涵義相同，同是用來描述試題 i 所具}

有鑑別力大小的特性。

三、

三參數對數模式：這個模式的數學公式如式子（2.3）所示。其概念由二

參數對數模式演變而來，主要應用於可透過猜測而答對的測驗情況，如

是非題、單選題、…等。這裡多出的參數

c_i

是指受試者能力極低卻猜對

試題的機率，

₁−c_i

則表示能力提高答對該題可以提升的機率範圍。此模

式除了較二參數對數模式在每個題目均有難度和鑑別度的特徵外，還加

以考量了試題被猜中的可能，也就是機運（pseudo-chance），故較以上的

兩種模式更能符合實際資料上的表現與應用（ Lord,1952 ；

Birnbaum,1968）

。

) ( ) ( 1 ) 1 ( ) ( i i i i b b i i i e e C C P − − + − + = θ α θ α

θ

_i

_{= 1,2,…,n}

_（2.3）

(26)

其中，各符號的定義與式子（2.2）相同，唯多了ㄧ個參數：機運參數 C

i

，

這個參數提供試題特徵曲線一個大於零的下限，它代表著能力很低的考

生答對某試題的機率。

第三節

第三節線上電腦測

線上電腦測

線上電腦測驗

驗

傳統紙筆測驗（Paper Based Testing，PBT）採人工方式出題，安排受試者在

同一時間、同一地點參與考試，完成後的試卷批改工作以及分數統計也是以人

工方式處理，不僅費時耗力容易出錯，若施測的人數增加、項目變多，或者受

試者需位在不同的地理位置進行測驗，就時間的掌握度或事後作業的難度上必

然更提高許多。而電腦化測驗，又稱電腦輔助測驗（Computer Based Testing，

CBT）的發展有效改善了上述的種種缺失；由於藉助電腦程式設計與其快速運

算的優勢，施測時的效率大大提升，而試題在畫面上亦可以更豐富的方式呈現，

也能較快產出施測完的成績及分析結果，甚至可獲得更多測驗中的其他資訊（何

榮桂，1990）。

近年來，資訊科技以跳躍的方式大幅進步，在網際網路的發展上有許多突破

性的技術，資訊傳遞方式的改變讓網路教學極具可行性並快速成長，也更凸顯

線上電腦測驗的重要性。憑藉著電腦強大的計算能力，讓系統可進行自動出題、

施測、閱卷，測驗整體更具效率；透過線上測驗的方式施行，享有電腦化測驗

的優點，更兼備了網際網路的各項特色（WikiTeamWork，2012）。

電腦化測驗根據不同的理論基礎，可分為電腦適性測驗（Computer Adaptive

Testing，CAT）與非適性—亦即傳統電腦化測驗兩種；若以作答的方式來分類，

可有互動式及非互動式的電腦測驗；以測驗的題型呈現來區別，可分為選擇式

和非選—寫作式的電腦測驗…等等。本研究擬發展的量尺化高中學測英文科之

線上電腦測驗試題庫，由於針對高中學測為研究標的，考生需在固定時間內完

(27)

成一定數量的測驗試題，故無需縮短應試時間，設計上採用一般傳統的電腦化

測驗方式即可；另在題庫系統作答方式上以非互動的方式表現；而測驗題型設

計上，由於寫作式—如作文、翻譯等題型作答後較難以電腦閱卷方式處理，尤

其語句、語意、字詞、文法運用上目前暫無法完善透過電腦進行判斷，為保有

評分上的公平性，故本研究的試題庫的內容統一以選擇題型方式呈現。

(28)

第三章

第三章研究方法

研究方法

本研究以建置一個良好的『量尺化高中學測英文科線上電腦測驗題庫系統』

為目標，略述研究方法如下：首先進行 17 年 19 卷的學測歷屆試題分析，制訂

高中英文科各項能力指標所需的測驗題數細目表，並透過學效學會邀請深具英

文教學經驗的專家學者進行命題後組卷，並進行高中生預試與每卷的試題參數

品質分析，根據預試完的試題分析結果再進行試題修審，修審完之試題經由課

綱轉換重新刪補題後，所得試卷始可電腦入庫建立測驗題庫系統。最後得以完

成『量尺化線上電腦測驗題庫系統』並加以分析系統功效。

第一節

第一節研究流程

研究流程

本研究為建立起高中學測英文科題庫系統的量尺，需搭配測驗等化技術始

得完成；所謂測驗等化（test equating）是利用統計方法求得試題參數，透過試

題參數將受試者在某一測驗的分數轉換成另一種測驗的量尺分數，透過基於同

一量尺以比較兩測驗分數間的關係之過程（Kolen & Brennan, 1995）。而轉換成

量尺分數前，需先將試題參數（如：難度、鑑別度、猜測度）進行量尺化的動

作，意指需將試題參數經過校準藉以換算成同一量尺單位的指標（余民寧，

1993）

。

然而每次施測皆採用不同的試卷，其間不可避免的存在著難易度等各方面

的試題差異，故本研究經由測驗等化技術的施行，得使參與不同測驗試卷的學

生們所得分數，亦可於同樣的基準上進行更客觀、有效的比較。欲進行各試卷

間的測驗等化，需先於收集作答反應資料前確定各測驗間有共同試題存在或是

共同的受試者作答，才能進行測驗等化；本研究為避免再次施測花費人力物力，

以及可能有無法找到共同受試者的困難，故將採用定錨不等組（non-equivalent

(29)

groups with anchor test design, NEAT）的等化設計方式以節省成本開銷。

圖 3.1 量尺化題庫建置流程暨分工圖

在題本編製及測驗設計上採用 NEAT 設計（Kolen & Brennan, 2004），此種

設計方法中各分測驗間必須存有共同試題亦即定錨試題，通常定錨試題在每群

受試者的測驗順序必須是一樣的，以避免順序因素的影響；本研究將學效學會

中華學習效能發展及教育學會

國立臺中教育大學(本研究生)

量尺化

高中英文

學科能力測驗

題庫系統

1.歷屆試題資料蒐集整理

2.召開命題委員會分配命題指標

3.高中學測英文科命題

4.題本編製與測驗設計

5.事前審題挑選試題

6.組織試卷

7.邀請應屆高三生實施預試

8.作答反應分析

9.分析結果回饋以修審試題

10.修審後試題置入題庫系統

(30)

的學科專家編製完成之試題設計成不同分測驗，不同的分測驗施測於不同的受

試群（Kolen & Brennan,1995；von Davier, Holland & Thayer, 2004）

，NEAT 的設

計範例，如表 3.1，不同群受試者接受不同分測驗，各分測驗中皆含有定錨題 X。

表 3.1 NEAT 設計

樣本

測驗一

測驗二

定錨題 X

P1

V

Q1

V

註：P1 是取自母群 P 的隨機樣本；Q1 是取自母群 Q 的隨機樣本；“V”為受試者必須受測之測驗

本研究之量尺化高中學測英文科線上電腦測驗題庫系統於數位內容產業發

展補助計畫核定通過的「高中數學個別指導行動教學輔助示範計畫」之建置計

畫中，主要有十大研究流程，如圖 3.1，並於圖右表示各單位工作分工項目。其

中流程 2〜3、流程 5〜7 和流程 9 之工作事項由學效學會建置並執行，其餘流

程的工作事項由本研究者進行並完成之。

第二節

第二節研究步驟

研究步驟

依據試題反應理論編製的程序以及上述之研究流程，本研究建置試題庫主

要分為「建立測驗題數細目表」、

「根據命題原則設計試題」、「篩選並編製題本

後進行預試」、

「預試結果試題分析」

、「修審試題」、「將試題內容與試題參數輸

入電腦資料庫」等幾個步驟（Wainer, H. et al., 1990）

。各研究步驟內容說明如下：

一、

建立測驗題數細目表

此步驟主要工作在於訂定命題架構以及測驗題數的分配。

先將基於 95 暫綱展開的知識節點，依照「教材內容」和「教學目標」作規

劃，並以教材內容為橫軸，形成本研究的命題架構。再就蒐集高中英文科學科

能力測驗的歷屆試題，進行資料分析整理，依此建立完成測驗題數細目表。

(31)

二、

根據命題原則設計試題

參照正式學測英文考科的命題方向，委託學效學會邀請具有英文學科教學經

驗之專家教師編製試題，依循 Brown（2005）的理念並配合普通高級中學英文

學科中心提出的試題命題原則，製作各題組的命題適切檢查表逐一分析確認之。

三、

篩選並編製題本後進行預試

本研究由學效學會邀請具有英文教學經驗之教師進行命題與預試；首先，

命題題數分配表確立後，進行命題程序編製試題，並依據上述之命題檢核表檢

核試題，完成試題內容分析表的製作，最後始將試題編製成測驗試卷。

在題本編製與測驗設計方式，採用前述之 NEAT 設計，並將以紙筆測驗方

式先進行預試。

四、

預試結果試題分析

此研究步驟主要工作為試題參數分析以及受試者能力值的估計。試題特徵

分析在題庫的資料處理上佔非常重要的角色，藉由測量模式或一般性描述統計

進行試題參數的穩定性分析可以提高日後題庫施測的品質，清楚瞭解學生在學

習成就上的表現與變化。

五、

修審試題

本研究步驟主要的工作項目是將上述得到的試題參數依照學校學會專家學

者建議的刪題原則進行試題篩選。參考臺灣學生學習成就評量資料庫（Taiwan

Assessment of Student Achievement, TASA）對於不良試題選擇之標準（郭伯臣、

曾建銘、吳慧珉，2011）進行檢查，研究單位先針對不良試題進行標記，再提

供給學科專家判斷該題刪除與否，或仍可進行修審後入庫。本研究中不良試題

的標記標準條列如下：

(32)

1. 依據古典測驗理論所訂的標準：

（1）試題通過率低於 0.25。

（2）試題鑑別度指數介於 0〜0.2 之間，0< CTT 的鑑別度＜0.2。

2. 依據試題反應理論所訂的標準：

（1）試題鑑別度參數介於 0〜0.4 之間。

（2）試題難度參數小於或等於-3。

（3）試題難度參數大於或等於 3。

（4）試題猜測度參數大於或等於 0.3。

六、

_{將試題內容與試題參數輸入電腦資料庫}

由於學測將於民國 102 年進行 99 課綱的全面施測，故本研究中的試題入庫

前，須先針對 95 暫綱進行 99 課綱的轉換。

99 課綱係以 95 暫綱為基礎修訂而成，兩者不同之處約達 15%，最大的差

異在於課程目標新增「邏輯思考、判斷與創造力」一項，以及教材綱要部分新

增「A、B 分版」的設計，以因應學生程度之參差（葉錫南，2009）。

教育部在中等教育司（2008）指出針對「A（基礎單元）、B（基礎＋進階

單元）分版」，英文科的命題原則是「依適性學習的原則，強化學測、指考之

區別，學測難度較低，指考難度較高。」

。事實上，學測旨在評量考生是否習得

高中課程所設定的基本學科能力（亦即英文科課程綱要中的各項能力指標）

，作

為是否能接受大學教育的參考；評量的重點在於基本能力，乃是供大學各校系

作為初步篩選學生能力的基本門檻，學測的測驗內容與難度，可以 A 版課程（基

礎教材）為主要的參考基準。指定科目考試（簡稱指考）則作為檢測考生是否

具備部分校系特別要求的能力，正好與「B 版課程＝基礎教材＋進階教材」中

兼顧基本與進階能力的理念相吻合。原則上，指考同時涵蓋基礎與進階兩種教

材，二者的比例將作合理的分配。學測與指考最大的不同在於難度，其差異正

(33)

好呼應新課程綱要 A 版「基本而容易」與 B 版「進階而稍難」的區隔設定，強

化學測與指考難度的區隔，便能反應 A、B 分版的適性精神（葉錫南，2009）。

由於本研究目的欲建置一個基於 99 課綱發展的量尺化高中學測英文科之線

上電腦測驗題庫系統，故欲入庫之試題將參照大學入學考試中心公告的 99 課綱

學測英文科參考試卷（見附錄三）及正式學測英文考科的命題方向，作修正調

整或刪補試題的動作後始可入庫。

(34)

第三節

研究工具

本節分別敘述研究進行中所使用到的研究工具有二種，一為 SPSS12.0 統計

分析軟體。二為 BILOG-MG 軟體，各研究工具的相關說明如下：

壹

壹、

、

、統計

統計

統計分析

分析

分析軟體

軟體

軟體 SPSS

統計產品與服務解決方案（Statistical Product and Service Solutions，SPSS）

為 SPSS 公司推出的一系列用於統計學上分析運算、數據挖掘、預測分析和決

策支持任務的軟體產品及相關服務的總稱。本研究用統計分析軟體 SPSS12.0 的

版本進行本測驗的信度及相關係數之分析。

貳

貳、

、

、BILOG-MG 軟體

軟體

本研究使用 BILOG-MG（Zimowski, Muraki, Mislevy, & Book, 2003）進行試

題參數以及受試者能力值之估計，估計後參數透過定錨試題進行量尺化後可提

供未來試題入庫使用。BILOG-MG 軟體可用來估計各測驗試題的參數值，如難

度、鑑別度、猜測度及受試者的能力值，也可提供測驗的訊息量、信度指數與

測驗訊息曲線圖（Zimowski, Muraki, Mislevy, & Bock, 2003）。

(35)

第四節

第四節研究

研究

研究範圍與限制

範圍與限制

壹

壹、

、

、研究試題方面

研究試題方面

本研究在試題設計上，因時屆課綱轉換年度，故無法直接針對 99 課綱進行

命題、修題、審題的過程，須先藉由 95 暫綱的分析，於最後入庫時才修正為

99 課綱。另在試題數量上，因為成本考量以及時間因素，故完成開發 635 題，

雖已達到學測英文科 10 倍以上的試題數量，符合預期目標以供當前使用，但隨

著每年課綱的微調修正以及教學內容的改變，期許未來可以逐年再新增所需試

題。

貳

貳、

、

、研究對象方面

研究對象方面

本研究在施測對象上，透過學效學會邀請全省高中三年級學生進行預試，樣

本人數為 56,774 人，然計畫時程與開發經費的限制，僅針對西部地區的高中學

生進行抽測以及進行預試，研究對象採立意抽樣，並未能像實際學測考試一樣，

考生為全省普測。此外，測驗方式以比照聯合模擬考方式舉行與試務辦理，但

因部分地區安排的考試場地不佳或考試時間不當，仍不免受到環境影響考生預

試當天心情及臨場反應，導致受試結果不夠準確，卻無法有效排除這些外在因

素。

(36)

第四章

第四章研究結果

研究結果

第一節

第一節高中學測英文科

高中學測英文科

高中學測英文科命題架構

命題架構

本研究依據 95 暫綱的教材內容為橫軸，蒐集學科專家之意見並加以匯整，

形成本研究的命題架構，如表 4.1。

表 4.1 高中學測英文科命題架構

編碼

敘述

1.0.0.0 詞彙與慣用語

1.1.0.0 對高中常用詞彙語意、搭配詞的瞭解與運用

1.1.1.0 常用詞彙等級 I

1.1.2.0 常用詞彙等級 II

1.1.3.0 常用詞彙等級 III

1.1.4.0 常用詞彙等級 IV

1.1.5.0 常用詞彙等級 V

1.1.6.0 常用詞彙等級 VI

1.2.0.0 對常用慣用語的瞭解與應用

2.0.0.0 綜合測驗

2.1.0.0 對單字、搭配詞於篇章中的用法

2.1.1.0 單詞

2.1.2.0 搭配詞

2.2.0.0 對片語、慣用語於篇章中的用法

2.2.1.0 介係詞片語

2.2.2.0 動詞片語

2.2.3.0 名詞／動名詞片語

2.2.4.0 不定詞片語

2.2.5.0 連接詞與連接詞片語

2.2.6.0 慣用語

2.2.7.0 形容詞片語

2.2.8.0 副詞片語

2.3.0.0 對整篇文章中文法句型的應用

(37)

編碼

敘述

2.3.1.0 句型

2.3.2.0 分詞構句

2.3.3.0 被動語態

2.3.4.0 時態

2.3.5.0 假設語氣

2.3.6.0 比較級／最高級

2.3.7.0 關係代名詞

2.3.8.0 倒裝句

2.4.0.0 對轉折詞於篇章中的用法

2.4.1.0 轉折詞

3.0.0.0 文意選填

3.1.0.0 能掌握詞彙及搭配詞的語意內涵

3.2.0.0 能掌握片語及慣用語的語意內涵

3.3.0.0 能掌握詞彙的篇章功能（轉折詞等，含 cohesivedevices,

lexicalcohesion, repetition, synonymy, hyponymy, proforms）

4.0.0.0 篇章結構

4.1.0.0 對篇章內容的理解

4.1.1.0 能掌握段落主題（topicsentence）和細節（supportingdetail）的

關係（如例示、因果、時間、對比等）

4.2.0.0 對篇章結構組織的理解

4.2.1.0 能掌握段落語句內容的一致性（unity）

4.2.2.0 能掌握段落語句內容的連貫性（coherence）

5.0.0.0 閱讀測驗

5.1.0.0 能掌握文章內容的主旨

5.2.0.0 能掌握文章內容細節

5.2.1.0 單一細節

5.2.2.0 多重細節

5.3.0.0 能適當的推論與判斷

5.4.0.0 單一字詞在文章中的語意之理解

6.0.0.0 英文作文

6.1.0.0 能運用詞彙、語法、修辭知識，寫出切合主題、具統一性、

連貫性之短文

(38)

第二節

第二節高中學測英文科

高中學測英文科

高中學測英文科測驗題數分配表

測驗題數分配表

本研究就歷屆試題的分析部分，由於學科能力測驗自民國 83 年開辦以來，

民國 91、92 年歷經甲、乙、丙案，故此兩年均舉辦過重考，總共可蒐集民國

83〜99 年共 17 年總卷數為 19 卷的考試試題。

針對以上蒐集到的所有歷屆試題進行分配整理後，並針對近幾年的考題趨

勢加以分析，再集合學科專家的經驗，共同訂定本研究的測驗題數分配表，如

表 4.2。

表 4.2 高中學測英文科測驗題數分配表

評量內容

題數

整體出題比例

1100、對高中常用詞彙語意、搭配詞的瞭解與運用

15 26.79%

2200、對片語、慣用語於篇章中的用法

7 12.50%

2300、對整篇文章中文法句型的應用

6 10.71%

2400、對轉折詞於篇章中的用法

2 3.57%

3100、能掌握詞彙及搭配詞的語意內涵

5 8.93%

3200、能掌握片語及慣用語的語意內涵

4 7.14%

3300、能掌握詞彙的篇章功能

1 1.79%

5100、能掌握文章內容的主旨

1 1.79%

5200、能掌握文章內容細節

12 21.43%

5300、能適當的推論與判斷

2 3.57%

5400、單一字詞在文章中的語意之理解

1 1.79%

總計

56 100.00%

另外可從上表得知，在評量內容「對高中常用詞彙語意、搭配詞的瞭解與

運用」上占最大出題比例 26.79%，其次是「能掌握文章內容細節」，出題比例

為 21.43%，再來是「對片語、慣用語於篇章中的用法」，出題比例為 12.5%。

(39)

第三節

第三節高中學測英文科

高中學測英文科

高中學測英文科命題適切檢查表

命題適切檢查表

本研究就高中學測英文科的各種測驗題組使用命題適切檢查表逐題檢查

之。在此列舉詞彙與慣用語題組使用之命題適切檢查表，如表 4.3。其餘完整題

組之命題適切檢查表整理於附錄一。

表 4.3 詞彙與慣用語的命題適切檢查表

命題適切檢查表

檢核項目

1. 所測試之詞彙（含選項）是否為常用之實詞

是□ 否□

2. 題幹的上下文語意是否明確？是否提供充分的解題線索？

是□ 否□

3. 題幹長度是否適中（在 20 字以內）

是□ 否□

4. 正答及各選項字母數是否相近

是□ 否□

5. 正答與各選項詞類是否相同

是□ 否□

6. 正答及各選項難易度是否相近

是□ 否□

7. 選項誘答力是否平均

是□ 否□

其他

檢核項目

8. 題幹和選項是否正確

是□ 否□

9. 是否沒有其他問題？

是□ 否□

註：第 8、9 項為高級中學課務發展工作圈英文科教學資源研發小組於張武昌教授的命題適切檢查表之外新增項目。

第四節

第四節高中

高中

高中學測英文科

學測英文科

學測英文科題本編製與測驗設計結果

題本編製與測驗設計結果

本研究總共命題完成 647 題，考慮學生的疲乏程度，以及經費的限制下，

本研究利用定錨不等組的 NEAT 等化設計，將以上試題編製成測驗試卷共 12

量尺化高中英文學科能力測驗的建置與應用

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授：許天維 博士

量尺化

量尺化

量尺化

量尺化高中

高中

高中

高中英文

英文

英文

英文學科能力測驗

學科能力測驗

學科能力測驗

學科能力測驗的建置與

的建置與

的建置與

的建置與

應用

應用

應用

應用

The Establishment and the Applications

for the Scaling of English in General

Scholastic Ability Test for Ordinary

Senior High School Students

研究生：楊淑媖 撰

謝

謝

謝

謝誌

誌

誌

誌

本研究感謝經濟部工業局民國 99 年 12 月 07 日數位內容產業發展補助計畫

99 年度第 07 次審議會核定通過之「高中數學個別指導行動教學輔助示範計畫

（新技網路科技股份有限公司、毅夫文化事業股份有限公司）」，計畫編號

99-0094。

中文摘要

中文摘要

中文摘要

中文摘要

本研究旨在發展一個高中學科能力測驗英文科之量尺化題庫系統，除可提

供教師評估學生能力以及學生自我檢測的參考依據外，也可作為在高中學科能

力測驗英文科目上推估實際表現的一種預測工具。本研究主要分為兩個工作階

段：第一階段為命題、組卷及預試，先針對高中學科能力測驗歷屆試題進行質

的分析，即利用高中學習能力指標歸納以得到高中學科能力測驗英文科的命題

原則以及測驗題數細目表，藉此原則來出題並進行組卷，再透過量的分析，即

施測後所得的試題參數值（如：難度、鑑別度、猜測度）

、受試者能力值作為量

尺化試題庫建置的修正基礎，進而發展成一線上電腦測驗題庫系統；第二階段

將評估該系統的設計成效，藉由比較受試者施測後的量尺分數、能力值與實際

參加學科能力測驗的量尺分數相關性，驗證該系統之信度與效度，以得其施行

之成效分析。

另本研究可知悉以下結果：

一、

從高中學科能力測驗英文科的命題原則得知，在評量內容「對高中常用

詞彙語意、搭配詞的瞭解與運用」上占最大出題比例 26.79%，其次是「能

掌握文章內容細節」，出題比例為 21.43%。

二、

在高中學科能力測驗英文科出題數為 56 題時，採用 Cronbach’s α 係數進

行英文科測驗試卷內部一致性的分析，得信度為 0.897，表示該組題庫試

題的內部一致性十分良好。

三、

使用效標關聯效度來驗證題庫試題的效度，一比較題庫模擬考及學生實

際學測成績而得相關係數 0.836；二比較每位學生能力值與學測級分間的

相關係數為 0.841。兩者效度均高，證明該測驗系統具有優秀的預測能力。

關鍵詞：量尺化、高中英文、學科能力測驗

Abstract

The study aims to develop a scaling item bank in High School General

Scholastic Ability Test (GSAT) for the subject English. Teachers may apply the

scaling item bank as the basic tool to estimate students’ ability positioning, and

students may examine their present achievements as references for their GSAT in the

future.

The process of the research was divided into two phases. Phase1: the

researcher formulated questions, organized test papers, and gave pre-tests. The test

questions of English were collected from GSAT over the past decades for qualitative

analysis. That is, by utilizing the questioning principles generated from the

ordinary senior high student English Subject Competence Indicators, and the

指導教授：許天維博士

研究生：楊淑媖撰

_{在高中學科能力測驗英文科出題數為 56 題時，採用 Cronbach’s α 係數進}

第一章緒論

第一節研究動機