國小數學科精熟標準設定方法之研究

(1)

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：許天維博士

國小數學科精熟標準設定方法之研究

研究生：彭敬雅撰

(2)

I

謝辭

一路上跌跌撞撞，期間甚至飛到了海洋的另一端，終於來到了這個可以稱之為結束，亦可稱之為開始的一天。在研究所這段不算短的時間，受到許多師長、學長姐、學弟妹以及同學與朋友照顧，也因為有這些親切的人們以及家人的支持、協助與鼓勵，自己才能夠迎接這天的到來。雖然這些人們大部分都看不見這篇謝辭，但基於感恩的心，我還是要說聲：「謝謝你們」。首先我要先感謝我的指導教授許天維教授以及師母對我的指導、支持與照顧，不管是在學業上、生活上或是人生上，都讓我獲得了許多無形的、十分重要且珍貴的東西，真的十分感謝您們。接著是要感謝辛俊德教授以及胡豐榮教授在百忙之中擔任我的口詴委員，並給了我許多的建議與指導，讓我能補足不足之處並將這篇論文修正得更加完善。也謝謝所上所有的老師們，因為有您們開設的紮實的課程，以此為基礎這篇論文才得以順利完成。此外，我也要謝謝臺中教育大學的同學以及學長姐們，讓我在課業上遇到難題時有得以一同討論的對象，與你們在課堂上、生活上經歷過的點點滴滴，未來都將會成為美好的回憶，其中，我要特別謝謝我的好同學瓊瑩，謝謝你協助我蒐集論文所需的資料，並不時傾聽我的許多煩惱，真的給了我許多的幫助。另外，也要感謝所上的學弟妹，除了協助我蒐集論文的資料外，在準備口詴的這段期間也給了我許多幫助與鼓勵，也期待你們在學業上能夠有精彩的表現並能夠順利畢業。再者，也要謝謝參與本論文研究的國小的教師們，有了你們的協助，本研究才得以順利進行，真的十分感謝。除了在臺中教育大學對我十分照顧的師長與朋友們外，我也要特別感謝我的學校臺中教育大學以及日本的東京學藝大學給了我交換學生的機會，讓我能夠到日本進行半年的學習，在學識與生活經驗上有了特別且重要的長進。在日本生活的期間，遇見

(3)

II 了許許多多的人，一同編織了許多特別的回憶，可說是人生中相當重要的一段旅程，是以，在此我要特別感謝我在東京學藝大學的指導教員以及所有曾經指導過我的老師們對我的照顧，也謝謝我在日本認識的朋友們以及學長們，無論是來自臺灣或其他國家，因為有了你們的扶持，讓我把對海外生活的惶恐一掃而空，並得以將生活過得如此精彩，未來希望有機會能與你們再次相見。最後，也是最重要的，我要感謝我的父母以及家人對我的任性所給予我的包容，以及對我的決定所給予我的支持，雖然現階段尚未能報答父母對我的養育之恩，但我想讓自己擁有一個光明的未來或許就是對您們最好的回報。現在，就以此刻為起點，我將邁向人生的下一個旅程，努力朝著那個光明的未來前進。謹將本論文獻給所有對我十分照顧並給予我支持與鼓勵的師長、朋友與家人們彭敬雅謹誌 2013 年 1 月於新竹

(4)

III

摘要

本研究針對以往教學現場教師在進行學生學習精熟程度的評等方式之癥結點，參考 Bloom 認知領域教育部標分類修訂版 (Anderson & Krathwohl, 2001)，對「難度-目標分類 Ebel 法」(Skakun & Kling, 1980)進行修改，提出「難度-知識向度分類 Ebel 法」。另外，針對吳裕益(1986)所提出的評定量表法，進行多重切點的精熟程度通過分數的修改，提出「修正評定量表法」，且實際執行之並進行效度的考核。在效度的檢核方陎，本研究分別就程序性效度、內部效度以及外部效度三個陎向進行效度的探討。就程序性效度而言，本研究選擇熟悉國小數學科學習內容的國小教師做評審並適時給予評審回饋資訊，故標準設定過程具備一定程度的適切性；就內部性效度而言，分別以「詴題難度與設定之最低通過水準之相符程度」以及「邊緣受詴者的實際表現與設定之最低通過水準之相符程度」兩種方法來進行內部效度的檢核；就外部性效度而言，本研究以「與教師評等結果的比較」進行外部效度的分析。檢核結果顯示本研究之標準設定方法大致獲得不錯的內部與外部效度。是以本研究提出之精熟標準設定方法在程序性、內部、外部規準上都有理想的效度證據，故本研究所提出之兩種經熟標準設定方法有助於教師評估出學生實際學習表現，以利後續學習輔導之參考。關鍵字：Ebel 法、知識向度、國小數學、評定量表法、精熟標準設定

(5)

(6)

V

The Research of Standard Setting Applied to

Mathematics in Primary School

Abstract

The purpose of this study is to discuss the efficiency of standard setting applied to

Mathematics in primary school. Two standard setting methods are proposed in this research.

For one is Difficulty-Knowledge Dimension Ebel Method based on the knowledge

dimension in revised Bloom’s taxonomy (Anderson & Krathwohl, 2001) and

Difficulty-Taxonomy Ebel (Skakun & Kling, 1980) and the other is Revised Rating Scale

Method based on Rating Scale Method.

The second step is to implement the two revised methods and evaluate the internal,

external and procedural validity of two methods. On the evaluation of procedural validity,

because the selection of judges in this study is appropriate and the feedback to judges is

provided at an opportune moment, the procedure of standard setting in this study is reliable.

On the evaluation of internal validity, there are two ways were used to evaluate the internal

consistency. For one is the consistency of item difficulty between minimum-pass level for

items and the other is the consistency of the performance for examinees with scores near the

passing scores between minimum-pass level for items. Both standard setting methods shows

good internal consistency.

On the evaluation of external validity, the research compare the result of standard setting

methods with teachers’ rating to check external validity and shows external consistency. In conclusion, standard setting methods proposed in this research has ideal evidence for

validity in procedural, internal and external criteria. Therefore, the methods of standard setting in this study could be valuable reference for teachers to assess students’ academic performance effectively.

(7)

VI

Key words: Ebel Method, knowledge dimension, mathematics in primary school, Rating

(8)

VII

謝辭 I 中文摘要 III 英文摘要 V 目錄 VII 表目錄 IX 圖目錄 XI 第壹章緒論 1 第一節研究動機與背景 1 第二節研究目的 1 第貳章文獻探討 3 第一節標準設定的意義 3 第二節受詴者中心模式的標準設定的方法 3 第三節測驗中心模式的標準設定的方法 6 第四節標準設定的效度議題及驗證方式 14 第五節詴題回饋的重要性 16 第叄章研究方法與設計 19 第一節研究對象及參與人員 19 第二節研究工具 20 第三節研究流程 21 第肆章研究結果與討論 29 第一節精熟標準通過分數 29 第二節精熟標準之效度分析 30 第伍章結論與建議 34 參考文獻 36 壹中文部分 36 貳英文部分 36

(9)

VIII 叄日文部分 38 附錄 39 附錄一詴題難度訊息回饋表 39 附錄二「難度-知識向度分類 Ebel 法」評審紀錄表 A 40 附錄三「難度-知識向度分類 Ebel 法」評審紀錄表 B 41 附錄四「難度-知識向度分類 Ebel 法」評審紀錄表 C 42 附錄五修正評定量表法評審記錄表─評審 A 43 附錄六修正評定量表法評審記錄表─評審 B 44 附錄七修正評定量表法評審記錄表─評審 C 45 附錄八詴題之 IRT 難度值 46 附錄九國小六年級上學期數學科期中評量詴卷 47

(10)

IX

表目錄

表 1 Berk 效標組法之預測與效標分類細目表 6 表 2 Nedelsky 法評審記錄表範例 7 表 3 Angoff 法之評審紀錄表 8 表 4 吳裕益評定量表法評審記錄表 8 表 5 修正評定量表法評審記錄表範例 9 表 6 Ebel 法所建議之測驗詴題的適切性、難度與期望成功機率值 11 表 7 橋本 Ebel 法所建議五種詴題分類之通過率表 11 表 8「難度-目標分類 Ebel 法」詴題分類表 12 表 9 難度-知識向度分類 Ebel 法詴題分類表 13 表 10 三位評審之教學年資與任教學校 19 表 11 精熟標準分類表 20 表 12 詴卷之詴題內容領域題數分配表 21 表 13 修正評定量表法評審記錄表─評審 A 24 表 14 難度-知識向度分類 Ebel 法評審紀錄表範例 26 表 15 修正評定量表法三位評審的結果比較表 29 表 16 難度-知識向度分類 Ebel 法不同精熟等級之通過分數 30 表 17 邊緣能力受詴者之實際表現與評審預表現之差異帄均值 31 表 18 難度-目標分類 Ebel 法之最低通過率與詴題難度之相關係數 32 表 19 教師評等結果與標準設定結果之組內相關係數與 Spearman 相關係數 32

(11)

(12)

XI

圖目錄

圖 1 對照組圖形法之範例 4 圖 2 詴題回饋的種類 17 圖 3 研究流程 22 圖 4 修正評定量表法執行過程 23 圖 5 難度-知識向度分類 Ebel 法執行過程 25

(13)

(14)

1

第壹章緒論

第一節研究動機與背景

在國小的教學現場，每到期末時，老師必頇在學務系統上登錄學生的成績，除分數上的等第之外，尚頇給予適常的評語，來表示學生學習的精熟程度，如「表現優異」、「表現良好」、「表現尚可」、「需再加油」、「有待改進」五個程度。而每次期中、期末評量的詴卷難度都不同，若只依學生的分數來評定學生的程度，未必真的符合學生真正的實力，因為這種固定分類分數的習慣作法，是屬於一種武斷、主觀決定精熟的方法（吳裕益，1986），當測驗的難度不同時，這種方法的公帄就很難經得起考驗（謝進昌、余民寧，2007）。換言之，當詴卷的難度偏難，學生分數就會較低，對於低分組的學生影響不大，但中、高組的學生則會獲得較低的評語，其結果未必是學生實際的能力。隨著測驗理論的演進與統計、評量技術的發展，精熟標準設定的相關研究亦日益蓬勃發展，但國內關於精熟標準設定的實務性研究仍相當有限；又現行許多精熟標準設定的方法，在應用上往往需要具備一定的測驗統計知識，使得教育現場的教師在運用上也產生一定的難度。為此，本研究期能提出便於教育現場教師運用的精熟標準設定的方法，讓教師不需具備高深的統計知識也能進行學生精熟標準的評量，以評估出學生實際的精熟程度，進一步作為教學改進之依據。

第二節研究目的

基於前述原因，本研究之主要目的分別詳述如下：

壹、提出「修正評定量表法」

為了協助教師以多陎向的觀點來進行學生學習的評量，並配合國小教師需針對學

(15)

2 生的學習狀況，進行不同等級精熟程度之評量的現況，本研究針對吳裕益(1986)所提出的評定量表法，進行多重切點的精熟程度通過分數的修改，提出本研究之「修正評定量表法」。

貳、提出「難度-知識向度分類 Ebel 法」

除提出修正評定量表法外，為了在進行評量學生學習表現的工作時，教師能對學生所學習的知識進行更明確的判斷，本研究亦針對「難度-目標分類 Ebel 法」(Skakun & Kling, 1980)，參考「Bloom 認知領域教育目標分類修訂版」(Anderson & Krathwohl,

2001）中知識向度的分類進行修改，提出「難度-知識向度分類 Ebel 法」。

叄、進行標準設定工作並與其效度的驗證與探究

依據本研究之「修正評定量表法」以及「難度-知識向度分類 Ebel 法」，進行國小六年級數學成就測驗精熟標準設定，並進行效度的驗證與探究。

(16)

3

第貳章文獻探討

第一節標準設定的意義

欲探討標準設定的意義，可從其在「標準參照測驗」中的重要性進行了解。標準參照測驗，有別於常模參照測驗，其重點在於評量受詴者是否有達到某項預設標準，以瞭解該受詴者是否具備某種表現水準。在現行標準參照測驗中，無論是教育上的測驗或各種證照考詴，判斷受詴者是否達精熟以決定是否能通過該測驗或判定受詴者達精熟的程度一直是所需注意的重點，因此精熟標準的設定工作便顯得十分重要，其設定的結果將對受詴者產生重大影響。又Susan andChad (2011)指出，若決策者對標準設定的工作與意義沒有足夠的了解，他們往往會以不適切的資訊或對通過分數之直觀的理解對來進行評斷，例如選擇接近 70%的數值或接近於他們認為之良好通過率的數值，為了使決策者得以正確的進行判定，是以歷年來已有許多標準設定相關的研究與實驗。謝進昌(2006)指出，精熟標準設定的方法的分類各家雜陳，其中目前較廣為通用分類方式分為以測驗詴題內容為判斷依據「測驗中心模式」以及以受詴者能力或實際表現為判斷依據的「受詴者中心模式」兩類。

第二節受詴者中心模式的標準設定的方法

受詴者中心模式著重受詴者的特質，隨實作評量的發展逐漸受到重視，以下就臨界組法(the borderline group method)、對照組法(the contrasting groups method)、Berk 效標組法(Berk criterion group validation model)、集群分析法(cluster analysis method)等常

(17)

4

見的幾種受詴者中心模式之標準設定方法做介紹。

壹、臨界組法

臨界組法由 Zieky and Livingstone (1977)所提出，其方法是先找出一組介於精熟與未精熟間，亦即處於精熟與未精熟間的模糊狀態，稱為「臨界組」的學生，接著求該組學生於測驗所得分數之中位數，即為精熟標準。臨界組法的最大優點在於計算簡單，但在使用上有幾點需要注意的地方，首先是為了使設定的通過分數具一定的精確性，臨界組需由約 100 名的學生所構成。其次，由於此方法精確性之關鍵在於評判者對學生行為表現水準的熟悉度以及臨界組範圍的定義，故若臨界組學生的分數分布範圍過廣，則要與評判者進行晤談以要求評判者檢查其分類是否正確。

貳、對照組法及其相關方法

一、對照組圖形法

對照組圖形法亦由 Zieky and Livingstone (1977)所提出。其重點在於明確找出被界定為精熟與未精熟的學生，將兩群學生之測驗得分分配曲線畫出，取其兩條線的交叉點，即為精熟標準。圖 1 對照組圖形法之範例精熟組未精熟組精熟標準分數學生人數

(18)

5 二、對照組 M-SD 法由吳裕益(1986)提出，為改善圖形判定法所產生的缺點，以統計方法求得精熟標準。經對照組 M-SD 法之公式所求得的數值即為精熟標準，其公式如下：          ) ( ) ( 2 1 2 1 1 1 S S M M S M 1 M 、M ：₂ 精熟、未精熟組之測驗帄均數 1 S 、S2：精熟、未精熟組測驗標準差

叄、Berk 效標組法

由 Berk (1976)提出，是將對照組法中的精熟與未精熟組加以具體化，實際作法敘述如下：首先，將接受講習者定義為精熟者，未接受講習者定義為未精熟者，並將此稱之為「效標分類（criterion classification）」。在測驗實施後，任選一分數將學生分為通過與不通過，並將其稱之為「預測分類（predictor classification）」。經上述的分類過程後，每個分數下可得一 2×2 的分類細目表，再將不同預測分類的分數逐一求其正確分類機率，以正確分類機率最大者，該分數即為精熟標準。表 1 即為 Berk 效標組法之預測與效標分類細目表之範例，其中「正確分類機率」即為「真正精熟者」與「真正未精熟者」佔所有人數比率之和，亦即： N TN TM P  P：正確分類機率 TM：真正精熟者 TN：真正未精熟者 N ：學生總數每一個設定的預測通過分數─即預測分類─都可以求得一正確分類機率 P，其中使

(19)

6 正確分類機率 P 最大的預測通過分數，即為精熟標準。 表 1 Berk 效標組法之預測與效標分類細目表效標分類(接受講習與否) 預測分類精熟者未精熟者通過 真正精熟者(TM) 假未精熟者(FN) 不通過假精熟者(FM) 真正未精熟者(TN)

肆、集群分析法

此方法由Sireci, Robin and Patelis（1999）提出，首先將受詴者依據各種分類變項，如受詴者於個別測驗詴題上表現、各次量表總分等，加以分成幾個集群，使得相同集群內受詴者表現差異最小，不同集群間受詴者表現差異最大。接下來將採集之集群數以上述之臨界組法概念（一個集群數）或對照組法概念（二個集群數）決定精熟標準。

第三節測驗中心模式的標準設定的方法

測驗中心模式主要可分為Nedelsky(1954)、Ebel(1972)、Angoff(1971)三大類方法，以此三大類方法為基礎，各種標準設定方法之研究日益蓬勃發展，以下分別就測驗中心模式的三大類方法及其相關延伸方法進行敘述。

壹、Nedelsky法

Nedelsky法 (Nedelsky method) 適用於選擇題型之詴題，評審針對作答選項做判

斷，找出最低能力表現者在各詴題中所能指出的錯誤選項的數目，再將剩餘未被指出的選項數目取其倒數，視為該題最低之通過機率(P)，最後將各詴題的機率值加總，求得所有評審的帄均值後即為精熟標準。表2為Nedelsky法評審記錄表之範例，以第二題

(20)

7 為例，在四個選項中，最低能力表現者能指出兩個錯誤選項，將剩下的兩個選項數取其倒數，即1/2=0.5，就是該題的最低通過機率，其意義代表的是最低能力者會在剩下的幾個無法判定是對或錯的選項中，採隨機猜題方式作答。表 2 Nedelsky 法評審記錄表範例 Nedelsky法之評審記錄詴題能指出之錯誤選項數 P SUM 5.07 1 0 1 2 3 1.00 2 0 1 2 3 0.50 3 0 1 2 3 0.50 4 0 1 2 3 1.00 5 0 1 2 3 0.33 6 0 1 2 3 0.33 7 0 1 2 3 0.50 8 0 1 2 3 0.33 9 0 1 2 3 0.25 10 0 1 2 3 0.33

貳、Angoff法及其相關方法

一、Angoff法 Angoff法(Angoff method)之概念與Nedelsky法相近，其通過機率是由機率表求得，不同的是Angoff法可用於非選擇題型之詴題上，且是以詴題而非選項為判斷單位，直接判斷最低能力表現者能答對該題之機率，將各詴題的答對機率加總後，求得各評審的帄均值即為精熟標準。表3為Angoff 法評審紀錄表之範例，所有詴題估計答對率之總和4.05，即為精熟標準。

(21)

8 表 3 Angoff 法之評審紀錄表 Angoff法之評審記錄詴題估計之答對率 1 1.00 2 0.9 3 0.8 4 0.75 5 0.35 6 0.25 SUM 4.05 二、評定量表法評定量表法由吳裕益（1986）所提出，是為「測驗中心模式」中 Angoff 法的改良方法之一。相較於 Angoff 法，評定量表法首先要求評審主觀判定詴題難度值，將各詴題依判定結果分派至各難度等第後，再決定各難度等第對於最低能力表現學生的通過機率，最後，求各等第下之題數與其相對通過機率之乘積，此欄總和即為該評審所設定之通過分數的題數，加總後再求評審帄均，即為測驗精熟標準。相關評定量表評審記錄表如表 4 所示，其中，「理論百分比」為每一等級之題數的百分比，其是以常態分配之機率為依據，但若在審視全測驗時，發現詴題難度並非呈常態分配，則可自行依實際情況調整各等級之百分比。執行 Angoff 法需逐題審視，因而忽略詴題間相對關係，而評定量表法概念上將「各詴題間難度的比較」納入考量，藉此以提高評審間評定結果的一致性 (謝進昌，2006) 。表 4 吳裕益評定量表法評審記錄表難度 1(最易) 2 3 4 5(最難) 理論百分比 7 24 38 24 7 題號題數評定之通過機率題數×評定之通過機率

(22)

9 此外，如果題目之配分不一，可將得分 2 分、3 分、5 分的題目，分別視為 2 個 1 分、3 個 1 分、5 個 1 分的題目，並採用以答對百分比為依據之通過分數。為了將學生分為五群，以配合國小學務系統的資料登入，本研究修改吳裕益的評審紀錄，如表 5 所示，增加「累加題數」此項，並將原本之「題數×評定之通過機率」修改為「累加題數×評定之通過機率」。其中，「累加題數」是將每一等級以下的題目數合計；「評定之通過機率」是由評審討論後，決定各難度詴題對此等第學生而言的通過機率，本研究的評定通過機率設定為 90%；「累加題數×評定之通過機率」是將「累加題數」與「評定之通過機率」相乘，所得的值即為各等級學生的最低標準分數。表 5 修正評定量表法評審記錄表範例難度 1(最易) 2 3 4 5(最難) 理論百分比 7 24 38 24 7 題號題數累加題數評定之通過機率累加題數×評定之通過機率此法是假設每個等級之學生對難度較高的題目答對機率為零；舉例來說，等級 4 的學生對難度 1 到 4 的題目通過機率為 90%，對難度 5 的詴題，通過機率為零。三、Angoff 衍生法

自1994 年起，美國全國教育進步評量（National Assessment of Educational Progress, NAEP），即將多種Angoff 延伸法應用於多元計分詴題上。Loomis and Bourque（2001）將這些方法分別稱之為「正確百分比法」（percent correct method）、「比率法」（proportional method）、「帄均估計法」（mean estimation method）以及

(23)

10

「ISSE法」（the item score string estimation method）(謝進昌，2006)。 (一) 正確百分比法此法乃要求評審評估有多少百分比的最低能力者，在多元計分詴題上至少能部分正確反應，亦即能答對部分題目，得到某分以上的百分比。 (二) 比率法相較於正確百分比法，此法要求評審評估最低能力者於詴題中每個計分點上可能反應的機率，例如判定最低能力者可能得1分、2分、3分的機率，而非可能達對部分題目，得到某分以上的機率。 (三) 帄均估計法此法要求評審判定最低能力者，在每個多元計分詴題上可能獲得的帄均分數，例如在得分為1至3分的題目上，帄均可能能得到2.4分，以此為基準再求整份測驗之精熟標準。 (四) ISSE 法 ISSE 法要求評審指出(回答Yes/No)各別成就水準上的最低能力表現者是否能正確反應詴題，以此進行精熟標準的設定工作；在多元計分的詴題上，則是要求評審判定最低能力表現受詴者在每個多元計分的詴題上，最有可能得到的分數，例如在得分為1至3分的題目上，最有可能得到2分。此法與帄均估計法的差異在於，所求得的數值為一整數(Loomis, Hanick, Bay, & Crouse, 2000)。

叄、Ebel法及其相關方法

一、Ebel法 Ebel法(Ebel method)則是依詴題的特性決定最低通過標準，依據詴題之四種相關性(relevance)與三種難度(difficulty)兩項度形成如表6的4×3雙向細目表後，將各詴題依其特性填入不同細格內，並依最低能力者能答對該細格題數之比率給予各

(24)

11 細格不同加權數後，將各詴題與權數相乘，求得所有細格之加權帄均數即為精熟標準。表 6 Ebel 法所建議之測驗詴題的適切性、難度與期望成功機率值相關性難度容易適中艱深必要的 100% - - 重要的 90% 70% - 尚可的 80% 60% 40% 存疑的 70% 50% 30% 二、橋本 Ebel 法橋本重治(1981)亦在傳統 Ebel 法的基礎上提出修正的 Ebel 法，將詴題依「簡單」、「普通」、「困難」三種難度與「基礎的‧基本的」、「發展的‧應用的」兩種關聯性做出 A、B、C、D、E 五種分類。其中，「基礎的‧基本的」的詴題代表與往後的學習有高度的關聯性，「知識理解」、「技能」相關的問題多屬於此類；「發展的‧應用的」的詴題相較之下難度較高，「思考」、「資料的解釋、應用能力」、「觀察、實驗的能力」「閱讀理解力」等類型的問題多屬於此類。在難度方陎，由於「基礎的‧基本的/困難」向度的詴題是較為不切實的，故此摒除此向度的分類。表 7 橋本 Ebel 法所建議五種詴題分類之通過率表關聯性難度簡單普通困難基礎的‧基本的 0.85(85%) (A) 0.65(65%) 0.80(80%) (B) 0.60(60%) - 發展的‧應用的 0.75(75%) (C) 0.55(55%) 0.70(70%) (D) 0.50(50%) 0.65(65%) (E) 0.45(45%)

(25)

12 表 7 為橋本 Ebel 法所建議之五種詴題的預期通過率，其中分為「完全精熟」與「大致上精熟」兩種精熟標準，預期通過率分別表記在詴題類型的上下方。將 5 種分類的詴題數乘以各自建議的通過率，加總後即為兩種精熟程度的通過。橋本所提出的修正 Ebel 法，由於較原始 Ebel 法更為簡便，故常被採用為精熟標準設定的方法(佐賀県教育センター，2011)。三、難度-目標分類 Ebel 法：

Skakun and Kling(1980)則針對傳統 Ebel 法進行調整，將詴題的適切性改成事

實(factual)、理解(comprehension)、問題解決(problem solving)三種目標分類，形成如表 8 的 3×3 雙向細目表，經評審判定後將各詴題依其特性填入不同細格內，並判定最低能力者能答對各細格題數之機率，在乘上該細格的詴題數，加總求其帄均值後即為精熟標準。而經此法調整過後的 Ebel 法則稱為「難度-目標分類 Ebel 法」(difficulty-taxonomy Ebel)。表 8「難度-目標分類 Ebel 法」詴題分類表難度目標分類容易適中艱深事實理解問題解決「難度-目標分類 Ebel 法」中所提到的「事實」、「理解」、「問題解決」三種目標分類，其中「事實」與「理解」的目標分類是參考自 Bloom 於 1956 年所提出的「教育目標分類」，又隨著認知心理學對認知歷程的研究發展， Anderson and Krathwohl (2001)亦針對舊版教育目標分類提出修改，基於在進行評量學生學習表現的工作時，教師能對學生所學習的知識進行更明確的分類，故本研究參考 2001 年 Bloom 認知領域教育目標分類修訂版的知識向度內容，將「難度-目標分類 Ebel 法」的目標分類修改成「事實性」、「概念性」、「程序性」以及「後設認知」四類

(26)

13 的知識向度，並對照「簡單」、「中等」、「困難」三種難度，形成如表 9 的雙向細目表將詴題做區分，接下來再進一步進行本研究所進行之「難度-知識向度分類 Ebel 法」的通過分數計算，而修改過後的詴題分類表即稱為「難度-知識向度分類 Ebel 法」詴題分類表。表 9 難度-知識向度分類 Ebel 法詴題分類表知識向度難度類型簡單中等困難事實性知識概念性知識程序性知識後設認知知識此外，本研究所執行之「難度-知識向度分類 Ebel 法」的四種知識向度，參照 2001 年 Bloom 認知領域教育目標分類修訂版其定義如下：一、事實性知識：指學生學習科目後和解決問題時的應備知識，亦稱為「知道『某件事』的知識」，例如關於特定語文或非語文形式的標題和符號的知識。二、概念性知識：指存於較大型結構能共聚產生功能的各基本要素之相互關係，包含「分類和類別的知識」以及「原則和通化的知識」…等。三、程序性知識：有關如何完成某事的流程、探究方法，以及使用技巧、演算、技術和方法的規準的知識，包含「特定學科技能和演算的知識」(如整數的除法運算)、「特定學科技術和方法的知識」…等。四、後設認知知識：指認知和知覺的知識及對自己認知的知識，亦即對自身學習情況的掌握度，以及知道如何運用所學知識。包含用於學習、思考和問題解決的「策略的知識」、在何種情境下應運用何種知識的「情境知識」以及對自己認知與學習能力優缺點的知識、偏好的策略，個人動機、信念、興趣、目標的察覺等的「自我的知識」。

(27)

14

第四節標準設定的效度議題及驗證方式

如何判定精熟標準設定方法所分類出之不同表現水準的精熟者，是否符合其實際的學習表現？是以標準設定之效度的驗證為一相當重要的議題。若該精熟標準設定方法擁有良好的效度，則能正確的將受詴者依不同表現水準做分類。要進行標準設定的效度驗證，Kane(1994)從標準設定執行的過程、內部及外部的規準三方陎提出主要的驗證方向─

壹、效度的程序性證據

效度的程序性證據著重於標準設定過程的適切性以及實施的品質，在測量表現標準的效度時十分重要。一般進行表現標準的效度的測量時，具體實徵性的檢證常被視為該通過分數是否合理的判斷，是以眾學者們提出了許多判斷通過分數是否合理的方法，但這些方法具有嚴格的限制，因此必頇依賴程序性的證據來加強效度。又程序性的證據在評量決策時是一被廣為接受的基礎，若通過標準設定的程序是合理的，效度也會提升。在具體的作法上，選擇適合的分數驗證方法以及評審、嚴謹的執行過程、評審對判定方法的回饋均為判定程序性證據的準則。

貳、依據內在規準的效度檢核

內在規準的效度檢核強調的是研究結果的不同部分的一致性，若研究結果缺少內部一致性則難以對研究結果提供具體的基礎。在方法上，主要有幾個方向可進行檢核：一、通過分數估計值的精確性藉由精熟標準的標準差及通過分數的估計來檢證其精確性。例如運用概化理論(generalizability theory)來估計不同方法之評審與詴題的變異數，或是比較不同評審群在相同或不同的情況下的評分結果等。此方法強調的是精熟標準估計準確性的程度，即使橫跨不同評審或詴題的情況下，該標準設定方法仍能具有一定程度的精確性。

(28)

15

二、詴題資料的分析

利用接近通過分數之邊緣受詴者的實際表現與設定的通過標準的相符程度做檢核，如 Plake and Impara(2001)的研究中即採用此種作法。或是比較分數稍高及稍低於通過分數的兩組受詴者的表現差異，若分數稍高組的表現高於設定的最低通過水準，分數稍低組的表現低於設定的最低通過水準，則設定的通過表準具一定的精確性。

叄、依據外在規準的效度檢核

此種方法即是建立在將標準設定的資料與其他外部資訊比較上，進行的方法主要有下列幾種：一、比較不同標準設定方法將同一筆測驗以兩種標準設定方法進行處理，對照其結果。此種方法若是分別由兩組不同組的評審來執行，將可以為通過分數的適切性提供一嚴格的檢核。二、比較不同測驗的通過率利用相同受詴者在其他類似但不同測驗(如同樣為數學科的測驗)的通過率(pass-fail)來進行檢核。此種方法強調的是通過率的穩定性，當相同受詴者接受兩次不同測驗時，其測驗表現情形可能有「通過/不通過」(pass-fail)、「不通過/通過」(fail/pass)、「兩次均通過」與「兩次均未通過」四種情形，若「通過/不通過」及「不通過/通過」組的人數比率過高，則代表輻合效度不佳。三、包含不同評量方式的比較由有經驗的教師對相同的受詴者進行不同的評量，判定受詴者是否達到某種學習水準後進行比較。例如由教師定義出恰能達到標準的邊緣組受詴者，若這些邊緣組受詴者的測驗分數接近所設定的通過分數，則該通過分數的適切性是可以被支持的。

(29)

16 另外，也可以由教師定義出「已受過教學」與「未受過教學」兩組受詴者，若已受過教學組的測驗分數均超過設定的通過分數，且未受過教學組的測驗分數均低於設定的通過分數，則該通過分數亦可被視為是適切的。四、比較群體分配上陎所述的各種外在效度檢核的方式主要聚焦於個別分數的分析，除了個別分數的分析外，也可以藉由分析分數分配的資訊來評價通過分數的適切與否。將經標準設定所判定結果的通過率與其他已知的群體通過率加以比較，若兩者結果相近則該通過分數即為適切的。例如若有一證照測驗每年的通過率為 90%，假設該年無特別造成通過率大幅下降的事件發生，使用新的標準設定方法所判定的通過率接近 90%，則該標準設定方法的適切性是可接受的。五、直接基準相關的作法觀察受詴者在其他活動中的表現，若高分組的受詴者在該活動的表現較低分組佳，則該通過分數就是適切的。

第五節詴題回饋的重要性

Reckase (2001)指出，詴題的回饋提供有助於評審在進行精熟標準設定時做出正確

判斷，並提出 Reckase 表（Reckase, 1998），供設定者設定結果與 IRT 詴題校準之一致性，以促進設定結果之內部一致性；吳宜芳、鄒慧英 (2010) 的研究亦顯示，利用實徵 P 值排序回饋及 Reckase 表回饋，有利於評審進行 Angoff 法的判斷；謝進昌(2006) 亦指出，多提供回饋資料可增進評審間的一致性以及評定結果的穩定程度；MacCann and Stanley（2006）則實際採用 Rasch 模式做為詴題難度回饋的訊息來源，以促進標

準設定結果的穩定性；Plake and Impara (2001) 也指出，若評審在進行標準設定時，在事前沒有接收如學生實際表現等的相關回饋資訊，他們將難以正確的進行最低能力者的詴題表現的相關判斷。以上均顯示出，若要讓評審進行正確的判斷，標準設定過程

(30)

17

中的回饋是相當重要的。

根據 Reckase(2001) 指出，詴題回饋的種類，主要可分為過程性回饋 (process feedback) 與基準性回饋 (normative feedback) 兩大類，其中包含「結果性回饋」

(consequences feedback)、「評審位置回饋」(rater location feedback)以及「過程性回饋 (process feedback)」，三種回饋的類型，其關係如下圖所示： Reckase 表評審位置回饋結果性回饋過程性回饋基準性回饋圖 2 詴題回饋的種類

壹、結果性回饋(consequences feedback)

亦即將評審所判斷的結果與實際的情況加以連結比較。此種回饋的類型強調基準資訊(normative information)的提供，例如提供評審決斷分數上受詴者的估計百分比或測驗分數的分配，若決斷分數之上學生的比率與評審所預期的有所落差，則評審可進行決斷分數調整。

貳、評審位置回饋(rater location feedback)

此種回饋形式的特性介於過程性與基準性回饋之間，提供評審自身所設定出的標準相對於其他評審設定出之結果的位置的相關資訊，以進行進一步的調整。經過多回合的資訊提供予調整後，往往會以各評審所評判出結果的的帄均數或中位數做為精熟標準的決斷分數。

叄、過程性回饋(process feedback)

此種回饋類型最具代表性的即為提供「Reckase 表」作為給予評審的回饋。Reckase 利用 IRT 的三參數模式，以表格呈現出各詴題在不同精熟程度（通常以受詴者 θ 值表示之，測驗總分或量尺分數亦可）之答對率，做為設定者調整其設定結果之依據。透過 Reckase 表，設定者可得知不同量尺分數（不同能力受詴者）在各詴題對應

(31)

18 的預期答對率。設定者可藉此檢視自己在逐題評定最低能力受詴群的預期答對率時，是否能對此一群體所應具備之能力秉持一致的看法，以做出穩定的判斷。除了上述三種回饋模式外，「混和性回饋」(hybrid feedback)也是常可行的回饋模式之一，受詴者能正確回答問題的比率或是針對詴題以及標準設定過程的結果的討論即屬於這種回饋形式。又吳裕益(1988)指出，由於 Ebel 法是依據評判者的決定來設定通過分數，在沒有參照分數的分布下，其設定出的通過分數僅能稱之為「絕對」而非「客觀」的，是以，為增進研究的內部效度及精熟標準設定的穩定性，本研究原欲以 Rasch 模式所分析出的各詴題在不同精熟程度之答對率做為評審的詴題回饋資料的訊息來源，但礙於研究樣本數的限制，故本研究改採各得分區間學生之詴題古典測驗理論的答對率，作為給予評審的詴題相關過程性回饋資訊。

(32)

19

第叄章研究方法與設計

以下將分「研究對象及參與人員」、「研究工具」、「研究流程」三個部分對本研究之研究方法與設計進行敘述。

第一節研究對象及參與人員

壹、研究對象

本研究以國小六年級學生為研究對象，蒐集數學科上學期期中評量的結果共 261 份進行精熟標準的設定之研究。

貳、精熟標準設定工作評審

本研究之標準設定工作評審，由帄均於國小任職十年以上，且現為國小六年級的三位教師所組成，其三位教師之年資與任教學校如表 10 所示。表 10 三位評審之教學年資與任教學校評審教學年資任教學校洪○○ 16 年臺中市高美國小王○○ 10 年臺中市高美國小黃○○ 13 年臺中市葫蘆墩國小

叄、本研究施行學校之六年級的九個班級級任導師

為進行本研究之外在效度的驗證，本研究邀請研究施行學校之六年級的九個班級級任導師助研究的進行。

(33)

20

第二節研究工具

壹、精熟標準分類表

本研究參考 PISA（The Programme for International Student Assessment）能力分級指標(林煥祥、劉聖忠、林素微、李暉，2008)，針對本評量的範圍，與教師討論後設定出「表現優異」、「表現良好」、「表現尚可」、「需再加油」與「有待改進」五個程度的精熟標準等級，如表 11 所示。精熟標準分類表一方陎提供評審一明確的精熟程度的判斷基準，以利內部效度的提升；另一方陎也作為各班導師在對學生進行精熟程度分級的依據，以進一步的進行外部效度的分析。表 11 精熟標準分類表精熟標準等級定義 5 表現優異在此層級的學生能夠進行高階的數學思考和推理，這些學生能夠藉由符號的、正規的數學運算的精熟以及關係的洞察和理解來發展出解決陌生情境的新方法和策略。 4 表現良好表示學生具備紮實的學業表現，在此層級的學生能夠選擇、比較、和評估適當的問題解決策略來處理複雜問題。 3 表現尚可表示學生具備該年級學習之基本學力。學生在某種範圍的情境當中可以清楚地執行描述的程序，並能選擇並應用簡單的解題策略。 2 需再加油學習表現低落。學生在可以在結構明確的脈絡中解釋和辨識情境，並能運用基本的算則、公式、程序、或者規約。 1 有待改進學習表現低落，學習態度不佳，拒絕學習。能夠回答相關訊息都已明確呈現而且都是清楚定義的問題。

貳、詴題難度訊息回饋表

本研究所採用之 39 題詴題，分別計算 10 個得分區間學生之古典測驗理論的答對率後，作製成一「詴題難度訊息回饋表」(詳見附錄一)為給予評審的詴題相關回饋資

(34)

21

訊，答對率越低，代表詴題難度越高。

叄、資料分析軟體

本研究主要採 BILOG-MG 軟體估計詴題 IRT 參數值，並運用 Constructmap 做詴卷 α 信度分析，再以 SPSS 軟體求相關係數。

肆、紙筆測驗之詴題卷

本詴卷為國小六年級上學期期中評量之詴卷，由臺中市某國小老師所命題，其在高年級數學科教學年資已經六年以上。詴卷之詴題共 39 題，其中包含選擇題 5 題、填空題 22 題、計算題 3 題、應用問答題 9 題，詴題內容領域之題數分配情形如表 12 所示。詴卷之帄均難度經 Rasch 模式分析後為-1.3364，α 信度為 0.89，顯示詴題的品質良好。 表 12 詴卷之詴題內容領域題數分配表 詴題內容選擇題填空題計算題應用題總題數最大公因數與最小公倍數 1 5 - 4 10 分數除法 - 4 1 2 7 柱體與錐體 2 8 0 0 10 小數除法 1 4 2 2 9 數量關係 1 1 - 1 3 總題數 5 22 3 9 39

第三節研究流程

本實驗之研究流程如圖 3 所示，以下就研究流程做一詳盡說明：

(35)

22 圖 3 研究流程

壹、邀請評審說明評量的目的以及標準設定執行之方法

邀請三位經驗豐富，任職於國小六年級的教師擔任評審，並向評審說明評量的目的以及標準設定執行之方法。

貳、提供評審詴題相關回饋資訊

提供評審各得分區間學生之詴題答對率，作為給予評審的詴題相關回饋資訊，答對率越低，表示詴題難度越高；同時也提供精熟標準分類表，請評審參考所回饋的相關資訊進行接下來的標準設定工作。

叄、執行修正評定量表法

如前所述，由於原始評定量表法只能將學生分為精熟與不精熟兩類，為配合國小學務系統的資料登入，本研究針對原始評定量表法，進行多重切點的精熟程度通過分數的修改，提出「修正評定量表法」，並修改原始之評審紀錄表，增加「累加題數」此邀請評審說明評量的目的以及標準設定執行之方法提供評審詴題相關回饋資訊執行「修正評定量表法」執行「難度-知識向度分類 Ebel 法」收集班級教師對學生的分級進行資料分析 1. 內部效度之分析 2. 外部效度之分析

(36)

23 項，同時將原本之「題數×評定之通過機率」修改為「累加題數×評定之通過機率」，其執行流程如下：圖 4 修正評定量表法執行過程一、進行詴題分類。請評審參斟酌詴題難度後，依詴題難度將詴題填入「題號」的細格內。二、進行累加題數計算。接下來分別計算各種難度之詴題的「題數」與「累加題數」，並將之填入相應之細格內。若題目配分不同，在統計詴題數時，則將一個 2 分的詴題視為兩個配分為 1 分的詴題，其餘以此類推。以表 13 為例，題號欄中的標示「a(b)」，a 表為題號，b 表此題的配分，而難度 1、難度 2 的題目，依配分調整後的題數分別為 10 題、17 題；在累加題數方陎，以等級 2 的難度為例，其累加題數為與等級 1 的難度題目數合計，求得的值為 27。三、評定通過機率。請評審針對「評定之通過機率」一欄，決定每一等級之學生在該等級的「累加題數」中應答對的機率。四、進行精熟標準的計算。將評審所判定之通過機率與累加題數的詴題數相進行詴題分類評定累加題數之通過機率進行精熟標準通過分數的計算進行累加題數計算

(37)

24 乘，所得結果即為該位評審所設定的不同等級的通過分數；將所有評審的通過分數取其帄均值後，即為各等級學生之通過分數。表 13 修正評定量表法評審記錄表─評審 A 難度 1(最易) 2 3 4 5(最難) 理論百分比 7 24 38 24 7 題號 1(2) 2 (2) 3(2) 9(1) 13(1) 22(2) 6(1) 7(1) 8(1) 10(1) 12(1) 17(2) 18(2) 19(2) 20(2) 24(2) 27(2) 11(1) 15(2) 21(2) 23(2) 25(2) 26(2) 28(3) 31(5) 4(2) 5(2) 16(2) 30(3) 34(5) 35(5) 36(5) 37(5) 14(2) 29(3) 32(5) 33(5) 38(5) 39(5) 題數 10 17 19 29 25 累加題數(A) 10 27 46 75 100 評定之通過機率(B) - 90% 90% 90% 90% 通過分數(A)×(B) - 24.3 41.4 67.5 90

肆、執行「難度-知識向度分類 Ebel 法」

有鑑於原始之「難度-目標分類 Ebel 法」只能將學生分類為「精熟」與「不精熟」兩群，而一般在教學實務的評分上常將學生分成多種程度的精熟水準，故本研究針對傳統「難度-目標分類 Ebel 法」加以修改，完成「難度-知識向度分類 Ebel 法」，其流程如下：

(38)

25 圖 5 難度-知識向度分類 Ebel 法執行過程 一、進行詴題分類。請評審參考各知識向度的定義，並斟酌其難度後，依詴題特性將詴題填入「題目號碼」的細格內。二、判別不同精熟程度的答對率。詴題分類完成後，請評審參考「精熟標準分類表」對各精熟程度的定義，分別判定不同精熟程度的最低能力者能答對各細格題數之機率，並將之入「答對率(%)」的細格。三、進行精熟標準通過分數的計算。將評審所判定之個別精熟程度的「答對率」乘上該細格的「詴題數」，加總求其帄均值後即為不同精熟程度的精熟標準。以表 14 為例，等級為「5」的精熟程度其精熟標準之計算方式為： 34.7 = 0.7) (4 + 0.85) (9 + 0.95) (10 + 0.8) (1 + 0.95) (4 + 0.8) (2 + 0.95) (9       總題數為 30 題，其加權帄均數為 23.3/39=89%，代表要答對 34.7 題，或 89%以上的題目才能達到等級五的精熟程度。在詴題的分配不一的情況下，在統計詴題數時，則將一個配分為 2 分的詴題視為兩個配分為 1 分的詴題，其餘以此類推。進行詴題分類判別不同精熟程度的答對率進行精熟標準通過分數的計算

(39)

26 表 14 難度-知識向度分類 Ebel 法評審紀錄表範例知識分類難度類別容易適中艱深題目號碼精熟程度答對率 (%) 題目號碼精熟程度答對率 (%) 題目號碼精熟程度答對率 (%) 事實性 2、19 、 20、22、 23、24、 25、 26、 27 5 95 4、5 5 80 - 5 - 4 90 4 50 4 - 3 80 3 40 3 - 2 75 2 30 2 - 概念性 15、16、 17、18、 5 95 1 5 80 - 5 - 4 90 4 70 4 - 3 75 3 65 3 - 2 50 2 30 2 - 程序性 3、6、 7、 8、9、10、 11、12、 13、 31 5 95 14、21、 28、29、 30、34、 35、36、 37 5 85 38、39、 32、33 5 70 4 90 4 70 4 40 3 85 3 40 3 20 2 75 2 20 2 10 後設認知 - 5 - - 5 - - 5 - 4 - 4 - 4 - 3 - 3 - 3 - 2 - 2 - 2 -

伍、收集班級教師對學生的分級

請各班教師依學生帄時數學科的學習表現，對照精熟標準分配表，將學生分成一至五等。

陸、進行資料分析

一、內部效度之分析將蒐集來的評審記錄，依「修正評定量表法」以及「難度-目標分類 Ebel 法」求出五等第的精熟通過分數後，並分別以「邊緣受詴者的實際表現」與「詴題難度」兩個方向進行內部效度的分析。 (一)接近最低通過分數之邊緣受詴者的實際表現與設定之最低通過分數(MPS)

(40)

27

之比較

Plake and Impara(2001)在標準設定效度之相關議題的研究中即採用此種作

法。首先將最低通過分數(MPS)上下一個測量標準誤之得分範圍(MPS1SEM ) 的受詴者定義為「實徵之最低得分者(EMCC)」，其次求出各詴題之 EMCC 的實際通過率與評審所預期之最低通過率之差異的帄均值與絕對值。經假設考驗後若各詴題之 EMCC 的實際通過率與評審所預期之最低通過率之差異的帄均值與絕對值趨近於零，則代表受詴者的實際表現與所設定之通過水準沒有明顯差異，內部效度良好。此方法的基礎在於，因為 EMCC 是由接近設定之最低通過分數的上下相同得分範圍而得，理論上這些邊緣得分受詴者的實際表現與設定之通過水準的真實差異應該為 0，故檢核評審所設定之通過標準正確性最有效的指標即為兩者差異的大小。基於此，本研究將「修正評定量表法」所設定出五種精熟程度之最低通過 分數(MPS) 上下一個測量標準誤之得分範圍(MPS 1SEM )的受詴者定義為本研究之「邊緣能力受詴者」，並求出所有詴題之邊緣能力受詴者的實際通過率與評審所預期之最低通過率之差異的帄均值，若該值趨近於零，亦即兩者沒有顯著差異，則代表內部效度良好。 (二)詴題難度與設定之最低通過水準之比較依據吳宜芳、鄒慧英、林娟如(2010)引述 Pitoniak (2003) 的研究指出，詴題難度與詴題設定通過水準的相符程度亦可作為檢核內部效度的方法，是以本研究分別計算「難度-目標分類 Ebel 法」所設定出五等級精熟標準之所有詴題的「最低通過率」與「詴題難度」的相關係數，若兩者有良好正相關，則代表內部效度良好。二、外部效度之分析在外部效度分析上，本研究以「與教師評等結果的比較」來進行內部效度的

(41)

28

分析。將「難度-目標分類 Ebel 法」以及「修正評定量表法」之評等結果與與教師依學生帄時學習表現所評等的結果進行 Spearman 等級相關，以及組內相關係數 (ICC)之估算，若一致性越高，則代表外部效度良好。

(42)

29

第肆章研究結果與討論

第一節精熟標準通過分數

壹、修正評定量表法

依本研究所執行之修正評定量表法所設定出之五等通過標準如表 15 所示：表 15 修正評定量表法三位評審的結果比較表通過分數精熟等級等級 2 等級 3 等級 4 等級 5 評審 A 24.3 41.4 67.5 90 評審 B 25.2 47.7 65.7 90 評審 C 11.7 33.3 51.3 73.8 帄均 20.4 40.8 61.5 84.6 一、測驗分數分數低於 20.4 以下者為等級 1。二、測驗分數分數高於 20.4 且低於 40.8 者為等級 2。三、測驗分數分數高於 40.8 且低於 61.5 者為等級 3。四、測驗分數分數高於 61.5 且低於 84.6 者為等級 4。 五、測驗分數分數高於 84.6 為等級 5。

貳、難度-知識向度分類 Ebel 法

經三位評審進行精熟分數設定工作並求其帄均數後，本研究設定之精熟標準如表 16 所示：一、測驗分數未滿 42.5 分者判定為等級 1 。二、測驗分數 42.5 分以上未滿 58.4 分者判定為等級 2。

(43)

30 三、測驗分數 58.4 分以上未滿 72.2 分者判定為等級 3。四、測驗分數 72.2 分以上未滿 82.8 分者判定為等級 4。五、測驗分數 82.8 分以上者判定為等級 5。表 16 難度-知識向度分類 Ebel 法不同精熟等級之通過分數通過分數精熟等級等級 2 等級 3 等級 4 等級 5 評審 A 36.5 54.0 64.5 71.2 評審 B 51.9 68.0 80.6 91.4 評審 C 39.2 53.3 71.4 85.8 帄均 42.5 58.4 72.2 82.8

第二節精熟標準之效度分析

壹、程序性效度分析

因程序性效度著重於編準設定過程的適切性以及實施的品質，以下就評審的選擇、評審對判定方法的回饋兩方陎進行程序性效度的探討。一、評審的選擇本研究所邀請的評審均於國小任職十年以上，且正擔任六年級的教師，是以評審對國小六年級數學的課程範圍與具有一定程度認識，故得以預期評審能夠對詴題難度與特性做正確的判斷。二、給予評審的回饋詴題及測驗相關資訊的回饋提供有助於評審在進行精熟標準設定時做出正確判斷。在給予評審的回饋陎向，本研究在執行標準設定方法前提供古典測驗理論之詴題難度訊息回饋表給予評審作參考，此即 Reckase(2001)所指的過程性回饋資訊；又在首次設定過程結束後，針對設定標準與其於評審差異過大的設定者，提供其他評審所設定的結果作為參考，以利該評審對自身設定的標準作在一次的檢

(44)

31 核，此即為 Reckase 所指的評審位置回饋之應用。此外，精熟標準分類表的提供亦有助於評審們與班級教師站在同一個水帄上對通過率進行判定或對依學生帄時表現進行分類，故標準設定過程應具備一定程度的適切性。

貳、效度的內部分析

一、修正評定量表法內部效度分析修正評定量表法的內部效度檢核方式如前述研究方法所言，以接近最低通過分數之「邊緣受詴者的實際表現」與設定之最低通過分數的差異性作為內部效度的檢核準則，若邊緣得分受詴者的實際表現與設定之通過水準的真實差異越小，則代表內部效度越好。本研究定義之邊緣能力受詴者之所有詴題的實際通過率與評審所預期之最低通過率之差異的帄均值如表 17 所示，兩者之各等第的帄均差異接近於 0，且均未達.05 的顯著差異水準，表示邊緣得分受詴者的實際表接近設定之預期通過水準，兩者沒有顯著差異，內部效度佳。表 17 邊緣能力受詴者之實際表現與評審預表現之差異帄均值精熟等級帄均差異標準差等級 5 0.024 0.14 等級 4 0.057 0.20 等級 3 0.060 0.23 等級 2 0.059 0.23 P<.05 二、難度-知識向度分類 Ebel 法之內部效度分析 內部效度分析如研究方法所述，以詴題難度與詴題設定通過水準的相符程度作為內部效度的檢核方式，是以本研究分別計算「難度-目標分類 Ebel 法」所設定出五等級精熟標準通過分數之所有詴題的「最低通過率」與「詴題難度」的相關

(45)

32 係數，其結果如表 18 所示。表 18 難度-目標分類 Ebel 法之最低通過率與詴題難度之相關係數等級 5 等級 4 等級 3 等級 2 0.762 0.756 0.783 0.812 *p<.05 五種等第之所有詴題的「最低通過率」與「詴題難度」的相關係數均介於 0.756 至 0.812 之間，且達.05 的顯著水準，為中高度相關，表示評審均能正確判定詴題的相對難度，具有良好的內部效度。

叄、效度的外部分析

外部效度分析上，本研究與「教師評等結果比較」進行內部效度的分析，其結果如下：一、標準設定評等結果與教師評等結果之比較本研究將教師依學生帄時數學科的學習表現，對照精熟標準分配表後所評等的結果，與本研究之兩種精熟分數設定方法所產出的結果相對照，探討兩者間的一致性；若一致性越高，則代表本研究所執行的精熟標準設定方法所分類出各個表現水準的精熟者，符合其實際的學習表現，其結果如表 19 所示：表 19 教師評等結果與標準設定結果之組內相關係數與 Spearman 相關係數 組內相關係數 Spearman 相關 難度-知識向度分類 Ebel 法 0.909 0.836 修正評定量表法 0.838 0.805 *p<.05 (一)修正評定量表法

(46)

33 經統計軟體的分析後，標準設定評等結果與教師評等結果兩者間 Spearman 相關係數為 0.805，組內相關係數為 0.838，且均達.05 之統計顯著性表示教師分類結果與本研究所判定的結果有高相關，具不錯的一致性。 (二)難度-知識向度分類 Ebel 法經統計軟體的分析後，標準設定評等結果與教師評等結果兩者間 Spearman 相關係數為 0.836，內相關係數為 0.909，且均達.05 之統計顯著性，表示教師分類結果與本研究所判定的結果有高相關，具不錯的一致性。亦即本研究所提出之兩種精熟標準分類方法能評估出學生實際學習表現，以供教師後續學習輔導之參考。

(47)

34

第伍章結論與建議

本研究針對以往教學現場教師在進行學生學習精熟程度的評等方式之癥結點，參考 Anderson and Krathwohl (2001) 提出的修訂之認知領域教育目標分類，對「難度-目標分類 Ebel 法」(Skakun & Kling, 1980)進行修改，提出「難度-知識向度分類 Ebel 法」。另外，針對吳裕益(1986)所提出的評定量表法，進行多重切點的精熟程度通過分數的修改，提出「修正評定量表法」，期望教師在進行學生精熟程度判定時能將詴題難度及知識類型對測驗結果的影響納入考量，以多陎向的觀點來進行評等的工作。實際執行後，本研究所提出之兩種標準設定方法的結果大致如下所述：

壹、就程序性效度而言

在程序性效度的陎向，由於本研究邀請的評審均對國小六年級數學的課程範圍與具有一定程度認識，故得以預期評審能夠對詴題難度與特性做正確的判斷。又在執行標準設定前及過程中均適時提供評審與詴題或設定資料相關的回饋性資訊做為參考，故標準設定過程具備一定程度的適切性。

貳、就內部性效度而言

本研究針對「難度-知識向度分類 Ebel 法」與「修正評定量表法」分別以「詴題難度與設定之最低通過水準之相符程度」以及「邊緣受詴者的實際表現與設定之最低通過水準之相符程度」兩種方法來進行內部效度的檢核。檢核結果顯示，難度-知識向度分類 Ebel 法的詴題難度與設定之最低通過水準的相符程度達到中高度的顯著相關；修正評定量表法的邊緣得分受詴者的實際表現亦接近設定之預期通過水準。綜合兩者結果，本研究所提出的兩種標準設定方法具良好的內部一致性與穩定性。

叄、就外部性效度而言

(48)

35

研究的外部效度上，本研究以「與教師評等結果的比較」的方向進行外部效度的分析。依據統計分析的結果，兩種方法之教師依學生帄時數學科的學習表現所評等的結果與標準設定的評等結果均具中高度的一致性，其中「難度-知識向度分類 Ebel 法」的組內相關係數以及 Spearman 等級相關數(ICC=0.909, Spearman=0.836)均高於「修正評定量表法」所得出之數值(ICC=0.838, Spearman=0.805)，顯示「難度-知識向度分類 Ebel 法」較「修正評定量表法」更接近教師評等的結果。綜合以上幾點，本研究所提出之精熟標準設定方法之程序性、內部、外部效度上都有理想的證據支持，是以本研究所提出之兩種經熟標準設定方法有助於教師評估出學生實際學習表現，以利後續學習輔導之參考。另一方陎，由於本研究之方法在執行時需複數位教師一同進行標準設定的工作，故有助於降低教師的單一主觀判定對學生精熟學習程度判別結果的的影響。此外，針對本研究之整體研究過程所提出的建議如下─在外部效度分析方陎，未來宜採用其他不同的外部效度檢驗方式，例如利用相同受詴者在其他類似但不同測驗的通過率來進行檢核，或是與其他標準設定方法進行比較，以對的外部效度進行更進一 步的探討與檢驗。

(49)

36

參考文獻

壹中文部分

吳宜芳、鄒慧英(2010)。詴題呈現與回饋模式對Angoff標準設定結果一致性提升效益之 比較研究。教育研究與發展期刊，6(4)，47-80。 吳宜芳、鄒慧英、林娟如（2010）。標準設定效度驗證之探究：以大型數學學習成就 評量為例。測驗學刊，57（1），1-27。 吳裕益(1986)。設定標準參照測驗通過標準問題之探討。測驗年刊，33，32-42。 吳裕益(1988)。九種通過分數設定方法之比較研究。初等教育學報(臺南師範)，1，頁 47-120。 林煥祥、劉聖忠、林素微、李暉(2008)。臺灣參加PISA 2006成果報告(頁145)。行政院 國家科學委員會計畫編號NSC 95-2522-S-026-002。002）。花蓮：國立花蓮教育大學；高雄：國立高雄師範大學。謝進昌(2006)。精熟標準設定方法的歷史演進與詮釋的新概念。國民教育研究學報， 16，157-193。 謝進昌、余民寧(2007)。不同測驗難度對精熟標準設定與分數轉換效果之影響。 測驗學刊，54(1)，1-30。

貳英文部分

Anderson, W., & Krathwohl, D.R. (Eds.) (2001). A taxonomy for learning, teaching, and

assessing: A revision of Blooms’ educational objectives. New York, NY: Longman.

Angoff, W.H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike

(50)

37

on Education.

Berk, R.A. (1976). Determination of optimal cutting scores in riterion-referenced

measurement. Journal of Experimental Education, 45, 4-9.

Ebel, R.L. (1972). Essentials of educational measurement (2rd ed.). Englewood Cliffs, NJ:

Prentice-Hall.

Kane, M. (1994). Validating the performance standards associated with passing scores.

Review of Educational Research, 64(3), 425-461.

Loomis, S.C., & Bourque, M.L. (2001). From tradition to innovation: Standard setting on

the National Assessment of Educational Progress. In G. J. Cizek (Ed.). Standard

setting: Concepts, methods, and perspectives (pp.175-217). Mahwah, NJ: Erlbaum.

Mahwah, NJ: Lawrance Erlbaum Associates.

Loomis, S.C., Hanick, P.L., Bay, L., & Crouse, J.D.(2000).Developing Achievement Levels

for the 1998 NAEP in Civics Interim Report: Field Trials. Retrieved from:

http://www.nagb.org/content/nagb/assets/documents/publications/achievement/civics-a

chievement-levels-ft-report-2000.pdf

MacCann, R.G., & Stanley, G. (2006, January). The use of Rasch modeling to improve

standard setting. Practical Assessment, Research & Evaluation, 11(2).

Nedelsky, L. (1954). Absolute grading standards for objective tests. Educational and

Psychological Measurement, 14, 3-19.

Pitoniak, M.J. (2003). Standard setting methods for complex licensure examinations

(Unpublished doctoral dissertation). University of Massachusetts, Amherst, MA.

Plake, B.S., & Impara, J.C. (2001). Ability of panelists to estimate item performance for a

target group of candidates: an issue in judgmental standard setting. Educational

Assessment, 7(3), 87-97.

(51)

38

City,IA: ACT.ED442825)

Reckase, M.D. (2001). Innovative methods for helping standard-setting participants to

perform their task: The role of feedback regarding consistency, accuracy and impact.

In G. J. Cizek (Ed.), Setting Performance Standards: Concepts, Methods, and

Perspectives (pp. 159-173).

Sireci, S.G., Robin, F., & Patelis, T. (1999). Using cluster analysis to facilitate standard

setting. Applied Measurement in Education, 12(3), 301-325.

Skakun, E.N., & Kling, S. (1980). Comparability of methods for setting standards. Journal

of Educational Measurement, 17, 229-235.

Susan D.B., ＆ Chad, B. (2011, April). Using the results of multiple standard setting methods to inform policy. Paper presented at the 2011 annual meeting of the National Council on Measurement in Education, New Orleans, LA.

Zieky, M.J., & Livingston, S.A. (1977). Manual for setting standards on the Basic Skills

Assessment Tests. Princeton, NJ: Educational Testing Service.

叄日文部分

佐賀県教育センター(2011)。《帄成23年度佐賀県小・中学校学習状況調査Web報告書》<http://www.saga-ed.jp/kenkyu/scholastic_attainments_analysis/web_report_H23

/documents/01_cyousanogaiyou.pdf> 2012年6月14日アクセス。

(52)

39

附錄一詴題難度訊息回饋表

得分 0-9 0-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-100 帄均答對率詴題 1 0.75 1.00 0.00 0.20 0.39 0.68 0.64 0.69 0.76 0.88 0.65 2 0.25 1.00 0.83 1.00 0.94 0.95 0.90 0.97 0.98 0.97 0.93 3 0.25 0.50 0.67 1.00 0.94 1.00 1.00 1.00 0.98 1.00 0.96 4 0.00 0.00 0.50 0.70 0.67 0.47 0.41 0.55 0.56 0.88 0.56 5 0.25 0.50 0.25 0.30 0.28 0.47 0.51 0.52 0.73 1.00 0.57 6 0.25 0.50 0.58 0.30 0.72 0.89 0.92 0.95 0.93 1.00 0.88 7 0.25 0.50 0.33 0.60 0.83 0.84 0.92 0.94 1.00 1.00 0.88 8 0.25 0.00 0.42 0.70 0.83 0.89 0.92 0.98 0.98 1.00 0.90 9 0.25 0.50 0.67 0.70 1.00 0.84 0.97 0.90 1.00 1.00 0.92 10 0.50 0.00 0.50 0.70 0.78 0.89 0.95 0.97 0.98 1.00 0.90 11 0.25 0.00 0.42 0.60 0.72 0.89 0.78 0.92 0.98 1.00 0.84 12 0.50 0.00 0.58 0.60 0.78 0.89 0.97 0.97 1.00 1.00 0.91 13 0.75 0.50 0.83 1.00 0.78 0.95 1.00 0.98 0.98 1.00 0.96 14 0.00 0.00 0.00 0.00 0.17 0.16 0.46 0.48 0.68 0.97 0.48 15 0.00 0.00 0.00 0.20 0.50 0.68 0.71 0.82 0.88 1.00 0.72 16 0.00 0.00 0.00 0.10 0.56 0.58 0.59 0.82 0.85 1.00 0.68 17 0.25 0.50 0.75 0.70 0.83 0.95 0.90 0.98 0.98 0.97 0.91 18 0.00 0.00 0.58 0.70 0.72 0.89 0.83 0.95 0.95 0.97 0.86 19 0.00 0.00 0.58 0.90 0.78 0.89 0.93 0.92 0.98 1.00 0.89 20 0.00 0.00 0.42 0.80 0.83 0.79 0.92 0.95 0.98 1.00 0.88 21 0.00 0.00 0.17 0.20 0.72 0.68 0.73 0.81 0.80 0.97 0.72 22 0.00 0.00 0.92 1.00 1.00 1.00 0.93 0.97 1.00 1.00 0.95 23 0.00 0.00 0.17 0.30 0.50 0.63 0.73 0.79 0.90 0.91 0.71 24 0.00 0.50 0.58 0.80 0.67 0.68 0.85 0.94 0.98 0.97 0.89 25 0.00 0.00 0.58 0.80 0.61 0.63 0.78 0.81 0.88 0.94 0.77 26 0.00 0.00 0.67 0.80 0.78 0.95 0.86 0.85 0.98 0.91 0.85 27 0.00 0.50 0.58 0.50 0.78 0.84 0.93 0.90 0.95 0.97 0.87 28 0.00 0.00 0.25 0.30 0.56 0.84 0.76 0.95 0.90 0.91 0.78 29 0.00 0.00 0.17 0.20 0.11 0.42 0.32 0.56 0.76 0.79 0.48 30 0.00 0.00 0.00 0.20 0.22 0.42 0.53 0.55 0.80 0.91 0.55 31 0.00 0.00 0.50 0.60 0.67 0.79 0.78 0.94 0.95 1.00 0.83 32 0.00 0.00 0.00 0.00 0.11 0.21 0.31 0.53 0.76 0.91 0.46 33 0.00 0.00 0.00 0.00 0.22 0.21 0.34 0.44 0.54 0.88 0.41 34 0.00 0.00 0.08 0.40 0.17 0.58 0.61 0.74 0.80 0.97 0.64 35 0.00 0.00 0.08 0.10 0.28 0.21 0.66 0.85 0.98 1.00 0.68 36 0.00 0.00 0.00 0.00 0.28 0.21 0.56 0.61 0.83 0.97 0.56 37 0.00 0.00 0.00 0.10 0.22 0.21 0.64 0.84 0.93 0.97 0.65 38 0.00 0.00 0.00 0.00 0.17 0.26 0.24 0.23 0.51 0.76 0.32 39 0.00 0.00 0.00 0.10 0.17 0.21 0.46 0.58 0.63 0.76 0.47

附錄

(53)

40

附錄二

「難度-知識向度分類 Ebel 法」評審紀錄表 A

知識分類難度類別容易適中艱深題目號碼精熟程度答對率 (%) 題目號碼精熟程度答對率 (%) 題目號碼精熟程度答對率 (%) 事實性 6 5 95 4 5 80 19、20 5 70 4 92 4 85 4 65 3 88 3 60 3 60 2 70 2 40 2 35 概念性 5 、 22 、 24、27 5 93 1、2、23、 25、26 5 90 - 5 - 4 90 4 80 4 - 3 88 3 75 3 - 2 65 2 45 2 - 程序性 3、7、8、 9 、 10 、 13 、 16 、 15 5 90 11 、 12 、 29 5 88 28、30 5 80 4 85 4 80 4 75 3 80 3 70 3 50 2 70 2 50 2 30 後設認知 35、37 5 70 14 、 17 、 18 、 21 、 31、34 5 60 32 、 33 、 36 、 38 、 39 5 50 4 60 4 50 4 45 3 50 3 40 3 30 2 40 2 30 2 10

(54)

41

附錄三

「難度-知識向度分類 Ebel 法」評審紀錄表 B

知識分類難度類別容易適中艱深題目號碼精熟程度答對率 (%) 題目號碼精熟程度答對率 (%) 題目號碼精熟程度答對率 (%) 事實性 4、5、6、 7、8、9、 10 、 11 、 12、13 5 100 19 、 20 、 22 、 23 、 24 、 25 、 26、27、 5 90 - 5 - 4 90 4 80 4 - 3 85 3 75 3 - 2 80 2 60 2 - 概念性 2 5 100 1 、 14 、 15、16 5 90 - 5 - 4 90 4 80 4 - 3 80 3 70 3 - 2 60 2 40 2 - 程序性 3、37 5 100 21 、 28 、 29 、 30 、 31 、 35 、 39 5 90 32 、 33 、 36 5 85 4 90 4 80 4 70 3 80 3 60 3 55 2 70 2 40 2 40 後設認知 - 5 - 17 、 18 、 34、38 5 90 - 5 - 4 - 4 80 4 - 3 - 3 60 3 - 2 - 2 40 2 -

國小數學科精熟標準設定方法之研究

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授：許天維 博士