學習評量與SP分析

(1)

學習評量與 SP 表分析

余民寧1 摘要本文從學習、評量與診斷的角度，提出一套「精熟學習的評量模式」，並以 SP 表分析技術，說明如何整合應用於一般教學（學習）、診斷與補救的歷程中，以幫助命題者改進命題技巧及教師診斷學生的學習狀況，並確保每位學生的學習都能夠達到精熟標準。關鍵詞：學習評量、SP 表分析、精熟學習模式

(2)

壹、前言

學習評量（learning assessment）是當今學校教學歷程或機構訓練過程中，相當重要且受到重視的一環，舉凡教學（或學習）目標是否達成、學生的進展情況、學習的最終成果品質，及如何謀求改進教學或學習活動等，皆需仰賴教學（或學習）評量提供有用且有價值的參考訊息，才能做出有效的評估結果（Linn & Gronlund, 2000；Shepard, 2006；Worthen, Borg, & White, 1993）。

而談到學習評量，我們必須先瞭解我們到底要評量什麼？這問題還是需要回到教育目標的觀點來看。一般學校的學習（無論從小學到大學）成果或機構的教育訓練（無論是初任職時的新手訓練到升遷晉級時的主管訓練）成果，大概都在評估認知（cognitive）、情意（affective）、和動作技能（psychomotor）等三類教育目標之一。因此，評量工具與方法的採用與設計，也必需符合教育目標的類型而做變化；一般來說，可用來作為蒐集學習成果資料的評量工具，至少可以分成下列幾種：測驗（test）、評定量表（rating scale）、檢核表（checklist）、觀察（observation）、晤談（interview）、問卷（questionnaire）、調查表（investigation table）、以及投射工具（projective technique）等；而評量方法至少也可分成兩大類：紙筆測驗（paper-and-pencil testing）與實作評量（performance assessment）（余民寧，2011；Gronlund, 1993；Haladyna, 2004；

(3)

Osterlind, 1998）。

環顧國內盛行的教學（或學習）評量方法中，多半以「紙筆測驗」作為主要的評量方式。所以，本文針對一般學習成果的評量為範疇，介紹一種適合於學習歷程的評估方法—SP 表（student-problem chart）分析，以作為教育場域中學習、診斷與評鑑學習成效的參考。同時，本文也提出一種精熟學習模式（mastery learning model）的評量架構，一併搭配 SP 表分析的使用，以達成教學、評量、診斷與再補救等有效學習歷程的完整效果（余民寧，1992， 1994，1998，2006a，2006b）。

貳、精熟學習的評量模式

一般而言，學習評量的架構或方法，若是依據某種學習理論來發展建置的話，則其評量效果不僅能符合該學習理論所欲達成的理想狀態，更能符應教育理念的落實。其中，「精熟學習的評量模式」（assessment model of mastery learning）即是一例，參見圖 1 所示（余民寧，2006a）。

(4)

圖 1 精熟學習的評量模式

「精熟學習模式」係由 Carroll（1963）教授所提出的一種結合教學、診斷評量及補救學習三者為一體的學習理論。他認為學生的學習成果是與其有效投入學習的時間成正比，它們彼此之間的關係，可以使用下列的數學函數來表示其概念：

(5)

f _ _   學習實際所花的時間學習程度＝學習真正所需的時間（公式 1）亦即，學習程度等於學生實際花在學習上的有效時間，除以真正學好該學科所需要時間的函數。在公式 1 中，影響「學習實際所花的時間」與「學習真正所需的時間」的各種因素中，又以學生本身的特質和教學品質二者最為重要。其中，「學習實際所花的時間」是由學生的「毅力」（perseverance）（意指學生願意且主動投入學習的時間數量）和「學習機會」（意指學校提供學習的時間數量，簡單地說即是指上課的時數）二者所決定；而「學習真正所需的時間」，則是由學生對該學科的「學習速度（即性向）」、「教學品質」和學生「瞭解教學的能力」三者所決定。因此，上述公式 1 可以再詳細表示如下（毛連塭、陳麗華，1991）：



 



f _ _   毅力＋學習機會學習程度＝學習速度＋教學品質＋瞭解學習的能力（公式 2）從公式 2 可知，如果教師的教學品質很高，學生就能迅速瞭解教學內容，因而費時不多即能學會教材內容；反之，如果教師的教學品質不是很高，則學生就不易瞭解教學內容，因而需要較多時間方能學會。由此可見，教師的教學品質和學生瞭解學習的能力之間的作用，是決定學生學好某種教材所需時間（即學習速度）的主要因素。此外，先天即具有某學科學習性向的學生

(6)

（如：高智力者），其學習速度較快，實際花在學習上的時間會較少，很快速即可達到精熟標準；反之，不具有某學科學習性向的學生（如：資質平庸者），其學習速度較慢，實際花在學習上的時間也必須較多，才能達到與資質優異者一樣的精熟標準。職此之故，Carroll 認為學校中的學習，應該是沒有所謂「學習失敗」的學生，只有「學習快慢」的學生之分才對。因此，我們可將上述精熟學習模式的理念融入基本的教學評量模式裡，進一步發展出結合學習、評量與回饋、充實或補救的教學歷程，如圖 1 所示，筆者稱之為「精熟學習的評量模式」。由圖 1 可知，在第一單元的教學（或學習）完畢後，全部學生必須接受形成性測驗甲卷的評量，以判定學生的學習成果是否達到教師預設的精熟標準（如：答對 80％或 90％以上的測驗試題）。若判定結果為「是」，即可被視為「精熟學習者」，他即可進行一些充實活動的繼續學習措施，以維繫其精熟程度，並等候其他尚未達到精熟的同學；若判定結果為「否」，即會被視為「未達精熟標準者」，他就必須接受個別化校正活動或補救教學措施，以矯正其學習錯誤的地方，矯正之後，必須再度接受一次形成性測驗乙卷的評量，並進一步判定是否已達精熟標準。若第二次評量結果被判定為「是」，則可加入「精熟學習者」一起接受充實活動的繼續學習措施，並等待其他尚未達到精熟的同學；如果第二次評量後，再度被判定為「否」，則他必須再接受另一次的個別化校正活動，之後，再接受另一次形成性測驗丙卷的評量，評量後，再判

(7)

斷是已達精熟標準而進入接受充實活動的繼續學習措施，或者是需要再接受另一次個別化的校正活動；如此循環進行下去，一直到大多數學生（如：90 ％或 95％）皆已達到精熟標準時，再一起進入第二單元的教學和學習。依此類推，再擴展到第三單元、第四單元…的教學和學習，直到整個課程範圍的學習結束為止。筆者所提的這個「精熟學習的評量模式」，可以確保每位學生在每一單元的學習結果都能達到精熟標準，成為一位「精熟學習者」。如果能夠依此循序漸進下去，所有學生從小到大的學校學習活動都能達到精熟，也就不會有「學習失敗的學生」出現了。有了精熟的學習，可以給未來的學習帶來良好的先備知識（priori knowledge），構成往後各種有意義學習（meaningful learning）（余民寧，1997）成果的後盾，進而促使學習步入良性循環，帶來更高的學習成就。因此，該評量模式可以落實 Carroll 教授所說的，學校沒有所謂「學習失敗」的學生，學習只有「快慢」不同而已；資質優異的學生學習較快，他可以快速地達到精熟標準，而資質平庸的學生只要投入夠多的學習時間，雖然學習較慢，所花的時間較多，但最後，他還是會達到精熟標準，而成為一位「精熟學習者」。所以，學校存在的責任，即是要給予「學習快」的學生進一步擴展的機會，同時，也要提供「學習慢」的學生有較多補救的機會，如此才符合辦學的理想，並符應教育部所提倡「帶好每一位孩子」（No child left behind.）的教育改革理念。

(8)

貳、 SP 表分析

SP表是由日本學者佐藤隆博（Takahiro Sato）於1970年代所創，是一種以「圖形化」分析方式，將學生在紙筆測驗上的作答反應組型（response pattern），予以「圖形化」表徵出來的評量方法；其目的，是在獲得每位學生的學習診斷資料，以及試題分析的診斷訊息，以當作後續進行補救教學或學習輔導措施之參考。SP表可用來診斷學生的作答反應組型，並以差異係數（disparity coefficient）、同質性係數（homogeneity coefficient）、試題注意係數（item caution index），以及學生注意係數（student caution index）等指標，來診斷學生學習或試題命題有無產生不尋常作答反應組型的狀況，並藉此提供診斷訊息供命題者或教師的參考（余民寧，2011；游森期、余民寧， 2006）。

為了落實 SP 表分析的功能，筆者精心設計一份取名為 Tester for Windows 的程式，結合 SP 表分析的方法學與傳統古典測驗理論的試題分析方法兩者，專門應用在成就測驗編製的預試或正式考試後的試題分析工作，以提供命題者作為改進命題的技巧，以及進行學習診斷與輔導的參考。使用者不需要具備雄厚的電腦知識，只要遵照該程式使用說明的固定設定方式，將學生的原始作答資料依序輸入建檔，一個按鍵，即可自動化的計算出各種所需要的統

(9)

計指標。使用者只要學習瞭解各指標的意義與判讀方式，即可適切地使用該程式。它可以說是一份具有使用者親合性（user-friendly）的電腦程式，截至目前為止，該程式已發展至第 3.0 版（余民寧，2011）。接下來，即介紹 SP 表的幾項核心概念如下： 一、SP表的圖形表徵 顧名思義，SP 表即是一種圖形表徵的表格。如圖 2 所示，即是一份由該程式所繪製出 35 名受試者的 SP 表。 圖2 根據35名學生之作答反應組型所繪製的S-P表 S P

(10)

根據圖 2 所示，S 曲線即是用來區隔學生作答組型的區隔線，凡是在線的左邊所出現的作答，即代表理論期望該「答對」的區域，而出現在線的右邊的作答，即代表理論期望該「答錯」的區域。然而，在真實的考試（或測驗）情境裡，在期望「答對」的區域中會出現少數「答錯」的元素，而在期望「答錯」的區域中會出現少數「答對」的元素；這些出現在不該出現區域裡的元素，即被稱做「異常的作答」（aberrant response）。例如，學號 110395 的學生，他在 40 題測驗中答對 39 題（答對率 97.50％），屬於高程度的學生，但他在第 4 題上卻答錯，以他的程度而言，此題絕非是困難的題目，他應該是可以答對的（因為有許多程度比他稍低的學生在此題上都答對），但他卻答錯，故，此答錯的訊息即在告訴我們有某種「意涵」（implication）出現在其作答表現的背後；反觀另一位學生，學號 110118 的學生，他在 40 題測驗中僅答對 8 題（答對率 20.00％），屬於該班級中程度最低的學生，但他在第 18 題上卻答對，以他的程度而言，此題絕非是容易的題目，他應該是會答錯的（因為有一些程度比他稍高的學生在此題上也都答錯），但他卻答對，故，此答對的訊息也是在告訴我們有某種「意涵」出現在其作答表現的背後。上述這兩種學生「異常的作答」，其背後所隱含的「意涵」卻各不相同，本文在接續的小節裡，將會說明其重點內容。同理，P 曲線即是用來區隔試題作答組型的區隔線，凡是在線的上邊所出現的作答，即代表理論期望該「答對」的區域，而出現在線的下邊的作答，

(11)

即代表理論期望該「答錯」的區域。然而，在真實的考試（或測驗）情境裡，在期望「答對」的區域中會出現少數「答錯」的元素，而在期望「答錯」的區域中會出現少數「答對」的元素；這些出現在不該出現區域裡的元素，即被稱做「異常的作答」。例如，第 4 題是屬於全部 40 道題目裡難度中間偏易的試題，在 35 名學生中有 24 名答對該題（答對率 68.57％），但卻讓一名高成就的學生（即學號 110395）答錯該題，故，此答錯的訊息即在告訴我們有某種「意涵」出現在該試題的編製（或設計）背後；而反觀另一道最困難的試題第 19 題，在 35 名學生中僅有 12 名答對該題（答對率 34.29％），但卻有一名低成就的學生（即學號 110127）答對該題，因此答對的訊息也是在告訴我們有某種「意涵」出現在該試題的編製（或設計）背後。然而，上述這兩種試題「異常的作答」，其背後所隱含的「意涵」卻各不相同，本文在接續的小節裡，也將會說明其重點內容。所以，從整體畫面來看，圖 2 所顯示的作答分布趨勢可分為：凡落在愈左邊且愈上邊的分布，多數的作答是「答對」，代表這是理論上期望該「答對」的區域，亦即是反映出高成就學生在容易試題上的作答結果；而落在愈右邊且愈下邊的分布，多數的作答則是「答錯」，代表這是理論上期望該「答錯」的區域，亦即是反映出低成就學生在困難試題上的作答結果。凡是在預期「答對」的區域中出現「答錯」，或者是在預期「答錯」的區域中出現「答對」，這些都算是「異常的作答」；而「異常的作答」係反映出學生的考試（或測驗）

(12)

表現不符期待，或者是試題的編製（或設計）不符理想的一種現象。當 S 曲線以左或 P 曲線以上全部都「答對」、都出現為 1 時，這種情況即稱為「完美量尺」（perfect scale）的作答反應組型。但是在實際的考試（或測驗）情境裡，這種完美量尺的作答反應組型是不太可能會出現的，反而是，常見出現在 S 曲線以左或 P 曲線以上的部分有學生答錯的「不完美量尺」情形，這種不完美量尺作答反應組型會使 S 曲線和 P 曲線呈現分離的狀態，而 S 曲線和 P 曲線分離的程度，即可以用「差異係數」來表示。因此，SP 表分析，即是嘗試以幾種量化指標，指出學生或試題的作答組型是否已偏向異常的情況，以提醒教師或命題者留意此現象，並作為輔導學生、進行補救教學、改進命題技巧，或留意測驗編製良窳的參考資訊之一。 二、差異係數與注意係數 差異係數是一種用來表示整體性異常作答的指標；差異係數是指實際的 S 和 P 曲線間之分離面積，與隨機狀況下 S 和 P 曲線所佔面積期望值的比值。簡單的說，差異係數即是指一種用來反映 S 和 P 曲線間之分離程度的指標，分離程度太大或太小都不適宜，都反映出某種不理想的試題編製或怪異的學生作答情況。理論上，當 S 和 P 曲線呈現為完美量尺時，其差異係數會等於零；相對的，當 S 和 P 曲線呈現完全隨機時，其差異係數將會等於 1；然而，

(13)

在常見的實際考試（或測驗）情境中，差異係數通常是介於 0 與 1 之間。差異係數數值太大或太小都不適宜，多半以.50 作為基礎的判準。根據佐藤博士多年研究心得的歸納，他發現當差異係數大於.50 時，表示整體的作答反應組型是有嚴重異常的現象存在，可能是由於學生對某些觀念有所誤解，或者可能是命題有問題所造成的；而當差異係數太小，尤其是小於.40 時，可能是由於題目過於簡單，過於困難，或者趨於兩極化所造成的結果。注意係數是一種用來表示個別性異常作答反應組型的指標；注意係數是指 SP 表資料中的實際反應組型與完美反應組型之間的差異，佔完美反應組型是最大差異的一種比值。簡單的講，注意係數即是一種用來表徵異常的作答反應組型的指標，當它的數值偏高時，即反映出試題或學生的作答反應組型，已顯示出嚴重的異常情況。理論上，當作答結果為完美量尺的作答反應組型時，其注意係數會等於零；當作答結果呈現隨機作答反應組型時，注意係數會趨近於 1，甚至出現大於 1 的情況；然而，在常見的實際作答反應組型中，注意係數通常是介於 0 與 1 之間。根據佐藤博士多年研究心得的歸納，他發現當注意係數≧.75 時，即表示試題或學生的異常作答反應組型已達「非常嚴重」的情況，應列為「特別留意」的對象，可標示兩顆星號（即**）以示警告；而當 .75＞注意係數≧.50 時，即表示試題或學生的異常作答

(14)

反應組型已達「嚴重」的情況，應列為「值得留意」的對象，可標示一顆星號（即*）以示警告；而當 .50＞注意係數≧0 時，即表示試題或學生的異常作答反應組型不嚴重，係為一般性的作答結果，尚屬於「正常的」作答反應組型情況，無需特別緊張或留意（余民寧，2011）。 三、判定類型 根據 SP 表分析的結果，我們可以將學生的注意係數值當作橫軸，而以學生的測驗得分百分比值當作縱軸，將每位學生的該兩項數值標示在上，以繪製出一份學生的作答診斷分析圖，如圖 3 所示。根據圖 3 所示，學生的學習狀況可分為六大類型（余民寧，2011），茲描述其特性如下：（一）學習穩定型（A區）學習穩定型的學生，其學習狀況穩定良好，學習成績優良、能夠快速熟悉教材、達到精熟程度，多半屬於班級中程度好、學習成就高、考試表現正常穩定的學生。（二）粗心大意型（A'區）粗心大意型的學生，其學習狀況稍欠穩定，雖然仍是班級中程度較好的學生，但是考試粗心大意，有急著搶先交卷的衝動和習慣，因而造成許多不經意的錯誤。

(15)

（三）努力不足型（B區）努力不足型的學生，其學習狀況尚稱良好、穩定，只是表現不如「學習穩定型」的學生，多半屬於班級的中上程度學生，只是努力用功不足，導致考試成績不夠理想。（四）準備不足型（B'區）準備不足型的學生，其學習準備不夠充分，偶爾也會粗心犯錯，學習狀況不穩定，努力也較不足，兼具用功不足與粗心大意兩種特性。（五）學力不足型（C區）學力不足型的學生，其基本學力不足，學習不夠充分，努力用功程度亦不足，學習成就偏低。因為他們過去並沒有奠定良好的學習基礎和背景知識，以致於在學習新知識時倍感吃力，並且有跟不上學習進度的情形。（六）學習異常型（C'區）學習異常型的學生，其學習極不穩定，具有隨興讀書的習慣，對於考試沒有充分準備，且隨便作答、盲目猜題、或者是考試作弊，考試成績時好時壞，導致作答反應組型相當異常。

(16)

學 100% A A’ 生得 75% B B’ 分百 50% C C’ 分比 0 .50 1.00 學生注意係數 圖3 學生的作答診斷分析圖 同樣的方法，SP 表分析也可以用來協助判斷試題編製的好壞。我們可以將試題的注意係數值當作橫軸，而以試題的答對百分比值當作縱軸，將每道試題的該兩項數值標示在上，以繪製出一份試題的作答診斷分析圖，如圖 4。根據圖 4 所示，試題編製品質的屬性可分為四大類型，茲描述其特性如下（余民寧，2011）：（一）優良型試題（A區）優良型試題，其試題品質特性為具有良好的鑑別度，可以有效區辨低成就的學生。這一類型試題通常都是依據測驗編製的規劃，徹底遵守雙向細目表及命題原則的規範所命出來的優良題目，不僅是測驗發展機構所企盼能夠大量建置的良好試題，更常被當作題庫

(17)

蒐錄的優良題目對象。（二）異質型試題（A'區）異質型試題，其試題品質特性為命題已局部違反命題原則的規範，有些選項的設計沒有誘答力作用，試題需要作局部的修改。這一類型試題通常都是違反命題原則的規範所呈現出的結果，但其問題還不嚴重，僅須做局部的修改即可。（三）高難度試題（B區）高難度試題，其試題品質特性為尚具有良好的鑑別度，可以有效區辨高成就的學生，特別適合高程度的學生作答。這一類型試題通常都是命題沒有問題，只是題目偏難而已，所以具有用來甄試是否為高成就學生的特殊作用。（四）拙劣型試題（B'區）拙劣型試題，其試題品質特性為命題已完全違反命題原則的規範，不僅是命題的題意不清，選項缺乏誘答力，甚至答案有錯誤或者超出命題範圍等，通常都需要作大幅度的修改，甚至是考慮刪除不用。這一類型試題通常都是不良命題的代表，不僅是命題有問題，甚至是無法測量出學生的學力，這類試題宜考慮刪除或作大幅度的修改。

(18)

試 100% A A’ 題答對百 50% B B’ 分比 0 .50 1.00 試題注意係數 圖4 試題的編製診斷分析圖

肆、對未來學習評量的啟示與建議

就測驗（或考試）的評量功能來說，光靠評量而不進行補救或矯正活動，是無法促進學習改變的，更不用說會促進學習進步了！因此，在圖 1 中，教師可以適時將 SP 表分析的診斷訊息融入「精熟學習的評量模式」中的「校正活動」裡，斟酌每位學生所歸屬的學習類型涵義，參酌使用表 1 所列舉的各種校正活動補救措施。這些校正活動，可以搭配各種實施情境（如：獨自、與同儕合作、與教師合作）來進行，以維持補教教學活動的新穎性，吸引學生的注意力和學習興趣，並促進教學（與學習）品質的提升，早一點達到精熟標準。

(19)

表 1 各種類型校正活動及其配套實施方式 各種類型的校正活動與教師一起進行與同儕一起進行獨自進行重新教學 ˇ 重讀教科書 ˇ ˇ ˇ 使用輔助教材 ˇ ˇ ˇ 使用輔助器材 ˇ ˇ ˇ 使用工作手冊 ˇ ˇ ˇ 使用教學遊戲 ˇ ˇ 利用小組討論 ˇ ˇ 啟用小老師制 ˇ 利用教具 ˇ ˇ 利用資源教室 ˇ ˇ 利用電腦輔助教學 ˇ 利用數位學習 ˇ 註：ˇ表示可以使用該種方法。此外，針對一次教學與評量即達精熟學習的學生而言，教師也可以善加利用這些學生人力作為學習輔助資源（如：邀請他們擔任小老師），並且參酌使用下列的「充實活動」措施策略，以維持精熟學生的學習動機與成就感（毛連塭、陳麗華，1991）： 一、同儕教學。 二、為同學設計練習題。 三、發展與教學有關的教學媒體。 四、參與或準備特殊的學習計畫和報告。

(20)

五、設計高難度的遊戲、問題、和比賽。 六、利用高層次的電腦輔助課程。 不論是校正活動或充實活動，其目的都是在提供學生適時的回饋，好讓教師及學生隨時得知進步的資訊。它們在精熟學習模式的教學歷程中，是一項重要的步驟，也是決定精熟學習模式實施成敗的重要關鍵所在。當然，由圖 1 所示可知，精熟學習模式基本上需要學生投入相當多的時間於學習活動上，才能達到精熟標準。性向較高（如：智力較高或學術性向較強）的學生，其學習某種教材的速度較快，所花的時間較少；而性向較低或資質較平庸的學生，其學習某種教材的速度較慢，所花的時間則較多，但是，只要他肯付出時間學習，他一定也可以與資質較優的學生一樣達到同等精熟的程度。等到多數學生都達到精熟標準後，其學習成就都是一樣的優良，其接受下一單元教材的學習潛能或背景知識也都是一樣的，只是獲得這種精熟標準時各人所花的時間各有不同而已。所以，我國有句古訓「勤能補拙」，應該是「精熟學習模式」的最佳註腳；而 Carroll 教授所主張認為的，學校中應該沒有所謂「學習失敗」的學生，只有「學習快慢」的學生之分，也是一句最佳名言！最後，筆者針對精熟學習模式的涵義，提出一種有效的教學策略建議如下：首先，先蒐尋網路上或學習參考書中可用的「自我練習或測驗」多份，

(21)

當作是「形成性測驗的複本工具」。

其次，按原先教學計畫與進度進行教學。

第三，每一單元教學完畢，即實施第一份的「形成性測驗甲卷」的評量，並執行一次 SP 表分析（Tester for Windows 程式可以協助此分析工作），記錄每位學生的學習類型。事後，並逐一與學生檢討答題錯誤之處，並請學生記錄自己犯錯的地方，特別需要加強「訂正」的工作。第四，教師可運用學生學習類型的不同與精熟程度不同等訊息，刻意安排與設計「充實活動」與「校正活動」的內容細節，再根據學習類型將學生分組，分別安排接受不同的「充實活動」或「校正活動」。第五，之後，再進行一次「形成性測驗乙卷」的評量，並重複第三與第四步驟，一直到全部學生的學習都達成事先約定的精熟標準為止。此時，全部學生的學習都已經達到精熟程度，接著，即可進行下一單元的教學。如此過程，一直重覆到學期（或教育訓練課程）結束為止。學生的學習能夠達到精熟，教學的進行自然就簡單順利，教學自然就稱心愉快！孟子所云「得天下英才而教育之」，也莫過於如此而已！總之，教學（或學習）評量的目的，即是在確保教學目標的達成，而達成教學目標的方法有許多種，本文所介紹的精熟學習模式與 SP 表分析策略的交互運用，即可幫助學生促進學習成果，也可以幫助教師增進教學效能，是

(22)

一種一舉多得的整合型教學與學習策略。在當今的十二年國民基本教育改革中，教學其實可以不必盲目地趕進度，評量其實也可以不必濫用，學習更不必要囫圇吞棗地混過去，將這教學、評量、學習與補救等歷程整合起來，學校便可以成為「沒有學習失敗的學校」，學生可以成為「精熟學習的學生」，而教師更可以成為「作育英才之良師」，則教育改革的成效一定是成功的。

(23)

參考文獻

毛連塭、陳麗華（1991）。精熟學習法。臺北市：心理。余民寧（1992）。測驗編製與分析技術在學習診斷上的應用。教育研究，28， 44-60。余民寧（1994）。測驗編製與分析技術在學習診斷上的應用。載於國立政治大學教育研究所（主編），教育研究方法論文集（303-327 頁）。臺北市：臺灣書店。余民寧（1997）。有意義的學習：概念構圖之研究。臺北市：商鼎。余民寧（1998）。S-P 表分析在教學評量上的應用。載於高雄市政府公教人力資源發展中心（主編），多元教學評量（29-43 頁）。高雄市：高雄市政府公教人力資源發展中心。 余民寧（2006a）。精熟學習、診斷測驗、與補救學習。IRT 測驗與教學，2， 1-24。 余民寧（2006b）。學習成就測驗編製。教師天地，145，24-29。 余民寧（2011）。教育測驗與評量—成就測驗與教學評量（第三版）。臺北市：心理。游森期、余民寧（2006）。知識結構診斷評量與 S-P 表之關聯性研究。教育與

(24)

心理研究，29 （1），183-208。

Carroll, J. B. （1963）. A model for school learning. Teachers College Record, 64, 723-733.

Gronlund, N. E. （1993）. How to make achievement tests and assessments （5th ed.）. Boston: Allyn & Bacon.

Haladyna, T. M. （2004）. Developing and validating multiple-choice test items （3rd ed.）. Mahwah, NJ: Lawrence Erlbaum Associates.

Linn, R. L., & Gronlund, N. E. （2000）. Measurement and assessment in teaching （8th ed.）. Upper Saddle River, NJ: Prentice-Hall.

Osterlind, S. J. （1998）. Constructing test items: Multiple-choice,

constructed-response, performance, and other formats （2nd ed.）. Boston:

Kluwer Academic Publishers.

Shepard, L. A. （2006）. Classroom assessment. In R. L. Brennan （Ed.）,

Educational measurement （4th ed.）（pp. 623-646）. Washington, DC:

National Council on Measurement in Education.

Worthen, B. R., Borg, W. R., & White, K. R. （1993）. Measurement and

(25)

Learning Assessment and

Student-Problem Chart Analysis

Min-Ning Yu

Abstract

This paper proposed an assessment model of mastery learning which

composed of learning, assessment, diagnosis, and remedial instruction, to help to improve the construction of exam items and diagnose students’ learning status. The student-problem chart analysis technique, could be integrated into the

assessment model of mastery learning to help to improve the exam item qualities and make sure that every student could achieve the mastery learning goals.

Keywords: learning assessment, student-problem chart analysis, mastery learning

model