105年國中教育會考數學科試題分析- 以新北市立某國民中學為例

全文

(1)國立臺灣師範大學教育學系碩士在職專班技術報告. 指導教授：曾建銘博士. 105 年國中教育會考數學科試題分析以新北市立某國民中學為例. 研究生：鄭康祥撰中華民國 106 年 1 月.

(2)

(3) 105 年國中教育會考數學科試題分析以新北市立某國民中學為例摘要本研究旨在以新北市立某國民中學九年級學生參加 105 年國中教育會考數學科作答反應資料情形，作為研究者關注學生學習表現與分類的依據，以獲得教學改進資訊。本研究方法依據古典測驗理論、試題反應理論與學生問題表進行試題分析，對於九年級學生學習數學科成果的了解是有正面的幫助。研究結果如下：一、在試題檢核上，「問題解決」的試題命題佔大多數；在九年一貫能力指標上，所有試題都在能力範圍內；「幾何(S)」的命題數最多。二、整份測驗的信度值良好，其 Cronbach-α 係數值約為 0.83，表示測驗具有可靠性，試題有良好的測驗品質。三、在 CTT 試題分析上，試題平均難易度指數約為 0.44，屬於中間偏難；試題平均鑑別度指數約為 0.52，具有良好鑑別度；本試題有 87%的誘答選項符合誘答辯識原則。四、在 IRT 試題分析上，試題 Rasch 平均難易度指數約為－0.32，屬於中間難度；學生能力平均值約為－0.55；最大訊息量約為 12.48 出現在能力值為 0.00 處，顯示本份試題對於中等能力的學生，能提供較多有用的訊息。五、在學生問題表分析上，差異係數平均值為 0.52；試題係數在試題 B 型& B' 型區佔總體的 60%以上，本份試題是困難的；學生注意係數在 C& C'型區約佔總體的 69%，學生學習能力以「中後程度者」佔多數。六、新北市立某國中試題平均通過率最低的數學內容主題是「幾何(S)」，試題通過率與全國、新北市全體比較差異最大的是「代數(A)」。依據試題分析的研究結果，本研究對測驗命題者及未來後續的研究提出相關建議。. 關鍵字：古典測驗理論、國中教育會考、試題分析、試題反應理論、學生問題表. i.

(4) The. Study. of. Mathematics. Item. Analysis. from. 105. Comprehensive Assessment Program for Junior High School Students-A Case Study of A Junior High School in New Taipei City. Abstract The aim of this research is to examine one of junior middle school ninth grade student’s responses to test questions in mathematical examination of Comprehensive Assessment Program for Junior High School Students in New Taipei City. The researcher pays attention to students’ study results and performance groupings in order to get information about improving teaching. According to the item analysis of various approaches including classical test theory (CTT), item response theory (IRT) and student-problem chart, the researcher can acquire more useful information about students’mathematical test results.The results were as follows： 1.The analysis of questions on the checklist, the proposition emphasis on “problem solving”；in nine consistent indicators of ability, all questions inside the capacity range；the proposition of questions emphasis on “Geometry”. 2. The whole test reliability is about 0.83, with good reliability, which means that reliability questions, that there is a good test quality. 3.In CTT item analysis, the item difficulty index averages about 0.44 for somewhat hard difficulty ； item discrimination index averages about 0.52 for good discrimination；87% options of this test are very good. 4. In IRT item analysis, the item difficulty index on Rasch logic model averages about －0.32 for moderate difficulty；the ability value of students averages about － 0.55；the largest testing quantity of the information formula is about 12.48 with an ability value of 0.00, which means that the whole test supplies helpful information for moderate student’s ability. 5. In S-P chart analysis, the disparity index averages about 0.52 inside the acceptable range；the types of B and B' based on the caution index of problem are above 60%,which means that the whole test is difficiult；the types of C and C' based on the caution index of student are about 69% ,which means that most of the students are low-achieved. 6. The lowest average correst rate of mathmatici topic is on “Geometry” at a junior ii.

(5) high school in New Taipei City；the largest difference of correst rate in the mathmatici topic is on “Algebra” relatively. Based on the results of item analysis, this research will propose some instrumental commentaries and upcoming research.. Key words: classical test theory (CTT)、Comprehensive Assessment Program for Junior High School Students 、item analysis、item response theory(IRT)、 student-problem chart (S-P chart). iii.

(6) 目次中文摘要 ..................................................................................................................... i 英文摘要 .................................................................................................................... ii 目次 ........................................................................................................................... iii 表次 ............................................................................................................................ v 圖次 ........................................................................................................................... vi 第一章緒論............................................................................................................... 1 第一節. 研究動機與目的 .................................................................................. 1. 第二節. 研究方法與步驟 .................................................................................. 2. 第三節. 預期研究成果與效益 .......................................................................... 3. 第四節. 研究範圍與限制 .................................................................................. 3. 第五節. 研究架構 ............................................................................................. 4. 第六節. 名詞解釋 ............................................................................................. 5. 第七節. 研究問題 ............................................................................................. 5. 第二章文獻探討 ....................................................................................................... 6 第一節. 試題分析內涵與實施 .......................................................................... 6. 第二節. 測驗理論沿革與發展 .......................................................................... 8. 第三節. 雙向細目表 ....................................................................................... 10. 第四節. 數學學習領域課程綱要 .................................................................... 13. 第五節. 古典測驗理論.................................................................................... 14. 第六節. 試題反應理論.................................................................................... 19. 第七節. 學生問題表分析理論 ........................................................................ 24. 第八節. 國中基測試題分析的相關研究 ......................................................... 29. 第三章歷程結果與討論 ......................................................................................... 31 第一節. 研究對象 ........................................................................................... 31. 第二節. 實施程序 ........................................................................................... 31. 第三節. 研究工具與資料處理 ........................................................................ 32. 第四節. 分析結果與討論 ................................................................................ 35. 第四章結論與建議 ............................................................................................... 108 第一節. 研究結論 ......................................................................................... 108 iv.

(7) 第二節. 研究建議 ......................................................................................... 108. 參考文獻 ................................................................................................................ 110 中文部分 ......................................................................................................... 110 英文部分 ......................................................................................................... 112 附錄 ........................................................................................................................ 114 附錄一選項誘答力分布表 ............................................................................ 114 附錄二 105 年國中教育會考數學科選擇題 ................................................... 119 附錄三 BILOG-MG ITEM MAINTENANCE PROGRAM ............................. 128. v.

(8) 表次表 3-1-1. 學生人數分配表 .................................................................................. 31. 表 3-3-1 表 3-3-2 表 3-3-3 表 3-3-4 表 3-4-1. 難度等級表 .......................................................................................... 32 鑑別度等級表 ...................................................................................... 33 試題注意診斷分析表 ........................................................................... 33 學生注意診斷分析表 ........................................................................... 34 雙向細目表 .......................................................................................... 35. 表 3-4-2 表 3-4-3 表 3-4-4 表 3-4-5 表 3-4-6. 選擇題命題範圍與能力指標表 ........................................................... 37 選擇題評量目標與能力對照指標 ....................................................... 39 學生答對題數描述性統計量表 ........................................................... 41 答對題數人數累積次數分配表 ........................................................... 41 難度分布表 .......................................................................................... 43. 表 3-4-7 表 3-4-8 表 3-4-9 表 3-4-10 表 3-4-11. 鑑別度分布表 ...................................................................................... 44 第 3 題題目 .......................................................................................... 44 第 12 題題目 ........................................................................................ 45 第 13 題題目 ........................................................................................ 46 第 15 題題目 ........................................................................................ 47. 表 3-4-12 表 3-4-13 表 3-4-14 表 3-4-15 表 3-4-16. 第 17 題題目 ........................................................................................ 48 第 18 題題目 ........................................................................................ 49 第 19 題題目 ........................................................................................ 50 第 22 題題目 ........................................................................................ 52 第 23 題題目 ........................................................................................ 53. 表 3-4-17 表 3-4-18 表 3-4-19 表 3-4-20 表 3-4-21. 第 24 題題目 ........................................................................................ 54 總變異量解釋表 .................................................................................. 57 KMO 與 Bartlett 檢定結果表 ............................................................... 58 單向度檢定結果表............................................................................... 58 試題參數估計表 .................................................................................. 59. 表 3-4-22 表 3-4-23 表 3-4-24 表 3-4-25 表 3-4-26. 學生能力值描述性統計量表 ............................................................... 60 試題訊息函數值 .................................................................................. 65 特徵曲線類別分布表 ........................................................................... 67 答對題數與平均答對率表 ................................................................... 78 第 1 題題目 .......................................................................................... 79. 表 3-4-27 表 3-4-28 表 3-4-29 表 3-4-30. 第 2 題題目 .......................................................................................... 80 第 4 題題目 .......................................................................................... 81 第 5 題題目 .......................................................................................... 82 第 8 題題目 .......................................................................................... 83. 表 3-4-31. 第 9 題題目 .......................................................................................... 84 vi.

(9) 表 3-4-32 表 3-4-33 表 3-4-34. 第 10 題題目 ........................................................................................ 85 第 25 題題目 ........................................................................................ 86 差異係數表 .......................................................................................... 87. 表 3-4-35 表 3-4-36 表 3-4-37 表 3-4-38 表 3-4-39. 901 試題分析表 ................................................................................... 89 902 試題分析表 ................................................................................... 89 903 試題分析表 ................................................................................... 90 904 試題分析表 ................................................................................... 91 905 試題分析表 ................................................................................... 91. 表 3-4-40 表 3-4-41 表 3-4-42 表 3-4-43 表 3-4-44. 異質成分試題彙整表 ........................................................................... 93 901 學生診斷分析表 ............................................................................ 94 902 學生診斷分析表 ............................................................................ 94 903 學生診斷分析表 ............................................................................ 95 904 學生診斷分析表 ............................................................................ 96. 表 3-4-45 表 3-4-46 表 3-4-47 表 3-4-48 表 3-4-49. 905 學生診斷分析表 ............................................................................ 97 學生學習類型分析表 ........................................................................... 98 學生學習類型比較表 ........................................................................... 98 選擇題數學內容主題平均通過率比較表 ............................................ 99 選擇題通過率分析表 ......................................................................... 100. 表 3-4-50 表 3-4-51 表 3-4-52 表 3-4-53. 選擇題通過率與差異分析表 ............................................................. 101 選擇題答對題數與非選擇題分數對應能力等級加標示對照表 ....... 103 能力等級加標示人數百分比分析表.................................................. 104 能力等級加標示人數百分比比較表.................................................. 105. vii.

(10) 圖次圖 1-2-1. 研究步驟 ................................................................................................ 3. 圖 1-5-1 圖 3-4-1 圖 3-4-2 圖 3-4-3 圖 3-4-4. 研究架構 ................................................................................................ 4 內容主題分布圖 .................................................................................. 36 各冊命題數與比率直方圖 ................................................................... 37 答對題數人數累積分配表 ................................................................... 42 信度-能力曲線圖 ................................................................................. 43. 圖 3-4-5 圖 3-4-6 圖 3-4-7 圖 3-4-8 圖 3-4-9. 因素陡坡圖 .......................................................................................... 56 能力值常態 Q-Q 圖 ............................................................................. 61 能力估計值長條圖............................................................................... 61 數學測驗由答對率預測能力估計值之迴歸線.......................................... 62 第 1 位受試者真實能力曲線 ............................................................... 62. 圖 3-4-10 圖 3-4-11 圖 3-4-12 圖 3-4-13 圖 3-4-14. 第 14 題試題特徵曲線 ........................................................................ 63 第 23 題試題特徵曲線 ......................................................................... 63 第 13 題試題特徵曲線 ......................................................................... 64 試題測驗曲線矩陣............................................................................... 64 測驗訊息函數曲線圖 ........................................................................... 66. 圖 3-4-15 圖 3-4-16 圖 3-4-17 圖 3-4-18 圖 3-4-19 圖 3-4-20 圖 3-4-21 圖 3-4-22 圖 3-4-23 圖 3-4-24 圖 3-4-25. 第 3 題選項特徵曲線 ........................................................................... 68 第 12 題選項特徵曲線 ......................................................................... 68 第 13 題選項特徵曲線 ......................................................................... 69 第 15 題選項特徵曲線 ......................................................................... 70 第 17 題選項特徵曲線 ......................................................................... 70 第 18 題選項特徵曲線 ......................................................................... 71 第 19 題選項特徵曲線 ......................................................................... 72 第 22 題選項特徵曲線 ......................................................................... 72 第 23 題選項特徵曲線 ......................................................................... 73 第 24 題選項特徵曲線 ......................................................................... 74 901 學生問題分析表圖形 .................................................................... 75. 圖 3-4-26 圖 3-4-27 圖 3-4-28 圖 3-4-29 圖 3-4-30. 902 學生問題分析表圖形 .................................................................... 75 903 學生問題分析表圖形 .................................................................... 76 904 學生問題分析表圖形 .................................................................... 77 905 學生問題分析表圖形 .................................................................... 77 通過率折線圖 .................................................................................... 106. viii.

(11) 第一章緒論本章總共分為六節：第一節說明研究者的研究動機與研究目的，第二節介紹研究方法與步驟，第三節說明預期的研究成果與效益，第四節說明了本研究的範圍與限制，第五節呈現本研究的架構，第六節對本研究主題界定專有名詞，第七節說明研究問題。. 第一節. 研究動機與目的. 壹、研究動機本研究的學生作答反應資料來自研究者的現職服務學校，研究動機分述如下：一、研究者想了解國中教育會考的命題方向與趨勢國中教育會考是十二年國教的重要配套措施，依據教育部「國民小學及國民中學學生成績評量準則」，中央及地方主管機關為了解及確保國中畢業生學力品質，辦理國中教育會考（Comprehensive Assessment Program for Junior High School Students），作為我國國中畢業生學力檢定機制。國中教育會考，是學生在國中學習階段的總結性評量。透過參加教育會考，學生、家長、教師和學校可以了解學生的學習成效。就教學現場而言，教育會考屬於一種外部評量方式。教育會考各科皆以國民中小學九年一貫課程綱要為命題依據（教育部，2013）。紙筆測驗為數學評量的方式之一，國中教育會考是具備指標性的總結性紙筆測驗，九年級學生可以從題目中了解自己的學習狀況，研究者也可以檢視學生在國中教育會考的表現與答題狀況，將此結果運用在改進自己的學科教學，還可以進一步為學習落後的學生進行補救教學，以作為提升教師專業發展的重要參考依據。二、研究者想了解本校學生在本次國中教育會考數學科的學習表現情形張春興（1992）認為測驗係指測量某一種行為的工具且經過標準化建立常模、信度與效度。王慶弘（2014）認為測驗最終目的是了解個體在某方面表現水準及個體間的差異情形。評量是指針對個體的某行為，做一有系統及科學化的資料蒐集、分析與制定教育決策的過程。秦永健（2012）認為評量具有目標導向的特質，評量的目的會決定其施測對象、使用工具以及評量分數的使用。三、研究者想要了解現職服務學校數學領域的教學成效學校教育目的是培養學生具備參與現代社會運作所需的基本能力，數學領域教師是藉由教學（instruction or teaching）與評量（evaluation or assessment）來達成教學目 1.

(12) 標。Glaser（1962）提出一般教學模式（general model of instruction,GMI），其認為教學活動皆可以歸納為教學目標、起點行為、教學活動以及教學評量等四項基本要素； Kibler（1978)把教學的基本模式區分為教學目標、學前評估、教學活動以及評量等四大部份，其觀點與 Glaser 頗為類似。左太政（2013）認為教學與評量是各級數學領域教師所必須具備的專業知識素養之一。數學領域教師可以透過評量去了解自己的教學成效（effectiveness of teaching）以及教學是否達成教學目標；若數學領域教師能了解國中教育會考命題方向與內容，在教學上必有所幫助。綜合上述三個研究動機，本研究以現職服務學校的九年級學生為對象，探討提升數學領域教學成效的具體作為。. 貳、研究目的本研究因上述動機而產生的研究目的有：一、分析 105 年國中教育會考數學科選擇題的命題內容主題、命題趨勢。二、分析新北市立某國中九年級學生在 105 年國中教育會考數學科選擇題的整體表現、學生能力表現。三、分析本校學生在本次會考的學習困難點、容易掌握的學習概念。四、分析本校學生在「數與量（N）」、「幾何（S）」、「代數（A）」、「統計與機率（D）」等四部份的學習狀況。依本研究目的提供本校數學領域教師自我改進教學的具體方向，並作為教學行動研究之參考依據。. 第二節. 研究方法與步驟. 壹、研究方法本研究的資料分析採用「調查研究法」，以 104 學年度新北市立某國民中學之九年級學生為研究樣本，分別以古典測驗理論、試題反應理論與學生問題表理論，分析與了解學生在此次測驗中的「數與量（N）」、「幾何（S）」、「代數（A）」、「統計與機率（D）」四部份的答題狀況。. 貳、研究步驟本研究步驟有訂定題目、蒐集相關文獻、試題蒐集與學生作答資料、建立資料檔 2.

(13) 案，透過試題的命題檢核、古典測驗理論、試題反應理論、學生問題表等分析，最後是進行資料分析與討論出提升教學成效之具體作為，如下圖 1-2-1 所示。. 蒐集相關文獻訂定研究題目. 命題檢核古典測驗理論分析. 建立資料檔. 蒐集國中會考試題. 試題反應理論分析. 蒐集學生作答資料. 學生問題表分析. 技術報告撰寫. 圖 1-2-1 研究步驟. 第三節. 預期研究成果與效益. 壹、預期研究成果根據本研究的研究目的，預期本研究能夠做出具體貢獻如下。一、能夠了解 105 年國中教育會考數學科選擇題的命題內容主題、命題趨勢。二、能夠了解本校學生在本次會考的整體表現、學生能力表現。三、能夠了解本校學生在本次會考的學習困難點、容易掌握的學習概念。四、能夠了解本校學生在「數與量（N）」、「幾何（S）」、「代數（A）」、「統計與機率（D）」等四部份的學習表現狀況。. 貳、預期研究效益依本研究的成果作為本校數學領域教師自我改進教學的根據，並期待能夠提升與增強數學領域教師的教學效能，以及進一步作為其他教學行動研究之參考。. 第四節. 研究範圍與限制. 壹、研究對象的範圍與限制本研究以 104 學年度新北市立某國中九年級學生，參加 105 年國中教育會考數學科為對象，特殊學生的作答反應情況無法看出。 3.

(14) 貳、研究區域的範圍與限制本研究所使用的資料包含 104 學年度新北市立某國中九年級的國中教育會考數學科，該校隸屬新北市的偏遠學校，故本研究之結論不宜推論至新北市各國中，或其他縣市學校，若要推論其他偏遠地區，則需要多方考量與斟酌。. 第五節. 研究架構. 本研究根據 105 年國中教育會考數學科選擇題與 104 學年度新北市立某國中九年級學生作答反應資料情形作命題檢核之雙向細目表、命題冊別、命題趨勢、能力指標等分析，古典測驗理論之信效度、難度、鑑別度、選項誘答力等分析，試題反應理論之參數模型、測驗等化、試題特徵、選項誘答特徵曲線分析，以及通過率比較之內容主題、差異與綜合分析，如下圖 1-5-1 所示。. 105 年國中教育會考數學科選擇題與 113 筆學生作答反應資料. 命題檢核. 能力指標分析. 命題趨勢分析. 命題冊別分析. 雙向細目表分析. 古典測驗理論. 選項誘答分析. 鑑別度分析. 難度分析. 信度分析. 試題反應理論. 學生問題表. 選項誘答特徵曲線分析. 學生學習類型分析. 試題特徵分析. 測驗等化分析. 參數模型分析. 提升教學成效作為之綜合討論圖 1-5-1 研究架構 4. 學生注意係數分析. 試題注意係數分析. 差異係數分析. 通過率比較. 綜合分析. 差異分析. 內容主題分析.

(15) 第六節. 名詞解釋. 一、國中教育會考（Comprehensive Assessment Program for Junior High School Students）教育會考自民國 103 年起實施，由國立臺灣師範大學心理與教育測驗研究發展中心負責命題、組卷、閱卷與計分。透過學生表現與事先制訂的標準，將各科評量結果分為 3 個等級。依過去國中基測考生之能力值模擬各考科答題狀況與評估等級合理性及適當性。「精熟」表示學生精通該科的知識能力，利用恰當方法解題；「基礎」表示學生具備該科的基本學力，理解基本概念與算則；「待加強」表示學生尚未具備該科的基本學力，認識基本概念與操作簡單算則（教育部，2014）。二、教學成效（effectiveness of teaching）李慧芬（2010）認為教師的教學成效，用以檢視教師的教育工作實質效率，是否達成既定的教學目標。而本研究中所指的教學成效是為了解本校九年級學生在國中會考數學科試題中的「數與量（N）」、「幾何（S）」、「代數（A）」、「機率與統計（D）」等表現結果是否達成預定的教學目標。三、雙向細目表（two-way specification table）雙向細目表是用來評估測驗內容的「教學目標」與「教材內容」適切性。因此教材內容與教學目標是確定內容效度（content validity）重要因素。內容效度是無數量表示方法，毋需進行統計分析，聘請該課程相關領域專家或審題小組依雙向細目表檢核。四、九年一貫課程數學領域（Grade 1-9 Curriculum in Mathematics）九年一貫包括國民小學與國民中學兩層次的課程與學習內容，課程目地在使學生獲得統整性知識。課程整合統整國語、鄉土語言、英語、數學、社會、自然與生活科技、藝術與人文、健康與體育與綜合活動等學習領域，以學生能力為指標。. 第七節. 研究問題. 本研究的研究問題如下：一、105 年國中教育會考數學科選擇題命題的內容主題、命題的趨勢為何? 二、本校學生在本次會考的整體表現、學生能力表現為何? 三、本校學生在本次會考的學習困難點、容易掌握的學習概念為何? 四、本校學生在「數與量（N）」、「幾何（S）」、「代數（A）」、「統計與機率（D）」的學習表現為何?. 5.

(16) 第二章文獻探討本章節主要探討與本研究有相關的理論與文獻，第一節探討試題分析內涵與實施；第二節探討測驗理論沿革與發展；第三節探討雙向細目表；第四節探討國民中小學九年一貫數學學習領域課程綱要；第五節探討古典測驗理論；第六節探討試題反應理論；第七節探討學生問題表分析理論；第八節探討試題分析的相關研究。. 第一節. 試題分析內涵與實施. 簡茂發（2001）認為優良的測驗必須具備相當水準的信度（reliability）和效度（validity），而信度和效度取決於全部試題（test items）的性能。試題性能的檢驗，有賴於邏輯的與統計的分析（logical and statistical analyses）。信度和效度是測驗的最重要兩項特徵，且須視試題品質的優劣而定，而試題分析（item analysis）可以提高試題品質（郭生玉，2006)。試題分析可以分成兩種，一種是質性分析（qualitative analysis），另一種是量化分析（quantitative analysis）。前者是針對試題的內容和形式，從取材的適切性與編擬試題技術兩方面討論，後者是實際施測後，根據受試者作答反應狀況，逐一分析其難度（difficulty）、鑑別度（discrimination）、選項誘答力（option distraction）等以作為試題修改或試題選擇的依據（郭生玉，2006）。. 壹、試題分析種類與內涵一、試題質的分析試題質的分析可由測驗試題的內容效度審查、有效命題原則的評鑑、教學目標的邏輯分析來進行，符合編製測驗程序的品質要求，能確保試題具有良好的內容效度。試題質的分析包括以主觀經驗與個人專業素養，主觀地判斷題目數是否合理、文字表達是否清晰、錯誤選項安排是否合適。 (一)一致性（consistency）：測驗試題與教學內涵、教學目的、教學目標、教學呈現等敘述間是否有所一致。 (二)適當性（adequacy）：試題格式、問題陳述品質、其他可能影響因素等，是否反應出試題所要測量的行為目標。簡茂發（2001）認為一般在編製學科成就測驗時，應先分析教材內容及其行為目標（behavioral objectives），進而使兩者適當結合而成雙向的細目表，據以編製試題。 6.

(17) 學科成就內容效度高低，視其是否能適當反映教材內容重點和行為目標的層次而定。從試題的內容、型式、編擬技術來評判試題良窳，每道試題是否能夠都測量到雙向細目表中的一項重要學習結果；試題類型是否適合於所欲測量的學習結果；試題的敘述是否明確，是否遺漏了重要條件；宜使用簡單、清晰的用語陳述，避免所要測量能力受閱讀能力的干擾；試題宜避免提供額外線索，如：文法上的差異、語文的聯結、字數的多寡等；試題是否難度適中，試題難度應與學習工作的難度一致；每道試題是否彼此獨立，宜避免採用連鎖性試題；測驗所有的試題是否能夠涵蓋整個細目表的內容（余民寧，2011；郭生玉，2006；陳新豐，2015）。二、試題量的分析：簡茂發（2001）認為試題在質的方面所作的邏輯分析後，必須再作量的統計分析，而且量的分析是試題分析的重點所在。難度、鑑別度、信度（reliability）、效度（validity）、選項誘答力分析等，皆為古典測驗理論之試題量的分析。測驗試題量的分析主要是分析每道試題所具備三大統計特徵-難度、鑑別度、誘答力。. 貳、試題分析的實施所有心理測驗中的試題必須經過質與量兩方面的分析，才能顯現其特性與有效程度高低，據此修改或刪除試題，則此測驗試題才是一套可靠有效的測驗。郭生玉（2006）認為試題分析的功能有提供回饋給學生、提供回饋給教師、提供改進課程的依據、增進教師命題的技巧。李簡秋玲（2010）認為透過測驗後的試題分析，更能掌握評量所要提供的訊息，若再配合相關的教學活動、調整教學活動設計，可以有效來提升學生的學習成效。李慧芬（2010）認為試題分析能夠協助教師改進教學和診斷學生的學習困難，可以作為未來教學的依據。王慶弘（2014）認為試題分析可以得知學生的學習情形，供教學現場教師參考，對於日後的教學會有所幫助。李簡秋玲（2010）認為教師可利用各種方法進行試題分析，利用測驗或評量方式來了解學生的學習狀況，使評量結果可以提供教師正確的訊息。余民寧（2011）認為教育行政人員可以透過長期蒐集優良試題方式建立題庫，一方面可以提供教師評量之用，另方面可以了解地區學生的學狀況，還可以建立長期的資料庫，提供後續教學或研究之使用。簡茂發（2001）認為透過預試、項目分析等過程而精選出來的試題，其具有相當的鑑別力和適當的難易水準，當可增進測驗的信度和效度。郭生玉（2006）認為試題 7.

(18) 分析解釋應特別注意：試題的鑑別度指數高低並不等於試題效度大小、鑑別度指數低的試題未必表示就是不良試題、試題分析資料是假設性的、避免只根據統計的特性選擇試題。陳新豐（2015）認為試題分析結果解釋要注意：根據小樣本所做的試題分析結論都是暫時的、試題分析結果運用要盡量避免負面的教師期望效應。本研究藉由雙向細目表來進行質性分析，同時透過古典測驗理論、試題反應理論與學生問題表來進行量化分析。. 第二節. 測驗理論沿革與發展. 測驗理論的主要目的是解釋試題分數的意義。目前有兩大學派：古典測驗理論（classical test theory，CTT）與現代測驗理論（modern test theory）。. 壹、測驗理論沿革測驗理論劃分成兩大學派：一為古典測驗理論，主要是以真實分數模式(true score model）為核心；一為現代測驗理論，主要是以試題反應理論（item response theory，IRT）為架構。這兩種理論是目前測驗學者最常使用的理論（余民寧，2009；陳新豐，2015）。一、測驗採廣義角度觀點：測驗即採用數字量尺或分類系統，來觀察和描述個人特質的一種系統程序。二、測驗採狹義角度觀點：測驗是測量的工具與材料。如智力測驗（intelligence test）、性向測驗（aptitude test）等。. 貳、測驗理論發展測驗主要可分為兩大領域，心理測驗以及教育測驗。隨著測驗理論的發展與創新，依提出時間與內容可分為：一為古典測驗理論，以真實分數模式為骨幹；另一為現代測驗理論，是以試題反應理論為架構（余民寧，2009）。一、古典測驗理論：古典測驗理論最早由 Gulliksen（1987）所提出，它被稱為古典信度理論（classical reliability theory），其主要是估計某測驗實得分數（observed score）的信度。古典測驗理論又稱為真實分數模式（true score theory）（Suen,1990），其假設受試者從測驗所獲得的觀察分數（observed score）為真正潛在能力（true score）與誤差分數（error score）的總和（陳新豐，2015）。國中教育會考的性質是屬於成就測驗，主要目的在了解學生的學習品質，研究者 8.

(19) 針對成就測驗的編製進行深入探究。一份好的成就測驗需要注意其命題步驟與程序有（余民寧，2011）： (一)準備測驗編製計畫 1.確立測驗的目的和目標：測驗必須具備具體可行的目標。 2.設計雙向細目表通常以學生能力層次為橫軸，可以分概念性理解、程序性執行、思考解題三層次，以教材內容為縱軸規劃，畫出一個二向度的分類表，將測驗試題平均分配於雙向細目表中的每個細目裡，以作為編擬成就測驗試題的設計圖。 3.選定測驗的題型：國中會考的選擇題為四選一的的題型。 (二)編製測驗試題：試題需具有教材的代表性。 (三)試題的審查（review） 1.邏輯的審查：測驗試題需具有一致性與適當性，確保能測量到所要測量的教學目標。 2.實證的審查：可以透過預試（pilot test）進行，確保良好的試題品質。 (四)個別試題與整份測驗的分析個別試題主要在難度指標（difficulty index）、鑑別度指標（discrimination index）、誘答力以及注意係數指標（caution index）的分析；整份測驗主要在信度係數(reliability coefficient）、效度係數（validity coefficient）以及差異係數指標（disparity index）的分析。 (五)新測驗的編輯在編擬測驗試題後，經初步試題形式和客觀的審查，可進行新測驗的編輯工作，且需考量測驗長度（length of test）、試題難度、試題排列、測驗指導語編製。二、現代測驗理論：現代測驗理論是以試題反應理論為主要架構，其理論較嚴謹且考慮層面廣，能延續古典測驗理論功能，並透過電腦程式技術幫助，目前是當前的主流測驗理論之一。新型的試題反應理論主要是 Lord（1980）所提出，丹麥學者 Rasch（1960）在歐洲獨立發展提出 Rasch 模式，相通於試題反應理論的 1PL 模式。本研究藉由雙向細目表來進行命題檢核，並透過古典測驗理論之信效度、難度、 9.

(20) 鑑別度、選項誘答力等統計資料分析，同時，利用試題反應理論之單參數對數模型與測驗等化進行統計分析。. 第三節. 雙向細目表. 數學領域教師對於學生學習的教學計畫，常需要做出各種不同的決定，這些教學決定需要有正確且可信賴的資料作為依據，測驗就是在提供這些教學決定所需正確資料的客觀工具。雙向細目表可以用來表示測驗的架構圖，它客觀地描述了測驗所包含的知識內容與所欲評量的能力，它可以作為教師命題的依據與檢視測驗是否達成測驗目的。雙向細目表係由學者 R.W.Tyler 於 1950 年提出的，它是以教學目標與學習內容為兩軸，以水平軸為教學目標，鉛直軸為學習內容，詳細列出各單元教學內容比重及不同能力層次的重要順序。它可以提供編製試題參考依據，亦可供選擇現成的測驗試題。其運用上包含檢視功能、計劃功能、教學輔導功能。Bloom 的教育目標的認知領域分成六個類別層次，茲將教學目標與學習內容分別敘述如下（郭生玉，2004）。. 壹、教學目標一、Bloom 認知教學目標 Bloom 的認知教學目標分述如下： (一)知識（knowledge）：知識為最低層次的認知能力，學科領域內容與特定要素的回憶與再認。譬如：學生能寫出畢氏定理的公式。 (二)理解（comprehension）：所學習過的知識與概念意義的瞭解能力，在教學目標中佔最大的比例。譬如：學生在學習之後，能夠對事物間的關係做邏輯推理。 (三)應用（application）：將所學到的定理、原則、原理與概念，應用到新情境、解決新問題的能力。譬如：學生能夠說出生活中五種圓形的物品。 (四)分析（analysis）：將所學到的內容、概念或原則、分析各組成分子，並找出各分子之間的相互關係。譬如：學生能夠從荒謬的敘述中找出矛盾之所在。 10.

(21) (五)綜合（synthesis）：將所學片段概念或知識、原理、原則結合成新整體能力，表現其獨特的創見或創造性所學。譬如：學生能夠針對實際需要，設計新的電腦程式。 (六)評鑑（evaluation）：最高層次的認知能力，依據外在規準或內部證據作價值判斷的能力。譬如：學生知道如何判斷不同測驗的好壞。二、修訂的 Bloom 認知教學目標分類修訂版（revised edition）的教學目標分類是由 Anderson 等人於 2001 年提出的，他們將知識獨立為一知識向度（knowledge dimension），與認知歷程（cognitive process dimension）形成二維向度，同時將舊版的理解與綜合改為動詞詞態的了解（understand）與創造（create）。 (一)知識向度：知識向度幫助老師教什麼內容，認知領域（cognitive domain）的分類架構修改如下（葉連祺、林淑萍，2003）： 1.事實知識（factual knowledge）：學生學習科目與解決問題所具備的知識。可再細分為術語知識、特定整體與元素知識。 2.概念知識（conceptual knowledge）：存在於較大型結構中能夠共聚產生功能的各基本要素之相互關係。可再細分為分類與類別知識、原則與通則化知識、理論模式與結構知識。 3.程序知識（procedural knowledge）：轉換性與運作性知識，不只是要求知其然且須行其宜。可再分為特定學科技能與演算知識、特定學科技術與方法知識、決定何時使用適當的程序知識。學習成果中的智能技巧，指的就是所習得的程序知識。 4.後設認知知識（metacognitive knowledge）：學生對於既有知識能在不同情境予以選擇、組織、支配，即適用所有工作情境的知識。可再細分為通用策略知識、策略有效程度、自我知識。 (二)認知歷程向度：修訂版由低層次往高層次的能力排序如下(葉連祺、林淑萍，2003)。 11.

(22) 1.記憶（remember）：從長期記憶中取回有用知識，包括：事實、概念、程序與後設認知知識；記憶可再細分為兩個次類別，為確認與回憶。 2.了解（understand）：從口述、書寫與圖像溝通方式中建構有意義資訊；了解可再細分為七個次類別，為說明、舉例、分類、總結、推論、比較、解釋。 3.應用（apply）：應用程序步驟到新情境執行作業或解決新問題能力；可再細分為執行與實行。 4.分析（analyze）：將學到的內容、概念或原則，分析各組成分子，並找出各分子之間的相互關係；可再細分為辨別、組織、歸因。 5.評鑑（evaluate）：依據某項標準或規準做出價值判斷的能力；評鑑可再細分為兩個次類別，為檢查與評論。 6.創造（create）：重組各要素為新的模式與結構；創造可再細分為三個次類別，為通則化、規畫、製作。三、Ploya 解題層次依照 Ploya 的解題四大步驟（蔡坤憲，2006），可將測驗試題的認知歷程從簡單到複雜、從具體到抽象，分成三個層次：概念理解、程序執行與解題思考。概念理解包括數學的事實知識與概念知識的理解；程序執行包括數學程序知識的執行；解題思考包括應用數學概念與程序知識，擬訂解題計畫與策略以解決問題。關於問題思考與解決的觀點，並非單純只是舊經驗習得的規則之運用，它同時也是一種產生新學習的過程(陳正昌，1996)。. 貳、學習內容學習內容為測驗試題所欲測量的學生能力範疇，包含不同的學習主題與單元。105 國中教育會考數學科的測驗範圍為國中七、八、九年級數學領域的學習範圍。國民中小學九年一貫課程綱要數學學習領域將學習內容分成五大主題，包括「數與量（N）」、「幾何（S）」、「代數（A）」、「統計與機率（D）」、「連結（C）」等，其中的「連結（C）」 12.

(23) 是指數學教材內部連結貫串與生活應用解題，連結並非單一學習單元的項目，故本研究的雙向細目表中的鉛直軸的學習內容是以前四個主題為檢視的項目。本研究係藉由 105 年國中教育會考數學科之雙向細目表分析，以「概念理解」、「程序執行」、「解題思考」為認知過程向度的評量架構，針對學習內容之「數與量（N）」、「幾何（S）」、「代數（A）」、「統計與機率（D）」等主題進行命題檢核。. 第四節. 數學學習領域課程綱要. 國中教育階段於 2002 年開始實施九年一貫課程，教育部於 2003 年頒布國民中小學九年一貫數學學習領域的課程綱要，並發展相關的能力指標。. 壹、課程綱要制定原則九年一貫數學學習領域的課程綱要，是由下列四個原則來界定：一、參考施行有年且有穩定基礎的傳統教材。二、採用國際間數學課程必備的核心題材。三、考慮數學作為科學工具性的特質。四、現有學生能夠有效學習數學的一般能力。. 貳、數學領域的教育階段與教學目標九年一貫課程綱要數學領域的不同階段與教學目標如下表示：一、第一階段：國小一至二年級屬於此階段，能初步掌握數、量、形的概念，其重點在自然數及其運算、長度與簡單圖形之認識。二、第二階段：國小三至四年級屬於此階段，在數方面要能熟練自然數的四則與混合計算，培養流暢的數字感；另外，應初步學習分數與小數的概念。在量上則以長度的學習為基礎，學習各種量的常用單位及其計算。幾何上則慢慢發展以角、邊要素認識幾何圖形的能力，並能以操作認識幾何圖形的性質。三、第三階段：國小五至六年級屬於此階段，應能熟練小數與分數的四則計算；能利用常用數量關係，解決日常生活的問題；能認識簡單平面與立體形體的幾何性質，並理解其面積或體積之計算；能製作簡單的統計圖形。四、第四階段： 13.

(24) 國中七至九年級屬於此階段，在數方面，能認識負數與根號數之概念與計算方式，並理解坐標表示的意義。代數方面則要熟練代數式的運算、解方程式，並熟悉常用的函數關係。幾何方面要學習三角形及圓的基本幾何性質，認識線對稱與圖形縮放的概念，並能學習簡單的幾何推理。能理解統計與機率的意義，並認識各種簡易統計方法。國民中小學九年一貫課程改革重視學生的生活經驗，強調學生可以學到帶得走的能力，遇到新的問題可以應用有效的策略來解決問題。數學領域課程期望學生能夠了解與掌握數、量、形的觀念與關係，透過數學課程可以培養學生在日常生活中所需具備的數學素養，經由幫助學生發展形成數學問題，進一步協助其解決數學問題的能力（教育部，2003）。. 第五節. 古典測驗理論. 古典測驗理論是最早之測驗理論，至今，它仍然是最實用的測驗理論（余民寧， 2011；陳新豐，2015）。. 壹、古典測驗理論的基本假設古典測驗理論基本假設（余民寧，2011；陳新豐，2015；Allen & Yen,2001）：一、. X=T+E，表示實得分數為真實分數與誤差分數的加總。. 二、 E(X) = T，表示實得分數期望值等於真實分數，此時，誤差分數的期望值為零。三、.  TE = 0，表示誤差分數與真實分數間無關。. 四、.  E1E2 = 0，表示兩個不同測驗的誤差分數間無相關存在。. 五、.  E1T2 = 0，表示不同測驗的誤差分數與真實分數呈零相關。. 六、若兩測驗，實得分數為 X1 與 X 2 ，滿足上述第一項至第五項的假設，對一群受試者來說，也滿足 T1 = T2 與  E2 1 =  E2 2 等條件，則稱此兩測驗為複本或平行測驗。七、若兩測驗，實得分數為 X1 與 X 2 ，滿足上述第一項至第五項的假設，對一群受試者而言，滿足 T1 = T2 + C12 條件，其中 C12 代表常數，則此兩測驗稱為本質上  相等的測驗。上述的第六項與第七項分別是平行測驗的假設，Devillis（2011）認為平行測驗的假設亦可說符合以下的假設，分別是：隨機誤差、誤差之間彼此無關、誤差與真分數無關、潛在變數對所有試題的影響相同、每道試題的誤差變異相等。 14.

(25) 真實分數 T 為同一批受試者在標準測驗情境下，接受相同測驗或複本測驗多次所得分數平均數。誤差分數 E（error score）是由隨機（random）測驗誤差造成的，亦即個人實得分數與其真實分數的差，其可能是真正的、負的或零。因為測量誤差是隨機的，所以理論上正負值會相互抵消而得到平均誤差為零。測驗誤差愈小，實得分數愈接近真正分數（余民寧，2011；郭生玉，2006）。. 貳、難度：一、常模參照測驗難度係指用來探討題目難易程度，難度指數愈大表示答對人數愈多，題目愈簡單（郭生玉，2006)。 (一)答對率（全體受試者通過百分比，通過率）：試題答對人數與作答該試題總人數的百分比值，其計算公式如下：. P. R 100% N. 其中，P：該題的難度指數，R：答對試題的人數，N：全體受試者，此方法可以看出整體答題情況。 (二)難度指數將學生依照原始得分由高至低排序後，選取排名前25%至33%作為高分組及排名後25%至33%作為低分組，並分別計算高分組及低分組的答對百分比。其公式計算如下（郭生玉，2006）： P. PH  PL 2. 其中，P：該題的難度指數， PH ：表示高分組答對某一題的百分比， PL ：表示低分組答對某一題的百分比。二、標準參照測驗常模參照測驗的難度分析法可以適用標準參照的難度分析，但兩者解釋有所不同。常模參照測驗中，所需要的難度是要能夠區分出能力高低者，其理想難度值接近 0.5，此時鑑別度最高。標準參照測驗中，受試者在經過教學後，皆能精熟所學教材，當教學有效時，多數試題的難度指數均很大，即通過的百分比大，此時的難度指數反映出教學品質多於試題品質（余民寧，2011；郭生玉，2006）。 15.

(26) 参、鑑別度一、常模參照測驗鑑別度分析主是要為了瞭解試題是否能夠區別學生的能力高低。某個試題的鑑別度越高，高分組會傾向答對，低分組會傾向答錯，則此試題是屬於高鑑別度的，其表示試題的區辨力很高。鑑別度的方法有如下所述（余民寧，2011；郭生玉，2006）： (一)內部一致性（internal consistency）內部一致性是用來討論某試題得分與整份試題總分間是否合乎一致性，測驗目的在使測驗的內部一致性為最大。一般而言，教師自編成就測驗較難尋找適合的外在效標，此種分析能夠改善內容效度與建構效度，但無法增加效標關聯效度，又稱諧度分析。鑑別度指數計算公式為： D  PH  PL. 其中，D 為鑑別指數， PH ：表示高分組答對某一題的百分比， PL ：表示低分組答對某一題的百分比，鑑別指數介於±1 之間，越接近 1 表示個別試題反應與測驗總分測驗之間的一致性越高。若 D=1，表示高分組學生全部答對，低分組學生全部答錯；若 D=－1，表示高分組學生全部答錯，低分組學生全部答對；若 D=0，可以表示試題太簡單或試題太難，前者是高分組與低分組學生全部答對，後者是高分組與低分組全部答錯。 (二)外在效度分析外在效度分析是討論在試題上的反應和效標上的表現關係，其目的是若試題反應與測驗的外在效度變得最大，則可用來增強效標關聯效度。依據受試者在某試題反應答對或答錯與試題總分的相關係數，稱為點二系列相關係數（biserial correlation coefficient），此相關係數可用來表示試題的鑑別度指數。點二系列相關係數值越高，表示試題的作用和測驗總分的作用越一致，其鑑別功能越強。外在效度分析主要是探討一個二分變項的試題答對或答錯和一個連續變項的外在效標之相關程度。 1.點二系列相關係數的公式為：. rpb . x p  xq st. pq. 其中， x p ：答對的學生，在效標的平均得分； xq ：答錯的學生，在效標的平均得分； p ：答對人數百分比； q ：答錯人數百分比； s t ：全部學生在效標得分的 16.

(27) 標準差。 2.二系列相關的公式為：. x p  xq pq ) st y 其中， y ：常態分配下答對人數百分比所在位置之曲線高度。二系列相關法適 rbi  (. 用於學生在試題反應呈常態分配，同時以人為方式將其分為答對與答錯情形。二、標準參照測驗茲以教學前後的差異、接受教學與未接受教學的差異、精熟組與非精熟組的差異層面來討論（余民寧，2011；郭生玉，2006）： (一)教學前後的差異在教學之前和教學之後，給予受試者實施相同的測驗，依據教學前後答對試題的數量或百分比，可了解試題的有效性與教學效果。鑑別度指數的公式為： D  PPOST  PPRE. 其中， PPOST ：教學後答對的比率， PPRE ：教學前答對的比率，鑑別度指數的範圍在－1至＋1之間，鑑別度指數越高，表示試題對教學效果的敏感度越大，試題的品質越佳，鑑別度指數又稱為教學敏感度（sensitivity to instructional effect）。 (二)接受教學與未接受教學的差異採用一組接受教學的受試者和另一組未接受教學的受試者，予以相同試題的測驗，計算其在試題的反應差異，此即試題的鑑別度指數。鑑別度指數的公式為： D  Pi  Pu. 其中， Pi ：接受教學組答對的比率， Pu ：未接受教學組答對的比率，此方法的優點是可以避免前測影響後測的結果，且毋須施測兩次測驗。此方法的缺點是兩組受試者在智力、性別、學業成績等各方面條件均須相同，事實上不容易達成。 (三)精熟組與非精熟組的差異標準參照測驗的主要特徵為事前決定通過的標準，以確定哪些受試者通過而達到精熟學習，哪些受試者未通過而屬於非精熟。Guskey（1985）認為精熟學習的標準是以得到80%至90%的測驗分數最為恰當，據此將受試者分為精熟和非精熟兩組，以比較兩組在每道試題的答對比率，此即試題的鑑別度指數。鑑別度指數的公式為： D  Pp  Pf 17.

(28) 其中， Pp ：精熟組的答對比率， Pf ：非精熟組的答對比率。. 肆、信度：信度是指相同受試者在不同時間，使用相同測驗測量（或複本測驗測量多次）或在不同情境下測量，所得結果一致性。估計信度的方法如下所示（余民寧，2011；郭生玉，2006）。一、再測方法（test-retest method）：同一份測驗在不同時間針對相同學生前後重複測量兩次，根據兩次分數所求得其相關係數，即稱再測信度係數，又稱穩定係數。二、複本方法（equivalent-forms method）：當同一種測驗有兩種以上的複本測驗（alternate-form test）時，可將此兩種複本分別實施於同一群受試者，再根據此兩份測驗分數計算其相關係數，即得複本信度，又稱等值係數（coefficient of equivalence）。三、內部一致性方法（internal-consistency method）：一般測驗測量信度均需對受試者實施兩次測驗，不僅增加編製的負擔，同時受試者合作意願降低、動機減少、疲勞與厭煩增加，均會影響施測的品質。因此學者們嘗試一次施測產生正確估計信度結果，會較受歡迎。這些包括折半方法（split-half method）、庫李方法（Kuder-Richardson method）、Cronbach-α 係數、Hoyt 變異數分析法。而 Cronbach-α 信度係數是 Cronbach 於 1951 年提出，此方法不限於二元化計分的測驗中使用。計算公式如下： n. α=. S. n (1- i=1 2 n-1 Sx. 2 i. ). 其中，α 為測驗的估計信度係數， n 為題數， S i2 為每一道試題得分的變異數， S x2 為測驗總分的變異數。四、評分者方法：從測驗卷中隨機抽取一些樣本，由不同的評分者或同一個評分者在不同的時間，對每一份試券評分，在測驗過程中觀察、記錄、評分、計分等各方面相互的一致性，最後依據每份測驗卷評分的兩個分數計算其相關係數。. 伍、效度： 18.

(29) 測驗分數的正確性，指測驗分數能代表測量到想到測量之潛在特質的程度。能測出所想要測出的特質，是測驗最重要的特徵。效度的分析類型如下所示（余民寧，2011；郭生玉，2006）：一、內容效度（content validity）：考量抽樣測驗試題樣本內容是否具有與「教學目標」或「教材內容」的代表性或適切性。因此教材內容與教學目標即確定內容效度的兩種重要因素，成就測驗適用之。二、效標關聯效度（criterion-related validity）：採用經驗性的實證方法，研究測驗分數與外在效標關係，探討效度類推性又稱實證效度。三、建構效度（construct validity）：測驗能測量理論概念或特質程度，測驗分數能依某種心理學理論構念解釋程度。陸、選項誘答力分析（ analysis of options in distraction）：測驗試題的選項是否具有誘答功能，有兩種辨識原則（余民寧，2011；郭生玉， 2006；楊志強，2004）：一、每個錯誤選項至少要有一個低分組的受試者選答。二、對錯誤選項而言，低分組的選答人數應高於高分組的選答人數。選擇題的誘答項提供有價值的訊息診斷，吸引一些一知半解的學生作答，同時提醒學生作答時要謹慎小心選擇該題的答案選項，又可廣泛測量到各層次的認知能力，因此妥善或精心設計選項是決定試題優劣關鍵因素（余民寧，2011；郭生玉，2006）。本研究藉由古典測驗理論之信效度分析、難度分析、鑑別度分析、選項誘答力分析，並特別針對學校、新北市與全國之國中教育會考的通過率進行比較與討論。. 第六節. 試題反應理論. 試題反應理論是現代測驗理論的主要架構，其理論較嚴謹且考慮層面廣，它是當前的主流測驗理論之一。. 壹、試題反應理論的基本假設一般而言，試題反應理論滿足的基本假設如下所述（余民寧，2011；吳柏林、謝名娟，2016；郭生玉，2006；陳新豐，2015；De Ayala, 2008）：一、單向度（unidimensionality）：適用含有單一主要因素測驗資料的試題反應模式，測驗內容具有顯著高相關。無 19.

(30) 論是古典測驗理論或試題反應理論，皆強調測驗的向度必須集中。試題必須集中在鑑定某一種潛在特質或能力。單向度假定不易獲得滿足，許多測驗常需測量不同異質特性，且相同題目給不同經驗背景作答，可能包含不同能力混合。通常，一般測驗包含幾個分測驗來測量不同特質或能力。若一組試題同時可測量幾種特質或能力，稱為多向度（multidimensional）。二、局部獨立性（local independence）：對相同之潛在特質層次受試者來說，不同試題之反應間相互獨立。試題間彼此獨立無關，受試者不會因作答某一道試題而影響另一道試題的答對機率，即每一道題目的答對機率均不會因學生在其他題目的表現而受到影響。三、非速度測驗（non-speed test）：試題測驗不是在測量學生答題速度的快慢。試題反應模型適用於難度測驗，每一位受試者回答每一道試題的機會是一樣的，測驗才能測量出其潛在特質或能力，測驗包含各種難度的測驗。四、知道-正確假設（know-correct assumption）：如果考生知道某一試題的正確答案，他／她必然會答對該試題；換句話說，如果他／她答錯某一試題，他／她必然不知道該試題的答案。. 貳、試題反應理論模式常見的試題反應理論模式如下所示。一、單參數對數型模式（one-parameter logistic model [1PL]） Rasch（1960）提出單參數羅吉斯模式，假設受試者 j 之能力為  j ，其作答試題 i 通過的機率（Rasch,1960;Wright & Stone,1979;Wright & Master,1982）：. P( X ij  1 |  j , bi ) . 1 1  exp[( j  bi )]. 其中， X ij 為受試者 j 在試題 i 的作答反應，答對用 1 表示，答錯用 0 表示； bi 為試題 i 的試題難度參數（item difficulty parameter），    bi   。由此式可知，難度值是唯一會影響受試者答對試題機率的試題參數值。受試者的能力值越高，表示受試者答對試題的機率越高。若試題難度越高，表示此試題題目越難，答對試題的機率越低。我們可以利用難度值，來畫出試題的特徵曲線（item characteristics curve），此曲線的 X 軸表示所有可能受試者的能力值，通常分佈在－3 至＋3 之間，而此曲線的 Y 20.

(31) 軸表示答對此題的機率（余民寧，2009；吳柏林、謝名娟，2016）。除了假定單維性、局部獨立性、非速度測驗、知道-正確，Rasch 模式尚需假設（王寶墉，1995）： (一)等鑑別度：只列入試題的難度分析，而有等鑑別度的假定，亦即使用 Rasch 時試題鑑別度參數大致相同。等鑑別度的假定並不符合實際情況，但存在的理由譬如可以節省資料處理的人力與物力，假定鑑別度參數介於 0.8 至 1.25 即可，通常假設鑑別度為 1，單參數模式具有強韌性，亦即允許某程度範圍違反假定。 (二)最小猜測：單參數模式應用並不受測驗試題猜測因素影響，通常假設猜測度為 0。二、二參數對數型模式（two-parameter logistic model [2PL]）假設受試者 j 之能力為  j ，其作答試題 i 通過機率（Birnbaum, 1968）：. P( X ij  1 |  j , bi , ai ) . 1 1  exp[ai ( j  bi )]. 其中， X ij 為受試者 j 在試題 i 的作答反應，答對用 1 表示，答錯用 0 表示； a i 為試題 i 之試題鑑別度參數（item discrimination parameter），    ai   ； bi 為試題 i 之試題難度參數，    bi   。由此式可知，在二參數對數型模式，加入了鑑別度指標 a i 。若 a i 值越高，表示鑑別度越高。在試題特徵曲線上，鑑別度代表的是斜率。斜率. 越大，鑑別度越高。斜率越大，表示試題特徵曲線越陡，也代表當能力值一有小的變化，會在答對機率上有很大的差異（余民寧，2009；吳柏林、謝名娟，2016）。三、三參數對數型模式 (three-parameter logistic model [3PL]）假設測驗會有猜題之現象發生，故假設受試者 j 之能力為  j ，其作答試題 i 通過機率（Birnbaum, 1968；Lord, 1980）：. P( X ij  1 |  j , bi , ai , ci )  ci . (1  ci ) 1  exp[ai ( j  bi )]. 其中， X ij 為受試者 j 在試題 i 的作答反應，答對用 1 表示，答錯用 0 表示； a i 為試題 i 之試題鑑別度參數，    ai   ；bi 為試題 i 之試題難度參數，    bi   ； ci 為試題 i 之試題猜測度參數（item guessing parameter）， 0  ci  1 。由此式可知，三參 21.

(32) 數對數模式中，不但考慮試題難度、鑑別度，同時也考慮試題的猜測度。就 4 選 1 的選擇題試題來說，其猜測度為 1/4。在試題特徵曲線上，猜測度表示截距。因為這表示能力值為最低值時，所代表的答對機率（余民寧，2009；吳柏林、謝名娟，2016）。一至三是常見的單向度二元化計分模式。單向度的試題反應模式依據計分型態，可以分成兩大類，第一類為二元化計分題（dichotomous scoring），如答對是 1 分，答錯是 0 分；第二類為多元化計分（polytomous scoring），如計分方式是 0 分、1 分、2 分、3 分、4 分。二元化的計分，在教育領域上，尤其是成就測驗上的應用廣泛，而多元化的計分，則是在態度、情意或實作評量上的應用較為常見（余民寧，2009；吳柏林、謝名娟，2016）。曾建銘與陳清溪（2008）認為當試題反應理論為單參數對數型模式時，則試題反應理論與古典測驗理論所推估出的難度會有極高的正相關；若只考慮二參數對數型模式，其推估出的鑑別度參數指標 a i ，應會與古典測驗理論所計算出來的鑑別度指數，如點二系列相關呈現高度正相關（Lord,1980；吳柏林、謝名娟，2016）。四、無參數模式（nonparametric model）：自1950年代Lord 發表雙參數常態肩型模式及潛在特質理論，發展已有五十年的歷史（王寶墉，1995）。此方法並無假設任何適當的模式，Ramasay（1991）完全根據受試者實際作答資料來進行分析，此法是一種無參數（nonparameter）的試題反應理論，並發展出TestGraf98軟體，可估計選項特徵曲線（option characteristic curve， OCC）。吳慧珉（2001）認為選項特徵曲線的特性是透過圖形化的方式來記錄或比較資料及數據，其將比繁雜冗長的文字描述或單純的數字表現來得詳盡且清楚。 TestGraf98軟體為一分享軟體（shareware），可在網際網路免費下載（楊志強，2004）。五、測驗長度與樣本大小使用時機以模式選擇來說，Wright與Stone（1979）認為若使用Rasch模式來估計試題參數，至少需要使用20道試題與200名受試者；Hulin、 Lissak與Drasgow（1982）認為若使用2PL模式，至少需要30道試題與500名受試者，若是使用3PL模式，至少需要60道試題與1,000名受試者。以軟體程式功能選擇來說，Seong（1990）認為估計點數（quadrature points）數多寡對試題與能力參數估計的精確性有所影響。Harwell與Janosky（1991）認為較短的測驗與較少的樣本數，若仍使用BILOG所預先設定的事前變異數值，可能造成不正確的鑑別度參數估計結果。 22.

(33) 参、訊息函數（information function）訊息量和測驗的精確度息息相關，並且，試題難度指標和學生能力指標又定義在同一量尺上，所以，我們可以在任何能力水準上，挑選出最能精確測量（亦即該測量標準誤差最小）到該能力範圍的試題（余民寧，2009）。一、試題訊息函數（item information function）：試題訊息函數能用來描述試題以及比較測驗相對效能的方法。試題所能提供測驗命題者有用的訊息越高，價值性就越大，越值得被採用，其訊息量越高表示試題對該能力點的測量精準度越高。二、測驗訊息函數（test information function）：測驗訊息函數是個別試題訊息函數的總和。若處於最大的訊息量處，此時估計標準誤差在此能力值時最小，而越往兩端的能力者，測驗訊息量越低，估計標準誤差（standard error of estimation）也較大。試題反應理論以試題訊息量即為測驗訊息量的概念，來估計某試題或整份測驗的測量誤差，並以測量誤差的觀點來取代古典測驗理論的「信度」指標。許擇基（1995）認為在學生能力的評估上，試題反應理論比古典測驗理論更精準；潘靖瑛（2005）認為試題反應理論將試題難度參數、考生能力指標與訊息函數皆定義與架構在一個連續的量尺上，可以呈現較為精確的能力評估。. 肆、測驗等化（test equating）一、測驗等化為試題反應理論的應用，分為真分數等化與判斷兩測驗是否等值等層面分述如下（周文欽，1999；許擇基、劉長萱，1992）。 (一)真分數等化（true score equating）：作答不同測驗的受試者可以互相比較其能力。 (二)判斷兩測驗是否等值：兩測驗訊息曲線相似或一致，當題數一樣，則兩測驗等值。二、余民寧（2009）認為在實際應用上，比較有效的測驗銜接方法，主要有 5 種。 (一)同時校準法（concurrent calibration method）：兩份測驗有部份相同試題，將兩組反應資料加以合併後，輸入電腦，一起估計試題和能力參數值。 (二)b 值固定法（fixed b’s method）： 23.

(34) 固定第一份測驗的 b 估計值，去估計第二份測驗的試題參數。 (三)b 值等化法（equated b’s method）：將第二組的參數估計值轉化到第一組的估計值量尺上，而達到銜接的目的。 (四)特徵曲線法（characteristic curve method）：如果估計誤差很小，參數值經過銜接手續後，每位考生在兩份測驗中相同試題上所得到的真實分數必須相等。 (五)最小卡方法（minimum chi-square method）：在解 F 函數極小化時，估計誤差大的試題參數，其加權值應較小，而誤差小的加權值應較大。三、測驗等化特性 Kolen 與 Brennan（1995）認為測驗等化的特性為對稱性（symmetry）、相同試題規格（same specifications property）、相等性（equity）、團體不變性（group invariance property）。茲將測驗等化的特性分別敘述如下（余民寧，2009）： (一)對稱性：等化不受使用何種測驗為參照測驗的影響，即由 A 測驗等化至 B 測驗，結果等同於 B 測驗等化至 A 測驗。 (二)相同試題規格：欲進行等化的測驗，其內容必須是測量相同的能力特質，否則不能予以等化。 (三)相等性：在 A 測驗或 B 測驗所得的分數是可以互逆的。 (四)團體不變性：等化程序應該是樣本獨立的，即不受選用樣本的影響。考量 104 學年度新北市立某國中九年級學生作答反應資料只有 113 筆，本研究採用試題反應理論之單參數對數模型、選項誘答特徵曲線進行統計分析。國立臺灣師範大學心理與教育測驗研究發展中心目前尚未開放全國學生隨機作答反應資料，本研究係透過測驗等化理論的 b 值固定法對學生能力值進行評估。. 第七節. 學生問題表分析理論. 學生問題表分析理論（student-problem chart analysis theory），係指英文 Student 的 S 與 Problem 的 P 兩個字母當縮寫，簡稱 S-P 表分析。S-P 表分析是由日本學者佐藤隆博（Takahiro Sato）於 1970 年代所創，將學生在試題上的作答反應情形予以「圖形化」，以指標化數據作為診斷或判讀該反應組型是否為不尋常（unusual)或異常（aberrent） 24.

(35) 的一種測驗分析方法（余民寧，1997）。李慧芬（2010）認為若能對學生生施測後作答反應資料（response data），予以細部分析獲得可用訊息，資以作為改進命題、評量、教學與輔導的工具，對提升學校教育品質有莫大貢獻。李簡秋玲（2010）認為透過 S-P 表適用於以班級為單位，人數不多的一種資料分析，是一種不針對母群體特性設定任何假設值的無母數統計方法，可以進一步了解學生的學習與試題情況。王慶弘（2014）認為 S-P 表是將學生對試題的作答反應原始答案加註底線，進一步予以階梯狀圖形化，獲得每位學生的學習診斷資料，可以提供教師了解每位學生的學習情形。. 壹、差異係數（disparity index）常見的反應組型皆是屬於不完美量尺，則 S 曲線與 P 曲線會呈現分開的狀況，而分離程度的標準值常常都是需要靠經驗來加以判斷，其標準值會隨著測驗的內容、種類與形式也都會有所不同（余民寧，2011；陳新豐，2015）。測量兩曲線的分離程度可使用「差異係數」的量化指標（陳政漳，2003）。差異係數 D*係指在實際測驗得到的 S-P 表中，S 和 P 兩曲線之分離面積，佔隨機情況下 S-P 曲線所圍部分之面積期望值的比值，其值會介於 0-1 間。若 D*=0，表示 S-P 表呈現出完美量尺的反應組型；若 D*=1，表示 S-P 表呈現出純粹是由隨機造成的反應組型。D* 用以表示 S-P 表整體的非同質性程度的指標，1－D*則用來表示 S-P 表的同質性指標。在大多的實際例子中，成就測驗的差異係數值以 D*=0.5 左右為標準值，若 D* ＞0.65 或 D*＜0.4 表示試題含有異質因素，應對受試者的反應組型予以注意，對試題加以檢討，並做適當的修改；在標準參照測驗或以練習為主的測驗時，因為練習次數及精熟者較多，試題群和學生群均具有相當的同質性，其差異係數值以 D*=0.4 左右為標準值，若 D*＞0.5，表示測驗含有相當多的異質因素在內，應予以注意並加以檢討（游森期，2006；Sato,1985）。. 貳、注意係數（caution index）注意係數有兩種，一種是試題注意係數（Caution Index of Problem，CP），另一種是學生注意係數（Caution Index of Student，CS）。一、試題注意係數是用來判讀試題優劣良窳，試題注意係數判讀標準為（余民寧， 2011；陳新豐，2015）： (一)A 型： 25.