• 沒有找到結果。

試題反應理論架構下之試題分析 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "試題反應理論架構下之試題分析 - 政大學術集成"

Copied!
108
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學應用數學系 數學教學碩士在職專班 碩士學位論文. 治 政 試題反應理論架構下之試題分析 大 立 ‧. ‧ 國. 學. Item Analysis under Item Response Theory. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 碩專班學生:沈秋蕙 指導教授:宋傳欽博士 中華民國 103 年 1 月 8 日.

(2) 謝辭 隨著論文的完成,也代表在政大的生活即將告一段落,首先要感謝我的指導教授 宋傳欽老師無怨無悔的付出,總是拿著咖啡,細心地著墨我的論文中的每一個文句, 每次聽見師母在電話的那一端,叮嚀早點回家,心裡就對老師充滿了無限的感激。 再者感謝我的男朋友蔡東諺,每次當我 matlab 陷入無窮迴圈時,總會協助我查詢 指令,我想這會是我們最美好的回憶。感謝. 蔡延龍老師,當 LaTex 完全不受控制. 時,即便是晚上十二點也願意花時間回我訊息。感謝林澤佑學長花了一下午幫我定好 LaTex 的格式。在政大我擁有一群很棒的同學,大家能夠互相砥礪、彼此打氣,能完. 治 政 大 成這篇論文,要感謝的人真的太多,我想經過淬煉的生命是滿有能力和智慧的,政大 立 將會是我人生中最繽紛的回憶。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 沈秋蕙. 謹于. 國立政治大學應用數學系 中華民國 103 年 1 月.

(3) 目錄. iv. 摘要. 政 治 大. Abstract. 立. 1 緒論. v 1. ‧ 國. 學. 前言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. 研究動機與目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.3. 研究內容及架構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2. n. al. er. io. sit. y. Nat. 2 文獻探討. ‧. 1.1. i n U. v. 3. 2.1. 測驗理論的發展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.2. 古典測驗理論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. engchi. 4. 2.3. 古典測驗理論之試題分析方法 . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.3.1. 難度分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.3.2. 鑑別度分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.3.3. 鑑別度和難度的關係 . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.4. 試題反應理論之特徵曲線的介紹 . . . . . . . . . . . . . . . . . . . . . .. 8. 2.5. 古典測驗理論與試題反應理論之比較 . . . . . . . . . . . . . . . . . . . .. 12. Ch. 3 試題難度與鑑別度之計算方法. 15. i.

(4) 3.1. 古典測驗理論之無母數方法 . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 3.2. 古典測驗理論之母數方法 . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 3.3. 試題反應理論之配適二參數邏輯式模型方法 . . . . . . . . . . . . . . . .. 22. 4 難度與鑑別度之計算 -實例說明. 24. 4.1. 古典測驗理論之無母數方法的計算步驟與結果 . . . . . . . . . . . . . . .. 24. 4.2. 古典測驗理論之母數方法的計算步驟與結果 . . . . . . . . . . . . . . . .. 26. 4.3. 試題反應理論之配適二參數邏輯式模型的計算步驟與結果 . . . . . . . .. 29. 政 治 大 古典測驗理論無母數方法結果的分析 . . . . . . . . . . . . . . . . . . . . 立. 5 三種方法在實例上結果之分析與比較 5.1. 33 33. 古典測驗理論母數方法結果的分析 . . . . . . . . . . . . . . . . . . . . .. 34. 5.3. 試題反應理論之配適二參數邏輯式模型結果的分析 . . . . . . . . . . . .. 34. 5.4. 能力分布常態化後配適二參數邏輯式模型結果的分析 . . . . . . . . . . .. 5.5. 三種方法結果之比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.6. 特殊試題之解析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. y. io. n. 6 總結. 50 52. er. Nat. al. Ch. engchi. i n U. 39. sit. ‧. ‧ 國. 學. 5.2. v. A 附錄一. 54 57. A.1 98 年第一次國中基本學力測驗數學科各題之答對率 . . . . . . . . . . . .. 57. A.2 答對題數之機率生成函數 . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. B 附錄二. 76. B.1 高低分群分界點 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 76. B.2 P (X(i) ≥ 22) 與 P (X(i) ≤ 18) 的機率值 . . . . . . . . . . . . . . . . . . .. 77. B.3 PHi 與 PLi 的機率值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. ii.

(5) C 附錄三. 81. C.1 各能力值答對個別試題之機率 . . . . . . . . . . . . . . . . . . . . . . . . D 附錄四. 81 90. D.1 能力分布常態化後各組的機率值 . . . . . . . . . . . . . . . . . . . . . .. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. iii. i n U. v. 90.

(6) 摘要 本文運用呂金川 (2008)〝機率架構下獨立型試題之統計分析〞一文中的機率生成函 數法,在各能力值 (即學生答對總題數) 下,計算特定試題的答對率,藉以產生配適試. 政 治 大. 題反應理論中二參數邏輯式模型之數據資料,進而求出特定試題之難度與鑑別度值,. 立. 據以評定特定試題之品質。本文所提方法的便利性是,在僅知各試題答對率的資訊下. ‧ 國. 學. 便可進行。. ‧. 我們也以古典測驗理論之無母數方法、母數方法以及本文中所提出試題反應理論之 二參數邏輯式模型配適法,對國立台灣師範大學心理與教育測驗研究發展中心所提供. y. Nat. er. io. sit. 5000 筆 98 年第一次國中基本學力測驗數學科原始反應檔的資料,執行試題難度與鑑 別度之計算,並對試題品質做分析,同時也比較各種方法所獲至結果的異同。. n. al. Ch. engchi. iv. i n U. v.

(7) Abstract The main purpose of this study is to compute the passing rate according to different capability values by using the Probability Generating Function Method presented in ”A. 政 治 大. Statistical Analysis of Independent Items with Probability Structure” by C. C. Leu, 2008.. 立. Therefore, we can find the difficulty index and the discrimination index of test problems. ‧ 國. 學. based on the two-parameter logistic model in order to analyze the test quality. This method is more convenient and easier to use, because only the passing rate is needed. ‧. to proceed. We have randomly selected a sample of size 5000 on binary response data. y. Nat. er. io. sit. from the source file of the first 2009 Basic Competency Test for the junior high school students done by Research Center for Psychological and Educational Testing, National. al. n. v i n and C computed the difficulty h e n g c h i U index and the discrimination. Taiwan Normal University;. index by using the classical non-parametric method, the classical parametric method,. and two-parameter logistic model fitting method. Finally, we analyze the test quality and compare the results of three different methods.. v.

(8) 表格目錄. 7. 表 2.4.3 IRT 之鑑別度的評鑑標準 . . . . . . . . . . . . . . . . . . . . . . . .. 12. 表 4.1.1. 政 治 大 CTT 無母數方法的難度與鑑別度 . . . . . . . . . . . . . . . . . . . 立. 24. 表 4.2.2 CTT 母數方法的難度與鑑別度 . . . . . . . . . . . . . . . . . . . . .. 27. 表 4.3.3 IRT 配適 2PL 模型方法之難度與鑑別度 . . . . . . . . . . . . . . .. 30. ‧. ‧ 國. 學. 表 2.3.1 CTT 之鑑別度的評鑑標準 . . . . . . . . . . . . . . . . . . . . . . .. 表 5.4.1 常態化後各能力值對應的考生人數 . . . . . . . . . . . . . . . . . . .. y. Nat. er. io. sit. 表 5.4.2 能力分布常態化後 2PL 模型之難度與鑑別度 . . . . . . . . . . . . . 表 5.5.3 三種方法判定試題難度比較總表 . . . . . . . . . . . . . . . . . . . .. n. al. Ch. n U engchi. iv. 40 43 51. 表 5.5.4 三種方法判定試題鑑別度比較總表 . . . . . . . . . . . . . . . . . . .. 51. 表 A.1.1. 各題的答對率與答錯率 . . . . . . . . . . . . . . . . . . . . . . . . .. 57. 表 B.2.1. 不含某特定試題答對至少 22 題的機率和答對至多 18 題的機率 . .. 77. 表 B.3.2. PHi 與 PLi 的機率值 . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 表 C.1.1 能力值 1 到 10 答對個別試題的機率 . . . . . . . . . . . . . . . . .. 81. 表 C.1.2 能力值 11 到 20 答對個別試題的機率 . . . . . . . . . . . . . . . . .. 83. 表 C.1.3 能力值 21 到 30 答對個別試題的機率 . . . . . . . . . . . . . . . . .. 85. 表 C.1.4 能力值 31 到 40 答對個別試題的機率 . . . . . . . . . . . . . . . . .. 87. vi.

(9) 表 D.1.1 完整試題下各組的機率值 . . . . . . . . . . . . . . . . . . . . . . .. 90. 表 D.1.2 不含某特定試題第一到第六組各組之機率值 . . . . . . . . . . . . .. 91. 表 D.1.3 不含某特定試題第七到第十二組各組之機率值 . . . . . . . . . . . .. 93. 表 D.1.4 第一組到第十組的機率值 Pi∗ (θ∗ ) . . . . . . . . . . . . . . . . . . .. 95. 表 D.1.5 第十一組和第十二組的機率值 Pi∗ (θ∗ ) . . . . . . . . . . . . . . . . .. 97. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. vii. i n U. v.

(10) 圖目錄. . . . . . . . . . . . . . . . . . . .. 8. 圖 2.2 七個不同的試題特徵曲線例子 . . . . . . . . . . . . . . . . . . . . . .. 10. 圖 5.1. 39. 圖 2.1 難度指標與鑑別度指標之間的關係. 政 治 大 試題特徵曲線圖與相關係數 . . . . . . . . . . . . . . . . . . . . . . . 立. 40. 圖 5.3 常態化後的考生能力分佈圖 . . . . . . . . . . . . . . . . . . . . . . .. 41. ‧. ‧ 國. 學. 圖 5.2 考生能力分佈圖 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 圖 5.4 能力分布常態化後試題特徵曲線圖與相關係數 . . . . . . . . . . . . .. Nat. n. al. er. io. sit. y. 圖 5.5 98 年國中基本學力測驗第 33 題 . . . . . . . . . . . . . . . . . . . . .. Ch. engchi. viii. i n U. v. 50 52.

(11) 第1章. 1.1. 緒論. 前言. 政 治 大. 台灣教育不斷改革,即便在校內表現成績所占的比重逐漸增加,但筆試仍然占很重. 立. 要的一部分,因此如何設計一份良好的試題是相當重要的。試題除了要涵蓋所要測驗. ‧ 國. 學. 的內容外,它的難易度及鑑別度都是值得參考的指標,方能檢視試題是否真能測驗出. ‧. 學生程度,也能了解這段時間的教學效果,使教師能適時提出教學的修正,且能協助 命題者了解命題的盲點。. io. sit. y. Nat 研究動機與目的 a. er. 1.2. n. iv l C n U h e簡稱 古典測驗理論 (classical test theory, (modern test n g CTT) c h i 相對於近代測驗理論. theory, 簡稱 MTT) 中的試題反應理論 (item response theory, 簡稱 IRT),提供了一個 比較簡單的概念與架構,但在樣本資訊利用上明顯較不完全,也有樣本依賴的問題, 因此讓很多人對立論與假設均合理與嚴謹的試題反應理論產生很大的興趣。何美儀 (86) 曾提到如何利用考生能力 (即得分) 與答對率對 IRT 的二參數邏輯式模型進行配 適,以求得難度與鑑別度,其方法如下: 設考生得分共有 c 種情況:D1 , D2 , · · · , Dc 。令 N : 所有考生人數 Ni :試卷總分為 Di 的考生人數 1.

(12) Nij :總分為 Di 的 Ni 名考生中答對第 j 題的人數 Nij 則 Nij ∼ b(Ni , Pij ),其中 Pij 的估計值為 Pˆij = 。利用能力值 Di 和對應的答對機 Ni 率值 Pˆij ,對二參數邏輯式 (two-parameter logistic model, 簡稱 2PL 模型) 進行迴歸配 適,可計算出第 j 題的難度與鑑別度值。但在無法獲得能力為 Di 的 Ni 名考生中答對 第 j 題的人數 Nij 時,i = 1, 2, · · · , c,便不能用這種方法求得難度與鑑別度值,也就是 在沒法取得更細部資料的情況下,前述方法不可行。如何在較少資訊的情況下,例如 僅知各題的答對率,也能算出試題的難度與鑑別度值,藉以評斷試題品質,是本論文 要達到的目標。. 研究內容及架構 立. 學. ‧ 國. 1.3. 政 治 大. 本文架構如下:第一章為緒論,包含前言、研究動機與目的、研究內容及架構,裡. ‧. 面詳述此篇論文的動機以及所要達到目標。第二章為文獻探討,扼要介紹測驗理論中. sit. y. Nat. 的古典測驗理論與試題反應理論兩大派別,並比較其優缺點。第三章為試題難度與鑑. io. er. 別度之計算方法,詳述 CTT 之無母數方法、CTT 之母數方法和 IRT 之配適 2PL 模. al. 型方法在計算難度與鑑別度的過程。第四章為難度與鑑別度之計算 -以實例說明,根據. n. v i n Ch 國立台灣師範大學心理與教育測驗研究發展中心所提供 e n g c h i U 5000 筆九十八年第一次國中基 本學力測驗數學科原始反映檔的資料,使用 Tester for Window 和 matlab 兩種數學軟 體,分別計算出各方法的難度與鑑別度值,並將計算步驟與結果記載於本章。第五章 為三種方法在實例上結果之分析與比較,按照 CCT 和 IRT 評鑑試題難度與鑑別度的 標準,將第四章中三個方法所顯示出難度高與鑑別度低的題目列出,並彙製成表以利 比較,同時針對特殊試題進行深入解析說明。第六章為結論,將本論文所獲得或觀察 到的結果摘要條列出來。. 2.

(13) 第2章. 文獻探討. 本章內容參考余民寧教授 (2012) 中的敘述,2.1 節中簡介測驗理論主要分為 CTT 和 IRT 兩大學派,並簡述其意義。2.2 節為古典測驗理論的主要內涵,並將其特點條. 政 治 大. 列於本節中。2.3 節為古典測驗理論之試題分析方法,介紹難度與鑑別度之計算過程和. 立. 評鑑方法,最後探討兩者的關係。2.4 節為試題反應理論之特徵曲線的介紹,簡述試題. ‧ 國. 學. 反應理論的內涵,且對兩個參數邏輯式模型深入探討,並介紹難度與鑑別度之評鑑方. y. Nat. io. n. al. sit. 測驗理論的發展. er. 2.1. ‧. 法。2.5 節為古典測驗理論與試題反應理論之比較,將兩種理論之優缺點條列於本節。. v. 測驗理論主要目的是在解釋測驗資料與實證關係有系統的理論學說,學者們通常把. Ch. engchi. i n U. 他分成兩大派:一為古典測驗理論,主要是以真實分數模式為骨幹,因他主要目的是 在估計某個測驗實得分數的信度,他企圖估計實得分數與真實分數間的關聯程度;另 外一個學派為當代測驗理論,主要是以試題反應理論為架構,試題反應理論認為學生 在某一試題上的表現情形,與其背後的某種潛在特質之間,具有某種關係存在,該關 係可以透過一條連續性遞增的數學函數來加以表示和詮釋,這兩個學派目前並存於學 術界。. 3.

(14) 2.2. 古典測驗理論. 古典測驗理論的內涵,主要是以真實分數模式,亦即觀察分數等於真實分數與誤差 分數之和,數學公式為 (X=T+E) 為理論架構,其所採用的公式簡單明瞭、淺顯易懂, 適用於大多數的教育與心理測驗資料,以及社會科學資料分析,是目前測驗學界使用 最廣的理論。 1. 古典測驗理論所採用的指標,諸如:難度、鑑別度和信度等,都是一種樣本依賴 的指標,也就是說,這些指標的獲得會因接受測驗的受試者樣本的不同而不同,. 政 治 大. 因此,同一份試卷很難獲得一致的難度、鑑別度或信度。. 立. ‧ 國. 學. 2. 古典測驗理論以一個共同的測量標準誤,作為每位受試者的潛在特質估計值的測 量誤差值;這種作法完全沒有考慮到受試者反應的個別差異,對於具有高、低兩. ‧. 極端潛在特性的受試者而言,這種指標是極為不合理且不精確的,以致古典測驗. io. sit. y. Nat. 理論模式的適當性時常受到懷疑。. n. al. er. 3. 古典測驗理論對於非複本但功能相同的測驗所測得的分數間,無法提供有意義的. Ch. i n U. v. 比較,有意義的比較僅侷限於相同測驗的前後測分數或複本測驗分數之間。. engchi. 4. 古典測驗理論對信度的假設是建立在複本測量的概念假設上,但是這種假設往往 不存在於實際測驗情境裡。道理很簡單,因為不可能要求每位受試者接受同一份 測驗無數次,而仍然假設每次測量間都彼此獨立不相關,況且每一種測驗並不一 定同時都有製作複本,因此複本測量的理論假設是行不通的,從方法學邏輯觀點 而言,它的假設也是不合理的、矛盾的。 5. 古典測驗理論忽視受試者的試題反應組型 (item response pattern),認為原始得分 相同的受試者,其能力必定一樣;其實不然,即使原始得分相同的受試者,其反 應組型亦不見得會完全一致,因此,其能力估計值應該會有所不同。 4.

(15) 2.3. 古典測驗理論之試題分析方法. 本節共分為三部份,2.3.1 為難度分析,簡介難度計算方式和評鑑標準。2.3.2 為鑑 別度分析,簡介鑑別度計算方式和評鑑標準。2.3.3 為鑑別度和難度的關係,探討兩者 之間關係,並繪製關係圖於本節中。. 2.3.1. 難度分析. 難度分析主要在確認每一個試題的難度, 難度分析方法如下:最簡單的方式是先計. 政 治 大. 算全體受試者答對該題人數的百分比,這百分比稱為難度指標通常以 P 來表示,其計. 立. 算的公式為:. ‧ 國. R N. R:答對人數,N:總人數. 學. P =. (2.1). 由公式 (2.1),可以看出 P 值越大,表示答對的人數越多,即表示試題越容易,P 值越. ‧. 小,表示答對人數越少,即表示試題越困難;當試題 P 值越接近 0.5 時,表示該試題. y. Nat. er. io. sit. 難易度適中,答對人數和答錯人數各佔一半,這種答對率指標雖然簡單,但卻無法同 時顯示試題的區別功能;答對率指標相同的試題,會被視為難度相同的試題,但其中. al. n. v i n Ch 是由於高分組答對較多,抑或低分組的學生答對較多呢?卻無法單由答對率指標顯示 engchi U 出來,因此可以以高低分組的試題答對率之平均數來表示難度,不再用單純的答對率 指標來表示難度,公式如下: PiH =. RiH NiH. i = 1, 2, 3...........m. 為第 i 個試題上高分組的答對率. (2.2). PiL =. RiL NiL. i = 1, 2, 3...........m. 為第 i 個試題上低分組的答對率. (2.3). P =. PiH + PiL 2 5. (2.4).

(16) 在其中,高低分組的取決方式是,先從原始得分最高的學生往下數,選取總人數 25% 到 33% 以內的學生數,當成高分組學生,並由原始得分最低的學生往上數,選取 總人數 25% 到 33% 以內的學生數,當成低分組學生,由於所挑選的人數並無法代表全 體受試者,因為缺乏中間人數的資料,所以試題鑑別度指標並無法指出中間人數的測 驗總分是否也能反應出試題所要測量的目標,因此試題鑑別度高低並不能直接被解釋 為試題效度的高低。. 2.3.2. 鑑別度分析. 政 治 大. 鑑別度的主要目的在確定題目是否有區分受試者能力高下的作用,鑑別度指標公式. 立. 學. Di = PiH − PiL. (2.5). i = 1, 2, 3...........m. ‧. ‧ 國. 如下:. 其中,Di 表示第 i 個試題的鑑別度指標,PiH 和 PiL 分別表示高、低分組在第 i 個試. y. Nat. n. al. er. io. sit. 題上的答對率,由上式公式可得 D 值的範圍,介於 -1 與 +1 之間。 1. 當 D 值越大,表示鑑別度越大。. Ch. 2. 當 D = 0,表無鑑別度。. engchi. i n U. v. 3. 當 D ≤ 0 表低分群答對率高於高分群。 在正常情況下,鑑別度值越接近 1 會越好,但不容易達到,因此通常以下表 (Ebel,1991) 的標準來評量鑑別度的評鑑標準。. 6.

(17) 表 2.3.1: CTT 之鑑別度的評鑑標準. 鑑別度值. 鑑別度等級. 0.19 以下. 劣,需大幅修改或刪除. 0.2 至 0.29 尚可,但須部份修改 0.3 至 0.39 優良,但需小幅度修改 0.4 以上. 立. 非常優良. 政 治 大. 低鑑別度試題無法明顯區分高、低能力組學生表現的現象,可能是由於試題本身的. ‧ 國. 學. 問題 (如:題義模糊不清、有暗示答案線索存在,或任何違反試題命題原則的事情發. ‧. 生) 或其他技術性的問題所造成的結果。如果不是上述問題,該試題目的是為了測量重 要的學習目標,則無論鑑別度高低,該題都該留下來,供做後續使用。鑑別度指標很. y. Nat. er. io. sit. 容易受到評量目標比重分配不均的影響,當組成一份試卷的目標種類不同,且在教學 過程中強調的重點不同時,學生精熟程度亦不相同,而產生得分分布不均的現象,因. al. n. v i n Ch 此很容易就產生測量同一目標的試題具有高鑑別度,但測量不同目標的試題,鑑別度 engchi U. 則可能偏低的現象。此外,試題鑑別度指標亦受試題難度的影響很大,當試題極度困 難和極度簡單時,此試題鑑別度都會偏低,就如效標參照測驗的試題一樣,由於命題 範圍狹小,試題命題趨向簡單,且學生精熟度較高,因此,難度指標值偏高,然而鑑別 度指標偏低,但若是該份試題仍能測量到所欲學習的目標,該試題通常會被保留下來。. 2.3.3. 鑑別度和難度的關係. 試題的難度指標與鑑別度之間有密切的關係,若試題偏難時,大多數學生都集中在 低分區域,亦即整個測驗得分的分配曲線呈正偏態分配,因此無法區別能力較低學生. 7.

(18) 立. 政 治 大. 圖 2.1: 難度指標與鑑別度指標之間的關係. ‧ 國. 學. 的作答差異情形,反之,若試題偏簡單時,大多數學生得分都集中在高分區域,整個測. ‧. 驗得分的分配曲線呈現負偏態分配,因此無法區別能力較高學生的作答差異情形。可. sit. y. Nat. 以由圖 2.1中清楚看出,在對應的難度下當鑑別度達到最大值或最小值時,整個圖形是. io. er. 呈現菱形的分布,所以當難度指標趨向兩極時,鑑別度指標值亦趨近於 0;當難度越接. al. 近 0.5 時,鑑別度指標值可能達到最大。然而鑑別度若為負值一般是捨棄不用的,因此. n. v i n C h 0.5 難易適中的試題,將使學生的測驗得分趨 挑選試題時,盡可能挑選難度指標值接近 engchi U 近於常態分配,也唯有在這種常態分配下,測驗才達到區別各種不同能力水準的功用。. 2.4. 試題反應理論之特徵曲線的介紹. 本節主要在介紹試題反應理論的主要內涵和試題特徵曲線的意義,並且針對兩個參 數的邏輯式模型深入探討,且簡介難度與鑑別度之評鑑標準。 試題反應理論建立在兩個基本概念上: 1. 考生在某一測驗試題上的表現情形,可由一組因素來加以預測或解釋,這組因素. 8.

(19) 叫作潛在特質或能力。 2. 考生的表現情形與這組潛在特質間的關係,可透過一條連續性遞增的函數來加以 詮釋,這個函數便叫作試題特徵曲線。 試題特徵曲線是一條得分對應能力因素所做的迴歸線,基本上迴歸線是非直線的,但 也是有可能為直線,要視不同的試題反應模式而決定。 試題特徵曲線所表示的意涵,即是某種潛在特質的程度與其在某一試題上正確反應 機率兩者的關係;這種潛在特質程度越高,在某一試題上正確反應機率便越大。每一. 政 治 大 數來描述試題的特性,以及一個或多個參數來描述考生的潛在特性,因此,所選用的 立 種試題反應模式都有其相對應的一條試題特徵曲線,此一曲線通常包含一個或多個參. ‧ 國. 學. 試題反應模式所具有的參數個數及其數值的不同,所畫出的試題特徵曲線形狀便不同。 常見的曲線形狀,如圖 2.2。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 9. i n U. v.

(20) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2.2: 七個不同的試題特徵曲線例子. 10.

(21) 本文使用的是兩個參數邏輯式模型,故就此模型深入探討,這個模型的數學公式如 下所示:. Pi (θ) =. eai (θ−bi ) 1 + eai (θ−bi ). i = 1, 2, 3...........m. (2.6). Pi (θ) 表示任何一能力為 θ 的考生答對試題 i 或在試題 i 上正確反應機率,bi 表示 難度參數,m 為試題總數,e ≈ 2.718。Pi (θ) 是一種 S 形曲線,其值介於 0 到 1 之間, ai 表示試題鑑別度,他的涵義與古典理論中的鑑別度涵義相同,即是用來描述此試題 所具有鑑別力大小的特性。. 政 治 大. 試題難度參數 b 的位置正好座落在正確反應機率為 0.5 時能力量尺上的點;換言. 立. 之,當能力和試題難度相等時(即 θ − bi = 0) ,考生答對此試題的機會只有百分之五. ‧ 國. 學. 十。當能力小於試題難度時(即 θ − bi < 0 ),考生答對此試題的機會便低於百分之五. ‧. 十;反之,當能力大於試題難度時(即 θ − bi > 0 ) ,考生答對此試題的機會便高於百 分之五十。bi 值愈大,考生若想要有百分之五十答對某試題的機會,則需要有較高的. y. Nat. er. io. sit. 能力才能辦到,亦即該試題是屬於較困難的題目。愈困難的試題,其試題特徵曲線愈 是座落在能力量尺的右方;反之,愈簡單的試題,其試題特徵曲線愈是座落在能力量. n. al. i n Ch 尺的左方。因此,試題難度參數有時又叫作位置參數。 engchi U. v. 理論上 b 值大小可達到正負無限大,但通常只取 ±2 的範圍,b 值越大表示越困難,. b 值越小表示越簡單,相較於古典的 P ,古典的 P 值越大反而表示越簡單,其正好與 常理相反。 試題鑑別度參數 a 的值,剛好與在 b 點的試題特徵曲線斜率呈現某種比例。試題特 徵曲線越陡具有較大的鑑別度,換句話說,其能區別出不同能力水準考生的功能就越 好,亦即分辨的效果就越好。理論上 a 值在 ±∞ 之間,但通常會捨棄負值不用,因為 帶著負值的 a 表示能力愈高的學生答對某試題的機率愈低,這樣似乎與常理相違背, 所以 a 值若為負值通常捨棄不用,然而 a 值也不可能太大,通常 a 值介於 0 到 2 之. 11.

(22) 間,a 值越大代表特徵曲線越陡,試題相對也越有良好的分辨能力;a 值越小代表特 徵曲線越平坦,亦即試題越無法明顯有效分辨考生能力水準,美國的測驗學者 Baker, Frank (2004) 曾提出一套鑑別度的判斷標準,供試題命題者作為選題的參考,如下表。 表 2.4.3: IRT 之鑑別度的評鑑標準. 鑑別度值. 評鑑程度. 0. 無. 非常低 政 治 大 立0.35 至 0.64 低. 高. >1.7. 非常高. 正無限大. 完美. n. al. sit. y. 1.35 至 1.69. er. io. 適中. ‧. Nat. 0.65 至 1.34. 學. ‧ 國. 0.01 0.34. Ch. engchi. i n U. v. 很明顯地,兩個參數邏輯式模型是由一個參數邏輯式模型延伸而來,一個參數邏輯 式模型與兩個參數邏輯式模型都存在猜題因素不存在的假設,兩個參數邏輯式模型適 用於自由反應的試題分析或試題不太困難的單選題測驗分析,對於有良好施測指導語 的能力測驗資料亦可適用。. 2.5. 古典測驗理論與試題反應理論之比較. 本節共分為兩個部份,第一部分為試題反應理論的優點,第二部份為古典測驗理論 的優點,最後簡述古典測驗理論與試題反應理論之比較, 。. 12.

(23) 1. 試題反應理論所採用的試題參數不受樣本影響,也就是參數的獲得,不會因為受 試者樣本的不同而不同。 2. 試題反應理論能夠針對每位受試者,提供個別差異的測量誤差值,而非單一相同 的測量標準誤,因此能夠精確的推估受試者的能力。 3. 試題反應理論可測量估計出受試者個人的能力,不受測驗的影響,並對於不同受 試者間的分數,亦可進行有意義的比較。 4. 試題反應理論提出試題訊息量來作為評定整份試卷的測量準確性,取代了古典測. 政 治 大. 驗理論的「信度」,作為評定試卷內部一致性的指標。. 立. 5. 試題反應理論同時考慮受試者的反應組型與參數等特性,因此估計個人能力時,. ‧ 國. 學. 較能提供精確估計外,對於原始得分相同的受試者也往往給予不同的能力估計. ‧. 值。. sit. y. Nat. 6. 試題反應理論所採用的適合度考驗值,可以提供考驗模式與資料間之適合度、受. n. al. er. io. 試者的反應是否為非尋常等參考指標。. i n U. v. 這樣看來試題反應理論似乎絕對優於古典測驗理論,但事實上古典測驗理論較試題. Ch. engchi. 反應理論應用情形更廣泛,主要有下列幾個特點:. 1. 試題反應理論建立在理論假設嚴謹的數理統計學機率模式上,是一種複雜深奧、 艱澀難懂的測驗理論,這對訓練有限的教育和心理界學者而言,是個很大的挑 戰。 2. 試題反應理論是出身自數學界或是少數數理統計訓練有素者,他們偏愛對理論模 式探討更勝於對實際應用的推廣工作。 3. 過去沒有電腦套裝軟體程式的即時配合,試題反應理論中對模型參數的估計,難 以進行估計。 13.

(24) 4. 有些古典測驗理論的擁護者,對試題反應理論的研究與發展,所能獲致之成效與 應用性深表懷疑。為了證明與解釋疑惑,試題反應理論學派的支持者,便更朝理 論模式的量化技術方面探討,致使試題反應理論的發展愈趨數學化、數量化與電 腦化。 5. 礙於嚴苛的基本假設,試題反應理論所能適用的教育與心理測驗資料有限,並且 需要大樣本的配合,因此使得它的應用性大打折扣,未獲一般測驗使用者的全力 擁護。. 政 治 大 便於在小規模的樣本中實施;試題反應理論雖然嚴謹,但理論艱深難懂,僅適用於大 立. 由上述兩派測驗理論的比較可知,古典測驗理論雖然不夠嚴謹,但理論淺顯易懂,. ‧. ‧ 國. 學. 樣本測驗資料的分析。所以,這兩派測驗理論各有所長,在應用上也各有其限制。. n. er. io. sit. y. Nat. al. Ch. engchi. 14. i n U. v.

(25) 第 3 章 試題難度與鑑別度之計算方法 本章分為三個部份,3.1 節為古典測驗理論之無母數方法,利用古典測驗理論之難 度與鑑別度相關公式進行計算。3.2 節為古典測驗理論之母數方法,利用古典測驗理. 政 治 大. 論,並搭配呂金川 (2008) 提到的機率生成函數法,進行難度與鑑別度的計算。3.3 節. 立. 為試題反應理論之配適二參數邏輯式模型方法,使用試題反應理論,並搭配機率生成. ‧ 國. 學. 函數, 計算出各能力值下的答對率,由此獲得配適二參數邏輯式試題特徵曲線的數據資. y. Nat. io. n. al. sit. 古典測驗理論之無母數方法. er. 3.1. ‧. 料,進而求得試題的難度與鑑別度值。. v. 本節利用文獻中所提及的古典測驗理論之基本概念,詳述 CTT 之無母數方法在難 度與鑑別度的計算方法。. Ch. engchi. i n U. CTT 之無母數方法在 PiH 和 PiL 的計算方式如下:首先先界定高分群和低分群, 由原始得分最高的學生往下數,選取總人數 25% 到 33% 以內的學生數,當成高分組學 生,再由原始得分最低的學生往上數,選取總人數 25% 到 33% 以內的學生數,當成低 分組學生。. PiH =. 高分群中第 i 題答對的人數 高分群中的總人數. 15. (3.1).

(26) PiL =. 低分群中第 i 題答對的人數 低分群中的總人數. (3.2). 將公式 (3.1) 和公式 (3.2) 帶入公式 (3.3) 和公式 (3.4) 計算出難度與鑑別度。. Pi =. Di = PiH − PiL. 3.2. PiH + PiL 2. (3.3). (3.4). i = 1, 2, 3...........m. 治 政 古典測驗理論之母數方法 大 立 ‧ 國. 學. 本節利用文獻中所提及的古典測驗理論之基本概念,並搭配呂金川 (2008) 提到的 機率生成函數法,詳述 CTT 下母數方法之難度與鑑別度的計算方法。. ‧. Nat. sit. y. 古典測驗理論是以總分做為學生的能力值,由於基測試題為選擇題,每一題的分數. n. al. er. io. 都相同,因此可以以答對題數取代試題總分。假設一份試卷共有 m 個試題,每題的配. i n U. v. 分相同且有 h 個選項, 同時有 n 位學生參與考試且每一題都有作答。令. Ch. engchi. Pik 表示在第 i 題中選擇第 k 個選項的機率,k = 1, 2, · · · , h;. i = 1, 2, · · · , m. Sik 表示在第 i 題中選擇第 k 個選項的學生人數,k = 1, 2, · · · , h; Si ≡ (Si1 , Si2 , · · · , Sih ). i = 1, 2, · · · , m. 為了進行研究,對測驗建立以下的機率架構: 1. 題目作答情況是獨立的,即 S1 , S2 , S3 , · · · , Sm 是獨立的。 2. Si 服從多項分配,即 Si ∼ M (n, pi1 , pi2 , · · · , pih ) 令. 16. i = 1, 2 · · · , m. i = 1, 2, · · · , m.

(27)      1 ,當第 i 題答對 Xi =.     0 ,當第 i 題答錯. i = 1, 2, · · · , m. 則 X = X1 + X2 + X3 + · · · + Xm , 即 X 表 示 整 份 考 卷 答 對 的 題 數, 而 X(i) = X1 + X2 + X3 + · · · + Xi−1 + Xi+1 + · · · + Xm 表示不含第 i 題時試卷之答對題數。呂金 川 (2008)「機率架構下獨立型試題之統計分析」文中提到答對題數 X 的機率生成函數 如下:. 政 治 大. F (t) = E(tX ) = E(tX1 +X2 +X3 +···+Xm ). 立. =. m ∏. 學. ‧ 國. = E(tX1 )E(tX2 ) · · · E(tXm ) E(tXi ). i=1. y [pi t + qi ]. i=1. n. a l=. er. io 其中 pi = P (Xi = 1) ,即 pi. [pi t + (1 − pi )]. sit. Nat. =. i=1 m ∏. ‧. =. m ∏. f (0) + f (1)t1 + f (2)t2 + · · · + f (m)tm. v ni. Ch. U i e h n c g 表示第 i 題答對的機率,且 q. i. = 1 − pi 表示第 i 題答錯的. 機率 i = 1, · · · m;而 f (x) 是 X 的機率分配函數,比較展開後的係數如下:. 17. (3.5).

(28)      q1 q2 · · · qm       m p  ∑ i   q q · · · q  1 2 m   i=1 qi      ∑ pi1 pi2   q q · · · q  1 2 m   1≤i1 <i2 ≤m qi1 qi2    .. f (x) = .        ∑ pi1 pi2 · · · pil   q q · · · q  1 2 m   1≤i1 <i2 ···<il ≤m qi1 qi2 · · · qil      ..    .          q1 q2 · · · qm p1 p2 · · · pm q1 q2 · · · qm. x=2 (3.6) x=ℓ. 政 治 大. x=m. y. x=0 x=1. io. n. er. Nat.    q1 q2 · · · qm      qi     m  q1 q2 · · · qm ∑ pj     qi  j=1j̸=i qj      ∑ pi1 pi2 q1 q2 · · · qm      qi 1≤i1 <i2 ≤m qi1 qi2   i1 ,i2 ̸=i    .. f(i) (x) = .        ∑ pi1 pi2 · · · pil q1 q2 · · · qm      qi 1≤i1 <i2 ···<il ≤m qi1 qi2 · · · qil   i1 ,i2 ,i3 ···il ̸=i      ..    .        q1 q2 · · · qm p1 p2 · · · pi−1 pi+1 · · · pm    qi q1 q2 · · · qi−1 qi+1 · · · qm. ‧. ‧ 國. 學. 同理,X(i) 的機率分配函數如下:. al. x=1. sit. 立. x=0. Ch. engchi U. v ni. x=2 (3.7) x=ℓ. x=m-1. 同樣地,CTT 母數方法仍需界定高分群與低分群。先從機率生成函數中,答對 m 題的機率值往下加總到 25% 至 33%,我們就可以找到高分群分界點 rH ;再由答對 1 題的機率值往上加總到 25% 至 33%,我們就可以找到低分群分界點 rL 。為了有別於 CTT 無母數方法中 Pi 和 Di 的表示法,本文以 Pi∗ 和 Di∗ 表示 CTT 母數方法的難度 18.

(29) 與鑑別度。 難度的計算方式為: Pi∗ =. PHi + PLi 2. (3.8). 而鑑別度的計算方式為: Di∗ = PHi − PLi. (3.9). 其中高分群中第 i 題答對的機率為:. 政 治 大. PHi = P (第 i 題答對 | 高分群) P (Xi =1 | X ≥ rH ). ‧. ‧ 國. 學. P (Xi = 1, X ≥ rH ) P (X ≥ rH ) P (Xi = 1, X(i) ≥ rH − 1) = P (X ≥ rH ) P (Xi = 1)P (X(i) ≥ rH − 1) = P (X ≥ rH ) =. n. al. (3.10). er. io. sit. Nat. y. 立=. Ch. 利用 X 的機率生成函數,P (X ≥ rH ) 可表示為:. engchi. P (X ≥ rH ) = (q1 q2 · · · qm ). m ∑. i n U. v. ∑. l=rH 1≤i1 <i2. pi1 pi2 · · · pil q q · · · qil <···<i ≤m i1 i2 l. (3.11) 利用 X(i) 的機率生成函數,P (X(i) ≥ rH − 1) 可表示為:. P (X(i). m−1 ∑ (q1 q2 · · · qm ) ∑ pi1 pi2 · · · pil ≥ rH − 1) = qi qi1 qi2 · · · qil l=r −1 1≤i <i <···<i ≤m H. 1 2 l i1 ,i2 ···il ̸=i. (3.12) 19.

(30) 將公式 (3.11) 和公式 (3.12) 帶入公式 (3.10) 得到:. pi. m−1 ∑. ∑. l=rH −1. 1≤i1 <i2 <···<il ≤m i1 ,i2 ···il ̸=i. P Hi = qi. m ∑. pi1 pi2 · · · pil qi1 qi2 · · · qil. ∑. pi1 pi2 · · · pil l=rH 1≤i1 <i2 <···<il ≤m qi1 qi2 · · · qil (3.13). 此外低分群中第 i 題答對的機率為: PLi = P (第 i 題答對 | 低分群). 政 治 大. = P (Xi =1 | X ≤ rL ). 立=. Nat. io. n. Ch. engchi. er. 利用 X 的機率生成函數,P (X ≤ rL ) 可表示為:. al. (3.14). sit. y. ‧. ‧ 國. 學. P (Xi = 1, X ≤ rL ) P (X ≤ rL ) P (Xi = 1, X(i) ≤ rL − 1) = P (X ≤ rL ) P (Xi = 1)P (X(i) ≤ rL − 1) = P (X ≤ rL ). i n U. v. P (X ≤ rL ) = P (X = 0) + P (1 ≤ X ≤ rL ) = (q1 q2 · · · qm ) + (q1 q2 · · · qm ). rL ∑. ∑. l=1 1≤i1 <i2. = (q1 q2 · · · qm )(1 +. rL ∑. pi1 pi2 · · · pil q q · · · qi l <···<i ≤m i1 i2. ∑. l=1 1≤i1 <i2. pi1 pi2 · · · pil ) q q · · · qil <···<i ≤m i1 i2 l. 利用 X(i) 的機率生成函數,P (X(i) ≤ rL − 1) 可表示為:. 20. l. (3.15).

(31) P (X(i) ≤ rL − 1) = P (X = 0) + P (1 ≤ X ≤ rL − 1) rL −1 ∑ (q1 q2 · · · qm ) (q1 q2 · · · qm ) ∑ pi1 pi2 · · · pil + = qi qi qi1 qi2 · · · qil l=1 1≤i <i <···<i ≤m 1 2 l i1 ,i2 ···il ̸=i. r∑ L −1 ∑ (q1 q2 · · · qm ) pi1 pi2 · · · pil (1 + = ) qi q i1 qi2 · · · qil 1≤i <i <···≤i ≤m l=1. (3.16). 1 2 l i1 ,i2 ···il ̸=i. 將公式 (3.15) 和公式 (3.16) 帶入公式 (3.14) 得到:. pi (1 +. r∑ L −1. ∑. l=1. 1≤i1 <i2 <···<il ≤m i1 ,i2 ···il ̸=i. pi1 pi2 · · · pil ) qi1 qi2 · · · qil. 治 政 = ∑ ∑ p p大 ···p q立 (1 + ) q q ···q. PLi. rL. i. l=1 1≤i1 <i2 <···<il ≤m. i1 i2. il. i1 i2. il. ‧ 國. 學. 將 PHi 和 PLi 代入公式 (3.8),得到難度值 Pi 如下:. (3.17). 難度以機率生成函數展開表示:. 1≤i1 <i2 <···<il ≤m i1 ,i2 ···il ̸=i. ∑. pi1 pi2 · · · pil qi l=rH 1≤i1 <i2 <···<il ≤m qi1 qi2 · · · qil. +. Ch. ∑. l=1. 1≤i1 <i2 <···<il ≤m i1 ,i2 ···il ̸=i. y. r∑ L −1. rL ∑. pi1 pi2 · · · pil ) qi1 qi2 · · · qil. ∑. pi1 pi2 · · · pil qi (1 + ) l=1 1≤i1 <i2 <···<il ≤m qi1 qi2 · · · qil. n. al. pi (1 +. sit. pi1 pi2 · · · pil qi1 qi2 · · · qil. engchi. er. l=rH −1 m ∑. ‧. ∑. io. 1 Pi = [ 2. m−1 ∑. Nat. pi. i n U. ]. v. (3.18). 將 PHi 和 PLi 代入公式 (3.9),得到鑑別度 Di 如下:. pi. m−1 ∑. ∑. l=rH −1. 1≤i1 <i2 <···<il ≤m i1 ,i2 ···il ̸=i. Di = qi. m ∑. ∑. pi1 pi2 · · · pil qi1 qi2 · · · qil. pi1 pi2 · · · pil l=rH 1≤i1 <i2 <···<il ≤m qi1 qi2 · · · qil. pi (1 + −. r∑ L −1. ∑. l=1. 1≤i1 <i2 <···<il ≤m, i1 ,i2 ···il ̸=i. rL ∑. ∑. pi1 pi2 · · · pil ) qi1 qi2 · · · qil. pi1 pi2 · · · pil ) qi (1 + l=1 1≤i1 <i2 <···<il ≤m qi1 qi2 · · · qil. (3.19). 在公式 (3.18) 和公式 (3.19) 中,pi 、qi 是未知參數,因此必須先進行估計方能得到 難度與鑑別度值。我們可用 pi 的最大概似估計 pˆi ,即樣本中答對第 i 題的比例,取代 pi ;而用 qˆi = 1 − pˆi 取代 qi ,i = 1, 2, · · · , m。 21.

(32) 3.3. 試題反應理論之配適二參數邏輯式模型方法. 本節利用文獻中所提及的試題反應理論之基本概念,並搭配呂金川 (2008) 提到的 機率生成函數法,詳述如何配適 2PL 模型以求出難度與鑑別度的方法。首先我們說明 如何產生配適 2PL 模型的資料。本論文中將答對總題數視為考生的能力,故在答對總 題數為 r 時,答對第 i 題的機率為: Pi (r) = P (第 i 題答對 | 共答對 r 題) = P (Xi = 1 | X = r). 政 治 大. P (Xi = 1, X(i) = r − 1) P (X = r) P (Xi = 1)P (X(i) = r − 1) = P (X = r). =. 立. ‧. ‧ 國. 學. (3.20). Nat. y. 而答錯第 i 題的機率為:. er. io. sit. Qi (r) = 1 − Pi (r). n. al. Ch. n U engchi. iv. (3.21). 因此,利用機率生成函數法,我們可獲得考生在各能力值 (即答對總題數) 下,答對個 別試題的機率值。 試題反應理論中兩個參數的邏輯式模型如公式 (2.6) 所示,即 Pi (θ) =. eai (θ−bi ) 1 + eai (θ−bi ). 經整理過後,可推導出: ln. Qi (θ) = −ai (θ − bi ) Pi (θ). 以 di 表示 ai bi ,得: ln. Qi (θ) = −ai θ + di Pi (θ) 22. (3.22).

(33) 接著,將考生在各能力值下答對試題的機率值資料用來配適公式 (3.4) 的直線模型, 可求得 ai 與 di 的最小平方估計值,進而求得第 i 試題的難度與鑑別度值 ai 與 bi 。 由於本文使用答對題數當作考生能力值,其值介於 0 到 34 之間,然而在試題反 應理論中通常假設能力值為 −3 到 3,因此必須將能力值進行線性轉換,轉換方式 6 − 3。同理,難度和鑑別度也必須進行對應的調整,調整後的難度值為 34 34 6 − 3。 a = a ∗ , 鑑別度值為 b = b ∗ 6 34. 為 θ =θ∗. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 23. i n U. v.

(34) 第4章. 難度與鑑別度之計算 -實例說明. 本章以「九十八年第一次國中基本學力測驗」數學科為例,根據國立台灣師範大學 心理與教育測驗研究發展中心隨機抽取 5000 位考生的基測成績原始反應檔數據,將上. 政 治 大. 一節各方法於計算試題難度與鑑別度的操作程序, 利用 matlab 和 Tester for window 兩. 立. 個數學軟體輔助,詳細陳述,並列出各方法之結果。. ‧ 國. 學. 古典測驗理論之無母數方法的計算步驟與結果. ‧. 4.1. sit. y. Nat. CTT 無母數方法之計算方式,是利用數學軟體 Tester for Window 來直接獲得難度. al. n. 此將它省略。. er. io. 與鑑別度,該軟體亦會列出測驗的 s-p 表,但由於 5000 筆資料的 s-p 表過於龐大,因. Ch. engchi. i n U. v. CTT 無母數方法計算出各試題的難度與鑑別度如下:. 表 4.1.1: CTT 無母數方法的難度與鑑別度. 題號. 難度. 鑑別度. 第一題. 0.6328. 0.6720. 第二題. 0.6172. 0.7608. 第三題. 0.6728. 0.6512. 第四題. 0.6192. 0.6048. 24.

(35) 第五題. 0.6772. 0.6328. 第六題. 0.7460. 0.4600. 第七題. 0.6616. 0.6512. 第八題. 0.6276. 0.7096. 第九題. 0.6896. 0.6144. 第十題. 0.5732. 0.8536. 0.6964 0.5496 政 治 大 第十二題 0.6116 0.7032 立. 第十四題. 0.6276. 0.5704. 第十五題. 0.5916. 0.7688. 第十六題. 0.5692. 0.7960. sit. y. 0.6216. er. io. 0.6484. ‧. Nat. 第十三題. 學. ‧ 國. 第十一題. n. a第十七題 0.6248 0.7040 i v l C hengchi Un 第十八題. 0.5788. 0.8136. 第十九題. 0.6140. 0.7160. 第二十題. 0.5976. 0.6400. 第二十一題. 0.6368. 0.6736. 第二十二題. 0.6120. 0.6064. 第二十三題. 0.6108. 0.6536. 第二十四題. 0.5708. 0.7768. 25.

(36) 第二十五題. 0.6048. 0.6832. 第二十六題. 0.5396. 0.6600. 第二十七題. 0.4988. 0.6344. 第二十八題. 0.4452. 0.5288. 第二十九題. 0.4428. 0.5800. 第三十題. 0.5364. 0.5384. 0.5560 0.7472 政 治 大 第三十二題 0.4704 0.5216 立 0.2136. 第三十四題. 0.4900. 0.4472. ‧. 0.3284. sit. y. Nat. n. al. er. 古典測驗理論之母數方法的計算步驟與結果. io. 4.2. 第三十三題. 學. ‧ 國. 第三十一題. i n U. v. 以 matlab 數學電腦軟體為輔助,CTT 母數方法計算難度與鑑別度的步驟如下:. Ch. engchi. 1. 計算每一題的答對機率 p 值和答錯機率 q 值,其結果置於表 A.1.1內。 2. 利用 matlab 將公式 (3.5) 展開,求得機率生成函數 F (t),其結果置於 A.2節內。 3. 求不包含第 i 題的答對題數之機率生成函數 F(i) (t),i = 1, 2, · · · , 34,其結果於 A.2節內。 4. 將機率生成函數 F (t) 的係數,從答對 34 題的機率值往下加總到 25% 至 33% 之 間,找出高分群的分界點 rH ;再由答對 1 題的機率值往上加總到 25% 至 33% 之 間,找出低分群的分界點 rL 。經由 B.1節內的計算結果,得知 rH = 23,rL = 19。. 26.

(37) 5. 不包含第 i 題情況下,計算答對至少 22 題的機率,i = 1, 2, · · · , 34,結果置於表 B.2.1。 6. 不包含第 i 題情況下,計算答對至多 18 題的機率,i = 1, 2, · · · , 34,結果置於表 B.2.1。 7. 將步驟 1 到步驟 6 所得結果利用公式 (3.13), 計算出 PHi ,i = 1, 2, · · · , 34,結果 置於表 B.3.2。 8. 將步驟 1 到步驟 6 所得結果利用公式 (3.17), 計算出 PLi ,i = 1, 2, · · · , 34,結果 置於表 B.3.2。. 立. 政 治 大 PHi + PLi ,i = 1, 2, · · · , 34。 2. 9. 利用步驟 7 和步驟 8 的結果可求得難度 Pi =. ‧ 國. 學. 10. 利用步驟 7 和步驟 8 的結果可求得鑑別度。Di = PHi − PLi ,i = 1, 2, · · · , 34。. ‧. CTT 母數方法所計算出的難度與鑑別度如下:. sit. y. Nat. io. n. a題號 l C h. er. 表 4.2.2: CTT 母數方法的難度與鑑別度. i n U. 難度. 鑑別度. 0.7419. 0.1655. 第二題. 0.7588. 0.1578. 第三題. 0.8013. 0.1365. 第四題. 0.5972. 0.2102. 第五題. 0.7851. 0.1451. 第六題. 0.7874. 0.1438. 第七題. 0.7571. 0.1587. 第一題. engchi. 27. v.

(38) 第八題. 0.6805. 0.1891. 第九題. 0.8003. 0.1371. 第十題. 0.7114. 0.1780. 第十一題. 0.7624. 0.1562. 第十二題. 0.6715. 0.1920. 第十三題. 0.7015. 0.1818. 0.6783 0.1898 政 治 大 第十五題 0.6309 0.2032 立. 第十七題. 0.6536. 0.1973. 第十八題. 0.6044. 0.2089. 第十九題. 0.6587. 0.1958. sit. y. 0.2054. er. io. 0.6212. ‧. Nat. 第十六題. 學. ‧ 國. 第十四題. n. a第二十題 0.5889 0.2116 i v l C hengchi Un 第二十一題. 0.6575. 0.1962. 第二十二題. 0.6427. 0.2002. 第二十三題. 0.5721. 0.2141. 第二十四題. 0.6165. 0.2064. 第二十五題. 0.5749. 0.2137. 第二十六題. 0.5104. 0.2185. 第二十七題. 0.4262. 0.2131. 28.

(39) 第二十八題. 0.4150. 0.2114. 第二十九題. 0.3780. 0.2041. 第三十題. 0.4771. 0.2180. 第三十一題. 0.4994. 0.2186. 第三十二題. 0.4260. 0.2131. 第三十三題. 0.2840. 0.1746. 0.4026 0.2092 政 治 大. 第三十四題. 立. 試題反應理論之配適二參數邏輯式模型的計算步驟與. ‧ 國. ‧. 結果. 學. 4.3. Nat. sit er. io. 步驟如下:. y. 在 IRT 架構下配適 2PL 模型以求難度與鑑別度,利用數學軟體 matlab 輔助執行的. al. n. v i n Ch 1. 計算每一題的答對機率 p 值和答錯機率 其結果置於表 A.1.1內。 e n g cq 值, hi U 2. 將步驟 1 的結果代入公式 (3.5) 中,並將其展開,求出機率生成函數 F (t),其結 果置於 A.2節內。 3. 求不包含第 i 題的答對題數之機率生成函數 F(i) (t),i = 1, 2, · · · , 34,結果置於 A.2節內。 4. 將步驟 1 到步驟 3 所得結果代入公式 (3.20) 求 Pi (r),i = 1, 2, · · · , 34,並將結果 置於表 C.1.1至表 C.1.4中。 5. 將步驟 5 的結果代入公式 (3.21) 求得 Qi (r),i = 1, 2, · · · , 34。 29.

(40) 6. 利 用 步 驟 5 和 步 驟 6 所 得 結 果 配 適 線 性 函 數 (3.22) 求 得 ai 和 bi 的 值, i = 1, 2, · · · , 34。 7. 難度值調整為:bi = bi ∗. 6 − 3,i = 1, 2, · · · , 34。 34. 8. 鑑別度調整為:ai = ai ∗. 34 ,i = 1, 2, · · · , 34。 6. IRT 架構下配適 2PL 模型方法所計算出的難度與鑑別度值,結果如下: 表 4.3.3: IRT 配適 2PL 模型方法之難度與鑑別度. 政 治鑑別度大. 題號 難度. 0.9851. 3. -0.9599. 0.983. 4. 0.1081. 0.9873. 5. -0.8536. 0.9839. y. -0.6943. sit. 2. n. er. io. 0.9857. ‧. Nat. al. -0.5974. 學. ‧ 國. 立1. i n 6C -0.8686 0.9838 hengchi U 7. -0.6841. 0.9852. 8. -0.2779. 0.987. 9. -0.9533. 0.9831. 10. -0.434. 0.9865. 11. -0.7149. 0.985. 12. -0.2344. 0.9871. 13. -0.3829. 0.9867. 30. v.

(41) 14. -0.2674. 0.9871. 15. -0.0434. 0.9874. 16. 0.0009. 0.9874. 17. -0.149. 0.9873. 18. 0.0761. 0.9874. 19. -0.1729. 0.9873. 20. 0.9874. 23. 0.2185. 0.9872. 24. 0.022. 0.9874. 25. 0.2066. 0.9872. a l 26 Ch. 0.4851. 0.9862. n. er. io. 27. sit. y. ‧. -0.0981. Nat. 22. 學. ‧ 國. 立21. 0.1451 0.9873 政 治 大 -0.1674 0.9873. engchi. i n U. 0.8491. 0.9839. 28. 0.8989. 0.9835. 29. 1.0661. 0.982. 30. 0.6279. 0.9855. 31. 0.5321. 0.986. 32. 0.8500. 0.9839. 33. 1.5306. 0.9765. 31. v.

(42) 34. 立. 0.9544. 0.983. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 32. i n U. v.

(43) 第 5 章 三種方法在實例上結果之分析與 比較. 政 治 大. 本章分為六個部份,5.1 節到 5.3 節針對上一章三種方法之結果進行個別的試題分. 立. 析。5.4 節為能力分布常態化後配適二參數邏輯式模型結果之分析。由於本次取得之樣. ‧ 國. 學. 本,考生能力分布圖呈現雙峰的情況,因此本節先將考生能力分佈轉換為常態分配後,. ‧. 再做 2PL 模型之配適,以求得各題之難度與鑑別度值。本節詳細陳述計算之步驟與結 果,並對結果進行分析。5.5 節為三種方法結果之比較,將各種方法判定為偏難或難以. y. Nat. 之結果皆顯示該題為難度最高之題目,進行深入探討。. n. al. 5.1. Ch. engchi. er. io. sit. 及鑑別度低的試題彙整成表以利比較,並針對其中差異詳細說明。5.6 節針對各種方法. i n U. v. 古典測驗理論無母數方法結果的分析. 難度值 P 指的是通過率,表示受試者答對此題的機率,其值介於 0 至 1 之間,值 愈大表示試題愈容易,故難度值以接近 0.5 為最適當,在表 4.1.1中發現大多數的題目 難度值都適中,唯獨第 27、28、29、32、34 題是屬於偏難的題目,而第 33 題是整體 來說難度最高的題目。另一方面,就鑑別度而言,根據 Ebel(1991) 表 2.3.1,可發現第 33 題鑑別度為 0.2136,屬於鑑別度尚可的題目,其他鑑別度都在 0.4 以上,屬於鑑別 度良好的題目。. 33.

(44) 5.2. 古典測驗理論母數方法結果的分析. 由表 4.2.2,發現此份試題大多數的題目難度都在 0.5 和 0.6 左右,難度適中,部分 在 0.7 以上屬簡單題型,而 27、28、29、30、31、32、34 題難度偏高,第 33 題仍是此 份試題中難度最高的題目。在 1 到 3 與 5 到 19 和第 21、22、24 題中,CTT 母數方法 顯示難度低於 CTT 無母數方法,但在第 4、20、23、25 至 34 題中卻較 CTT 無母數 方法高。與上一節結論相比,發現難度高的題目答對率下降,難度低的題目答對率上 升。由於受中段生成績的影響,難度高的題目中段學生答對率偏低,讓母數方法答對. 政 治 大. 率下降,而簡單的題目,中段生答對率偏高,讓母數方法答對率上升。根據 Ebel(1991). 立. 表 2.3.1,發現 CTT 母數方法計算出的鑑別度都在 0.3 以下,鑑別度明顯不足,原因是. ‧ 國. ‧. 5.3. 學. CTT 母數方法考慮到全體做答情形,因此縮短了 PHi 和 PLi 的差距以致鑑別度偏低。. 試題反應理論之配適二參數邏輯式模型結果的分析. sit. y. Nat. io. er. 試題反應理論下,a 值需介於 0 與 2 之間,a 值愈大,代表試題特徵曲線愈陡,試. al. 題愈有良好的分辨能力;a 值愈小,代表試題特徵曲線愈平坦,分辨能力較差。根據. n. v i n Ch Baker Frank(2004) 的鑑別度評鑑標準表,發現表 i U e n g c h4.3.3中大多數的鑑別度都屬於適中的 範圍,只有第 33 題稍微偏低,但仍在適中的範圍內。以難度值來說,b 值的大小介於 正負無限大之間,實際應用上通常只取 ±2 之間,b 值愈大表示試題愈困難,b 值愈小 表示試題愈簡單。因此表 4.3.3中難度為負值的,表示這些題目偏簡單,第 1、2、3、 5、6、7、8、9、10、11、12、13、14、15、17、19、21、22 題屬簡單題,而第 27、28、 30、31、32、34 題為偏難的題目,第 29、33 題為難題。和前述兩種方法一樣,皆將第 33 題列為此份試題難度最高的題目。在計算難度與鑑別度的同時,我們也彙製各試題 的特徵曲線圖,如圖 5.1,和計算資料經轉換後的直線相關係數。由圖可清楚發現沒有 低能力的學生,反而有答對率高的情況,因此排除鑑別度異常的狀況。此外,各題的 34.

(45) 相關係數很高,表示配適狀況非常良好,算出的難度與鑑別度可反應真實情況。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(46) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 36. i n U. v.

(47) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 37. i n U. v.

(48) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 38. i n U. v.

(49) 圖 5.1: 試題特徵曲線圖與相關係數. ‧ sit. y. Nat. n. al. er. 能力分布常態化後配適二參數邏輯式模型結果的分析. io. 5.4. 學. ‧ 國. 立. 政 治 大. Ch. i n U. v. 由國立台灣師範大學心理與教育測驗研究發展中心取得「九十八年第一次國中基. engchi. 本學力測驗」5000 名測驗原始反應檔資料,發現考生能力分佈呈現雙峰的狀態,見圖 5.2,顯示該年度考生能力呈現兩極的反應。. 39.

(50) 圖 5.2: 考生能力分佈圖. 立. 政 治 大. 能力分布呈現兩極的狀況明顯與 IRT 基本假設不合,因此將考生能力值分成 0-5、. ‧ 國. 學. 6-8、9-10、11-13、14-18,19-23、24-26,27-28,29-30、31-32 、33、34 十二組,再分 別將各組中人數加總,人數分佈狀況調整為表 5.4.1。並以各組內能力的中間值當作該. ‧. 組能力值,再畫一次考生能力分佈圖,如圖 5.3,便可將考生能力分佈轉換成較接近常. al. er. io. sit. y. Nat. 態分配。. n. 表 5.4.1: 常態化後各能力值對應的考生人數. Ch. engchi. 能力值. 人數. 3. 93. 7. 367. 9.5. 380. 12. 463. 16. 684. 21. 821. 40. i n U. v.

(51) 立. 25. 621. 27.5. 456. 29.5. 431. 31.5. 374. 33. 191. 34 . 119. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. v i n Ch 圖 5.3: 常態化後的考生能力分佈圖 engchi U. 由於能力值經過分組,答對機率也必須按分組型式調整,例如能力值在區間 r − 1 到 r + 1 範圍內 (即常態化後的能力值為 r) 的答對第 i 題之機率值 Pi∗ (r) 計算方式說明 如下。為避免與能力分佈常態化前的符號混淆,因此皆加上 ∗ 以做區別。 Pi∗ (r) = P (Xi = 1 | X = r − 1, r, r + 1) P (Xi = 1, Xi = r − 1) + P (Xi = 1, Xi = r) + P (Xi = 1, Xi = r + 1) P (X = r − 1) + P (X = r) + P (X = r + 1) P (Xi = 1)P (X(i) = r − 2) + P (Xi = 1)P (X(i) = r − 1) + P (Xi = 1)P (X(i) = r) = P (X = r − 1) + P (X = r) + P (X = r + 1). =. (5.1) 41.

(52) 而 Q∗i (r) = 1 − Pi∗ (r). (5.2). 依照上面說明可算出能力區間 0-5、6-8、9-10、11-13、14-18,19-23、24-26,27-28, 29-30、31-32 、33、34 對應的機率值 Pi∗ (θ∗ ),而能力值 θ∗ 則是用每一組的組中點, 第一組的組中點是 3,最後一組為 34。將獲得的能力值與答對機率值資料配適線 性模型 (5.3) 可求得 a∗i 與 b∗i 的最小平方估計值。將能力值轉換至 -3 到 3 的方式 ∗. 為 θ = θ∗ ∗. 6 111 6 111 31 ∗ − , 而難度與鑑別度轉換方式分別為 b = b∗ ∗ − 和 a∗ = a∗ ∗ 。 31 31 31 31 6. 政 治 大. 立. (5.3). ‧. ‧ 國. Q∗i (θ∗ ) = −a∗i (θ∗ − b∗i ) Pi∗ (θ∗ ). 學. ln. 能力分布常態化後配適 2PL 模型求試題難度與鑑別度,利用數學軟體 matlab 輔助. al. er. io. sit. y. Nat. 執行的步驟如下:. v. n. 1. 將 F (t) 的 係 數 值 按 答 對 0-5、6-8、9-10、11-13、14-18,19-23、24-26,27-28,. Ch. engchi. i n U. 29-30、31-32 、33、34 的分組方式加總,並將結果置於表 D.1.1中。 2. 將 F(i) (t) 的係數值按答對 0-4、5-7、8-9、10-12、13-17,18-22、23-25,26-27, 28-29、30-31 、32、33 的分組方式加總,並將結果置於表 D.1.2到表 D.1.3中。 3. 利用表 A.1.1與步驟 1 到步驟 2 的結果,計算出各能力組對應之 Pi∗ (θ∗ ),並將結 果置於表 D.1.4至表 D.1.5中。 4. 利用步驟 3,計算出 Q∗i (θ∗ )。 5. 利用步驟 3 與步驟 4 求得的結果,和各組能力值,配適線性模型公式 (5.3),可 求得 a∗i 和 b∗i 的值。 42.

(53) 6. 難度值調整為:b∗i = b∗i ∗. 6 111 − 31 31. 7. 鑑別度值調整為:a∗i = a∗i ∗. 31 6. 針對 Pi∗ (θ∗ ) 值的算法,以答對 24-26 題這組 (即第七組) 為例,說明其答對第一題 機率值之計算方式。 1. 先將答對 24-26 題的機率值加總,也就是下方 F (t) 中將 0.0215+0.0424+0.0715 = 0.1355 加總。 F (t) = 0.0000t34 +0.0000t33 +0.0000t32 +0.0000t31 +0.0002t30 +0.0010t29 +0.0033t28 +. 政 治 大. 0.0093t27 + 0.0215t26 + 0.0424t25 + 0.0715t24 + 0.1039t23 + 0.1312t22 + 0.1446t21 +. 立. 0.1397t20 + 0.1188t19 + 0.0889t18 + 0.0588t17 + 0.0343t16 + 0.0177t15 + 0.0080t14 +. ‧ 國. 學. 0.0032t13 + 0.0011t12 + 0.0003t11 + 0.0001t10 + 0.0000t9 + 0.0000t8 + 0.0000t7 + 0.0000t6 + 0.0000t5 + 0.0000t4 + 0.0000t3 + 0.0000t2 + 0.0000t1 + 0.0000. ‧ sit. y. Nat. io. er. 2. 不包含第一題的情況下,將答對 23-25 題的機率值加總,即從附錄一取得不. al. v. n. 包 含 第 一 題 的 答 對 題 數 之 機 率 生 成 函 數, 再 將 答 對 23-25 題 的 機 率 值 加 總. Ch. engchi. 0.0252 + 0.0485 + 0.0796 = 0.1534。. i n U. 3. 由表 A.1.1中,取得第一題答對機率 0.7390。 4. 結 合 上 述 步 驟 之 結 果, 可 算 出 答 對 24-26 題 下, 第 一 題 答 對 的 機 率 值 0.7390 ∗ 0.1534 = 0.8366。 0.1355 下方為能力分布常態化後配適 2PL 模型之難度與鑑別度,結果如下: 表 5.4.2: 能力分布常態化後 2PL 模型之難度與鑑別度. 題號 難度 43. 鑑別度.

(54) 1. -1.2106. 0.8304. 2. -1.3254. 0.8299. 3. -1.64. 0.8283. 4. -0.3745. 0.8321. 5. -1.5142. 0.829. 6. -1.5319. 0.8289. -1.6322. 0.8284. 10. -1.0168. 0.8311. 11. -1.3499. 0.8298. 12. -0.7801. 0.8317. y. 9. sit. io. 0.8316. ‧. Nat. n. al. -0.8318. 學. ‧ 國. 立8. 政-1.3133治0.83 大. er. 7. i n C 13 h -0.9562 0.8313 engchi U 14. -0.8194. 0.8316. 15. -0.5539. 0.832. 16. -0.5015. 0.8321. 17. -0.679. 0.8319. 18. -0.4124. 0.8321. 19. -0.7073. 0.8318. 44. v.

(55) 20. -0.3307. 0.8321. 21. -0.7008. 0.8319. 22. -0.6187. 0.832. 23. -0.2438. 0.832. 24. -0.4765. 0.8321. 25. -0.2579. 0.832. 26. 0.8289. 29. 0.7591. 0.8275. 30. 0.2406. 0.8307. 31. 0.1272. 0.8311. a l 32 Ch. 0.5033. 0.8293. n. er. io. 33 34. sit. y. ‧. 0.5611. Nat. 28. 學. ‧ 國. 立27. 0.0717 0.8313 政 治 大 0.5023 0.8293. engchi. i n U. 1.3105. 0.8221. 0.6269. 0.8285. v. 能力分布常態化後,我們發現試題的難度值和鑑別度值都比常態化前低。由於常態 化後的 Pi∗ (θ∗ ) 值較常態化前的 Pi (r) 值高,也就是各組答對第 i 題的機率會變高,因 此難度相對變低。表 5.4.2中顯示 1 到 26 題以及 30、31 都是簡單題型,第 27、28、 29、32、34 屬於〝偏難〞的題型。特別值得注意的是,能力分布常態化前原本被判定 為〝難題〞的第 29 題,在能力分布常態化後卻被判定為〝偏難〞的題型,新的判定結. 45.

(56) 果與 CTT 無母數方法、母數方法之判定結果吻合。對鑑別度而言,經比較表 4.3.3與表 5.4.2後,發現能力分布常態化後亦是比常態化前略低一些,但根據 Baker Frank(2004) 提出的鑑別度評鑑標準,即表 2.4.3,能力分布常態化後的鑑別度仍然在適中的範圍 內。在圖 5.4中, 我們也可看出能力分布常態化後之特徵曲線的狀況仍屬正常,可再次 排除鑑別度異常的狀況。能力值與轉換後答對率的線性相關係數也很高,表示配適出 的難度與鑑別度值可以反映真實狀況。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 46. i n U. v.

(57) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 47. i n U. v.

(58) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 48. i n U. v.

(59) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 49. i n U. v.

(60) 立. 政 治 大. ‧ 國. 學. 圖 5.4: 能力分布常態化後試題特徵曲線圖與相關係數. ‧ sit. y. Nat. n. al. er. 三種方法結果之比較. io. 5.5. Ch. i n U. v. 最後將三種方法判定為〝偏難〞或〝難〞的題目做一個彙整,如表 5.5.3所示。可以. engchi. 發現 CTT 母數方法與 IRT 配適 2PL 模型方法均判定 30 和 31 題屬偏難的狀況,但 CTT 無母數方法和常態化後配適 2PL 模型方法卻沒有。會有這樣結果的原因是;CTT 母數方法有利用到中段生的分數,在難題的答對率會比 CTT 無母數方法低,難度因而 增加;若將表 C.1.1至表 C.1.4和表 D.1.4至表 D.1.5比較後,可發現,能力分佈常態化 後 2PL 模型配適法在各能力的答對率皆會比常態化前高,因此難度值就會下降。. 50.

(61) 表 5.5.3: 三種方法判定試題難度比較總表. 方法. 偏難題目. 難題. CTT 無母數方法. 27 28 29 32 34. 33. CTT 母數方法. 27 28 29 30 31 32 34. 33. IRT 配適 2PL 模型. 27 28 30 31 32 34. 29 33. IRT 配適 2PL 模型 (能力分布常態化). 27 28 29 32 34. 33. 治 政 表 5.5.4彙整出不同方法下鑑別度偏低的題目。由鑑別度值可看出,只有 CTT 母數 大 立 方法計算出來的鑑別度值全部偏低,其他方法的鑑別度值皆屬於正常的狀況。會造成 ‧ 國. 學. 這樣的原因是,因為 CTT 母數方法參考到中段生的分數,會讓高分群和低分群的答對. ‧. 機率之差異變小,因此鑑別度值會偏低。. Nat. sit 鑑別度偏低的題目. n. al. er. io. 方法. y. 表 5.5.4: 三種方法判定試題鑑別度比較總表. CTT 無母數方法. Ch. engchi. i n U 無. CTT 母數方法. 全部. IRT 配適 2PL 模型. 無. IRT 配適 2PL 模型 (能力分布常態化). 無. 51. v.

(62) 5.6. 特殊試題之解析. 由上面四種結果可知,此份試題中第 33 題難度偏高,因此就第 33 題做一深入探 討: 33. 如圖 (十三),直線 AB、直線 CD 為不平行之二直線,今欲作一圓 O 同時與直線 AB、直線 CD 相切,以下是甲、乙兩人的作法:. 政 治 大. 立. ‧. ‧ 國. 學. 圖 5.5: 98 年國中基本學力測驗第 33 題. er. io. sit. y. Nat (甲)1. 過 D,作一直線 L 與 AB 垂直,且交直線 AB 於 E. n. al. 2. 取 DE 中點 O. Ch. engchi. i n U. v. 3. 以 O 為圓心,OE 長為半徑畫圓,則圓 O 即為所求 (乙)1. 設直線 AB 與直線 CD 2. 作 ∠ BPD 之角平分線 L 3. 過 C,作一直線 M 與直線 CD 垂直,且交直線 L 於 O 4. 以 O 為圓心,OC 長為半徑畫圓,則圓 O 即為所求 對於兩人的作法,下列敘述何者正確? 52.

(63) (A) 兩人皆正確 (B) 兩人皆錯誤 (C) 甲正確,乙錯誤 (D) 甲錯誤,乙正確 本題正確解答為 D,在甲的作法從步驟二和三知道 DE 是直徑,而 OD ⊥ CD 且 OE ⊥ AB,那也代表 DE ⊥ CD 且 DE ⊥ AB, 也因此 CD//AB 與假設矛盾。反觀乙 的作法, 從四個步驟後,過 O 作 AB 之垂線,令其垂足為 F,而 L 為 ∠ BPD 之角平. 治 政 分線,所以 OF = OC, 即 OF 為圓之半徑,得知 AB 大 亦為圓的切線。出題者主要測驗 立. 目標,希望受測驗者知道在平面上若一直線和兩線垂直,則此兩線必平行,也希望受. ‧ 國. 學. 測驗者能知道角分線上一點到此角兩邊的垂線必等長。會造成此題難度偏高原因是,. ‧. 本題在敘述作圖概念時,敘述偏長,讓受測驗者不易找出題目想要測驗的重點,也影. sit. y. Nat. 響低成就考生閱讀的意願,再加上國中階段的學生,本來就對作圖題目感到困難,造. io. n. al. er. 成能力較高的學生答對此題機率亦偏低,才會出現難度偏高的情形。. Ch. engchi. 53. i n U. v.

(64) 第6章. 總結. 綜合前述各章之結果,我們獲致以下結論: 1. 本研究所提出計算試題難度與鑑別度之配適 2PL 模型方法,在理論上只需用到. 治 政 大 各試題的答對率,而不需知道考生在個別試題做答的狀況,在實際應用上是很方 立 便的。. ‧ 國. 學. 2. 透過真實大筆數據驗證後,我們發現,配適 2PL 模型方法與 CTT 無母數方法. ‧. 在評鑑試題品質上幾乎有相同結果;在判定試題難度上,配適 2PL 模型方法與. Nat. sit. y. CTT 母數方法亦幾乎有相同結果,但在判定試題鑑別度上,配適 2PL 模型與. n. al. er. io. CTT 母數方法卻有相當的差異。. Ch. engchi. 54. i n U. v.

(65) 參考文獻 [1] 余民寧. 試題反應理論的介紹 (三)-試題反應模式及其特性. 研習資訊第 9 卷, 第 2 卷:8–9, 1992.. 治 政 大 研習資訊第 9 卷, 第 3 [2] 余民寧. 試題反應理論的介紹 (四)-能力與試題參數的估計. 立 卷:7, 1992.. ‧ 國. 學. [3] 余民寧. 試題反應理論的介紹 (五)-模式與資料間適合度的鑑定. 研習資訊第 9 卷,. ‧. 第 9 卷:8 9, 1992.. y. Nat. n. al. er. io. sit. [4] 余民寧. 試題反應理論的介紹 (六)-能力量尺. 研習資訊第 9 卷, 第 5 期:9–10, 1992.. v. [5] 何美儀. 雙值變數試題之鑑別力探討. Master’s thesis, 國立中興大學, 1997.. Ch. engchi. i n U. [6] 傅怡銅. 試題分析─鑑別度之探討與比較. Master’s thesis, 國立臺北大學, 2003. [7] 呂金川. 機率架構下獨立型試題之統計分析. Master’s thesis, 國立政治大學, 2008. [8] 余民寧. 試題反應理論 (IRT) 及其應用. 心理出版社股份有限公司, 2011. [9] 余民寧. 教育測驗與評量:成就測驗與教學評量. 心理出版社股份有限公司, 2012. [10] Frank Baker. The Basics of Item Response Theory. Heinemann, 2001. [11] R.L. Ebel. The relation of item discrimination to test reliability. Journal of Education Measurement, 4:125–128, 1967. 55.

(66) [12] R.L.&Frisbie Ebel. Essentials of Educational Measurement. Prentice Hall, 1991.. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 56. i n U. v.

(67) 附錄一 附錄一分為兩個部份,A.1 為「98 年第一次國中基本學力測驗」各題的答對率 p 值 及答錯率 q 值。A.2 為完整試題下答對題數之機率生成函數與不包含第 i 題時答對題 數之機率生成函數。. 立. 政 治 大. ‧ 國. 學. A.1 98 年第一次國中基本學力測驗數學科各題之答對率. sit. io. er. Nat. 表 A.1.1: 各題的答對率與答錯率. y. ‧. 表 A.1.1為「98 年第一次國中基本學力測驗」各題的答對率 p 值及答錯率 q 值。. n. a l第 i 題 答對率 答錯率 i v n Ch U i e0.7390 1 n g c h0.2610 2. 0.7564. 0.2436. 3. 0.7998. 0.2002. 4. 0.5904. 0.4096. 5. 0.7832. 0.2168. 6. 0.7856. 0.2144. 7. 0.7546. 0.2454. 57.

(68) 8. 0.6760. 0.3240. 9. 0.7988. 0.2012. 10. 0.7078. 0.2922. 11. 0.7600. 0.2400. 12. 0.6668. 0.3332. 13. 0.6976. 0.3024. 14. 17. 0.6484. 0.3516. 18. 0.5978. 0.4022. 19. 0.6536. 0.3464. 0.5818. 0.4182. n. a l20 Ch 21. sit. y. 0.3850. er. io. 0.6150. ‧. Nat. 16. 學. ‧ 國. 立15. 0.6738 0.3262 政 治 大 0.6250 0.3750. engchi. i n U. 0.6524. 0.3476. 22. 0.6372. 0.3628. 23. 0.5646. 0.4354. 24. 0.6102. 0.3898. 25. 0.5674. 0.4326. 26. 0.5012. 0.4988. 27. 0.4154. 0.5846. 58. v.

(69) 28. 0.4040. 0.5960. 29. 0.3666. 0.6334. 30. 0.4672. 0.5328. 31. 0.4900. 0.5100. 32. 0.4152. 0.5848. 33. 0.2726. 0.7274. 34. 立. ‧ 國. 答對題數之機率生成函數. 學. A.2. 0.3914 0.6086 政 治 大. sit er. io. Columns 1 through 10. y. Nat. F(t)=. ‧. F (t) 為完整試題下答對題數之機率生成函數,以 matlab 計算得到結果如下. al. n. v i n C h 0.0010 0.0033 0.0093 0.0000 0.0000 0.0000 0.0000 0.0002 e n g c h i U 0.0215 0.0424 Columns 11 through 20 0.0715 0.1039 0.1312 0.1446 0.1397 0.1188 0.0889 0.0588 0.0343 0.0177 Columns 21 through 30 0.0080 0.0032 0.0011 0.0003 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 Columns 31 through 35 0.0000 0.0000 0.0000 0.0000 0.0000 其意義表示為 F (t) = 0.0000t34 + 0.0000t33 + 0.0000t32 + 0.0000t31 + 0.0002t30 + 0.0010t29 + 0.0033t28 +. 59.

(70) 0.0093t27 +0.0215t26 +0.0424t25 +0.0715t24 +0.1039t23 +0.1312t22 +0.1446t21 +0.1397t20 + 0.1188t19 +0.0889t18 +0.0588t17 +0.0343t16 +0.0177t15 +0.0080t14 +0.0032t13 +0.0011t12 + 0.0003t11 + 0.0001t10 + 0.0000t9 + 0.0000t8 + 0.0000t7 + 0.0000t6 + 0.0000t5 + 0.0000t4 + 0.0000t3 + 0.0000t2 + 0.0000t1 + 0.0000 F(i) (t) 為不包含第 i 題時答對題數之機率生成函數,其意義表示和 F (t) 相同。 不包含第1題時答對題數之機率生成函數. F(1) = Columns 1 through 10. 立. 政 治 大. 0.0000 0.0000 0.0000 0.0001 0.0003 0.0012 0.0041 0.0111 0.0252 0.0485. ‧ 國. 學. Columns 11 through 20. 0.0796 0.1125 0.1378 0.1470 0.1372 0.1123 0.0807 0.0510 0.0284 0.0139. ‧. Columns 21 through 30. y. Nat. n. al. er. io. Columns 31 through 34. sit. 0.0060 0.0022 0.0007 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000. 0.0000 0.0000 0.0000 0.0000. Ch. engchi. i n U. v. 不包含第2題時答對題數之機率生成函數 F(2) = Columns 1 through 10 0.0000 0.0000 0.0000 0.0001 0.0003 0.0012 0.0040 0.0109 0.0250 0.0481 Columns 11 through 20 0.0791 0.1119 0.1374 0.1469 0.1374 0.1127 0.0813 0.0515 0.0287 0.0141 Columns 21 through 30. 60.

(71) 0.0061 0.0023 0.0008 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 Columns 31 through 34 0.0000 0.0000 0.0000 0.0000. 不包含第3題時答對題數之機率生成函數 F(3) = Columns 1 through 10 0.0000 0.0000 0.0000 0.0000 0.0003 0.0011 0.0039 0.0106 0.0243 0.0470 Columns 11 through 20. 立. 政 治 大. 0.0776 0.1105 0.1364 0.1467 0.1380 0.1139 0.0827 0.0528 0.0297 0.0147. ‧ 國. 學. Columns 21 through 30. 0.0064 0.0024 0.0008 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000. ‧. Columns 31 through 34. y. Nat. n. er. io. al. sit. 0.0000 0.0000 0.0000 0.0000. Ch. 不包含第4題時答對題數之機率生成函數 F(4) = Columns 1 through 10. engchi. i n U. v. 0.0000 0.0000 0.0000 0.0001 0.0003 0.0014 0.0046 0.0125 0.0279 0.0526 Columns 11 through 20 0.0846 0.1173 0.1408 0.1472 0.1346 0.1078 0.0759 0.0469 0.0255 0.0122 Columns 21 through 30 0.0051 0.0019 0.0006 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 Columns 31 through 34 0.0000 0.0000 0.0000 0.0000. 61.

參考文獻

相關文件

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

By using Balanced Scorecard (BSC), the purpose of this study is to construct indicators of school management with Analytic Hierarchy Process (AHP) for L junior high school in

The main purpose of this research is to compare how a traditional narrative teaching method and a GeoGebra-based computer-assisted instructional method affect

The purpose of this paper is to use data mining method in semiconductor production to explore the relation of engineering data and wafer accept test.. In this paper, we use two

The main purpose of this study is to explore the status quo of the food quality and service quality for the quantity foodservice of the high-tech industry in Taiwan;

The main purpose of this research was to explore the learning performance of grade 7 students with different competencies during mathematics problem posing instruction.. According

The main purpose of this study is to explore the work enthusiasm of the Primary School Teachers, the attitude of the enthusiasm and the effect of the enthusiasm.. In this