第二章 文獻探討
第二節 試題難易度、鑑別度分析觀念
壹、 試題分析理論
在整份測驗的編製過程裡,試題分析扮演相當重要角色,試題分析是評鑑試 題品質是否優良的方式,而試題分析的目的在於了解試題對於應考人的能力能否 有效區分,也能讓應考的考生能有客觀的試題特徵得以參考。個別的試題分析質 的分析與量的分析皆為個別試題分析法,針對試題的內容和形式從編製試題的技 術和取材的適切性加以評鑑為質的分析,試題須符合課程的內容不可有離題過多 的情形,試題的內容審查以及有效命題原則與教學目標等評鑑工作來進行試題在 質的方面的分析。
林芳瑜(2006)指出為了幫助命題者進一步了解試題的品質選擇以統計特徵
(statisticalcharacteristics)進行量化分析(quantitative analysis)做為修改和選擇 試題的依據,量的分析是依試題難易度(difficulty)、鑑別度(discrimination)以 及與受試者對各選項的反應情形為分析的依據。難易度顯示試題的簡單或困難的 程度,也稱為通過率亦或是答對率(由於通過率即代表試題難易度指標因此以下 統一以通過率代表之)。通過率為該題試題答對人數佔總人數之百分比,試題中 答對的人數越多試題相對就越容易,則通過率會越高,反之試題中答對的人數越 少代表試題困難度高,則通過率就越低。一般而言試題的難易度適中較符合出題 的方向,但實質上的執行卻有一定的困難度,因此選題的難易度值之標準會以 0.4 至 0.8 為範圍,作為挑選選擇題的基準,難易度分為五個等級,此五等級為 難易度指數小於 0.2 為極困難;難易度指數大於等於 0.2 小於 0.4 為困難;難易
度指數大於等於 0.4 小於 0.6 為難易適中;難易度指數大於等於 0.6 小於 0.8 為容 易、難易度指數大於等於 0.8 為極容易;試題可依這五個等級作為鑑別出是否有 區分學生能力高低的效果,而難易度適中之題目其鑑別度為最高,區分應試者的 能力作用最優良,而難易度極困難或是極容易之題型無法有效的鑑別應試者能 力。試題的難易度指標和鑑別度指標兩者之間在統計學的觀點中有密切的關係,
兩者之間的關係呈菱形狀分佈,鑑別度值趨近於 0 時難易度值趨向兩個極端即為 難度指標(P)等於 0.00 或難度指標(P)等於 1.00,鑑別度達到最大時難度值越接近 0.50,試題品質若要維持一定的水準之上在選擇試題時其難度值(P)盡量以 0.50 為擇題首要考量(林芳瑜,2006)。
圖 2
難度指標與鑑別度指標的關係
資料來源:余民寧(2002),頁 233
貳、 難易度分析
要如何去鑑別題目的好壞就像是判別一個人是否為好人一樣,這是一個沒有 標準答案而且困難的工作,因此試題的區辨方式可用各種量化的指標來檢驗項目 的適切性,也要從研究者的需求以及理論的層次來做評估,而項目難度主要適用 於教育測驗以及能力測驗的項目評估,指測驗的試題對於受試者能力水準的反應 能力,以測驗的題目來判定能力的強弱,計分方式通常為正確或是不正確兩種答 案(邱皓政,2010),難度是指試題簡單或是困難的一種指數,以 P 來表示答對試
分比值,此法稱為答對百分比法,其計算公式為
100%
R
,其中 R 為答對人 數、N 為總人數,得到的百分比值 P 為難度指標,亦是有多少人答對此試題,P 值會介於 0~1 之間,P 的數值越大表示答對的人數多則試題越簡單,P 的數值越 小則表示答對的人數少則試題越困難,最佳的試題的 P 值最接近 0.50 時,表示 有一半的受試者能正確的回答該題,也有一半的受試者無法正確回答該題,答對 和答錯的人數相當,試題的難易度適中,一份測驗的好壞與難度相關,優良的試 題必須難度適當,不可過於簡單亦不可過於困難,否則試題則無成效可言,而試 題的難度與測驗的效率有關(余民寧,2002)。
邱皓政(2010)指出如果一個題目難度太低,使每一個人都可以通過或是題目 難度太高使每一個人都無法通過,那麼這些測驗題目就失去了偵測受試者能力水 準的功用了。人格與態度測量之受測者的個別差異多半以多點尺度來作評量,此 時題目的平均數最適合作為難度指標,若平均數過高或過低時全體的受試者都回 答相同或類似的答案,代表測驗題目不夠客觀過於偏激或冷澀。個別題目的通過 率或平均數高低,是由個別的題目難度決定,整個測驗得分的落點是由一組題目 的整體平均難度所決定,若某一題的測驗難度都偏高 P 為 0.20,那麼全體的受試 者所測得的分數就會偏低,那分數度分佈會呈現正偏態,反之分數的分佈若呈負 偏態,則是測驗難度偏低 P 為 0.80,因此所有的受試者的分數都偏高,全體的受 試者分數居中時分配呈現常態,此時平均難度接近 0.50,為了利於區辨所有的受 試者,因此一般情形下希望的測驗難度為適中最佳,最能得到受試者最大的個別 差異(邱皓政,2010;余民寧,2002)。
表 2
試題難易度等級評定表
難度值 難度等級 備註
P<0.2 極困難 鑑別度低
0.2≦P<0.4 困難
0.4≦P<0.6 難易適中 鑑別度高
0.6≦P<0.8 容易
P≧0.8 極容易 鑑別度低
引自(林庭立,2011,44 頁)
圖 3
不同難度測驗得分的分佈情形
P=0.20 正偏態 P=0.50 常態 P=0.80 負偏態 資料來源:邱皓政(2010),頁 14-3
參、 鑑別度分析
分析鑑別度的主要目的在於想要了解試題對學生能力高低的區辨效果之功 能為何(余民寧,2002),項目鑑別度的概念為測驗題目的特性除了反應在難度的 差異外,更重要的是測驗項目是否能夠有效且精確的偵測出心理特質。一般除了 用鑑別度指數也經常使用相關係數法來反應項目鑑別度,而項目鑑別度又反應出 測驗題目能夠正確測得受測特質內容的程度,項目鑑別度分為認知能力測驗鑑別 度和非認知測驗鑑別度兩種,而認知能力測驗鑑別度在能力測驗中題目得分多分 為二變項,可以將受測者分為兩個極端組,計算這兩組通過人數的百分比,也就 是答對者的人數百分比,以高分組的 PH 和低分組的 PL 來表示這兩個極端,而 將這兩個百分比相減之後可以得到一個差異值 D,D 值是介於 100 到-100 的一個 數值,用來反應一個題目之鑑別力,對於某一題 D=100 代表高分組的受試者全 部都答對此題,此時高分組的 P=1.00,而低分組的受試者全答錯此題,此時低 分組的 P=0.00,當 D=-100 時代表高分組全答錯此題,低分組則全部答對此題,
高分組的 P=0.00 低分組的 P=1.00,當 D=0 時代表 P=0.50,受測者中有一半的高 分組答對,也有一半的低分組答對,題目的 D 值若為負值且低分組的表現較高 分組好,表示該題為反向計分的題目,對個別的題目來說,D 值越高鑑別度也越 高,在量表中每一個題目的鑑別度都很高,因此對於整個量表來說,最理想的測 驗整體信度為全體的 D 值平均數越高(邱皓政,2010)。
若某項試題的鑑別度指標很高,則表示高分組答對的人多,低分組答對的人 少,這道試題能夠清楚的分辨答對和答錯的學生,表示辨別功能很強,反之鑑別 度低的題目則是該試題過於簡單或過於困難使學生全部答對或全部答錯,編製測 驗時都會希望試題是有用的試題,可以區辨出學生的能力,使學生在沒有猜題和 同樣的情境下做測驗,讓有能力並且會回答的學生答對,讓沒有能力且不會的學 生答錯,使試題有試題的鑑別度,試題對於不同能力之學生的區辨功能越強鑑別 指標值就越高,而試題區辨不同能力的學生功能越弱則鑑別指標值越低,因此鑑 別指標值應要較高才是好的試題。當項目難度為中等即 P=0.50 時可獲得最大的 D 值即 D=100,此時高分組全部通過而低分組全部失敗,D 值的大小會隨者項目 難度的高低有關,若難度提高或降低,D 值也會隨之降低。在非認知測驗中通常 運用多點量尺來對每一題進行計分,所得到的是不同程度的權數,項目的鑑別度 是由求取受測者得每一題得分與效標變項的得分兩者的共變情形,也就是相關係 數,而相關係數越高則代表受測者該題的得分高,效標得分也高,然而在測驗的 得分越低效標得分也低,當呈現負相關或是相關很低時,表示測驗的得分高低和 效標的得分高低沒有一致性,因此表示該題無鑑別度。
表 3
鑑別力的評鑑標準表
鑑別度指數 試題評鑑
0.40 以上 非常優良
0.30~0.39 佳,但可能需修正
0.20~0.29 尚可,但通常需修正
0.19 以下 劣,需淘汰或修正
引自(林芳瑜,2006,172 頁)