正式試卷之試題分析

第四章研究結果

第二節正式試卷之試題分析

第一節預試試卷之試題分析

針對本研究編製的閱讀測驗進行預試，預試樣本為52人，分析結果如

下：

壹、信度分析

信度（reliability）係指測量工具的穩定性與一致性程度，及所得測得的分數精確度 (張芳全，2012)。穩定性高的測量工具，是指相同個體在不同時間點或空間，使用相同測量工具，所得到的測量結果差異不大。一致性是表示不同個體在相同測量工具所得的結果之相關性。信度係數愈高即表示該測驗結果愈穩定、一致與精確。

本研究使用 SPSS 軟體進行信度分析，計算內部一致性信度需要使用 Cronbach’s α係數。它的計算公式如下：

(公式八)

式中，為測驗題數

為試題的變異數

Devellis（1991）認為Cronbach’s α值介於0.80 至0.90 之間非常好，介於 0.70 至0.80 之間相當好，介於0.60 至0.65 之間最好不要。本研究預試試卷之

信度分析所測得試題Cronbach’s α值介於0.896至0.900 (附錄1)，平均值為0.919，

顯示本工具具有良好的內部一致性信度。

貳、效度分析

效度係指評量工具所欲測量試務特質的範圍，是測驗最重要的條件。使用自行編製的測驗工具，必須衡量其效度是否符合研究目的。本研究採專家效度，由五年級資深的在職老師，依據本身的專業知識，對本研究編製的閱讀理解測驗進行審查，並且提出修改建議。

參、古典測驗理論之難度與鑑別度分析

本測驗使用古典測驗理論(CTT)進行難度和鑑別度分析。難度指標代表試題的難易程度，數值愈大代表題目愈簡單，相反的，數值愈小代表題目愈難。

Ahmanan與Glock (1981) 指出選擇題試題的難度以0.4到0.7之間為較佳挑選範圍。Ahmanan與Glock (1981)認為古典測驗理論試題難度若 ≥ 0.80，表示試題難度為非常容易等級，難度介於0.60至0.80，表示試題為容易，難度介於0.40至 0.60，表示試題難易適中，難度介於0.20至0.40，表示試題困難。五年級閱讀理解測驗預試試卷平均難度為0.649，試卷整體合乎挑選範圍，難易度為中間偏易。

鑑別度是指試題能有效區別受試者能力高低。Ebel與Frisbie（1991）提出古典測驗理論的試題鑑別度區高於0.40屬於非常優良，介於0.30至0.39屬於良好，

介於0.20至0.29屬於尚可，建議可再修改，0.19以下屬於不好的試題，應可刪除或修改，本測驗平均鑑別度為0.384，整體屬於良好試題。

本研究預試試卷試題共有78題，刪除鑑別度低於0.2的試題後，再依鑑別度高低排列(附錄2)，在四類主向度內選取較高鑑別度的試題，最後共剩下55題試題。字與詞向度剩12題；句意理解向度剩12 題；文意理解向度剩13題；摘要向度剩18 題。

以下是刪除題目中的其中兩題：

(2)以前比較有錢

(3)怕被警察誤以為是小偷抓走 (4)比較喜歡貧窮的日子

正確答案：選項 1 表 4-2

推論第10題試題分析

推論第10題答對率

選項 1 2 3 4

高分組 8 7 0 1 0.5

低分組 8 1 4 1 0.571

本題最主要是測驗受試者對於一段句子的理解，並推論出句子未明白寫出的內容，希望受試者能推論出「煩惱不知道該如何寶使用金元寶」這一個答案。根據分析結果，高分組選擇正確選項 1 佔高分組 50%，低分組選擇正確選項 1 佔低分組 57.1%，此題的鑑別度及難度發現：鑑別度（D）＝-0.07，難度

（P）＝0.54，本題鑑別度不良的原因乃是高分組答對的人數太少所致，因此無法有效區分出受試者的能力，故刪除這一道題目。

第二節正式試卷之試題分析

針對本研究編製的閱讀測驗進行正式施測，施測樣本為491人，分析結

果如下：

壹、信度分析

表4-3為正式施測之信度分析結果，試題的信度介於0.896至0.900，平均值為0.899，且並未有因題目被刪除，使得Cronbach’s α值有大幅度變動情形產生。故本研究所編製的測驗屬於一份好的測驗，具有良好信度。

接上頁

四-17 36.25 91.428 .369 .897 四-18 36.39 90.738 .365 .897 貳、古典測驗理論之鑑別度和難度分析

表4-4為本測驗採用古典測驗理論之鑑別度和難度分析結果。由Ahmanan 與 Glock (1981)的難度評定等級可知五年級閱讀理解測驗平均難度為0.614，難易度屬於中間偏易的測驗；鑑別度平均為0.387，Ebel與Frisbie（1991）指出古典測驗

接上頁

四-13 0.627 0.427 0.241 57.5%

四-14 0.705 -0.353 0.235 66.2%

四-15 1.468 -0.573 0.332 76.8%

四-16 1.444 -0.326 0.270 70.2%

四-17 0.813 -1.257 0.263 78.8%

四-18 0.894 -0.164 0.327 68.7%

平均 0.832 -0.248 0.249 66.1%

五年級閱讀理解測驗在試題反應理論(IRT)的鑑別度參數介於0.325~1.645，

總平均為0.832，由圖4-1可看出只有五題鑑別度參數低於0.5，其餘皆高於0.5，

代表本測驗能有效鑑別出學生的程度。

圖4-1 五年級閱讀理解測驗之鑑別度分析圖

本測驗的難度參數介於-1.705～2.345，平均難度參數為-0.248。參數小於-1 代表試題偏簡單，共有11題，佔全體試題20%，難度參數介於1與-1之間，代表試題難度中等，共有40題，佔全體試題73%，難度參數大1則為試題偏困難，共有4題，佔全體試題7%。本測驗試題難度屬於中間偏易。圖4-2 為本測驗難度分析圖。

圖4-2 五年級閱讀理解測驗之難度分析圖

本測驗的題型為選擇題，故採用試題反應理論之三參數對數模式(3PL)進行猜測度分析。王寶墉(1995)指出猜測度參數的數值通常為 , 為試題的選項項目，本測驗採用的選擇題為四選一題型，故應小於0.25。本測驗總平均猜測度參數為0.249，符合標準。試題猜測度分析如圖4-3 所示。

圖4-3 五年級閱讀理解測驗之猜測度分析圖

綜合上述，五年級閱讀理解測驗平均試題鑑別度為 0.832、試題難度為-0.248、試題猜測度為0.249以及測驗平均通過率為66.1%，顯示本研究編製的閱讀理解測驗為中等程度偏易，具有良好的鑑別度之測驗。

肆、四類向度分析結果一、四類向度的比較分析

本研究所編製的五年級閱讀理解測驗分為四類向度，分別為字與詞、句、

文意理解和推論。將正式施測的資料進行分析，根據四類向度算出通過率，從圖4-4得知，字與詞、句意理解、文意理解和推論的通過率都不同，字與詞的通過率為67.9%，句的通過率為68.8%，文意理解的通過率為63.2%，推論的通過率為65.3%。

句意理解的通過率最高，推論的原因是句的題目類型是給予受試者一段話 (二句以內)，選出句子所表達的意思，句意理解與受試者日常生活與人對話有關，和人互動大多需要理解對方表達的語意，和生活經驗相關；而文意理解(摘要)為整份閱讀理解測驗中通過率最低，與董宜俐（2003）、洪碧珠（2008）和吳妍箖(2012)的研究結果相符合，推測文意理解通過率最低的原因是因為文意理解需要使用篩選、統整、歸納、濃縮等多項能力，考驗受試者較高階的語文處理能力。

圖4- 四個項度通過率

圖4-4 四個向度通過率

二、四類向度試題的通過率表現情形

(一) 圖4-5代表「字與詞」向度通過率的直方圖及分布曲線。字與詞的平均通過率為67.9%，分布曲線成負偏態，偏態值為-0.371，圖4-5顯示「字與詞」通過率大多分布在60%以後，故在「字與詞」試題，高分組人數較低分組人數多。

字與詞句文意理解推論

通過率圖4-5 字與詞通過率

人數

(二) 圖4-6代表「句」向度通過率的直方圖及分布曲線。句的平均通過率為 68.9%，分布曲線成負偏態，偏態值為-0.283，圖4-6可知「句」通過率分布在 60%以後佔多數，故在「句」試題，高分組人數較低分組人數多。

人

數

通過率圖 4-6 句的通過率

人數

(三) 圖4-7代表「文意理解」向度通過率的直方圖及分布曲線。文意理解的平均通過率為63.2%，分布曲線成負偏態，偏態值為-0.455，由圖4-7可知「文意理解」通過率分布在50%以後佔多數，故「文意理解」試題中，高分組人數較低分組人數多。

通過率

圖4-7 文意理解的通過率

人數

(四) 圖4-8代表「推論」向度通過率的直方圖及分布曲線。推論的平均通過率為 65.3%，分布曲線成負偏態，偏態值為-0.404，圖4-8得知「推論」通過率分布在 60%以後佔多數，故「推論」試題中，高分組人數較低分組人數多。

伍、受試者能力參數的估計

能力估計值係指在IRT裡，受試者的能力值必須透過適當模式及受試者的作答反應組型，才能估計受試者的能力，可用來解釋受試者在一份測驗的表現，

也能用來比較不同受試者的能力(余民寧，2009)。

受試者的能力估計值介於-2.650～2.401，在正常值 -4～+4 範圍。圖4-9為 491位受試者的能力參數值直方圖，並加上常態曲線，圖中受試者的能力分配曲線呈現負偏態分配，偏態值為-0.331，顯示受試者多數人的得分高於平均數，故本測驗中，得高分的人數較多。

通過率

圖 4-8 推論的通過率

人數

受試者能力估計值

能力值

圖4-9 受試者能力估計值

人數

第三節模擬電腦化適性測驗成效評估

本研究主要目的在評估此份測驗在電腦化適性測驗的效果，使用電腦化適性測驗（CAT）系統對蒐集到的測驗結果進行分析，運用期望後驗估計法

（EAP）、最大概似估計法（MLE）和最大後驗估計法（MAP）三種方法模擬本測驗之估計標準誤SE（standard error of estimation）和均方根誤RMSE (root mean square of error)的變動情形，並針對三種能力估計方法進行比較。

壹、估計標準誤（standard error of estimation）

估計標準誤（standard error of estimation）與測驗訊息函數的平方根成反比，IRT能提供每一個能力水準一個估計標準誤，每一個能力水準均能用來決定測量的精確度(余民寧，2009)。估計標準公式為：

(公式九)

式中，為估計標準誤數

由公式中得知，當值的最大概似估計值的估計誤差愈小，值的最大概似估計值就愈準確，值會根據受試者的能力水準而變化(余民寧，2009)。

圖4-10 估計標準誤在EAP、MLE和MAP的變化情形

從圖4-10得知，一開始三種能力估計法的估計標準誤都大於1.1，使用EAP 估計法在第6題達到SE小於0.5，MAP在第6題達到SE小於0.5，MLE則是在第16 題達到SE小於0.5。

根據 Babcock 與 Weiss (2012)的研究，當測驗信度設定為0.90，測驗題數長度為100題時，SE值小於0.315，研究中建議SE值小於0.315為最佳數值。本測驗的信度為0.899，EAP在第34題達到SE小於0.315，MAP在第35題達到SE小於 0.315，MLE的數值則是都高於0.315，故本測驗使用EAP和MAP能力估計法皆達

在文檔中國小五年級電腦化適性閱讀理解測驗編製 (頁 60-0)

第四章 研究結果

第二節 正式試卷之試題分析

第四章研究結果

第二節正式試卷之試題分析