• 沒有找到結果。

正式試卷之試題分析

第四章 研究結果

第二節 正式試卷之試題分析

第一節 預試試卷之試題分析

針對本研究編製的閱讀測驗進行預試,預試樣本為52人,分析結果如

下:

壹、信度分析

信度(reliability)係指測量工具的穩定性與一致性程度,及所得測得的分 數精確度 (張芳全,2012)。穩定性高的測量工具,是指相同個體在不同時間點 或空間,使用相同測量工具,所得到的測量結果差異不大。一致性是表示不同 個體在相同測量工具所得的結果之相關性。信度係數愈高即表示該測驗結果愈 穩定、一致與精確。

本 研 究 使 用 SPSS 軟 體 進 行 信 度 分 析 , 計 算 內 部 一 致 性 信 度 需 要 使 用 Cronbach’s α係數。它的計算公式如下:

(公式八)

式中, 為測驗題數

為試題 的變異數

Devellis(1991)認為Cronbach’s α值介於0.80 至0.90 之間非常好,介於 0.70 至0.80 之間相當好,介於0.60 至0.65 之間最好不要。本研究預試試卷之

信度分析所測得試題Cronbach’s α值介於0.896至0.900 (附錄1),平均值為0.919,

顯示本工具具有良好的內部一致性信度。

貳、效度分析

效度係指評量工具所欲測量試務特質的範圍,是測驗最重要的條件。使用 自行編製的測驗工具,必須衡量其效度是否符合研究目的。本研究採專家效 度,由五年級資深的在職老師,依據本身的專業知識,對本研究編製的閱讀理 解測驗進行審查,並且提出修改建議。

參、古典測驗理論之難度與鑑別度分析

本測驗使用古典測驗理論(CTT)進行難度和鑑別度分析。難度指標代表試題 的難易程度,數值愈大代表題目愈簡單,相反的,數值愈小代表題目愈難。

Ahmanan與Glock (1981) 指出選擇題試題的難度以0.4到0.7之間為較佳挑選範 圍。Ahmanan與Glock (1981)認為古典測驗理論試題難度若 ≥ 0.80,表示試題難 度為非常容易等級,難度介於0.60至0.80,表示試題為容易,難度介於0.40至 0.60,表示試題難易適中,難度介於0.20至0.40,表示試題困難。五年級閱讀理 解測驗預試試卷平均難度為0.649,試卷整體合乎挑選範圍,難易度為中間偏 易。

鑑別度是指試題能有效區別受試者能力高低。Ebel與Frisbie(1991)提出古 典測驗理論的試題鑑別度區高於0.40屬於非常優良,介於0.30至0.39屬於良好,

介於0.20至0.29屬於尚可,建議可再修改,0.19以下屬於不好的試題,應可刪除 或修改,本測驗平均鑑別度為0.384,整體屬於良好試題。

本研究預試試卷試題共有78題,刪除鑑別度低於0.2的試題後,再依鑑別度 高低排列(附錄2),在四類主向度內選取較高鑑別度的試題,最後共剩下55題試 題。字與詞向度剩12題;句意理解向度剩12 題;文意理解向度剩13題;摘要向 度剩18 題。

以下是刪除題目中的其中兩題:

(2)以前比較有錢

(3)怕被警察誤以為是小偷抓走 (4)比較喜歡貧窮的日子

正確答案:選項 1 表 4-2

推論第10題試題分析

推論第10題 答對率

選項 1 2 3 4

高分組 8 7 0 1 0.5

低分組 8 1 4 1 0.571

本題最主要是測驗受試者對於一段句子的理解,並推論出句子未明白寫出 的內容,希望受試者能推論出「煩惱不知道該如何寶使用金元寶」這一個答 案。根據分析結果,高分組選擇正確選項 1 佔高分組 50%,低分組選擇正確選 項 1 佔低分組 57.1%,此題的鑑別度及難度發現:鑑別度(D)=-0.07,難度

(P)=0.54,本題鑑別度不良的原因乃是高分組答對的人數太少所致,因此無 法有效區分出受試者的能力,故刪除這一道題目。

第二節 正式試卷之試題分析

針對本研究編製的閱讀測驗進行正式施測,施測樣本為491人,分析結

果如下:

壹、信度分析

表4-3為正式施測之信度分析結果,試題的信度介於0.896至0.900,平均值 為0.899,且並未有因題目被刪除,使得Cronbach’s α值有大幅度變動情形產 生。故本研究所編製的測驗屬於一份好的測驗,具有良好信度。

接上頁

接上頁

四-17 36.25 91.428 .369 .897 四-18 36.39 90.738 .365 .897 貳、古典測驗理論之鑑別度和難度分析

表4-4為本測驗採用古典測驗理論之鑑別度和難度分析結果。由Ahmanan 與 Glock (1981)的難度評定等級可知五年級閱讀理解測驗平均難度為0.614,難易度 屬於中間偏易的測驗;鑑別度平均為0.387,Ebel與Frisbie(1991)指出古典測驗

接上頁

接上頁

接上頁

四-13 0.627 0.427 0.241 57.5%

四-14 0.705 -0.353 0.235 66.2%

四-15 1.468 -0.573 0.332 76.8%

四-16 1.444 -0.326 0.270 70.2%

四-17 0.813 -1.257 0.263 78.8%

四-18 0.894 -0.164 0.327 68.7%

平均 0.832 -0.248 0.249 66.1%

五年級閱讀理解測驗在試題反應理論(IRT)的鑑別度參數介於0.325~1.645,

總平均為0.832,由圖4-1可看出只有五題鑑別度參數低於0.5,其餘皆高於0.5,

代表本測驗能有效鑑別出學生的程度。

4-1 五年級閱讀理解測驗之鑑別度分析圖

本測驗的難度參數介於-1.705~2.345,平均難度參數為-0.248。參數小於-1 代表試題偏簡單,共有11題,佔全體試題20%,難度參數介於1與-1之間,代表 試題難度中等,共有40題,佔全體試題73%,難度參數大1則為試題偏困難,共 有4題,佔全體試題7%。本測驗試題難度屬於中間偏易。圖4-2 為本測驗難度分 析圖。

4-2 五年級閱讀理解測驗之難度分析圖

本測驗的題型為選擇題,故採用試題反應理論之三參數對數模式(3PL)進行 猜測度分析。王寶墉(1995)指出猜測度參數的數值通常為 , 為試題的選 項項目,本測驗採用的選擇題為四選一題型,故應小於0.25。本測驗總平均猜測 度參數為0.249,符合標準。試題猜測度分析如圖4-3 所示。

4-3 五年級閱讀理解測驗之猜測度分析圖

綜合上述,五年級閱讀理解測驗平均試題鑑別度為 0.832、試題難度為-0.248、試題猜測度為0.249以及測驗平均通過率為66.1%,顯示本研究編製的閱 讀理解測驗為中等程度偏易,具有良好的鑑別度之測驗。

肆、四類向度分析結果 一、四類向度的比較分析

本研究所編製的五年級閱讀理解測驗分為四類向度,分別為字與詞、句、

文意理解和推論。將正式施測的資料進行分析,根據四類向度算出通過率,從 圖4-4得知,字與詞、句意理解、文意理解和推論的通過率都不同,字與詞的通 過率為67.9%,句的通過率為68.8%,文意理解的通過率為63.2%,推論的通過率 為65.3%。

句意理解的通過率最高,推論的原因是句的題目類型是給予受試者一段話 (二句以內),選出句子所表達的意思,句意理解與受試者日常生活與人對話有 關,和人互動大多需要理解對方表達的語意,和生活經驗相關;而文意理解(摘 要)為整份閱讀理解測驗中通過率最低,與董宜俐(2003)、洪碧珠(2008)和 吳妍箖(2012)的研究結果相符合,推測文意理解通過率最低的原因是因為文意理 解需要使用篩選、統整、歸納、濃縮等多項能力,考驗受試者較高階的語文處 理能力。

圖4- 四個項度通過率

4-4 四個向度通過率

二、四類向度試題的通過率表現情形

(一) 圖4-5代表「字與詞」向度通過率的直方圖及分布曲線。字與詞的平均通過 率為67.9%,分布曲線成負偏態,偏態值為-0.371,圖4-5顯示「字與詞」通過 率大多分布在60%以後,故在「字與詞」試題,高分組人數較低分組人數多。

字與詞 句 文意理解 推論

通過率 圖4-5 字與詞通過率

人 數

(二) 圖4-6代表「句」向度通過率的直方圖及分布曲線。句的平均通過率為 68.9%,分布曲線成負偏態,偏態值為-0.283,圖4-6可知「句」通過率分布在 60%以後佔多數,故在「句」試題,高分組人數較低分組人數多。

通過率 圖 4-6 句的通過率

人 數

(三) 圖4-7代表「文意理解」向度通過率的直方圖及分布曲線。 文意理解的平均 通過率為63.2%,分布曲線成負偏態,偏態值為-0.455,由圖4-7可知「文意理 解」通過率分布在50%以後佔多數,故「文意理解」試題中,高分組人數較低分 組人數多。

通過率

4-7 文意理解的通過率

人 數

(四) 圖4-8代表「推論」向度通過率的直方圖及分布曲線。推論的平均通過率為 65.3%,分布曲線成負偏態,偏態值為-0.404,圖4-8得知「推論」通過率分布在 60%以後佔多數,故「推論」試題中,高分組人數較低分組人數多。

伍、受試者能力參數的估計

能力估計值係指在IRT裡,受試者的能力值必須透過適當模式及受試者的作 答反應組型,才能估計受試者的能力,可用來解釋受試者在一份測驗的表現,

也能用來比較不同受試者的能力(余民寧,2009)。

受試者的能力估計值介於-2.650~2.401,在正常值 -4~+4 範圍。圖4-9為 491位受試者的能力參數值直方圖,並加上常態曲線,圖中受試者的能力分配曲 線呈現負偏態分配,偏態值為-0.331,顯示受試者多數人的得分高於平均數,故 本測驗中,得高分的人數較多。

通過率

4-8 推論的通過率

人 數

受試者能力估計值

能力值

4-9 受試者能力估計值

人 數

第三節 模擬電腦化適性測驗成效評估

本研究主要目的在評估此份測驗在電腦化適性測驗的效果,使用電腦化適 性測 驗 (CAT) 系 統對蒐集到的測驗結果 進行分析,運用期望後驗估計法

(EAP)、最大概似估計法(MLE)和最大後驗估計法(MAP)三種方法模擬 本測驗之估計標準誤SE(standard error of estimation)和均方根誤RMSE (root mean square of error)的變動情形,並針對三種能力估計方法進行比較。

壹、 估計標準誤(standard error of estimation)

估計標準誤(standard error of estimation)與測驗訊息函數的平方根成反 比,IRT能提供每一個能力水準一個估計標準誤,每一個能力水準均能用來決定 測量的精確度(余民寧,2009)。估計標準公式為:

(公式九)

式中, 為估計標準誤 數

由公式中得知,當值的最大概似估計值的估計誤差愈小,值的最大概似 估計值就愈準確,值會根據受試者的能力水準而變化(余民寧,2009)。

4-10 估計標準誤在EAP、MLE和MAP的變化情形

從圖4-10得知,一開始三種能力估計法的估計標準誤都大於1.1,使用EAP 估計法在第6題達到SE小於0.5,MAP在第6題達到SE小於0.5,MLE則是在第16 題達到SE小於0.5。

根據 Babcock 與 Weiss (2012)的研究,當測驗信度設定為0.90,測驗題數 長度為100題時,SE值小於0.315,研究中建議SE值小於0.315為最佳數值。本測 驗的信度為0.899,EAP在第34題達到SE小於0.315,MAP在第35題達到SE小於 0.315,MLE的數值則是都高於0.315,故本測驗使用EAP和MAP能力估計法皆達

根據 Babcock 與 Weiss (2012)的研究,當測驗信度設定為0.90,測驗題數 長度為100題時,SE值小於0.315,研究中建議SE值小於0.315為最佳數值。本測 驗的信度為0.899,EAP在第34題達到SE小於0.315,MAP在第35題達到SE小於 0.315,MLE的數值則是都高於0.315,故本測驗使用EAP和MAP能力估計法皆達

相關文件