研究流程與步驟

第三章研究方法

第一節研究流程與步驟

圖 3-1 研究流程圖

本研究主題的研究設計如圖 3-1 所示，並敘述如下：

1. 確認研究主題：

在國小擔任中高年級的英語專任教師至今快十年，發現國小英語教室中的雙峰現象愈趨嚴重，其中又以國小六年級學童最嚴重。測驗既是一種評量的工具，更是一種發掘問題的工具。期望可以設計一份真正可以評量國小六年級學生英語能力的電腦化測驗來發掘雙峰問題的原因，進而解決之。

電腦化測驗

結論與建議確認研究主題

文獻探討

編製測驗試題

預試與題目修正

正式施測

收集學生作答反應

試題分析

結果與成效分析

(1) your watching (2) watching (3) watch

選項 A B C 無作答

高分組 100 113 14 0

低分組 78 93 23 0

D 大題 5-1-5 能看懂日常生活應對中常用語

句（如問候、致謝、道歉、道別等），並能作適當的回應。

C 大題 (2,4,7,8)

★

參、題型介紹

本研究中的測驗題目皆是 3 選 1 的選擇題，最適合於國小六年級學童在進行電腦化測驗中使用，進而以學生作答反應精準分析出受試者的能力範圍。

選擇題（multiple choice items）是由兩個部分組成 – 題幹(stem)和選項 (option)，其命題的優點如下（郭生玉，1985）：

1. 選擇題的題意比是非題或填充題清楚明確。

2. 選擇題的信度比是非題高，因為受猜測因素影響較少。

3. 選擇題計分方式迅速而且準確。

4. 選擇題的試題難度可以藉由調整選項的同質性而受到控制。

5. 降低學生作答時的焦慮。

研究者將本研究中試題選項設定在三個的原因是依據教育部九年一貫課程綱要中規範的國小學童在國小畢業時必須掌握的字彙、文法、會話等標準設計。換句話說，國小學童在單字、基礎會話、文法句型等的基礎是非常有限的。

第三節研究對象

本研究的施測對象為臺中、彰化地區的國小六年級學童，共計 690 位，

其中 100 是預試對象，已於 102 年 6 月畢業；其餘 590 位為正式施測的對象。

在所有受試者中男生與女生的比例是 6:4。

第四節研究工具

本研究中所用到的研究工具如下：

1. SPSS 統計分析軟體 2. BILOG-MG 軟體 3. MATLAB 應用軟體

4. 自編國小英語閱讀測驗試題 5. 電腦化測驗系統

研究中所用的各種工具將會在此節逐一說明。

壹、 SPSS 統計分析軟體

Statistical Package for Social Science，簡稱SPSS是一個在統計方面廣泛使用的分析軟體，是一個設計簡單亦操作的軟體，可以同時迅速分析幾十筆到上萬筆資料，並且在分析的同時搭配統計圖表使數據更淺顯易懂。因此以 SPSS18.0統計分析軟體進行本研究中編制的英語閱讀測驗的信度分析。

貳、 BILOG-MG軟體

BILOG-MG軟體是以IRT的三參數為依據設計的一套專門用於分析不同測驗參數的統計分析軟體。本研究則以BILOG-MG試題分析軟體透過學生的作答反應估計出測驗試題的參數值，包括難度、鑑別度、猜測度及受試者的能力值。

參、 MATLAB 軟體

本研究以MATLAB軟體撰寫三種能力估計方法，即：

1. Maximum Likelihood Estimate (最大近似值估計法 – MLE) 2. Expected a Posteriori (貝氏期望後驗法 – EAP)

3. Maximum a Posteriori （最大後驗法 – MAP）等三種能力估計方法。

A 大題：

B 大題：

C 大題：

D 大題：

伍、電腦化測驗系統

每一位被施測的受試者在進入系統進行測驗前都會給予個別個人帳號、

密碼以登入系統，以確認身份才能施測。本研究試題編製完成後，採用臺中教育大學測驗統計所郭伯臣教授所領導的團隊所發展的英文電腦化測驗並進行正式施測，其系統介面如下：

圖 3-2 國小英語閱讀電腦化測驗系統介面

圖 3-3 正式施測的測驗系統介面

圖 3-4 正式施測時選擇測驗類別的介面

圖 3-5 測驗作答畫面（一）

圖 3-6 測驗作答畫面（二）

其中最被學術界廣泛應用的是Cronbach提出的Cronbach’s α係數(Cronbach, 1951)。這種信度計算方法的核心主旨是測驗中每個試題必須與研究主題相

以此信度公式所得到Cronbach’s α 係數的解釋為：

(1) Cronbach’s α＞0.75，表示信度良好。

(2) 0.35<Cronbach’s α<0.75，表示信度尚可。

(3) Cronbach’s α<0.35，表示信度低劣。

本研究中的整份測驗共計 40 題的選擇題，以公式計算得到信度

Cronbach’s alpha 值是 0.835~0.846，平均值是 0.843＞0.75，顯示信度良好，

試題與試題間有高度的內部一致性。 Cronbach's Alpha

值

效度可分為三種：內容效度（content validity）、效標關聯效度(criterion-related validity)、建構效度(construct validity)。本研究所使用的是內容效度。內容效

度是以研究者或某研究團隊的專業知識來評量測驗內容是否能準確評量所預測驗的內容，所以內容效度又名專家效度。（郭生玉，1985）

本研究誠邀國立臺中教育大學英語系教授、國小英語資深在職教師，依據專家學者在英語方面的專業知識，在本研究進行指標與題目認定及試題編製時，提出審查和編輯方面的寶貴建議。

參、古典鑑別度與難度試題參數分析

Ebel & Frisbi (1991)曾提出將CTT的難度（P）值分為四個不同等級用以說明試題的難易度。試題的P值越大，答對的人數越多，顯示試題越簡單；

相對的，試題的P值越小，答對的人數越少，顯示試題越困難。試題P值與其相對應的難易度分析如下：

表4-3

試題CTT難度分析對照表

P值試題難易度

P ≥ 0.80 試題極為容易

0.60 ≤ P ≤ 0.80 試題容易 0.40 ≤ P ≤ 0.60 試題難易適中 0.20 ≤ P ≤ 0.40 試題困難

P≤ 0.19 試題極為困難

除此以外，古典測驗理論中的鑑別度(D)值可以讓研究者充分了解個別試題中高分組與低分組通過人數的比率，此數值愈大，顯示該試題越能夠鑑別出高低分組受試者的差異。一般而言，試題的鑑別度指數介於1與-1之間，

Ebel(1979)也曾經提出相對CTT的鑑別度(D)值的試題分析對照如下：

表4-4

試題CTT鑑別度分析對照表

D值試題難易度

D ≥ 0.40 試題非常優良

個別試題與作答分析

題號題目

Item 32 The coffee is _______ bitter _______ drink.

(1) too, too

Average 0.99 -0.58 0.35 0.74 從表4-6說明整體測驗的平均通過率在0.74。結合圖4-1的個別試題鑑別度分析可以了解本測驗中鑑別度低於0.5的分別是Item 26, Item 27, Item 32, Item 33。整體鑑別度介於0.33 ~ 2.02，平均鑑別度為0.99。測驗中，有19題的鑑別度高於1.0，Item 8的鑑別度大於2.0，達到2.02，顯示整體鑑別度良好。

圖4-1 國小高年級英語閱讀測驗試題鑑別度分析圖

圖4-2呈現整體英語閱讀測驗的難度介於 -2.89 ~ 0.74，平均難度為 -0.58。

本測驗中，有11題的難度小於-1.0，16題難度介於-0.90 ~ 0.00之間，占總題數的40%，13題的難度在0.00以上，占總題數的32.5%，顯示本測驗試題為中間偏易。

0 2 4 6 8 10 12 14 16 18

0.10~0.50 0.51~1.00 1.01~1.50 1.51~2.00 2.01~2.50

題數

圖4-2 國小高年級英語閱讀測驗試題難度分析圖

從圖4-3可以發現本閱讀測驗的猜測度介於 0.24 ~ 0.49，平均猜測度為 0.35。本測驗中，有24題的猜測度低於0.35，占總題數的60%，顯示本測驗試題猜測度尚在合理範圍內。

圖4-3 國小高年級英語閱讀測驗試題猜測度分析圖

0 2 4 6 8 10 12 14 16

-2.90~-2.00 -1.90~-1.00 -0.90~0.00 0.01~0.50 0.51~1.00

題數

0 2 4 6 8 10 12 14

0.2-0.25 0.26-0.3 0.31-0.35 0.36-0.40 0.40-0.45 0.46-0.50

題數

陸、以IRT為基礎分析受試學童的英語閱讀能力

由圖 4-4 發現若以 IRT 的三參數模式作為理論基礎來分析本研究中的國小六年級受試學童，其分析結果是占總受試人數的 60%以上的受試學童的能力值介於-1.0~1.0 之間。

圖4-4 受試學童的英語閱讀能力分佈

第二節模擬電腦化適性評量分析

壹、估計標準誤（SE）

本研究中所提出的電腦化適性測驗所使用的選題策略為最大訊息選題法，王寶墉曾經在「現代測驗理論」一書中提到試題訊息量與受試者的能力估計值有絕對的相關。試題的訊息量越大，越能精準估計出受試者能力值，

得到受試者的能力估計標準誤也就越小。本研究以能力估計參數計算出受試者估計標準誤（standard error of estimation, SE），結合真實施測作答反應等

模擬電腦化適性測驗評量CAT的施測程序，藉以比較最大概似估計法比較最大概似估計法 (maximum likelihood estimation, MLE) 、最大後驗估計法 (maximum a posteriori, MAP)與期望後驗法(expected a posteriori, EAP)等不同能力估計法在電腦化適性測驗評量的成效。（王寶墉，1995）能力估計標準

下降。以MLE 估計法評估時，SE的數值在做達到第40題時還維持在0.41 以上。相較之下，利用EAP或MAP估計法評估時在受試學童進行到第16題時即可做到SE<0.38。Babcock 與Weiss兩位學者都曾經指出CAT的其中一個測驗終止條件是當測驗信度達到0.85，受試者作答到第100題時，SE<0.385 (Babcock & Weiss, 2012)。本研究中的測驗整體信度達到0.84，接近0.85，而且受試者只需作答到第16題時，EAP估計法中的SE就可以小於0.38；更甚者

圖 4-6 RMSE 在不同能力估計法上的變化

由圖4-6呈現，MLE估計法RMSE起始估計值介於2.5～3之間，個別試題間的誤差值也頗大。雖然MAP估計法和EAP估計法的RMSE起始估計值皆在 0.8左右，小於1，但MAP估計法的RMSE曲線下降幅度卻遠不如EAP估計法穩定。利用EAP估計法在第6題時就小於0.5，相較之下，MAP和MLE估計法則分別在第19和第22題才能達到此標準。EAP估計法不論施測題數為多少，

RMSE都小於1，顯示在估計所有受試者的能力值時，以EAP得到的能力估計值最為準確。在EAP所得到的數據中，在受試者完成第29題時與全測所得到能力估計值誤差是0.096<0.1；完成第36時所得到的能力估計值誤差是

0.041<0.05，此研究結論與陳柏熹（2006）使用EAP與MAP估計法於適性測驗系統的結論相符。

本測驗採用三種估計法模擬 CAT 研究，無論在 SE 或 RMSE 方面，皆顯現 EAP 和 MAP 估計法的精準度優於 MLE。本研究開發之試題亦能達到電腦化適性測驗之效能，可有效節省測驗題數及作答時間。

RMSE

題數

第五章結論與建議

本研究的主旨是根據教育部規範的九年一貫課程綱要語文領域的英語能力指標，臺灣TASA英語方面的題型架構，希望讓國小六年級學童在國小畢業時的英語閱讀能力，同時讓國中英語教師瞭解學生在國中一年級的英語起點行為，以利銜接教學。本章將針對測驗的施測結果做出研究結論，以及對未來的研究方向提出建議。

第一節結論

依據本研究的研究目的與研究結果歸納以下結論：

壹、信、效度檢定

依據測驗分析結果，國小六年級學童英語閱讀能力測驗的內部一致性信度為0.84＞0.75，顯示整體信度良好，配合優良的專家效度，可以作為未來國中教師瞭解國中一年級學生的起點行為以及國中小英語教學的銜接工具。

貳、試題鑑別度

以CTT古典測驗理論分析整體測驗的平均鑑別度指數為0.46，顯示整體試題優良；以IRT測驗理論分析的鑑別度指數介於0.33～2.02，平均鑑別度為

在文檔中國小高年級英語閱讀線上測驗研發 (頁 35-0)

第三章 研究方法

第一節 研究流程與步驟

參、 題型介紹

第三節 研究對象

第四節 研究工具