測驗理論的探討與紙筆測驗 - 屏東八年級數學段考試題之研究

本節主要討論測驗理論與紙筆測驗，因為本研究的統計理論與架構都依循余民寧（2009）「試題反應理論及其應用」書中的觀點，所以將用到的概念整理如下：

測驗理論是一種解釋測驗資料間實證關係的有系統的理論學說。測驗理論學者通常把它劃分成二大學派：一為「古典測驗理論」，主要是以真實分數模式為骨幹；另一為當代測驗理論，主要是以「試題反應理論」為架構。

一、古典測驗理論

古典測驗理論（Gulliksen，1987）是最早的測驗理論，至今，它仍然是最實用的測驗理論，許多通用的測驗仍然是根據傳統方法來編製，並且建立起測驗資料間的實證數據。古典測驗理論也叫「古典信度理論」（classical reliability theory ），因為它的主要目的是在估計某個測驗實得分數 (observed score)的信度；亦即，它企圖估計實得分數與真實分數（true score）

間的關聯程度。因此，有時候它又稱作「真分數理論」（true score theory），因為它的理論來源都建立在以真實分數模式（true score model）為名的數學模式基礎上。

真實分數模式是指一種直線關係的數學模式 X＝T+E 為其理論架構，依據弱勢假設，個人在測驗上的實得分數（observed score）是由兩部份所組成，

即真實分數（true score）和誤差分數（error score），其中 X 代表實得分

數，T 代表真實分數，E 代表誤差分數。真實分數為觀察不到，但代表研究者真正想要去測量的潛在特質。誤差分數為觀察不到，且不代表潛在特質，卻是研究者想要極力去避免或設法降低的部分。

古典測驗理論的優點是其理論模式的發展已久且頗具規模，所採用的計算公式簡單明瞭、淺顯易懂，適用於大多數的教育與心理測驗資料，及社會科學研究資料的分析，是目前測驗學界使用與流通的主要理論依據之一。但有以下五項缺失。

（一）所採用的係數指標為難易度、鑑別度和信度，都是一份樣本依賴的指標，指標的獲得會因為接受測驗的受試者樣本的不同而不同。因此，

針對不同潛在特質的樣本，同一份測驗很難獲得一致的難易度、鑑別度和信度。

（二）以一個共同的測量標準誤（standard error of measurement），作為每位受試者的潛在特質估計值的測量誤差指標，此作法完全沒有考慮受試者的個別差異，對於具有高潛質或低潛質的受試者而言，此指標極為不精確也不合理。

（三）對於非複本（nonparallel）但功能相同的測驗所獲得之數據，無法提供有意義的比較；有意義的比較僅侷限在相同測驗的前後測量之數據或複本測驗分數。

（四）對信度的假設是建立在複本（parallel forms）測量概念上，此假設與實際的測驗情境互相矛盾。原因為：（1）在實際測驗情況下，施測者不可能要求每位受試者在接受同一份測驗多次後，仍保持每次反應的結果都互相獨立、不影響。（2）每一種測驗不一定會在編製測驗的同時製作複本。

（五）忽視受試者作答的試題反應組型（item response pattern）所代表的意義。因為總分相同的受試者或總和相同的試題，其反應組型未必完全一致，所顯示的意義也不會相同。因此，所求出的潛在特質和試題

參數估計值也會不同。

學者們為了彌補古典測驗理論的缺失，轉而尋求理論與方法較為嚴謹的當代測驗理論，才會有日後的「試題反應理論」。

二、試題反應理論

為了克服古典測驗理論的缺失，才有當代測驗理論的誕生，其理論內涵主要以試題反應理論為理論架構，依據強勢假設(strong assumption)而來。此理論建立在兩個基本概念上：（一）受試者在某一題上的表現情形，可由一個潛在特質（latent traits）或能力（abilities）來加以預測或解釋（二）受試者的表現情形與該組潛在特質之間關係，可透過一條連續性遞增的數學函數來表示，此數學函數稱作為「試題特徵曲線」（item characteristic curve，ICC）。三、古典測驗理論與試題反應理論之比較

（一）古典測驗理論比試題反應理論更廣泛被應用的原因如下：

1. 試題反應理論建立在嚴謹的數理統計學的機率模式上，這對教育與心理學的學者在數學應用上是一大挑戰。

2. 試題反應理論學者偏愛理論模式的探討，較少實際應用方面的推廣。

3. 在過去，沒有電腦軟體程式配合的時代，試題反應理論中參數的估計，

難以用小型計算機或手算推得。

4. 試題反應理論學者朝量化技術方面探討，使得理論趨於數學化、數量化與電腦化，因此加深學習者的學習難度。

5. 試題反應理論適用的教育與心理測驗資料有限，需要大量樣本配合，因此應用性低。

（二）試題反應理論比古典測驗理論具有下列特點：

1. 試題反應理論採用的參數不受樣本影響。

2. 試題反應理論能夠針對每位受試者提供個別差異的測量參數，並精準推估其能力值。

3. 試題反應理論可經由同質性試題分別測驗，所推估出受試者的能力質相

同，不受測驗影響。

4. 試題反應理論以試題訊息量與測驗訊息量的概念來評定測驗的準確性，

取代古典測驗理論的信度。

5. 試題反應理論同時考慮到受試者的反應與試題參數，因此對於相同分數的不同受試者推估不同的能力質。

6. 試題反應理論採用的適配度考驗值，可提供模式與資料間的適配度。

因為本研究探討國中數學段考試題的分析，主要有選擇題與填充題兩種題型，

因此，紙筆測驗的歷程與原則都依循李坤崇（2008）「教學評量」書中的觀點，

所以將用到的概念整理如下：

一、編製歷程

（一）決定測驗目的

教師必須選擇符合教學目標的測驗，教學前的安置性測驗，教學中的診斷性測驗，教學後的形成性測驗，可使教師了解學生的學習狀況並改進教學，

最後評定學生學習成就的總結性測驗。

（二）設計雙向細目表

教師決定教材內容、測驗目的與評析學目標後，以教學目標為橫軸、教材內容為縱軸來設計雙向細目表。

（三）編擬測驗試題

教師編製測驗試題時，應兼顧雙向細目表、命題原則語試題難度。依據雙向細目表中的題數與配分命題，試題難度不可偏離教學目標與測驗目的，

試題編寫不能違反命題原則。

（四）審查與修改測驗試題

教師在編擬好試題後，應請相同領域的同事再檢查一遍。

（五）編輯測驗試題

測驗試題編排的適切性與指導語的明確性，將影響學生作答的效率與評量結果，教師應審慎編輯測驗試題，提高測驗的信度與效度。

二、編製原則

選擇題編製原則多項，要注意的內容有每個試題題幹不應中斷，試題應測量重要的學習結果，試題題幹意義應完整、清晰界定問題，試題題幹應僅提出一個明確概念，以簡短、清晰用詞陳述試題題幹，盡可能以正面、肯定字詞來敘述試題題幹，題幹避免使用否定句，若需採用宜強調否定字詞，所有選項語法應力求一致，盡可能將各選項共同字詞放在題幹中，標準答案必須是正確或最佳的答案，

避免提供選擇正確答案或刪除不正確答案之線索，提高誘答似真性與吸引力，選項長度接近以減少解題線索，謹慎使用『以上皆是』或『以上皆非』，正確答案宜隨機排列，出現次數盡量相同，以改變試題題幹或選項來調整難度，測驗中每個試題需彼此獨立，謹慎使用多重選擇式題，若其他試題類型更適合時，別用選擇題，有更好理由可打破上述規則，編擬後檢核試題提高品質。

而選擇題的優點有題意較是非題、簡答題（填充題）清晰明確，適用於不同層次學習結果之評量，具有診斷效果，修改選項可提高鑑別度或調整難度，計分迅速、客觀。

此外，選擇題的缺點有評量能力限於文字層次，較不適合評量數學、自然與生活科技領域的解決問題技能；高品質之命題不易，尋找具有誘答力的選項不易；

評量答辯識案，而非產生答案；無法評量組織、發表的能力。

接下來探討填充題的編製原則，要留意填充式答案以一個為原則，空格不可太多；試題答案應簡潔、具體、明確；問題不應直接抄自教科書或參考書；編寫試題『直接問句』較『不完全敘述句』優先；答案必須問題之重要概念，而非零碎知識；答案空格應一致，且盡量將空格留在句子末端；避免提供作答之線索；

答案若是數字應指出要求之精確程度和單位名稱；編擬後檢核試題提高品質。

而填充題優點是有評量答案產生，不受猜測影響，但缺點有難以評量高層次的認知能力。

以上分析與討論紙筆測驗編製的程序和選擇題與填充題編制的概念。因為它們都提供經濟、快速、統一與有效率的科學方法，所以包含所有重大考試都會使

在文檔中屏東八年級數學段考試題之研究 (頁 13-18)