現代測驗理論的問世

第二章、文獻探討

第四節、現代測驗理論的問世

joinnet 作為授課教室，跨越城鄉之間距離上的限制進行一對一的線上陪伴教學，倡導

「以生命陪伴生命，以生活教導生活」為核心價值，期望藉由計畫訓練大專院校之學生

107 127 1749 26 2500

108 120 1654 26 2500

109 128 1663 26 2600

圖三 參與數位學伴計畫之學校總數圖四參與數位學伴計畫之大小學伴總數

第二節、數位學伴計畫的成效

近年來有越來越多關於教育部數位學伴計畫之學習成效的相關研究，其中大部分研究皆以大學伴、小學伴、教學端或學習端之師長於質性問卷之反饋為資訊，並分析整體而言大學伴、小學伴、教學端或學習端之師長是否認同該計畫有符合其計畫之核心目的作為學伴計畫是否具有學習成效之判定，而研究結果皆指向數位學伴計畫確實有為縮短城鄉數位學習落差、提升小學伴之學習動機等小學伴之真實需求提供實質上的幫助；而在數位學伴計畫之線上一對一課程所教授之學科上的成績或能力是否有實質提升則較少相關研究，僅有康譽騰、黃勇仁於2018 年的研究中提出小學伴在英文科與數學科之在校成績的比較，以及本研究之作者於2019 年的研究中以一學校為例提出數位學伴計畫對於小學伴之數學能力的提升會有一定程度之助益，並且認為大學伴之留任率與大小學伴之間的親密度也有助於影響小學伴之數學能力的提升程度。下表為近年內關於數位學伴計畫學習成效之相關研究，將論文分述於下：

一、測試結果受樣本抽樣影響大

由於平均數、標準差、分位數、答對率、鑑別度等真實分數模型之指標對於不同樣本的受試者來說都會有截然不同的結果，例如本研究欲了解偏鄉兒童之數學能力學習成效所用之題目可以參考教育部進行過古典測驗理論之試題品質分析題目，

但無法將其結果中的分析指標作為參照依據，因本研究所取之偏鄉學童之樣本與教育部所選樣本在作答情況與能力皆截然不同。

二、未考慮受試者個體能力差異

由於真實分數模型假設所有人的誤差分佈皆為平均為0 之常態分佈，對於高能力與低能力的極端受試者而言，此誤差分數的假設並不合理。

三、若分數相同則視為能力相同

真實分數模型不考慮受試者的作答情況，視分數為實際能力，在實際情況中，

大多數獲得相同分數之不同受試者在答題的狀況並不盡相同，其能力估計也應不同。

四、同質性測驗無法有意義比較

由於真實分數模型假設任意兩測驗之誤差分數無相關，導致若有兩份同為測驗學生國中數學能力之不同測驗則無法藉由此模型進行有意義的比較，僅能透過同一試卷利用前後測或複本測驗的方式才能進行有意義的比較。

五、測驗信度指標的假設不合理

由於真實分數模型假設所有人的誤差分佈皆為平均為0 之常態分佈，故其信度假設只要測驗足夠多次取平均數便能夠得到越接近受試者之真實分數，這並不符合實際測驗情況，大多數測驗不會要求受試者進行一次以上的測驗，加上重複測試同一份試卷還須考慮到受試者在前後測試的這段期間是否遺忘舊有知識或是學習新知識以及是否在第一次後的產生的學習動機等問題，導致測驗的信度除假設不合理外也不容易得到穩定的信度。

第四節、現代測驗理論的問世

直至改良真實分數模型缺陷的試題反應理論問世後，測驗理論才正式有了區分古典測驗理論(classical test theory)與現代測驗理論(modern test theory)的分水嶺，而古典測驗理論主要便是以真實分數模型為骨幹研究與歸納後形成；現代測驗理論則以試題反應理論(item response theory, IRT)則作為理論架構，依據強勢假設(strong assumptions)而來，

用以解釋與分析受試者的能力與個別題目作答之間的關係(Hulin, Drasgow, & Parsons, 1983; Lord, 1980; Thissen & Steinberg, 1988; Weiss, 1983)，其有以下古典測驗理論所不具備之特點(Hambleton, 1989; Hambleton & Cook, 1977; Hambleton & Swaminathan, 1985;

Hambleton, Swaminathan, & Rogers, 1991; Lord, 1980)：

一、測試的結果不受樣本抽樣的影響

現代測驗理論使用試題特徵曲線(item characteristic curve, ICC)來解釋受試者答對每一道題目的機率以及受試者能力高低的函數關係，而作為試題反應理論的基石，

試題特徵曲線也同樣整理了題目分析時所得到的許多資訊，可以用來理解受試者的能力與測驗反應之間的關係(Lord, 1977; Lord & Novick, 1968; Rasch, 1960)，並且用以描述試題特徵曲線的參數並不會取決於資料來源索取樣的樣本，舉例來說同樣一道題目，對於國一生而言很困難，但對於國二生來說也許比較容易，甚至可能對國三學生來說可能過於簡單。使用試題反應理論分析題目特性時不會受到受試者的特性所影響。

二、每位受試者皆有不同的測量誤差

現代測驗理論的誤差指標會依據不同受試者的作答反應而有所不同，能夠更為精準的估計受試者的真實能力。

三、可以適用相同質性間的測驗比較

現代測驗理論可以針對同質性的不同測驗間，推估進行有意義的比較來推估出

不同受試者的個人能力。

四、提出試題訊息量以及試卷訊息量

現代測驗理論提出試題訊息量(item information) 以及試卷訊息量 (test information)的概念作為信度指標來評斷整份試卷或是某試題的測量準確性，用以評斷試卷的內部一致性。

五、考慮受試者作答反應及試題參數

現代測驗理論同時考慮受試的作答反應以及試題的參數，因此除了在估計能力上相較於古典測驗理論會更為準確之外，對於原始得分相同之不同受試者也能夠依據不同的作答反應給予不同的能力估計值。

六、現代測驗理論能提供適配度檢驗

現代測驗理論所採用之適配度檢驗值(statistic of goodness-of-fit)，可以為受試者的作答反應是否有異常以及測驗模型與測驗資料之間的適合度做為參考指標。

儘管現代測驗理論相對於古典測驗理論似乎有著絕對的優勢，但實際應用上還是以古典測驗理論為主，主要原因有以下幾點(余民寧，1991)：

一、晦澀難懂的數學機率模型

現代測驗理論是建立在理論假設非常嚴謹的數理統計模型上，對於大部分在數學方面訓練有限之教育與心理學界學者而言過於複雜深奧、晦澀難懂，難以應用在實務上與推廣。

二、多數學者以理論研究為主

現代測驗理論之學者主要都是出身於數學界、擁有數學背景或至少在統計學上訓練有素者，多數專家學者對於理論的探索的偏好，遠勝於對實際應用的推廣工作。

三、計算複雜導致應用上受限

現代測驗理論發展之初，電腦的普及與軟體的開發技術有限，若沒有軟硬體之

間的配合對於現代測驗理論之參數估計難以實際計算，因此在應用於推廣上也較難進行。但時至今日，隨著電腦軟硬體科技及技術的快速發展，此因素有逐漸改善的趨勢，也有越來越多的分析軟體被開發出來可以用來進行試題反應理論的分析上。

四、測驗資料須大樣本的配合

當代測驗理論除了有嚴苛的基本假設外，也需要大樣本的配合，但由於大部分的心理與教育測驗皆以小樣本為主，使得該理論發展之初的應用性大打折扣，無法獲得一般使用者的青睞。不過隨著近年來數位科技的發展日益月新，廣泛提倡大數據分析的現在，現代測驗理論便逐漸成為學術研究中的主流方法。

在文檔中國中小學伴參與數位學伴計畫之數學學科能力變化研究 (頁 15-22)

第二章、 文獻探討

第四節、 現代測驗理論的問世

第二章、文獻探討

第四節、現代測驗理論的問世