• 沒有找到結果。

電腦化適性測驗題庫擴增研究

N/A
N/A
Protected

Academic year: 2021

Share "電腦化適性測驗題庫擴增研究"

Copied!
65
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學教育測驗統計研究所理學碩士論文

指 導 教 授 : 許 天 維

博 士

電腦化適性測驗題庫擴增研究

研 究 生 : 趙 佑 軒

中 華 民 國 九 十 七 年 一 月

(2)
(3)

誌謝

本人在此首先對協助本篇論文順利完成的所有人獻上最高感謝與祝福,感謝 家人的支持,感謝恩師許天維院長的指導,口試委員郭伯臣所長、劉湘川教授的 提示與建議,使本論文能更為嚴謹。 這段日子我多了許多學習的對象,除了學校老師的教誨外,待人處事與桌球 向晉民助教、慶麟助教學習,程式設計向正維、明宏與典佑學長學習,測驗相關 向暄博學長、雅媛與鈺卿學習,……太多了,繁多不及備載,總之謝謝大家。 當然還有一起相伴的同學與學弟妹們,彼此互相鼓勵與吐嘈,將是一段此身 難忘的回憶吧。 最後再次感謝大家,願禮佛的佛祖保佑你,信主的主賜福給你,敬阿拉的阿 拉照顧你,拜媽祖的媽祖保護你……謝謝大家。 趙佑軒 謹致於台中教育大學教育測驗統計所 2008 年 01 月

(4)
(5)

摘要

在大型測驗中題庫的維護,往往需耗費許多人力與成本,因此在題庫擴充 時,若依照題庫建立之初,對新的試題重新舉行大規模的預試,將加重成本的負 擔。本研究主要分析進行電腦適性測驗時,對原題庫的使用過程中,將未校準的 試題(試題參數尚未估計)逐次加入已校準的題庫(試題參數已精確估計)中, 用受試者的作答反應估計新的試題參數,則可望在不增加成本的情況下更新擴大 題庫。 本研究的結果顯示如下: 一、 受試者能力真值呈現常態與雙峰分布時,藉由加入新試題來估計其能力 值,會得到更精準的能力值估計值。 二、 受試者能力真值呈現偏態分布時,無法估算出較精準新增試題之參數與受 試者能力值。 關鍵字:電腦適性測驗、題庫、試題反應理論、參數估計。

(6)
(7)

Abstract

The maintenance of large-scale assessments usually costs a lot. If the item bank is expanded with the pretest measurement, it would increase the pay by a wide margin. The main idea of this research is to make examinees answer not only calibrated items but also un-calibrated ones. By means of the responses of calibrated items can the ability parameters be estimated. In this way, the item bank could be expanded without extra cost.

This study discusses the accuracy of parameter estimation under different conditions, including different distributions of ability, different numbers of examinees, different numbers of calibrated and un- calibrated items.

The result of this study shows that if the ability distribution is normal or binomial, estimating ability parameters by adding un-calibrated items would get precise estimations. If the ability distribution is skewed, the item-parameter and ability-parameter estimations would not as precise as the former two.

Keywords: computerized adaptive testing, item bank, item response theory, parameter estimation

(8)
(9)

目錄

第一章 緒論...1 第一節 研究動機... 1 第二節 研究目的... 2 第三節 名詞解釋... 2 第二章 文獻探討...4 第一節 電腦化適性測驗... 4 第二節 能力估計方法相關研究... 9 第三章 研究方法...20 第一節 研究流程... 20 第二節 研究工具... 21 第三節 研究設計... 21 第四章 研究結果...29 第一節 實驗一之結果... 29 第二節 實驗二之結果... 33 第三節 實驗結果之比較... 37 第五章 結論與建議 ...50 第一節 結論... 50 第二節 建議... 50 參考文獻...51

(10)

表目錄

表3-3-1 IRT 相關文獻之模擬試題參數設定 ... 22 表4-1-1 實驗一中常態分布下,新增試題之參數估計誤差... 30 表4-1-2 實驗一中雙峰分布下,新增試題之參數估計誤差... 31 表4-1-3 實驗一中偏態分布下,新增試題之參數估計誤差... 32 表4-2-1 實驗二中常態分布下,新增試題之參數估計誤差... 34 表4-2-2 實驗二中雙峰分布下,新增試題之參數估計誤差... 35 表4-2-3 實驗二中偏態分布下,新增試題之參數估計誤差... 36 表4-3-1 常態分布下,實驗一、二新增試題的受試者能力參數估計誤差之比 較...40 表4-3-2 雙峰分布下,實驗一、二新增試題的受試者能力參數估計誤差之比 較...44 表4-3-3 偏態分布下,實驗一、二新增試題的受試者能力參數估計誤差之比 較...48

(11)

圖目錄

圖2-1-1 CAT 流程圖... 8 圖3-1-1 研究流程圖... 20 圖3-3-1 針對新增試題之試題參數估計流程圖... 25 圖3-3-2 將初步估計試題加入對受試者能力參數進行估計之流程圖... 26 圖4-3-1 常態分布下,實驗一與實驗二新增試題的鑑別度參數之估計誤差.... 38 圖4-3-2 常態分布下,實驗一與實驗二新增試題的難度參數之估計誤差... 39 圖4-3-3 常態分布下,實驗一與實驗二新增試題的猜測度參數之估計誤差.... 40 圖4-3-4 常態分布下實驗一與實驗二加入新增試題估計之能力估計誤差比較 41 圖4-3-5 雙峰分布下,實驗一與實驗二新增試題的鑑別度參數之估計誤差.... 42 圖4-3-6 雙峰分布下,實驗一與實驗二新增試題的難度參數之估計誤差... 43 圖4-3-7 雙峰分布下,實驗一與實驗二新增試題的猜測度參數之估計誤差.... 44 圖4-3-8 雙峰分布下實驗一與實驗二加入新增試題估計之能力估計誤差比較 45 圖4-3-9 偏態分布下,實驗一與實驗二新增試題的鑑別度參數之估計誤差.... 46 圖4-3-10 偏態分布下,實驗一與實驗二新增試題的難度參數之估計誤差 ... 47 圖4-3-11 偏態分布下,實驗一與實驗二新增試題的猜測度參數之估計誤差 .... 48 圖4-3-12 偏態分布下實驗一與實驗二加入新增試題估計之能力估計誤差比較49

(12)

第一章 緒論

本研究根據教育測驗統計理論,以程式模擬電腦適性測驗的題庫擴充建置, 本章就研究動機、研究目的及名詞釋義做概括性的探討。

第一節 研究動機

隨著電腦資訊科技高度發展,電腦運算能力的快速進化,再加上適性測驗理 論的研究發展,電腦化測驗有了重大的突破,電腦化適性測驗(computerized adaptive testing, CAT) 在實務上變得更加可行,因其具有節省測驗長度、增加 能力估計精準度的優點,且可以在測驗中根據每位受試者的能力水平來選取給予 不同難易度的試題來進行施測,國內外大型測驗機構均朝向以電腦化適性測驗來 取代傳統的紙筆測驗與電腦化測驗(computer-based test, CBT)。在知名的大型 測驗GRE(Graduate Record Examinations)、TOFEL(Test of English as a Foreign Language)、GMAT(Graduate Management Admission Test)等均已 實施。

將傳統紙筆測驗的試題經由分析、編碼與結構分類處理後,可以便利運用的 試題彙總組合,即為題庫(Millman & Arter, 1984)。CAT 即以題庫為核心發展 而成,而且其選題是根據試題參數來進行,因此試題品質的優劣(試題參數的精確 性)會直接影到測驗精確度和效率(方秀惠,2002)。 本文中主要分析如何在電腦適性測驗進行中,將未校準的試題(試題參數尚 未估計)加入已校準的題庫(試題參數已精確估計)中,來擴大題庫。因為在題 庫的更新上,若依照題庫建立之初,對新的試題重新舉行大規模的預試,將加重 成本的負擔;若在原題庫的使用過程中,逐次加入新的試題,利用受試者的作答 反應估計新的試題參數,則可望在不增加成本的情況下更新題庫,然而依此方法 所估計的試題參數精準度將是探討的焦點。 因此,在題庫更新時,如何兼顧試題參數估計的精準度及更新的速率,亦是

(13)

本研究的動機之一。亦即新增一題未校準之試題必須經由多少受試者施測,才能 得到較精準的試題參數估計值。甚至,在試題參數估計穩定後,是否能藉由適性 測驗試題與新增試題的作答反應,增加能力參數估計的精準度,亦是本研究欲探 討的部分,希望藉此提供給實際應用電腦適性測驗時設定測驗要素的參考。

第二節 研究目的

本研究欲了解如何在電腦適性測驗進行時,加入未校準參數之試題來擴大題 庫的前提下,模擬在測驗中加入新試題的方式,對不同能力分布受試者進行施 測,期望估算出參與受試人數需要多少人數範圍內方使該測驗的新題目試題參數 與對受試者能力值估計更精確。 本研究欲探討的問題有二,茲分述如下: 一、在測驗中增加多少題新試題會使新試題的試題參數估計精準至合理範圍。 二、須多少人參與施測,才會得到新增試題之精準試題參數與更精確的受試者能 力估計值。

第三節 名詞解釋

一、電腦化適性測驗

本研究的電腦化適性診斷測驗係以試題反應理論為基礎,呈現的試題順序, 是依據受試者在前一個試題上的作答反應來決定。在開始進行電腦化適性測驗之 時,先由電腦隨機呈現一組測驗試題,在受試者作出反應之後,電腦便根據這些 反應資料,估計出考生的初步能力估計值(initial ability estimate);然後,電腦 會依據初步能力估計值,從題庫(item bank)中挑選出最能對受試者能力水準的估 計發揮最大貢獻力量的試題,將其呈現給受試作答。

(14)

二、題庫(Item bank)

電腦化適性測驗與傳統紙筆測驗的不同在於必須建立一個含有試題反應理 論測驗試題參數的題庫,一個優秀的電腦適性化測驗題庫其試題是經過嚴謹編審 與預試的,經過電腦化且統計過的組合而成。題庫中的能夠提供的試題參數或指 標;如試題鑑別度、試題難度等,越詳細越好。適性測驗之效度與效率,與題庫 大小具有密切關係(李茂能,2000)。

(15)

第二章 文獻探討

本章共分節,第一節概要介紹電腦化適性測驗,第二節介紹能力估計方法的 相關研究。

第一節 電腦化適性測驗

在施行電腦化適性測驗(computerized adaptive testing, CAT)時所考量決 定的基本要素,不同學者在見解上略有不同(Hulin, Drasgow & Parsons, 1983;Weiss & Kingsbury, 1984;余民寧,1992),其中 Hulin 等眾人於 1983

年的研究指出 CAT 應具有決定起始點、估計能力與試題選取、與結束測量的標 準三個要素;而Weiss 及 Kingsbury 在 1984 年提出:試題反應模式、題庫、測 驗起點、能力估計、試題選取方法與測驗終止條件六個要素,而每一要素均有幾 個可能的選擇,可配合目的的不同而選取最適當的組合。茲扼要介紹六項基本要 素與如何在CAT 施測的完整流程。

壹、試題反應模式

試題反應理論(item response theory, IRT)為改進古典測驗理論的缺失而 來,乃根據強勢假設(strong assumption),具有嚴謹的數理基礎,依據受試者接 受一測驗的結果表現,透過數學模式的運算,評估受試者能力和測驗反應間之關 係,即以機率的概念來解釋受試者能力和題目反應間之關係(Lord, 1980)。本研 究採用在二元計分的測驗中,最常見的模式為三參數對數模式(three-parameter logistic model, 3PLM),其定義如公式(2.1.1): )) ( exp( 1 1 ) 1 ( ) ( j j j j j b a d c c P − ⋅ − + − + = θ θ (2.1.1) Pj(θ):受試者在第j 題的答對機率。 θ :受試者的真實能力。

(16)

aj:為試題j 的鑑別度。 bj:為試題j 的難度。 j c :為試題j 的猜測度。 d:常數,本研究設定為1.702。 試題訊息函數(information function)常被做為選擇題目的依據,一般會選取 題庫中具有較大訊息量的試題當做下一施測題目,其定義如公式(2.1.2) (Birnbaum, 1968; Lord, 1980)。ㄧ般來說,試題訊息量越大,能力估計的標準 誤越小、能力估計越精準(王寶墉,1995)。 2 2 2 ))] ( exp( 1 [ ))] ( exp( [ ) 1 ( ) ( j j j j j j j j b da b da c c a d I − − + ⋅ − + − = θ θ θ (2.1.2) ) (

θ

j I :能力值θ 在試題j 的試題訊息函數。

測驗訊息函數(test information function)定義為各試題訊息量之總和,其定 義如公式(2.1.3)。增加測驗訊息的方法有二種,一為在測驗長度不變下,增加每 一試題訊息量;二為在各試題訊息不變下,增加測驗長度。

(2.1.3) = = n j j T I I 1 ) ( ) (θ θ n I :題庫的長度。 T( )θ :測驗訊息函數。

貳、題庫

CAT 是以題庫(item bank)為核心發展而成,而且其選題是根據試題參數來 進行,因此試題品質的優劣(試題參數的精確性)會直接影到測驗精確度和效率。

(17)

測驗長度的 6 至 8 倍,也就是說題庫大小至少為施測長度的 12 倍(Stocking, 1994)。 以本研究所採用三參數對數模式來說,一個好的題庫其鑑別度應大於 0.8, 難度應該跟受試者母群的能力分佈相近,猜測度則應小於0.25(王寶墉,1995)。 Ree(1981)針對以最大訊息法為選題法的研究,在沒有曝光率控管下,題庫長度 大於200 題對能力估計的精準度並不會明顯增加。但他也指出此現象不能推論到 所有的情境,必須視題庫的試題品質和試題參數的分配而定。

參、測驗的起點

在測驗起始時,因尚未知曉學生的能力,假設學生能力為中等程度,可以將 學生的初始能力值設為0。此外,亦可將中等難度的題目排序,從中選取試題來 施測,缺點是中等難度題目其保密性會較差。在大型測驗中可以根據受試者的年 齡或年級資料來決定測驗起始點。 在以隨機選取試題當做測驗起始點時,若題數超過25 題,則受試者的能力 估計值會接近其真實能力值(Lord, 1977)。

肆、能力估計

能力估計的精確性乃CAT的重要課題,近年來有學者不斷提出各種能力估計 的方法,本文將在下一節做一詳細介紹。

伍、試題選取方法

試題的選取方法最常使用最大訊息法(maximum fisher information),其實 施步驟如下:

(18)

步驟一:假設受試者目前能力估計值為θˆ,依據θˆ計算尚未施測試題的訊息 量,計算公式參考 (2.1.2)。 步驟二:選取試題訊息量最大的試題,當做下一施測題目。 最大訊息法可以使受試者接受測驗的試題訊息總和達到最大,由於試題訊息 總和與能力估計的標準誤平方成倒數關係,因此這種選題法可使受試者能力估計 的標準誤減至最小,以產生最準確的能力估計值。

陸、測驗終止條件

CAT 的一項特徵是受試者接受測驗的長度是因人而異,測驗可以一直進行至 研究者設定終止條件為止。測驗終止條件的方式分為「固定長度」與「固定能力 估計精準度」兩種,「固定長度」意謂當測驗的題數達到預設的長度時,即停止 測驗;「固定能力估計精準度」意謂當測驗的能力估計誤差小到一個程度,即停 止測驗。

柒、施測流程

上述介紹何謂 CAT 及 CAT 的基本要素:試題反應理論、測驗題庫、測驗起 點、能力估計、試題選取方法與測驗終止條件,在此將這些要素整合成一完整 CAT 施測流程,圖 2-1-1 為 CAT 流程。

(19)

設定初始值 設定選題方法 作答反應 能力估計 否 誤差與題庫效能評估 終止條件 是

2-1-1

CAT 流程圖

(20)

第二節 能力估計方法相關研究

爲說明上的方便,先定義本節所使用之符號: N :受試者(subject or examinee)人數 n :測驗長度 j θ :第j位學生的能力值 其中1≤ jN θ:整體受試的能力向量,θ =(θ12,L,θN) i a :第i題試題鑑別度參數 其中1≤in i b:第 題試題難度參數 其中i 1≤in i c :第i題試題猜測度參數 其中1≤in P:三參數對數模式下之答對機率 ( ) ) ( 1 ) 1 ( ) ( i i i i b a b a i i i e e c c P − + − + = θθ θ 其中1≤in * P :二參數對數模式下之答對機率 ) ( ) ( * 1 ) ( i i i i b a b a i e e P − + = θθ θ 其中1≤in Q:三參數對數模式下之答錯機率 Qi(θ)=1−Pi(θ) 其中1≤in * Q :二參數對數模式下之答錯機率 Qi*(θ)=1−Pi*(θ) 其中1≤in ⎩ ⎨ ⎧ = 題試題 位受試者答錯第 第 題試題 位受試者答對第 第 0 1 i j i j uij 其中1≤in 1≤ jN :能力值為θj ) | , , , , ( 1j 2j 3j nj j j u u u u U = L θ 的受試者於所有試題之作答反應組型 :整體受試者於所有試題之作答反應組型 ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ = N U U U U M 2 1 ξ:試題參數 τ :影響能力參數分布之超參數(hyperparameter)

(21)

η:影響試題參數分布之超參數(hyperparameter) ) , | (U ξ θ L :已知ξ,θ的條件下,抽樣試題反應的概似函數 ) | (ξ η g :已知η的條件下,ξ之先驗分布

壹、邊際最大概似法

Birnbaum(1968) 提 出 聯 合 最 大 概 似 法 (joint maximum likelihood estimation, JMLE),其主要特色是能力值參數與試題參數以迭代方式共同估計,

因此會發生Neyman-Scott 問題,即當樣本數越大時,所要估計的能力參數也越

多,估計的精準度無法藉由樣本數的增加而提升,使得參數的估計缺乏一致性 (Baker, 2004)。為避免 Neyman-Scott 問題,Bock & Lieberman (1970) 提出 邊際最大概似法(marginal maximum likelihood estimation, MMLE)來進行參 數估計。

但其方法在計算上相當繁雜,僅適用於非常短的測驗,Bock & Aitkin (1981) 採用EM 演算法改進 MMLE。本文中把 Bock & Aitkin (1981)的參數估計法稱

為MMLE/EM 法。茲詳述 MMLE/EM 之估計方法如下: MMLE/EM 分成三個步驟進行試題參數及能力參數的估計: 一、E-步驟 1. 設定試題參數及能力參數的起始值,並將所有受試者依能力參數排序後分為 q組,並以其組中點Xk代表該組的能力值。(k =1,2,L,q) 2. 令 ij,計算在各組中點 k X 之每種作答反應的概似機 率。 ij u k i u k i n i k P X Q X X L( )=

Π

( ) ( )1− 3. 根據組中點的權重A(Xk)計算第 j位能力值為Xk的後驗機率(posterior

(22)

probability): ) ( ) ( ) ( ) ( ) , , | ( k k q k k k j k X A X L X A X L U X P Σ = τ ξ 。 4. 計算各組期望人數 fk及各組於各題的答對人數rik。 ⎥ ⎥ ⎥ ⎦ ⎤ ) ) k k X ⎢ ⎢ ⎢ ⎣ ⎡ Σ =

Σ

( ) ( ) ( k q k k N j k A X L X L f A( X ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ Σ =

Σ

) ( ) ( ) ( ) ( k k q k k k ij N j ik X A X L X A X L u r 二、M-步驟 M-步驟主要在估計試題參數及能力參數,分二個階段進行。第一階段的試題 參數估計是以E-步驟中得到的 及 進行試題參數的估計。此階段的參數估計是 對所有試題個別進行,利用牛頓法進行迭代,更新試題參數,如下式所示。 k ik f r ) t ( 3 2 1 1 ) t ( 33 32 31 23 22 21 13 12 11 ) t ( i i i ) 1 t ( i i i L L L c b a c b a ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⋅ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ Λ Λ Λ Λ Λ Λ Λ Λ Λ − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − + 其中ㄧ階導數的部分如下: )] ( ) ( )[ )]( ( [ 7 . 1 * 1 1 k k k k k ik k q k X P X P b X X P f r f L =

− − − = ) ( ) ( )] ( [ 7 . 1 * 1 2 k k k k ik k q k P X X P X P f r af L =−

− = c X P X P X P X P f r f L k q k k k k k ik k =

= ( ) 1 ) ( ) ( )] ( [ 1 * 3 使用Fisher scoring 法可得二階導數為:

(23)

2 * 2 1 2 11 11 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X f L E =− − = Λ

= ) ( ) ( ) ( ) ( ) 7 . 1 ( ) ( * 1 2 22 22 k k k k k q k P X X P X Q X P f a L E

= − = = Λ ) ( ) ( ) ( 1 ) 1 ( ) ( ) ( * 1 33 33 k k k q k k k X P X P c X P c X Q f L E − − − = = Λ

= 2 * 1 2 12 21 12 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X af L E = − = Λ = Λ

= ) ( ) ( 1 ) ( ) ( 7 . 1 ) ( * 1 13 31 13 k k k k q k k X P X P c X Q b X f L E − − − = = Λ = Λ

= ) ( ) ( 1 ) ( 7 . 1 ) ( * 1 23 32 23 k k k q k P X X P c X Q af L E − = = Λ = Λ

= k 第二階段估計能力值參數時,是固定前一階段的試題參數估計值,利用牛頓 法進行迭代,更新能力參數,如下式所示。 ) ( 1 ) ( ) ( ) 1 ( [ ] [ ] [ ] ] [ t j t t j t j L θ θ θ θθ ∂ ∂ ⋅ Λ − = − + 其中ㄧ階導數的部分如下:

= − − − = ∂ ∂ n i ij ij ij ij j P c P u c P a L 1 (1 ) ) )( ( 7 . 1 θ 將二階導數的部分由其期望值替代:

= ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ − − − = ∂ ∂ = Λ n i ij ij ij j P c Q c P a L E 1 2 2 2 2 2 ) 1 ( ) ( ) 7 . 1 ( ) ( θ θθ 三、C-步驟 重 複 E- 步 驟 及 M- 步 驟 , 直 至 所 有 的 概 似 機 率 都 不 再 變 動 , 亦 即 當 ε < − +1) () (t Lt L 則終止迭代。其中L(t)是將第 次迭代所得之t θ(t)a(t)b(t)c(t)代入 ] | [ Prob log U θ = L 之結果。

(24)

貳、貝氏估計法

MMLE/EM 解決了 JMLE 估計上的 Neyman-Scott 問題,但對於受試者答 對或答錯該測驗中所有試題的情況時,MMLE/EM 則無法進行能力參數的估計 (Baker, 2004)。

Swaminathan & Gifford (1982) 提 出 以 貝 氏 理 論 為 基 礎 並 結 合 由 Birnbaum 所提出的二階段估計法,以進行 IRT 的參數估計。這種以貝氏理論為 基礎的估計法能有效結合先前的先驗分布(prior distribution)與蒐集所得的概 似 機 率(likelihood) , 並 透 過 貝 氏 定 理 求 得 參 數 的 後 驗 機 率 分 布 (posterior distribution) 以進行試題參數、能力參數等未知參數的推論 (Baker, 2004)。 因此以貝氏理論為架構之二階段估計法除可獲得穩定之試題參數估計值 外,對於全對或是全錯的作答反應組型之能力估計亦可獲得正確的估計結果 (Lindley, 1971)。 貝氏理論為架構之二階段估計法主要分成:試題參數估計部分與能力參數估 計部分。估計試題參數時,假設能力參數已知。 試題參數和能力參數的後驗機率可表示g(ξ |U,θ,η)∝L(U |ξ,θ)g(ξ|η) 其中的概似機率又可定義為

∏∏

= = = − = = N j n i N j j j u j i u j i Q PU P U L ij ij 1 1 1 1 ) , | ( ) ( ) ( ) , | ( ξ θ θ θ θ ξ 為已知能力參數θj ) , | (Uj θj ξ P 及試題參數ξ 其中 的情況下,作答反應組型 發生的機率。此方法用的概似機率和JMLE、MMLE/EM 的概似機率是一樣的。 經過資料蒐集,試題參數和能力參數之後驗分布以貝氏理論呈現: j U ) ( ) | ( ) ( ) | ( ) , | ( (θ,τ,ξ,η|U) θ ξ θ τ τ ξ η η gLU g g g g 正如同JMLE、MMLE/EM,邊際化貝氏估計法亦假設試題間為獨立,是故 採逐題估計。爲估計未知的試題參數,將下式

(25)

∫∫

∝ θ ξ θ τ τ ξ η η θ η τ ξ U LU g g g g d d g( , | ) ( | , ) ( | ) ( ) ( | ) ( ) ∝L(U|ξ,τ)g(ξ)g(τ) 取對數後取導數,即為貝氏估計方程式: , 0 )] ( [log )] ( [log )] , | ( [log = ∂ ∂ + ∂ ∂ + ∂ ∂ τ ξ τ ξ g v g v U L v 其中 為試題參數,即v a,bc 但因g(τ)不包含任何試題參數,所以對v微分為0,即上式為 0 )] ( [log )] , | ( [log = ∂ ∂ + ∂ ∂ ξ τ ξ g v U L v

由上述方程式可以發現,與Bock & Aitkin (1981)所提之 MMLE/EM 估計 法中的試題參數估計法的方程式相比較,多了一個先驗分布(prior distribution) 在 其 中 。Baker (2004) 指 出 BILOG-MG 中 假 設 各 試 題 參 數 之 先 驗 分 布 , 及 ( Mislevy, 1986),由此可推得試 題參數估計式為如 MMLE/EM 估計法中的試題參數估計法的方程式再加上試題 先驗分布之對數取導數,下列所示: ) 6 . 0 , 13 . 1 ( lognormal ~ a b~N(0,1) c~beta(4,16) a a X P X P b X X P f r f L a a a k k k k k ik k q k ⋅ − + − + − − − =

= 2 2 * 1 1 ln )] ( ) ( )[ )]( ( [ 7 . 1 σ σ μ 2 * 1 2 ) ( ) ( )] ( [ 7 . 1 b b k k k k ik k q k b X P X P X P f r af L σ μ − + − − =

= ) 1 1 1 ( ) ( 1 ) ( ) ( )] ( [ 1 * 3 c c c X P X P X P X P f r f L c c k q k k k k k ik k − + − + − − =

= β α 2 2 2 2 * 2 1 2 11 11 ln 1 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( a a X P X P X Q X P b X f L E a a a k k k k k k q k ⋅ + − + − + − − = = Λ

= σ σ μ 2 * 1 2 22 22 1 ) ( ) ( ) ( ) ( ) 7 . 1 ( ) ( b k k k k k q k P X X P X Q X P f a L E σ − + − = = Λ

=

(26)

] ) 1 ( 1 [ ) ( ) ( ) ( 1 ) 1 ( ) ( ) ( 2 2 * 1 33 33 c c X P X P c X P c X Q f L E c k k k q k k k − + + − − − = = Λ

= β 2 * 1 2 12 21 12 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X af L E = − = Λ = Λ

= ) ( ) ( 1 ) ( ) ( 7 . 1 ) ( * 1 13 31 13 k k k k q k k X P X P c X Q b X f L E − − − = = Λ = Λ

= ) ( ) ( 1 ) ( 7 . 1 ) ( * 1 23 32 23 k k k q k P X X P c X Q af L E − = = Λ = Λ

= k 用牛頓法進行試題參數的迭代估計: 機率期望值估計 法(Bayes expected a posteriori estimation procedure, EAP) 進行能力參數的 估計,能力參數估計方程式如下式所示: 利 ) ( 3 2 1 1 ) ( 33 32 31 23 22 21 13 12 11 ) ( ) 1 ( i t t t i i t i i i L L L c b a c b a ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⋅ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ Λ Λ Λ Λ Λ Λ Λ Λ Λ − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − +

Mislevy & Bock (1982) 提出以貝氏理論為基礎之貝氏後驗

= = = q k k k q k k k k j j X A X L X A X L X U E 1 1 ) ( ) ( ) ( ) ( ) , | (θ ξ 可以直接計算,不必經由迭代的過程。Mislevy Stocking (1989) 建議以 EAP 作能力參數估計的方法。 以EAP 進行能力參數估計, &

(27)

參、

,但是在實際應用過程中仍會衍生以下幾個問題(Wolfgang & Marlene , 2004 組距太大會使得圖形失真,所以由組距大小界定最佳的平滑程度有其困難度。 圖的形狀,進一步會影響到面積的估計,所以 MMLE/EM-MIX 法之能力參數估計法及改良後的 E-步驟、M-步驟如下: 1. 已知

基於核平滑化法之估計法

Bock & Aitkin(1981)所提之 MMLE/EM 法在估計試題參數過程中主要

分成E-步驟及 M-步驟,E-步驟主要目的為計算各組人數之期望值以及各組於各

題的答對人數之期望值,M-步驟主要藉由 E-步驟中所獲得的參數來估計試題參

數。BILOG-MG 在應用 MMLE/EM 估計試題參數過程中,即是使用此方法進行

試題參數之估計,然在估計過程中涉及到數值運算的部分:估計能力的機率分 布。目前BILOG-MG 採用直方圖的估計方法(Zimowski, Muraki, Mislevy & Bock, 1996)。該方法雖然很方便,亦能針對能力參數在非常態的情況下進行正 確的估計 ) 一、組距難以決定 組距的大小會對直方圖的形狀有影響,組距變大會使得曲線變得較平滑,然 二、原點難以決定 即使是同一筆資料,在固定組距大小的情況下,原點位置的不同會影響直方 由原點位置的決定有其困難度。 根據上述可知,BILOG-MG 中的 MMLE/EM 估計法是有其問題,因此張雅 媛 (2007) 提 出 基 於 MMLE/EM-MIX 估 計 法 改 良 該 步 驟 , 茲 詳 述 E-步驟 i θ ,以核平滑化法進行無參數曲線估計,得到能力參數的機率分布如下: ) ( ) 2 1 ( 1 ) ( 1 θ π θ K Nh P N j ⋅ =

=

(28)

) ] [ 1 exp( ) ( j 2 2 h K θ = − θ −θ 其中 N:樣本個數 θ:能力目標分布 j θ :已知的能力參數,用以描述能力目標分布 th) 2. 定義新的分組權重 mix k 如下: for j =1,2,L,N h:帶寬參數(bandwid ) ( X A ) ( ) 1 ( ) ( ) ( k ks k norm k mix X A X A X A =λ⋅ + −λ ⋅ for λ =[0,1] 其中 ) ( ) 2 1 ( 1 ) ( ) ( 1 k N j k k ks K X Nh X P X A = =

⋅ = π ) ] [ 1 exp( ) (X X 2 K k i k 2 h θ − − = ) 2 ) ( exp( 2 2 π σ :各組中點所代表的能力值 1 ) ( 2 σ μ − − = k k norm X X A k X k=1,2,L,q 3. 藉上述公式重新改寫fkrik值為: ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ Σ =

Σ

) ( ) ( ) ( ) ( k mix k q k k mix k N j k X A X L X A X L f ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ Σ =

Σ

q j ik r ⎢ ⎣ ⎡ ) ( ) ( ) ( ) ( k mix k k mix k ij N X A X L X A X L u M-步驟 利用牛頓法進行試題參數的迭代估計: k

(29)

如同貝式估計法,各符號定義如下: ) ( 3 2 1 1 ) ( 33 32 31 23 22 21 13 12 11 ) ( ) 1 ( i t t t i i t i i i L L L c b a c b a ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ ⋅ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ Λ Λ Λ Λ Λ Λ Λ Λ Λ − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − + a a X P X P b X X P f r f L a a a k k k k k ik k q k ⋅ − + − + − − − =

= 2 2 * 1 1 ln )] ( ) ( )[ )]( ( [ 7 . 1 σ σ μ 2 * 1 2 ) ( ) ( )] ( [ 7 . 1 b b k k k k ik k q k b X P X P X P f r af L σ μ − + − − =

= ) 1 1 1 ( ) ( 1 ) ( ) ( )] ( [ 1 * 3 c c c X P X P X P X P f r f L c c k q k k k k k ik k − + − + − − =

= β α 2 2 2 2 * 2 1 2 11 11 ln 1 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( a a X P X P X Q X P b X f L E a a a k k k k k k q k ⋅ + − + − + − − = = Λ

= σ σ μ 2 * 1 2 22 22 1 ) ( ) ( ) ( ) ( ) 7 . 1 ( ) ( b k k k k k q k P X X P X Q X P f a L E σ − + − = = Λ

= ] ) 1 ( 1 [ ) ( ) ( ) ( 1 ) 1 ( ) ( ) ( 2 2 * 1 33 33 c c X P X P c X P c X Q f L E c k k k q k k k − + + − − − = = Λ

= β 2 * 1 2 12 21 12 ] ) ( ) ( )[ ( ) ( ) ( 7 . 1 ) ( k k k k k k q k P X X P X Q X P b X af L E = − = Λ = Λ

= ) ( ) ( 1 ) ( ) ( 7 . 1 ) ( * 1 13 31 13 k k k k q k k X P X P c X Q b X f L E − − − = = Λ = Λ

= ) ( ) ( ) ( 7 . 1 ) ( * 23 32 23 k k k q X P X Q af L E = = Λ = Λ

1 1 k k= −c P X 以EAP 進行能力參數估計,能力參數估計方程式如下式所示:

(30)

= = = = q k k mix k q k k mix k k j j j X A X L X A X L X U E 1 1 ) ( ) ( ) ( ) ( ) , | (θ ξ θ 最後持續E-步驟及 M-步驟直至其概似機率不再變動為止。 MMLE/EM-MIX 估計法與 MMLE/EM 估計法一樣,使用二階段估計法。 第一階段依上述法估計試題參數完畢後,便固定試題參數,再於第二階段應用 EAP 估計法來進行能力參數的估計。期望能改進原先 MMLE/EM 在估計能力參 數分布的缺點,並期望應用於不同能力分布下進行試題參數及能力參數之估計, 都能獲得較高的估計精準度。

(31)

第三章 研究方法

本章第一節介紹研究流程,第二節介紹研究工具,第三節介紹研究設計。

第一節 研究流程

研究動機 研究目的 文獻探討 撰寫研究報告 模擬資料設定與產生 撰寫程式進行參數估計 參數估計效果評估 圖3-1-1 研究流程圖

(32)

第二節 研究工具

本研究主要研究工具為 MATLABR2007B,MATLAB 為高階數學運算程 式,程式結構類似C 語言。具有語法簡單易用、矩陣運算能力佳及繪圖功能強大 等優點。MATLAB 亦提供了豐富的函式庫,讓程式撰寫更方便。故本研究使用 此軟體為研究工具,做為模擬受試者作答反應、撰寫估計方法程式,藉以估計試 題的鑑別度、難度與猜測度參數與受試者能力值,並估算參數估計誤差。

第三節 研究設計

本研究以試題反應理論為基礎,將研究分為受試者能力模擬、題庫模擬、電 腦適性測驗模擬、參數估計與參數估計值誤差評估等五大步驟,比較於不同情境 下,利用研究工具自行開發的程試進行探究。

壹、受試者能力模擬

本研究因設定於試題反應理論三參數模式下,模擬能力值成常態、偏態、雙 峰分佈三種情況,其中偏態係指負偏,因其在測驗中出現的頻率較正偏態高。 施測人數設定基準為。每一群的人數有500、1000、…、3000人等不同情況。 模擬方式為先模擬3000人的能力參數做為研究中受試者能力值之真值,再從中抽 取依照設定人數範圍的能力參數作為他組的能力參數。

(33)

貳、題庫模擬

本研究蒐集IRT相關文獻之試題參數模擬整理如下表。 表3-3-1 IRT相關文獻之模擬試題參數設定

title a b c

More Effcient Markov Chain Monte Carlo Estimation in IRT Using Marginal Posteriors (Yao & Hanson, 2002)

N(0,1) lognormal beta "Guessing" Parameter Estimates

for Multidimensional IRT Models (DeMars, 2005)

Lognormal

(-0.695,4) N (0,4) beta (5,17) Data Sparseness and Online

Pretest Item Calibration/Scaling Methods in CAT (Ban, Hanson, Yi & Harris, 2001)

lognormal (0, 0.5)

beta(1.01,

1.01, -6, 6) beta (5, 17) Item Parameter Calibration of

LSAT Items Using MCMC

Approximation of Bayes Posterior Distributions (Jones & Nediak, 2000)

lognormal normal beta

Bayesian or Non-Bayesian: A Comparison Study of Item Parameter Estimation in the Three-Parameter Logistic Model(Gao & Lisue, 2005)

Lognormal

(0, 0.5) N(0, 2) beta(5, 17) Testing Linear Models for Ability

Parameters in Item Response Models (Glas & Hendrawan, 2005)

Lognormal

(0,0.25) normal

Modeling Variability in Item Parameters in Educational Measurement (Glas & van der Linden, 2006)

normal normal normal A Study of the Use of Collateral

Statistical Information in Attempting to Reduce TOEFL IRT Item Parameter Estimation Sample Sizes(Tang & Eignor, 2001)

(34)

title a b c Comparing the Effectiveness of

Procedures to Detect Item Parameter Drift(Donoghue & Isham, 1996)

lognormal N(0,1) 0.2 Estimating the Effects of Test

Length and Test Time on

Parameter Estimation Using the HYERID Model (Yamamoto., 1995)

N(1,0.4) N(0,0.8)

Bayes modal estimation in item

response models (Mislevy, 1986) lognormal (1.13, 0.6) N(0,1) beta(4,16) 本研究參考上述文獻設定試題參數。

本研究根據 Glas & Hendrawan (2005)設定各試題的參數分布如下:鑑別度 參數a~lognormal(0,0.25)、難度參數 b~N(0,1),猜測度參數則另行採用 Mislevy (1986)設定為 c~ beta(4,16),並限制其最大值與最小值,避免極端值及不合理的 試題參數發生。

參、電腦適性測驗模擬

一、試題參數的設定 除了將原始模擬生成參數做為真值外,模擬試題參數之真值分為二種不同設 計。如實驗一、實驗二所示: 實驗一:先模擬1100 題數的試題參數,再從中抽取 100 題數的試題參數當做新 增題庫,剩下的 1000 題則當做本研究電腦適性測驗之題庫,用來對受 試者的能力值進行估計。 實驗二:先模擬1100 題數的試題參數,再從中抽取 100 題數的試題參數當做新 增題庫,剩下的 1000 題之試題參數真值與能力真值模擬生成原始作答

(35)

反應後,再利用能力真值與原始作答反應結合估計 1000 題的試題參

數,將新估計 1000 題之試題參數當做電腦適性測驗題庫,此一方式是

為了模擬之結果能夠更接近現實情境。

二、模擬電腦適性測驗的相關設定

選題方法採用最大訊息法(maximum fisher information),從 1000 題的題

庫中進行測驗長度為 30 題之測驗,使用貝氏後驗機率期望值估計法(Bayes

expected a posteriori estimation procedure)先對受試者進行第一次能力值估計

後,從 100 題新增題庫中隨機抽取試題來加入新增試題(試題參數未知),新增

試題的測驗長度為 5 題與 10 題,期能藉此能初步估計新增試題之參數。詳細流

(36)

否 是 設定初始值(模擬資料:受試者能力值、試題參數) 選題方法 終止條件 題庫作答反應 新增試題之作答反應 分配新增試題 能力估計θˆ1 題 庫( 試 題 參 數 已 知) 新 增 試 題( 試 題 參 數 未 知) 試題參數估計誤差評估 估計新題目試題參數 圖3-3-1 針對新增試題之試題參數估計流程圖 由上圖可知,新增試題(需控制新增題數的多寡)給受試者,透過能力估計 值 與新增試題的試題參數真值產生模擬其作答反應後,再以作答反應進行試題 參數估計後得到估計值,此為新增試題的試題參數估計值,計算真值與估計值的 均方根誤差(root mean squared error, RMSE)。同時也將能力估計值 與模擬之

能力真值比較,計算其RMSE。 1 ˆ θ 1 ˆ θ 經由上述步驟後,再將已初步估計參數之試題加入,探討受試者能力估計精

(37)

準度之影響。流程圖如圖3-2-2。 否 是 設定初始值(模擬資料:受試者能力值、試題參數) 選題方法 終止條件 題庫作答反應 初步估計參數試題之作答反應 分配初步估計之試題 合併作答反應 題 庫( 試 題 參 數 已 知) 初 步 估 計 試 題 參 數 之 試 題 能力估計θˆ1 能力估計θˆ2 加入初步估計參數之試題後,受試者能力估計誤差評估 圖3-3-2 將初步估計試題加入對受試者能力參數進行估計之流程圖 透過上述的步驟不斷模擬,比較能力估計值 與能力估計值 的估計精準 度,探究加入初步估計參數之試題與否,對於受試者能力估計的影響,經由評估 結果,求出增加多少新試題會使受試者的能力值估計值精準至合理範圍,以及須 多少人參與施測,才會得到精準試題參數與能力估計值。 1 2 ˆ θ θˆ

(38)

肆、參數估計

張 雅 媛 (2007) 提 出 MMLE/EM-MIX 法 , 是 以 基 於 核 平 滑 化 ( kernel smoothing)的方法,開發新的參數估計法之研究,改良原先 BILOG-MG 進行 試題參數估計 MMLE/EM 過程中數值積分的問題。本研究中能力值與試題參數 估計方法,均採用MMLE/EM-MIX 法,自行開發程式來估計。

伍、參數估計值誤差評估

本研究視原始生成參數為真值,以真值產生作答反應,再以作答反應進行參 數估計後得到估計值,計算真值與估計值的均方根誤差(root mean squared error, RMSE)。本研究求模擬 100 次的平均,作為參數估計誤差,依此來評斷參 數估計的效果。 RMSE 是根據能力值、鑑別度、難度參數及猜測度參數分別計算。其數學式 如下所示: ㄧ、能力值

= − = N j j j N RMSE 1 2 ) ( 1 ) (θ ϑ θ 其中 θ :第j j位能力值估計值 j ϑ : 第 j位能力值真值 N:受試者人數 二、鑑別度參數

= − = n i i i a n a RMSE 1 2 ) ( 1 ) ( α

(39)

i i 其中 :第 題鑑別度估計值 a i α :第i題鑑別度參數真值 n:試題題數 三、難度參數

= − = n i i i b n b RMSE 1 2 ) ( 1 ) ( β 其中 :第 題難度估計值 i i b i β :第i題難度參數真值 n:試題題數 四、猜測度參數

= − = n i i i c n c RMSE 1 2 ) ( 1 ) ( ζ 其中 :第i i題猜測度估計值 i c ζ :第 題猜測度參數真值 i n:試題題數

(40)

第四章 研究結果

本章分為三節,第一節為實驗一之參數估計誤差結果,第二節為實驗二之參 數估計誤差結果,第三節為實驗一與實驗二結果之比較。

第一節 實驗一之結果

本節為實驗一之參數估計誤差結果,分別依受試者能力值分布的不同,樣本 數分別500、1000、…、3000 人時,基本測驗長度 30 題,新增試題測驗長度分 別為5 題與 10 題,以自行開發的程式來進行參數估計,其中題庫試題與新增試 題的試題參數均採用真值。

壹、受試者能力值在常態分布下

在能力值呈現常態分布時,利用受試者在接受基本測驗 30 題後先行估計之 能力估計值 ,對新增之試題做試題參數估計,估算出試題參數值後,再將新增 試題參數與 30 題試題參數合併來對受試者能力再一次估計。其結果呈現於表 4-1-1。 1 ˆ θ 由表 4-1-1 結果可知隨著受試者人數增加,其各參數估計誤差逐漸減少;而 不管新增試題數為何,其試題參數估計誤差無明顯變動。

(41)

表4-1-1 實驗一中常態分布下,新增試題之參數估計誤差 新增5 題 Theta A b c RMSE 0.3244 0.1696 0.1813 0.0344 500 人 RMSE_std 0.0081 0.0248 0.0324 0.0113 RMSE 0.3226 0.1662 0.1791 0.0335 1000 人 RMSE_std 0.0059 0.0242 0.0313 0.0102 RMSE 0.3215 0.1612 0.1749 0.0330 1500 人 RMSE_std 0.0048 0.0213 0.0271 0.0098 RMSE 0.3204 0.1583 0.1734 0.0326 2000 人 RMSE_std 0.0037 0.0199 0.0244 0.0097 RMSE 0.3186 0.1568 0.1724 0.0317 2500 人 RMSE_std 0.0037 0.0194 0.0247 0.0085 RMSE 0.3155 0.1556 0.1702 0.0314 3000 人 RMSE_std 0.0035 0.0187 0.0249 0.0087 新增10 題 Theta a b c RMSE 0.3051 0.1668 0.1816 0.0342 500 人 RMSE_std 0.0072 0.0201 0.0157 0.0057 RMSE 0.3044 0.1651 0.1786 0.0340 1000 人 RMSE_std 0.0050 0.0187 0.0122 0.0048 RMSE 0.3033 0.1599 0.1738 0.0333 1500 人 RMSE_std 0.0044 0.0166 0.0117 0.0041 RMSE 0.3025 0.1587 0.1732 0.0324 2000 人 RMSE_std 0.0035 0.0166 0.0101 0.0045 RMSE 0.2985 0.1577 0.1715 0.0316 2500 人 RMSE_std 0.0030 0.0158 0.0106 0.0038 RMSE 0.2973 0.1569 0.1704 0.0308 3000 人 RMSE_std 0.0029 0.0164 0.0104 0.0036

貳、受試者能力值在雙峰分布下

在能力值呈現雙峰分布時,利用受試者在接受基本測驗 30 題後先行估計之 能力估計值 ,對新增之試題做試題參數估計,估算出試題參數值後,再將新增 試題參數與 30 題試題參數合併來對受試者能力再一次估計。其結果呈現於表 1 ˆ θ

(42)

4-1-2。 由表 4-1-2 結果可知隨著受試者人數增加,其各參數估計誤差逐漸減少;而 不管新增試題數為何,其試題參數估計誤差無明顯變動。 表4-1-2 實驗一中雙峰分布下,新增試題之參數估計誤差 新增5 題 Theta a b c RMSE 0.3268 0.1393 0.2690 0.0360 500 人 RMSE_std 0.0049 0.0228 0.0248 0.0062 RMSE 0.3237 0.1388 0.2686 0.0356 1000 人 RMSE_std 0.0046 0.0230 0.0164 0.0050 RMSE 0.3234 0.1344 0.2676 0.0351 1500 人 RMSE_std 0.0036 0.0232 0.0119 0.0057 RMSE 0.3217 0.1331 0.2645 0.0347 2000 人 RMSE_std 0.0033 0.0214 0.0116 0.0058 RMSE 0.3207 0.1297 0.2622 0.0346 2500 人 RMSE_std 0.0021 0.0202 0.0103 0.0056 RMSE 0.3172 0.1274 0.2603 0.0337 3000 人 RMSE_std 0.0026 0.0218 0.010953 0.005372 新增10 題 Theta a b c RMSE 0.3223 0.1392 0.2688 0.0359 500 人 RMSE_std 0.0050 0.0182 0.0152 0.0055 RMSE 0.3222 0.1387 0.2681 0.0354 1000 人 RMSE_std 0.0038 0.0171 0.0126 0.0053 RMSE 0.3233 0.1341 0.2675 0.0352 1500 人 RMSE_std 0.0030 0.0159 0.0102 0.0051 RMSE 0.3203 0.1329 0.2640 0.0346 2000 人 RMSE_std 0.0033 0.0153 0.0090 0.0043 RMSE 0.3185 0.1296 0.2620 0.0344 2500 人 RMSE_std 0.0019 0.0142 0.0090 0.0040 RMSE 0.3153 0.1271 0.2592 0.0336 3000 人 RMSE_std 0.0024 0.0160 0.0079 0.0037

(43)

參、受試者能力值在偏態分布下

在能力值呈現偏態分布時,利用受試者在接受基本測驗 30 題後先行估計之 能力估計值 ,對新增之試題做試題參數估計,估算出試題參數值後,再將新增 試題參數與 30 題試題參數合併來對受試者能力再一次估計。其結果呈現於表 4-1-3。 1 ˆ θ 由表 4-1-3 結果可知隨著受試者人數增加,其各試題參數估計誤差逐漸減 少,而不管新增試題數為何;但難度參數呈現過高之結果,導致能力參數估計誤 差偏高且呈現不規則情狀。 表4-1-3 實驗一中偏態分布下,新增試題之參數估計誤差 新增5 題 Theta a b c RMSE 1.0754 0.1576 1.0033 0.0469 500 人 RMSE_std 0.0040 0.0246 0.0194 0.0072 RMSE 1.0342 0.1566 0.9984 0.0459 1000 人 RMSE_std 0.0019 0.0259 0.0130 0.0057 RMSE 1.0247 0.1531 0.9975 0.0453 1500 人 RMSE_std 0.0010 0.0197 0.0111 0.0052 RMSE 1.0644 0.1527 0.9920 0.0452 2000 人 RMSE_std 0.0018 0.0209 0.0091 0.0046 RMSE 1.0242 0.1524 0.9862 0.0441 2500 人 RMSE_std 0.0008 0.0157 0.0090 0.0049 RMSE 1.0421 0.1503 0.9838 0.0431 3000 人 RMSE_std 0.0011 0.0159 0.0084 0.0047 新增10 題 Theta a b c RMSE 1.0477 0.1575 0.9995 0.0462 500 人 RMSE_std 0.0036 0.0206 0.0123 0.0058 RMSE 1.0268 0.1554 0.9988 0.0458 1000 人 RMSE_std 0.0019 0.0159 0.0098 0.0053 RMSE 1.0211 0.1530 0.9987 0.0454 1500 人 RMSE_std 0.0011 0.0147 0.0079 0.0045 RMSE 1.0462 0.1525 0.9928 0.0451 2000 人

(44)

新增10 題 Theta a b c RMSE 1.0215 0.1524 0.9891 0.0443 2500 人 RMSE_std 0.0009 0.0152 0.0079 0.0052 RMSE 1.0319 0.1499 0.9860 0.0433 3000 人 RMSE_std 0.0010 0.0126 0.0066 0.0055

第二節 實驗二之結果

本節為實驗二之參數估計誤差結果,分受試者能力值分布的不同,樣本數分 別500、1000、…、3000 人時,基本測驗長度 30 題,新增試題測驗長度為 5 題 與10 題,以自行開發的程式來進行參數估計,其中題庫試題之試題參數不採用 真值,而新增試題的試題參數採用真值。

壹、 受試者能力值在常態分布下

在能力值呈現常態分布時,利用受試者在接受基本測驗 30 題後先行估計之 能力估計值 ,對新增之試題做試題參數估計,估算出試題參數值後,再將新增 試題參數與 30 題試題參數合併來對受試者能力再一次估計。其結果呈現於表 4-2-1。 1 ˆ θ 由表 4-2-1 結果可知實驗二估計之參數值均較實驗一估計之參數值高,也隨 著受試者人數增加,其各參數估計誤差逐漸減少;而不管新增試題數為何,其試 題參數估計誤差無明顯變動。

(45)

表4-2-1 實驗二中常態分布下,新增試題之參數估計誤差 新增5 題 Theta a b C RMSE 0.3541 0.1738 0.1785 0.0367 500 人 RMSE_std 0.0067 0.0252 0.0273 0.0099 RMSE 0.3535 0.1700 0.1758 0.0366 1000 人 RMSE_std 0.0049 0.0236 0.0267 0.0112 RMSE 0.3462 0.1690 0.1752 0.0361 1500 人 RMSE_std 0.0040 0.0208 0.0245 0.0091 RMSE 0.3458 0.1685 0.1744 0.0344 2000 人 RMSE_std 0.0037 0.0191 0.0261 0.0093 RMSE 0.3453 0.1658 0.1726 0.0343 2500 人 RMSE_std 0.0035 0.0212 0.0233 0.0097 RMSE 0.3422 0.1630 0.1709 0.0338 3000 人 RMSE_std 0.0033 0.0212 0.0264 0.0081 新增10 題 Theta a b c RMSE 0.3382 0.1725 0.1784 0.0366 500 人 RMSE_std 0.0063 0.0208 0.0154 0.0060 RMSE 0.3373 0.1694 0.1756 0.0365 1000 人 RMSE_std 0.0043 0.0186 0.0127 0.0044 RMSE 0.3309 0.1692 0.1749 0.0361 1500 人 RMSE_std 0.0032 0.0164 0.0111 0.0042 RMSE 0.3253 0.1682 0.1740 0.0344 2000 人 RMSE_std 0.0035 0.0165 0.0107 0.0040 RMSE 0.3242 0.1653 0.1724 0.0343 2500 人 RMSE_std 0.0030 0.0157 0.0105 0.0039 RMSE 0.3229 0.1628 0.1713 0.0336 3000 人 RMSE_std 0.0031 0.0163 0.0098 0.0037

貳、受試者能力值在雙峰分布下

在能力值呈現雙峰分布時,利用受試者在接受基本測驗 30 題後先行估計之 能力估計值 ,對新增之試題做試題參數估計,估算出試題參數值後,再將新增 試題參數與 30 題試題參數合併來對受試者能力再一次估計。其結果呈現於表 1 ˆ θ

(46)

4-2-2。 由表 4-2-2 結果可知實驗二估計之參數值均較實驗一估計之參數值高,也隨 著受試者人數增加,其各參數估計誤差逐漸減少;而不管新增試題數為何,其試 題參數估計誤差無明顯變動。 表4-2-2 實驗二中雙峰分布下,新增試題之參數估計誤差 新增5 題 Theta a b c RMSE 0.3461 0.1424 0.2758 0.0440 500 人 RMSE_std 0.0058 0.0219 0.0235 0.0065 RMSE 0.3336 0.1420 0.2702 0.0417 1000 人 RMSE_std 0.0033 0.0233 0.0154 0.0044 RMSE 0.3334 0.1413 0.2671 0.0373 1500 人 RMSE_std 0.0030 0.0224 0.0138 0.0058 RMSE 0.3281 0.1394 0.2649 0.0350 2000 人 RMSE_std 0.0025 0.0218 0.0118 0.0060 RMSE 0.3280 0.1387 0.2631 0.0347 2500 人 RMSE_std 0.0021 0.0203 0.0124 0.0055 RMSE 0.3239 0.1382 0.2599 0.0344 3000 人 RMSE_std 0.0026 0.0229 0.0128 0.0059 新增10 題 Theta a b c RMSE 0.3388 0.1422 0.2754 0.0439 500 人 RMSE_std 0.0055 0.0180 0.0149 0.0053 RMSE 0.3268 0.1419 0.2699 0.0406 1000 人 RMSE_std 0.0033 0.0168 0.0129 0.0052 RMSE 0.3240 0.1411 0.2647 0.0373 1500 人 RMSE_std 0.0030 0.0159 0.0104 0.0048 RMSE 0.3224 0.1391 0.2641 0.0351 2000 人 RMSE_std 0.0026 0.0149 0.0087 0.0043 RMSE 0.3177 0.1383 0.2620 0.0347 2500 人 RMSE_std 0.0022 0.0142 0.0094 0.0042 RMSE 0.3166 0.1381 0.2592 0.0342 3000 人 RMSE_std 0.0023 0.0161 0.0081 0.0041

(47)

參、受試者能力值在偏態分布下

在能力值呈現偏態分布時,利用受試者在接受基本測驗 30 題後先行估計之 能力估計值 ,對新增之試題做試題參數估計,估算出試題參數值後,再將新增 試題參數與 30 題試題參數合併來對受試者能力再一次估計。其結果呈現於表 4-2-3。 1 ˆ θ 由表 4-2-3 結果可知實驗二估計之參數值均較實驗一估計之參數值高,也隨 著人數增加,各參數估計誤差逐漸減少,而不管新增試題數為何;但難度參數估 計上也與實驗一結果相同,呈現過高之結果。 表4-2-3 實驗二中偏態分布下,新增試題之參數估計誤差 新增5 題 Theta a b c RMSE 1.0512 0.1681 1.0017 0.0465 500 人 RMSE_std 0.0031 0.0246 0.0188 0.0074 RMSE 1.0410 0.1619 1.0001 0.0464 1000 人 RMSE_std 0.0021 0.0256 0.0131 0.0056 RMSE 1.0198 0.1561 0.9991 0.0458 1500 人 RMSE_std 0.0012 0.0200 0.0114 0.0052 RMSE 1.0582 0.1533 0.9952 0.0447 2000 人 RMSE_std 0.0019 0.0209 0.0093 0.0047 RMSE 1.0204 0.1529 0.9950 0.0440 2500 人 RMSE_std 0.0009 0.0157 0.0090 0.0049 RMSE 1.0420 0.1511 0.9908 0.0432 3000 人 RMSE_std 0.0011 0.0158 0.0082121 0.0046 新增10 題 Theta a b c RMSE 1.0357 0.1679 1.0026 0.0462 500 人 RMSE_std 0.0027 0.0207 0.0112 0.0059 RMSE 1.0312 0.1608 0.9998 0.0460 1000 人 RMSE_std 0.0019 0.0161 0.0096 0.0049 RMSE 1.0170 0.1561 0.9961 0.0454 1500 人 RMSE_std 0.0012 0.0144 0.0082 0.0041 RMSE 1.0424 0.1540 0.9943 0.0448 2000 人

(48)

新增10 題 Theta a b c RMSE 1.0175 0.1530 0.9940 0.0445 2500 人 RMSE_std 0.0009 0.0156 0.0074 0.0049 RMSE 1.0323 0.1519 0.9904 0.0440 3000 人 RMSE_std 0.0012 0.0122 0.0069 0.0050

第三節 實驗結果之比較

本節就實驗一、二之結果,分別對能力為常態、雙峰及偏態分布時,測驗長 度30 題,新增試題 5 題與 10 時,其試題參數與能力參數之估計誤差比較。

壹、受試者能力值在常態分布下

一、試題參數 圖 4-3-1 至圖 4-3-3 為實驗一、二試題參數估計誤差,由其呈現的結果可知 實驗二因題庫試題參數未採用初始模擬真值,而是藉由試題參數真值與能力真值 模擬生成原始作答反應後,再利用能力真值與原始作答反應結合估計的試題參數 估計值,故估計之結果均較實驗一來得高。不論實驗一、二,隨著受試者人數增 加,其各參數估計誤差逐漸減少;而不管新增試題數為何,其試題參數估計誤差 無明顯變動。

(49)

實驗一常態分布下新增試題之鑑別度參數誤差 0.1450 0.1500 0.1550 0.1600 0.1650 0.1700 0.1750 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二常態分布下新增試題之鑑別度參數誤差 0.1550 0.1600 0.1650 0.1700 0.1750 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 圖4-3-1 常態分布下,實驗一與實驗二新增試題的鑑別度參數之估計誤差

(50)

實驗一常態分布下新增試題之難度參數誤差 0.1660 0.1680 0.1700 0.1720 0.1740 0.1760 0.1780 0.1800 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二常態分布下新增試題之難度參數誤差 0.1650 0.1700 0.1750 0.1800 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 圖4-3-2 常態分布下,實驗一與實驗二新增試題的難度參數之估計誤差

(51)

圖4-3-3 常態分布下,實驗一與實驗二新增試題的猜測度參數之估計誤差 二、能力參數 表 4-3-1 與圖 4-3-4 為實驗一、二能力參數估計誤差比較,由圖與表的結果呈現可 知,在實驗二中估計受試者能力參數之誤差比實驗一的結果較高。新增試題可使能力估 計更精確。 表 4-3-1 常態分布下,實驗一、二新增試題的受試者能力參數估計誤差之比較 實驗一結果 實驗二之結果 人數 未加入 新試題 新增5 題 新增 5 題 新增 10 題 新增 10 題 500 人 RMSE 0.3247 0.3244 0.3541 0.3051 0.3382 實驗一常態分布下新增試題之猜測度參數誤差 0.0290 0.0300 0.0310 0.0320 0.0330 0.0340 0.0350 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二常態分布下新增試題之猜測度參數誤差 0.0310 0.0320 0.0330 0.0340 0.0350 0.0360 0.0370 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題

(52)

實驗一結果 實驗二之結果 人數 未加入 新試題 新增5 題 新增 5 題 新增 10 題 新增 10 題 1000 人 RMSE 0.3300 0.3226 0.3535 0.3044 0.3373 1500 人 RMSE 0.3312 0.3215 0.3462 0.3033 0.3309 2000 人 RMSE 0.3257 0.3204 0.3458 0.3025 0.3253 2500 人 RMSE 0.3347 0.3186 0.3453 0.2985 0.3242 3000 人 RMSE 0.3324 0.3155 0.3422 0.2973 0.3229 實驗一常態分布下加入新增試題估計之能力估計誤差比較 0.2700 0.2800 0.2900 0.3000 0.3100 0.3200 0.3300 0.3400 500人 1000人 1500人 2000人 2500人 3000人 人數 RMSE 未加入新試題之估計誤差 新增5題之估計誤差 新增10題之估計誤差 實驗二常態分布下加入新增試題估計之能力估計誤差比較 0.2900 0.3000 0.3100 0.3200 0.3300 0.3400 0.3500 0.3600 0.3700 0.3800 500人 1000人 1500人 2000人 2500人 3000人 人數 RMSE 未加入新試題之估計誤差 新增5題之估計誤差 新增10題之估計誤差 圖4-3-4 常態分布下實驗一與實驗二加入新增試題估計之能力估計誤差比較

(53)

貳、受試者能力值在雙峰分布下

一、試題參數 圖 4-3-5 至圖 4-3-7 為實驗一、二試題參數估計誤差,由其呈現的結果可知 實驗二因題庫試題參數未採用初始模擬真值,而是試題參數估計值,故估計之結 果均較實驗一來得高。不論實驗一、二,隨著受試者人數增加,其各參數估計誤 差逐漸減少;而不管新增試題數為何,其試題參數估計誤差無明顯變動。 實驗一雙峰分布下新增試題之鑑別度參數誤差 0.1200 0.1250 0.1300 0.1350 0.1400 0.1450 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二雙峰分布下新增試題之鑑別度參數誤差 0.1340 0.1360 0.1380 0.1400 0.1420 0.1440 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 圖4-3-5 雙峰分布下,實驗一與實驗二新增試題的鑑別度參數之估計誤差

(54)

實驗一雙峰分布下新增試題之難度參數誤差 0.2500 0.2550 0.2600 0.2650 0.2700 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二雙峰分布下新增試題之難度參數誤差 0.2500 0.2600 0.2700 0.2800 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 圖4-3-6 雙峰分布下,實驗一與實驗二新增試題的難度參數之估計誤差

(55)

圖4-3-7 雙峰分布下,實驗一與實驗二新增試題的猜測度參數之估計誤差 二、能力參數 表 4-3-2 與圖 4-3-8 為實驗一、二能力參數估計誤差比較,由圖與表的結果呈現可 知,在實驗二中估計受試者能力參數之誤差比實驗一的結果較高。新增試題可使能力估 計更精確。 表 4-3-2 雙峰分布下,實驗一、二新增試題的受試者能力參數估計誤差之比較 實驗一結果 實驗二之結果 人數 未加入 新試題 新增5 題 新增 5 題 新增 10 題 新增 10 題 500 人 RMSE 0.3361 0.3268 0.3223 0.3461 0.3388 實驗一雙峰分布下新增試題之猜測度參數誤差 0.0320 0.0330 0.0340 0.0350 0.0360 0.0370 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RM S E 5題 10題 實驗二雙峰分布下新增試題之猜測度參數誤差 0.0000 0.0100 0.0200 0.0300 0.0400 0.0500 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題

(56)

實驗一結果 實驗二之結果 人數 未加入 新試題 新增5 題 新增 5 題 新增 10 題 新增 10 題 1500 人 RMSE 0.3404 0.3234 0.3233 0.3334 0.3240 2000 人 RMSE 0.3393 0.3217 0.3203 0.3281 0.3224 2500 人 RMSE 0.3296 0.3207 0.3185 0.3280 0.3177 3000 人 RMSE 0.3400 0.3172 0.3153 0.3239 0.3166 實驗一雙峰分布下加入新增試題估計之能力估計誤差比較 0.3000 0.3050 0.3100 0.3150 0.3200 0.3250 0.3300 0.3350 0.3400 0.3450 500人 1000人 1500人 2000人 2500人 3000人 人數 RMSE 未加入新試題之估計誤差 新增5題之估計誤差 新增10題之估計誤差 實驗二雙峰分布下加入新增試題估計之能力估計誤差比較 0.2900 0.3000 0.3100 0.3200 0.3300 0.3400 0.3500 0.3600 0.3700 0.3800 0.3900 500人 1000人 1500人 2000人 2500人 3000人 人數 RMSE 未加入新試題之估計誤差 新增5題之估計誤差 新增10題之估計誤差 圖4-3-8 雙峰分布下實驗一與實驗二加入新增試題估計之能力估計誤差比較

(57)

參、受試者能力值在偏態分布下

一、試題參數 圖 4-3-9 至圖 4-3-11 為實驗一、二試題參數估計誤差,由其呈現的結果可知 實驗二因題庫試題參數未採用初始模擬真值,而是試題參數估計值,故估計之結 果均較實驗一來得高。不論實驗一、二,隨著人數增加,其各參數估計誤差逐漸 減少;在圖4-3-10 呈現難度參數過高之情況,其試題參數估計誤差明顯過高。 實驗一偏態分布下新增試題之鑑別度參數誤差 0.1460 0.1480 0.1500 0.1520 0.1540 0.1560 0.1580 0.1600 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二偏態分布下新增試題之鑑別度參數誤差 0.1400 0.1450 0.1500 0.1550 0.1600 0.1650 0.1700 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 圖4-3-9 偏態分布下,實驗一與實驗二新增試題的鑑別度參數之估計誤差

(58)

實驗一偏態分布下新增試題之難度參數誤差 0.9700 0.9750 0.9800 0.9850 0.9900 0.9950 1.0000 1.0050 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二偏態分布下新增試題之難度參數誤差 0.9800 0.9850 0.9900 0.9950 1.0000 1.0050 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 圖4-3-10 偏態分布下,實驗一與實驗二新增試題的難度參數之估計誤差

(59)

圖4-3-11 偏態分布下,實驗一與實驗二新增試題的猜測度參數之估計誤差 二、能力參數 表 4-3-3 與圖 4-3-12 為實驗一、二能力參數估計誤差比較,由圖與表的結果呈現可 知,在實驗二中估計受試者能力參數之誤差比實驗一的結果較高。同時因在試題參數中 的難度參數估計結果過高不精準的情形下,新增試題無法使能力估計更精確。 表 4-3-3 偏態分布下,實驗一、二新增試題的受試者能力參數估計誤差之比較 實驗一結果 實驗二之結果 人數 未加入 新試題 新增5 題 新增5 題 新增 10 題 新增 10 題 500 人 RMSE 0.3667 1.0754 1.0477 1.0512 1.0357 實驗一偏態分布下新增試題之猜測度參數誤差 0.0410 0.0420 0.0430 0.0440 0.0450 0.0460 0.0470 0.0480 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題 實驗二偏態分布下新增試題之猜測度參數誤差 0.0410 0.0420 0.0430 0.0440 0.0450 0.0460 0.0470 500人 1000人 1500人 2000人 2500人 3000人 受試人數 RMSE 5題 10題

(60)

實驗一結果 實驗二之結果 人數 未加入 新試題 新增5 題 新增5 題 新增 10 題 新增 10 題 1000 人 RMSE 0.3606 1.0342 1.0268 1.0410 1.0312 1500 人 RMSE 0.3688 1.0247 1.0211 1.0198 1.0170 2000 人 RMSE 0.3656 1.0644 1.0462 1.0582 1.0424 2500 人 RMSE 0.3685 1.0242 1.0215 1.0204 1.0175 3000 人 RMSE 0.3720 1.0421 1.0319 1.0420 1.0323 圖4-3-12 偏態分布下實驗一與實驗二加入新增試題估計之能力估計誤差比較 偏態分布下加入新增試題估計之能力估計誤差比較 0.2900 0.3900 0.4900 0.5900 0.6900 0.7900 0.8900 0.9900 1.0900 1.1900 500人 1000人 1500人 2000人 2500人 3000人 人數 RMSE 未加入新試題之估計誤差 新增5題之估計誤差 新增10題之估計誤差 偏態分布下加入新增試題估計之能力估計誤差比較 0.2900 0.3900 0.4900 0.5900 0.6900 0.7900 0.8900 0.9900 1.0900 1.1900 500人 1000人 1500人 2000人 2500人 3000人 人數 RMSE 未加入新試題之估計誤差 新增5題之估計誤差 新增10題之估計誤差

參考文獻

相關文件

Using a one-factor higher-order item response theory (HO-IRT) model formulation, it is pos- ited that an examinee’s performance in each domain is accounted for by a

The left panel shows boxplots showing the 100 posterior predictive p values (PPP-values) for each observed raw score across the 100 simulated data sets generated from

For a polytomous item measuring the first-order latent trait, the item response function can be the generalized partial credit model (Muraki, 1992), the partial credit model

For example, even though no payment was made on the interest expenses for the bank loan in item (vi), the interest expenses should be calculated based on the number of

(approximation)依次的進行分解,因此能夠將一個原始輸入訊號分 解成許多較低解析(lower resolution)的成分,這個過程如 Figure 3.4.1 所示,在小波轉換中此過程被稱為

Keywords: time management, the analysis of the factor, the analysis of the reliability and the validity... 第一章

Keyword: Assessment theory, Item selection strategy, Genetic algorithms, Revision of Bloom’s taxonomy.. Student:Shao-Hsuan Huang

This research is focused on the integration of test theory, item response theory (IRT), network technology, and database management into an online adaptive test system developed