• 沒有找到結果。

以HO-IRT為基礎之數學領域電腦適性測驗系統建置

N/A
N/A
Protected

Academic year: 2021

Share "以HO-IRT為基礎之數學領域電腦適性測驗系統建置"

Copied!
88
0
0

加載中.... (立即查看全文)

全文

(1)國立臺中教育大學數學教育研究所碩士論文. 指導教授:施淑娟. 博士. 以 HO-IRT 為基礎之數學領域電腦適 性測驗系統建置. 研究生:蔡慶皇. 中. 華. 民. 國. 九. 十. 撰. 九. 年. 六. 月.

(2)

(3) 摘要 目前國際上較著名的大型標準化測驗皆為高階層的評量架構,以 PISA 數學科架構為例,分為兩階層數學能力。本研究目的為了改善單向度試題 反應模式與多向度試題反應模式,仿照此架構,以高階層試題反應理論模 式為基礎,建置一套高階層電腦適性測驗系統(High-order computerized adaptive testing, HCAT)。 本研究成果如下︰ 一、使用多向度試題反應模式的多向度隨機係數多項洛基模式 (multidimensional random coefficients multinomial logit model)並搭配 Multidimensional CAT Approach 與 Unidimensional CAT Approach 兩種 方法,將高階層試題反應模型落實到電腦適性測驗系統中。 二、從模擬資料與實徵資料的結果顯示,當題庫完善時,使用 Multidimensional CAT Approach 搭配最大後驗估計法,其成效最佳。 三、建置高階層電腦適性測驗的使用者介面,讓受試者可以參加測驗並查 詢成果,也能讓管理者擁有後端管理的平台。. 關鍵字:電腦適性測驗、高階層試題反應理論、多向度試題反應理論. I.

(4) Abstract The assessment framework of the many large-scale standardized tests are the higher-order assessment framework, such as the programme for international student assessment (PISA), is divided into two classes of mathematical ability. This study follow the framework and base on the High-order. IRT model to improve the unidimensional item response model and multidimensional item response model and develop high-order computerized adaptive testing (HCAT) system. The results of this study are as follows: 1. Using MRCMLM with Multidimensional CAT Approach or with Unidimensional CAT Approach to implement the high-order item response model in CAT. 2. The results of the simulation data and empirical data show that when the item bank perfect, the best results is using Multidimensional CAT Approach with MAP. 3. Built the user interface for HACT that let examinee participate in test and check the results, but also allows manager manage the system.. Keywords: computerized adaptive testing, Higher-order item response theory, Multidimensional item response theory. II.

(5) 目錄 摘要 ...................................................................................................................... I Abstract ............................................................................................................... II 目錄 ................................................................................................................... III 表目錄 ............................................................................................................... IV 圖目錄 ................................................................................................................ V 第一章 緒論 ....................................................................................................... 1 第一節 研究動機 ....................................................................................... 1 第二節 研究目的 ....................................................................................... 2 第三節 名詞解釋 ....................................................................................... 3 第二章 文獻探討............................................................................................... 5 第一節 試題反應理論 ............................................................................... 5 第二節 電腦適性測驗 ............................................................................. 11 第三章 研究方法............................................................................................. 27 第一節 研究流程 ..................................................................................... 27 第二節 模擬 HCAT 實驗設計 ................................................................. 28 第三節 實徵資料 ..................................................................................... 32 第四節 系統分析與設計 ......................................................................... 34 第五節 研究工具 ..................................................................................... 39 第四章 研究結果與討論................................................................................. 41 第一節 能力估計結果 ............................................................................. 41 第二節 實徵資料模擬 CAT 之成效........................................................ 50 第三節 系統建置成果 ............................................................................. 59 第五章 結論與建議......................................................................................... 65 第一節 結論 ............................................................................................. 65 第二節 建議 ............................................................................................. 66 參考文獻 ........................................................................................................... 67 中文參考文獻 ........................................................................................... 67 英文參考文獻 ........................................................................................... 69 附錄一、數學科題庫難度參數....................................................................... 75 附錄二、數學科推理題庫難度參數............................................................... 77 附錄三、系統實作成果................................................................................... 78. III.

(6) 表目錄 表 1 數學科測驗各次級量尺參數.................................................................. 32 表 2 數學科測驗各次級量尺對應題數.......................................................... 33 表 3 數學科推理測驗各次級量尺參數.......................................................... 33 表 4 數學科推理測驗各次級量尺對應題數.................................................. 33 表 5 HCAT 於測驗長度 50 題之 RMSE ......................................................... 42 表 6 HCAT 於測驗長度 50 題之 Bias ............................................................. 42 表 7 HCAT 於測驗長度 50 題之平均信度 ..................................................... 43 表 8 HCAT 於測驗長度 100 題之 RMSE ....................................................... 44 表 9 HCAT 於測驗長度 100 題之 Bias ........................................................... 44 表 10 HCAT 於測驗長度 100 題之平均信度 ................................................. 45. IV.

(7) 圖目錄 圖 1 題間多向度測驗模式................................................................................ 7 圖 2 題內多向度測驗模式................................................................................ 8 圖 3 HO-IRT 模型 ............................................................................................ 11 圖 4 CAT 施測流程 .......................................................................................... 25 圖 5 研究流程 .................................................................................................. 27 圖 6 H1L5 之題間 HO-IRT 模式 ..................................................................... 29 圖 7 H1L5 之題內 HO-IRT 模式 ..................................................................... 30 圖 8 系統架構模式 .......................................................................................... 34 圖 9 適性測驗流程設計.................................................................................. 36 圖 10 HCAT 模組架構 ..................................................................................... 37 圖 11 帳號管理模組 ........................................................................................ 37 圖 12 題庫維護模組 ........................................................................................ 38 圖 13 測驗施測模組 ........................................................................................ 38 圖 14 適性測驗模組 ........................................................................................ 39 圖 15 成果查詢模組 ........................................................................................ 39 圖 16 模式 1_題間_MAP 之 RMSE 變動圖 .................................................. 46 圖 17 模式 1_題內_MAP 之 RMSE 變動圖 .................................................. 46 圖 18 模式 2_題間_MAP 之 RMSE 變動圖 .................................................. 47 圖 19 模式 2_題內_MAP 之 RMSE 變動圖 .................................................. 47 圖 20 模式 1_題間_MLE 之 RMSE 變動圖 .................................................. 48 圖 21 模式 1_題內_MLE 之 RMSE 變動圖 .................................................. 48 圖 22 模式 2_題間_MLE 之 RMSE 變動圖 .................................................. 49 圖 23 模式 2_題內_MLE 之 RMSE 變動圖 .................................................. 49 圖 24 數學科測驗_模式 1_MAP 之 RMSD 變動圖 ..................................... 51 圖 25 數學科測驗_模式 1_MLE 之 RMSD 變動圖 ...................................... 51 圖 26 數學科測驗_模式 2_MAP 之 RMSD 變動圖 ..................................... 52 圖 27 數學科測驗_模式 2_MAE 之 RMSD 變動圖 ..................................... 52 圖 28 數學科推理測驗_模式 1_MAP 之 RMSD 變動圖 ............................. 53 圖 29 數學科推理測驗_模式 1_MLE 之 RMSD 變動圖 .............................. 53 圖 30 數學科推理測驗_模式 2_MAP 之 RMSD 變動圖 ............................. 54 圖 31 數學科推理測驗_模式 2_MLE 之 RMSD 變動圖 .............................. 54 圖 32 數學科測驗_模式 1_MAP 之 RMSD 變動圖 ..................................... 55 圖 33 數學科測驗_模式 1_MLE 之 RMSD 變動圖 ...................................... 56 圖 34 數學科測驗_模式 2_MAP 之 RMSD 變動圖 ..................................... 56 圖 35 數學科測驗_模式 2_MLE 之 RMSD 變動圖 ...................................... 57 圖 36 數學科推理測驗_模式 1_MAP 之 RMSD 變動圖 ............................. 57 V.

(8) 圖 37 圖 38 圖 39 圖 40 圖 41 圖 42 圖 43 圖 44 圖 45. 數學科推理測驗_模式 1_MLE 之 RMSD 變動圖 .............................. 58 數學科推理測驗_模式 2_MAP 之 RMSD 變動圖 ............................. 58 數學科推理測驗_模式 2_MLE 之 RMSD 變動圖 .............................. 59 適性測驗介面 ........................................................................................ 60 題庫管理介面-1 .................................................................................... 61 題庫管理介面-2 .................................................................................... 61 試卷管理介面 ........................................................................................ 62 學習診斷報告介面-1 ............................................................................ 63 學習診斷報告介面-2 ............................................................................ 64. VI.

(9) 第一章 緒論 本研究目的是建置以高階層試題反應理論模式(High-order IRT model,. HO-IRT)為基礎的電腦適性測驗(computerized adaptive testing, CAT)系 統,並透過模擬研究與實徵資料探討其成效。. 第一節 研究動機 傳統紙筆測驗在測驗結束後需要人力進行批閱分析,或將資料輸入電 腦進行分析,此動作不僅耗費時間與人力,且無法快速得到客觀的測驗結 果。由於網路與電腦週邊設備的普及,在網路上進行測驗是可行的;而且 透過電腦進行測驗擁有快速處理資料的優點,不論是測驗過程、統計、分 析或結果均能詳細記錄。 以試題反應理論(item response theory, IRT)為基礎所編製的測驗,能 經由分析試題獲得篩選過試題參數的題庫,以確保題庫品質的好壞,目前 國中的基本學力測驗便是使用 IRT;以 IRT 為基礎的 CAT,能針對不同受 試者提供適合受試者本身的試題,在可容忍的誤差下,大幅縮短測驗的時 間,且能透過試題曝光率控管,確保題庫的安全性,因此以 IRT 為基礎的 適性測驗系統也陸續在研發(王雯芳,2004;陳新豐,2004;黃吉楠,2004; 楊蹕齊,2006;蔡文龍,2008;蕭顯勝、黃啟彥、游光昭,2006)。 單向度(unidimensionality)與能力估計的不變性(invariance)為 IRT 的假設,使受試者所獲得能力估計值可以被放在相同的量尺上比較 ( Hambleton & Swaminathan, 1985; Wainer, Dorans, Flaugher, Green, Mislevy, Steinberg, & Thissen, 1990),但也因單向度的限制,讓 CAT 只能 侷限於單向度能力的測驗上。為了解決單向度 IRT 的限制,學者們陸續提 出多向度試題反應理論(multidimensional item response theory, MIRT),並 結合實際情境的考量後,應用到多向度電腦適性測驗(multidimensional computerized adaptive testing; MCAT)的程序中(施慶麟,2008;陳柏熹、 1.

(10) 王文中,2000a,2000b;陳仁欽、王文中,2005;陳柏熹,2004,2006; 蘇雅蕙,2006;Hattie, 1981; Hsieh, Shih, & Chen, 2008; Luecht, 1996; Mckinley & Reckase, 1983; Reckase & Mckinley, 1991; Segall, 1996; Shih & Wang, 2007; Sympson, 1978)。 MIRT 的模型能有效解釋不同向度之間的能力,但若要評估整體能力, MIRT 便 很 難 依 據 多 個 能 力 來 評 估 ; 相 反 地 , 單 向 度 試 題 反 應 理 論 (unidimensional item response theory, UIRT)的模型能呈現整體能力,卻 忽視了各個向度的能力,此外,為了符合單維模型而忽略試題間的相關會 高估測驗信度並使參數估計產生偏誤(Ip, 2000; Wainer, 1995; Wainer & Lukhele, 1997;Wainer & Thissen, 1996; Wainer & Wang, 2000; Wang & Wilson, 2005b; Wang &Wilson, 2005c; Wang, Cheng, & Wilson, 2005) ,因此, 最好能在同一模型下,同時估計整體能力與各向度能力。而且國外許多先 進國家之教育系統,如 NAEP(The National Assessment of Educational Progress)、PISA(The Programme for International Student Assessment)和 TIMSS(The Trends in International Mathematics and Science Study),這些較 知名的大型標準化測驗皆屬於高階層的學科能力測驗,基於上述原因,本 研究依據 Song(2007)所開發的一因子高階層試題反應理論(one-factor higher-order IRT)模式為基礎,建置電腦適性測驗系統。. 第二節 研究目的 基於上述研究動機,本研究目的如下︰ 一、以 模 擬 資 料 模 擬 高 階 層 電 腦 適 性 測 驗 ( High-order computerized adaptive testing, HCAT)系統的流程,比較各情境下之優缺點。 二、以實徵資料執行 HCAT 程序,以評估系統之使用成效。 三、建置 HCAT 系統,讓受試者可進行施測與管理者可後端管理。. 2.

(11) 第三節 名詞解釋 壹、次級量尺 次級量尺為測量學生在不同指標下的能力表現,其指標可以為學習目 標、子測驗(subtests)等。以 PISA 數學科為例,數量(quantity)、空間 與形體(space and shape)、改變與關係(change and relationships)及不確 定性(uncertainty)即為次級量尺。. 貳、主要量尺 主要量尺為整合次級量尺欲測量之高階學科能力。如數學素養、自然 素養即為 PISA 所定義之高階學科能力量尺。. 參、高階層試題反應理論模式 高階層試題反應理論模式包含兩階層的能力量尺,第一層的能力量尺 為次級量尺,第二層的能力量尺為主要量尺。. 肆、訊息函數 試題訊息函數(item information function; Birnbaum, 1968; Lord, 1980) 為計算試題訊息量的公式,若試題提供的訊息量越大,則能力估計值的精 準度就越高。. 伍、電腦適性測驗 本研究的 CAT 以 HO-IRT 為基礎,並透過網路進行的測驗。每當施測 一題試題,受試者就會得到一個新的能力估計值,再由新的能力估計值選 出較適合的試題進行施測,達到適性測驗的目的,所以每位受試者所施測 的試題不會完全相同。. 3.

(12) 4.

(13) 第二章 文獻探討 第一節 試題反應理論 壹、單向度試題反應理論 一、單向度試題反應模式 IRT是用來描述受試者潛在能力與試題之間發生機率的一種數學模式, 其基本假設有二,一為單向性(unidimensionality),指的是測驗中的所有 題目均測量同一種能力或潛在特質;二為局部獨立性(local independency) , 指的是受試者在測驗上某一題的作答反應,不會受其它試題影響。而模式 主要分為單參數對數模式(one-parameter logistic model, 1PLM) 、二參數對 數模式(two-parameter logistic model, 2PLM)、三參數對數模式 (three-parameter logistic model, 3PLM)三種模式,以下分別介紹。 (一)單參數對數模式 1PLM 包含了受試者的能力與試題的難度參數,由 Rasch(1960)提出, 如公式(1)所示: Pi (θ ) =. 1 1 + exp( −(θ − bi )). (1). 其中, Pi (θ ) 表示受試者在第 i 題時答對的機率,θ 表示受試者的能力,bi 表 示第 i 題試題的難度參數。 (二)二參數對數模式 2PLM 主要是在 1PLM 中加入試題的鑑別度參數,由 Birnbaum(1968) 提出,如公式(2)所示: Pi (θ ) =. 1 1 + exp(− ai (θ − bi )). (2). 其中, Pi (θ ) 表示受試者在第 i 題時答對的機率,θ 表示受試者的能力,bi 表 示第 i 題試題的難度參數, ai 表示第 i 題試題的鑑別度參數。 5.

(14) (三)三參數對數模式 3PLM 主要是在 2PLM 中加入試題的猜測度參數,由 Lord(1974)提出, 如公式(3)所示: Pi (θ ) = ci + (1 − ci ). 1 1 + exp(− ai (θ − bi )). (3). 其中, Pi (θ ) 表示受試者在第 i 題時答對的機率,θ 表示受試者的能力,bi 表 示第 i 題試題的難度參數, ai 表示第 i 題試題的鑑別度參數, ci 表示第 i 題試題的猜測度參數。 二、單向度 IRT 之訊息函數 試題訊息函數(information function)常被作為選擇施測題目的依據, 其定義如公式(4)所示(Birnbaum, 1968; Lord, 1980)。當試題提供的訊 息量越大時,則能力估計值的精準度越高。 I i (θ ) =. ai2 (1 − ci ) [ci + exp(ai (θ − bi ))] ⋅ [1 + exp(−ai (θ − bi ))]2. (4). 其中, I i (θ ) 為受試者的能力值為 θ 時,第 i 題試題的試題訊息函數。 測驗訊息函數(test information function)的定義為各試題訊息量之加 總,如公式(5)所示。而增加測驗訊息量的方法有二種,一為在測驗長 度不變的情況下,增加每一試題的訊息量;二為在試題訊息量不變的情況 下,增加測驗長度。 n. I T (θ ) = ∑ I i (θ ). (5). i =1. 其中,n 為測驗長度, I T (θ ) 為測驗訊息函數。. 貳、多向度試題反應理論 一、多向度試題反應模式 在實際生活情境中經常包含許多子測驗,不單純只有測量一種能力, 例如︰多元評量、心理測驗、綜合能力測驗。為了避免受試者因題目過多 6.

(15) 而產生疲勞,這些測驗所包含的子測驗通常都不會有太多試題,若以單向 度 IRT 對各個子測驗進行分析,其信度均不高。而實際應用上並不容易達 成單向性假設,因此有學者提出多向度試題反應理論(Reckase, 1985; van der Linden & Hambleton, 1996),以嘗試解決測驗實際應用上的問題。 多向度測驗可以分為題間多向度測驗(between-item multidimensional test)與題內多向度測驗(within-item multidimensional test)兩種(Wang, Wilson, & Adams, 1997) 。在測驗中每道題目均只測量一種能力,即單向度 試題,而整份測驗同時包含多個測量不同能力的單向度試題,則稱此測驗 為題間多向度測驗,如圖1所示。若在測驗裡的每個試題不只測量單一種 能力,也就是試題內就包含多向度,稱此測驗為題內多向度測驗,如圖2 所示。 試題 1 能力 A. 試題 2 試題 3. 能力 B. 試題 4 試題 5. 圖1 題間多向度測驗模式. 7.

(16) 試題 1 能力 A. 試題 2 試題 3. 能力 B. 試題 4 試題 5. 圖2 題內多向度測驗模式 目前常用的多向度 IRT 模式大多是由單向度 IRT 模式所衍生出來的, 如︰Mckinley 和 Reckase(1983)提出的多向度二參數模式(multidimensional two parameters model,M2PL);Sympson(1978)與 Hattie(1981)提出的多向度 三參數模式(multidimensional three parameters model,M3PL);Adams、 Wilson 與 Wang(1997) 所 提 出 的 多 向 度 隨 機 係 數 多 項 洛 基 模 式 ( multidimensional. random. coefficients. multinomial. logit. model. ,. MRCMLM)。 (一)多向度二參數模式 M2PL 為 2PLM 的衍生模式,同時考慮受試者多種能力並將試題的鑑 別度定義為向量,如公式(6)所示: Pi (U i = 1 | a i , bi , θ) =. 1 1 + exp[−(a′i θ − bi )]. (6). 其中,U i 為受試者施測第 i 題時的反應型態,答對為 1,答錯為 0; a i 為第 i 題試題的鑑別度向量參數; bi 為第 i 題試題的難度參數; θ 為受試者的能 力向量。 (二)多向度三參數模式 8.

(17) M3PL 為 3PLM 的衍生模式,同時考慮受試者多種能力並將試題的鑑 別度定義為向量,類似於 M2PL,主要的差別在於是否考慮猜測參數,如 公式(7)所示: P (U i = 1 | a i , bi , ci , θ) = ci +. 1 − ci 1 + exp[−a′i (θ − bi 1)]. (7). 其中, U i 為受試者施測第 i 題時的反應型態; a i 為第 i 題試題的鑑別度向 量參數; bi 為第 i 題試題的難度參數; c i 為試題的猜測參數; θ 為受試者能 力向量。為了使試題的難度參數與能力向量相減,故將難度參數 bi 與 I 向 量相乘,使其成為向量。 (三)多向度隨機係數多項洛基模式 MRCMLM 為 Rasch 模式的衍生模式,如公式(8)所示: f ( X ik = 1; a ′ik , b ′ik , ξ|θ) =. exp(b ′ik θ + a ′ik ξ ) Ki. (8). ∑ exp(b ′ θ + a′ ξ) u =1. iu. iu. 其中, f ( X ik = 1; a′ik , b′ik , ξ|θ) 表示能力向量為 θ 的受試者在第 i 題時回答第 k 種反應的機率; X ik 為受試者在第 i 題第 k 種的反應類型;在 ξ 方面,若第 i 題為二元計分,則估計的難度為 ξ i ,若第 i 題為 0~2 的多元計分,則估 計的難度為 ξ i1 跟 ξ i 2,兩個難度;a ik 為在第 i 題獲得第 k 種得分的設計向量; b ik 為在第 i 題獲得第 k 種得分的得分向量。本研究中所使用的多向度模式. 均為 MRCMLM。 二、多向度 IRT 之訊息函數 Segall(1996)提出多向度訊息函數矩陣,以暫時的能力向量來計算前j 題的訊息量矩陣 I(θ, θˆ j ) ,再加入題庫中尚未施測試題的訊息量矩陣 I(θ, u k ) , 找出能夠使訊息量矩陣行列式值為最大的試題,如公式(9) 所示: 9.

(18) I(θ, θˆ j ) + I(θ, u k ). (9). 其中 u k 為第 k 題作答反應。. 參、高階層試題反應理論 一、高階層試題反應模式 隨 著 測 驗 形 式 的 改 變 與 需 求 量 快 速 增 加 , 大 型 測 驗 ( large-scale assessments)的議題受到矚目。目前國際上較知名的大型測驗皆屬於高階 層測量模式,若使用UIRT,可能會違背其假設而使高階層能力估計不準確, 或是當次級量尺所對應的題數較少時,導致估計效果不可靠。因此, Song(2007)提出一因子高階層IRT模式,此模式同時包含高階能力(overall ability)與低階能力(domain ability),也就是同時包含主要量尺和次級量 尺,且透過適當地參數估計過程可以同時獲得主要量尺能力和次級量尺能 力的估計(de la Torre & Song, 2009) 。根據Song(2007)模擬研究顯示,當次 級量尺之間不相依時,HO-IRT估計主要量尺的結果會相似於UIRT;當彼 此相依時,HO-IRT估計次級量尺會比UIRT更準確。 在 HO-IRT 中,一份測驗可觀察多個單向度的子測驗(subtest),即次 級量尺 θ i(d ),θ i(d ) 表示第 i 位受試者在次級量尺 d 的表現,其中,d = 1,2,3,K, D 。 當不同次級量尺均測量相同能力時,則整份測驗為單向度的測驗。若不同 次級量尺間有關聯,則會藉由一高階層能力 θ i 來連接這些次級量尺,θ i 為 第 i 位受試者在主要量尺的表現,也就是次級量尺是能力量尺的一線性函 數,如公式(10)所示,. θ i( d ) = λ( d )θ i + ε id. (10). 其中, λ(d ) 為迴歸參數, ε id 為誤差項。假設 ε id 服從常態分配,其平均數為 0,變異數為 1 − λ( d ) 2 ,且 λ( d ) ≤ 1,根據這些假設可知 θ i(d ) 的分配與 θ i 相似, 10.

(19) 屬於標準常態分配。 λ(d ) 為主要量尺與次級量尺間的相關,而次級量尺間 的相關可表示為 λ( d ) × λ( d ') 。其中, λ(d ) 可為負數,但在教育測驗的應用上, 主要量尺與次級量尺間皆為證相關,故只考慮 0 ≤ λ( d ) ≤ 1 。 HO-IRT 模式如圖 3 所示,第一層為第 i 位受試者在次級量尺 d 中的第 j th 試題之反應情形 X ij. (d ). ,第二層為受試者的反應透過 IRT 模式中的試題. 參數 β j 連結到次級量尺,第三層為受試者的次級量尺分數透過迴歸參數 (d ). λ(d ) 連結到相對應的主要量尺 θ i 。. θi. λ(1) M λ( 2) M λ(3) M L M λ( D). ( 2) ( 3) ( D) θi (1) M θi M θi M L M θi. (1). ( 2) ( 3) ( D) βi (1) M βi M βi M L M βi. ( 2). ( 3). X ij M X ij M X ij M L M X ij. ( D). 圖3 HO-IRT模型. 第二節 電腦適性測驗 傳統紙筆測驗,不論其能力高低,所有受試者均需做完一份完整的測 驗,因此,常常會發生低能力者覺得試題太過困難,高能力者覺得太過簡 單。CAT 可依照每個受試者不同的作答反應來進行能力估計,並根據目前 能力估計值自動選擇適合的試題,以減少施測題數、作答時間與測驗成 本。 以 IRT 為基礎的適性測驗包含了五項基本要素︰測驗題庫、測驗起點、 11.

(20) 能力估計、選題策略與測驗終止條件(余民寧,1992),而依照不同類型 的 CAT 又可分成單向度 CAT、多向度 CAT 與高階層 CAT 三大類,以下針 對不同 CAT 實施過程所需的要素分別進行說明。. 壹、測驗題庫 通常用來評估 CAT 題庫有二,一為題庫大小,一為試題參數。若 CAT 施測長度為傳統紙筆測驗長度的一半,則 CAT 題庫大小最好是傳統紙筆測 驗長度的 6 至 8 倍,也就是說題庫大小至少為 CAT 施測長度的 12 倍 (Stocking, 1994)。當題庫長度為 3 倍以上,精確度與作答效率才有顯著 差異(Hung, 1988)。 對單向度 CAT 的 3PLM 而言,一個好的題庫其鑑別度應大於 0.8,難 度應該與受試者之母群的能力分佈相近,猜測度則應小於 0.25(王寶墉, 1995)。Ree(1981)曾以最大訊息法為選題策略的研究,在沒有曝光率控管 下,題庫長度大於 200 題時,對能力估計的精準度並不會明顯增加。 對多向度 CAT 而言,Wang, Chen 與 Cheng(2004)的研究顯示,當題庫 向度之間為高相關時,多向度 IRT 分析可以大幅提高各向度的信度,由原 本的 0.6(單向度 IRT 分析)提昇至 0.8。. 貳、測驗起點 CAT 是以受試者能力來提供適當試題進行施測,但在測驗一開始時, 並不知道受試者能力高低,因此必須決定測驗起點,以選擇初始試題供受 試者進行施測。常用來決定初始試題的方法,以下分別介紹(王寶墉,1995; 陳麗如,1998;錢永財,2006;Chang & Ansley, 2003)︰ 一、中等難度試題 假設受試者為中等能力,並在題庫中挑選中等難度的試題作為初始試 題,若每位受試者均從相同題目開始,則初始試題的保密性需特別考量。 二、依受試者能力選題 12.

(21) 依照受試者的年齡、學習經驗或其他的測驗結果來估算受試者的初始 能力,再使用此初始能力值來決定測驗的初始試題。 三、自由選題 受試者在進行測驗時,自行判斷自己的能力,決定施測的初始試題, 但容易受到受試者主觀判斷的影響。 四、隨機選題 由電腦隨機選題,但選取範圍不可超過題庫本身。Lord(1977)發現不 同起始點對於測驗標準誤(standard error of measurement)並沒有很大差 別。 五、隨機法 McBride & Martin(1983)發表隨機法,其基本原理是在測驗前期隨機選 取試題,以避免試題過度曝光,實施方法為︰ 對每一位受試者,根據能力初始值從題庫中選擇 5 題訊息量最大的題 目,在這 5 題中隨機選取一題作為施測題目並重新估計能力值;依新估計 的能力值再從題庫中選擇 4 題訊息量最大的題目,在這 4 題中隨機選取一 題作為施測題目並重新估計能力值。照此模式選取測驗的前 4 題,第 5 題 之後就使用最大訊息法來選取施測題目。此外根據 Chang 與 Ansley(2003) 的研究指出隨機法在不同題庫中的比較,試題最大曝光率皆介於 0.64~0.74, 遠高於可接受試題最大曝光率。 六、初始階段 b 值分層隨機選題法 錢永財( (2006)提出初始階段 b 值分層隨機選題法來進行測驗初期選 題,其實施步驟有二: 步驟一︰將題庫依 b 值大小分成 k 層,其中 k 為初始選題的題數。 步驟二:施測前 k 題時,分別從 k 層中各自隨機選取一題試題,進行施測。 研究顯示,此方法可有效降低試題最大曝光率、提高題庫的使用率。 13.

(22) 參、能力估計 一、單向度 IRT 之 CAT 單 向 度 CAT 常 見 的 能 力 估 計 法 有 最 大 概 似 估 計 法 ( maximum likelihood estimation, MLE)(Baker,2004)、期望後驗估計法(expected a posteriori, EAP)與最大後驗估計法(maximum a posteriori, MAP)三種, 以下分別介紹: (一)最大概似估計法 最大概似估計法是假設測驗共有 n 個試題,且試題間彼此獨立,則概 似函數(likelihood function)可表示為公式(11): n. L(u | θ ) = L( X 1 ,..., X n | θ ) = ∏ Pi X i Qi1− X i. (11). i =1. 其中,u 為所有作答反應的向量, L( X 1 ,..., X n | θ ) 為概似函數;θ 為受試者的 真實能力; X i 為受試者在第 i 題的作答反應,答對為 1,答錯為 0; Pi 為 受試者在第 i 題時答對的機率; Qi 為受試者在第 i 題時答錯的機率。 為了加速找到概似函數的最大值,可以先對概似函數取自然對數,再 以 Newton-Raphson 法進行迭代,如公式(12)所示,而第 j 次的能力估計 的變動量為 δ ( j ) ,如公式(13)所示: θ ( j ) = θ ( j -1) - δ ( j ) δ (j) = [. ∂ 2 ln L(u | θ ) -1 ∂ln L(u | θ ) ] × ∂θ ∂θ 2. (12) (13). 估計 θ ( j ) 時必須反覆將新的能力值代入公式(12)計算,直到 δ ( j ) 收斂為止; 如此便能得到新的估計能力值 θ ( j ) ,再依此能力值選擇下一施測試題。 (二)期望後驗估計法 Bock 和 Mislevy(1982)提出期望後驗法是尋找能力值的事後機率密度 函數的期望值,如公式(14)所示: 14.

(23) kq. L(U | θ q ) f (θ q ). kq. θ EAP = ∑ θ q f (θ q | U) = ∑ θ q q =1. q =1. (14). kq. ∑ [ L(U | θ ) f (θ q =1. q. q. )]. 其中 u 為所有作答反應的向量, L (U | θ q ) 為概似函數; θ q 為受試者的真實 能力;q 是計算能力的期望值時所切割成的分割點(quadrature point),共有 k q 點, k q 愈大,計算的愈精確。此種估計方法不需要使用 Newton-Raphson. 進行迭代,而且當選取的分割點數愈多,所需的計算量也愈龐大,計算時 間也愈久。 (三)最大後驗估計法 貝氏最大後驗法是以受試者的事前能力分布 f (θ ) 作為加權值,形成事 後機率密度函數,並找出能使此事後機率密度函數最大化的程度值。事後 機率密度函數計算方式如公式(15)所示: f (θ | U) =. L (U | θ ) f (θ ) f (U ). (15). 其中,L(U | θ ) 是受試者能力為 θ 時的概似函數, f (U) 是受試者的邊際機率, 是由 L(U | θ ) f (θ ) 從 − ∞ ~ ∞ 積分所得,為了加速找到事後機率密度函數的最 大值,比照 MLE 法依 Newton-Raphson 進行迭代。 (四)各種能力估計法的比較 MLE 雖然有不錯的估計效能,但在實務上有其限制,當受試者作答反 應為全對或全錯時,MLE 無法估計受試者能力值(Wang & Vispoel, 1998)。 而 EAP 與 MAP 可以估計全對或全錯的作答反應,但若事前分配不正確, 則能力估計偏差將會很大(Baker & Kim, 2004)。 洪碧霞、吳裕益、吳鐵雄、陳英豪(1992)作過各種能力估計方法的 比較,MLE 比較沒有迴歸性的偏誤,但均方根誤(root mean square of error, RMSE)較大;EAP 與 MAP 有迴歸性的偏誤,但均方根誤較小。 二、多向度 IRT 之 CAT 15.

(24) 多向度 CAT 常見的能力估計法有最大概似估計法、期望後驗估計法與 最大後驗估計法,類似於單向度 CAT 的能力估計法,主要是由估計單一能 力值轉變為同時估計多個能力值,以下分別介紹: (一)最大概似估計法 Segall(1996)提出多向度的 MLE 是假設測驗共有 n 個多向度的試題, 且試題間彼此獨立,則概似函數如公式(16)所示: L(u | θ ) = L(u1 , u 2 ,..., u n | θ ) = ∏ Pi (θ ) ui Qi (θ )1−ui. (16). i∈ν. 其中, L(u | θ ) 為概似函數; θ = [θ1 , θ 2 ,L,θ D ]' ,為受試者真實能力的向量; u i 為受試者在第 i 題的作答反應,答對為 1,答錯為 0; Pi 為受試者在第 i. 題時答對的機率; Qi 為受試者在第 i 題時答錯的機率。 為了加速找到概似函數的最大值,可以先對概似函數取自然對數,再 以 Newton-Raphson 進行迭代,其作法為先求概似函數的一階微分向量 (Wang, 1994):  ∂   ∂θ ln L(u θ)   1    ∂ ln L(u θ)  ∂  ln L(θ u) =  ∂θ 2  ∂θ   M    ∂ ln L(u θ)  ∂θ k . 其元素為︰ ∂ ln f (θ u) ∂θ k. =. ∂ ln L(u θ) = ∑ [bik − E i (θ )] ∂θ k i∈n. K. (17). 其中 E i (θ ) = ∑ bik f ik (θ ) ,而 f ik (θ ) 如公式(8)所示。n 為選到的題目。再求 k =1. 出其二階微分矩陣︰. 16.

(25)  ∂ 2 ln f (θ u)  ∂θ12   ∂ 2 ln f (θ u)  J (θ) = = ∂θ∂θ     . ∂ 2 ln f (θ u)  L L  ∂θ1 ∂θ K  2 2 ∂ ln f (θ u) ∂ ln f (θ u)   L ∂θ 2 ∂θ K  ∂θ 22  M  2 ∂ ln f (θ u)   ∂θ K2 . 其二階微分矩陣中第(k , l)元素為︰ ∂2 K  ln f (θ u ) = −∑ ∑ bik bik ' f ik (θ ) − Ei (θ )Ei (θ )' ∂θ k ∂θl i∈n  k = 0 . (18). 接著以公式(19)進行迭代,而第 j 次的能力估計的變動量 δ ( j ) 如公式(20) 所示: θ ( j ) = θ ( j -1) - δ ( j ) δ. (j). (19). ∂ 2 ln f (θ | u ) -1 ∂ln f (θ | u ) =[ ] × ∂θ∂θ ∂θ. (20). 估計 θ ( j ) 時必須反覆將新的能力值代入公式(19)計算,直到 δ ( j ) 收斂為止; 如此便能得到新的估計能力值 θ ( j ) ,再依此能力值選擇下一施測試題。 (二)期望後驗估計法 多向度的 EAP 是將單向度的 EAP 能力值轉變為能力向量,如公式(21) 所示: kq. kq. θ EAP = ∑ θ q f (θ q | U) = ∑θ q q =1. q =1. L(U | θ q ) f (θ q ) kq. ∑ [ L(U | θ q =1. q. (21). ) f (θ q )]. 其中,q 為計算能力期望值時的分割點數,q 愈多,計算愈精確; f (θ q ) 為 多變量常態分配,如公式(22)所示: f (θ1 , L , θ D ) =. 1 (2π ) D / 2 Φ. 1/ 2. 1 exp[− (θ − µ) ' Φ −1 (θ − µ )] , − ∞ < θ < ∞ 2. (22). 其中, θ = [θ1 ,L, θ D ]' , µ 為 θ 的平均數向量, µ = [ µ1 ,L , µ D ]' , Φ 為 θ 的共變 17.

(26) σ 12 L 0    數矩陣,若共變數矩陣標準化後,即為相關矩陣, Φ = LLL  。 0 Lσ 2  D . 在多向度中,分割點的數量會依向度數量呈指數遞增,當向度數增加 時,能力估計時間就會拉長,倘若降低各向度的分割點,又會使能力估計 的精準度變差;陳柏熹(2006)指出在考量選題時間又不致影響測量精準 度的情況下,EAP 的節點數訂為 10 是理想的選擇。 (三)最大後驗估計法 Segall(1996)提出多向度的 MAP,其事後機率密度函數與 EAP 相同。 為 了 加 速 找 到 事 後 機 率 密 度 函 數 的 最 大 值 , 比 照 MLE 法 依 Newton-Raphson 進行。首先分別對 k 個能力向度進行偏微分。MRCMLM 事後機率密度函數的一階偏微分向量中的元素如公式(23)與二階偏微分 向量中的元素如公式(24)(陳柏熹,2001;Wang, 1994)︰ ∂ ln f (θ u). =. ∂θ k. ∑ [b i∈n. ik. ∂ 1 ∂ ln L(u θ) − [(θ − u) ' Φ −1 (θ − u)] , ∂θ k 2 ∂θ k.  ∂  − Ei (θ)] −  (θ − u)' Φ −1 (θ − u)  ∂θ k . ∂2 K  ln f (θ u ) = −∑ ∑ bik bik ' f ik (θ ) − Ei (θ )Ei (θ )' − φ kl ∂θ k ∂θ l i∈n  k =0 . (23). (24). K. 其中 E i (θ ) = ∑ bik f ik (θ ) ,而 f ik (θ ) 如公式(8)所示。n 為選到的題目, u 為 k =1. θ 的平均數向量, Φ 為 θ 的共變數矩陣;其他程序則比照最大概似估計法來. 進行。 (四)各種 CAT 能力估計法的比較 在多向度 CAT 中,陳柏熹(2006)指出,MAP 與 EAP 在整體信度與 測量誤差上均比 MLE 好,但 MAP 會有明顯的廻歸性偏誤,當向度數較高 時,EAP 所需的時間就會太久。所以建議當能力向度數少於四個向度時可 18.

(27) 以使用 EAP,以減少廻歸性偏誤的問題;但是當能力向度達到四個或四個 以上時,最好使用 MAP 來進行,不過需要注意廻歸性偏誤的問題。 三、高階層 IRT 之 CAT Huang(2009)以 MCAT 演算法為基礎,將高階層結構落實到 CAT 程序 中,主要分為 Multidimensional CAT Approach 與 Unidimensional CAT Approach 兩種方法,以下分別介紹︰ (一)Multidimensional CAT Approach 在主要量尺能力尚未與次級量尺能力分離時,高階層試題反應模型可 被視為傳統 MIRT 模型的特殊例子。因此,便可使用原始的 MCAT 取得次 級量尺能力,再透過線性轉換,計算主要量尺能力的得分,其作法如下︰ 步驟一︰設置各個次級量尺與主要量尺能力間的迴歸參數 β , β = [β1 , β 2 K β k ]。而次級量尺間的相關可表示為公式(25)︰ 1 β1 β 2 L β 1 β k   1 L β 2 β k   R=  O M    1  . (25). 其中,R 為對稱矩陣,且可當成先驗訊息並使用在 MCAT 適性選題和次級 量尺能力的估計上。 步驟二︰因素分析中的回歸法常用來取得因素分數(Johnson, 1998)。 在只有一個主要量尺的情況下,主要量尺能力可用公式(26) 表示︰ θ g = Λ ' R −1θ s. (26). 其中,θ g 為主要量尺能力的估計值,θ s 為次級量尺能力的估計值向量, Λ ' 為上述定義的迴歸參數,R 如公式(25)所示。 透過此方法,主要量尺能力與次級量尺能力均能得到。但主要量尺能 力的估計值不使用在選題和更新能力估計上,僅在次級量尺能力估計完後 19.

(28) 再做運算。 (二)Unidimensional CAT Approach 次級量尺能力為主要量尺能力的線性組合,而受試者的作答反應型態 亦是由主要量尺能力以間接方式決定的,故可假定為主要量尺能力由 UCAT 進行估計,次級量尺能力再經由主要量尺能力的先驗訊息進行估計。 其作法如下︰ 步驟一︰使用 UCAT 程序獲得主要量尺能力值。 步驟二︰完成適性選題後,主要量尺能力可藉由 MAP 估計出來。 步驟三︰給予主要量尺能力的估計值與迴歸參數 β , β = [β1 , β 2 K β k ] ,而 次級量尺的能力值由 UCAT 程序中選到的題目來進行 MCAT 能力 估計程序。當使用 MCAT 估計次級量尺能力時,受試者各個向度 的. 先. 驗. 分. 配. 設. 置. 為. (. µ = β1θˆg , β 2θˆg K β kθˆg. ). ,. 1 − β12 0 L 0    1 − β 22 O M   Σ≡ 。其中 µ 為平均數向量, Σ 為對應次  O 0    1 − β k2  . 級量尺能力先驗分配的共變異數矩陣。每個受試者均有個別的先 驗分配來估計他的能力值,這可視為適性的貝式估計,類似 EAP 估計法在 UCAT 的環境下(Raîche, Blais, & Magis, 2007)。 步驟四︰提供最新的主要量尺能力估計值,回到步驟二進行適性選題,並 再次更新主要量尺能力與次級量尺能力。 步驟五︰重複該過程直到測驗終止條件。 然而,以 UCAT 為基礎的演算法可能需要面對一些問題,因為忽略了 各向度的隨機效應和誤差變異數,可預期到 UCAT 在主要量尺能力和次級 量尺能力上會有較差的估計。 Huang(2009)在其模擬研究中,使用的模型為 1 個主要量尺及 3 個次級 20.

(29) 量尺之題間多向度,能力估計法為 MAP,且每筆模擬資料均以固定參數執 行 CAT 程序,其研究結果指出 Multidimensional CAT Approach 優於 Unidimensional CAT Approach。本研究改良此設計,使用 1 個主要量尺及 5 個次級量尺之題間多向度模型,並額外加入題內多向度模型與 MLE,而模 擬資料先使用 WinBUGS 進行估計,利用其估計後之參數執行 CAT 程序, 並與 Huang(2009)之結果進行比較。. 肆、選題策略 一、單向度 CAT 選題策略在電腦適性測驗中視重要的一環,依據不同的題策略會有不 同的測驗效率,以下分別介紹不同的選題策略︰ (一)最大訊息法 選題策略中最常被使用的是最大訊息法,其步驟如下︰ 步驟一︰假設受試者目前能力估計值為 θˆ ,則使用 θˆ 個別計算題庫中尚未 施測試題的訊息量,其計算方法如公式(4)。 步驟二︰選取訊息量最大的試題,作為下一施測試題。 (二)最接近偏移難度法 若猜測度 c j ≠ 0 時,題目訊息最大值不會發生在難度 b j ,而會產生偏 移至 m j ,最接近偏移難度法為選擇題目偏移難度最接近受試者能力估計值 θˆ 的題目,作為下一階段施測的題目。定義偏移難度 m j(Birnbaum, 1968). 如公式(27)所示: m j = bj +.  1 + 1 + 8c j 1 log  d ⋅ aj 2 .    . (27). 選題時選擇尚未施測且選題函數 F j 最小的題目,選題函數如公式(28) 所示: 21.

(30) F j (θˆ) =| θˆ − m j |. (28). (三)區間式最大訊息法 區間式最大訊息法使用區間能力值的題目訊息量加總,來取代在某一 點能力值的題目訊息量(Veerkamp & Berger, 1997) 。區間式最大訊息法是 選擇訊息函數在信賴區間內的面積,選擇最大的訊息面積,作為下一題施 測題目,故選題時選取尚未施測且選題函數最大者,函數如公式(29)所 示: θˆu. F j (θ ) = ∫ˆ I j (θ )dθ. (29). θl. [. ]. Pj′(θ ) 1.96 ˆ 1.96 ,θ + ) ; I j (θˆ) = 其中, (θˆl ,θˆu ) = (θˆ − 。 Pj (θ ) ⋅ Q j (θ ) I T (θˆ) I T (θˆ) 2. (四)考慮 b 參數的 a 分層法 Chang, Qian & Ying(2001)提出考慮 b 參數的 a 分層法,希望使 a 分層 法中各分層的 b 值分佈保持一致性,以打破 a、b 之間的相關性。其步驟如 下: 步驟一︰將題庫中所有試題依照 b 值由小到大排序,並平均分成 T 個區 塊。 步驟二︰在這 T 個區塊中,分別將各個區塊的試題依照 a 值由小到大排序, 並平均分成 K 層。 步驟三︰依序將每個區塊中的第 k 層(k=1,2,3,…,K)合併成一層。 步驟四︰建立好結構後,受試者依序從第 1 層開始施測,每一層選取 L/K 個試題施測,一直施測到第 K 層,直到受試者施測 L 題。 謝友詩、劉湘川、郭伯臣(2006)研究指出在固定測驗長度下,能力 均方根差由小而大排序分別為考慮 b 參數的 a 分層法、最接近偏移難度法、 鄰近法、區間式最大訊息法;考慮 b 參數的 a 分層法較區間式最大訊息法 有較低的最大曝光率;在相同能力估計精準度下,考慮 b 參數的 a 分層法 22.

(31) 較區間式最大訊息法有較低的題目重複率。 (五)a-鄰近法 錢永財、劉家惠、郭伯臣(2005)提出改進鄰近法的 a-鄰近法,其第 一步驟為單點式最大訊息法,第二步驟改由控制 a 值,在測驗前期能力值 尚未準確時,挑選 a 值較低試題,其步驟如下: 步驟一︰將題庫依 b 值分三層,初始試題從這三層中各隨機挑選一題,使 受試者在測驗前期施測難易度相差較大試題。 步驟二︰估計暫時能力值 θˆ 。 步驟三︰根據 θˆ 計算題庫中尚未施測試題之訊息函數,並挑選 L – J 題訊息 函數最大者。 步驟四︰再從這 L – J 題中選其 a 值最小的進行施測。 步驟五︰重新估計能力值為 θˆ ,回到步驟三,直到測驗題數結束。 其中,L 為測驗長度,J 為已測驗題數。 根據錢永財、劉家惠、郭伯臣(2005)的研究發現,使用 a-鄰近法, 當題庫越大時,在試題曝光率的均勻度能越接近鄰近法,且能力估計誤差 較低於鄰近法。 二、多向度 CAT Segall(1996)將概似函數取對數的二階偏微分透過公式(30),以費雪 訊息函數取代 Ι(θ) = −Ε[Η (θ ( j ) )]. (30). 其中 Ι(θ) 是費雪訊息矩陣,矩陣中第 k 列、第 l 行的元素可表示如公式(31) 所示:  ∂ 2 ln f (θ | u )  K ' ' I kl (θ) = −Ε   = ∑ ∑ bik bik f ik (θ ) − Ei (θ )Ei (θ )    ∂θ k ∂θl  i∈n  k =0 23. (31).

(32) 上式表示受試者在能力估計值為 θ ,施測完 n 個試題後的費雪訊息矩陣。 而累加的第 i 題訊息量表示為 I (θ, u i ) ,如公式(32)所示: K. I (θ, u i ) = ∑ bik bik' f ik (θ ) − E i (θ )Ei (θ ). '. (32). k =0. 在多向度的 CAT 中,並非依據各單一向度的最大值來選題,而是挑選 讓費雪訊息矩陣的行列式值最大化的試題,如公式(33)所示: Ι ( θ ) + Ι (θ , u i ). (33). 其中 Ι(θ) 表示施測完前 n 題之後的訊息矩陣, Ι(θ, u i ) 是表示題庫內剩餘試 題在能力估計向量 θ 上的訊息矩陣。 使用 MAP 時,其選題策略加入能力先驗分配之共變數矩陣的反矩陣, 修正如公式(34)所示: Ι(θ) + Ι(θ, u i ) + Φ −1. (34). 伍、測驗終止條件 測驗終止條件的主要分為「能力估計的最小變動量」與「最大測驗長 度」兩種(陳麗如,1998;陳新豐,1999),「能力估計的最小變動量」 是指當測驗的能力估計的變動量小於預設值,「最大測驗長度」是指測驗 的題數達到預設的長度時,當測驗達成其中一種條件,即停止測驗。 整合 CAT 各個要素後,其施測流程如圖 4 所示:. 24.

(33) 測驗理論 初始化測驗 能力估計 選題策略. 不成立. 測驗終 止條件. 成立 測驗結束. 圖4 CAT施測流程. 25.

(34) 26.

(35) 第三章 研究方法 第一節 研究流程 研究流程如圖5所示,首先進行系統建置與測驗相關理論的文獻探討, 決定研究主題後,一方面先針對研究的系統需求進行分析與設計,接著開 發使用者模組,再撰寫HCAT核心程式。另一方面藉由模擬研究,探討HCAT 的可行性,接著對實徵資料進行高階層模式的參數分析,再使用估計完成 的試題參數與受試者作答反應來模擬HCAT並分析結果,然後將模擬的分 析結果回饋給系統,對執行系統測試過程所發現的問題進行修正,最後撰 寫研究結果與建議。 文獻探討. HCAT 模擬研究. 系統需求分析設計. 實徵資料參數分析. 使用者介面開發. 以實徵資料模擬. 撰寫 HCAT 核心程式 測驗初始設定 選題策略. HCAT. 能力估計法. 分析結果. 系統測試與修正 結果與建議. 圖5 研究流程. 27.

(36) 第二節 模擬 HCAT 實驗設計 壹、實驗設計 本研究使用一因子 HO-IRT 模式,並透過模擬研究方式探討該模式在 不同情境的成效。其模擬資料變項、模式設計與估計方式如下所述︰ 一、人數︰4000 人 二、計分型態︰二元計分 三、題庫︰500 題 四、測驗長度︰50、100 題 測驗長度仿照 Huang(2009)之模擬研究,其次級量尺有三個,測驗長度 分別為 30 題與 60 題,而本研究中共有五個次級量尺,故取 50 題與 100 題作為測驗長度。 五、初始測驗︰ 為了進行多向度 CAT 能力估計法與選題,必須讓公式(18)之行列式 值不為 0,故本研究從各個子測驗中均挑選一題難度最接近 0 之題目。 六、HO-IRT 模式︰ (一)如圖 6,主要量尺數為 1,次級量尺數為 5,其中,迴歸參數 λi 均設 為 0.85,i = 1,2,3,4,5,題間多向度模式。 (二)如圖 7,主要量尺數為 1,次級量尺數為 5,其中,迴歸參數 λi 均設 為 0.85,i = 1,2,3,4,5,題內多向度模式。 七、模擬次數︰50 次 八、估計方式︰ 本研究依 Huang(2009)所使用的估計方式進行,分為 Multidimensional CAT Approach 與 Unidimensional CAT Approach 兩 種 模 式 。 在 Multidimensional CAT Approach 模式中,估計次級量尺能力分別使用 MAP 28.

(37) 與 MLE,而主要量尺能力使用公式(26)計算;在 Unidimensional CAT Approach 模式中,估計主要量尺能力分別使用 MAP 與 MLE,而次級量尺 能力依適性選題之結果再以 MAP 進行估計。 九、產生模擬資料︰ 利用標準常態分配隨機產生主要量尺(H)之參數, H ~ N (0,1) ,並根 據迴歸參數 λ 的設定,產生與主要量尺互為線性關係之次級量尺(L)之參 數, L = λi + ε i , ε i ~ N (0,1 − λi2 ) , i = 1,2,3,4,5 。另外,隨機產生標準常態分配 之 500 題試題難度參數, b j ~ N (0,1) , j = 1,2,3,K,500 。利用 MRCMLM 產 生受試者在每題的答對機率,再透過隨機產生之均勻分配判定受試者於該 題之答對與否。最後,利用這筆作答反應,搭配 WinBUGS 軟體做參數估 計,取估計後的難度參數與迴歸參數並重新產生受試者的主要量尺參數與 次級量尺參數作為真實能力值,再用新的能力值產生新的作答反應,這些 新的參數將作為 CAT 模擬用。 X1 M X 100. L1. X 101 M X 200. L2. X 201 M X 300. L3. X 301 M X 400. L4. X 401 M X 500. λ1 λ2. λ3. λ4 λ5. L5. 圖6 H1L5之題間HO-IRT模式 29. H1.

(38) X1 M X 100. L1. X 101 M X 200. L2. X 201 M X 300. L3. X 301 M X 400. L4. λ1 λ2. λ3. H1. λ4. X 401 M X 500. λ5. L5. 圖7 H1L5之題內HO-IRT模式. 貳、評估指標 本研究使用平均偏誤(Bias) 、均方根誤(RMSE)與平均信度(Reliability) 作為評估指標,其計算方法如下︰ 一、平均偏誤(Bias) (一)主要量尺 Bias (H ) =. (. 1 N ˆ ∑ Hj −Hj N j =1. ). 其中, H j 為第 j 位主要量尺之真值, Hˆ j 為第 j 位主要量尺之估計值,N 為 受試者人數。 (二)次級量尺 Bias (L ) =. 1 N. ∑ (Lˆ N. j =1. j. − Lj. ). 其中, L j 為第 j 位次級量尺之真值, Lˆ j 為第 j 位次級量尺之估計值,N 為 受試者人數。 30.

(39) 二、均方根誤(RMSE) (一)主要量尺 RMSE(H ) =. ∑ (Hˆ N. 1 N. j =1. j. ). 2. − Hj. 其中, H j 為第 j 位主要量尺之真值, Hˆ j 為第 j 位主要量尺之估計值,N 為 受試者人數。 (二)次級量尺 RMSE(L ) =. 1 N. ∑ (Lˆ N. j =1. j. − Lj. ). 2. 其中, L j 為第 j 位次級量尺之真值, Lˆ j 為第 j 位次級量尺之估計值,N 為 受試者人數。 三、平均信度(Reliability). (.  D ˆ Re liability = 1 − ∑  ∑ L jd − L jd j =1  d =1 N. ) + ∑ (Hˆ 2. K. k =1. jk. ). 2 − H jk  N (D + K ) . 其中, H jk 為第 j 位第 k 個主要量尺之真值, Hˆ jk 為第 j 位第 k 個主要量尺 之估計值, L jd 為第 j 位第 d 個次級量尺之真值, Lˆ jd 為第 j 位第 d 個次級量 尺之估計值,N 為受試者人數,D 為次級量尺數量,K 為主要量尺數量。 四、均方根差異(root mean square of distance, RMSD) (一)主要量尺 RMSD(H ) =. (. 1 N ˆ ∑ Hj −Hj N j =1. ). 2. 其中, H j 為第 j 位做完全部試題之主要量尺估計值, Hˆ j 為第 j 位主要量尺 之估計值,N 為受試者人數。 (二)次級量尺 31.

(40) RMSD(L) =. (. 1 N ˆ ∑ Lj − Lj N j =1. ). 2. 其中, L j 為第 j 位做完全部試題之次級量尺估計值, Lˆ j 為第 j 位次級量尺 之估計值,N 為受試者人數。. 第三節 實徵資料 壹、實徵資料 實徵資料是由國立臺中教育大學教育的測驗統計與適性學習研究中心 提供,分別為國小五年級數學科測驗(郭伯臣,2005)與數學科推理測驗 (張勝凱,2010)。以下分別介紹︰ 一、國小五年級數學科測驗 測驗試題根據國小五年級數學科能力指標研發,並將其區分為數與量、 幾何、代數等三個次級量尺,主要量尺為數學能力,題間多向度。測驗題 庫共包含 238 題,施測樣本 775 人;使用 SPSS 信度分析後,得到 Cronbach’s Alpha 為 0.98,再使用 WinBUGS 軟體進行試題參數分析,各子測驗的迴 歸參數如下表 1。各次級量尺對應題數如下表 2,其中,對應數與量之題 數有 173 題,對應幾何之題數有 39 題,對應代數之題數有 26 題。各題的 難度參數如附錄一。 表 1 數學科測驗 數學科測驗各 測驗各次級量尺參 次級量尺參數 迴歸參數 數與量 幾何 代數. 0.9677 0.9477 0.9296. 32.

(41) 表 2 數學科測驗 數學科測驗各次級量尺對應題數 測驗各次級量尺對應題數 對應之次級量尺 數與量 幾何 代數. 題數 173 39 26. 二、數學科推理測驗 測驗試題為數學科推理測驗,並區分為三個次級量尺與一個主要量尺, 題內多向度。測驗題庫共包含 65 題,施測樣本 868 人;使用 SPSS 信度分 析後,得到 Cronbach’s Alpha 為 0.935,再使用 WinBUGS 軟體進行試題參 數分析,各子測驗的迴歸參數如下表 3。各次級量尺對應題數如下表 4, 其中,對應次級量尺 1 之題數有 32 題,對應次級量尺 2 之題數有 5 題, 對應次級量尺 3 之題數有 20 題,同時對應次級量尺 1 與次級量尺 2 之題 數有 3 題,同時對應次級量尺 2 與次級量尺 3 之題數有 5 題。各題的難度 參數如附錄二。 表 3 數學科推理測驗 數學科推理測驗各 推理測驗各次級量尺參數 次級量尺參數 迴歸參數 次級量尺 1 次級量尺 2 次級量尺 3. 0.7809 0.9093 0.7833. 表 4 數學科推理測驗 數學科推理測驗各 推理測驗各次級量尺對應題數 對應之次級量尺 次級量尺 1 次級量尺 2 次級量尺 3 次級量尺 1 次級量尺 2 次級量尺 2 次級量尺 3. 題數 32 5 20 3 5. 33.

(42) 貳、驗證實徵資料 本研究將各個實徵資料以 WinBUGS 軟體估計後之試題參數、迴歸參 數與受試者能力值,模擬 50 筆作答反應,再以這 50 筆作答反應模擬 CAT 程序,評估其結果是否相同。. 第四節 系統分析與設計 壹、系統架構分析 本研究建置的 HCAT 系統採用主從式架構,如圖 8 所示。系統可區分 為用戶端(Client Side)及伺服器端(Server Side):用戶端為使用者操作 介面部份,透過網頁瀏覽器經由 HTML 遠端登入系統;伺服器端的作業系 統採用 CentOS 5(Linux 版本),網頁伺服器軟體為 Apache,後端資料庫 伺服器採用 MySQL,用來執行程序與存放本系統的使用者資料、成績、 題庫等,網頁伺服器端的程式語言為 PHP,並藉由 PHP 來發展各項模組功 能程式並與資料庫進行連結,另外依照實際的需求,在 PHP 的程式中也會 嵌入 HTML、JavaScript 等其他程式語言,完成各模組的功能需求。. HTML. PHP Request HTML Document. JavaScript. Apache. Internet. MySQL. CentOS 5. HTML Document 伺服器端. 客戶端. 圖8 系統架構模式 34.

(43) 貳、適性測驗流程設計 本研究規劃適性測驗流程如圖9所示,管理者先對試卷設定HO-IRT能 力估計模式,分為Multidimensional CAT Approach與Unidimensional CAT Approach兩種。每位受試者參加測驗後,均會初始化能力值與試題,當受 試者做完初始設定的試題後,在能力估計方面可選擇MLE與MAP兩種能力 估計的方法,依照設定的能力估計法進行能力估計,選題策略為最大訊息 法,並依照估計的能力值與設定選題策略,從題庫中挑選試題,若已經達 到最大測驗長度或能力估計最小變動量時,則結束測驗產生學習診斷報告, 否則繼續施測與能力估計,直到符合測驗中止條件。. 35.

(44) 設定 HO-IRT 能力估計模式. 受試者. 初始化能力值與試題. 能力估計 (MLE 與 MAP). 選題策略 (最大訊息法). 題庫. 終止條件 不成立. (最大測驗長度或能 力估計最小變動量). 成立 學習診斷報告. 圖9 適性測驗流程設計. 參、系統模組設計 本研究設計的系統模組與使用者及資料庫的關係如圖 10 所示,除了提 供適性測驗模組之外,還有其他功能的模組來增強系統的可用性。對受試 者而言,可以透過適性測驗模組,依據不同的試題反應模式、選題策略、 能力估計法與測驗中止的設定進行適性測驗,也可以透過成果查詢模組, 查詢每次測驗歷程;對管理者而言,可以透過帳號管理模組,新增或刪除 36.

(45) 受試者帳號與密碼,也可以透過題庫維護模組,進行題庫的新增或修改, 也可以透過測驗施測模組,設定各受試者所屬班級的測驗類型,例如選擇 不同的題庫與設定不同的適性測驗方式,還可以透過成果查詢模組,查詢 所有受試者的所有測驗歷程。 使用者. 管理者. 受試者. 系統模組. 資料庫. 帳號管理模組. 帳號資料. 題庫維護模組. 試題資料. 測驗施測模組. 測驗資料. 成果查詢模組. 選題資料. 適性測驗模組. 測驗成果. 圖10 HCAT模組架構 各模組的細部說明如下: 一、帳號管理模組 管理者可以一次匯入或匯出多筆帳號資料,而且能查詢資料庫中所有 使用者的帳號或修改其資料,而一般受試者只能對自己的帳號資料進行修 改。如圖 11 所示。 帳號管理模組. 帳號匯入、匯出. 單一帳號新增. 圖11 帳號管理模組. 37. 帳號查詢、修改.

(46) 二、題庫維護模組 題庫的維護者可以新增或編修題庫及其相關資料,如︰新增試題到題 庫中,編修或刪除題庫中試題,匯入或匯出試題參數。如圖 12 所示。. 題庫維護模組. 題庫新增、編修. 試題新增、編修. 試題參數匯. 或刪除. 入、匯出. 圖12 題庫維護模組 三、測驗施測模組 在本系統中考量資料庫的負荷與實際現場的運用,將測驗的指派以班 級為單位,所以管理者可以選擇欲施測的班級,再選擇想要施測的題庫, 最後再設定施測種類(試題反應模式、選題策略、能力估計法與最大測驗 長度),就可以開放測驗給該班級施測,相對的也可以取消測驗,如圖 13 所示。 測驗施測模組. 施測班級控管. 施測題庫控管. 施測類型控管. 圖13 測驗施測模組 四、適性測驗模組 受試者開始測驗後,會由不同的試題反應模式與能力估計法估計能力, 再由暫時估計能力與選題策略選擇適性題目,直到達成測驗終止條件,如 圖 14 所示。 經由文獻探討的比較與實際限制考量下,本系統在試題反應模式開發 38.

(47) 了高階層試題反應模式的兩種估計模式,Multidimensional CAT Approach 與 Unidimensional CAT Approach;在選題策略開發了最大訊息法;在能力 估計法開發了 MLE 與 MAP。. 適性測驗模組. 試題反應模式. 選題策略. 能力估計法. 圖14 適性測驗模組 五、成果查詢模組 受試者可以觀看本身的基本資料、單元學習紀錄與測驗診斷報告;管 理者可以查詢所有受試者的測驗結果,如圖 15 所示。 成果查詢模組. 受試者診斷報告列表. 管理者查詢介面. 圖15 成果查詢模組. 第五節 研究工具 壹、MATLAB 7 本研究使用 MATLAB 程式產生受試者主要量尺能力、次級量尺能力 與試題參數,進而模擬其作答反應與 HCAT 程序,計算其 Bias、RMSE、 平均信度。. 貳、WinBUGS WinBUGS 為透過 MCMC 的方法處理貝氏模式架構所研發的統計軟體, 39.

(48) 使用方法很彈性,目前版本(WinBUGS1.4)有程式撰寫和圖形操作兩種 (劉芝毓,2006) 。WinBUGS 軟體可應用的模式相當的廣泛,包括一般線 性和非線性模式、處理連續和非連續性資料及多變量模式(Cowles, 2004; Qiu, Song, & Tan, 2002;Sturtz, Ligges, & Gelman, 2005)。. 參、系統建置平台 一、作業系統:CentOS 5。 二、網站伺服器:Apache 2.2.11。 三、資料庫:MySQL 5.1.30。 四、網頁語言:PHP 5.2.8。 五、系統主機:ASUS RS162-E4/RX4。. 肆、開發工具 一、PHP 程式編輯軟體:PSPad。 二、網頁編輯軟體:Macromedia Dreamweaver。. 40.

(49) 第四章 研究結果與討論 第一節 能力估計結果 本實驗之主要量尺數為 1,次級量尺數為 5,模型分為題間多向度與題 內多向度,能力估計模式有二,模式 1 為 Multidimensional CAT Approach, 模式 2 為 Unidimensional CAT Approach;能力估計法分別為 MAP 與 MLE。 表 5~10 分別為測驗長度 50 題與 100 題之 CAT 模擬結果。其詳細的 RMSE 變動圖如圖 16~23,其中,縱軸為 RMSE,橫軸為第 n 次能力估計,n 為 當前作答題數減初始測驗題數加 1,舉例來說,本研究之模型有五個子測 驗,故初始測驗設定為 5 題,則當測驗長度為 50 題時, n = 50 − 5 + 1 = 46 , 測驗長度為 100 題時, n = 100 − 5 + 1 = 96 。結果可歸納於以下幾點︰ 一、如圖 16 與圖 20、圖 17 與圖 21, MAP 在模式 1 _題內或模式 1_題間, 其主要量尺與次級量尺均優於 MLE。 二、如圖 18 與圖 21、圖 19 與圖 22, MAP 在模式 2_題內或模式 2_題間, 其主要量尺與次級量尺均和 MLE 類似,但又以 MAP 稍好一些。 三、在 Huang(2009)的研究中,模型為題間多向度,能力估計法為 MAP, 其結果顯示模式 1 優於模式 2,而本研究在題間_MAP 之情境下,結 果與 Huang(2009)相同,如圖 16 與圖 18;如圖 20 與圖 22,模式 1 僅 有在主要量尺勝出,次級量尺均輸模式 2。 四、如圖 17 與圖 19,模式 1 在單一個子測驗對應到的次級量尺與主要量 尺優於模式 2;如圖 21 與圖 23,模式 1 僅在主要量尺勝出,次級量尺 均輸模式 2。 五、如圖 16 與圖 17、圖 20 與圖 21,題內多向度模型在多個子測驗對應 到的次級量尺與主要量尺會優於題間多向度,亦即 L1 、 L3 、 H 1 ;如圖 18 與圖 19、圖 22 與圖 23,題內多向度模型僅在多個子測驗對應到的 41.

(50) 次級量尺會優於題間多向度,亦即 L1 、 L3 。 綜合上述結果,本研究推薦進行 HCAT 時,以模式 1 搭配 MAP 較佳。 表 5 HCAT 於測驗長度 50 題之 RMSE 估計模式_模型_估計法 模式 1_題間_MAP 模式 1_題內_MAP 模式 2_題間_MAP 模式 2_題內_MAP 模式 1_題間_MLE 模式 1_題內_MLE 模式 2_題間_MLE 模式 2_題內_MLE. L1. L2. L3. L4. L5. H1. RMSE 0.4646 0.4671 0.4650 0.4659 0.4664 0.4105 STD. 0.0084 0.0081 0.0086 0.0091 0.0072 0.0062. RMSE 0.4147 0.4485 0.3731 0.4547 0.4555 0.3322 STD. 0.0056 0.0079 0.0074 0.0088 0.0067 0.0073. RMSE 0.4735 0.4754 0.4742 0.4740 0.4751 0.4305 STD. 0.0093 0.0095 0.0081 0.0095 0.0079 0.0066. RMSE 0.4026 0.5006 0.3525 0.5097 0.5103 0.4810 STD. 0.0081 0.0077 0.0050 0.0090 0.0094 0.0125. RMSE 0.7125 0.7061 0.7066 0.7096 0.7086 0.4398 STD. 0.0110 0.0101 0.0100 0.0121 0.0102 0.0050. RMSE 0.6986 1.0363 0.6993 1.0399 1.0357 0.4270 STD. 0.0113 0.0152 0.0100 0.0180 0.0163 0.0143. RMSE 0.4743 0.4763 0.4748 0.4752 0.4758 0.4312 STD. 0.0085 0.0089 0.0067 0.0097 0.0084 0.0060. RMSE 0.4061 0.5031 0.3525 0.5140 0.5153 0.5008 STD. 0.0086 0.0083 0.0051 0.0094 0.0094 0.0153. 表 6 HCAT 於測驗長度 50 題之 Bias 估計模式_模型_估計法 模式 1_題間_MAP 模式 1_題內_MAP 模式 2_題間_MAP 模式 2_題內_MAP 模式 1_題間_MLE. L1. L2. L3. L4. L5. H1. Bias. -0.0002 -0.0009 -0.0006 0.0000 -0.0007 -0.0006. STD. 0.0065 0.0063 0.0077 0.0068 0.0073 0.0050. Bias. 0.0012 0.0005 0.0005 0.0008 -0.0013 0.0006. STD. 0.0063 0.0061 0.0053 0.0065 0.0067 0.0047. Bias. -0.0008 0.0004 0.0000 -0.0007 -0.0013 -0.0006. STD. 0.0080 0.0074 0.0076 0.0076 0.0073 0.0057. Bias. 0.0013 0.0001 0.0014 0.0032 -0.0011 0.0022. STD. 0.0085 0.0100 0.0053 0.0101 0.0107 0.0143. Bias. -0.0008 0.0007 0.0024 0.0008 -0.0005 0.0004. STD. 0.0106 0.0122 0.0130 0.0119 0.0110 0.0078 42.

(51) 表 6(續) 估計模式_模型_估計法 模式 1_題內_MLE 模式 2_題間_MLE 模式 2_題內_MLE. L1. L2. L3. L4. 0.0004 0.0016 -0.0001 -0.0011 -0.0038 -0.0003. STD. 0.0116 0.0195 0.0130 0.0224 0.0218 0.0085. Bias. 0.0006 -0.0001 0.0006 -0.0003 -0.0013 -0.0002. STD. 0.0066 0.0069 0.0079 0.0071 0.0073 0.0049. Bias. 0.0018 0.0006 0.0009 0.0039 -0.0010 0.0028. STD. 0.0089 0.0111 0.0058 0.0106 0.0127 0.0163. 估計模式_模型_估計法. 模式 1_題內_MAP 模式 2_題間_MAP 模式 2_題內_MAP 模式 1_題間_MLE 模式 1_題內_MLE 模式 2_題間_MLE 模式 2_題內_MLE. H1. Bias. 表 7 HCAT 於測驗長度 50 題之平均信度 題之平均信度. 模式 1_題間_MAP. L5. 信度. 0.7910. STD 信度. 0.0034 0.8271. STD 信度. 0.0041 0.7815. STD 信度. 0.0037 0.7852. STD 信度. 0.0052 0.5491. STD 信度. 0.0063 0.2686. STD 信度. 0.0123 0.7807. STD 信度. 0.0036 0.7794. STD. 0.0058. 43.

(52) 表 8 HCAT 於測驗長度 100 題之 RMSE 估計模式_模型_估計法 模式 1_題間_MAP 模式 1_題內_MAP 模式 2_題間_MAP 模式 2_題內_MAP 模式 1_題間_MLE 模式 1_題內_MLE 模式 2_題間_MLE 模式 2_題內_MLE. L1. L2. L3. L4. L5. H1. RMSE 0.3720 0.3727 0.3715 0.3724 0.3731 0.3485 STD. 0.0058 0.0054 0.0055 0.0055 0.0051 0.0061. RMSE 0.3282 0.4049 0.3235 0.4140 0.4146 0.3122 STD. 0.0044 0.0066 0.0055 0.0067 0.0065 0.0072. RMSE 0.3800 0.3817 0.3801 0.3805 0.3823 0.3789 STD. 0.0071 0.0068 0.0057 0.0070 0.0065 0.0066. RMSE 0.3243 0.4290 0.2920 0.4357 0.4371 0.4278 STD. 0.0050 0.0061 0.0055 0.0076 0.0070 0.0105. RMSE 0.4908 0.4894 0.4917 0.4911 0.4909 0.3603 STD. 0.0061 0.0066 0.0070 0.0069 0.0077 0.0060. RMSE 0.4781 0.7332 0.4784 0.7354 0.7312 0.3583 STD. 0.0062 0.0128 0.0072 0.0120 0.0127 0.0099. RMSE 0.3803 0.3817 0.3806 0.3815 0.3824 0.3787 STD. 0.0063 0.0064 0.0050 0.0073 0.0065 0.0065. RMSE 0.3252 0.4291 0.2925 0.4365 0.4379 0.4346 STD. 0.0050 0.0056 0.0052 0.0072 0.0074 0.0110. 表 9 HCAT 於測驗長度 100 題之 Bias 估計模式_模型_估計法 模式 1_題間_MAP 模式 1_題內_MAP 模式 2_題間_MAP 模式 2_題內_MAP 模式 1_題間_MLE 模式 1_題內_MLE. L1. L2. L3. L4. L5. H1. Bias. 0.0003 0.0001 -0.0003 -0.0009 -0.0010 -0.0005. STD. 0.0053 0.0055 0.0066 0.0058 0.0060 0.0050. Bias. 0.0014 0.0011 0.0004 0.0009 -0.0018 0.0007. STD. 0.0047 0.0060 0.0042 0.0065 0.0067 0.0048. Bias. 0.0006 0.0011 0.0003 -0.0002 -0.0009 0.0002. STD. 0.0061 0.0059 0.0065 0.0067 0.0061 0.0049. Bias. 0.0017 0.0007 0.0001 0.0021 -0.0015 0.0017. STD. 0.0056 0.0085 0.0043 0.0087 0.0087 0.0128. Bias. 0.0025 0.0012 0.0000 0.0000 -0.0010 0.0005. STD. 0.0077 0.0095 0.0084 0.0083 0.0080 0.0055. Bias. 0.0009 0.0017 -0.0012 0.0015 -0.0019 0.0005. STD. 0.0069 0.0120 0.0082 0.0127 0.0144 0.0061 44.

(53) 表 9(續) 估計模式_模型_估計法 模式 2_題間_MLE 模式 2_題內_MLE. L1. L2. L3. L4. 0.0007 0.0006 0.0005 -0.0005 -0.0016 0.0000. STD. 0.0055 0.0063 0.0065 0.0064 0.0064 0.0048. Bias. 0.0017 0.0013 -0.0004 0.0021 -0.0013 0.0019. STD. 0.0051 0.0087 0.0046 0.0083 0.0092 0.0134. 估計模式_模型_估計法. 模式 1_題內_MAP 模式 2_題間_MAP 模式 2_題內_MAP 模式 1_題間_MLE 模式 1_題內_MLE 模式 2_題間_MLE 模式 2_題內_MLE. H1. Bias. 表 10 HCAT 於測驗長度 100 題之平均信度. 模式 1_題間_MAP. L5. 信度. 0.8642. STD 信度. 0.0021 0.8638. STD 信度. 0.0030 0.8551. STD 信度. 0.0023 0.8436. STD 信度. 0.0035 0.7776. STD 信度. 0.0025 0.6334. STD 信度. 0.0065 0.8549. STD 信度. 0.0023 0.8422. STD. 0.0035. 45.

(54) 模式1_題間 模式 題間_MAP 題間 1.0000 0.9000. RMSE. 0.8000 0.7000. 次級量尺1. 0.6000. 次級量尺2. 0.5000. 次級量尺3. 0.4000. 次級量尺4. 0.3000. 次級量尺5. 0.2000. 主要量尺. 0.1000 0.0000 1. 20. 39. 58. 77. 96. 圖16 模式1_題間_MAP之RMSE變動圖. 模式1_題 模式 題內_MAP 1.0000 0.9000 0.8000. RMSE. 0.7000. 次級量尺1. 0.6000. 次級量尺2. 0.5000. 次級量尺3. 0.4000. 次級量尺4. 0.3000. 次級量尺5. 0.2000. 主要量尺. 0.1000 0.0000 1. 20. 39. 58. 77. 96. 圖17 模式1_題內_MAP之RMSE變動圖. 46.

(55) 模式2_題間 模式 題間_MAP 題間 1.0000 0.9000 0.8000. RMSE. 0.7000. 次級量尺1. 0.6000. 次級量尺2. 0.5000. 次級量尺3. 0.4000. 次級量尺4. 0.3000. 次級量尺5. 0.2000. 主要量尺. 0.1000 0.0000 1. 20. 39. 58. 77. 96. 圖18 模式2_題間_MAP之RMSE變動圖. 模式2_題內 模式 題內_MAP 題內 1.0000 0.9000 0.8000 0.7000. RMSE. 次級量尺1 0.6000. 次級量尺2. 0.5000. 次級量尺3. 0.4000. 次級量尺4. 0.3000. 次級量尺5. 0.2000. 主要量尺. 0.1000 0.0000 1. 20. 39. 58. 77. 96. 圖19 模式2_題內_MAP之RMSE變動圖. 47.

(56) 模式1_題間 模式 題間_MLE 題間 3.5000 3.0000. RMSE. 2.5000. 次級量尺1 次級量尺2. 2.0000. 次級量尺3 1.5000. 次級量尺4 次級量尺5. 1.0000. 主要量尺 0.5000 0.0000 1. 20. 39. 58. 77. 96. 圖20 模式1_題間_MLE之RMSE變動圖. 模式1_題 模式 題內_MLE 3.5000 3.0000 2.5000. RMSE. 次級量尺1 次級量尺2. 2.0000. 次級量尺3 1.5000. 次級量尺4 次級量尺5. 1.0000. 主要量尺 0.5000 0.0000 1. 20. 39. 58. 77. 96. 圖21 模式1_題內_MLE之RMSE變動圖. 48.

(57) 模式2_題間 模式 題間_MLE 題間 1.0000 0.9000. RMSE. 0.8000 0.7000. 次級量尺1. 0.6000. 次級量尺2. 0.5000. 次級量尺3. 0.4000. 次級量尺4. 0.3000. 次級量尺5. 0.2000. 主要量尺. 0.1000 0.0000 1. 20. 39. 58. 77. 96. 圖22 模式2_題間_MLE之RMSE變動圖. 模式2_題內 模式 題內_MLE 題內 1.0000 0.9000 0.8000. RMSE. 0.7000. 次級量尺1. 0.6000. 次級量尺2. 0.5000. 次級量尺3. 0.4000. 次級量尺4. 0.3000. 次級量尺5. 0.2000. 主要量尺. 0.1000 0.0000 1. 20. 39. 58. 77. 96. 圖23 模式2_題內_MLE之RMSE變動圖. 49.

參考文獻

相關文件

Using a one-factor higher-order item response theory (HO-IRT) model formulation, it is pos- ited that an examinee’s performance in each domain is accounted for by a

The left panel shows boxplots showing the 100 posterior predictive p values (PPP-values) for each observed raw score across the 100 simulated data sets generated from

For a polytomous item measuring the first-order latent trait, the item response function can be the generalized partial credit model (Muraki, 1992), the partial credit model

massive gravity to Ho ř ava-Lifshitz Stochastic quantization and the discrete quantization scheme used for dimer model and crystal melting. are

• Adds variables to the model and subtracts variables from the model, on the basis of the F statistic. •

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

These images are the results of relighting the synthesized target object under Lambertian model (left column) and Phong model (right column) with different light directions ....

The Hull-White Model: Calibration with Irregular Trinomial Trees (concluded).. • Recall that the algorithm figured out θ(t i ) that matches the spot rate r(0, t i+2 ) in order