以a-鄰近法為選題策略之電腦化適性測驗模擬研究

全文

(1)第一章第一節. 緒論. 研究動機. 題庫試題曝光率控制對電腦化適性測驗(computerized adaptive testing, CAT)的題庫安全是很重要的。如不能有效控制試題曝光率，當試題過度曝光，受測者則容易施測到相同的試題使得測驗的安全性與公平性產生危機。若能有效分散試題，使試題的使用率平均，並且有效降低題庫中高曝光率試題題數，以確保題庫安全。「估準考生能力值」及「均勻試題曝光率」於試題反應理論中之電腦化適性測驗環境內構成兩個非平行相容之目標。前者固為測驗目的之一，後者因題庫所費不貲，均勻曝光率逐漸更為重要。 (黃建智、程爾觀、劉長萱，2003)。在CAT施行時，發現常遭遇的困難有： 1. 當試題過度曝光，受測者則容易施測到相同的題目，使得測驗的安全性與公平性產生危機。 2. 題庫中低曝光率試題存在，浪費了題庫經濟效益，如何在較少的能力估計誤差的損耗下，提升題庫中低曝光率試題的使用率，是一件重要工作。 3. 選題法在控制高曝光率試題時，易造成能力估計誤差的損耗，故在試題曝光有效控制試題曝光率的同時，如何減少能力估計誤差的損耗是一項改進選題法的重要指標。. 1.

(2) 第二節. 研究目的. 欲克服上述問題，需從試題曝光控制設計著手，雖於國內外文獻對高曝光率試題控制多有研究，但較少針對提升題庫中低曝光率試題的使用率進行研究，所以執行此一研究重要目的是希望開發新適性測驗選題策略，期望達到在有效控制試題曝光率的同時，亦能減少能力估計誤差的耗損。茲將本研究目的設定如下：一、研發適性測驗初始階段選題法，期望在不降低能力估計精準度下，提升低曝光率試題的使用率。二、提出新選題策略，在有效控制試題曝光率的同時，亦能減少能力估計誤差. 的損耗。. 2.

(3) 第三節名詞釋義一、題目反應理論題目反應理論(item response theory, IRT)是依據受試者的測驗表現結果，經數學模式的運算，評估受試者能力和測驗反應間之關係，也就是以機率的概念來解釋受試者能力和題目反應間之關係，此數學模式稱之為題目特徵函數（item characteristic function, ICF）。二、題目訊息函數題目訊息函數(item information function)可作為題目優劣的一個判定函數。在某能力值的題目訊息，代表題目所能提供某能力值的貢獻量，題目訊息越高，其提供的貢獻量越大，相對的能力值估計誤差越小。三、題庫題庫(item pool)並非是一堆題目的集合而已，它是經過電腦化且統計過的題目組合。對教學者或出題者而言，題目的數量越多越好，題目所提供的題目參數或指標；如難度、鑑別度等，越詳細越好。但是要建立一個數量足夠且品質兼顧的題庫，則需花費的時間、人力成本是相當龐大的。而且不足量的題庫拿來使用是相當危險的，受測者容易有背誦、猜題的舉動。還有除了足量且高品質的題庫之外，還要能不斷充實題庫，才能確保題庫的實用性。四、題目曝光率題目曝光率(item exposure rate)為測驗長度中，每題被使用的相對次數。題庫中設計良好的題目通常具有較高的受試者訊息，若常使用這些題目則測驗的效率高且精準度高，但卻使得這些題目產生過高的題目曝光率，導致電腦化適性測驗之安全性與公平性受到質疑，所以在實際的電腦適性測驗中，題目曝光控制是一個重要的議題。. 3.

(4) 第二章第一節. 文獻探討. 電腦化適性測驗. 傳統紙筆式測驗與CAT有很大的不同，由於適性測驗施測時所涉及的計算過程相當複雜，因此長久以來，適性測驗一直無法完全取代傳統的紙筆測驗，但因IRT的成熟，以及電腦科技日新月異，近年來結合了IRT、適性測驗及電腦技術發展而成的CAT已有凌駕於傳統紙筆測驗之上的趨勢。適性測驗的目的即是要提供最能符合受試能力水準的題目，以獲得描述該受試者能力特質之最豐富的訊息。根據學者的研究(余民寧，1992)，CAT要包含的幾個要素不一而同。其中，每一個要素都包含幾種可用的選擇方式，採取何種最佳的選擇方式就看主要目的而定。以下就CAT的六項基本要素(余民寧， 1992)—試題反應模式、題庫的準備、測驗的起點、能力估計、試題選擇方法、終止標準，分別加以描述。. 一、試題反應理論試題反應理論又稱潛在特質理論(latent trait theory)為 CAT 主要理論基礎，係利用數學函式來表示可觀察到的受試者的測驗行為及不可觀察到的潛在特質之間的關係；以可觀察的行為反應預測受試者的潛在特質(Hambleton & Swaminathan,1985)。 (一)試題反應的模式：以適用於二元化計分(binary or dichotomous scoring) 的性向或成就測驗資料為主。IRT 以試題特徵函數表達受試者能力與測驗反應之間的關係，因函數中所採用的參數不同區分成：單參數、雙參數以及三參數等三種模式（表 2-1）。每一種模式依據其採用參數個數來命名，而且都僅適用於二元計分的反應資料，也就是受試者做出正確反應時計分為 1，若為錯誤反應時則計分為 0。(余民寧,1992). 4.

(5) 以下就以 CAT 最常採用的三參數對數模式(three-parameters logistic model, 簡稱 3PLM)來做說明。表 2-1. 試題特徵函數公式一覽表. 不同參數. 試題特徵函數公式. 單參數. P(ui = 1θ s ) =. 1 1 + exp−D(θs −bi ). (1.1). 雙參數. P(ui = 1θ s ) =. 1 1 + exp−Dai (θs −bi ). (1.2). 三參數. P(ui = 1θ s ) = ci +. 1 − ci 1 + exp−Dai (θs −bi ). (1.3). 若以 u i 代表考生在第 i 題的作答反應，若考生答對第 i 題則 u i =1，答錯則 u i =0； θ s 表示第 S 位考生的能力參數、 a 為鑑別參數、b 為難度參數、c 猜測. 參數、D=1.702，為一常數。 exp：自然對數，exp=2.71828。 S ：為受試者編號；S=1,2,3…M，M 為該測驗受試者總人數。 θ s ：第 S 受試者的能力值 i ：試題編號； i =1,2,3…n，n 是該測驗試題總數。 a i ：第 i 題的鑑別參數，它的值愈大表示試題對受試者之鑑別力愈強；. 反之，則鑑別力愈弱。a 參數反映試題特徵曲線之斜率，其理論值範圍介於-∞與+∞之間，在實際應用上常限定為 0 至+3； b i ：第 i 題的難度參數，它反映試題特徵曲線位於能力量尺上之位. 置，因假定受試者在能力量尺之能力值範圍為-∞至+∞，所以 b 參數之理論值範圍亦然。不過，在實際應用上常限定受試能力值介於-3 至+3 之間； c i ：第 i 題的猜測參數，代表猜對之機率，它的值愈大表示不論受試. 5.

(6) 能力為高或低，皆容易猜對；值愈小，則不易被猜對。c 參數可反映試題特徵曲線之左下漸近線(lower asymptote)，其理論值範圍介於 0 與 1 之間，在實際應用上過高之 c 參數常不被接受。 P (ui = 1θ s ) ：能力 θ s 答對第 i 題的機率函數； P (ui = 1θ s ) 是一種S. 型曲線，其值介於 0 與 1 之間。 (二)試題訊息函數：其定義如下： I i (θ ) =. [ Pi ' (θ )] 2 Pi (θ )Qi (θ ). i =1,2,…., n. (1.4). I i (θ ) ：代表試題 i 在能力為 θ 上所提供的訊息。. Pi ' (θ ) ：在 θ 點上的 Pi (θ ) 值的導數。 Pi (θ ) 為能力 θ 在試題 i 上的試題反應函數， Qi (θ ) = 1 − Pi (θ ) 。. 余民寧(1992)論及 IRT 提出一個能夠用來描述試題或測驗、挑選測驗試題、以及比較測驗的相對效能的實用方法，該方法即需要使用試題訊息函數 (item information function)，作為建立、分析、與診斷測驗的主要參考依據。 (三)估計標準誤：其定義如下 ∧. SE (θ ) =. 1 I (θ ). (1.5). ∧. SE (θ ) 稱作估計標準誤(standard error of estimation)，當 I (θ ) 值達到最大時， ∧. SE (θ ) 值便達到最小，也就是說 θ 值的最大近似值的估計誤差最小，亦即此時. 的 θ 的最大近似值估計最精確。Green, Yen& Burket(1989)研究指出影響估計標準誤的三個因素：. 6.

(7) (1)測驗試題的題數：越多則估計標準誤越小。 (2)測驗試題的品質：題目的鑑別度高估計標準誤越小。 (3)試題難度與受試者能力間的配合度：越接近則估計標準誤越小。. (四) θ 估計的精確度以均方誤(mean squared error，MSE)評估 MSE =. 1 N. N. ∑ (θˆ i =1. i. −θi )2. (1.6). 二、題庫的準備 CAT 的題庫中，每道試題都必須要含有試題反應模式的參數，無論使用何種試題反應模式或選題方法，最重要的是要有一個試題難度分布均勻、符合標準的試題鑑別度、低試題猜測度的優質的題庫。然而當題庫大於 200 題時，能力的估計並不會比較準確(Ree,1981) 。題庫為受試者作答的來源，如果 CAT 採固定長度約為傳統測驗的一半時，其選題題庫大小最好為傳統紙筆測驗的 6 至 8 倍長(Stocking, 1994) ，當選題題庫長度為 3 倍長時，精確度與作答效率才有顯著的差異(Hung, 1988)。適性測驗之效度與效率，與選題題庫大小具有密切關係(李茂能, 2000)。為再確認題庫大小之影響，研究中將題庫分為小型題庫 300 題、中型題庫 600 題和大型題庫 1200 題。. 三、測驗的起點適性測驗既然是要測出考生的能力，在測驗一開始由於還不知道考生的能力，一般都會假設能力的初始值為 0，常用的方法有：(一)從難度適中的試題中隨機抽取一道試題，(二)完全隨機抽取一道試題，(三)先調查學生背景，如教育程度、年齡…等，再決定出哪一類試題。. 7.

(8) 四、能力估計常用的能力估計法有兩種，一種是最大概似值估計法(Maximum Likelihood Estimators, 簡稱MLE) ，另一種是貝氏估計法。假設受試者已測驗n個題目，則最大概似值估計法的公式如下: n. L(u 1 , u 2 ,...., u n θ ) = ∏ Piu Q1i- u i. i. (1.7). i =1. L(u 1 , u 2 ,...., u n θ ) ：概似值函數。. N ：總題數。 u i ：代表考生在第 i 題的作答反應。. Piu i ：受試者在題目 i 的答對機率。 Q iu i ：受試者在題目 i 的答錯機率。. 其中 u i 代表考生在第 i 題的作答反應，若考生答對第 i 題則 u i =1，答錯則 u i =0； Pi = Pi (θ ) = P(u i = 1θ ) 為受試者在題目 i 的答對機率， Q i = Q i (θ ) = 1 - Pi 為. 受試者在題目 i 的答錯機率，而最大概似值估計法即將不同能力值 θ 代入函數中，而此概似能力值定義為受試者的能力值 θ 之最大概似估計值記作 n. θ = Max( ∏ P i u Q 1i- u ) 。 i. i. i -1. MLE主要是利用概似函數來進行能力估計，其估計效能很好，但是遇到 (1)無法估計受試者全對或是全錯的答題組型，此狀況會產生能力值無法收歛而造成無法估計的情形，(2)受試者的反應組型異於常理，例如:很容易的問題答錯而很困難的問題卻答對時，也會產生能力值無法收歛而造成無法估計的情形(3) 在最初施測的幾題中能力的估計值也會產生不穩定的問題；而貝氏估計雖然可以克服這些困難，但是當事前分配的假設如果不當的話，會產生偏差的能力估計值(Wang & Vispoel, 1998)。但是為考慮其電腦運算之方便性，以利之後線上化時的程式設計，本研究採用最大概似值估計法。. 8.

(9) 五、試題選擇方法 1. 最接近難度法 ∧. 選擇題目難度 b j 最接近受測者能力估計值 θ 的題目，作為下一階段施測的題目(Reckase, 1973; Urry, 1970; Weiss, 1974)；此種方法在計算上比較簡單，其選題函數定義為(1.8)，選題時選擇尚未施測且 F j 最小的題目。 F j (θˆ) =| θˆ − b j |. (1.8). 2. 最接近偏移難度法若猜測度 c j ≠ 0 時，題目訊息最大值不會發生在難度 b j ，會產生偏移 ∧. 至 m j，最接近偏移難度法為選擇題目偏移難度最接近受試者能力估計值 θ. 的題目，作為下一階段施測的題目。定義偏移難度 m j (Birnbaum, 1968)為 mj = bj +. ⎛ 1 + 1 + 8c j 1 log⎜ ⎜ 2 1.7 a j ⎝. ⎞ ⎟ ⎟ ⎠. (1.9). 則選題時選擇尚未施測且選題函數 F j (1.10)最小的題目。 F j (θˆ) =| θˆ − m j |. (1.10). 3. 單點式最大訊息法單點式最大訊息法是選擇對受試者目前能力能提供最豐富訊息的題目來施測，也就是選擇訊息函數(1.11)最大的題目，在此即選擇尚未施測且公式 1.11 中 F j 最大的題目，作為適性測驗下一階段施測題目。此種選題法可使訊息量達到最大，由於訊息量與估計誤差呈負相關(Lord, 1980)，這種選題方式可使每一位受試者的能力值估計誤差降到最低。 F j (θˆ) =. [ P' j (θˆ)]2 P (θˆ).Q (θˆ) j. j. (1.11). 9.

(10) 4. 區間式最大訊息法區間式最大訊息法使用區間能力值的題目訊息總值，來取代在某點能力值的題目訊息量(Veerkamp & Berger, 1997)。區間式最大訊息法是選擇訊息函數在信賴區間內的面積，選擇最大的訊息面積，作為適性測驗下一階段施測題目，故選題時選取尚未施測且選題函數(1.12)最大者。 θˆu. Fj (θ ) = ∫ˆ I j (θ )dθ θl. 其中. (1.12). 1.96 ˆ 1.96 (θˆl ,θˆu ) = (θˆ ,θ + ) I T (θˆ) I T (θˆ). 5. KL 訊息法（1）定義 KL 訊息 ∧. 為定義真實能力值 θ 0 與任意能力值 θ 間的距離(discrepancy)，以改進 CAT 的估計誤差精準度 Cover & Thomas(1991)與 Kullback(1959)提出 KL 訊息(Kullback-Leibler information； KL information)，KL 訊息在真實能力值 θ 0 距離 θ 越遠時，KL 值越大；反之，KL 值小。而當 θ 0 = θ 時，KL 訊息為 0；且對各題目的總訊息有加法性。若作答反應為 U i ，第 i 題的 KL 訊息定義為 ⎡ L (θ ;U ) ⎤ K i (θ || θ 0 ) ≡ E θ 0 log ⎢ i 0 i ⎥ ⎣ Li (θ ;U i ) ⎦. (1.13). 其中 E θ 為對 θ 0 的期望值， Li (θ ;U i ) = PiU (θ )Qi1−U (θ ) 為第 i 題的最大概 i. i. 0. 似函數，故 KL 訊息亦可改寫為 ⎡ P (θ ) ⎤ ⎡1 − Pi (θ 0 ) ⎤ K i (θ || θ 0 ) = Pi (θ 0 ) log ⎢ i 0 ⎥ + [1 − Pi (θ 0 )] log ⎢ ⎥ ⎣ Pi (θ ) ⎦ ⎣ 1 − Pi (θ ) ⎦. (1.14). （2）定義平均 KL 訊息指標 Chang & Ying（1996）利用 KL 訊息的特性定義第 i 題的平均 KL 訊息指標(average KL information index)為. 10.

(11) θ n +δ n K i (θˆn ) = ∫ˆ K i (θ || θˆn )dθ ˆ. θ n −δ n. (1.15). 其中 θˆn 為施測 n 題後的能力估計值， δ n 為平均值的計算區間大小。此指標表示 KL 訊息在 θ n − δ n 與 θ n + δ n 間的區域面積，若 δ n 值小，. 則指標(1.15)受 K i (θ || θˆn ) 在 θˆn 上的曲度(curvature)影響；若 δ n 值大，則指標易受 K i (θ || θˆn ) 尾端值影響。故 δ n 應隨施測階段 n 遞減到 0，並且區間 ( θ n − δ n , θ n + δ n )應包含 θ 0 ，又因 θ 0 的最大概似估計 θˆn 為平均數為 θ 0 ，變. 異數為 1 I ( n ) (θ 0 ) 的近似常態分佈，故將區間設為. {θˆ. n. [. ]. [. ]. 12 12 − c I ( n ) (θˆn ) ,θˆn + c I ( n ) (θˆn ). }. 其中常數 c 依據收斂機率選擇。因 I ( n ) 為 n 階，故可設 δ n 為 δn = c. n. (1.16). 即第 i 題的平均 KL 訊息指標為 θˆn + c. n. θ n −c. n. K i (θˆn ) = ∫ˆ. K i (θ || θˆn )dθ. (1.17). KL 訊息法以此平均 KL 訊息指標選出最大訊息者，作為適性測驗的下一階段施測的題目。最大訊息法與KL訊息法最大的差異在於使用函數不同，最大訊息法使用題目訊息函數(1.11)，而KL訊息法採用KL訊息(1.17)，而題目訊息函數為真實能力值 θ 0 的函數，KL訊息為真實能力值 θ 0 與任意能力值 θ 的函數，因KL訊息考量真實與任意兩能力值，計算較複雜且費時，當 θ 0 = θ 時， KL訊息函數的曲度即為題目訊息函數，兩訊息法相同有訊息的加法性，可計算測驗的總訊息量。. 11.

(12) 六、終止標準固定長度和固定精確度是兩個常用的終止標準。固定長度是不管能力估計值或其變異數是否達到標準，只要題數一測驗完畢即測驗終止，所有考生施測的題數完全相同。固定精確度則是考生的能力估計值或其變異數小到某一個預定的標準則終止測驗，所有考生施測的題數不完全相同，但是能力值估計之精確度趨近相同。. 七、下圖2-1為考慮曝光率控制選項的CAT流程。設定初始值. 選題方法曝光率控制不成立終止條件成立作答反應能力估計不成立. 終止條件. 成立能力估計誤差與題庫曝光率效能評估. 圖2-1 CAT的流程. 12.

(13) 第二節. 初始階段選題策略. CAT 是 IRT 利用電腦來實施測驗，處理選題、計分、能力估計等方面的一種測驗方式。在正式實施時，CAT 依據受試者之答題的正誤來重新估計受試者能力值，依此估計能力值，選擇適當的題目進行測驗；即答對後選擇較難試題，反之，則選擇較簡單的試題，直到估計值穩定並精確時終止測驗。常用於測驗起點的決定方式，有以下幾種(王寶墉, 1995；陳麗如, 1998) 一、中等難度題目：即假設受試者為中等能力，在題庫中挑選難度適中的題目作為施測的起始題；中等難度題目開始，因題目有限，若每位受試者都使用相同的題目開始，其保密性需要考量。二、由受試者之基本資料（年齡、學習、經驗或其他測驗結果）估算受試者能力初始值，以決定測驗起始點。三、自由選題：由受試者在接受測驗的時候，自行判定自己的程度，以決定施測的起始題。四、隨機選題：由電腦隨機選題，但一般限定試題難度參數 b 介於-0.5 至 0.5 間為選取範圍。 McBride & Martin(1983)提出MM演算法第一題從五個最適當試題中隨機取，第二題從四個最適當試題中隨機選取，依此類推，第五題以後則僅挑最佳的試題施測。. 13.

(14) 第三節. 題庫曝光率控制之選題策略. Davey & Parshell(1995)指出 CAT 選擇題目的目標至少有三個： 1. 由快速又精確測量受試者，使測驗效率最大。 2. 由控制題庫內的施測率，保障題庫的安全性。 3. 由平衡題目內容性質施測率，確認多重試驗的相同組成成份。因此，選題方法乃 CAT 中重要的要素之ㄧ，根據不同的選題策略會導致不同的測驗效率，在此介紹考慮題庫曝光率控制選題法如下：. 一、鄰近法鄰近法(Nearest-Neighbors criterion, NN criterion; Cheng & Liou, 2003) 為考慮題目曝光率與能力估計精準度兩目標的折衷選題法，結合有較均勻曝光率的最接近偏移難度法與高估計精準度的單點式最大訊息法，其實施步驟如下：步驟一：計算每題在對數模式時題目訊息最大值發生點偏移難度 m j ，與其最大題目訊息 M j ，其公式如下： mj = bj +. ⎛ 1 + 1 + 8c j 1 log⎜ ⎜ 2 1.7 a j ⎝. M j ≡ Maxθ [I (θ )] =. (1.7 a j ) 2 8(1 − c j ). 2. ⎞ ⎟ ⎟ ⎠. [1 − 20c. (1.18) − 8c j + (1 + 8c j ) 2 / 3 2. j. ] (1.19). 步驟二：設定非遞增整數 n (k ) k =1,2,…,L 步驟三：初始化能力值估計值 θˆ ( k ) 步驟四：找新題 n ( k ) 個，其題目偏移難度 m j 最接近 θˆ ( k ) 步驟五：選 n ( k ) 個題目中，有最大 M j 的作為下一題施測題目，重新估計能力值為 θˆ ( k +1) ，回到步驟三，直到停止條件成立。. 14.

(15) 其中 L 為施測題目數。當施測題目越多，能力估計值變動越小，估計越接近真實能力值，但為降低其誤差，故在鄰近能力估計值能力值間選擇最大訊息的題目，此表示當施測題目越多，估計越精準，則題目是否為最大訊息的題目漸不重要，故非遞減整數 n ( k ) 可設為 L , L -1,…,1，表示當施測題數越多，則鄰近選題法越接近偏移難度選題法。. 二、a 分層法(A_STR) Chang & Ying(1999)在其研究中提出以鑑別度將題庫分層，用來降低高鑑別度的試題曝光率，並增加低鑑別度的試題曝光。作法是在測驗開始的階段，由於能力估計仍不精確，此時若使用高 a 值的試題，對於能力估計的精確性助益不大，反而會使高 a 值的試題過度曝光；在測驗後期，能力估計趨於精確，此時使用高 a 值的試題，就能幫助提升能力估計的精確性。 A_STR 的詳細實施步驟如下：步驟一：先假設題庫中的試題數量為 N，測驗的長度為 L，題庫分成 K 個階層。步驟二：將試題分入此 K 層，根據 a 值由小到大排序，第一層包含最小的 a 值，第 K 層包含最大的 a 值。步驟三：由第 k 層中選出 nk 個與能力估計值最接近難度的題目，並實施測驗( n1 + nk +…..+ nk =L)。步驟四：把測驗分成 K 階段，k 由 1,2,.....,K，重複步驟三。研究結果顯示，A_STR 在測驗的初始階段，使用鑑別度較小的題目，當測驗題數增加時，鑑別度也逐步增加，能提高低 a 值試題的使用率，同時仍能維持良好的能力估計精確性(Chang & Ying, 1999;Hau & Chang, 2001)。雖然如此，A_STR 卻無法有效控管試題的曝光率，其題庫中的最大曝光率仍大於預設的 rmax (Chang, Qian, & Ying,2001;Leung, Change, &. 15.

(16) Hua,2002)。此外，a、b 參數間的相關也使得 A_STR 的成效大打折扣。舉例來說，當 a、b 參數間成正相關時，a 值越高的那層，b 值也越高，對於能力水準較低的考生而言，這樣的題目對他的能力估計並無助益。(Chang & Ying, 1999) 三、a_stratified with b blocking(BA_STR) 以 GRE(Graduate Record Examination)數學測驗為例，a、b 參數間的相關達.44。為了降低 A_STR 各層間 b 參數的差異，Chang,Qian,& Ying (2001)提出 a_stratified with b blocking(BA_STR)，希望能把各層中 b 參數的分配維持一致。 BA_STR 的實施程序如下：步驟一：先假設題庫中的試題數為 N，測驗長度為 L，題庫分成 K 層。步驟二：把試題依 b 值由小到大分成 T 個區塊，每個區塊包含 K 道試題，因此 T=N/K(若 N 無法被 K 整除則做適當的調整)。第一區塊包含 b 值最低的試題，第 T 的區塊包含 b 值最高的試題。步驟三：把每個區塊中的試題依 a 值大小分成 K 層，每一層包含一到試題，因此，對 t 個區塊而言(t=1....,T)。第一層的 a 值為最低，第 K 層之 a 值為最高，此分層程序和 A_STR 相同。步驟四：將每個區塊的第 K 層合併為一層，k=1.....,K。步驟五：對應 K 層，把測驗分成 K 階段，每個階段的施測題數應為 L/K 個試題。最接近偏移難度法與考慮 b 參數的 a 分層法，為題目曝光率較均勻，但損失能力估計誤差的方法。鄰近法，為對於題目曝光率均勻程度與能力估計誤差較折衷的方法。區間式最大訊息法與 KL 訊息法，為能力估計精準度高但損失題目曝光均勻度的選題方法（謝友詩，2005）。. 16.

(17) 第三章. 研究方法. 本章分為第一節研究架構、第二節初始階段 b 值分層隨機選取法介紹與初始階段選題策略比較、第三節 a-鄰近法介紹與選題策略之曝光率控制比較、第四節資料產生、第五節控制方法效能比較等五節加以分述。. 第一節研究架構本研究初始階段 b 值分層隨機選取法與 a-鄰近法在不同條件下對於估計精準度與題目曝光率之效果，圖 3-1 乃依據本研究之研究動機、研究目的及參考相關文獻後設計之研究架構圖。研究動機. 研究目的. 文獻探討. 初始階段選題策略. 選題策略之曝光率控制. 選題策略之曝光率控制之研究方法. 初始階段選題策略之研究方法. 選題策略實施效能評估指標. 初始階段選題策略之研究結果. 選題策略之曝光率控制之研究結果. 研究的結論與建議圖 3-1. 研究架構圖. 17.

(18) 第二節. 初始階段選題策略. 本研究提出適性測驗之初始階段 b 值分層隨機選取法，將進行在不同條件下對於估計精準度與題目曝光率之效果分析。. 一、初始階段 b 值分層隨機選取法由於 CAT 施測題目會隨受試者的答題反應調整施測題目的難度， Lord(1977)發現不同起始點對於測驗標準誤(standard error of measurement)並沒有很大差別。所以偏差的起始題應不致於影響測量結果，但較正確的起始題，的確有助於縮短施測題數，而使能力估計提早完成。若從難易適中的題目開始施測，經過多次使用後必然增加洩題的可能，基於保密性的考量，洪碧霞、吳裕益、吳鐵雄、陳英豪(1992)建議採用隨機選取起始點的方式，隨機提供受試者. 第一個題目。但是，隨機選取的方式並不能保證找到最佳起始點，同時也不符合適性測驗的精神。在圖 3-2-1 中測驗開始階段三至五題時，由於能力估計仍未精確，此時若能有效分散試題，提升題庫中低曝光率試題使用率，達到在盡量不降低能力估計精準度下，有效提升題庫試題使用率，將對整體試題曝光率有所幫助，提升題庫的經濟效益。 2.5 2 1.5. MSE. 1 0.5 0 N1. N3. N5. N7. N9. N11. N13. N15. N17. N19. 圖 3-2-1 CAT 二十題能力估計的 MSE. 18.

(19) 因此為提出能兼顧保密性的考量和最佳起始點的方法；本研究提出下列 b 值分層隨機選取法之方法進行適性測驗之初始階段選題法：本研究提出之 b 值分層隨機選取法實施步驟如下：步驟一：將題庫依 b 值大小分成 k 層，k 為初始階段選題題數。步驟二：測驗前 k 題，由此 k 層中各隨機選取一題，使受試者在測驗前期施策難易度相差較大試題。. 二、測驗初期選題策略比較研究設計為了評估上述提出方法之成效，本研究將於進行不同適性測驗初始階段選題法之比較，詳細實驗設計如下：（1）測驗初期選題策略及控制題數中間能力起始選題法、中間能力起始的 MM 選題法、隨機起始能力的 MM 選題法、隨機選題法、b 值分層選題法的五種方法。用其控制測驗前期三或五題選題方法(表 3-2-1)。表 3-2-1 測驗初期選題策略比較代號表選題方法. k. 代號. 中間能力起始選題. o. (A1). 3. (A2_3). 5. (A2_5). 3. (A3_3). 5. (A3_5). 3. (A4_3). 5. (A4_5). 3. (A5_3). 5. (A5_5). 中間能力起始的 MM 演算法. 隨機起始能力的 MM 演算法. 隨機選題. b 值分層選題. 19.

(20) （2）後期選題策略最接近難度法（B）、KL 訊息法（KL）、最大訊息法（MI）、鄰近法（NN）等四種選題策略。（3）題庫參數及題庫大小題庫參數範圍變化三種(表 3-4-2)P1、P2、P3，題庫大小有 300 題、 600 題、1200 題；題庫種類代號表(表 3-4-3)。. 20.

(21) 第三節. 選題策略之曝光率控制比較. 本研究提出 a-鄰近法選題策略，將進行在不同條件下對於估計精準度與題目曝光率之效果分析。. 一、選題策略之 a-鄰近法假設試題 1 的試題參數為 a=0.6、b=0、c=0；試題 2 的試題參數為 a 度=1.5、 b=0、c=0。進行試題 1、試題 2 的訊息函數比較。由圖 3-3-1 中可看出鑑別度較均勻的試題尾端訊息量比鑑別度較集中的試題尾端訊息量還大，因此在能力估計誤差大時可採用鑑別度較均勻的試題。. 0.4 0.35 0.3 0.25. 試題1 試題2. 0.2 0.15 0.1 0.05 0 -3. -2.5. -2. -1.5. 圖 3-3-1. -1. -0.5. 0. 0.5. 1. 1.5. 2. 2.5. 3. 試題 1、試題 2 的訊息函數比較. 為考慮試題曝光率與能力估計精準度兩目標折衷，結合有效控制鑑別度值小試題使用時機與估計精準度較高的單點式最大訊息法。提出之 a-鄰近法實施步驟如下：. 21.

(22) 步驟一: 進行 b 值分層隨機選取法 k=3。步驟二: 估計受試者能力值估計值 θˆ 。步驟三: 根據 θˆ 選擇題庫中訊息函數 I j (θˆ) =. [ P ' j (θˆ)]2 較大者 P (θˆ).Q (θˆ) j. h（h=測驗長度-. j. 已測驗題數）題。步驟四:從 h 個試題中，選擇其中題目 a 值最小試題施測。步驟五:根據作答情形重新估計能力值，回到步驟三，直到終止條件成立。. 二、選題策略之曝光率控制比較研究設計為了評估上述提出方法之成效，本研究將進行不同適性測驗選題法之比較，詳細實驗設計如下： (1) 題庫參數及題庫大小題庫參數範圍變化模擬試題參數題庫 P1、P2、P3 與真實試題參數題庫 P4、P5、P6 (表 3-4-2)、題庫種類代號表(表 3-4-3)。 (2) 選題策略單點式最大訊息法(MI)、鄰近法(NN)、a-鄰近法（a-NN）等三種選題策略。表 3-3-1. 隨機起始能力. 試題曝光率控制研究之選題策略的代號表. 選題策略. 代號. a-鄰近法. a-NN. 單點式最大訊息法. b-MI. 鄰近法. b-NN. 22.

(23) 第四節. 資料產生. CAT 與傳統紙筆測驗的不同在於必須建立一個含有 IRT 測驗試題參數的題庫，題庫中之參數必須以共同量尺來表示，才能有一致的單位。適性測驗之效度與效率，與選題題庫大小具有密切關係(李茂能, 2000)。根據表 3-4-1 題庫參數範圍本研究將進行之有題庫參數範圍變化有六種(表 3-4-2)，題庫大小有 300 題、600 題、1200 題，設計如下（表 3-4-3）：. 表3-4-1 文獻資料之題庫參數範圍作者（年代）. 能力參數. 難度參數. Stone (1992). -4~4. -2.18~2.43. 0.716~3. 0. Baker (1990). -2.4~2.4. -1.8~1.2. 0.35~2. 0. Drasgow (1989). -3~3. -1.5~2.5. 0.4~1.4. 0. Mislevy & Stocking (1989). -3.5~3.5. -2~2. 0~1.5. 0~0.4. Skaggs & Stevenson (1989). -3~3. -2~2. 0.4~1.2. 0.1~0.3. 23. 鑑別度參數猜測度參數.

(24) 表 3-4-2. 題庫參數分佈代號表. 代號. 題庫. 難度參數. 鑑別度參數. 猜測度參數. P1. Baker(1990). -1.8~1.2. 0.35~2. 0. P2. Drasgow(1989). -1.5~2.5. 0.4~1.4. 0. P3. 自訂範圍. .2~2. 0. P4. 王淑卿 (2005). 126 題. P5. 郭伯臣(2006). 149 題. P6. 郭伯臣(2006). 149 題. 表 3-4-3. -3~3. 題庫種類代號表. 題庫. 題庫種類：P1. 題庫種類：P2. 題庫種類：P3. 題庫大小：300 題. P1-300. P2-300. P3-300. 題庫大小：600 題. P1-600. P2-600. P3-600. 題庫大小：1200 題 P1-1200. P2-1200. P3-1200. 題庫. 題庫種類：P4. 題庫種類：P5. 題庫種類：P6. P4-126. P5-149. P6-149. 真實能力值. P5-149-811（註 1） P6-149-747（註 2）. 註 1：真實能力值為題庫參生時同時估計之受試者 811 位能力值註 2：真實能力值為題庫參生時同時估計之受試者 747 位能力值. 24.

(25) 上述研究利用 MATLAB 6.5 模擬 CAT、進行能力估計誤差評估與曝光率控制效能評估。資料產生部分是以研究者自行撰寫模擬程式。受試者為 1000 人，能力服從平均數為 0，標準差為 1 的常態分配，亦即 N（0,1）；但 P5-149-881 和 P6-149-747 為題庫參生時同時估計之受試者能力值。為顯現能力估計的收斂情形，故本研究將測驗長度統一設定為 20 題。能力估計部分採用常用的 MLE。. 25.

(26) 第五節. 選題策略實施效能評估指標. 一、能力估計效能利用真實能力值 θ 與估計能力值 θ 的均方根差(root mean squared error,. RMSE)，評估 CAT 系統對受試者能力估計的準確度。 RMSE 的定義如下：. RMSE =. 1 N ∧ ∧ 2 ∑( - ) N j=1 θ j1 θ j2. （1.20）. ∧. θ j1 ：考生 j 的模擬真實能力值 ∧. θ j2 ：考生 j 的估計能力值 N ：受測考生總人數. 二、曝光率控制效能評估指標 1.. 題目曝光率的均勻度( χ ) 2. 每題之曝光率的期望值為平均曝光率，故利用 Pearson 的卡方檢定檢定題目曝光率是否呈現均勻分配，其檢定統計量為如下： n. χ 2 = ∑ (eri − er ) 2 / er i =1. （1.21）. 若 χ 值小，則題目曝光率為均勻分配，表示題目被充分的使用，故題 2. 庫使用有效率。 2.. 題庫中未選用試題的百分比、最高曝光率、曝光率大於.3 試題的題數、曝光率大於.2 試題的題數。. 26.

(27) 第四章. 研究結果與討論. 第一節. 初始階段選題策略比較. 一、RMSE 值與 χ 值之比較 2. 表 4-1-1 至表 4-1-24 中縱向為題庫種類、橫向為初始階段之選題策略，共九種（表 3-1-1）。（一）就題庫 P1（表 4-1-1 至表 4-1-8）中資料 A5_3 與 A5_5 的 χ 值為各 2. 項方法中最低，而 A5_3 在對能力估計精準度耗損情形比 A5_5 小。（二）就題庫 P2（表 4-1-9 至表 4-1-16）中資料 A5_3 與 A5_5 的 χ 值為 2. 各項方法中最低，但 A5_3 與 A5_5 中只有 MI 在 A5_3 的情形下對能力估計精準度影響最小，其餘方法皆有能力估計精準度降低的情形。（三）就題庫 P3（表 4-1-17 至表 4-1-24）中資料 A5_3 與 A5_5 的 χ 值為 2. 各項方法中最低，但 A5_3 與 A5_5 中只有 B 能力估計精準度影響不變，其餘方法皆有能力估計精準度降低的情形。（四）綜合題庫 P1、P2、P3 結果，測驗初期採用 b 值分層隨機選取法（A5_3 與 A5_5）能有效控制題目曝光率的均勻度；若在後期選題法採用 MI 作為選題策略對能力估計精準度耗損影響最小。. 27.

(28) 表 4-1-1 B 選題法在題庫 P1 的 RMSE 值比較 RMSE. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 0.26. 0.24. 0.26. 0.25. 0.25. 0.25. 0.26. 0.24. 0.25. P1-600. 0.25. 0.25. 0.25. 0.25. 0.26. 0.25. 0.25. 0.25. 0.26. P1-1200. 0.25. 0.26. 0.25. 0.26. 0.25. 0.26. 0.26. 0.25. 0.27. 表 4-1-2 KL 選題法在題庫 P1 的 RMSE 值比較 RMSE. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 0.23. 0.22. 0.23. 0.25. 0.23. 0.23. 0.23. 0.23. 0.24. P1-600. 0.23. 0.22. 0.24. 0.21. 0.22. 0.22. 0.22. 0.23. 0.23. P1-1200. 0.24. 0.23. 0.24. 0.22. 0.22. 0.23. 0.24. 0.24. 0.24. 表 4-1-3 MI 選題法在題庫 P1 的 RMSE 值比較 RMSE. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 0.19. 0.19. 0.19. 0.20. 0.19. 0.19. 0.19. 0.19. 0.19. P1-600. 0.18. 0.19. 0.18. 0.18. 0.18. 0.19. 0.18. 0.18. 0.19. P1-1200. 0.18. 0.19. 0.18. 0.19. 0.19. 0.20. 0.21. 0.18. 0.20. 表 4-1-4 NN 選題法在題庫 P1 的 RMSE 值比較 RMSE. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 0.21. 0.25. 0.25. 0.25. 0.25. 0.20. 0.21. 0.21. 0.21. P1-600. 0.21. 0.26. 0.27. 0.25. 0.26. 0.23. 0.21. 0.21. 0.22. P1-1200. 0.21. 0.25. 0.26. 0.26. 0.25. 0.22. 0.20. 0.21. 0.21. 28.

(29) 表 4-1-5 B 選題法在題庫 P1 的 χ 值比較 2. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 43.18. 22.04. 13.20. 11.90. 10.03. 12.16. 12.78. 7.46. 6.75. P1-600. 76.54. 35.59. 27.74. 22.62. 22.25. 22.60. 25.89. 13.85. 11.74. P1-1200. 153.71. 83.54. 66.24. 55.66. 52.57. 57.49. 55.88. 37.10. 30.52. 表 4-1-6 KL 選題法在題庫 P1 的 χ 值比較 2. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 95.51. 92.21. 87.52. 85.09. 84.92. 92.18. 98.97. 64.48. 57.36. P1-600. 187.26. 158.57. 148.63. 151.00. 143.00. 163.28. 177.07. 109.90. 90.45. P1-1200. 323.17. 295.09. 276.63. 258.48. 245.27. 272.53. 303.94. 179.36. 143.60. 表 4-1-7 MI 選題法在題庫 P1 的 χ 值比較 2. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 71.75. 66.48. 63.81. 65.86. 63.68. 71.45. 81.21. 49.26. 44.84. P1-600. 135.57. 121.26. 114.45. 116.66. 113.81. 129.28. 147.40. 87.20. 73.80. P1-1200. 246.01. 213.33. 198.94. 204.90. 192.21. 228.75. 265.52. 149.95. 126.06. 表 4-1-8 NN 選題法在題庫 P1 的 χ 值比較 2. A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. P1-300. 35.89. 43.85. 44.55. 15.10. 15.54. 28.04. 34.69. 16.57. 14.24. P1-600. 79.50. 76.55. 77.69. 29.30. 28.45. 49.41. 55.72. 29.61. 24.54. P1-1200. 166.43. 153.48. 151.87. 65.93. 64.45. 88.78. 97.45. 60.62. 47.13. 29.





(34) 二、題庫試題最大試題曝光率之比較就表 4-1-25 資料中 A5_3 與 A5_5 的試題最大試題曝光率皆為對低，支持測驗初期試題 b 值分層選題對可以有效降低最大曝光率試題曝光率。. 三、題庫中試題曝光率大於 0.3 題數之比較就表 4-1-26 資料中 A5_3 與 A5_5 的試題曝光率大於 0.3 題數皆為最少，支持測驗初期試題 b 值分層選題對可以有效降低試題曝光率大於 0.3 題數。. 四、題庫中試題曝光率大於 0.2 題數之比較就表 4-1-27 資料中 A5_3 與 A5_5 的試題曝光率大於 0.2 題數皆為最少，支持測驗初期試題 b 值分層選題對可以有效降低試題曝光率大於 0.2 題數。. 五、未選試題用題數佔題庫百分比之比較就表 4-1-28 資料中 A5_3 與 A5_5 的未選試題用題數佔題庫百分比皆為最低，支持測驗初期試題 b 值分層選題對可以有效降低未選試題用題數。. 六、初始階段 b 值分層隨機選取選題策略 k=3 和 k=5 效能比較初始階段 b 值分層隨機選取選題策略在測驗長度 20 題時，能力估計精準以控制 3 題為較佳。. 34.

(35) 表 4-1-25. 初始階段選題策略比較題庫試題最大試題曝光率 A1. A2_3 A2_5 A3_3 A3_5 A4_3 A4_5 A5_3 A5_5. B-P1-300. 1. 0.655 0.308 0.424 0.288 0.517 0.581 0.292 0.238. B-P1-600. 1. 0.376 0.297 0.36 0.264 0.496 0.57 0.286 0.226. B-P1-1200. 1. 0.402 0.324 0.381 0.307 0.527 0.586 0.311 0.268. KL-P1-300. 1. 0.752 0.67 0.424 0.288 0.655 0.645 0.585 0.553. KL-P1-600. 1. 0.656 0.585 0.597 0.512 0.691 0.793 0.517 0.51. KL-P1-1200. 1. 0.678 0.474 0.575 0.463 0.572 0.637 0.413 0.35. MI-P1-300. 1. 0.604 0.531 0.558 0.503 0.649 0.716 0.468 0.438. MI-P1-600. 1. 0.563 0.486 0.444 0.409 0.503 0.593 0.373 0.351. MI-P1-1200. 1. 0.539 0.452 0.448 0.375 0.492 0.57 0.342 0.341. NN-P1-300. 1. 1. 1. 0.553 0.544 0.431 0.515 0.317 0.285. NN-P1-600. 1. 1. 1. 0.564 0.552 0.344 0.416 0.233 0.214. NN-P1-1200. 1. 1. 1. 0.525 0.523 0.39 0.493 0.268 0.247. B-P2-300. 1. 0.448 0.29 0.376 0.285 0.41 0.442 0.238 0.211. B-P2-600. 1. 0.44 0.343 0.412 0.325 0.432 0.421 0.264 0.197. B-P2-1200. 1. 0.368 0.275 0.395 0.272 0.404 0.452 0.231 0.205. KL-P2-300. 1. 0.835 0.774 0.742 0.733 0.849 0.891 0.732 0.696. KL-P2-600. 1. 0.776 0.71 0.678 0.679 0.759 0.811 0.651 0.618. KL-P2-1200. 1. 0.658 0.584 0.595 0.542 0.694 0.71 0.54 0.506. MI-P2-300. 1. 0.667 0.606 0.554 0.524 0.676 0.707 0.508 0.485. MI-P2-600. 1. 0.644 0.54 0.551 0.508 0.593 0.638 0.461 0.429. MI-P2-1200. 1. 0.564 0.461 0.435 0.385 0.529 0.57 0.374 0.351. NN-P2-300. 1. 1. 1. 0.58 0.589 0.43 0.474 0.309 0.27. NN-P2-600. 1. 1. 1. 0.576 0.597 0.359 0.445 0.235 0.227. NN-P2-1200. 1. 1. 1. 0.555 0.577 0.34 0.426 0.232 0.216. B-P3-300. 1. 0.388 0.251 0.291 0.168 0.208 0.161 0.168 0.132. B-P3-600. 1. 0.375 0.249 0.274 0.157 0.212 0.151 0.164 0.103. B-P3-1200. 1. 0.359 0.226 0.254 0.153 0.203 0.116 0.167 0.09. KL-P3-300. 1. 0.799 0.673 0.693 0.627 0.773 0.825 0.583 0.544. KL-P3-600. 1. 0.688 0.599 0.52 0.483 0.625 0.634 0.466 0.381. KL-P3-1200. 1. 0.632 0.497 0.521 0.442 0.542 0.567 0.407 0.32. MI-P3-300. 1. 0.596 0.536 0.561 0.489 0.65 0.724 0.453 0.395. MI-P3-600. 1. 0.575 0.472 0.498 0.419 0.571 0.655 0.391 0.357. MI-P3-1200. 1. 0.534 0.44 0.413 0.375 0.481 0.522 0.361 0.32. NN-P3-300. 1. 1. 1. 0.494 0.515 0.392 0.429 0.283 0.236. NN-P3-600. 1. 1. 1. 0.528 0.518 0.286 0.308 0.208 0.18. NN-P3-1200. 1. 1. 1. 0.502 0.503 0.252 0.173 0.156 0.113. 35.

(36) 表 4-1-26 初始階段選題策略比較題庫中試題曝光率大於 0.3 題數 A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. B-P1-300. 5. 7. 2. 2. 0. 2. 2. 0. 0. B-P1-600. 6. 6. 0. 4. 0. 2. 2. 0. 0. B-P1-1200. 5. 7. 3. 3. 1. 2. 2. 1. 0. KL-P1-300. 21. 27. 27. 2. 0. 26. 25. 22. 20. KL-P1-600. 17. 20. 22. 19. 20. 18. 19. 15. 11. KL-P1-1200. 11. 13. 19. 12. 13. 13. 17. 10. 6. MI-P1-300. 20. 21. 24. 22. 23. 21. 23. 17. 18. MI-P1-600. 9. 15. 16. 13. 14. 14. 16. 9. 8. MI-P1-1200. 7. 10. 7. 11. 8. 13. 15. 6. 3. NN-P1-300. 5. 5. 5. 2. 2. 10. 12. 1. 0. NN-P1-600. 5. 6. 6. 2. 2. 1. 2. 0. 0. NN-P1-1200. 5. 5. 5. 2. 2. 2. 2. 0. 0. B-P2-300. 7. 5. 0. 2. 0. 1. 1. 0. 0. B-P2-600. 7. 6. 4. 2. 4. 1. 1. 0. 0. B-P2-1200. 5. 5. 0. 2. 0. 1. 1. 0. 0. KL-P2-300. 27. 29. 28. 28. 29. 29. 29. 26. 25. KL-P2-600. 28. 27. 28. 28. 28. 28. 27. 23. 20. KL-P2-1200. 22. 23. 24. 25. 24. 26. 26. 18. 15. MI-P2-300. 21. 24. 25. 25. 25. 24. 25. 20. 17. MI-P2-600. 18. 20. 17. 20. 19. 18. 19. 13. 13. MI-P2-1200. 11. 14. 13. 15. 12. 16. 19. 7. 7. NN-P2-300. 6. 7. 7. 1. 1. 10. 13. 1. 0. NN-P2-600. 7. 6. 7. 2. 2. 1. 2. 0. 0. NN-P2-1200. 5. 5. 5. 1. 1. 1. 1. 0. 0. B-P3-300. 6. 3. 0. 0. 0. 0. 0. 0. 0. B-P3-600. 7. 3. 0. 0. 0. 0. 0. 0. 0. B-P3-1200. 7. 3. 0. 0. 0. 0. 0. 0. 0. KL-P3-300. 26. 25. 27. 25. 26. 25. 23. 20. 15. KL-P3-600. 13. 14. 17. 16. 19. 17. 17. 12. 10. KL-P3-1200. 13. 15. 22. 18. 18. 17. 17. 7. 2. MI-P3-300. 18. 18. 19. 19. 21. 19. 21. 14. 11. MI-P3-600. 10. 12. 14. 13. 14. 18. 19. 10. 5. MI-P3-1200. 8. 11. 8. 13. 9. 12. 15. 7. 3. NN-P3-300. 6. 6. 6. 1. 1. 9. 14. 0. 0. NN-P3-600. 6. 7. 7. 1. 1. 0. 1. 0. 0. NN-P3-1200. 7. 7. 7. 1. 1. 0. 0. 0. 0. 36.

(37) 表 4-1-27 初始階段選題策略比較題庫中試題曝光率大於 0.2 題數 A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. B-P1-300. 10. 10. 9. 8. 9. 6. 4. 3. 8. B-P1-600. 9. 7. 11. 4. 8. 3. 3. 1. 1. B-P1-1200. 10. 8. 11. 5. 9. 4. 4. 3. 2. KL-P1-300. 39. 39. 41. 8. 9. 38. 41. 36. 35. KL-P1-600. 40. 45. 45. 42. 45. 42. 41. 36. 32. KL-P1-1200. 28. 30. 35. 38. 38. 34. 35. 32. 22. MI-P1-300. 45. 46. 44. 48. 45. 48. 44. 42. 41. MI-P1-600. 40. 41. 39. 44. 42. 40. 38. 38. 34. MI-P1-1200. 20. 26. 28. 29. 30. 29. 26. 20. 15. NN-P1-300. 14. 13. 13. 6. 9. 23. 24. 18. 13. NN-P1-600. 9. 8. 9. 2. 2. 17. 21. 2. 2. NN-P1-1200. 10. 10. 8. 4. 4. 4. 5. 2. 2. B-P2-300. 9. 8. 9. 4. 4. 3. 3. 1. 2. B-P2-600. 10. 10. 10. 3. 5. 3. 2. 2. 0. B-P2-1200. 8. 6. 8. 3. 4. 1. 2. 1. 1. KL-P2-300. 34. 34. 36. 34. 35. 34. 33. 31. 31. KL-P2-600. 37. 38. 39. 38. 39. 38. 36. 34. 31. KL-P2-1200. 42. 41. 43. 43. 44. 42. 40. 33. 29. MI-P2-300. 44. 46. 43. 46. 45. 45. 40. 42. 38. MI-P2-600. 38. 41. 44. 39. 41. 37. 36. 34. 29. MI-P2-1200. 33. 36. 35. 35. 37. 34. 33. 32. 26. NN-P2-300. 16. 8. 9. 2. 2. 23. 26. 18. 13. NN-P2-600. 11. 9. 9. 5. 6. 21. 23. 5. 1. NN-P2-1200. 8. 9. 9. 4. 4. 2. 1. 2. 1. B-P3-300. 8. 7. 5. 2. 0. 1. 0. 0. 0. B-P3-600. 10. 7. 4. 2. 0. 1. 0. 0. 0. B-P3-1200. 9. 5. 3. 2. 0. 1. 0. 0. 0. KL-P3-300. 37. 39. 38. 40. 43. 40. 40. 39. 38. KL-P3-600. 39. 36. 40. 45. 40. 37. 37. 35. 27. KL-P3-1200. 32. 34. 37. 39. 39. 37. 36. 35. 28. MI-P3-300. 43. 42. 41. 44. 42. 42. 38. 38. 35. MI-P3-600. 33. 32. 33. 36. 35. 36. 31. 31. 25. MI-P3-1200. 24. 28. 30. 31. 32. 27. 30. 23. 18. NN-P3-300. 11. 8. 8. 1. 2. 22. 23. 14. 12. NN-P3-600. 9. 10. 10. 2. 2. 20. 22. 1. 0. NN-P3-1200. 9. 9. 8. 1. 1. 2. 0. 0. 0. 37.

(38) 表 4-1-28 初始階段選題策略比較題庫中未選用試題百分比 A1. A2_3. A2_5. A3_3. A3_5. A4_3. A4_5. A5_3. A5_5. B-P1-300. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. B-P1-600. 2.3%. 0.7%. 0.2%. 0.3%. 0.0%. 0.2%. 0.0%. 0.0%. 0.0%. B-P1-1200. 5.2%. 4.2%. 2.3%. 0.9%. 0.6%. 1.5%. 2.2%. 0.3%. 0.0%. KL-P1-300. 65.3% 64.7% 64.7%. 0.0%. 0.0% 64.3% 64.0%. 0.0%. 0.0%. KL-P1-600. 81.2% 77.7% 77.7% 77.0% 76.7% 77.5% 78.3%. 0.7%. 0.0%. KL-P1-1200. 87.4% 87.5% 87.5% 85.3% 85.0% 85.5% 86.9%. 6.7%. 1.0%. MI-P1-300. 58.7% 59.3% 58.3% 57.0% 58.3% 59.0% 59.7%. 0.0%. 0.0%. MI-P1-600. 74.2% 73.8% 74.2% 73.5% 74.2% 74.3% 75.7%. 0.5%. 0.0%. MI-P1-1200. 82.6% 82.8% 83.1% 82.8% 82.4% 83.2% 83.9%. 6.1%. 1.6%. NN-P1-300. 0.0%. 0.0%. 0.3%. 0.0%. 0.0%. 0.0%. 0.3%. 0.0%. 0.0%. NN-P1-600. 5.2%. 1.8%. 0.8%. 0.2%. 0.2%. 4.8%. 5.5%. 0.0%. 0.0%. NN-P1-1200. 17.9%. 5.4%. 4.9%. 2.9%. 1.7% 19.7% 18.3%. 1.4%. 0.1%. B-P2-300. 0.3%. 0.3%. 0.0%. 0.0%. 0.0%. 0.3%. 0.0%. 0.0%. 0.0%. B-P2-600. 1.0%. 0.5%. 0.3%. 0.2%. 0.0%. 0.3%. 0.2%. 0.0%. 0.0%. B-P2-1200. 4.8%. 2.5%. 2.0%. 0.8%. 0.9%. 1.3%. 1.3%. 0.1%. 0.0%. KL-P2-300. 70.3% 70.7% 70.0% 69.0% 69.0% 69.7% 71.0%. 0.0%. 0.0%. KL-P2-600. 81.7% 81.7% 81.5% 81.2% 80.7% 80.7% 81.8%. 0.8%. 0.0%. KL-P2-1200. 88.5% 88.2% 88.2% 87.4% 87.9% 88.1% 88.9%. 6.9%. 1.8%. MI-P2-300. 62.7% 63.0% 62.7% 62.7% 63.0% 63.3% 64.0%. 0.0%. 0.0%. MI-P2-600. 77.3% 77.0% 76.7% 76.7% 77.0% 77.0% 78.5%. 0.3%. 0.0%. MI-P2-1200. 86.1% 86.3% 86.2% 86.3% 86.3% 86.5% 87.3%. 7.4%. 1.3%. NN-P2-300. 0.3%. 0.3%. 0.3%. 0.3%. 0.0%. 0.7%. 0.3%. 0.0%. 0.0%. NN-P2-600. 4.5%. 1.2%. 0.3%. 0.0%. 0.2%. 5.3%. 7.2%. 0.0%. 0.0%. NN-P2-1200. 17.8%. 3.8%. 3.8%. 1.4%. 1.7% 18.6% 17.4%. 2.4%. 0.3%. B-P3-300. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. B-P3-600. 0.7%. 0.5%. 0.2%. 0.0%. 0.0%. 0.2%. 0.3%. 0.0%. 0.0%. B-P3-1200. 3.3%. 2.4%. 1.4%. 1.3%. 0.5%. 1.0%. 0.9%. 0.1%. 0.0%. KL-P3-300. 66.7% 66.7% 65.3% 63.7% 63.0% 64.0% 65.3%. 0.0%. 0.0%. KL-P3-600. 78.2% 77.3% 75.0% 74.3% 74.3% 75.7% 76.7%. 0.2%. 0.0%. KL-P3-1200. 87.1% 86.4% 86.4% 85.0% 84.5% 84.8% 85.4%. 5.8%. 1.9%. MI-P3-300. 58.7% 58.7% 58.3% 58.7% 58.3% 59.0% 60.7%. 0.0%. 0.0%. MI-P3-600. 72.7% 72.0% 72.0% 72.2% 72.5% 72.5% 74.3%. 0.5%. 0.0%. MI-P3-1200. 82.8% 82.7% 82.6% 82.9% 82.8% 83.3% 84.2%. 6.8%. 1.4%. NN-P3-300. 0.0%. 0.0%. 0.0%. 0.0%. 0.0%. 0.3%. 0.0%. 0.0%. 0.0%. NN-P3-600. 2.5%. 1.2%. 0.7%. 0.2%. 0.3%. 2.8%. 3.2%. 0.0%. 0.0%. NN-P3-1200. 12.1%. 3.3%. 4.8%. 1.6%. 1.7% 13.3% 13.0%. 1.2%. 0.3%. 38.

(39) 表 4-1-29 初始階段 b 值分層隨機選取選題策略 k=3 和 k=5 效能比較總表. A5_3 A5_5 A5_3 A5_5 A5_3 A5_5 B-P1-300 * * B-P2-300 * * B-P3-300 * B-P1-600 * * B-P2-600 * B-P3-600 * * B-P1-1200 * B-P2-1200 * B-P3-1200 * * KL-P1-300 * * KL-P2-300 * * KL-P3-300 * KL-P1-600 * * KL-P2-600 * KL-P3-600 KL-P1-1200 * * KL-P2-1200 * * KL-P3-1200 * MI-P1-300 * * MI-P2-300 * MI-P3-300 * * MI-P1-600 * MI-P2-600 * * MI-P3-600 * MI-P1-1200 * MI-P2-1200 * MI-P3-1200 * NN-P1-300 * * NN-P2-300 * NN-P3-300 NN-P1-600 * NN-P2-600 * NN-P3-600 NN-P1-1200 * * NN-P2-1200 * NN-P3-1200 * 註三：「*」達到在試題曝光率下降的同時，能力估計誤差的損耗 RMSE 小於 0.01. 39.

(40) 第二節. 選題策略之曝光率控制比較. 一、模擬試題參數題庫 P1、P2、P3 的 RMSE 值與 χ 值比較 2. 在圖 4-2-1 至圖 4-2-6 中 RMSE 值以 b-MI 法為三種選題法最佳，但 χ. 2. 值卻遠高於其他兩種選題法。a-NN 法當題庫越大時在 χ 值能越接近 b-NN 2. 法，且能力估計精準較優於 b-NN 法，使 RMSE 值在試題曝光有效控制的同時達到較少的損耗。. 二、模擬試題參數題庫 P1、P2、P3 中選用次數最高 50 題比較由圖 4-2-7 至圖 4-2-15 中發現 a-NN 法試題曝光情形題庫越大時和 b-NN 法越接近。. 40.

(41) 0.27 0.25 0.23. P1-300. 0.21. P2-300 P3-300. 0.19 0.17 0.15 b-MI. 圖 4-2-1. a-NN. b-NN. 題庫 300 題 RMSE 值. 80.00 70.00 60.00 50.00. P1-300. 40.00. P2-300. 30.00. P3-300. 20.00 10.00 0.00 b-MI. a-NN. 圖 4-2-2. b-NN. 題庫 300 題 χ 值 2. 41.

(42) 0.27 0.25 0.23. P1-600. 0.21. P2-600 P3-600. 0.19 0.17 0.15 b-MI. 圖 4-2-3. a-NN. b-NN. 題庫 600 題 RMSE 值. 160.00 140.00 120.00. P1-600. 100.00. P2-600. 80.00. P3-600. 60.00 40.00 b-MI. a-NN. 圖 4-2-4. b-NN. 題庫 600 題 χ 值 2. 42.

(43) 0.27 0.25 0.23. P1-1200. 0.21. P2-1200 P3-1200. 0.19 0.17 0.15 b-MI. 圖 4-2-5. a-NN. b-NN. 題庫 1200 題 RMSE 值. 280.00 230.00 P1-1200 180.00. P2-1200 P3-1200. 130.00 80.00 b-MI. 圖 4-2-6. a-NN. b-NN. 題庫 1200 題 χ 值 2. 43.

(44) 次數. 600 500 400. b-MI. 300. a-NN b-NN. 200 100 0 n251 n255 n259 n263 n267 n271 n275 n279 n283 n287 n291 n295 n299. 圖 4-2-7. 次數. P1-300 試題曝光情形. 600 500 400. b-MI. 300. a-NN b-NN. 200 100 0 n551 n556 n561 n566 n571 n576 n581 n586 n591 n596. 圖 4-2-8. P1-600 試題曝光情形. 44.

(45) 次數. 600 500 400. b-MI. 300. a-NN b-NN. 200 100 0 n1151 n1156 n1161 n1166 n1171 n1176 n1181 n1186 n1191 n1196. 圖 4-2-9. 次數. P1-1200 試題曝光情形. 700 600 500. b-MI. 400. a-NN. 300. b-NN. 200 100 0 n251 n256 n261 n266 n271 n276 n281 n286 n291 n296. 圖 4-2-10. P2-300 試題曝光情形. 45.

(46) 次數. 600 500 400. b-MI a-NN. 300. b-NN. 200 100 0 n551 n556 n561 n566 n571 n576 n581 n586 n591 n596. 圖 4-2-11 P2-600 試題曝光情形. 次數. 600 500 400. b-MI. 300. a-NN b-NN. 200 100 0 n1151 n1157 n1163 n1169 n1175 n1181 n1187 n1193 n1199. 圖 4-2-12. P2-1200 試題曝光情形. 46.

(47) 次數. 700 600 500 b-MI. 400. a-NN. 300. b-NN. 200 100 0 n251 n256 n261 n266 n271 n276 n281 n286 n291 n296. 圖 4-2-13. 次數. P3-300 試題曝光情形. 600 500 400. b-MI a-NN. 300. b-NN. 200 100 0 n551 n556 n561 n566 n571 n576 n581 n586 n591 n596. 圖 4-2-14. P3-600 試題曝光情形. 47.

(48) 次數. 600 500 400. b-MI. 300. a-NN b-NN. 200 100 0 n1151 n1157 n1163 n1169 n1175 n1181 n1187 n1193 n1199. 圖 4-2-15. P3-1200 試題曝光情形. 48.

(49) 三、模擬試題參數題庫 P1、P2、P3 最大試題曝光率比較由表 4-2-1 中可得知 a-NN 法在最大試題曝光率的控制上為三種選題法中效果最好。表 4-2-1. P1、P2、P3 最大試題曝光率. 題庫. b-MI. a-NN. b-NN. P1-300. 0.566. 0.315. 0.483. P2-300. 0.629. 0.389. 0.545. P3-300. 0.642. 0.302. 0.528. P1-600. 0.515. 0.267. 0.508. P2-600. 0.534. 0.343. 0.511. P3-600. 0.502. 0.231. 0.511. P1-1200. 0.495. 0.184. 0.466. P2-1200. 0.534. 0.343. 0.511. P3-1200. 0.526. 0.207. 0.478. 49.

(50) 四、模擬試題參數題庫 P1、P2、P3 試題曝光率大於 .3 與大於 .2 比較由表 4-2-2 中 a-NN 法的試題曝光率大於 .3 試題題數為三種選題法最少。由表 4-2-3 中當題庫為 300、600 題 b-NN 法的試題曝光率大於. 2 試題題數為三種選題法最少。但當題庫為 1200 題時 a-NN 法的試題曝光率大於 .2 試題題數為三種選題法最少。表 4-2-2. P1、P2、P3 試題曝光率大於 .3 比較. 題庫. b-MI. a-NN. b-NN. P1-300. 21. 1. 7. P2-300. 21. 4. 7. P3-300. 18. 1. 9. P1-600. 13. 0. 1. P2-600. 17. 1. 1. P3-600. 15. 0. 3. P1-1200. 11. 0. 2. P2-1200. 14. 0. 1. P3-1200. 13. 0. 3. 表 4-2-3. P1、P2、P3 試題曝光率大於 .2 比較. 題庫. b-MI. a-NN. b-NN. P1-300. 45. 44. 19. P2-300. 43. 44. 24. P3-300. 41. 35. 28. P1-600. 45. 44. 20. P2-600. 40. 22. 16. P3-600. 31. 5. 16. P1-1200. 26. 0. 3. P2-1200. 33. 8. 2. P3-1200. 30. 2. 4. 50.

(51) 五、真實試題參數題庫 P4、P5、P6 的 RMSE 值與 χ 值比較 2. 在圖 4-2-16 中 RMSE 值以 b-MI 法為三種選題法最佳，但 χ 值卻 2. 高於其他兩種選題法，題庫試題曝光率控制不佳。但 a-NN 法當在題庫 P4、P5、P6 中 χ 值為最佳，且 RMSE 值較優於 b-NN 法，在題庫 P6 中 2. 與 b-MI 法 RMSE 值相當；所以 a-NN 法是能在試題曝光有效控制的同時達到較少的 RMSE 值損耗的一種選題策略。. 51.

(52) 0.60 0.55 P4-126. 0.50. P5-149 0.45. P6-149 P5-149-811. 0.40. P6-149-747. 0.35 0.30 b-MI. a-NN. 圖 4-2-16. b-NN. P4、P5、P6 RMSE 值. 60.00 55.00 50.00 P4-126 45.00. P5-149. 40.00. P6-149. 35.00. P5-149-811 P6-149-747. 30.00 25.00 20.00 b-MI. a-NN. 圖 4-2-17. b-NN. P4、P5、P6. 52. χ2值.

(53) 六、真實試題參數題庫 P4、P5、P6 最大試題曝光率比較由表 4-2-4 中可得知 a-NN 法在最大試題曝光率的控制上為三種選題法中效果最好。. 表 4-2-4. P4、P5、P6 最大試題曝光率 b-MI. a-NN. b-NN. P4-126. 0.918. 0.752. 0.846. P5-149. 0.898. 0.668. 0.896. P6-149. 0.818. 0.541. 0.791. P5-149-811. 0.718. 0.57. 0.751. P6-149-747. 0.626. 0.414. 0.617. 七、真實試題參數題庫 P4、P5、P6 試題曝光率大於 .3 與大於 .2 比較由表 4-2-5 中 a-NN 法的試題曝光率大於 .3 試題題數為三種選題法最少。由表 4-2-6 中 b-NN 法的試題曝光率大於. 2 試題題數為三種選題法最少。表 4-2-5. P4、P5、P6 試題曝光率大於 .3 比較 b-MI. a-NN. b-NN. P4-126. 30. 27. 29. P5-149. 29. 23. 23. P6-149. 28. 25. 26. P5-149-811. 25. 17. 22. P6-149-747. 20. 12. 20. 表 4-2-6. P4、P5、P6 試題曝光率大於 .2 比較 b-MI. a-NN. b-NN. P4-126. 36. 36. 38. P5-149. 34. 38. 28. P6-149. 39. 42. 33. P5-149-811. 30. 29. 26. P6-149-747. 28. 28. 26. 53.

(54) 八、真實試題參數題庫 P4、P5、P6 未選用試題題數佔題庫百分比之比較由表 4-2-7 中 a-NN 法對題庫中未選用試題達到有效改善。表 4-2-7. P4、P5、P6 未選用試題題數佔題庫百分比之比較 b-MI. a-NN. b-NN. P4-126. 51.59%. 0.00%. 14.29%. P5-149. 45.64%. 0.00%. 3.36%. P6-149. 40.27%. 0.00%. 0.00%. P5-149-811. 42.28%. 0.00%. 2.01%. P6-149-747. 36.24%. 0.00%. 0.67%. 九、在表 4-2-8 中為各項效能比較「1」為最佳、「2」次之；綜合各項效能. 比較，發現在同時考慮曝光率控制效能和能力估計準度時，a-NN 選題法為一種理想的選題法。表 4-2-8 選題策略之曝光率控制效能比較總表 b-MI. a-NN. b-NN. 最大試題曝光率最低. 3. 1. 2. 試題曝光率大於 .3 題數最少. 3. 1. 2. 試題曝光率大於. 2 題數最少. 3. 2. 1. 未選用試題題數佔題庫百分比最低. 3. 1. 2. 能力估計精準. 1. 2. 3. 在模擬試題參數題庫中曝光率均勻度. 3. 2. 1. 在真實試題參數題庫中曝光率均勻度. 3. 1. 2. 54.

(55) 第五章. 結論與建議. 本章針對第四章所得的結果進行整理與討論，依據研究結果提出本研究的結論與具體建議以供後續研究參考，茲分成兩節說明如下。. 第一節. 結論. 一、CAT 測驗前期採取 b 值分層隨機選取對試題題庫的明顯效益如下：（1）有效控制題庫中未使用試題題數，提升題庫建制之經濟效益。（2）降低試題最大曝光率延長題庫使用時限。（3）初始階段 b 值分層隨機選取選題策略在測驗長度 20 題時，能力估計精準以控制 3 題為較佳。. 二、a-NN 選題法對題庫曝光率控制有以下明顯改善：（1） a-NN 選題法有效降低題庫中高曝光率試題之曝光率。（2） a-NN 選題法有效提升題庫中未選用試題之使用率。（3） a-NN 選題法不管在模擬試題參數題庫與真實試題參數題庫中都能有效控制題庫試題曝光率。（4） a-NN 選題法是一個能達到在試題曝光率有效控制的同時，減少能力估計誤差的損耗的目標的選題策略。. 55.

(56) 第二節. 建議. 一、研究中雖僅針對模擬試題參數題庫與真實試題參數題庫研究比較，但未來可將 a-NN 選題法線上化，進行實際測驗之實徵研究比較。二、本研究之施測母群體能力值變項較少，未來可針對不同施測母群能力值加以研究比較。三、研究中已針對三種選題策略進行研究，未來可加入其他不同選題策略再. 行比較。. 56.

(57) 參考文獻中文部份王淑卿 (2005) 。以三年級數學科能力指標為基礎的電腦適性測驗題庫系統。臺中健康暨管理學院資訊工程學系碩士論文，台中縣。王茜娟、丁樹良、潭淵(2004)。按 c-分層不定長 CAT 的研究。第六屆海峽兩岸心理與教育測驗學術研討會論文。王寶墉（1995）。現代測驗理論。台北市：心理。朱怡君(2005)。「a-分層」電腦適性測驗之曝光率控管。國立中正大學心理學研究所碩士論文，未出版，嘉義縣。余民寧（1992）。題目反應的介紹─測驗理論的發展趨勢（二）。研習資訊，9（1），. 5-9。何榮桂(2000)。量身訂製的測驗—適性測驗。2000 網路學習理論與實務研討會論文集。李茂能(2000)。中文電腦化適性測驗系統之應用與評鑑。台北市：文景。洪碧霞、吳裕益、吳鐵雄、陳英豪(1992)。能力估計方法、題庫特質及終止標準對 CAT 考生能力估計影響之研究。國科會計劃，NSC 81-0301-H-024-03。黃建智、程爾觀、劉長萱（2003）。適性測驗之曝光率。 93 年科技化測驗與能力指標評量國際研討會論文。陳俊宏(2004)。電腦適性測驗之模擬研究。國立台中師範學院教育測驗統計研究所碩士論文，未出版，台中市。陳新豐（1999）。多媒體線上適性測驗系統發展及其相關研究。國立臺南師範學院國民教育研究所碩士論文，未出版，台南市。陳麗如（1998）。電腦化適性測驗之題庫品質管理策略。國立臺灣師範大學資訊教育研究所碩士論文，台北市。. 57.

(58) 郭伯臣（2006）。以試題結構理論為基礎之國小五、六年級數學領域電腦適性診斷測驗系統與題庫建置。國立台中教育大學、亞洲大學與階梯數位科技股份有限公司建教合作計畫。謝友詩（2005）。電腦適性測驗題目曝光率之模擬研究。國立台中師範學院數學教育系碩士論文，未出版，台中市。. 英文部份. Allen, M. J., Yen,W. M.(1979).Introduction to measurement theory. Monterey, CA: Brooks /Cole.. Baker, F, B. (1990). Some observations on the metric of PC-BILOG results. Applied psychological measurement, 14, 139-150. Bejar, I.I., Weiss, D.J.(1979). Computer programs for scoring test data with item aracteristic curve models (Research Report No. 79-1). Minneapolis: Department of Psychology, Psychometric Methods Program, University of Minnesota. Birnbaum, A. (1968). Some latent trait model and their use in inferring an examinee’s ability. In F. M. Lord and M. R. Novick, Statistical theories of mental test scores (chapter 17-20). Reading, Mass: Addison-Wesley. Chang, H. H., Qian, J., & Ying, Z. (2001). a-stratified multistage CAT with b-blocking. Applied Psychological Measurement, 25, 333-341. Chang, H. H. & Ying, Z. (1996). A global information approach to computerized adaptive testing. Applied Psychological Measurement, 20, 3, 231-229. Chang, H. H. & Ying, Z. (1999). a-stratified multistage computerized adaptive testing. Applied Psychological Measurement, 23, 3, 211-222. Chen, S. Y., Ankenmann, D. & Chang, H. H. (2000). A comparison of item selection rules at the early stages of computerized adaptive testing. Applied Psychological Measurement, 24, 3, 241-255. Cheng P. E., & Liou, M. (2003). Computerized adaptive testing using the nearest 58.

(59) neighbors criterion. Applied Psychological Measurement, 24, 257-265. Cover, T. M., & Thomas, J. A. (1991). Elements of information theory. New York: Wiley. Drasgow, F. (1989). An evaluation of marginal maximum likelihood estimation for the two-parameter logistic model. Applied psychological measurement, 13, 77-90. Green ,D. R., Yen, W. M.,& Burket, G. R.(1989).Experiences in the application of item response theory in test construction. Applied Measurement in Education,2(4),297-312. Hau, K. T., & Chang, H. H. (2001). Item Selection in Computerized Adaptive Testing : Should More Discriminating Items be Used First? Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Hingham, MA: Kluwer Boston, Inc. Hung, P. H. (1988). Application of computerized adaptive testing to the university entrance exam of Taiwan, R. O. C. Unpublished doctoral dissertation, University of Minnesota, Minnesota. Kullback, S. (1959). Information theory and statistics. New York: Wiley. Leung, C.K., Chang, H. H., & Hau, K. T.(2002). Item Selection in Computerized Adaptive Testing : Improving the a_stratified design with the Sympson-Hetter algorithm. Applied Psychological Measurement, 26,376-392. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, N. J. : Lawrence Erlbaum. Lord, F. M. (1977). A broad-range tailored test of verbal ability. Applied Psychological Measurement, 1(1), 95-100. Mislevy, R. J. & Stocking, M. L. (1989). A consumer’s Guide to LOGIST and BILOG. Applied Psychological Measurement, 13(1), 57-75. McBride, J. R., & Martin, J. T. (1983). Reliability and validity of adaptive ability tests in a military setting. In D. J. Weiss(ED.), New horizons in testing (pp. 223-236) Patz, R .J. & Junker, B. W. (1999). A straightforward approach to Markov Chain 59.

(60) Monte Carlo methods for item response models. Journal of Educational and Behavioral Statistics, 24(2), 146-178. Ree,M.J. (1981). The effects of item calibration sample size and item pool size on adaptive testing. Applied Psychology Measurement,5,11-19. Reckase, M. D. (1973). An interactive computer program for tailored testing based on the one-parameter logistic model. Paper presented to the National Conference on the Use of On-Line computers in Psychology, St. Louis. MO. Rasch, G. (1960). Probability methods for some intelligence and attainment tests. Copenhagen Danmark: Danmark’s Paedogogiske Institute for Educational Research.(Chicago: The University of Chicago Press, 1980). Skaggs, G. & Stevenson, J. (1989). A comparison of pseudobayesian and joint maximum likelihood procedures for estimating item parameters in the three-parameter IRT model. Applied psychological measurement, 13(4), 391-402. Stocking, M. L. (1994). Three practical issues for modern adaptive testing item pools. Educational Testing Service, Princeton, N. J. (ERIC Document Reproduction Service No. ED 385 551) Stone, C. A. (1992). Recovery of marginal maximum likelihood estimates in the two parameter logistic response model: An evaluation of MULTILOG. Applied psychological measurement, 16, 1-16. Sympson, J. B., & Hetter, R. D. (1985). Controlling item exposure rates in computerized adaptive testing. In Proceedings of the 27th annual meeting of the Military Testing Association (pp.973- 977). San Diego, CA: Navy Personnel Research and Development Center. Urry, B. W. (1977). Tailored testing: A successful application of latent trait theory. Journal of educational measurement, 14, 181-196. Urry, V. W. A. (1970). Monte Carlo investigation of logistic test models. Unpublished doctoral dissertation, Purdue University, West Lafayette. Veerkamp, W. J. J., & Berger, M. P. F. (1997). Some new item selection criteria for adaptive testing. Journal of Educational and Behavioral Statistics, 22, 203-226. 60.

(61) Wang, T., & Vispoel, W. P.(1998). Properties of ability estimation methods in computerized adaptive testing. Journal of Educational Measurement, 35,109-135. Wang, T. (1997, March). Evaluating comparability in computerized adaptive testing: a theoretical framework with an example. Paper presented at the annual meeting of the American Educational Research Association, Chicago. Way, W. D. (1997, March). Protecting the integrity of computerized testing item pools. Paper presented at the annual meeting of the National Council on Measurement in Education, Chicago. Weiss, D. J. (1974). Strategies of adaptive ability measurement (Research Report 74-5). University of Minnesota, Department of Psychology, Psychometric Methods Program. Weiss, D. J. (1973). The stratified adaptive computerized ability test (Research Report RR-73-3). Princeton, NJ: Educational Testing Service. Yi , Q. & Chang, H. H. (2003). a-stratified CAT design with content blocking. British Journal of Mathematical and Statistical Psychology, 56, 359-378.. 61.

(62) 附錄一適性測驗題庫 P4 試題參數一覽表試題編號 a 參數 b 參數 c 參數. 試題編號 a 參數 b 參數 c 參數. 1. 0.603. -3.818. 0.163. 24. 1.405. -1.782. 0.178. 2. 0.569. -3.808. 0.163. 25. 0.775. -1.805. 0.162. 3. 0.533. -4.101. 0.167. 26. 0.638. -2.656. 0.144. 4. 0.710. -4.255. 0.168. 27. 0.507. -0.477. 0.181. 5. 1.346. -1.860. 0.113. 28. 0.516. -1.066. 0.155. 6. 0.557. -1.846. 0.128. 29. 0.420. -1.730. 0.175. 7. 0.641. -2.179. 0.151. 30. 0.879. -1.893. 0.138. 8. 0.307. -5.719. 0.183. 31. 0.981. -1.817. 0.243. 9. 0.309. -6.488. 0.185. 32. 0.671. -2.077. 0.147. 10. 0.632. -3.490. 0.161. 33. 0.601. -2.413. 0.166. 11. 0.357. -3.068. 0.172. 34. 0.615. 0.480. 0.084. 12. 0.295. -4.041. 0.174. 35. 0.608. 2.193. 0.073. 13. 0.559. -2.745. 0.168. 36. 0.188. -5.662. 0.196. 14. 1.130. -2.286. 0.121. 37. 0.183. -6.618. 0.206. 15. 0.820. -2.668. 0.151. 38. 0.611. -4.127. 0.176. 16. 0.677. -3.259. 0.153. 39. 0.480. -3.702. 0.174. 17. 0.839. -2.340. 0.175. 40. 0.193. -3.466. 0.200. 18. 0.833. -2.676. 0.156. 41. 0.875. 1.808. 0.216. 19. 0.839. -2.588. 0.126. 42. 0.868. -3.088. 0.152. 20. 0.576. -0.663. 0.163. 43. 0.538. -2.360. 0.162. 21. 0.387. -0.208. 0.167. 44. 0.433. -4.041. 0.177. 22. 0.691. -2.181. 0.147. 45. 0.896. -3.176. 0.163. 23. 1.007. -2.019. 0.116. 46. 0.886. -2.964. 0.146. 62.

(63) 試題編號 a 參數 b 參數 c 參數. 試題編號 a 參數 b 參數 c 參數. 47. 0.244. -0.390. 0.215. 70. 0.647. -2.448. 0.158. 48. 0.596. -2.877. 0.180. 71. 0.495. -3.605. 0.178. 49. 0.936. -2.185. 0.146. 72. 0.367. -3.657. 0.168. 50. 0.808. -2.108. 0.183. 73. 0.366. -1.776. 0.173. 51. 1.113. -1.560. 0.121. 74. 0.395. -1.745. 0.167. 52. 1.287. -1.526. 0.210. 75. 0.540. 0.159. 0.154. 53. 0.841. -2.027. 0.148. 76. 0.415. 0.796. 0.140. 54. 0.883. -1.555. 0.120. 77. 0.240. 2.684. 0.203. 55. 0.613. -1.729. 0.191. 78. 0.576. 2.136. 0.265. 56. 0.688. -2.247. 0.153. 79. 0.729. 1.017. 0.229. 57. 0.750. -2.693. 0.171. 80. 1.024. 0.779. 0.332. 58. 0.588. -2.126. 0.142. 81. 0.482. -1.782. 0.145. 59. 0.504. -0.261. 0.159. 82. 0.632. -1.864. 0.235. 60. 0.702. -0.476. 0.216. 83. 0.349. -4.269. 0.175. 61. 0.925. -1.115. 0.138. 84. 0.281. -7.510. 0.191. 62. 0.743. 0.057. 0.240. 85. 0.427. -0.375. 0.130. 63. 0.611. -1.202. 0.147. 86. 0.519. 0.084. 0.110. 64. 0.738. -0.328. 0.141. 87. 0.455. -2.043. 0.152. 65. 0.692. -1.613. 0.159. 88. 0.616. -3.579. 0.160. 66. 0.483. -0.623. 0.258. 89. 0.620. -0.690. 0.152. 67. 0.470. -3.372. 0.152. 90. 0.494. 0.705. 0.215. 68. 0.691. -2.897. 0.147. 91. 0.410. -1.349. 0.198. 69. 0.530. -2.109. 0.145. 92. 0.447. 2.331. 0.301. 63.

(64) 試題編號 a 參數 b 參數 c 參數. 試題編號 a 參數 b 參數 c 參數. 93. 0.418. -1.087. 0.183. 116. 0.692. -1.456. 0.158. 94. 0.578. -3.674. 0.174. 117. 0.601. -1.628. 0.150. 95. 0.326. -4.835. 0.177. 118. 0.381. -5.282. 0.181. 96. 0.331. -4.689. 0.176. 119. 0.661. -3.105. 0.125. 97. 0.407. 1.732. 0.228. 120. 0.595. -2.034. 0.166. 98. 0.270. -2.512. 0.182. 121. 0.550. -3.150. 0.171. 99. 0.354. -2.524. 0.159. 122. 0.678. -2.109. 0.145. 100. 0.604. -2.790. 0.159. 123. 0.579. -2.965. 0.168. 101. 0.706. 0.699. 0.302. 124. 0.519. -3.238. 0.142. 102. 0.807. -1.242. 0.099. 125. 0.347. -2.785. 0.182. 103. 0.454. -2.637. 0.164. 126. 0.449. -0.472. 0.163. 104. 0.382. -2.604. 0.174. 105. 0.390. 0.932. 0.126. 106. 0.460. -1.192. 0.193. 107. 1.034. -2.822. 0.163. 108. 0.895. -3.120. 0.123. 109. 0.686. -2.642. 0.161. 110. 0.945. -2.518. 0.138. 111. 0.764. -1.481. 0.208. 112. 0.829. -2.378. 0.168. 113. 0.423. -2.047. 0.181. 114. 0.515. -2.315. 0.176. 115. 0.827. -1.042. 0.166. 64.

(65) 附錄二適性測驗題庫 P5 試題參數一覽表試題編號 a 參數 b 參數 c 參數. 試題編號 a 參數 b 參數 c 參數. 1. 0.961. -2.902. 0.208. 24. 0.966. -2.425. 0.180. 2. 1.055. -2.859. 0.182. 25. 1.337. -0.740. 0.231. 3. 0.635. -2.793. 0.190. 26. 1.245. -0.001. 0.205. 4. 0.974. -1.084. 0.196. 27. 1.186. -0.024. 0.139. 5. 1.024. -1.220. 0.276. 28. 1.112. -1.348. 0.180. 6. 0.656. -1.689. 0.193. 29. 1.353. -0.777. 0.159. 7. 0.978. -0.896. 0.195. 30. 0.839. -0.736. 0.202. 8. 1.150. -1.854. 0.176. 31. 0.891. -2.329. 0.168. 9. 0.915. -2.938. 0.184. 32. 0.719. -2.174. 0.164. 10. 0.835. -2.567. 0.171. 33. 1.308. -1.936. 0.156. 11. 1.782. -2.756. 0.192. 34. 1.221. -1.929. 0.189. 12. 1.238. -1.857. 0.164. 35. 0.975. -1.960. 0.174. 13. 0.869. -2.392. 0.175. 36. 0.870. -1.838. 0.142. 14. 0.872. -1.511. 0.159. 37. 1.057. -2.030. 0.133. 15. 0.730. -2.045. 0.202. 38. 0.927. -2.440. 0.173. 16. 1.275. -0.674. 0.175. 39. 0.918. -2.616. 0.199. 17. 0.828. -1.124. 0.191. 40. 0.836. -2.319. 0.179. 18. 0.801. -1.571. 0.145. 41. 0.775. -2.294. 0.168. 19. 1.048. -1.703. 0.266. 42. 1.028. -2.587. 0.159. 20. 1.332. -1.052. 0.222. 43. 0.849. -2.486. 0.177. 21. 1.209. -1.711. 0.183. 44. 1.154. -2.478. 0.163. 22. 1.155. -1.246. 0.205. 45. 0.857. -0.770. 0.155. 23. 1.025. -1.962. 0.193. 46. 0.952. -2.040. 0.201. 65.

(66) 試題編號 a 參數 b 參數 c 參數. 試題編號 a 參數 b 參數 c 參數. 47. 1.081. -0.061. 0.105. 70. 1.032. -0.870. 0.195. 48. 1.018. -1.115. 0.142. 71. 0.976. -1.339. 0.202. 49. 0.919. -1.776. 0.138. 72. 1.041. -0.209. 0.148. 50. 0.984. -2.007. 0.155. 73. 1.564. -1.147. 0.225. 51. 1.030. -1.925. 0.183. 74. 1.162. -1.053. 0.205. 52. 0.457. -1.148. 0.163. 75. 0.802. -2.968. 0.190. 53. 0.699. -0.525. 0.138. 76. 0.725. -3.289. 0.202. 54. 1.059. -1.654. 0.206. 77. 0.534. -2.661. 0.195. 55. 0.617. -1.266. 0.190. 78. 0.725. -3.411. 0.187. 56. 0.553. -0.712. 0.191. 79. 0.901. -2.927. 0.183. 57. 0.952. -0.588. 0.145. 80. 0.713. -2.470. 0.182. 58. 0.770. -1.488. 0.241. 81. 0.667. -2.260. 0.224. 59. 1.260. -0.187. 0.178. 82. 0.501. -0.368. 0.236. 60. 0.677. -1.651. 0.244. 83. 0.460. -1.628. 0.183. 61. 1.040. -2.308. 0.155. 84. 1.133. -0.694. 0.211. 62. 1.766. -2.317. 0.151. 85. 0.759. -0.518. 0.237. 63. 0.559. -1.753. 0.162. 86. 1.072. -1.517. 0.230. 64. 0.880. -0.991. 0.141. 87. 0.590. 0.134. 0.200. 65. 1.152. -1.560. 0.178. 88. 0.724. -2.386. 0.206. 66. 0.851. -0.690. 0.197. 89. 0.549. -1.248. 0.216. 67. 1.328. -0.973. 0.178. 90. 0.739. -3.405. 0.192. 68. 1.077. -0.564. 0.158. 91. 1.136. -2.563. 0.237. 69. 0.973. -1.662. 0.223. 92. 0.643. -2.764. 0.192. 66.