• 沒有找到結果。

第二章 文獻探討

第五節 電腦化適性測驗

有關電腦化適性測驗(computerized adaptive test, CAT)的相關研究肇始 於 1971 年 Lord(1971)的難度可變性測驗(flexilevel test)(van der Linden &

Pashley, 2000)。與一般傳統的紙筆標準測驗相比,CAT 在受試者能力的估 計和選題上的執行程序是更顯複雜的。因為就一般傳統的紙筆標準測驗來

… … …

∙∙∙∙∙∙∙∙∙∙

45

說,測驗的執行程序從正式施測到完成受試者能力估計,估計至少有三周 的時間可以進行。但是相對於 CAT 而言,受試者能力的估計和選題在測驗 的執行程序中,都是需要被同步進行的。因為 CAT 必須能即時根據不同的 受試者的作答反應,提供最適合其目前能力作答的試題。CAT 在選題的適 當性與受試者能力估計的準確與否,是具有等價的對應關係。也就是說,

若是受試者的能力估計能夠越快速且準確,那麼決定受試者下一道要執行 的試題也將更能貼近受試者的能力。

依照受試者的能力來區分,CAT 可分成單向度電腦化適性測驗(UIRT CAT)系統和多向度電腦化適性測驗(MIRT CAT)系統。本節將針對 MIRT CAT 的能力估計與選題策略分別說明如下:

壹、 能力估計

一、 MIRT CAT 之能力估計

在 MIRT CAT 的系統中,對於受試者的能力估計而言,主要採用最大 概似模式(maximum likelihood procedure)和貝氏模式(Bayesian procedure)兩 類。貝氏模式的估計法主要是透過估計受試者後驗分布函數來評量受試者 能力的一種模式。MIRT CAT 之能力估計法和 UIRT CAT 之能力估計方法 相似,主要是將單一向度的能力值轉換為多向度的能力值。以下介紹常見 的 MIRT CAT 之能力估計方法有三種:MLE 法、MAP 法和 EAP 法:

1. MLE 法

根據公式(5)所定義的 M3PLM,假設在 MIRT CAT 測驗中,受試者共 作答N道試題,其中在 MIRT CAT 的作答順序為K = 1, 2, ⋯ , N,且試題間 彼此獨立,則概似函數(likelihood function)的方程式(7)如下:

𝐿(𝐗|𝛉) = 𝐿(𝑋1, 𝑋2, ⋯ , 𝑋𝑁|𝛉) = ∏𝑁𝑗=1𝑃𝑗𝑋𝑗(𝛉)𝑄𝑗1−𝑋𝑗(𝛉) (7) 其中𝛉 = (𝜃1, 𝜃2, ⋯ , 𝜃𝐷)表示受試者在所有𝐷個領域能力的真實能力;

𝐗 = (𝑋1, 𝑋2, ⋯ , 𝑋𝑁)代表受試者所有的作答反應,𝑋𝑗為受試者在第𝑗題

46

的作答反應,答對為 1,答錯為 0。𝑃𝑗表示受試者在第𝑗題的答對機率;

𝑄𝑗則代表受試者在第𝑗題的答錯機率。

首先先對概似函數取自然對數,再以 Newton-Raphson 法進行迭代,

概似函數的一階微分向量如公式(8)所示(Segall, 1996, 2000)。

𝜕

47

當公式(15)和(16)無法收斂時,可改由費雪法(Fisher’s Method)求得費 雪訊息矩陣如(17)

48

(25)(Segall, 1996, 2000)︰

𝜕

49

EAP 法主要的作法是先假設先驗分配(prior distribution),將先驗分配 與概似函數相乘得一後驗分配(posterior distribution),MIRT CAT 的 EAP 法,其後驗機率密度函數與 MIRT CAT 的 MAP 法相同。此後驗分配的期 望值當做能力估計值稱為(expected a posteriori, EAP),如公式(32)所示:

50

𝛉̂𝑋𝐸𝐴𝑃1,𝑋2,⋯,𝑋𝑁 = ∑𝑘𝑡=1𝑡 𝛉𝑡 𝐿(𝑋1,𝑋2,⋯,𝑋𝑁|𝛉𝑡)𝑓(𝛉𝑡)

𝑘𝑡𝑡=1[𝐿(𝑋1,𝑋2,⋯,𝑋𝑁|𝛉𝑡)𝑓(𝛉𝑡)] (32) 其中𝐿(𝑋1, 𝑋2, ⋯ , 𝑋𝑁|𝛉𝑡)為概似函數;𝛉𝑡為受試者的真實能力。

計算能力的期望值時所切割成的分割點(quadrature point)為𝑡,共有𝑘𝑡 點,𝑘𝑡點愈大,估計的能力值的愈精確。和 MIRT CAT 中的 MLE 法不同

,EAP 法不需要使用 Newton-Raphson 進行迭代;然而,當𝑡愈多,所需的 計算量也會愈龐大,使得計算時間也會愈久。也就是說,如果受試者的能 力為多向度,MIRT CAT 的 EAP 法的分割點的數量會依向度數量呈遞增而 成正比,相對來說能力估計的時間就會拉長。然而倘若降低各向度的分割 點,則其能力估計的精準度會變差。

多向度隨機係數多項洛基模式(multidimensional random coefficients multinomial logit model, MRCMLM)為 Rasch 模式的衍生模式,是由 Adams

、Wilson 與 Wang(Adams et al., 1997)等人所提出來的。陳柏熹(2006)採用 MRCMLM 模式進行分析發現,MIRT CAT 的 MAP 法與 EAP 法在整體信 度與測量誤差上均比 MLE 法好。但是 MIRT CAT 的 EAP 法有節點數選擇 的限制,然而節點數越多,縱然所估計的能力值可以越精準,相對的卻也 需要花費更多的時間。而且,MRCMLM 模式為一單參數的測驗模式,對 於採用多重選擇題型的華語溝通能力測驗而言,是比較不合適的。

Segall(1996)在 MIRT CAT 的模擬研究發現 MAP 法在能力估計上較 MLE 法準確。然而,這個研究結論有兩點尚待釐清:首先,他以 UIRT CAT 系統所估計的參數模擬 MIRT CAT 系統的效果(Segall & Moreno, 1999)。因 此,在他的測驗架構中,均假設各向度能力之間並無相關性存在。這點與 本研究的測驗架構不同。其次,Segall 的模擬研究都是假設各個向度的試 題只對應測量單一向度的能力。若不具備這個向度的能力,只能用猜測度 來解釋受試者正確回答這道試題的機率,這種測驗的試題是屬於題間多向 度試題。而本研究所要探討的華語電腦化適性測驗系統是採用題內多向度

51

(2) 步驟二:因素分析中的迴歸法常用來取得因素分數(Johnson, 1998)。 在只有一個總體能力的情況下,總體能力可用公式(34)表示:

𝜃𝐻 = ℷ−1𝜃𝐿 (34)

其中,為𝜃𝐻為總體能力的估計值,𝜃𝐿為領域能力的估計值向量。

透過 MIRT CAT Approach 可以獲得總體能力與各領域能力的估計值。

但總體能力的估計值不使用在選題和更新能力估計上,僅在各領域能力估 計完後再另行做運算的。

2. UIRT CAT Approach

52

在 UIRT CAT Approach 中將領域能力視為總體能力的線性組合,而受 試者的作答反應型態亦是由總體能力以間接方式決定的,故可假定為總體

Magis, 2007)。

(4) 步驟四:提供最新的總體能力估計值後,再回到步驟二進行選題,並

53

將 公 式 (6) 帶入 公式 (36) 中,即可以 得到 高階層多向度 三參 數模式 (higher-order multidimensional three-parameters logistic model, H3PLM),如 下公式(46):

𝑃𝑖(𝑋𝑖 = 1|𝐚𝑖, 𝑐𝑖, 𝑏𝑖, 𝛉) = 𝑐𝑖+ (1 − 𝑐𝑖) 𝑒𝑥𝑝[a𝒊(𝛌𝛉−𝑏𝑖𝟏+𝛆)]

1+𝑒𝑥𝑝[a𝒊(𝛌𝛉−𝑏𝑖𝟏+𝛆)] (37) 其中,𝑋𝑖是能力為𝛉的受試者在第𝑖題的作答結果,答對該題時𝑋𝑖為 l,

答錯時𝑋𝑖為 0;𝛉 = (𝜃1, 𝜃2, ⋯ , 𝜃𝐷)表示為受試者能力參數的向量,𝐷為 能力向度總個數;𝐚𝑖 = (𝑎𝑖1, 𝑎𝑖2, ⋯ , 𝑎𝑖𝐷)為試題𝑖的鑑別度參數的向量,

𝑎𝑖𝑘為第𝑖題在第𝑘個能力向度的鑑別度參數;𝑏𝑖為與試題𝑖的難度有相 關的參數;𝟏代表𝐷 × 1的單位向量。總體能力與領域能力互為線性的 關係,透過迴歸參數向量𝛌 = (𝜆(1) , 𝜆(2), ⋯ , 𝜆(𝐷)),將受試者的各領域 能力與與之對應的總體能力𝛉連結。𝛆 = (𝜀𝑖1 , 𝜀𝑖2, ⋯ , 𝜀𝑖𝐷)為誤差向量。

Huang (2009)在其 HO-IRT CAT 的模擬研究中,使用 1 個總體能力及 3 個領域能力的題間多向度模式,能力估計法採 MAP 法時,MIRT CAT Approach 優於 UIRT CAT Approach。但是 Huang (2009)的實證資料模擬研 究中,每筆模擬資料均為固定參數。除此之外,蔡慶皇(2010)以 1 個總體 能力和 5 個領域能力進行 HO-IRT CAT 系統的模擬研究,其模擬試題的設 計包含題內和題間多向度的試題,選題策略為最大訊息法;其研究中發現

,採 MIRT CAT Approach 且能力估計法採 MAP 法時,能得到最大效益。

然而在蔡慶皇(2010)的實證資料模擬研究中,當測驗為題間多向度的試題 且各領域能力測驗的題數與試題參數分佈不均勻時, 僅在測驗中期以 MIRT CAT Approach 採 MAP 法才能得到最大效益。

華語溝通能力測驗主要涵蓋 1 個總體能力和 3 個領域能力。華語溝通 能力測驗的試題為一因子題內多向度的試題結構。故本研究在 HO-IRT CAT 的能力估計上,主要採採 MIRT CAT Approach 的 MAP 法估計華語溝 通能力的各領域能力,然後再計算受試者的總體能力。

54

貳、 選題策略

本節將針對 UIRT CAT 和 MIRT CAT 的選題策略分別說明如下:

一、 UIRT CAT 之選題策略 1. 單向度試題訊息函數

當能力參數估計越精準,表示試題提供較大的訊息量(Birnbaum, 1968;

Lord, 1980)。𝐼𝑘−1(𝜃)表示受試者的能力值𝜃在第𝑘 − 1道試題的試題訊息函 數(information function)。試題訊息函數定義如下(38)。

𝐼𝑘−1(𝜃) = 𝑎𝑖𝑘−12(1−𝑐𝑖𝑘−1)

[𝑐𝑖𝑘−1+𝑒𝑥𝑝(𝑎𝑖𝑘−1(𝜃−𝑏𝑖𝑘−1))]∙[1+𝑒𝑥𝑝(𝑎𝑖𝑘−1(𝜃−𝑏𝑖𝑘−1))]2 (38) 測驗訊息函數(test information function)定義為各試題訊息量之總和

。IT(θ)代表受試者能力值θ的測驗訊息函數,其定義如公式(39)。 試題,如下公式(40)(Lord, 1980):

𝐼(𝜃, 𝑋𝑖𝑛) = [

55

56

臨對於受試者 D 個向度的能力值可能尚未估計或估計的精準度太差的問 題;其次是 MLE 法並未考量受試者的先備知識(Segall, 1996)。因此 Segall 提出以 MIRT CAT 的 MAP 法為基礎的選題策略。

2. MIRT CAT 之 MAP 法的選題策略 (1) MAP 法的試題訊息函數

MIRT CAT 之 MAP 法和 MLE 法的試題訊息函數主要差異為,前者的 訊息函數來自於後驗機率密度函數的二階偏微分向量;後者的訊息函數則 來自於概似函數的二階偏微分向量;比較 MIRT CAT 之 MAP 法和 MLE 法的二階偏微分向量,公式(27)和公式(12),兩者間主要的差異在於共變數 矩 陣 的 反 矩 陣 。 因 此 MIRT CAT 的 MAP 法 試 題 訊 息 矩 陣 修 正 為 I(θ, Xj) + Φ−1,Φ為θ的共變數矩陣。

(2) MAP 法的選題策略

使用 MIRT CAT 之 MAP 法時,其選題策略加入能力先驗分配之共變 數矩陣的反矩陣,修正如公式(44):

|𝐈(𝛉, 𝛉̂𝐒) + 𝐈(𝛉, 𝑋𝐒) + 𝚽−𝟏| (44) 三、 HO-IRT CAT 之選題策略

由公式(6)顯示,HO-IRT 模式透過迴歸參數向量λ,將多向度的領域能 力和總體能力定義成兩種互為線性關係的能力。也就是說,以 HO-IRT 模 式為基礎所建構的測驗,不論試題測量那一種或一些領域能力,其測量架 構最終都會對應測量到受試者的總體能力。因此,HO-IRT 模式所建構的 測驗模式其能力架構是一種多向度的能力架構,包含多項隨機效果的潛在 變數(multiple random-effect latent variables),如公式(6)中第D向度的領域能 力𝜃𝑖(𝐷)和誤差變數𝜀𝑖𝐷

除此之外,由公式(37)顯示,若將每一個領域能力視為一種題組的測 驗形式,並將個別的領域能力所對應總體能力的線性迴歸參數向量λ設定 為一單位向量(向量中每個元素皆為 1),HO-IRT 模式所建構的測驗便成為

57

一種題組反應模式(testlet response model) 的測驗。因此,題組反應模式測 驗亦可以被視為一種 HO-IRT 模式測驗的特例。但是許多研究證實,HO-IRT CAT 的選題策略並不適合採用題組反應模式的選題方法(Glas, Wainer, &

Bradlow, 2000; Mulder & van der Linden, 2009; Murphy, Dodd, & Vaughn, 2010)。主要的原因在於題組反應模式將每一個題組所測量的潛在能力視為 一種干擾變項(nuisance variable);相對來說,HO-IRT 模式將領域能力和總 體能力視為兩項重要的潛在能力而且需要同樣的重視。因此,學者建議 HO-IRT CAT 的選題策略可採用 MIRT CAT 的選題策略。例如 Huang (2012) 採用 Segall(Segall, 1996, 2000)的 MIRT CAT 的 MAP 法作為其 HO-IRT CAT 研究中的選題策略。

由公式(44)顯示,MIRT CAT 的 MAP 法試題訊息矩陣中包含作答前 k − 1題的訊息函數I(θ, θ̂S),還有結合由受試者臨時的能力估計值θ̂S,估計 題庫中尚未施測試題的訊息函數I(θ, XS);以及受試者多變量常態分布的先 驗能力的共變數矩陣Φ的倒數。Yao(2012)在其題間多向度試題的 MIRT CAT 研究中建議,根據公式(44),若第k − 1題所對應測量的那一個領域能 力(例如對應第𝑚個領域能力θ(𝑚)),在 MIRT CAT 選題策略中,其所選的下 一道(第k道試題)試題,將會傾向是不再對應這個領域能力的試題。因為若

由公式(44)顯示,MIRT CAT 的 MAP 法試題訊息矩陣中包含作答前 k − 1題的訊息函數I(θ, θ̂S),還有結合由受試者臨時的能力估計值θ̂S,估計 題庫中尚未施測試題的訊息函數I(θ, XS);以及受試者多變量常態分布的先 驗能力的共變數矩陣Φ的倒數。Yao(2012)在其題間多向度試題的 MIRT CAT 研究中建議,根據公式(44),若第k − 1題所對應測量的那一個領域能 力(例如對應第𝑚個領域能力θ(𝑚)),在 MIRT CAT 選題策略中,其所選的下 一道(第k道試題)試題,將會傾向是不再對應這個領域能力的試題。因為若