階層式試題反應理論模式 - 文獻探討 - 階層式試題反應理論之多點計分模式探討

第二章文獻探討

第一節階層式試題反應理論模式

壹、階層式的評量架構

大型測驗多為階層式的評量架構，此評量架構包含兩階層的能力，第一層的能力量尺為領域量尺，領域量尺是測量學生在不同學習目標或是分測驗的能力表現，第二層的能力量尺為總體量尺，是為統整領域量尺所欲測量之高階的能力。意即測驗結果的呈現不再是以單一分數表示，而是包含了總體量尺與領域量尺能力表現。例如：TIMSS2011 數學評量架構(IEA, 2011)（以國小四年級為例）包含兩個總體量尺：內容領域(content domain)、認知領域(cognitive domain)，及兩個總體量尺各對應三個領域量尺，隸屬於內容領域的三個領域量尺為數量(Number)、空間與形體(Geometric Shapes and Measures)和改變與關係 (Data Display) ，隸屬於認知領域的三個領域量尺為知道 (Knowing) 、應用 (Applying)和推理(Reasoning)。NAEP 2009 數學評量架構(NAGB, 2009)中有兩個總體量尺：數學內容和數學的複雜度。而數學內容包含數字概念與運算、測量、

幾何、資料分析及機率與代數等五個領域量尺；並採用階層式模式將數學的複雜度區分為三個領域量尺(Daniel J. McGrath, 2007)：低複雜度、一般複雜度及高複雜度。同樣的， PISA(OECD, 2009)數學評量亦使用階層式的評量架構，架構中有三個總體量尺：情境和脈絡(situation and context)、數學歷程(mathematical process)及數學內容(mathematical content)。情境和脈絡與個人的(personal)、教育的(educational)、職業的(occupational) 、公共的(public) 及科學的(scientific)等五

(competencies)二個領域量尺相對應；而數學內容則與四個領域量尺：數量 (quantity)、空間與形體(space and shape)、改變與關係(change and relationships) 及不確定性(uncertainty)相對應。

由上述大型測驗之階層式的評量架構可見，總體量尺了解學生的整體表現以評斷個人的表現等級，架構中總體量尺的個數不再是單一；而次級量尺則直接測量到學生各個面向的能力，有助於了解學生的專長或是弱點。而大型測驗期望透過此一階層式的評量架構，同時得到學生在各個領域的領域量尺能力及統整各個領域的總體量尺能力，以獲得更完整的測驗訊息。

貳、階層式試題反應理論模式

針對階層式的評量架構下，de la Torre 與 Song (2009)提出可同時進行總體量尺與領域量尺之HO-IRT模式(higher-order item response theory model)，不僅總體量尺與領域量尺皆為連續量尺，亦適用於1PL、2PL及3PL模式，其研究結果顯示 HO-IRT模式的估計效果較UIRT為佳。且林佳樺(2009)以PISA數學科評量架構為基礎，擴充de la Torre 與 Song (2009)之HO-IRT模式為二因子HO-IRT模式，並透過模擬實驗，證實HO-IRT模式之參數估計精準度皆接近或是優於UIRT及MIRT模式下的參數估計精準度。足見HO-IRT模式是適合用來分析階層式的評量架構的模式。因此本研究使用de la Torre 與 Song (2009)提出階層式試題反應理論模式 (HO-IRT model)，此模式包含兩階層的能力量尺，第一層為領域量尺，可測量學生在不同指標下的能力表現；第二層為總體量尺，是整合領域量尺能力而得之高階層的學科能力。在HO-IRT模式中，測驗中可包含多個單向度的子測驗，即領域量尺。當不同領域量尺間有關聯時，則會藉由一高階層能力來整合這些領域量尺。模式如下圖2-1：

X

_ij⁽¹⁾,

X

_ij⁽²⁾,…,

X

_ij^{( D}⁾為觀察變項，



_i⁽¹⁾,



_i⁽²⁾,…,



_i^(d⁾為固定變項；



⁽¹⁾,



⁽²⁾,…,



^{( d}⁾；



_i；



_i⁽¹⁾,



_i⁽²⁾,…,



_i^(d⁾為待估計之參數。

圖 2-1 HO-IRT 模式應用於一個 D 維度測驗(de la Torre & Song, 2009) HO-IRT 模式中，第一層代表第i 位受試者在領域量尺 d （其中，

D

d 

1,2,3, . . . , ）中的第j題試題之作答反應，以

X

_ij¹,

X

_ij²,...,

X

_ij⁽^d⁾表示。將作答反應經 IRT 模式的試題參數



_i^(d⁾可連結到第二層第i位受試者在領域量尺 d 的表 現，以



_i^(d⁾表示，第三層



_i是第 i 位受試者在總體量尺的表現，透過迴歸參數

)



( d ，將受試者的領域量尺



_i^(d⁾與與之對應的總體量尺



i做連結，領域量尺和總體量尺的線性關係如下(de la Torre & Song, 2009)：

id i d d

  



⁽ ⁾



⁽ ⁾



(1)

其中，



^{( d}⁾為迴歸參數，|



⁽^d⁾ |



1，



_id為誤差項。假設



_id 服從平均數為0且變異數為1

 

⁽^d⁾²的常態分布。根據以上假設得知



_i^(d⁾的分布與



_i相似，皆屬於標準常態分布^N

 

^0,¹ 。



^{( d}⁾可表示總體量尺與領域量尺能力間的迴歸參數，而領域 量尺 d 與領域量尺 '

d 能力間的相關係數則為 

⁽^d⁾

 

⁽^d^'⁾。

觀察變項以圓圈表示；

固定變項以方框表示；

其它變項表示待估計。

HO-IRT模式同時包含總體量尺與領域量尺，亦即一個總體量尺，以及數個領

此研究中，使用Metropolis-Hastings algorithm (M-H; Chib & Greenberg, 1995) 抽取領域量尺



_i^{( d}⁾和迴歸參數



^{( d}⁾，而總體量尺



_i則取樣自完全條件分布(full

叁、二因子 HO-IRT 模式

MCMC是一種結合馬可夫鏈(Markov chain)和Monte Carlo integration，透過多次的重複遞迴抽樣，建構出馬可夫鏈，進而求得一平穩分布，即是貝氏架構下的

體平均數，得到最後的估計值，以解決貝氏推論理積分的困難。MCMC在統計上應用的範圍非常廣泛，而用以建構平穩分布的馬可夫鏈的方法中較廣為人知的有 M-H algorithm和Gibbs sampling algorithm (Gelfand & Smith, 1990)，Gibbs sampling algorithm是M-H取樣在接受機率永遠是一時的特例，且Gibbs sampling algorithm將一個多維度的機率分布視為一個單維度的條件機率分布，意即利用Gibbs sampling algorithm將所要估計的參數分為兩群，一為能力參數，一為試題參數，可降低計算上的難度，增加效率（黃珮漩，2002），因此本研究在MCMC架構下使用Gibbs sampling algorithm進行HO-IRT之參數估計，茲介紹如下。

ㄧ、馬可夫鏈(Markov chain)

馬可夫鏈是指數列中的每一個隨機變數的抽取只受前一個隨機變數的影 響。假設在每個時間點 t 生成一個隨機變數的數列

 ^

⁰^,

^

¹^,

^

²^,...

^



^，

^t ^

⁰^，其中

每個



^t^¹是從條件機率分布P(



^t^¹



^t)中產生，



^t^¹只和前一個隨機變數



^t有關，

和更前面的變數

 ^

⁰^,

^

¹^,

^

²^,...

^

^t^¹



^無關。而^P^(.^.)稱為馬可夫鏈的轉置核(transition kernel)。而所謂平穩的馬可夫鏈就是隨著時間的增加，P(



⁰)會跳脫



⁰的影響，

) (



⁰

P

中的轉換機率和狀態有關，但和時間 t 無關。

本研究中使用MCMC估計試題參數，令 X 表示 N 位受試者在 i 題試題的作答 反應組型，P(





)為



和



的聯合先驗機率分布，其中，



為能力向量，代表 N 位 受試者的能力值

  

j ,

^j 

1,...,

^N

；



為試題參數向量，代表所欲估計 i 道題的試題 參數值

  

ik ^,

ⁱ ^

¹^,...,

ⁿ

^k ^

¹^,²^,³^,⁴。那麼



和



的聯合後驗機率分布可以表示為：

) , ( P ) , ( P ) , (

  X  X    

(6) 這也就是在已知作答反應組型

X

下，



和



的機率分布函數。

根據MCMC，可使用Gibbs sampling algorithm，建構一個平穩分布為P(



 X

) 的馬可夫鏈



⁽

^

^t^,

^

^t^),

^t ^

¹^,...,

ⁿ 

，再依據Monte Carlo integration以樣本平均數逼近母體平均數，求得



和



的估計值。

二、Gibbs sampling algorithm

Geman與Geman(1984)指出若馬可夫鏈的轉置核設為：

n t

X

^t ^t

t t t

t t

t, )( , )) P( , )P( ( , ), 1,..., ((

  

^¹



^¹

  

^¹

  

(7) 則馬可夫鏈會收斂到平穩分布P(



 X

)，其中，P(





^t^¹,

X

)和P(





^t,

X

)為完全條件分布，再利用Gibbs sampling algorithm重複的從完全條件分布中抽取樣本，演算過程如下：

（一）給定所有參數起始值：(



⁰,



⁰)

（二）透過完全條件分布反覆抽取

M

+ M



組參數估計值，由(



^t^¹,



^t^¹)到(



^t,



^t) 其步驟如下：

1.由P(

 

^t¹,

X

)中抽取出



^t 2.由P(

 

^t,

X

)中抽取出



重複以上步驟直到收斂到平穩分布，即可得到 M + M



組參數估計值。

（三）最後刪去前面的 M 組（即為burn-in）估計值，保留後面的 M組（即為 sampling）估計值進行分析。當樣本數夠大時，參數估計值將會趨近於平穩分布(Tierney, 1994)。

在文檔中階層式試題反應理論之多點計分模式探討 (頁 14-21)

階層式試題反應理論模式

第二章 文獻探討

第一節 階層式試題反應理論模式

壹、階層式的評量架構

貳、階層式試題反應理論模式

X

X

X





















D

d 

X

X

X













  

















 





 



d 能力間的相關係數則為 

 







叁、二因子 HO-IRT 模式

 









t 











 



















P











  

j 

N



第二章文獻探討

第一節階層式試題反應理論模式

 ^

^

^

^

^t ^

 ^

^

^

^

^j 

^N

ⁱ ^

ⁿ

^k ^

^

^

^t ^

ⁿ 