研究目的與問題

第一章緒論

第二節研究目的與問題

本研究是利用電腦模擬資料，探討題組與單題混合測驗，在平衡不完全區塊設計下，操弄不同的施測人數、測驗題數、題組比例、題組效果變異數此四種變項，比較 BILOG-MG、SCORIGHT 此二種軟體估計受試者能力參數及試題參數的精準度。在受試者能力分布為常態與雙峰的情形下，所要探討的研究目的如下：

1. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同施測人數的情況下，對受試者能力參數及試題參數估計的差異。

2. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同測驗題數的情況下，對受試者能力參數及試題參數估計的差異。

3. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同題組比例的情況下，對受試者能力參數及試題參數估計的差異。

4. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同題組效果變異數的情況下，對受試者能力參數及試題參數估計的差異。

根據以上之研究目的，在受試者能力分布為常態與雙峰的情形下，本研究擬探討之問題為：

1. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同施測人數的情況下，對受試者能力參數及試題參數估計有何差異？

2. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同測驗題數的情況下，對受試者能力參數及試題參數估計有何差異？

3. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同題組比例的情況下，對受試者能力參數及試題參數估計有何差異？

4. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體，在不同題組效果變異數的情況下，對受試者能力參數及試題參數估計有何差異？

第三節名詞釋義

一、題組

就試題結構而言，題組是指包含一個段落、圖表或其他刺激材料，並在訊息後跟隨著一些試題，受試者必須依賴相同的訊息，來作答反應一連串的問題(許思雯，2008)。

二、資料庫

資料庫是蒐集原始資料，原始資料中可記錄各種的調查、評量或觀察結果以及個人背景狀況等。這些資料原始可能記錄在簿冊裡，為了要加以保存，最後存放在電腦檔案裡。這些資料或許是個人或各單位的描述，但經過統合整理分析後，可以從中獲得一些因素之間的關係或因果。因此原始資料是資訊的來源，再整合與分析延伸出來的資訊，更能加以利用。

一般說來，資料庫可分成兩類：

(一)行政資料(administrative records)：行政資料指的是個人記錄，比如人事資料、學生學籍資料、學校財政資料等。這些資料可利用電腦作統一管理，齊全

(二)研究型資料(research-oriented database)：這類型的資料可能是針對特定的教育議題而收集的資料，也可用來探討多種不同議題的資料檔，國內的TEPS即是一例，作為改進教育的方針（彭森明，2003）。

三、TASA

^（

TASA，2004

^）

「臺灣學生學習成就評量資料庫」 (Taiwan Assessment of Student

Achievement ，簡稱 TASA ) 是由一群測驗與學科專家共同研發「標準化成就測驗」，來蒐集國內國小四年級、六年級、國中二年級、高中二年級及高職二年級學生在國語、英語、數學、社會、自然這五個科目的學習成就表現，所建立之資料庫。研究結果可作為教育決策單位政策調整及教師教學的參考依據，也可提供國內外教育研究人員整體性且標準化的量化資料，作為探討學生學習成就的客觀統計資料。

四、估計誤差

本研究將模擬 25 次的平均值作為估計誤差，若所計算出的估計誤差值越小，代表估計越準確。將模擬生成的參數視為真值，及由 BILOG-MG 和

SCORIGHT 此二種軟體所估計出的能力與試題數值，計算均方根誤差(root mean square error, RMSE)，本研究估計受試者能力參數誤差的公式計算如下：

RMSE N







 ¹

( ˆ ˆ)

, (



其中，N：表示受試者人數；

) ,..., , ,

(₁ ₂ ₃ _N

  ：表示受試者能力真值；

ˆ ) ,..., , ˆ , ˆ (ˆ

ˆ ₁ ₂ ₃ _N

  ：表示表示受試者能力估計值。

另外本研究估計試題參數誤差的公式計算如下：

L l l l

l RMSE







 ¹

( ˆ ˆ)

, ( 其中，L：表示試題題數；

) ,..., , ,

(l₁ l₂ l₃ l_N

l  ：表示試題參數真值；

ˆ ) ,..., ,ˆ ,ˆ (ˆ

ˆ l1 l2 l3 lN

l  ：表示試題參數估計值。

第二章文獻探討

本研究主要探討不同的軟體在 BIB 設計測驗組合下，試題及能力參數估計的差異比較。因此本章將分成三節加以說明：第一節說明試題反應理論；第二節題組的介紹；第三節探討 BIB 設計；第四節主要使用的軟體介紹。

第一節試題反應理論

試題反應理論(item response theory)建立在兩個基本概念上：(1)考生(examinee) 在某一測驗試題上的表現情形，可由一組因素來加以預測或解釋，這組因素叫作潛在特質(latent traits)或能力(abilities)；(2)考生的表現情形與這組潛在特質間的關係，可透過一條連續性遞增的函數來加以詮釋，這個函數便叫作試題特徵曲線

（item characteristic curve，簡寫為 ICC）。

試題反應理論具有下列幾項基本假設，唯有在這些假設都成立的前提下，試題反應模式才能被用來分析所有的測驗資料。將此四項基本假設介紹如下(Weiss

& Yoes, 1991；余民寧，1992a)：

(一)單向度(unidimensionality)：

一般在教學現場所施測的測驗，影響學生作答的反應可能有許多因素存在，

試題反應理論中認為只要此測驗具有能夠影響測驗結果的一個「主要成份或因素」(dominant component or factor)，便算符合單向度假設的基本要求，各試題也都是測量到同一共同的能力或潛在特質。

(二)局部獨立性(local independence)：

當影響測驗表現的能力被固定時，考生在試題的作答情形是不互相影響的，

也就是說，在考慮考生的能力因素後，考生在不同試題上的反應間沒有任何關係存在，表示在試題反應模式裡的受試者能力因素，是影響考生在測驗試題上做反應的唯一因素。

(三)非速度測驗：

試題反應模式的基本假設是測驗的實施不是在速度限制下完成的；如果考生的考試成績不理想，不是由於時間不夠答完所有試題所致，是因為能力不足所導致的。

(四)知道——正確假設(know--correct assumption)：

如果考生知道某一試題的正確答案，一定會答對該試題；也就是如果受試者答錯某一試題，一定不知道該試題的答案，而不考慮人為的填答疏失錯誤。

因本研究的模擬題型為選擇題，根據 Hambleton,Zeal & Pieters(1991)的研究，

測驗題型若為四選一的選擇題，是較適合三參數對數模式。故採用試題反應理論中三參數對數模式作為測驗資料分析的方法。以下為三個參數對數模式

(three-parameter logistic model)，模式之簡介(Baker, 1992；Hambleton &

Swaminathan,1985；Mislevy & Bock, 1990)如下所示：

₍ ₎

) (

)1 1 ( )

( i i

i i

b a

b a i i

i e

c e c

P _



 



 _



 i1,2,,n 公式一其中，P_i()表示任何一位能力為 的考生答對試題i或在試題i上正確反應的機率；b_i表示試題難度(difficulty)參數；n是該測驗的試題總數；e代表以底為 2.718

的指數；試題鑑別度(item discrimination) a_i，是用來描述試題i所具有鑑別力大小的特性。公式一與二參數對數形模式相較，只多出一個參數：機運參數 (pseudo-chance parameter) c_i。這個參數提供試題特徵曲線一個大於零的下限，表示能力很低的考生答對某試題的機率。所以三個參數對數形模式是由二個參數對數形模式延伸演變而來，是多增加一個參數c_i，把低能力考生的表現好壞因素也考慮在模式裡，而猜題可能是這些考生在某些測驗試題上唯一的表現行為(余民寧，1992b)。

但是若題型為題組式的測驗，是具有局部試題依賴的特性，若使用試題反應

題參數會產生偏估的情況(Wainer,Sireci, & Thissen,1991；Wainer & Thissen,1996；

Wainer & Lukhele,1997；Wainer&Wang,2000；Yen,1993) 。所以學者提出以題組反應理論(testlet response theory,TRT)來分析題組的資料，其理論是由試題反應理論所延伸出來的，詳細介紹請參照下節。

第二節題組反應理論

約從 60 年代開始，是非題與選擇題的題型因過度強調學生的記憶能力，而備受爭議，之後也歷經學校改革，希望能測量到學生高層次的思考能力。而 Ebel 曾在 1951 年提出情境依賴試題組（context-dependent item set），讓客觀式測驗題型也能測量高階思考的能力與學習者較高層次的學習成果。

Haladyna(1992)在檢視許多情境依賴題組的研究後，也認為此種題型，不僅

適用在任何的測驗類型，如選擇題或建構反應題，還可以有效的測量到不同類型的高層次思考。此外，Wainer 和Lewis (1990)也提到，在電腦化適性測驗

(Computerized Adaptive Test)中，單一試題的結構會產生情境效應(context

effects)、試題次序(item ordering)和內容平衡(content balancing)等問題。情境效應的產生是指當某一試題的呈現會對次一試題的難度有所影響，若測驗建構的規則未考慮試題的內容，就會產生依賴性(dependency)。一般測驗試題的編排應由簡單排到困難，而試題次序的問題則是指違反了此規則。內容平衡問題係指電腦化適性測驗在挑選試題時，可能會選擇到偏向某些主題，但這樣一來對於某些受試者來說，或許是不公平的。

為了解決上述電腦化適性測驗所產生的問題，這些學者便提出以題組(testlet)

的方式來組織試題。他們認為以題組型來編製試題，可以解決電腦化適性測驗中，單一試題所產生的問題。題組對於受試者而言，內容的呈現顯得較公平。有

上述這些優點，可以發現到題組的使用是越來越重要了(Lee, Brennan, & Frisbie, 2000)。

雖然不同學者使用不同名稱來稱此種測驗題型，如Ebel(1951)的解釋性作業

(interpretive exercises)、Cureton(1965)的超級試題(superitems)、Wainer 和

Kiely(1987)的題組(testlet)、或Yen(1993)的段落(passages) 等，但無論使用何種名稱，這些學者皆認為此類的題型，能評量受試者分析思考和解決問題的能力，或處理電腦化適性測驗中單一試題結構所造成的問題 (Allen & Sudweeks, 2001;

Wainer & Lewis, 1990) 。

題組的定義也隨著不同學者的觀點而有所不同，例如Wainer 和Kiely(1987) 所提出的題組概念，是為了解決適性測驗所產生的選題問題，因此，他們將題組 (testlets)定義為，將一群和單一內容領域有關的試題組合成一個單位，此一單位包含固定數量的預定路徑(predetermined paths)，受試者便可依照此預定的路徑來進行測驗。Wainer和Lewis(1990)提出將題組當成一個小測驗，小到能讓試題編製者操弄，又大到可以包含題組本身的內容。

由於題組形式不僅可以適用於多種試題類型上，並能測量高層次思考，還能

解決電腦化適性測驗的單一試題結構問題，因此，目前許多大型的標準化成就測

在文檔中題組題與單選題混合測驗之BIB設計效果探究 (頁 12-0)

第一章 緒論

第二節 研究目的與問題

第三節 名詞釋義