第一章 緒論
第二節 研究目的與問題
本研究是利用電腦模擬資料,探討題組與單題混合測驗,在平衡不完全區塊 設計下,操弄不同的施測人數、測驗題數、題組比例、題組效果變異數此四種變 項,比較 BILOG-MG、SCORIGHT 此二種軟體估計受試者能力參數及試題參數 的精準度。在受試者能力分布為常態與雙峰的情形下,所要探討的研究目的如下:
1. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同施測人數的情 況下,對受試者能力參數及試題參數估計的差異。
2. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同測驗題數的情 況下,對受試者能力參數及試題參數估計的差異。
3. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同題組比例的情 況下,對受試者能力參數及試題參數估計的差異。
4. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同題組效果變異 數的情況下,對受試者能力參數及試題參數估計的差異。
根據以上之研究目的,在受試者能力分布為常態與雙峰的情形下,本研究擬探討 之問題為:
1. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同施測人數的情 況下,對受試者能力參數及試題參數估計有何差異?
2. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同測驗題數的情 況下,對受試者能力參數及試題參數估計有何差異?
3. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同題組比例的情 況下,對受試者能力參數及試題參數估計有何差異?
4. 以模擬資料比較 BILOG-MG、SCORIGHT 此二種軟體,在不同題組效果變異 數的情況下,對受試者能力參數及試題參數估計有何差異?
第三節 名詞釋義
一、題組
就試題結構而言,題組是指包含一個段落、圖表或其他刺激材料,並在訊息 後跟隨著一些試題,受試者必須依賴相同的訊息,來作答反應一連串的問題(許思 雯,2008)。
二、資料庫
資料庫是蒐集原始資料,原始資料中可記錄各種的調查、評量或觀察結果以 及個人背景狀況等。這些資料原始可能記錄在簿冊裡,為了要加以保存,最後存 放在電腦檔案裡。這些資料或許是個人或各單位的描述,但經過統合整理分析 後,可以從中獲得一些因素之間的關係或因果。因此原始資料是資訊的來源,再 整合與分析延伸出來的資訊,更能加以利用。
一般說來,資料庫可分成兩類:
(一)行政資料(administrative records): 行政資料指的是個人記錄,比如人事 資料、學生學籍資料、學校財政資料等。這些資料可利用電腦作統一管理,齊全
(二)研究型資料(research-oriented database):這類型的資料可能是針對特定的 教育議題而收集的資料,也可用來探討多種不同議題的資料檔,國內的TEPS即是 一例,作為改進教育的方針(彭森明,2003)。
三、TASA
(TASA,2004
)「臺灣學生學習成就評量資料庫」 (Taiwan Assessment of Student
Achievement ,簡稱 TASA ) 是由一群測驗與學科專家共同研發「標準化成就測 驗」,來蒐集國內國小四年級、六年級、國中二年級、高中二年級及高職二年級 學生在國語、英語、數學、社會、自然這五個科目的學習成就表現,所建立之資 料庫。研究結果可作為教育決策單位政策調整及教師教學的參考依據,也可提供 國內外教育研究人員整體性且標準化的量化資料,作為探討學生學習成就的客觀 統計資料。
四、估計誤差
本研究將模擬 25 次的平均值作為估計誤差,若所計算出的估計誤差值越 小,代表估計越準確。將模擬生成的參數視為真值,及由 BILOG-MG 和
SCORIGHT 此二種軟體所估計出的能力與試題數值,計算均方根誤差(root mean square error, RMSE),本研究估計受試者能力參數誤差的公式計算如下:
RMSE N
N
i
i
i
1
)2
( ˆ ˆ)
, (
其中,N:表示受試者人數;
) ,..., , ,
(1 2 3 N
:表示受試者能力真值;
ˆ ) ,..., , ˆ , ˆ (ˆ
ˆ 1 2 3 N
:表示表示受試者能力估計值。
另外本研究估計試題參數誤差的公式計算如下:
L l l l
l RMSE
L
i
i
i
1
)2
( ˆ ˆ)
, ( 其中,L:表示試題題數;
) ,..., , ,
(l1 l2 l3 lN
l :表示試題參數真值;
ˆ ) ,..., ,ˆ ,ˆ (ˆ
ˆ l1 l2 l3 lN
l :表示試題參數估計值。
第二章 文獻探討
本研究主要探討不同的軟體在 BIB 設計測驗組合下,試題及能力參數估計的 差異比較。因此本章將分成三節加以說明:第一節說明試題反應理論;第二節題 組的介紹;第三節探討 BIB 設計;第四節主要使用的軟體介紹。
第一節 試題反應理論
試題反應理論(item response theory)建立在兩個基本概念上:(1)考生(examinee) 在某一測驗試題上的表現情形,可由一組因素來加以預測或解釋,這組因素叫作 潛在特質(latent traits)或能力(abilities);(2)考生的表現情形與這組潛在特質間的關 係,可透過一條連續性遞增的函數來加以詮釋,這個函數便叫作試題特徵曲線
(item characteristic curve,簡寫為 ICC)。
試題反應理論具有下列幾項基本假設,唯有在這些假設都成立的前提下,試 題反應模式才能被用來分析所有的測驗資料。將此四項基本假設介紹如下(Weiss
& Yoes, 1991;余民寧,1992a):
(一)單向度(unidimensionality):
一般在教學現場所施測的測驗,影響學生作答的反應可能有許多因素存在,
試題反應理論中認為只要此測驗具有能夠影響測驗結果的一個「主要成份或因 素」(dominant component or factor),便算符合單向度假設的基本要求,各試題也 都是測量到同一共同的能力或潛在特質。
(二)局部獨立性(local independence):
當影響測驗表現的能力被固定時,考生在試題的作答情形是不互相影響的,
也就是說,在考慮考生的能力因素後,考生在不同試題上的反應間沒有任何關係 存在,表示在試題反應模式裡的受試者能力因素,是影響考生在測驗試題上做反 應的唯一因素。
(三)非速度測驗:
試題反應模式的基本假設是測驗的實施不是在速度限制下完成的;如果考生 的考試成績不理想,不是由於時間不夠答完所有試題所致,是因為能力不足所導 致的。
(四)知道——正確假設(know--correct assumption):
如果考生知道某一試題的正確答案,一定會答對該試題;也就是如果受試者 答錯某一試題,一定不知道該試題的答案,而不考慮人為的填答疏失錯誤。
因本研究的模擬題型為選擇題,根據 Hambleton,Zeal & Pieters(1991)的研究,
測驗題型若為四選一的選擇題,是較適合三參數對數模式。故採用試題反應理論 中三參數對數模式作為測驗資料分析的方法。以下為三個參數對數模式
(three-parameter logistic model),模式之簡介(Baker, 1992;Hambleton &
Swaminathan,1985;Mislevy & Bock, 1990)如下所示:
( )
) (
)1 1 ( )
( i i
i i
b a
b a i i
i e
c e c
P
i1,2,,n 公式一 其中,Pi()表示任何一位能力為 的考生答對試題i或在試題i上正確反應的 機率;bi表示試題難度(difficulty)參數;n是該測驗的試題總數;e代表以底為 2.718
的指數;試題鑑別度(item discrimination) ai,是用來描述試題i所具有鑑別力大 小的特性。公式 一與二參數 對數形模式 相較,只多出一 個參數:機 運參數 (pseudo-chance parameter) ci。這個參數提供試題特徵曲線一個大於零的下限,表 示能力很低的考生答對某試題的機率。所以三個參數對數形模式是由二個參數對 數形模式延伸演變而來,是多增加一個參數ci,把低能力考生的表現好壞因素也 考慮在模式裡,而猜題可能是這些考生在某些測驗試題上唯一的表現行為(余民 寧,1992b)。
但是若題型為題組式的測驗,是具有局部試題依賴的特性,若使用試題反應
題參數會產生偏估的情況(Wainer,Sireci, & Thissen,1991;Wainer & Thissen,1996;
Wainer & Lukhele,1997;Wainer&Wang,2000;Yen,1993) 。所以學者提出以題組 反應理論(testlet response theory,TRT)來分析題組的資料,其理論是由試題反應理 論所延伸出來的,詳細介紹請參照下節。
第二節 題組反應理論
約從 60 年代開始,是非題與選擇題的題型因過度強調學生的記憶能力,而 備受爭議,之後也歷經學校改革,希望能測量到學生高層次的思考能力。而 Ebel 曾在 1951 年提出情境依賴試題組(context-dependent item set),讓客觀式測驗題 型也能測量高階思考的能力與學習者較高層次的學習成果。
Haladyna(1992)在檢視許多情境依賴題組的研究後,也認為此種題型,不僅
適用在任何的測驗類型,如選擇題或建構反應題,還可以有效的測量到不同類型 的高層次思考。此外,Wainer 和Lewis (1990)也提到,在電腦化適性測驗
(Computerized Adaptive Test)中,單一試題的結構會產生情境效應(context
effects)、試題次序(item ordering)和內容平衡(content balancing)等問題。情境效應 的產生是指當某一試題的呈現會對次一試題的難度有所影響,若測驗建構的規則 未考慮試題的內容,就會產生依賴性(dependency)。一般測驗試題的編排應由簡 單排到困難,而試題次序的問題則是指違反了此規則。內容平衡問題係指電腦化 適性測驗在挑選試題時,可能會選擇到偏向某些主題,但這樣一來對於某些受試 者來說,或許是不公平的。
為了解決上述電腦化適性測驗所產生的問題,這些學者便提出以題組(testlet)
的方式來組織試題。他們認為以題組型來編製試題,可以解決電腦化適性測驗 中,單一試題所產生的問題。題組對於受試者而言,內容的呈現顯得較公平。有
上述這些優點,可以發現到題組的使用是越來越重要了(Lee, Brennan, & Frisbie, 2000)。
雖然不同學者使用不同名稱來稱此種測驗題型,如Ebel(1951)的解釋性作業
(interpretive exercises)、Cureton(1965)的超級試題(superitems)、Wainer 和
Kiely(1987)的題組(testlet)、或Yen(1993)的段落(passages) 等,但無論使用何種名 稱,這些學者皆認為此類的題型,能評量受試者分析思考和解決問題的能力,或 處理電腦化適性測驗中單一試題結構所造成的問題 (Allen & Sudweeks, 2001;
Wainer & Lewis, 1990) 。
題組的定義也隨著不同學者的觀點而有所不同,例如Wainer 和Kiely(1987) 所提出的題組概念,是為了解決適性測驗所產生的選題問題,因此,他們將題組 (testlets)定義為,將一群和單一內容領域有關的試題組合成一個單位,此一單位 包含固定數量的預定路徑(predetermined paths),受試者便可依照此預定的路徑來 進行測驗。Wainer和Lewis(1990)提出將題組當成一個小測驗,小到能讓試題編製 者操弄,又大到可以包含題組本身的內容。
由於題組形式不僅可以適用於多種試題類型上,並能測量高層次思考,還能
解決電腦化適性測驗的單一試題結構問題,因此,目前許多大型的標準化成就測
解決電腦化適性測驗的單一試題結構問題,因此,目前許多大型的標準化成就測