局部試題依賴偵測方法之偵測效果比較

全文

(1)國立台灣師範大學教育心理與輔導學系碩士論文. 指導教授：陳柏熹博士. 局部試題依賴偵測方法之偵測效果比較. 研究生：陶君浩撰. 中華民國一百零一年九月.

(2) 誌謝詞從原先的語文相關科系轉而踏入到另一個完全不同的理性世界，這對於當年剛進到師大心輔所的我來說，確實是有些不適應。但慶幸的是，這三年的研究所生活下來，我也漸漸地累積了許多心理學上的相關知識，特別是心理計量領域的知識與實務上的經驗。轉眼間，自己也即將要畢業了，回想這幾年的碩班生活，其實過得還算順遂，我想，這都要感謝這幾年來我所遇到的許多貴人，而首先，我要感謝我的指導教授陳柏熹老師，因為有老師的細心指導，我才能從一個門外漢變成一個還算瞭解這個領域的研究生。其次，還要感謝 506 研究室的大家，若沒有你們的幫助與鼓勵，我想我一定還會遭遇到更多的問題與挫折，特別是素蘋學姊，謝謝您平時常針對寫作與資料分析方面給我建議，才讓我整個的資料處理過程能如此地順利。此外，也很謝謝佳雯、純瑜、佩隃幾位學姊平常對我的照顧，讓我的碩班生活增添了許多不一樣色彩，尤其佳雯、純瑜兩位學姊，謝謝你們平常對我的關心以及特地留下來做我的口試紀錄，協助我彙整幾位口試委員的意見，辛苦妳們了！當然，也非常感謝世華老師與承德老師兩位口試委員對我的論文內容提供許多寶貴的意見，讓我能更了解自己呈現方式的盲點與不足之處，讓本論文能更臻完善。除此之外，我還要感謝師大心輔所教心組 99 級所有同學，因為有你們平時的打氣與鼓勵，我才能一一克服這段求學歷程所遭遇到的難關，能認識你們且與你們共事，真的是讓我感到相當地榮幸！在此，也祝大家學業都能順利！最後，我要感謝我辛苦的爸媽，因為有你們這幾年來對我的支持與鼓勵，我才能順利地完成夢想中的師大碩班學業，真的非常感謝你們願意讓我能無後顧之憂地朝著自己的夢想目標前進！我能有今天，絕對是要歸功於你們一直以來對我的栽培與肯定，謝謝你們！. i.

(3) 摘要本研究旨在比較 Rasch 題組模式之題組效果估計、題組-殘差主成分分析及 Q3 指標等局部試題依賴偵測方法的偵測效果，包含兩個子研究。研究一為模擬研究，主要是操弄不同的題組效果高低及不同的題組內試題數，模擬了 500 名與 1500 名受測者在不同題組情境下的作答反應，再利用 Rasch 題組模式之題組效果估計、題組-殘差主成分分析及 Q3 指標分別對各個題組進行局部試題依賴的偵測，最後透過題組效果的參數回覆情形、題組-殘差主成分分析及 Q3 指標的偵測結果以及各偵測方法之偵測結果與題組效果真值的 Spearman's ρ 係數來瞭解各種局部試題依賴偵測方法之偵測效果的差異情形。而在研究二的實徵研究部分，研究者則是以 93～98 年國民中學基本學力測驗英文科的題組資料為例，進行上述三種局部試題依賴偵測方法之偵測結果的比較。主要發現如下：一、隨著受測者人數及題組內試題數的增加，題組效果參數的回覆情形會逐漸變好，即 Rasch 題組模式的題組效果估計會越來越準確；但在高題組效果時，其估計的精準度卻相對較差。二、不論是在何種情境之下，Q3 指標的偵測效果均一致地優於其他兩個偵測方法的偵測效果。三、對於 93～98 年國民中學基本學力測驗英文科的題組而言，不同方法的偵測結果有差異，其中又 Rasch 題組模式之題組效果估計的偵測結果與其他兩者差異最大。四、根據 Q3 指標的偵測結果，93～98 年國中基測英文科的題組大致沒有局部試題依賴的情形，僅 93-2-3、93-2-5、93-2-6、94-1-8 及 97-2-3 這幾個題組可能是存有局部試題依賴的問題。. 關鍵字：題組、局部試題依賴、題組效果 ii.

(4) Compare the Detection Result by Using Different Local Item Dependent Detection Methods. Chun-Hao-Tao. Abstract. The purpose of this research is to compare the detection result by using testlet effect estimates of the Rasch testlet model, testlet-residual based principal component analysis and the Q3 statistics. The research is composed of two sub-researches. Study 1 is a simulation study. In study 1, first, testlet effects (high/ low), sample sizes (500/1500) and the item numbers within testlet (2/4/6/8) were manipulated. Testlet effect estimates of the Rasch testlet model, testlet-residual based principal component analysis and the Q3 statistics were used to detected local item dependent for each testlet. The parameters recovery of testlet effect, the detection result of testlet-residual based principal component analysis and the Q3 statistics, and the Spearman's ρ coefficient of local item dependent detection result with the true value of testlet effect were used to compare the detection result of different local item dependent detection methods. Study 2 is an empirical study. These three local item dependent detection methods were compared and applied to the data from the English subject of Basic Competence Test for Junior High School Students(2004～2009). The main results are the following： 1. As sample sizes and the item numbers in each testlet were increased, the parameters recovery of testlet effect decreased to an acceptable level. It means the testlet effect estimates of the Rasch testlet model will be more and more accurate iii.

(5) when the sample sizes or item numbers increases. However, in the condition of high testlet effect, the estimated accuracy of testlet effect were decreased instead. 2. No matter in what situations, the detection result of the Q3 statistics was better than the other two detection methods. 3. The detection results have varied between these three local item dependent detection methods on the english subject of Basic Competence Test for Junior High School Students(2004～2009), testlet effect estimates of the Rasch testlet model especially. 4. According to the detection result of the Q3 statistics, there were no local item dependent for each testlet on the english subject of Basic Competence Test for Junior High School Students(2004～2009), except for 93-2-3, 93-2-5, 93-2-6, 94-1-8, and 97-2-3 .. KEY WORDS：testlet、local item dependent、testlet effect. iv.

(6) 目次誌謝詞.............................................................................................................................i 中文摘要........................................................................................................................ii 英文摘要.......................................................................................................................iii 目次................................................................................................................................v 表次...............................................................................................................................vi 圖次..............................................................................................................................vii 第一章緒論 ............................................................................................................... 1 第一節研究動機與目的 .................................................................................... 1 第二節研究問題 ................................................................................................ 3 第三節名詞釋義 ................................................................................................ 4 第二章文獻探討 ....................................................................................................... 5 第一節題組與局部試題依賴的概念 ................................................................ 5 第二節不同局部試題依賴之偵測方法 ............................................................ 8 第三節題組反應理論之發展及其相關研究 .................................................. 12 第四節影響局部試題依賴偵測方法之偵測效果的可能因素 ...................... 19 第三章研究方法 ..................................................................................................... 23 第一節研究一：不同局部試題依賴偵測方法之偵測效果比較 .................. 23 第二節研究二：93～98 年國中基本學力測驗英文科題組之局部試題依賴情形分析.............................................................................................. 31 第四章研究結果 ..................................................................................................... 35 第一節研究一結果 .......................................................................................... 35 第二節研究二結果 .......................................................................................... 54 第五章結論與建議 ................................................................................................. 63 第一節研究結論與建議 .................................................................................. 63 第二節研究限制與未來研究方向 .................................................................. 66 參考文獻...................................................................................................................... 68 中文部分.............................................................................................................. 68 英文部分.............................................................................................................. 68. v.

(7) 表次表 4-1-1. 在題組內 2 題的情境下，Rasch 題組模式的參數估計 RMSE 值摘要表 ....................................................................................................... 36. 表 4-1-2. 在題組內 4 題的情境下，Rasch 題組模式的參數估計 RMSE 值摘要表 ....................................................................................................... 38. 表 4-1-3. 在題組內 6 題的情境下，Rasch 題組模式的參數估計 RMSE 值摘要表 ....................................................................................................... 40. 表 4-1-4. 在題組內 8 題的情境下，Rasch 題組模式的參數估計 RMSE 值摘要表 ....................................................................................................... 42. 表 4-1-5. 在不同情境下，Rasch 題組模式之題組效果估計的平均 Bias 摘要表 44. 表 4-1-6 Rasch 題組模式之題組效果估計值在不同判斷標準之下的 α 與 Power 摘要表 .................................................................................... 46 表 4-1-7. 題組-殘差主成分分析之偵測結果的描述統計摘要表........................... 48. 表 4-1-8. 題組-殘差主成分分析之偵測結果在不同判斷標準之下的 α 與 Power 摘要表 .................................................................................... 48. 表 4-1-9. Q3 指標之偵測結果的描述統計摘要表 ................................................... 50. 表 4-1-10 Q3 指標之偵測結果在不同判斷標準之下的 α 與 Power 摘要表 ............ 50 表 4-1-11 不同局部試題依賴偵測方法之偵測結果與題組效果真值的 Spearman's ρ 係數 ..................................................................................... 52 表 4-2-1. 93～98 年國中基測英文科題組之題組效果比值 ................................... 54. 表 4-2-2. 93～98 年國中基測英文科題組之殘差的第一與第二主成分比值 ....... 55. 表 4-2-3. 93～98 年國中基測英文科題組之 Q3 指標 ............................................. 56. 表 4-2-4. 不同局部試題依賴偵測方法之偵測結果的 Spearman's ρ 係數............. 57. vi.

(8) 圖次圖 3-1-1. 研究一架構圖 ............................................................................................ 24. 圖 3-2-1. 研究二架構圖 ............................................................................................ 32. 圖 4-1-1. 在不同情境下，Rasch 題組模式之題組效果估計的平均 RMSE 值 .... 44. 圖 4-2-1. 93 年第 2 次國中基測英文科的第 3 個題組（93-2-3） ........................ 58. 圖 4-2-2. 97 年第 2 次國中基測英文科的第 3 個題組（97-2-3） ........................ 59. 圖 4-2-3. 93 年第 2 次國中基測英文科的第 5 個題組（93-2-5） ........................ 60. 圖 4-2-4. 93 年第 2 次國中基測英文科的第 6 個題組（93-2-6） ........................ 61. 圖 4-2-5. 94 年第 1 次國中基測英文科的第 8 個題組（94-1-8） ........................ 62. vii.

(9) 第一章緒論第一節研究動機與目的由於近年來，測驗的研究者已經開始發現到題組（testlet）其實是比一般選擇反應式題型擁有更多的優點，例如可以測量到資訊萃取的能力、評量較為結構化、較單題設計來得經濟以及可以測到比較複雜且高層次的認知能力等等（王文中、呂金燮、吳毓瑩、張郁雯、張淑慧，2008；Mehrens & Lehman, 1978；Thissen, Steinberg, & Mooney, 1989；Wainer & Wang, 2000；）。甚至也有學者認為，使用題組不僅能夠測得受測者在面對問題時的處理能力，還能真實地反映其應對時主要經歷了哪些心路歷程，故更能增加測驗的建構效度（Zenisky, Hambletom & Sireci, 2002；Keller, Swaminathan & Sireci, 2003）。是故，在當代國內外大型的標準化成就測驗之中，都不乏可以見到題組這種題型，例如大學聯考、國中基本學力測驗（The Basic Competence Test for junior High School Students）、托福檢定（The Test of English as a Foreign Language）、國際學生評量（The Programme for International Student Assessment）等。然而，即便題組確實擁有上述許多不同的優點，但在實際使用時，卻很有可能因為題材選用或子題設計的不當，而使得受測者能力的測量受到其他非期望的共同因素所干擾，導致單向度的假設（unidimensionality）無法被滿足，而間接使得局部獨立性的假設（local item independent）受到影響。但由於以上兩個假設對試題反應理論（item response theory；以下簡稱IRT）來說，都是相當重要且必須成立的。因此，一旦分析者仍然決定利用IRT的技術來分析題組資料的話，勢必要在分析的程序上作一些調整，以讓上述的兩個假設能夠重新獲得滿足，避免錯估與測驗有關的所有訊息，導致錯誤的推論（Yen, 1993；Wainer & Thissen, 1996；Ferrara et al., 1999）。針對上述題組資料可能涉及局部獨立性假設（local item independent）違反的問題，學者們主要提出了以下兩種的調整方式來讓此假設能夠重新獲得滿足，第一 1.

(10) 種方式主要是將單一個題組視為一個多點計分的試題，並使用一般的多點計分模式進行分析（Andrich, 1985；Rosenbaum, 1988；Thissen et al., 1989；Wilson & Adams, 1995；Lee, 1998），而由於題組與題組之間通常是獨立無關的，故可以透過此種計分方式上的改變，讓局部獨立性的假設得以滿足。然而，以這種的構想所創造出來的多點計分題目，實際上並非一個真正的多點計分題目，而是由好幾個題目所組成的一個題組。是故，若貿然地使用多點計分模式來分析題組資料的話，不但會導致部分與受試者有關的訊息因此被遺失掉，也會使得一些測驗本身的訊息因此喪失。由於部份學者不願意為了控制局部試題依賴（local item dependent）的問題而付出以上這些代價，所以他們即提出了第二種調整方式來解決題組的局部試題依賴問題。此方式主要是透過在一般的IRT模式中加入一個代表題組效果的隨機參數γ，形成所謂的題組反應模式，藉此將局部試題依賴的問題予以模式化，使得後續利用該模式所估計出來的試題及受測者能力參數能夠排除局部試題依賴的影響力，能有較精準的估計結果。相較於第一種方式而言，使用這種題組的反應模式來分析題組資料，除了可以有效地處理題組局部試題依賴的問題及保留住和每個題目有關的作答訊息之外，還能同時估計出各個題組之γ參數的變異數，供研究者用以判斷各個題組的局部試題依賴情形，是近年來較獲推崇的作法（Bradlow, Wainer & Wang, 1999；Wainer, Bradlow & Du, 1999；Wang & Wilson, 2005）。然而，即便學者們已經提出了上述幾種的調整方式來處理題組局部試題依賴的問題，但實際上，這些調整的方式大多都會使得分析的過程變得更加複雜，以致於無形之中增加了分析者在資料處理上的負擔，因此，倘若題組本身並未存有局部試題依賴問題的話，分析者也許就可以不必採用上述的調整方式來處理題組資料，分析的負擔也就能相對減輕。是故，分析者若能事先洞悉各個題組的局部試題依賴情形，必然會對於後續的整個資料過程該如何進行，有不少的幫助。然而， 2.

(11) 判斷題組局部試題依賴情形的方法其實相當的多，主要除了有上述的γ參數變異數之外，還有學者提出Q3指標及相關係數來判斷題組的局部試題依賴情形，且研究者亦認為，透過對每個題組進行殘差主成分分析的方式，亦可以有效地瞭解到題組是否有局部試題依賴的問題存在。因為局部試題依賴的偵測方法很多，每種作法所仰賴的理念也都有所不同，故研究者認為有必要進一步釐清各種偵測方法的實際偵測效果，以瞭解在什麼樣的情境之下應採用什麼樣的偵測方法來判斷題組的局部試題依賴情形。在檢視過去相關的研究之後發現，針對不同局部試題依賴偵測方法之偵測效果進行比較的研究其實相當地少，僅Chen和Thissen（1997）及Huynh、Michaels與Ferrara（1995）進行過這類的研究。有鑑於此，本研究即以三種不同的局部試題依賴偵測方法為例，比較各種方法在不同模擬情境之下（人數、題組內試題數、題組效果）的局部試題依賴偵測效果，並以93～98年國中基本學力測驗英文科的實徵資料為例，檢視各個偵測方法的實際偵測結果。主要的研究目的有二：一、瞭解在不同模擬情境之下，各種局部試題依賴偵測方法的偵測效果。二、瞭解對於 93～98 年國中基本學力測驗的英文科題組而言，各種局部試題依賴偵測方法的實際偵測結果及各題組的局部試題依賴情形。. 第二節研究問題根據上述的研究動機與目的，本研究所擬定的研究問題如下：一、各種局部試題依賴偵測方法的偵測效果是否會因模擬情境的不同而有差異？二、對於 93～98 年國中基本學力測驗的英文科題組而言，各種局部試題依賴偵測方法的偵測結果是否有差異？93～98 年國中基本學力測驗之英文科題組是否有局部試題依賴的問題存在？. 3.

(12) 第三節名詞釋義一、題組（testlet）屬於一種提供共同的文字論述、問題情境或資料背景說明，接著連續有幾個題目要求學生作答的題型。題目可以是是非題、選擇題、簡答題等，但一般來說還是以選擇題最為常見。該題型多用來測量較複雜的學習成果（王文中、呂金燮、吳毓瑩、張郁雯、張淑慧，2008）。二、局部試題依賴（local item dependent）為一相對於局部獨立性假設（local item independent）的重要概念，指當題目與題目之間受到一些非期望的共同因素所干擾時，產生的答題反應相互依賴現象，較常發生於題組類型的測驗。三、題組效果（testlet effect）題組反應模式主要是透過在一般的 IRT 模式中加入一個代表題組效果的隨機參數 γ，藉此將局部試題依賴的問題予以模式化，使得後續利用該模式所估計出來的試題及受測者能力參數能夠排除局部試題依賴的影響力，能有較精準的估計結果。以 Rasch 題組模式為例，. 是指受試者 k 在第 d(i)個題組上的隨機效果，. 即受測者 k 答對題目 i 的機率除了會受到其能力（θk）及該題目難度（）的影響之外，還會受到該題目所屬題組之隨機參數 γ 的影響。然而，隨著受測者的不同，反映在第 d(i)個題組上的隨機效果 γ 也就有所差異，而所有受測者在第 d(i) 個題組上之隨機效果 γ 的變異數（. ）大小，就代表了第 d(i)個題組的試題依. 賴嚴重程度。. 4.

(13) 第二章. 文獻探討. 本研究的目的主要是在於探討不同局部試題依賴偵測方法在不同模擬情境之下，對於題組局部試題依賴情形的偵測效果如何，因此本章將分別針對題組與局部試題依賴的概念、不同的局部試題依賴偵測方法及影響這些方法之偵測效果的可能因素進行說明，並歸納相關研究之發現，以作為研究參考之依據。. 第一節題組與局部試題依賴的概念一、題組的發展與定義由於學者們普遍認定一般的選擇反應題型只適合用來測量受試者的背誦與記憶能力，並無法反映出其高層次的思考能力究竟如何，因此，如果測驗的主要目的是想要瞭解受試者之高層次思考能力的話，勢必要使用其他更適合的測驗題型來編擬測驗，以避免缺乏建構效度。而又因為近年來有不少的研究文獻均指出，題組的使用確實能夠有效地幫助了解受試者較為複雜的高層次認知能力（王文中、呂金燮、吳毓瑩、張郁雯、張淑慧，2008；Mehrens & Lehman, 1978；Thissen, Steinberg, & Mooney, 1989；Wainer & Wang, 2000），是故，如果測驗的目的是要測量受試者之高層次思考能力，該題型會是一個不錯選擇。其實早在 1951 年左右，學者 Ebel 就已提出了所謂情境依賴試題組（context-dependent item set）的概念，為的就是要測量受試者較高層次的學習成果。該情境依賴試題組是指，在該試題組中，所有題目都必須參照一個共同刺激材料或訊息來進行回答（Allen & Sudweek, 2001；Haladyna, 1992），其材料可以是某個情境或是圖表，端看測驗的編製者如何設計。而關於「題組」此一指稱的確立，儘管從過去的研究中，研究者發現有部分的學者並不是使用「題組」此一指稱方式來稱呼此概念，如 Cureton （1965）即以超級試題（superitems）來指稱題組，而 Haladyna（1992）則以試題集（item clusters）來稱呼題組，Yen（1993）更是直接以段落（passage）一詞 5.

(14) 來指稱題組。然而，由於目前絕大部份的研究文獻皆是以「題組」的指稱來稱呼此一概念，顯示這樣的指稱方式可能是目前最廣為學者接受且普遍被使用的說法，故本研究仍是沿用此一稱呼方式。對於題組之定義，不同學者之見解亦有所不同。如 Wainer 與 Kiely（1987）為了要解決電腦化適性測驗（computerized adaptive testing）選題上的問題而將題組定義為與單一內容領域相關的一組試題，並包含一些的預設路徑，受試者必須循著這樣的路徑來進行測驗；Wainer、Sireci 與 Thissen（1991）則將題組定義為一個可替代的測驗單位，而由於其本身是由一組相互有關的試題所組成，因此可以將其視為是一個比個別試題還要大的測驗單位。雖然題組在發展的過程中曾被賦予過不同的稱呼與定義，但是當提及題組在使用上優勢之處時，學者們的看法卻是呈現出相當一致的情形，即其皆認為該題型一方面能夠幫助測量受試者的高層次認知能力，另一方面還可以適用在大部分測驗的形式（選擇題、配合題等）之中。除此之外，透過題組的使用，試題發展者也能以不同的觀點角度來檢視受試者對於刺激材料的理解情況，獲得更多有關於受試者的學習訊息，這相較於以單題的形式來得到這麼多的訊息而言，明顯經濟許多（Haladyna, 1992；Thissen, Steinberg, & Mooney, 1989；Wainer, Bradlow, & Du, 2000）。然而，在實際使用時，題組卻很有可能會因為題材選用或子題設計的不當，而使得受測者能力的測量受到其他非期望的共同因素所干擾，導致單向度的假設無法被滿足，產生局部試題依賴的問題。二、局部試題依賴的概念雖然測驗理論可以分成幾個不同的取向，且每種取向也各有不同的特色，綜觀而言，它們還是會有一些共同點存在，其最大的共同點就是都會有一些基本的假設。例如對於大部分的測驗理論而言，局部獨立性就是一個相當重要的假設，而命題者在設計題目時也往往都會以滿足該假設為一項最基本的前提。就 IRT 的觀點而言，局部獨立性的概念是指當模式使用恰當時，受試者答對不同題目的機率 6.

(15) 應該是要互相獨立的，故受試者同時答對第 i 題與第 j 題的機率就等於把答對第 i 題的機率乘以答對第 j 題的機率，如公式（2.1）所示：. Pij（θk）=Pi（θk）Pj（θk）. （2.1）. 其 Pij 為能力 θk 的受試者同時達對第 i 題與第 j 題的機率，而 Pi 與 Pj 則分別為能力 θk 的受試者答對第 i 題與第 j 題的機率，也是因為局部獨立性假設的成立，學者們才能夠根據受試者的反應組型（response pattern）以及反應的概似函數（likelihood function），對試題參數及能力進行估計。其概似函數如公式（2.2）所示：. （2.2）. 其 Ui 代表著受試者答對（U=1）或答錯（U=0）第 i 個題目，Pi 指的是受試者答對第 i 個題目的機率，此機率必須視選擇的模式而定（公式 2.2 是以 Rasch 模式為例，其中，. 是指受測者的能力，而則是指第 i 個題目的難度），而 Qi 則. 是指受試者答錯第 i 個題目的機率，該機率會等於 1 減掉其答對第 i 個題目的機率（即 1－Pi）。然而，在題組測驗中，常會因為題材選用或子題設計的不當，而使得同一個題組裡的題目受到一些非期望的共同因素所干擾，導致單向度的假設無法被滿足，而間接使得局部獨立性的假設受到影響（因為局部獨立性基本上是奠基於單向度假設之上的另一重要假設，即倘若題組裡的題目不是單向度的話，不同試題的答對機率很可能就同時會受到非期望的因素所干擾），因而產生局部試題依賴的問題，而此時，公式（2.2）亦無法成立。又這類非期望的干擾因素其實相當的多，如 Ferrara 等人（1997）就指出當題組內的題目具有「比較－對比」（compare-contrast） 7.

(16) 或「回答－解釋」（answer-explain）的脈絡特徵時，較容易導致題目彼此之間有局部試題依賴的情形產生。除此之外，「多餘訊息的程度」、「段落中是否存有明顯指引受試者的指示」、「隱喻語言的程度」也都是學者們認為導致題組產生局部試題依賴問題的可能原因（Sheehan, Ginther & Schedl, 1999）。同樣地，Yen（1991）也根據其研究發現，歸納了幾個導致題組產生局部試題依賴問題的可能原因，包括外在的幫助或干擾、作答速度、疲勞、練習、題目或反應的形式、訊息依賴、試題串、受試者對於先前答案的解釋、評分規則與評分者、題目所考到內容、知識與能力。. 第二節不同局部試題依賴之偵測方法儘管導致題組產生局部試題依賴問題的可能原因如此之多，但唯一不變的是，一但分析者發現到題目與題目之間有互相依賴的問題存在時，就必須設法在分析過程上做一些調整，否則所估計出來的參數很有可能都會是有問題的。所以，為了保證後續分析出來的結果能夠更加準確，在分析資料之前，研究者通常也都會先使用一些方法來檢視題組局部試題依賴的情形，再來決定後續該如何處理，故以下將針對幾種常見的局部試題依賴偵測方法進行介紹：. 一、Q3 指標由 Yen（1984, 1993）所提出，是一個建立在試題反應理論之上的局部試題依賴偵測方法，用以評估試題與試題之間的相互依賴情形。其指出，不論是在二元計分或是多元計分試題的情境之下，Q3 指標對於試題與試題之間的局部試題依賴情形都有不錯的偵測效果。而以下，研究者也將針對該指標的計算過程進行詳細說明：以題組只有兩題為例，首先，必須分別求出第 k 位受試者在這兩題上的原始分數和期望分數，再將其相減以得到第 k 位受試者在此兩個題目上的殘差分數，如 8.

(17) 公式（2.3）所示，其中，. 、. 和. 、. 分別代表第 k 位受試者在第. i 題上得到的原始分數與其能力預測之期望分數及第 k 位受試者在第 j 題上得到的原始分數與其能力預測之期望分數，而 dik 與 djk 則分別代表第 k 位受試者在第 i 題與第 j 題上的殘差分數。. , and. （2.3）. 接著，繼續透過上述的方式，計算出每位受試者在此兩題上的殘差分數，得到每位受試者在此兩題上的殘差分數之後，再利用每位受試者在此兩題上的殘差分數來進行相關係數的計算，以瞭解從實得分數之中排除了單一向度 θ 的影響力之後，每位受試者在此兩題上的殘差分數是否還會有所關聯，而此相關係數即為這個題組的 Q3 指標，如公式（2.4）所示。理論上，若這兩個試題彼此之間是互相獨立的話，第 k 位受試者在此兩個題目上的殘差分數應該會是一種隨機的誤差（random error），所以可以預期 Q3 指標的計算結果應該會是呈現零相關的情形，但實際上，其計算結果卻會非常接近於－1/（n－1）這個值（n 是指二元計分題目的數量），而並非呈現零相關的情形；然而，若這兩個試題彼此之間是互相依賴的話，所有受試者在此兩個題目上的殘差分數應該就會有所關聯，關聯越強（即 Q3 指標越高）就代表這個題組的局部試題依賴情形越為嚴重。. （2.4）. 然而，如果題組不只有兩題的話，則必須先分別求出各試題配對之殘差分數的相關，之後再以這些相關係數的平均數作為該題組的 Q3 指標，如公式（2.5）所示：. 9.

(18) , for i > j. （2.5）. 其中，n 代表題組內的試題數，M 則為兩兩試題配對的數量。一般來說，Q3 指標越大即表示該題組的局部試題依賴情形越嚴重，反之，則代表該題組越沒有局部試題依賴的情形。而根據過去學者的說法，以 Q3 指標是否大於 0.2 作為題組有無局部試題依賴情形的判斷標準，似乎會是一個比較理想的做法（Chen & Thissen, 1997）。二、題組-殘差主成分分析主成分分析（principal component analysis）的概念最早是由 Person（1901）所提出，由 Hotelling（1933）加以發展，屬於一種維度縮減（data reduction）的統計技術，用來檢視變項之間的結構關係。其主要是將變項進行線性組合，看是否有新的成分（主成分）產生，並期望利用最小數目的主成分來解釋大部分的資料變異。一般而言，主成分分析主要是讓研究者可以透過每個成分的特徵值（eigenvalue）及解釋的變異量來瞭解整份測驗資料是否有符合單向度的假設，而並非直接被用來診斷局部試題依賴的問題，只是因為在 IRT 的假設上，唯有在單向度假設成立時，局部獨立性的假設也才會跟著成立，故研究者才得以藉由主成分分析的方式來間接判斷題組資料是否具有局部試題依賴的問題。然而，由於過去的研究主要都是透過針對整筆題組資料進行主成分分析的方式，以瞭解整份資料是否有符合單向度的假設。如 Lee（2004）曾利用其發展的一份題組型閱讀測驗之學生作答資料進行原始分數（raw scores）及殘差分數（residual scores）的主成分分析，其發現，當整份資料是符合單向度的假設時，使用原始分數進行主成分分析的結果將會顯示第一主成分的特徵值明顯地高於剩下的主成分，而使用殘差分數進行主成分分析的結果則會顯示萃取不出任何的主成分。惟這種針對整筆題組資料進行主成分分析的方式，僅能指出整份資料是否有符合單向度的假設，一旦發現到 10.

(19) 整份資料可能有測到其他向度的能力時，並無法有效地指出究竟是哪個題組測到了什麼樣的能力。是故，研究者希望能夠透過針對各個題組進行殘差主成分分析的方式，以瞭解各個題組是否有符合單向度的假設，藉此推論各題組的局部試題依賴情形。三、G2 統計量該指標又稱為概似率考驗（likelihood ratio test），其分布服從於自由度為 1 的卡方分配，用以偵測題組的局部試題依賴情形（Bishop, Fienberg & Holland, 1975），其公式如（2.6）下：. G2＝－2. 其中，. （2.6）. 代表受試者在第 i 題與第 j 題之答題結果的觀察次數，而. 則代表受. 試者在第 i 題與第 j 題之答題結果的期望次數。然而，有學者卻指出，在大部分的情況之下，Q3 指標對於題組局部試題依賴情形的偵測效果似乎都比這個指標來的好（Chen & Thissen, 1997），故較少研究使用這個指標來檢視題組的局部試題依賴情形，因此，在本研究中，此法不列入比較。四、相關法相對於 Q3 指標必須適當的服膺於特定 IRT 模式而言，有些學者也試圖從另一種建立在原始測驗分數之上的方法學取向來解釋題組的局部試題依賴情形（Hambleton, 1989），其認為可以透過將受試者依照幾個測驗分數的間距，區分成幾個不同的能力點，有了幾個不同的分數間距（相當於不同能力點）後，再分別針對各個題組求其題目配對的相關並予以平均，就可以得到幾個不同的平均相關（依照能力點的個數），而若同時有兩個能力點以上的平均相關大於 0.1 時，就表示這個題組存有局部試題依賴的情形（Ferrara, Huynh & Baghi, 1997）。Huynh、 Michaels 與 Ferrara（1995）曾經比較過此相關指標與 Q3 指標對於題組局部試題 11.

(20) 依賴情形的偵測效果，發現此兩種偵測方法的偵測結果其實相當類似，因此，本研究只選擇 Q3 指標作為比較的方法之一。五、模式化的方法除了事先使用以上這些方法對題組的局部試題依賴情形進行偵測之外，亦有學者會先利用所謂的題組反應模式（testlet response model）來分析題組資料，先將題組局部試題依賴的問題模式化之後，再根據題組效果變異數大小來判斷各題組的局部試題依賴情形。如 Bradlow、Wainer 與 Wang（1999）曾利用二參數題組模式來分析題組資料，藉此將局部試題依賴對於參數估計的影響力予以控制，並以參數 γ 的變異大小來表述題組的局部試題依賴情形。而由於此種模式化的方法亦是本研究欲比較的偵測方法之一，故研究者將於下節部分針對此法的演變過程及題組反應理論的發展進行介紹。. 第三節題組反應理論之發展及其相關研究一、題組反應理論的發展背景由於過去有不少的研究皆指出，若測驗分析者在分析題組資料時未妥善處理局部試題依賴問題的話（如只以傳統單一試題計分的 IRT 模式來進行資料分析），是很有可能會因此導致一些與測驗本身有關的重要訊息受到錯估，而容易有推論不當的情形產生。如學者 Keller、Swaminathan 與 Sireci（2003）曾探討過局部試題依賴問題對於測驗訊息量、信度以及受測者分類上的影響，其指出，若未適當處理局部試題依賴問題的話，很有可能會因此高估測驗的信度及訊息量。關於這一點，研究者也可以從其他探討局部試題依賴問題對測驗分析之影響的相關研究中也可以得到類似的發現（Zenisky, Hambletom & Sireci, 2002）。此外，Pommerich 與 Segall（2008）也指出，對於電腦化適性測驗的執行程序而言，應審慎考量各個階段在實際運作上是否有可能導致局部試題依賴的問題，才能避免高估測量的精準度。總而言之，不管是在哪種測驗情境之下，為了要保障參數的估計能夠更 12.

(21) 加準確，妥善處理具有局部試題依賴問題的測驗資料是絕對必要的。近幾年來，學者們也紛紛嘗試了一些較為可行方法，試圖解決題組可能存有的局部試題依賴問題，如有學者建議每個題組僅編擬一個題目即可，如此一來就可以避免局部試題依賴的問題產生（Lee, Brennan, & Frisbie, 2000；Wainer & Lewis, 1990；Yen, 1993），但這樣的做法卻被批評為是一種非常不經濟的作為，因此未獲支持（Thissen, Steinberg, & Mooney, 1989；Wainer & Lewis, 1990）。相較之下， Wainer 與 Kiely（1987）透過題組計分方式來解決題組局部試題依賴問題的想法就似乎較為可行。其認為，就算題組內題目存有局部試題依賴的情形，題組與題組之間應仍還是符合局部獨立性的假設，故可將計分方式改成題組計分的形式，並利用多元計分模式來分析題組資料，題組局部試題依賴的問題便能迎刃而解。乍看之下，這樣的構想似乎是相當合理且簡單易懂，但實際上，這種作法卻遭受到不少質疑的聲浪；不少的研究者皆指出，採取題組計分的方式來處理題組資料的局部試題依賴問題並不是一個非常好的方法（Thissen, Billeaud, McLeod, & Nelson, 1997; Wang & Wilson, 2005；Yen, 1993），主要原因有三：（一）實際上，這樣的一個題組並不會等於一個多元計分的題目，貿然地將題組內的試題予以加總會導致部分受試者的作答訊息因此遺失。因為在這樣的題組計分形式之下，只要受測者在同一個題組中得到相同的分數，他們就會被認為是屬於相同作答反應的受測者。然而，實際上，就算在同一個題組中得到相同的分數，他們還是應該會有幾種不同的作答反應型態（如假設某題組共包含 5 個試題，其題目難度由易至難排列，甲生答對前 3 題，乙生答對第 2、3、4 題，丙生答對後 3 題），這些不同的作答反應型態應該會對於受測者能力的估計誤差產生影響。然而，若以題組計分的形式來分析測驗資料的話，這部分的影響力將會不被考慮，即只要受測者在同一個題組中得到相同的分數，他們就會被當成是相同能力的受測者，其能力估計的誤差也會相同。 13.

(22) （二）多元計分模式是將每個題組視為都只測到單一向度的能力，但事實上，除了單一向度的能力之外，題組資料也可以測到其他向度的能力。而當同一個題組有測到兩個向度的能力時，該題組資料即應被視為是一種多向度的測驗，故並不適合利用單向度的多元計分模式來進行分析。（三）採取題組計分的方式來處理題組資料時，並無法有效地將題組效果與受測者能力在估計上予以分離，這很有可能會導致能力估計精準度因此被高估。總而言之，使用題組計分的方式來分析題組資料雖然處理了局部試題依賴的問題，但卻仍必須付出上述這些代價。然而，這個代價並非研究者在分析題組資料時所樂見的，故學者們仍繼續思考是否有其他更好的處理方式。直至近年來，學者 Bradlow、Wainer 與 Wang（1999）主張可以在一般常見的 IRT 模式中加入一個代表題組影響力的隨機效果參數 γ，藉此將局部試題依賴對於參數估計的影響力予以控制，並以此參數 γ 之變異數的大小來表述題組的局部試題依賴情形。例如其將 Birnbaum 於 1968 年提出之二參數邏輯斯地模式（two-parameter logistic model）加入一個隨機效果參數 γ 而延伸成為二參數的題組模式（two-parameter testlet model）。透過這種方式，研究者除了可以控制住局部試題依賴的影響力之外，還能確實地保留住整份測驗的訊息量，解決題組計分的缺失。所以，相較之下，以模式化的方式來解決題組可能會有的局部試題依賴問題，似乎是學者們一致認為較為理想的作法，於是乎題組反應理論及其模式也就因此開始逐漸地受到重視與推廣。二、題組模式的演變雖然 Bradlow、Wainer 與 Wang（1999）當年所提出的二參數題組模式，確實可以控制住局部試題依賴的影響力。但隨後 Wainer、Bradlow 與 Du（2000）卻馬上發現 Bradlow 等人的二參數題組模式可能存有兩個重大的問題，其一，該模式並未考量到試題可能具有猜對性（guessing）的問題，但對一般的選擇反應題 14.

(23) 型而言，猜對答案的可能性是確實存在的，故應該要予以考慮；其二，該模式假設在一份測驗中，所有題組的題組效果都一樣，但一般而言，每個題組隨著所使用的情境不同，題組效果的大小也應該有所變化，將其視為相同實不合理。因此， Wainer 等人即以改善此二缺失為主要出發點，將 Birnbaum 於 1986 年提出之將三參數邏輯斯地模式（three-parameter logistic model），如公式（2.7）所示，加入一個題組隨機效果參數 γ。. Pik＝ci＋(1－ci). （2.7）. ＋. 此時，三參數邏輯斯地模式就轉變為三參數的題組模式，如公式（2.8）所示：. Pik＝ci＋(1－ci). 其中，. （2.8）. ＋. 、、與 ci 仍和三參數邏輯斯地模式相同，分別指的是受試者 k 的. 能力、試題 i 的難度、試題 i 的鑑別度及試題 i 的猜對率，而 Pik 也同樣指的是受試者答對某個題目的機率。新加入的. 則是受試者 k 在第 d(i)個題組上的隨機. 效果（或稱在同一題組內，受測者與題目的交互作用情形）且. ~N(0,. )。. 更清楚地說，如果受試者 k 作答到 n 個屬於第 d(i)個題組的題目，則這 n 個題目都應該會有相同的. ，所以其在這 n 個題目上的答對機率才會有所關聯。然. 而，隨著受試者的不同，反映在第 d(i)個題組上的隨機效果就會不同，因此，才會是一種服從於常態分配的分佈形態而並非一個固定的值，而題組效果變異數 (. )就代表了第 d(i)個題組的局部試題依賴情形。由此可知，每個題組的. 應該會有所不同，且隨著. 都. 的增加，題組局部試題依賴的情形就越嚴重。. 在真實題組中，題組內的各題計方式並不一定是採用非對即錯或是有單一正確解答，而是可能會存有多元計分的情形，因此，Wang、Bradlow 與 Wainer（2002） 15.

(24) 更在等級反應模式（graded response model, GRM）（Samejima, 1969）中，加入代表題組局部試題依賴情形的隨機效果參數，形成所謂的等級反應題組模式（graded response testlet model, GRTM）以滿足這類的測驗情境的需求。除了以上的題組模式之外，亦有學者利用所謂的雙因素模式（bi-factor model），如公式（2.9）所示（DeMars, 2006），來解決題組可能會產生的局部試題依賴問題。. ＋. ＋＋. 其中，. ＋. （2.9）. 代表在特定能力向量 θ 和試題參數的情況之下，答對第 i 題的機率，. 仍然是指試題 i 的猜對率，則為鑑別度向量，而則是指試題 i 的難度。該模式主要是從一般的三參數邏輯斯地模式所衍伸而來，屬於一種多向度的模式（multidimensional model），其主要是假設題組裡的每個題目除了可以測到一個主要欲測量的能力之外，還可能會測到一個次要無關的能力，而此次要能力即是受到題組本身特性所影響的其他能力。然而，在過去的研究之中，DeMars（2006）也曾將雙因素模式和三參數的題組模式進行比較，其指出 Wainer 等人（2000）所提出的三參數題組模式其實只是雙因素模式的一個特例，認為即便測驗資料是在服從於三參數題組模式的前提之下，使用雙因素模式來進行分析也似乎不會降低測量的精準度，而且相對於 Wainer 等人（2000）所提出的三參數題組模式而言，雙因素模式所適用的測驗分析軟體在實務上是較為容易使用的。然而，由於上述這些題組模式的參數估計方式皆是採用馬可夫鏈蒙地卡羅（Markov chain Monte Carlo）的估計方法，以重複不斷抽樣的過程來得到一系列後驗分佈的馬可夫鏈（Markov chain），再從模式參數整體的後驗分佈中抽取後驗的樣本分配來進行參數的推論，故必須事先在參數的分佈型態作一些假設。但 Wang 和 Wilson（2005）卻指出，Wainer 等人（2000）當初在發展這個題組模式 16.

(25) 時，在 ai、bi、ci 參數之分佈型態上就已下了錯誤的假定，在這樣的錯誤之下，貿然地引入貝氏的架構（Bayesian framework）來幫助參數估計是非常不妥的作法。雖然測驗學者們都瞭解在參數估計上，貝氏取向確實能提供許多幫助，主要的原因是在於其透過吸收先驗分佈的資訊（prior distribution）而使得估計出的參數更為精準。然而，具有上述優點的前提是該先驗分佈資訊必須是正確的，換句話說，如過先驗分佈的資訊是錯誤的，而在估計參數時又將其引入的話，不但無法使參數估計變得精準，甚至還會更糟。由於 Wang 和 Wilson（2005）認為 Wainer 等人（2000）的研究犯了使用錯誤先驗分佈的毛病，因此其試圖從 Rasch 家族模式的角度，思考是否能仿效上述的想法，將題組效果的影響力納入模式之中，以得到精準的能力或試題參數。這個構想主要是因為 Wang 和 Wilson 認為，在 Rasch 的家族模式之中，不必先假設試題參數的分佈型態（只要假設能力 θ 與題組效果 γ 是獨立的常態分佈即可），可以有效地避免 Wainer 等人（2000）所犯的缺失，且其認為，將隨機效果參數 γ 納入 Rasch 家族模式的程序也並不困難，故發展題組效果的 Rasch 家族模式也似乎可行，以 Rasch 的題組模式為例，如公式（2.10）所示：. Pki1＝. （2.10）. ＋. 其中，Pki1 仍然指的是受試者 k 答對題目 i 的機率，且者 k 的能力與題目 i 的難度，而. 與也依然是指受測. 則代表受試者 k 在第 d(i)個題組上的隨機效. 果。又因為在這樣的 Rasch 題組模式之下，θ 和 γ 被假定為獨立且常態分佈的形式，所以當受試者接受 n 個題組時，其 θ 是一個平均數為 μ 向量，共變數為 Σ 的多變項常態分布。其中，μ 被設定為 0 且因為必須假設受試者的能力 θ 與受到題組所影響的特質之間是無關的，因此共變數 Σ 如（2.11）所示： 17.

(26) Σ=. γ. （2.11） γ. 若以這樣的觀點來看能力 θ 及題組效果 γ 的話，則可以發現到公式（2.10）的 Rasch 題組模式其實是屬於一種多向度的試題反應模式（multidimensional item response model），故可適用多向度試題反應模式之參數估計與能力估計的算則；惟其與一般多向度試題反應模式的不同之處在於其是將各個題組當成是一個向度（dimension）並且將各個向度設為獨立無關。而從 Rasch 模式所衍伸出來的多向度的試題反應模式即為 Adams、Wilson 與 Wang（1997）所提出的多向度隨機係數多項洛基模式（multidimensional random coefficients multinomial logit model, 以下簡稱 MRCMLM）如公式（2.12）所示：. ＋. f(Xiq＝1;ξ｜θ)＝. ＋. （2.12）. 其 Xiq 指的是受試者的反應組型，Qi 為第 i 題的計分類別數，bik 為第 i 題在第 k 個反應類別上的計分向量；θ 為受試者的能力向量，aik 為在第 i 題中，第 k 個反應類別的設計向量，ξ 為試題參數向量。根據 Wang 和 Wilson（2005）的看法，使用 MRCMLM 來分析題組資料的好處除了在於可以避免事先對參數分佈型態進行過多的假設之外，主要還是因為該模式能有效地控制住局部試題依賴的影響力，並且提供分析者能夠藉由題組效果變異數與能力變異數的比較（通常計算比值，比值越大代表局部試題依賴的情形越嚴重），來判斷各個題組的局部試題依賴情形。值得一提的是，該模式既適用於所有 Rasch 相關的家族模式（如部分給分、評定量尺模式）之中，也能夠用來分 18.

(27) 析題組與單題混合的測驗資料，用途相當廣泛，且相較於其他的多向度試題反應模式而言，使用 MRCMLM 來進行分析也較不會產生參數難以收斂（converge）的問題（陳柏熹、黃宏宇、王文中，2008）。綜上所述，本研究將使用 Rasch 題組模式來分析題組資料，藉此將局部試題依賴的問題予以模式化，並比較此模式的局部試題依賴偵測結果和 Q3 指標及題組殘差主成分分析的偵測結果是否一致。然而，在比較之前，研究者仍然必須先瞭解影響這些局部試題依賴偵測方法之偵測結果的可能因素是什麼，以便於做後續的研究變項設計，故本研究將於第四節的部份針對這一點進行文獻的回顧。. 第四節影響局部試題依賴偵測方法之偵測效果的可能因素一、受測者人數受測者人數的多寡絕對是影響 IRT 參數估計精準度的重要因素（Hambleton & Jones,1994），通常來說，隨著受測者人數的增加，各個模式的參數估計都會漸趨穩定且準確。然而，隨著使用模式之複雜程度的上升，所需要的受測者人數也會跟著增加，因此，各個模式所需要的受測者人數基本上是視該模式的複雜程度而定。以最基本的 Rasch 模式為例，由於該模式只要估計一個難度參數（b 參數）的關係，其所需要的受測者人數也就相對較少，而根據過去學者的建議，至少需要有 200 名受測者，才會能夠使 Rasch 模式的參數估計較為穩定且準確（Wright & Stone, 1979）。然而，由於本研究之模式化偵測方法所使用的模式為 Rasch 題組模式，其為多向度試題反應模式的一個特例，故所需要估計的參數遠較基本的 Rasch 模式來得多，因此也自然需要有較多的受測者才能幫助得到較為準確的參數估計值。而 Wang 和 Wilson（2005）曾以模擬研究的方式，透過不同的受測者人數的操弄，以瞭解 Rasch 題組模式的參數回覆情形（parameter recovery）是否會受到受測者人數的多寡所影響。結果發現，隨著使用受測者人數的增加，所有參數的回覆情 19.

(28) 形皆有明顯地提升，顯示 Rasch 題組模式的參數回覆情形確實會受到受測者人數的多寡所影響。而因為其他兩種局部試題依賴偵測方法的計算程序仍然是必須先利用 IRT 模式來對受測者的能力及試題參數進行估計，接著計算排除單一向度能力的影響力之後，受測者在各個題目上的殘差分數，最後再以此殘差分數來對題組進行殘差主成分分析或 Q3 指標的計算。因此可以推知，受測者人數的多寡也必然會對這兩種偵測方法的偵測效果產生影響。二、題組效果根據 Wang 和 Wilson（2005）的研究，研究者發現，相較於低題組效果的情境，在題組效果較高的情境之下，Rasch 題組模式之題組效果變異數的回覆情形會變得較差，顯示當題組效果較高時，Rasch 題組模式之題組效果估計的結果是較為不準的。關於這一點，研究者也希望能夠透過題組效果的操弄，來驗證上述這個現象的真實性，另一方面，由於過去研究亦少有提到題組效果大小對其他兩種局部試題依賴偵測方法之偵測效果的影響，因此，研究者亦想要瞭解另外兩種局部試題依賴偵測方法的偵測效果是否會因為題組效果的不同而有差異。三、題組內試題數過去 Wang 和 Wilson（2005）的研究曾透過題組數量（testlet number）的操弄，來瞭解在不同的模擬情境之下，題組數量是否會影響到 Rasch 題組模式之題組效果變異數的回覆情形。但因為該研究控制總題數為固定，所以一但對題組數進行操弄，勢必也會使得各題組內部的試題數也連帶受到操弄，如以總題數 40 題為例，當題組數為 10 組時，其題組內試題數就是 4 題，而當題組數為 4 組時，其題組內的試題數也就變成是 10 題，即題組數與題組內試題數是呈現共變關係。在這樣的情況下，本研究懷疑真正對於題組效果變異數之回覆情形有影響的因素應該是各題組內部的試題數多寡，而非題組數有多少。因為 Rasch 題組模式基本上是假定題組與題組彼此之間是獨立無關的，在這樣的前提之下，對受測者能 20.

(29) 力與題組效果的變異進行估計。是故，以這樣的角度來看，各題組效果估計的準確性應該會與各題組內部的試題特徵比較有關（如題組內試題數、該題組所提供的題材….）。所以，研究者認為，在 Wang 和 Wilson（2005）的研究之中，主要還是因為各題組內部試題數都已夠多（至少五題以上），才能讓 Rasch 題組模式之題組效果變異數的回覆情形維持在不錯的水準。然而，由於目前有許多測驗的題組內試題數都很少（如學生能力國際評量計劃之閱讀測驗及國民中學基本學力測驗英文科，其題組內試題數約 2～4 題），故仍有必要瞭解當題組內試題數較少時，Rasch 題組模式對於題組效果的估計精準度如何。而因為過去研究亦少有論及題組內試題數的多寡是否會對於其他兩種局部試題依賴偵測方法之偵測效果產生影響，是故，該變項對於各種局部試題依賴偵測方法之偵測效果的影響力究竟如何，亦為本研究所關心的重點之一。四、其他變項陳柏熹等人（2008）曾指出，在電腦化適性測驗的情境之下，Rasch 題組模式之受測者能力估計的準確性除了會受到題組效果的大小所影響之外，亦同樣會受到題組占總題數的比例所影響，其指出，隨著題組效果越大及題組占總題數的比例越高，受測者能力估計的準確性會越差。而雖然本研究的目的並非在於瞭解影響 Rasch 題組模式之受測者能力估計準確性的因素，但既然題組效果的大小與題組占總題數的比例皆對於 Rasch 題組模式之受測者能力估計的準確性有所影響，其自然也就很有可能會對 Rasch 題組模式之題組效果估計的準確性產生影響。然而，根據他們的研究發現，研究者認為題組占總題數比例的對於能力估計精準性的影響力似乎並不如題組效果來的大，因為在高題數（40 題）且題組沒有題組效果（0.0）的情境之下，隨著題組占總題數的比例由 0%增至 100%，其能力估計信度雖有些微下降，但始終都維持在 0.9 左右。然而，在高題數（40 題）且題組具有嚴重題組效果（1.0）的情境之下，隨著題組占總題數的比例由 0%增 21.

(30) 至 100%，其能力估計信度將由 0.9 左右降至 0.8 左右。如此看來，研究者認為，在本研究所設定的模擬情境之中，題組占總題數比例對於題組效果估計的影響力應該是不大，因此本研究才不針對這個部分進行操弄，僅以題組占總題數的比例為 100%的模擬資料來不同局部試題依賴偵測方法的偵測效果。. 22.

(31) 第三章. 研究方法. 根據前文之研究動機與目的、研究問題與文獻探討的結果，研究者設計了以下兩部分的研究方案，以回答本研究所提出的問題。本章將分成兩節，第一節為模擬研究，第二節則為實徵資料的分析研究，且於各節之中，研究者將分別針對兩個子研究的研究設計、程序、工具等部份進行說明。. 第一節研究一：不同局部試題依賴偵測方法之偵測效果比較一、研究設計研究一的目的是希望能透過模擬的方式，比較三種局部試題依賴偵測方法在不同受測者人數、不同題組效果程度及不同題組內試題數之下，其偵測效果是否有差異。欲比較的偵測方法有三，包括：（一）Rasch 題組模式之題組效果估計（二）題組-殘差主成分分析及（三）Q3 指標。其中，研究者主要是先比較 Rasch 題組模式在不同情境之下的參數回覆情形，之後再探討 Rasch 題組模式之題組效果估計用來判斷題組有無局部試題依賴情形的標準應如何設定。其次，再就其他兩種偵測方法的偵測結果進行討論（這部份同樣會探討這兩種方法用來判斷題組有無局部試題依賴情形的標準該如何設定）。最後，再利用各種偵測方法之偵測結果與題組效果真值進行相關係數的計算，以瞭解相對而言，哪一種偵測方法的偵測效果較佳。. 23.

(32) （一）研究架構研究一的詳細架構圖將如圖 3-1-1 所示。研究一共同變項：試題類型：二元計分試題共 48 題試題難度：均等分佈（-2～2）能力變異：1 題組佔總題數之比例：100% 各情境模擬次數：20 次操弄變項：受測者人數：500、1500 人題組效果變異：高（0.9、1）、低（0.10、0.20）題組內試題數：2、4、6、8 題 Rasch 題組模式. 題組-殘差主成分分析. Q3 指標. 綜合歸納與分析 1、絕對性指標分析：（1）瞭解 Rasch 題組模式之題組效果參數的回覆情形，探討其判斷題組有無局部試題依賴情形的標準應如何設定。（2）瞭解其他兩種偵測方法的偵測結果，探討其判斷題組有無局部試題依賴情形的標準應如何設定。 2、相對性比較：瞭解相對而言，何種局部試題依賴偵測方法的偵測效果較佳。圖 3-1-1. 研究一架構圖. （二）自變項 1、受測者人數根據文獻探討的結果，研究者瞭解受測者人數的多寡絕對是影響 IRT 參數估計精準度的重要因素，因此，Rasch 題組模式的參數回覆情形必然受測者人數的多 24.

(33) 寡所影響。然而，對於其他兩種偵測方法而言，雖然過去的文獻並未明確地指出需要多少受測者才能使這兩種局部試題依賴的偵測方法的偵測結果能夠準確，但由於此兩種作法的理論基礎仍是建立於 IRT 之上，因此可以合理的推斷受測者人數的多寡對於此兩種偵測方法的偵測效果應是具有影響力的。而在參考 Wang 和 Wilson（2005）的研究之後，為了凸顯受測者人數差異對於題組效果參數之回覆情形的影響力，研究一即將模擬情境的受測者的人數訂為 500 人與 1500 人兩種。 2、題組效果為了驗證過去研究的相關發現及比較不同局部試題依賴偵測方法的偵測效果（Wang & Wilson, 2005），本模擬研究亦操弄了題組效果的高低，以瞭解其對各種局部試題依賴偵測方法之偵測效果的影響。其中，高題組效果是指題組效果的變異佔能力變異的 90%～100%，主要是用來瞭解各種局部試題依賴偵測方法之偵測結果在不同判斷標準之下的統計考驗力（Power），而低題組效果是指題組效果的變異佔能力變異的 10%～20%，用以瞭解各種局部試題依賴偵測方法之偵測結果在不同判斷標準之下的第一類型錯誤率（α）。 3、題組內試題數根據文獻探討的結果（Wang & Wilson, 2005），研究者認為 Rasch 題組模式之題組效果估計的準確性會受到題組內部的試題數所影響；但從過去的研究之中，仍無法確定此因素是否會影響到其他兩種局部試題依賴的偵測方法的偵測效果。是故，研究一即將此一變項分成題組內 2、4、6、8 題四個水準，探討其對於各種局部試題依賴偵測方法之偵測效果的影響。（三）依變項 1、均方根誤（root mean square error, 以下簡稱 RMSE）指參數估計值與其相對應之模擬真值間的平均無方向性差異，其公式如下：. RMSE( ) =. (3.1) 25.

(34) 其中，與分別是指各次的參數估計值與參數真值，n 則指的是模擬的次數。此指標是用來瞭解 Rasch 題組模式在不同情境之下的參數回覆情形，用以確認該模式對於題組局部試題依賴情形的偵測效果。 2、偏誤（Bias）指參數估計值與其相對應之模擬真值間的平均有方向性差異，其公式如下：. Bias ( ) =. (3.2). 其中，與分別是指各次的參數估計值與參數真值，n 則指的是模擬的次數。該指標是用來瞭解在不同情境之下，Rasch 題組模式對於題組效果估計的偏差情形。 3、Spearman's ρ 係數由 Galton 以心理學家 Spearman 之名所命名之相關統計法，適用於變項皆為次序變項之資料，其公式如下：. （3.3）. 其中，d 為兩變項之等級差異，. 為兩變項之等級差異的平方總和，N 為等. 級的數目。由於題組-殘差主成分分析與 Q3 指標之偵測結果並非屬於常態分佈的型態，並不適合用一般的 Person 相關來計算不同偵測方法之偵測結果與題組效果真值的相關情形。因此，在相對性比較的部分，本研究將利用 Spearman's ρ 係數來比較在不同情境之下，各種局部試題依賴偵測方法的偵測效果。. 26.

(35) 二、研究程序關於研究一的研究程序部分，主要可以概括分成以下幾個部份：其一，關於 Rasch 題組模式之參數回覆情形的比較部份，研究者是先利用 Fortran 電腦程式產生在各種不同情境下的模擬作答反應資料，接著再透過 ACER ConQuest(Wu, Adams, Wilson, & Haldane, 2007)進行參數估計，並利用 Excel 2007 計算各參數的 RMSE 值及題組效果估計的平均 RMSE 值與 Bias 值，此外，也根據 Rasch 題組模式之題組效果估計的估計值，探討用來判斷題組有無局部試題依賴情形的標準應如何設定。其二，關於題組-殘差主成分分析與 Q3 指標的計算部份，研究者同樣是利用上述 Fortran 電腦程式產生之不同情境下的模擬作答反應資料，以 WINSTEPS 3.31(Linacre, 2001)進行參數估計並輸出標準化的殘差分數（Standardized residual），之後再利用這些標準化的殘差分數來進行各題組之殘差主成分分析與 Q3 指標的計算。關於這部分，研究者除了會針對此兩種偵測方法的偵測結果進行討論之外，亦同樣會根據此兩個偵測方法的偵測結果，探討用來判斷題組有無局部試題依賴情形的標準應如何設定。其三，利用 Rasch 題組模式之題組效果估計值、Q3 指標與題組-殘差主成分分析之第一與第二主成分比值分別與題組效果真值進行 Spearman's ρ 係數的計算，以瞭解相對而言，何種偵測方法的偵測效果較佳。除了對於研究一的整個程序進行以上的概述之外，研究者也將分別針對此三個部分的一些細節進行詳細地說明：（一）產生模擬作答反應資料研究一的模擬作答反應資料主要是依照其研究設計，以不同的受測者人數（500、 1500 人）、題組效果（高、低）、題組內試題數（2、4、6、8 題）等變項所模擬產生 48 題二元計分的試題，其試題難度的分佈均落於均等分佈〔-2～2〕之間，能力的變異設為 1，題組佔總題數的比例為 100%，每種情境均重複產生 20 次， 27.

(36) 並以此 20 次的模擬資料進行各個指標的偵測效果比較。其詳細的資料產生程序如下： 1、先利用多變量常態分佈 N(0,Σ)以隨機產生主要與次要能力的參數，其中，Σ 為一對角線矩陣，其變異數隨著情境的不同而有所調整，以本研究設計為例，在高題組效果且題組內試題數為八題的情境之下，其共變數 Σ 將如公式（3.4）所示：. Σ=. （3.4）. 其中，對角線最左上方的值為能力的變異數，之後往右下依序是各題組之題組效果的變異數，代表各題組的局部試題依賴情形。 2、將產生出來的主要與次要能力的參數（θ 和 γ）和固定的試題難度參數代入 MRCMLM 之中，計算相應的答對機率。 3、將程序 2 所計算出來的所有答對機率與一隨機抽取自均等分佈〔0,1〕的值進行比較，若答對機率大於相應之隨機抽取值的話，則視為受測者答對此題，反之，若答對機率小於或等於相應之隨機抽取值的話，則視為受測者答錯此題。（二）Rasch 題組模式之參數估計本研究主要是使用 ACER ConQuest 對模擬產生的作答反應資料進行參數的估計。（三）參數回覆情形的比較利用 Rasch 題組模式在不同情境之下的參數估計值與研究者自訂之參數真值來進行各參數之 RMSE 值、題組效果估計之平均 RMSE 值及 Bias 值的計算，以 28.

(37) 瞭解該模式在不同情境之下的參數回覆情形。此外，也根據 Rasch 題組模式之題組效果估計的估計值，探討用來判斷題組有無局部試題依賴情形的標準應如何設定，使用的軟體為 Excel 2007。（四）題組-殘差主成分分析與 Q3 指標的計算利用 WINSTEPS 3.31 進行參數估計並輸出不同情境之標準化殘差分數（Standardized residual），再以 SPSS 12 及 Excel 2007 進行題組-殘差主成分分析與 Q3 指標的計算，而由於題組-殘差主成分分析與 Q3 指標的偵測結果並不完全符合等距變項的特性，所以在結果部分，研究者主要是針對其偵測結果的中位數、最小值與最大值等部分進行討論。除此之外，也同樣會根據此兩個偵測方法的偵測結果，探討用來判斷題組有無局部試題依賴情形的標準應如何設定。其中，在題組-殘差主成分分析的部分，研究者主要是參考過去 Chou 和 Wang （2010）的研究，以各個題組之第一主成分與第二主成分的比值作為各題組之局部試題依賴情形的判斷依據，而在 Q3 指標的部分，研究者則是先分別針對各個題組求出其題組內試題配對之兩兩殘差分數的相關，再以這些相關係數的平均數作為各題組之局部試題依賴情形的判斷依據。（五）不同局部試題依賴偵測方法之偵測效果比較此部份是利用 SPSS 12 分別計算 Rasch 題組模式之題組效果估計值、Q3 指標與題組-殘差主成分分析之第一與第二主成分比值與題組效果真值的 Spearman's ρ 係數，以瞭解在各種情境之下，三種偵測方法之偵測效果的表現。三、研究工具（一）資料產生工具研究一的所有作答反應資料皆是利用研究者所屬之研究團隊所撰寫之 Fortran 電腦程式所模擬產生。（二）資料分析工具研究一的資料分析工具主要有四，其一為 ACER ConQuest，這是因為 Rasch 29.

(38) 題組模式在分析題組資料時，其實是假設各個題組除了可以用來測量一個共同的受測者能力之外，還可能會測到其他不相關的能力，以這樣的角度來看，該模式其實是多向度試題反應模式的一個特例，所以可以直接利用該軟體進行估計。其二為 WINSTEPS 3.31 分析軟體，該軟體最主要是用來針對受測者的反應進行 Rasch 家族模式的分析，若為非對即錯的二元計分試題，即要選擇 Rasch 模式來進行分析，而若試題是採多元計分形式的話，則必須選擇部分給分或評定量尺模式來進行分析，即分析者必須視資料的計分形態，利用不同的控制指令來選擇欲分析資料的模式。然而，在參數估計過後，分析者同樣也可以利用不同的輸出指令來要求 WINSTEPS 3.31 輸出一些想要的報表或是圖形資料，以做後續的分析。也就是因為 WINSTEPS 3.31 有這樣的功能存在，研究者才可以利用其輸出之各個受測者在各個題目上的標準化殘差分數，以進行後續題組-殘差主成分分析與 Q3 指標的計算。最後，關於 Rasch 題組模式之參數回覆情形的 RMSE 值、Rasch 題組模式之題組效果估計的平均 RMSE 值與 Bias 值、Rasch 題組模式之題組效果估計的偵測結果在不同判斷標準之下的α與 Power 摘要、題組-殘差主成分分析與 Q3 指標之偵測結果的描述統計摘要、題組-殘差主成分分析與 Q3 指標之偵測結果在不同判斷標準之下的α與 Power 摘要以及不同局部試題依賴偵測方法之偵測結果與題組效果真值之 Spearman's ρ 係數的計算部分，研究者則是使用 Excel 2007 與 SPSS 12 來完成。. 30.

(39) 第二節研究二：93～98 年國中基本學力測驗英文科題組之局部試題依賴情形分析研究二為實徵研究，其目的主要是在於比較三種局部試題依賴偵測方法對於 93～98 年國中基本學力測驗英文科題組之局部試題依賴偵測結果的差異情形。除此之外，研究者亦想瞭解 93～98 年國中基本學力測驗的英文科題組是否有局部試題依賴的情形存在，並檢討造成題組局部試題依賴情形的可能原因。同樣地，以下亦將分別針對研究二的設計、程序等部份進行說明。. 一、研究設計（一）研究架構研究二欲比較的局部試題依賴偵測方法仍是與研究一相同，包括：（一）Rasch 題組模式之題組效果估計（二）題組-殘差主成分分析及（三）Q3 指標。其研究架構將如如圖 3-2-1 所示。（二）研究對象由於研究二的目的旨在探討 93～98 年國中基本學力測驗之英文科題組是否有局部試題依賴的問題存在，故研究的對象理應包含此六年度所抽取的有效應考樣本。而經研究者向「國民中學學生基本學力測驗工作推展委員會」提出資料申請需求後，即得到了 93～98 年國中基本學力測驗英文科的受測者作答反應，每次各 5000 筆，各年度共 10000 筆。. 31.

(40) 研究二使用資料：93～98 年國中基本學力測驗英文科試題類型：二元計分試題共 45 題試題結構：單題與題組混合題組佔總題數之比例：約 50%～60% 受測者人數：每次 5000 人題組內試題數：2～4 題不等 Rasch 題組模式. 題組-殘差主成分分析. Q3 指標. 綜合歸納與分析 1、瞭解對於 93～98 年國中基本學力測驗的英文科題組而言，不同局部試題依賴偵測方法之偵測結果的差異情形。 2、瞭解 93～98 年國中基本學力測驗的英文科題組的局部試題依賴情形並探討造成存有題組局部試題依賴問題的可能原因。圖 3-2-1. 研究二架構圖. （三）測量工具根據歷年來國民中學基本學力測驗推動工作委員會之試題發展組所公布的「國民中學基本學力測驗試題說明」可以得知，該測驗主要是評量受測者在國中階段所習得的基本核心知識與培養的基本能力，並非要測量艱深繁瑣與高專業的知識技能，故各個題目的難度幾乎都維持在中間偏易左右，難題其實並不多。其命題的特色主要是以能夠結合學生的生活與學習經驗為主，同時也強調必須以生動及活潑化的方式來呈現題目，避免過於死板。該測驗的主要目的在於評量學生們的能力表現及發展潛能，並在維持制度公平的前提之下，消除入學考試對國民中學教育方針的不利影響，期能發揮充分發揮學生的學習潛能（教育部，2000）。國民中學基本學力測驗（以下簡稱國中基測）之英文科測驗的試題結構主要包 32.

(41) 含單題與題組部分，題組佔總題數的比例隨著各年度的不同而有所差異，但大致而言皆佔有五成以上的比例。單題部分主要是測量受測者的語言基礎知識、字彙、片語及語法結構的能力，而題組部分則是在測量受測者的閱讀理解、分析等綜合判斷的能力。如前所述，其試題取材的內容相當生活化，除了涵蓋現階段受測者的生活經驗外，也包括了日後可能發生的生活經驗，惟必須以受測者可以理解的範圍為主。. 二、研究程序研究二的研究程序主要是直接利用三種局部試題依賴偵測方法對 93～98 年國中基測之英文科題組進行局部試題依賴的偵測，其目的除了在於比較不同偵測方法之偵測結果是否有差異之外，也期瞭解 93～98 年國中基測之英文科題組的局部試題依賴情形。以下將針對此程序的詳細作法做細部介紹：（一） Rasch 題組模式之參數估計與研究一相同，主要是使用 ACER ConQuest 對 93～98 年國中基測的英文科題組資料進行參數估計。（二）題組-殘差主成分分析與 Q3 指標的計算與研究一相同，先利用 WINSTEPS 3.31 進行參數估計並輸出 93～98 年國中基測英文科題組的標準化殘差分數，再以 SPSS 12 及 Excel 2007 進行題組-殘差主成分分析與 Q3 指標的計算，其中，題組-殘差主成分分析仍然是以第一與第二主成分的比值作為各題組之局部試題依賴情形的判斷依據，而 Q3 指標也同樣也是以題組內兩兩試題配對之殘差分數相關的平均數作為各題組之局部試題依賴情形的判斷依據。（三）不同局部試題依賴偵測方法之偵測結果比較此部份除了直接針對不同局部試題依賴偵測方法的偵測結果進行比較之外，也分別針對不同方法之偵測結果進行 Spearman's ρ 係數的計算，以瞭解相對而言， 33.

(42) 不同方法之偵測結果的差異情形。惟在 Rasch 題組模式之題組效果估計的偵測結果部分，研究者是以題組效果變異數估計值與能力變異數估計值的比值做為各題組之局部試題依賴情形的判斷指標，並以該指標和其他兩種偵測方法的偵測結果進行比較。. 三、資料分析由於所使用的資料分析方法與研究一相同，包含 Rasch 題組模式之題組效果估計、題組-殘差主成分分析、Q3 指標等三種局部試題依賴偵測方法，其相關的計算細節請參考本研究第 29 至 30 頁，本節將省略此部分不再介紹。. 34.