違反試題局部獨立性之參數估計－BILOG-MG與HLM軟體的比較

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：林原宏博士. 違反試題局部獨立性之參數估計－BILOG-MG 與 HLM 軟體的比較. 研究生：張世諭撰. 中華民國九十七年七月.

(2)

(3) 謝辭經過幾番波折，畢業論文終於在六月中旬擠了出來，過程中充滿緊張刺激，有如滔滔江水。連綿不絕；又有如黃河氾濫，一發不可收拾。之所以能順利畢業，最感謝的貴人，莫過於我最尊敬的林原宏老師與馨瑩同學。林老師，人帥、品性優良、教學認真、待人處事無可挑剔，研究生想要順利畢業，找對正確的指導教授才是王道，我想這點我做到了，在林老師的課堂中，不但學到了知識與技能，更學到許為人處事應有的態度，老師常提醒我們：「態度，決定你的高度」，我也會以此信念，繼續往下一個人生階段邁進，非常感謝林老師這兩年來的指導。馨瑩同學，做事理性有條理，在古典美的外表中卻也有愛吃的一面，感謝妳在我研究所兩年的生活中，不斷地給予協助，妳就像我第二指導教授，無論在課業、論文、食物、玩樂，都承蒙妳的照顧，讓我有辦法在研究所的困境中，全身而退，最後恭喜妳考上博班，也祝賀妳在未來的求學階段有更順利、更好的發展。最後要感謝我的口試委員許天維老師與曾建銘老師，感謝您對於世諭論文的批評與指教，也使得論文，能夠有完整的演出。人家常說，研究生的生活很苦悶，卻無法套用在我的研究生生活，家住台中的我，有一個溫暖的家庭，還有一大群要好的同學，何悶之有?首先感謝我親愛的家人，照顧我的生活、打理我的一切，在我念書期間，能無後顧之憂，繼續向前。再來是我最愛的女朋友晏甄，妳的支持與鼓勵一直是我向前的動力，感謝妳這些年來的陪伴，讓我的生活不再感到孤單，有總化陪伴為肥肉的感覺，希望在未來的日子裡，能夠繼續有妳的相隨，更期望有妳的督促，讓肥肉不再產生。接下來要感謝研究所的同學們：曜瀚，宜蘭的偽原住民，吃喝玩樂少不了你，感謝你為我的生活添增歡樂的氣氛；少祖，研究室就你最認真，感謝你這兩年在課業上的指點；慢慢，活生生的大好人，如果吃素可以讓個性變好，那我決定效法你，感謝你這兩年來的幫忙，讓我的研究生活更為順利；文俊，長的像黃品源的大帥哥，感謝你在這兩年來對於我的電腦問題給予的協助，將來見到你的笑容，我還. I.

(4) 是會笑的很誇張；鈞翔，愛看正妹的酷哥，你的小聰明正是你的精華所在，感謝你幫我解決過大大小小的問題；書豪，年齡永遠是個秘密，你在資訊的專業知識，是無人可及的，謝謝你在這兩年的關照；筱倩，六年的同窗友誼，在大學時代就承蒙妳的照顧，恭喜妳考上博班，也祝你在求學的路上順利，活的開心，住的安心；婉星，堪稱本班的班花，妳的善良與熱心，正是我要學習的典範；宛婷，像是霧裡看花，永遠不知道妳當下的情緒，雖然只有簡短的哈拉，至少讓我們在研究所中記得有這個人；雨潔，言行舉止帶著帥氣，可謂當代的女中豪潔，為我們的認識乾一杯吧；慶麟助教，幽默中帶著笑點，多謝助教兩年來的照顧與指教，小弟我受教了。最後要感謝的是測統所的老師、學長姐與學弟妹們。感謝郭伯臣老師、楊志堅老師、許天維老師與鄭富森老師，諸位老師對我細心的教導，讓學生能受到更專業的知識與技能。謝謝惟盛、建儒、慧? 、智為、育隆、暄博、正軒、堅誌、雅媛、鈺卿、凱怡、佳瑩、佑軒、省華、秀玉、欣怡等諸位學長姐的耐心教導，解決了許多研究所中遇到的問題。感謝境蔚、銘豪、志勝、佳樺、仁傑、佳穎、士勛、任婕、秀聿等諸位學弟妹，因為有你們，使得研究室熱鬧了許多。雖然離開有萬般的不捨，但卻有許多不可抗力之因素，不得不離開。最後再次感謝上述提到的鄉親父老姐妹們，因為有你們的存在，使得小弟能安然渡過這兩年，我也會帶著回憶，往下一個里程邁進。. 世諭 2008 超熱的 7 月. II.

(5) 摘要試題反應理論有四個主要的假設，必需滿足所有的假設條件之下，使用試題反應理論才方無疑慮，其中一個假設為局部獨立性。現實情況中，試題可能會因各種情況而形成相依情形，像是題組 (testlet) 型測驗、速度測驗 (speed test)等。若試題存在違反局部獨立的情形，則會使參數估計產生偏誤 (bias)，因此如何在違反試題局部獨立的情況下，減少估計時所產生的偏誤，勢必成為重要的議題。本研究主要利用電腦模擬的方式，探討試題存在違反局部獨立性時，所影響 Rasch 模式及 1-P HGLLM 的估計情形。研究設計中，以試題數、樣本數及試題違反局部獨立為三個模擬因子，根據題組反應模式產生模擬資料，再利用 BILOG-MG 與 HLM6.03 兩軟體估計參數，最後利用復原適配度指標，據以分析兩軟體的估計效果與估計精準度，研究結果顯示：一、當試題數固定時，試題參數估計部份，當試題為局部獨立時，BILOG-MG 的估計表現會較 HLM6.03 稍微好一些，但若試題存在局部相依性，HLM6.03 的估計表現會明顯較 BILOG- MG 穩定；在能力參數估計部份，兩軟體的估計情形相近，但整體來說，HLM6.03 軟體較 BILOG-MG 穩定。二、當樣本數固定時，在試題參數估計部份，兩軟體的估計情形相近，但當試題存在局部相依時，HLM6.03 軟體有比較穩定的估計表現；在能力參數估計部份，HLM6.03 軟體的估計表現較 BILOG-MG 穩定。三、當違反試題局部獨立程度固定時，在試題參數估計部份，兩個軟體估計表現相近，樣本數明顯地影響兩軟體的估計表現，而在試題局部相依時，試題數會使得估計精準度變差；在能力參數估計部份，兩個軟體估計表現相差不大。大致上，HLM6.03 軟體較 BILOG-MG 穩定。. 關鍵字：多層次試題反應理論、局部獨立性、階層線性模式、試題反應理論、題組反應模式. III.

(6) Abstract There are four important assumptions in item response theory. Item response models entail strong assumptions, and the benefits they offer would be accrue only when the assumptions hold. One important assumption made in item response theory is the assumption of local independence. In fact, the situations of the violation of local independence assumption may be produced among items by many conditions, such as testlet test or speed test. This lack of conditional independence, if ignored by applying item response models using the assumption of local independence, will result in the bias of the parameter estimation. Therefore, it is an important issue that reducing the bias of the parameter estimation when the items exist the violation of local independence assumption. This research utilize the method of the computer simulation to explore the effect of the estimating conditions of Rasch model and 1-P HGLLM when items exist the violation of lo cal independence assumption. Three factors are considered in this simulation study. They are number of items, sample size and degree of local dependence. This study uses testlet response model to produce the simulate data, then estimates parameter by the software of BILOG-MG and HLM6.03. Finally, this research uses goodness-o f- recovery to analyze the proficiency estimates of these two software. The main findings are as follows. 1. When the number of items is fixed, the estimation preciseness of HLM6.03 will be better than BILOG-MG. 2.When sample size is fixed, the estimation preciseness of HLM6.03 will be better than BILOG-MG on the condition of local dependence. 3.When the degree of local dependence is fixed, the robustness of HLM6.03 will be better than BILOG-MG.. Key words: multilevel IRT, local independence, hierarchical linear model, item response theory, testlet response model. IV.

(7) 目錄第一章緒論.............................................................................................................................1 第一節研究動機 ................................................................................................................1 第二節研究目的 ................................................................................................................2 第三節名詞解釋 ................................................................................................................2 第二章文獻探討 ....................................................................................................................5 第一節第二節第三節第四節. 試題反應理論........................................................................................................5 局部獨立性 ......................................................................................................... 10 階層線性模式..................................................................................................... 17 多層次試題反應理論........................................................................................ 20. 第三章研究設計與方法 .................................................................................................... 25 第一節第二節第三節第四節. 研究架構 ............................................................................................................ 25 研究工具 ............................................................................................................ 27 模擬流程 ............................................................................................................ 27 資料分析 ............................................................................................................. 33. 第四章研究結果與討論 .................................................................................................... 35 第一節第二節第三節第四節. 模擬結果 ............................................................................................................. 35 固定試題數 ......................................................................................................... 37 固定樣本數 ......................................................................................................... 45 固定違反試題局部獨立性程度 ...................................................................... 53. 第五章結論與建議............................................................................................................. 65 第一節研究結論 ............................................................................................................. 65 第二節研究建議 ............................................................................................................. 66 參考文獻 ................................................................................................................................ 68 中文部份 ............................................................................................................................ 68 英文部份 ............................................................................................................................ 68. V.

(8) 表目錄表 1 兩二元計分試題之觀察次數列聯表......................................................................13 表 2 兩二元計分試題之期望次數列聯表......................................................................13 表 3 模擬試題之難度值 ....................................................................................................30 表 4 BILOG-MG 與 HLM6.03 在不同模擬因子組合下之試題參數估計效果......36 表 5 BILOG-MG 與 HLM6.03 在不同模擬因子組合下之能力參數估計效果......37. VI.

(9) 圖目錄圖1. 單參數邏輯斯模式試題特曲線圖… … … … … … … … … … … … … … … .. 6. 圖2. 雙參數邏輯斯模式試題特曲線圖… … … … … … … … ............................. 7. 圖3. 三參數邏輯斯模式試題特曲線圖… … … … … … … … … … … … … … …. 8. 圖4. 學生與班級間之階層結構圖… … … ........… … … … … … … … … … … …. 18. 圖5. 試題與受試者間之階層結構圖… … … … … … … … … … … … … … … .... 21. 圖6. 研究架構圖… … … … … … … … … … … … … … … … … … … … … ...… …. 26. 圖7. 模擬流程圖… … … … … … … … … … … … … … … … … … … … ........… …. 28. 圖8. 試題參數－RMSE－20 題… … … … … … … … … … … … … … … ............... 38. 圖9. 試題參數－RMSE－40 題… … … … … ....… … … … … … … … … ............... 38. 圖 10 試題參數－RMSE－80 題… … … … … ....… … … … … … … … … ............... 38 圖 11 試題參數－BIAS－20 題… … … … … ....… … … … … … … … … ................. 39 圖 12 試題參數－BIAS－40 題… … … … … ....… … … … … … … … … ................. 39 圖 13 試題參數－BIAS－80 題… … … … … ....… … … … … … … … … ................. 40 圖 14. 試題參數－MCSE －20 題… … … … … ....… … … … … … … … … ................ 圖 15. 試題參數－MCSE －40 題… … … … … ....… … … … … … … … … ............... 41. 圖 16. 試題參數－MCSE －80 題… … … … … ....… … … … … … … … … ................ 41. 41. 圖 17 能力參數－RMSE －20 題… … … … … ....… … … … … … … … … ............... 42 圖 18 能力參數－RMSE －40 題… … … … … ....… … … … … … … … … ............... 42 圖 19 能力參數－RMSE －80 題… … … … … ....… … … … … … … … … ............... 43 圖 20 能力參數－MAD－20 題… … … … … ....… … … … … … … … … ................ 44 圖 21 能力參數－MAD－40 題… … … … … ....… … … … … … … … … ................ 44 圖 22. 能力參數－MAD－80 題… … … … … ....… … … … … … … … … ................ 44. 圖 23. 試題參數－RMSE－100 人… … … … … … … … … … … … … … ................ 45. VII.

(10) 圖 24. 試題參數－RMSE－300 人… … … … … … … … … … … … … … ................ 45. 圖 25. 試題參數－RMSE－900 人… … … … … … … … … … … … … … ................ 46. 圖 26. 試題參數－BIAS－100 人… … … … … … … … … … … … … … .................. 47. 圖 27. 試題參數－BIAS－300 人… … … … … … … … … … … … … … .................. 47. 圖 28. 試題參數－BIAS－900 人… … … … … … … … … … … … … … .................. 47. 圖 29 試題參數－MCSE－100 人… … … … … … … … … … … … … ..................... 48 圖 30 試題參數－MCSE－300 人… … … … … … … … … … … … … ..................... 48 圖 31 試題參數－MCSE－900 人… … … … … … … … … … … … … ..................... 49 圖 32 能力參數－RMSE－20 題… … … … … ....… … … … … … … … … ............... 50 圖 33 能力參數－RMSE－40 題… … … … … ....… … … … … … … … … ............... 50 圖 34 能力參數－RMSE－80 題… … … … … ....… … … … … … … … … ............... 50 圖 35 能力參數－MAD－20 題… … … … … ....… … … … … … … … … ................ 51 圖 36 能力參數－MAD－40 題… … … … … ....… … … … … … … … … ................ 51 圖 37 能力參數－MAD－80 題… … … … … ....… … … … … … … … … ................ 52 圖 38 試題參數－RMSE－(0,0)… … … … … … … … … … … … … … ...... .............. 53 圖 39 試題參數－RMSE－(0,2)… … … … … … … … … … … … … … .................... 53 圖 40 試題參數－RMSE－(0,8)… … … … … … … … … … … … … … .................... 54 圖 41 試題參數－RMSE－(2,2)… … … … … … … … … … … … … … .................... 54 圖 42 試題參數－RMSE－(2,8)… … … … … … … … … … … … … … .................... 54 圖 43. 試題參數－BIAS－(0,0)… … … … … … … … … … … … … … ..................... 55. 圖 44. 試題參數－BIAS－(0,2)… … … … … … … … … … … … … … ..................... 55. 圖 45. 試題參數－BIAS－(0,8)… … … … … … … … … … … … … … ..................... 56. 圖 46. 試題參數－BIAS－(2,2)… … … … … … … … … … … … … … ..................... 56. 圖 47. 試題參數－BIAS－(2,8)… … … … … … … … … … … … … … ..................... 56. 圖 48 試題參數－MCSE－(0,0)… … … … … … … … … … … … … ........................ 57 圖 49 試題參數－MCSE－(0,2)… … … … … … … … … … … … … ........................ 57. VIII.

(11) 圖 50 試題參數－MCSE－(0,8)… … … … … … … … … … … … … ........................ 58 圖 51 試題參數－MCSE－(2,2)… … … … … … … … … … … … … ........................ 58 圖 52 試題參數－MCSE－(2,8)… … … … … … … … … … … … … ........................ 58 圖 53 能力參數－RMSE－(0,0)… … … … … … … … … … … … … … .................... 59 圖 54 能力參數－RMSE－(0,2)… … … … … … … … … … … … … … .................... 59 圖 55 能力參數－RMSE－(0,8)… … … … … … … … … … … … … … .................... 60 圖 56 能力參數－RMSE－(2,2)… … … … … … … … … … … … … … .................... 60 圖 57 能力參數－RMSE－(2,8)… … … … … … … … … … … … … … .................... 60 圖 58. 能力參數－MAD－(0,0)… … … … … … … … … … … … … … ...................... 61. 圖 59. 能力參數－MAD－(0,2)… … … … … … … … … … … … … … ...................... 61. 圖 60. 能力參數－MAD－(0,8)… … … … … … … … … … … … … … ...................... 62. 圖 61. 能力參數－MAD－(2,2)… … … … … … … … … … … … … … ...................... 62. 圖 62. 能力參數－MAD－(2,8)… … … … … … … … … … … … … … ...................... 62. IX.

(12) X.

(13) 第一章緒論第一節研究動機試題反應理論 (item response theory, IRT)的模型常被用來設計、發展或分析各領域的測驗與問卷。IRT 依據強假設 (strong assumptions)，建立在嚴謹的數學模式上 (余民寧，1991)，發展出許多的數學模型來估計參數，而隨著電腦技術的進步，參數更可透過 IRT 軟體快速地進行估計，有效地提供研究者解釋受試者與試題間的反應關係。由此可知， IRT 是一個非常受歡迎且實用的理論，然而 IRT 中有四個主要的假設條件 (余民寧，1991)，必需滿足所有的假設條件之下，使用 IRT 才方無疑慮。其中一個假設為局部獨立 (local independence, LI)，意指在給定受試者能力之下，受試者在兩試題的反應機率，為個別試題反應機率的連乘積。但在現實的情況中，此假設條件是非常容易違反的，因為試題可能會因各種情況形成相依情形，像是題組 (testlet) 型測驗、速度測驗 (speed test)等。Yen (1993) 指出，若試題存在違反局部獨立的假設，則會使參數估計產生偏誤 (bias) ，因此如何在違反試題局部獨立的情況下，減少估計時所產生的偏誤，勢必成為重要的議題。單參數邏輯斯模式 (one-parameter logistic model, 1-PL)，稱為 Rasch 模式，常為研究者所使用的模式之一。K amata (1998) 提出階層線性模式與單參數邏輯斯模式的銜接，以廣義階層線性模式 (hierarchical generalized linear model, HGLM) 來詮釋單參數邏輯斯模式的試題反應模式，此稱為廣義階層線性邏輯斯模式 (hierarchical generalized linear logistic model, HGLLM)，Kamata (1998) 亦提到其 1-P HGLLM 在代數的意義上等價於 Rasch 模式。Jiao, Wang, and Kamata (2005) 曾經利用階層線性模式，初步模擬當試題存在不同違反試題局部獨立性程度時，影響階層線性模式的估計情形，並未將二階層線性模式與 Rasch 模式相互比較。因. 1.

(14) 此本研究根據其理念，增加可能影響研究結果的模擬因子：試題數、樣本數、違反試題局部獨立程度，利用模擬的方式，探討在不同違反試題局部獨立程度的情形下，影響 Rasch 模式與 1-P HGLLM 的估計情形，並呈現估計效果與分析比較。. 第二節研究目的本研究主要探討在試題存在不同違反局部獨立程度的情形下，影響 Rasch 模式與 1-P HGLLM 的估計情形。本研究以模擬方式，在可能影響參數估計的模擬因子組合下，利用題組反應模式產生模擬資料，並估計試題參數與能力參數，據以分析其估計效果。本研究的估計軟體中，Rasch 模式選用 BILOG-MG 軟體進行參數估計，而 1-P HGLLM 選用 HLM6.03 軟體，利用兩個軟體在不同違反試題局部獨立性程度，與試題數及樣本數的因子組合下，估計試題參數與能力參數，並計算估計效果。本研究目的可分為以下三點：一、固定試題數下，探討兩軟體在各種樣本數與違反試題局部獨立程度組合下的估計精準度。二、固定樣本數下，探討兩軟體在各種試題數與違反試題局部獨立程度組合下的估計精準度。三、固定違反試題局部獨立程度下，探討兩軟體在各種樣本數與試題數組合下的估計精準度。. 第三節名詞解釋壹、試題反應理論試題反應理論 (item response theory, IRT) 為現代測驗理論的主要架構。試題反應理論建立在兩個基本概念上：(1)受試者在某一試題上的表現，可以由一項因素解釋，這項因素為受試者的潛在特質 (latent trait) 或能力 (ability)；(2)受試. 2.

(15) 者在試題的反應情形與受試者的能力可以透過試題反應函數加以解釋，這條函數曲線稱為試題特徵曲線 (item characteristic curve)。. 貳、局部獨立性局部獨立性 (local independence, LI) 為試題反應理論基本假設之ㄧ，意指在給定受試者能力之下，受試者在兩試題的反應機率，為個別試題反應機率的連乘積。. 參、題組測驗中的某些試題若是經由共同刺激 (stimulus common) 、題幹 (stem) 或試題內容 (item content)，而形成一組相關試題，則可稱為「題組」(testlet)。. 肆、階層線性模式當資料具有兩個以上的層次，可分為總體層次 (aggregate level) 與個體層次 (individual level) ，若以一般迴歸模式進行分析，則會忽略階層間的關係變項，使得迴歸係數標準誤被低估，故將組間 (總體層次) 的資訊考慮進來。因此階層線性模式 (hierarchical linear model, HLM) 是根據資料的階層特性，建立不同層次的模式，藉著各層次所具有的解釋變數，計算不同層次對於個別層次的影響效果。. 3.

(16) 4.

(17) 第二章文獻探討第一節試題反應理論針對古典測驗理論 (classical test theory, CTT) 的缺失，心理計量與測驗學者提出了現代測驗理論 (modern test theory, MTT)，主要架構為 IRT，是依據強假設 (strong assumption) 而來，雖然公式較為複雜，但假設合理、嚴謹，其應用層面之廣且發展迅速，成為當代測驗學界的主流 (Bock & Zimowski, 1996; Embretson & Reise, 2000; Hambleton, 1989; Hambleton & Cook, 1977; Lord, 1980)：. 壹、基本假設欲使用 IRT 模式進行分析，必須在 IRT 假設成立下，使用 IRT 才方無疑慮。 IRT 的基本假設 (王寶墉，1995；余民寧，1991；Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991)，敘述如下： 1.單向度：一份測驗中的每一題試題都必須測量同一種的潛在特質或能力。 2.局部獨立：在給定受試者能力之下，受試者在各試題間的作答情形獨立，亦即給定能力的受試在所有試題的反應組型機率，為個別試題反應機率的連乘積： P(U 1 ,U 2 ,...,U n | θ ) = P(U 1 | θ ) P (U 2 | θ )...P(U n | θ ) n. = ∏ P (U i | θ ). (1). i =1. 3.非速度測驗：測驗的實施，必須在非時間的限制之下完成，意指未作答的試題，是由於受試者能力不足所致，並非時間不足而無法作答。 4.知道— 正確假設：若受試者知道某一試題的正確答案，必定答對該試題；換言之，若受試者答錯某一試題，其必然不知道該試題答案，而非其他因素所致。. 貳、試題反應模式 IRT 雖然自 1980 年才正式正名成立，但其初步的理論架構早在 1940 年代已. 5.

(18) 經出現，而 Tucker (1946) 便是第一位使用「試題特徵曲線」 (item characteristic curve, ICC) 一詞的心理計量學家 (余民寧，1991)。試題反應模式是將受試者的能力與試題反應結果間的關係，以一種數學函數表達，若將此數學函數以圖形表示，即為 ICC。IRT 中有許多試題反應模式，也有許多其他新的模式不斷地產生及發展 (Embretson, 1997; Thissen & Steinberg, 1986)，而在有關 IRT 的研究中，有三種常見的對數模式，分別為單參數邏輯斯模式、雙參數邏輯斯模式和三參數邏輯斯模式，介紹如下： 1.單參數邏輯斯模式 (one–parameter logistic model, 1-PL). Pi (θ ) =. e (θ -bi ) 1 + e (θ -bi ). ， i = 1,2, L, n. (2). 單參數邏輯斯模式，有 Rasch 模式之稱，在試題參數部份只包含了一個難度參數。 Pi (θ ) 代表能力為 θ 的受試者，其在試題 i 的答對機率， bi 表示試題 i 的試題難度 (difficulty)， n 是該測驗的總試題數， e 為自然對數的底數。因此，單參數邏輯斯模式的 ICC 圖為圖 1 所示。. 圖1. 單參數邏輯斯模式試題特徵曲線圖. 由公式(2)得知，當考生能力 θ 與試題難度 b 相等時，其 Pi (θ ) 剛好為 0.5，亦即當正確反應的機率為 0.5，其對應 ICC 所落在能力量尺 (ability scale) 上的值，. 6.

(19) 恰好為該試題的難度值。當考生的能力 θ 大於試題難度 b ，則考生答對該試題的機率超過 0.5，反之則小於 0.5。因此，圖 1 所示的 ICC，其三試題的難度分別為 − 2 、0 和 2，而三條曲線形狀一致，這表示在單參數邏輯斯模式下，影響考生在. 試題上的表現只有試題的難度。 2.雙參數邏輯斯模式 (two–parameter logistic model, 2-PL). Pi (θ ) =. e ai (θ -bi ) 1 + e ai (θ -bi ). ， i = 1,2, L, n. (3). 雙參數邏輯斯模式比單參數邏輯斯模式多了一個試題的鑑別度參數 ai ，用來描述試題 i 鑑別力 (discrimination) 的大小，其 ICC 圖為圖 2 所示。. 圖2. 雙參數邏輯斯模式試題特徵曲線圖. 試題的鑑別度參數 a 會與 ICC 所對應的斜率 (slope)，呈某種正向比例，表示 ICC 越陡 (steeper) 的試題，斜率越大，其鑑別度參數也越大。而鑑別力越大的試題，其區別不同能力的效果也越好。就理論而言，試題的鑑別度參數 a 應該介於 ± ∞ 之間，但學者認為鑑別度參數 a 值不太可能為負的，因為能力越大而正確反應的機率越低是有違背常理，鑑別度參數 a 值太高亦可能性不大，因此鑑別度參數 a 值通常介於 0~2 之間。. 7.

(20) 圖 2 所示為雙參數邏輯斯模式的三個例子，從圖中可得知，當試題鑑別度參數越大，其 ICC 的斜率亦越大。而當試題鑑別度參數 a 等於 1 時，則為 Rasch 模式，亦表示單參數邏輯斯模式即為雙參數邏輯斯模式的一個特例。雙參數邏輯斯模式是由 Birnbaum (1968) 修改自 Lord (1952) 的原始雙參數常態肩形模式 (normal ogive model) 而來，但因較容易計算和解釋，因此已取代常態肩形模式。 3.三參數邏輯斯模式 (three–parameter logistic model, 3 -PL). Pi (θ ) = c i + (1－ci ). e ai (θ -bi ) 1 + e ai (θ -bi ). ， i = 1,2, L, n. (4). 雙參數邏輯斯模式並未把受試者的猜測因素考慮在其中，因此不適合使用於試題較難的情況，而在三參數邏輯斯模式中，加入了試題猜測參數 c (guessing parameter)。一般而言，猜測參數 c 比受試者在隨機猜測下作答的機率還小，即 Ci ≤. 1 ， Ai 為試題 i 的選項個數。三參數邏輯斯模式的 ICC 圖如下圖 3。 Ai. 圖3. 三參數邏輯斯模式試題特徵曲線圖. 上圖 3 中，三個試題鑑別度參數為 1、試題難度參數為 0，而試題猜測參數分別為 0、0.2、0.4 的 ICC 圖。從圖 3 可知，不同於雙參數邏輯斯模式，各試題 8.

(21) 的 ICC，其 Y 軸的截距並不相同，亦即猜測參數 c 對 ICC 的形狀也是決定的因素之一。. 參、參數估計試題反應模式中，影響答對機率的重要參數，分別為受試者能力參數與試題參數，因此需要從已知的作答反應，估計未知的參數。藉由著試題局部獨立的假設，在二元計分的試題中，得知受試者反應組型的聯合機率 (joint probability) ，可以視為個別試題反應機率的連乘積，反應的情形只有 0 與 1 (余民寧，1991)： P(U 1 ,U 2 ,...,U n | θ ) = P (U 1 | θ ) P (U 2 | θ )...P (U n | θ ) n. = ∏ P(U i | θ ) U i [1 − P (U i | θ )]1−U i. (5). i =1 n. = ∏ Pi U i Qi1−U i i =1. 其中 Pi 為受試者在試題 i 反應為 1 的機率，亦即答對的機率； Qi 為受試者在試題 i 反應為 0 的機率，亦即答錯的機率，其值為 1 − Pi 。由於公式(5)為概似函數，因此可改寫成： n. L(U 1 ,U 2 ,...,U n | θ ) = ∏ Pi U i Q1i −U i i =1. n. ln L(U | θ ) = ∑ [U i ln Pi + (1 − U i ) ln(1 − Pi )] i =1. (6) (7). 為了方便計算，通常會將公式(6)轉換自然對數型式，利用解函數的微分方式，導出相關參數的值。因為通常需要估計的參數不只一個，因此最大概似估計值無法值接求出，必須求二階導數，再利用牛頓-拉弗森 (Newton- Raphson) 法疊代，透過電腦程式輔助，求出參數的最大概似估計值 (Hambleton & Swaminathan, 1985)。上述的情形，是在已知試題參數的情況下，利用最大概似函數，估計能力參數，若是能力參數已知，試題參數未知，亦可用同樣的方法。當參數估計值無法收斂，例如在反應全對或全錯時，則可採取貝氏估計法 (Bayesian estimation, BE)。當試題參數與能力參數同時未知的情況下，通常採取聯合最大概似估計法. 9.

(22) (joint maximum likelihood estimation, JMLE) (Hambleton & Swaminathan, 1985)，先決定試題參數的初始值，接而估計能力參數，再用所估計出來的能力參數估計試題參數，直到前後估計值的差距小於收斂的標準才結束，否則不斷地重覆步驟。除了聯合最大概似估計法，亦還有邊際最大概似估計法 (marginal maximum likelihood estimation, MMLE) (Bock & Aitkin, 1981)、條件化最大概似估計法 (conditiona l maximum likelihood estimation, CMLE) (Andersen, 1973; Rasch, 1980) 和邊際貝氏估計法. (marginal Bayesian estimation, MBE) (Mislevy, 1986;. Swamithan & Gifford, 1982, 1985, 1986)等方法。. 肆、IRT 的應用及發展隨著電腦技術的進步與軟體的開發，許多有關 IRT 的文獻研究不斷地出現，涵蓋下列各項：(1)心理測驗 (余民寧、謝進昌，2005)；(2)學科能力 (吳毓瑩、吳麗君，2002)；(3)電腦適性測驗 (computer adaptive testing, CAT) (Wainer, 1990; Weiss, 1982, 1985)；(4)其他相關議題，像是試題等化 (equating) (Kolen & Brennan, 2004)、偏差試題的診斷 (DIF) (Swaminathan & Rogers, 1990)等，都是近年來熱門的議題。除了應用在心理計量領域，IRT 亦與其他科學知識結合而應用到其他領域範疇，作為研究與改進測量的工具之一。. 第二節局部獨立性局部獨立性 (local independence, LI) 是指在給定受試者潛在特質或能力下，其試題反應相互獨立，亦即每個受試者在某一題的正確反應的機率，不受其他試題反應所影響。令 θ 為某一受試者的潛在特質或能力， U i 為受試者回答試題 i 的隨機反應 ( i = 1,2 ,..., n )， P(U i | θ ) 則為給定受試者能力 θ 下，在試題 i 反應的機率，此時假設所有試題皆為局部獨立，那麼某一能力為 θ 的受試者，其反應組型的機率，可以寫成個別試題反應機率的連乘積 (Chen & Thissen, 1997; Lord, 1980; Yen, 1993)，公式如下：. 10.

(23) P(U 1 ,U 2 ,...,U n | θ ) = P(U 1 | θ ) P (U 2 | θ )...P(U n | θ ) n. = ∏ P (U i | θ ). (8). i =1. IRT 裡試題局部獨立的假設，主要是為了參數估計的方便性，根據受試者作答的聯合機率，利用最大概似估計法 (maximum likelihood estimate, ML) 進行參數估計，經過多次疊代 (iteration) 後求得各參數的近似值。受試者在一份測驗上的反應，若受到能力值以外的因素所影響，將會發生局部相依性 (local dependenc e, LD) 的情形。為了解決試題局部相依性的情形，大致而言，此方面的研究以下列四個方面為主要問題 (Du, 1998)：(1)造成違反試題局部獨立性的原因；(2)違反試題局部獨立性會造成哪些效果；(3)如何檢測出違反試題局部獨立性；(4)如何處理違反試題局部獨立性所造成的負面效果。有關 IRT 的研究及其應用，違反試題局部獨立性早就是一個熱門的議題，許多研究者亦深入探討 (Chen & Thissen, 1997; Hambleton & Swaminathan, 1985; Hambleton et al., 1991; Rosenbaum, 1988; Sireci, Wainer, & Thissen, 1991; Wainer, 1995; Wainer & Thissen, 1996; Yen, 1984, 1993)。造成違反試題局部獨立性的原因主要分成兩大類：一是考試實施期間的因素；另一個則是試題本身的因素，以下可能會造成試題違反局部獨立性的因素，依照上述的原則分類，(a)~(c) 屬於前者， (d)~(e)屬於後者 (Du, 1998)： (a)速度測驗：假如測驗的實施，有時間上的限制，那麼因為時間不夠而無法完成的試題，則會有高度的相關，而存在著違反試題局部獨立性。 (b)外在的援助或干擾：測驗實施的期間，若受試者受到老師或其他受試者的援助，則會使受試者的表現一致地比期望表現高。相反地，受試者也可能因考場的不良、題材的缺陷，而在試題的表現一致地比期望表現差。皆會造成違反試題局部獨立性。 (c)疲勞：假如受試者在測驗期間感到疲勞，那麼其在試題上的表現將一致地變差。 (d)多向度：假如試題必須具備兩種以上的能力才可以成功的作答，則將會存在違反試題局部獨立性。. 11.

(24) (e)隱含正確答案的跡象：若一試題隱含另一試題正確答案的提示，則此兩試題將存在高度的違反局部獨立性。 (f)連鎖試題：假如一測驗的試題為一系列，也就是說這一連串試題是一步接著一步完成的，那麼將存在違反試題局部獨立性。 (g)題組型試題：由於題組型的試題群是來自共同刺激 (common stimulus)，因此試題存在著高度違反局部獨立性。根據許多研究者的分析與探討，忽略違反試題局部獨立性，將造成兩種主要的負面效果：第一個負面效果是測驗訊息函數的高估及測驗標準誤的低估 (林原宏，2006；Sireci et al., 1991; Thissen, Steinberg & Mooney, 1989; Wainer, 1995; Wainer & Thissen, 1996; Yen, 1984, 1993)。Yen (1993) 指出，假如忽略試題違反局部獨立性，將會造成幾乎 100%訊息函數的高估，想達到測量精準所需的試題數，也因此被低估；第二個負面效果則是參數估計的偏誤，若存在試題局部相依性，平均會有 60%的試題參數會有偏誤。題組 (testlet) 型測驗為造成試題違反局部獨立性的因素之一。 Bradlow, Wainer, and Wang (1999) 提出題組型反應模式，意指一組試題來自共同的刺激，例如閱讀測驗等，他們所建立題組型反應模式為是二參常態肩形模式的延伸，其潛在分數 t ij 為： t ij = a i (θ j − bi − γ jd (i ) ) + ε ij. (9). 其中 ai 為試題 i 的鑑別度， bi 為試題 i 的難度， θ j 為受試者 j 的能力， γ jd (i ) 為受試者 j 與題組 d (i)的題組效果，且試題 i 屬於題組 d (i) 的試題， ε ij 為隨機誤差，因此受試者 j 在試題 i 的反應可以寫成： 1 , if t > 0 yij =  0 , elseij . (10). γ jd (i ) 為受試者 j 與試題 i的題組效果，表示相同題組的試題，對受試者 j 而. 言，其題組效果一樣。而 γ jd ( i ) ~ N ( 0,σ γ2 ) ， σ γ2 就代表題組效果的程度，即違反試題局部獨立的程度。 12.

(25) 許多研究者致力於如何檢測出試題違反局部獨立性的問題，其中以 χ 2、G 2 、 Q3 和 Z d 為最常見的四個指標，以二元計分試題為例：. 表 1 兩二元計分試題之觀察次數列聯表 Item j ' k' = 1 O11. k =1 k=2. Item j. O21. k '= 2. O12 O22. 假設試題 j 與試題 j ' 為二元計分試題，共有四組反應組型如上表 1，令 Okk ' 為受試群在試題 j 與試題 j ' 的反應人數，即為觀察值。因此，受試群人數為 2. 2. N = ∑∑ Okk ' 。令 Pjk (θ ) 為在 IRT 模型下，在試題 j 第 k 類的反應函數，那麼在 k =1 k '=1. 試題 j 與試題 j ' 的類別反應組合之期望個數可以寫成： ∞. Ekk ' = N ∫−∞ Pjk (θ )Pj 'k ' (θ ) g (θ ) dθ. (11). g (θ ) 為母體能力的分配，且 θ ~ N ( 0,1) ，最後可以找出四組期望反應組型， 2. 2. 且 N = ∑ ∑ E kk ' ，如下表 2： k =1 k '=1. 表 2 兩二元計分試題之期望次數列聯表. Item j. Item j ' k' = 1 E11 E 21. k =1 k=2. k '= 2 E12 E 22. Kim, Cohen, and Lin (2005) 所發展的軟體 LDIP，提供二元與多元計分局部獨立性的檢驗指標為 χ 2 、 G 2 、 Q 3 、 Z d ，四種指標其意義如下： (a) 皮爾森檢定量 χ 2 (Pearson Chi-square statistic). (Okk ' Ekk ' ) E kk ' k =1 k ' =1 2. 2. χ2 = ∑ ∑. (12). 此 χ 2 統計量由 Chen and Thissen (1997) 提出，對小樣本而言，當 Okk' 與 Ekk ' 差. 13.

(26) 異越大，其 χ 2 統計量也越大，越容易拒絕需無假設，其試題局部相依程度亦越大。當所有組合的期望次數 E kk' ≥ 5 ，對大樣本而言，其 χ 2 統計量會接近卡方分配。其 χ 2 統計量的自由度為 df = (K -1)2 ， K 為反應類別數之總個數，因此對二元計分試題而言，其自由度 df = 1 ，亦即 p 值為 P( χ 2 > χ df2 ) , 其中 df = 1 。 (b) 概似比 G 2 (likelihood-ration statistic) 2. 2. G 2 = 2∑ ∑ Okk ' log( k =1 k '=1. Okk ' ) Ekk '. (13). 此 G 2 統計量由 Chen and Thissen (1997) 提出，此指標是藉由一對試題的受試者人數，利用期望次數與觀察次數計算出來。當 O kk ' = E kk ' 時，此時 G 2 為最小值 0， G 2 越大越容易拒絕需無假設，違反局部獨立性程度越大，以二元計分試題為例，其自由度 df = 1 ，而 p 值為 P( G 2 > χ df2 ) , 其中 df = 1 。因此可知，檢測局部獨立指標 χ 2 與 G 2 非常相似。 (c) Yen's Q3 (Yen's index of local dependence) Yen (1984) 提出指標 Q 3 ，此統計量代表 IRT 模式裡殘差之間的相關，其功能是用來檢測兩試題間違反局部獨立性的程度。 d ij = y ij − P( yij = 1 | θ ). (14). yij 是指受試者 i 在試題 j 的觀察分數， P( yij = 1 | θ ) 則是指給定受試者 i 能力為. θ 下，其在試題 j 的期望分數，因此 d ij 為受試者 i 在試題 j 之觀察分數與期望分數的殘差，進一步計算統計量 Q3 ，公式如下：. Q3 jj' = r (d ij , d ij ' ). (15). 由此可知，統計量 Q3 jj ' 是指受試者 i 在試題 j 與試題 j ' 的相關。研究者通常以 0.2 作為 Q3 的檢定值 (Chen & Tissen, 1997, p.285) ，當 Q3 > 0 .2 ，則存在違反試題局部獨立性。 (d) 標準化殘差 Z d. 14.

(27) 假設 y jk 為試題 j 類別反應 k 的加權值，而 y j 'k ' 為試題 j ' 類別反應 k ' 的加權值，則試題 j 與試題 j ' 觀察值的皮爾森積差相關為：. K. ro =. K. K. k =1. k '=1. ( ∑ y jk O k + )( ∑ y j 'k ' O+ k ' ). K. ∑∑ y jk y j'k 'Okk ' −. N. k =1 k '=1. (16).    (∑ y jk Ok + ) 2   K ( ∑ y j 'k 'O+ k ' ) 2  K ∑ y 2jk Ok + − k =1   ∑ y 2j 'k ' O+ k ' − k '=1  N N  k =1   k '=1      K. K. K. K. k '=1. k =1. 其中 Ok + = ∑ Okk ' 、 O+ k ' = ∑ Okk ' ，而 N 是總試題數。另外，試題 j 與試題 j ' 期望值的皮爾森積差相關表示為：. K. re =. K. K. K. k =1. k '=1. ( ∑ y jk E k + )( ∑ y j 'k ' E + k ' ). ∑ ∑ y jk y j 'k ' Ekk ' −. N. k =1 k '=1. (17). K   2  ( y E ) ( ∑ jk k +   K ∑ y j 'k ' E+ k ' ) 2  K ∑ y 2jk E k + − k =1   ∑ y 2j'k ' E + k ' − k '=1  N N  k =1   k '=1      K. K. K. k '=1. k =1. 其中 Ek + = ∑ E kk ' ，且 E+ k ' = ∑ E kk ' 。以二元計分試題為例，假如 y j1 = 0 、 y j 2 = 1、 y j'1 = 0 和 y j '2 = 1，那 ro 與 re 為： O22 −. ro = (O 2 +. O2 O2 − 2 + )(O+2 − +2 ) N N E 22 −. re = ( E 2+. O2 + O+2 N. E2 + E +2 N. E2 E2 − 2 + )(E + 2 − +2 ) N N. (18). (19). 因此， ro 與 re 的相關係數經過標準化 (Fisher-transformed) 轉換後為標準化殘. 15.

(28) 差 Zd ： Zd =. 1 1 + ro 1 1 + re r  N − 3  log( ) −  log( ) + e  1 − ro 1 + re N − 1  2 2. (20). Z d 服從標準常態分配，當 Z d 越大，其違反試題局部獨立性愈高。. 許多研究皆針對試題局部相依性提出了對策，以避免其所帶來的負面效果 (Hambleton & Swaminathan, 1985; Sireci et al., 1991; Thissen et al., 1989; Yen, 1984, 1993) ，一般來說，對策分成兩種類型：一是事先的對策；另一個則是事後的對策。第一種對策通常使用在測驗實施的之前，像是速度測驗、額外的援助或干擾，或是疲勞所造成的局部相依。因此，如果測驗有辦法在適當的情形之下實施，受試者的表現應該不容易受測量能力以外的因素所影響，為了達到此目標，測驗的實施必須在非速度的情況下、不能有額外的援助或干擾，且測驗的時間和長度設計，必須不讓受試者感到疲勞。標準的測驗實施可以藉由調整施測時的情形，而減少試題局部相依性的產生。但是，假如試題違反局部獨立性是來自試題本身，那麼藉由著改善施測的情形，並無法有效解決試題違反局部獨立性的問題。因此，另一個處理違反試題局部獨立性的重要對策，即試題本身的設計。換言之，若有一試題提供了另一試題正確答案的線索，那這兩試題就不應該同時存在於同一測驗裡。但對於現實情況而言，事先的對策並不一定是最好的方法，為了反應出受試者最佳的能力，測驗的結構可能包含數個相關的試題，而存在違反試題局部獨立性。第二種對策通常使用在測驗實施的之後，最大的優點是此對策對於測驗設計有較小的影響，其中有兩種方法被提出，此兩種方法都趨向於處理題組型測驗的局部相依性。第一種方法由 Thissen et al. (1989) 提出，其方法是將題組型測驗視為一題試題，利用多點計分的方式，有效地避免違反試題局部獨立性的假設，但此方法有兩項主要的缺失：一是當各試題鑑別度不相等時，會遺失重要的測驗訊息，包括正確及錯誤的反應組型；另一個則是在電腦化適性測驗中 (computer. 16.

(29) adaptive testing, ACT)，在完成一題組的所有試題之前，受試者在任何試題的反應，都無法提供受試者能力程度之任何訊息，亦即受試者在一題組第一題的反應，無法作為下一試題的選擇條件，因此對於電腦化適性測驗存在困難度。第二種方法由 Bradlow et al. (1999) 提出，明確地將題組效果，亦即試題違反局部獨立的程度計算於一般題組模式內，且將有下列三種優點：(1)題組內各試題反應組型，其訊息得以保留；(2)在電腦化適性測驗中，受試者於題組內第一題的反應，得以作為下一題的選擇條件；(3)題組效果的程度，可藉由題組反應模式估計出來。因此，題組反應模式不但可以於施測之後，處理試題違反局部獨立性的問題，亦可檢測題效果及對施測的過程提供幫助。近年有許多跟違反試題局部獨立的相關研究，例如偵測違反試題局部的指標 (Chen & Thissen, 1997; Lee, 2004)、與處理違反試題局部獨立的對策 (Bradlow, Wainer, & Wang, 2002; Yen, 1993)等，可看出許多研究者對於違反試題局部獨立的重視。. 第三節階層線性模式階層線性模式 (hierarchical linear model, HLM) ，亦可稱為多層次模式 (multilevel model)，主要是用來分析具有群集 (cluster) 關係或巢套 (nested) 結構的資料。教育心理研究領域中，許多研究的資料亦具有階層關係，例如：學生、班級和學校 (林原宏，1997a)、一般型測驗與題組型測驗資料 (Jiao, Wang, & Kamata, 2005)。若以一般線性迴歸 (regression) 進行分析，則會忽略群集或巢套間的關係變項。迴歸分析中，忽略重要的解釋變項，將導致所估計的誤差項變異數會高估，且所估計的迴歸係數的標準誤低估，而得到需無假設容易被拒絕的檢定結果 (Hox, 2002; Kreft & de Leeuw, 1998; Raudenbush & Bryk, 2002)，因此可以利用階層線性模式，解決上述的問題 (林原宏，1997b；溫福星，2007；Ringdal, 1992)。由於本研究中將利用二階層線性模式進行分析，因此本文將以二階層線性. 17.

(30) 模式為例，說明其模式的理論與基礎。. 壹、基礎理論學生 1 ：. 班級 1. 學生 N1 . . . . .. . . . . .. 學生 1 ：. 班級 J. 學生 N J. 層次一. 圖4. 層次二. 學生與班級間之階層結構圖. 假設有 J 個班級 ( j = 1, 2,..., J )，每個班級有 I 個學生 ( i = 1,2,..., N J )，學生層次內屬於班級層次，因此階層結構圖如圖 4：以學生當作第一層次，班級當作第二層次，因此二階層線性模式的方程式為：. Yij = β 0 j + β1 j X ij + e ij. (21). 公式(21)為層次一模式， Yij 為層次一的依變項 (例如：學生的數學成就)， X ij 為層次一的自變項 (例如：學生的數學成績)， β0 j 與 β1 j 分別為層次一的截距與斜率， eij 為層次一的隨機誤差。. β 0 j = γ 00 + γ 01W j + u 0 j. (22). β1 j = γ 10 + γ 11W j + u1 j. (23). 18.

(31) 公式(22)與(23)為層次二模式，W j 為第二層次的自變項 (例如：國家的 GDP)。γ 00、 γ 01 、 γ 10 與 γ 11 為層次二的固定效果 (fixed effect)， u 0 j 與 u1 j 為層次二的隨機效果. (random effect)。將公式(22)與公式(23)帶入公式(21)，可得公式(24)，且方程式必須滿足下列所有假設 (Raudenbush & Bryk, 2002)： Yij = γ 00 + γ 10 X ij + γ 01W j + γ 11 X ijW j + u 0 j + u1 j + eij. (24). E (γ ij ) = 0. (25). Var ( rij ) = σ 2. (26). u 0 j  0 0 E  =    u1 j  0 0. (27). u 0 j  Var  =  u1 j . τ 00 τ 01  τ   10 τ 11 . Cov (u 0 j , eij ) = Cov (u1 j , eij ) = 0. (28) (29). 其中 σ 2 為層次一誤差的變異數， τ 00 、 τ 01 、τ 10 和 τ 11 為層次二隨機效果的變異數。當層次一含有自變項時，在層次二模式中，研究者通常只保留一項隨機效果 u0 j ，因此會將層次二的斜率項的隨機效果 µ1 j 移除，有助於誤差減少。. 貳、參數估計階層線性模式可以說是複雜的迴歸模式，因此其估計的方法與一般的迴歸模式相同，但迴歸模式只有一層結構，而階層線性模式為兩層以上，所以誤差項的變異數即為差別所在。因此，隨著模式的不同，對誤差項變異數的假設亦不同 (Singer, 1998)。如同一般迴歸模式的估計方法，可採用一般最小平方估計法 (ordinary least squares method, OLS)、加權最小平方估計法 (weighted least squares method, WLS)，或是一般化最小平方估計法 (generalized least squares method, GLS)，此外亦可使用最大概似估計法 (maximum likelihood estimation, ML) (溫福星，2007)。. 參、階層線性模式的應用與發展. 19.

(32) 一般迴歸分析的依變項為連續變項，因此需要利用線性轉換的方式，使得模式能夠分析依變項不是連續變項的資料，此模式稱為廣義線性模式 (generalized linear model, GLM)。階層線性模式亦受限於當依變項不是連續變項則無法估計，而有廣義階層線性模式 (hierarchical generalized linear model, HGLM) (Breslow & Clayton, 1993)，因此使得階層線性模式應用的層面更為廣泛。由於目前已有軟體可幫助研究者使用階層線性模式分析資料，因此近年來有不少的研究都以階層線性模式作為研究的主題 (劉子鍵、林原宏，1997；Beretvas & Williams, 2004; Miller & Murdock, 2007; Singer, 1998)。階層線性模式除了用來分析巢套結構的資料，有許多相關的熱門議題，亦不斷地在探討，例如：多層次試題反應理論 (Beretvas & Kamata, 2005)、縱貫面 (longitudinal) 資料分析 (吳璧如，2005；葛湘瑋，2004)、階層線性模式解決 DIF 的研究 (Beretvas & Williams, 2006; Chu & Kamata, 2005)等。. 第四節多層次試題反應理論近年來許多研究皆在探討廣義線性模式 (generalized linear model, GLM) 與 Rasch 家族模式之間的相似性 (Adams & Wilson, 1996; Adams, Wilson, & Wu, 1997; Cheong & Raudenbush, 2000; Fischer, 1995; Kamata, 2001)，這類一般線性混合模式通稱為多層次測量模式 (multilevel measurement models, MMMs) (Beretvas & Kamata, 2005)，而有關這類模式用於試題分析的理論，則稱為多層次試題反應理論 (multilevel item response theory)。多層次試題反應理論的概念，源自於某一位受試者在每個試題的作答反應內屬於此受試者，若將所有受試者的作答情形以結構圖畫出 (如圖 5)，即可發現試題與受試者間存在著階層關係，因此將階層的概念導入 IRT，進而發展成多層次試題反應理論。. 20.

(33) 試題 1. 學生 1. 試題 2. 學生 2. ：：. ：：. 試題 i. 學生 j. 層次一. 層次二. 圖5. 試題與受試者間之階層結構圖. Kamata (1998) 提出階層線性模式與單參數邏輯斯模式的銜接，以廣義階層線性模式 (hierarchical generalized linear model, HGLM) 來詮釋單參數對數模式的試題反應模式，此稱為廣義階層線性邏輯斯模式 (hierarchical generalized linear logistic model, HGLLM)。Kamata (1998) 指出，1-P HGLLM 在代數上的意義，等價於 Rasch 模式，適用於試題反應的分析，介紹如下。. 壹、基礎理論 1-P HGLLM 為廣義線性模式(generalized linear model, GLM)的架構，試題為二元計分時，利用連結函數(linking function) logistict 作連結。跟 Rasch 模式的概念相同，答對機率的勝算比 Log-odds 與受試者的能力及試題的參數有很大的關係，因此把公式寫成：.  p log  ij 1 − pij.   = η ij = θ j − δ i  = β 0 j + β1 j X 1ij + ... + β (k −1) j X (k −1)ij k −1. = β 0 j + ∑ β qj X qij q =1. 21. (30).

(34) 多層次試題反應理論中，層次一的結構模式屬於試題層面，層次二屬於受試者層面。 pij 為受試者 j 回答第 i 題的答對機率。 X qij 為受試者 j 的第 q 個虛擬變數，當 i = q 時， X qij = 1 ，反之為 0。係數 β 0 j 為截距項，代表測驗的整體效果，而 β qj 為虛擬變數 X qij 的係數， q = 1,⋅ ⋅ ⋅, k − 1，代表試題的各別效果。因此，可將公式簡化為：.  pij  log   = η ij = β 0 j − β qj 1 − pij . (31). 經由運算，可得受試者 j 回答第 i 題的答對機率 p ij 為：. p ij =. 1 1 + exp( −η ij ). (32). 由於試題效果無論在哪一位受試者之下都應該為固定常數，但公式 (30)層次一模式並未假設所有的試題效果皆為一固定常數，因此建立層次二模式，以描述此種特性：.  β0 j   β1 j   β  (k −1) j. = γ 00 + u 0 j = γ 10. u 0 j ~ N (0,τ ). M = γ (k −1)0. (33). u 0 j 為 β 0 j 的隨機效果，但 β1 j 到 β ( k −1) j 皆沒有隨機效果項，這是因為試題的效果對應任何一位受試者都應該相同，亦即試題參數相同，因此結合了公式(30) 與公式(33)，並經由計算，將受試者 j 回答第 i 題的答對機率 p ij 寫成：. p qj =. 1 + exp{ −[ u0 j. 1 , − (−γ 00 − γ q0 )]}. q = 1,⋅ ⋅ ⋅, k − 1. (34). 當 i = q 時，此模式在代數上的意義等同於 Rasch 模式，因此試題難度參數. δ i = −γ 00 − γ q 0 ，受試者能力參數 θ j = u 0 j 。. 貳、參數估計多層次測量模型 (multilevel measurement model) 的參數估計，會依照不同軟. 22.

(35) 體的使用，而選擇不同的估計法，例如 Roberts and Herrington (2005) 曾利用不同軟體，分析其估計結果的不同，而本研究則利用 HLM6.03 軟體，配合受限最大概似估計法 (restricted maximum likelihood estimation, REML) 進行參數估計。在有限樣本中，使用最大概似估計時 (maximum likelihood estimation, ML)，其誤差項變異數的估計值並非母體參數的不偏估計值，因此變異數的估計值具有偏誤 (bias)，這是由於忽略資料一部份的訊息被用來估計參數，因此 REML 估計法除了用來估計固定效果的參數外，還針對隨機效果的變異成份係數作估計 (溫福星，2007)。. 參、多層次試題反應理論的應用隨著軟體不斷地更新，方便研究者進行參數估計，使得多層次試題反應理論的模式有助於研究者分析兩個不同層次變項之間的關係 (Fox & Glas, 2001, 2003)，許多關於多層次試題反應理論的研究持續地進行著 (Fox, 2004; Hung & Wang, 2005; van den Noortgate, De Boeck, & Meulders, 2003; Wang & Liu, 2007)。亦有研究者使用多層次試題反應模型解決 IRT 研究中常見的問題，像是(1)題組型測驗 (testlet)：利用多層次試題反應理論，將題組型測驗視為三個層次，包含層次一的試題層面、層次二的題組層面與層次三的受試者層面，使模式考慮到題組效果，以解決違反局部獨立性的問題 (Jiao et al., 2005) ； (2) 多向度測驗 (multidimensional test)：在多層次試題反應模式中，層次一的截距項可利用虛擬變數，將層次一公式化成可分析多向度的模式 (Kamata, 1998)；(3)偏差試題診斷 (DIF)：在多層次試題反應理論中，將試題偏差的因素考慮到含有偏差試題的試題裡，當作階二的預測變項以解決試題偏差的問題 (Chu & Kamata, 2005; Kamata, 1998)。. 23.

(36) 24.

(37) 第三章研究設計與方法根據研究目的與文獻探討，本章共分為四節，敘述本研究之研究方法與模擬流程。各節所要探討的主題分別為：研究架構、研究工具、模擬流程，以及資料分析。分別說明如下：. 第一節研究架構依據研究動機與目的，當測驗存在違反試題局部獨立性假設時，若忽略其局部相依性而進行參數估計，將使得參數估計產生偏誤 (Chen & Thissen, 1997; Du, 1998; Yen, 1984, 1993)。因此，本研究針對 Rasch 模式與 1-P HGLLM ，探討測驗存在違反試題局部獨立性的情況下，所影響參數的估計效果為何。研究者先確定可能影響研究結果的模擬因子，包含試題數、樣本數與違反試題局部獨立程度，以電腦模擬的方式，設定測驗的題組數為兩個題組，根據 Bradlow et al. (1999) 提出的題組反應模式產生模擬資料，接著利用 BILOG-MG 估計試題參數與能力參數，其次將每個模擬情境中的前 10 筆資料，以 LDIP 提供二元計分之四種指標檢測資料是否存在違反試題局部獨立性，當作產生模擬資料的工具效度之檢驗，等待確定完資料讀違反局部獨立程度情形，再利用 HLM6.03 程式對所有資料進行參數估計，最後在上述各種模擬因子組合的情形下，比較兩軟體在試題與能力參數的估計精準度。完整研究架構如圖 6 所示。. 25.

(38) 文獻蒐集及評閱. 多層次試題反應理論. 階層線性模型. 試題反應理論. 局部獨立性. 確定可能影響研究結果的模擬因子，根據下列三種模擬因子的組合，在單參題組反應模式下，產生不同的組合模擬資料： 1. 樣本數 (100，300，900) 人 2. 試題數 (20，40，80) 題 3. 違反試題局部獨立性程度 σ γ 2 = (σ γ2 ,σ γ2 )，其 (σ γ2 ,σ γ2 ) 值 1. 2. 1. 2. 為(0,0)，(0,2)，(0,8)，(2,2)，(2,8)五種. 利用 BILOG-MG 的單參數邏輯斯模式，在各模擬因子組合之下，估計試題參數與能力參數。. 利用 LDIP 所提供的二元計分檢測試題局部相依性之 4 種指標 ( χ 2 ， G 2 ， Q3 ， Z d )，檢測在不同模擬組合情境中的前 10 筆資料集，其試題局部獨立性的違反情形. 資料整理分析與探討. 結論與建議圖6. 研究架構圖. 26. 利用 HLM6.03 程式的二階層線性模式，在各模擬因子組合之下，估計試題參數與能力參數。.

(39) 第二節研究工具本研究的主要研究工具為產生模擬資料和參數估計的統計軟體，以及相關程式使方便進行研究，說明如下： 1. 統計軟體 SAS 研究者利用 SAS 程式所提供 SAS/IML，根據各模擬因子的組合，利用題組反應模式產生模擬資料。 2. LDIP LDIP 程式由 Kim et al. (2005) 所發展，內含 4 個指標，其主要目的是用來檢測二元或多元計分試題有無違反試題局部獨立性。 3. HLM6.03 HLM6.03 程式由 Raudenbush, Bryk, and Congdon (2004) 所發展。研究者以 HLM6.03 的二階層線性模式，配合 REML 估計法，估計試題參數與能力參數。 4. BILOG-MG BILOG-MG 由 Zimowski, Murak i, and Bock (1996) 所發展。研究者以 BILOG-MG 的單參數邏輯斯模式，配合 ML 估計法，估計試題參數與能力參數。. 第三節模擬流程本研究利用模擬的方式，探討當測驗存在違反試題局部獨立性時，影響 BILOG-MG 與 HLM6.03 的估計效果為何，依圖 7 模擬流程進行研究，分別說明如下：. 27.

(40) 決定影響參數估計精準度的因子，包括樣本數、試題數，以及違反試題局部獨立性程度. 確認模擬參數 ( θ 、 β 、 γ 、 ε )，利用 SAS/IML，在單參題組反應模式下，產生兩個題組的模擬資料. 利用 BILOG-MG 估計模擬資料的試題參數與能力參數。. 利用 LDIP 所提供的二元計分檢測試題局部相依性之 4 種指標 ( χ 2 ， G 2 ， Q3 ， Z d )，. 利用 HLM6.03 程式估計模擬資料的試題參數與能力參數。. 檢測在不同模擬組合情境中的前 10 筆資料集，其試題局部獨立性的違反情形. 綜合結果並比較分析兩軟體在試題參數與能力參數的估計精準度. 圖 7 模擬流程圖. 壹、決定模擬因子本研究有三種因子，包括試題數 (20，40，80) 題、樣本數 (100，300，900) 人，以及違反試題局部獨立性程度 σ γ 2 = (σ γ2 , σ γ2 ) ，而 (σ γ2 , σ γ2 ) 的值分別為(0,0)， 1. 28. 2. 1. 2.

(41) (0,2)，(0,8)，(2,2)，(2,8)，共可產生 3×3×5=45 種模擬情境。由於本研究是利用題組反應模式產生資料，進行初探性研究，將每份測驗設定為兩個題組的測驗，且兩個題組的試題數相等，每個題組分別包含 10、20、40 題，這跟現實一般題組型的測驗比較，似乎有點不符，這是由於本研究主要是在進行研究的延伸，重點並不在於實証的研究。每份測驗含有兩個違反試題局部獨立程度的值，分別以 σ γ = (σ γ2 , σ γ2 ) 代表 2. 1. 2. 測驗違反試題局部獨立性的程度，其中 σ γ2 代表第一個題組違反局部獨立的程 1. 度，而 σ γ2 代表第二個題組違反局部獨立的程度。在本研究中，所設定違反試題 2. 局部獨立程度有 0、2、8，若違反局部獨立程度為 0 時，表示題組內的試題相互獨立，亦即可視為個別試題。. 貳、利用 SAS/IML 產生模擬資料在 Kamata (1998) 的研究中，探討複製次數對估計結果的影響，Kamata 指出當複製次數為 50 次時，其估計效果將趨於穩定，且跟複製次數 100 次沒有太大的差異。因此在本研究中，研究者設定複製次數 g 為 50 次，亦即在每個模擬因子組合的項度下，皆產生 50 筆模擬資料。根據 Bradlow et al. (1999) 提出的題組型隨機效果模式，研究者利用統計軟體 SAS 所提供的 IML，在不同模擬因子組合的情境下，產生模擬資料。確認所需的模擬參數 a i = 1 ； θ j ~ N ( 0,1) ( j = 1,2,..., J )，隨機產生受試者的真實能力值；令 β i ~ N ( 0,1) ( i = 1,2,..., I )，分別對 20 題、40 題和 80 題模擬產生各試題的難度值. 如表 3；利用 ε ij ~ N (0,1) ( j = 1,2,..., J ， i = 1,2,..., I )，隨機產生隨機效果值；利用. γ jd ( i ) ~ ( 0,σ γ 2 ) ，隨機產生題組效果的值，亦即違反試題局部獨立的程度，由於本研究設定的題組數為兩個題組，因此在違反試題局部獨立程度的各水準下 σ γ. 2. 應該包含兩個值，代表各題組所違反試題局部獨立的程度，因此 σγ2 =. (σ γ21 ,σ γ22 ) ，而 (σ γ21 , σ γ22 ) 的值分別為(0,0)，(0,2)，(0,8)，(2,2)，(2,8)，最後即可模. 29.

(42) 擬潛在分數 t ij ，公式如下：. tij = θ j − β i − γ jd (i ) + ε ij. (35). d (i) = 1, 2 ( i = 1,2,..., I )， d (i) = 1代表第 i 個試題屬於第一個題組內之試題，若 d (i) = 2 代表第 i 個試題屬於第二個題組內之試題，例如 d (2) = 1 代表第 2 試題為第一個題組內之試題。產生 t ij 後，若 t ij > 0 則令受試者 j 在試題 i 有正確的作答反應，反之則答錯該試題，即可模擬出作答反應。 1 , if t > 0 yij =  0 , elseij . 20 題 1.42 -.28 -1.20 -.17 -1.27 .15 -.71 -1.06 -.79 .59 .44 -1.17 .48 -.57 -.04 -1.09 .62 -.83 1.70 -.19. 表 3 模擬試題之難度值 40 題 80 題 1.32 .03 -.29 .20 .80 -.19 -1.67 .52 -.34 -.65 -.36 .18 -.08 .59 -1.40 -.46 -1.71 1.15 -.35 .74 .55 -.26 -.07 1.35 .21 .19 .43 -.77 1.90 1.31 -.39 .77 -.20 .50 -.08 -.79 -.61 1.21 -.43 .07 1.04 1.15 .97 -.13 -.40 .58 -.85 .27 .09 -.09 .28 -.31 .96 -.24 .76 -1.50 .99 -.77 1.61 -.50 .41 -.78 1.90 .12 -.20 -.42 -.32 -.51 -.76 1.63 -.77 -.46 -.15 -1.14 -.36 -1.10 -1.61 -.78 .63 1.28. -.77 1.72 .02 -1.16 .74 -.97 -.08 .12 .44 -1.44 1.31 .12 -1.63 .37 .85 .02 .47 -.53 1.27 -1.31. -.28 .50 .15 1.42 -.82 .70 -.15 -.98 1.26 -1.13 -.40 .11 -.50 -.04 -1.10 -.34 .94 -1.03 .97 -.26. 待模擬產生試題能度參數後，計算各水準的難度平均數，20 題為-0.1985、40 題為 0.1308、80 題為-0.04013，平均數皆接近 0。. 30.

(43) 參、利用 BILOG-MG 估計參數由於 LDIP 必須讀取 BILOG-MG 所估計的參數，才能檢測試題是否存在違反試題局部獨立性，因此研究者於產生模擬資料後，先利用 BILOG-MG 的單參數邏輯斯模式，使用 ML 估計法，進行試題參數與能力參數的估計。. 肆、利用 LDIP 檢測試題為了確定模擬資料是否存在違反試題局部獨立性，研究者於產生模擬資料後，先使用 BILOG-MG 估計試題參數與能力參數，再利用 LDIP 讀取 BILOG-MG 所輸出的資料，根據 LDIP 的二元計分所提供之四項指標 ( χ 2 ， G 2 ， Q3 ， Z d )，檢測每個模擬情境下的前 10 筆資料集，是否符合模擬時所設定的違反局部獨立性。. 伍、利用階層線性模式估計參數由於本研究主要探討不同違反試題局部獨立程度的情形下，影響 BILOG-MG 與 HLM6.03 的估計效果為何，因此利用階層線性模式估計參數，其基礎理論與實施方法介紹如下： (1)基礎理論 Kamata (1998) 提出階層線性模式與單參數邏輯斯模式的結合，稱為廣義階層單參線性對數模式 (one-parameter hierarchical generalized linear logistic model, 1-P HGLLM) ，並指出其模式等價於 Rasch 模式。本研究將採用 1-P HGLLM 分析資料，並與 Rasch 模式比較估計效果與精準度。 1-P HGLLM 中，將資料分為試題與受試者兩個層次 (Beretvas & Kamata, 2005)。多層次試題反應理論中，第一個層次為試題層面，第二個層次為受試者層面，藉由受試者 j 回答第 i 題的 Log-odds 進行設定。模式如下： k −1  p ij  log   = η ij = β 0 j + ∑ β qj X qij q =1 1 − pij . pij 為受試者 j 回答第 i 題的答對機率。 X qij 為受試者 j 的第 q 個虛擬變數，當. 31.

(44) i = q 時， X qij = 1，反之為 0。係數 β0 j 為截距項，代表測驗的整體效果，而 β qj 為. 虛擬變數 X qij 的係數， q = 1,⋅ ⋅ ⋅, k − 1，代表試題的各別效果。因此可將公式(30)簡化成：.  pij  log   = η ij = β 0 j − β qj 1 − pij . (37). 由於試題效果無論在哪一位受試者之下都應該為固定常數，但公式(37)層次一模式並未假設所有的試題效果皆為一固定常數，因此建立層次二模式，以描述此種特性：. β 0 j = γ 00 + u 0 j , u 0 j ~ ( 0,σ u 2 ) β qj = γ q 0 , q = 1,⋅ ⋅ ⋅, k − 1 第一層次的截距項 β 0 j ，在第二層次裡被分解為 γ 00 和 u 0 j 。其中 γ 00 為固定效果，代表全體受試者的平均效果， u 0 j 為隨機效果，代表受試者與全體受試者平均的差距，亦即受試者的能力。因此 u0 j ~ (0, σ u 2 ) ， σ u 2 代表受試者能力分配的變異數。在 1-P HGLLM 中，其受試者 j 在試題 q 的正確反應機率為：. p qj =. 1 + exp{−[u 0 j. 1 , − (−γ 00 − γ q 0 )]}. q = 1,⋅ ⋅ ⋅, k − 1. 與 Rasch 模式對照，可發現，第 q 題難度為 − γ 00 − γ q 0 ，受試者 j 的能力值為 u 0 j ，因此可利用二階層線性模式，找出試題參數與能力參數。 (2)實施方法本研究目的是就 BILOG-MG 與 HLM 軟體之參數估計方面進行比較，研究者以 HLM6.03 軟體，利用 1-P HGLLM，配合 REML 估計法，據以估計試題參數與能力參數。. 陸、綜合結果及比較分析在各個模擬因子組合項度下，用指標呈現兩模式的模擬結果，並以折線圖比. 32.

(45) 較兩模式的估計精準度。. 第四節資料分析根據研究目的，本研究主要探討在不同模擬因子組合的項度下，分別利用 Rasch 模式與 1-P HGLLM 估計試題參數與能力參數，並比較其估計精準度。首先研究者將所有的估計能力參數先做標準化，再將所有估計試題參數標準化至能力參數的量尺上，此時標準化所採用的平均數與標準差，為能力參數的平均數與標準差。為了呈現兩個軟體的估計效果，研究者必須計算估計軟體的復原適配度 (goodness-of-recovery, GOR) (Maris, 1999)。本研究依據文獻，就能力參數，採用估計值的 RMSE (root mean square error) 和 MAD (mean absolute difference)，其公式如下： g. ∑ (θˆ. RMSE (θ j ) =. lj. l =1. g g. MAD(θ j ) =. − θ j )2. ∑ θˆ l =1. lj. −θ j. g. ， j = 1,2,..., J ， l = 1,2,..., g. ， j = 1,2,..., J ， l = 1,2,..., g. (38). (39). 試題參數方面，採用估計值的 RMSE、BIAS (估計參數平均值與真實值之差異) 和 MCSE (monte carlo standard error)，其公式如下： g. ∑ (βˆ. RMSE ( β i ) =. li. l =1. − β i )2 ， i = 1,2,..., I ， l = 1,2,..., g. g. (40). g. BIAS ( β i ) =. ∑ βˆli. l =1. g. − β i ， i = 1,2,..., I ， l = 1,2,..., g. g. MCSE ( β i ) =. ∑ ( βˆli − βˆi ). l =1. g. (41). 2. ， i = 1,2,..., I ， l = 1,2,..., g. 33. (42).

(46) 本研究中，研究者設定複製次數 g 為 50 次， l 則代表第 l 次複製。RMSE 為參數估計的標準誤，其值越小估計越精準。MAD 是為了估計時的高估與低估產生抵消作用，而當作估計精準度的指標之一。BIAS 代表估計參數平均值與真實值之差異。MCSE 代表估計的一致性，其值越小估計越穩定。因此本研究將採用上述指標，分別針對 Rasch 模式與 1-P HGLLM，比較兩軟體的估計效果。. 34.