• 沒有找到結果。

階層線性模式與Rasch模式在題組效果下之參數估計模擬比較

N/A
N/A
Protected

Academic year: 2021

Share "階層線性模式與Rasch模式在題組效果下之參數估計模擬比較"

Copied!
91
0
0

加載中.... (立即查看全文)

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授:林原宏. 博士. 階層線性模式與 Rasch 模式 在題組效果下之參數估計模擬比較. 研究生:黃馨瑩. 中. 華. 民. 國. 九. 撰. 十. 七. 年.

(2)

(3) 謝辭 當口試委員恭喜我通過口試,我才突然意識到,要離開這間栽培我六年的學 校了。儘管日子充滿喜怒哀樂,生活由高潮跌起所堆砌,但在包裹回憶的過程, 酸甜苦澀又回甘的美好,卻也是因為你們而存在。 是阿!因為你們,風景才變得不只是風景… 這兩年來,最感謝的莫過於指導教授林原宏老師,感謝老師以原則、魄力和 親和力,用「生命」焠煉我們這群「學術新鮮人」 ,在老師的鞭策和「終身保固」 下,我們在不同方向找到了出口,更感謝老師做人處事的態度,讓我們學習課業 外,也精進人格修養。也謝謝像媽媽的謝闓如老師,總是用篤定的眼神,鼓勵我 一定可以做好。在兩年修課中,謝謝許天維老師、楊志堅老師、施淑娟老師、易 正明老師與劉好老師,用豐富的課程或關心,灌溉我的研究生涯。謝謝所上提供 的協助,有慶麟助教與省華助教的處理,讓我們更順利。而在碩士生涯的尾聲, 感謝千里迢迢、不辭辛勞前來口試的林邦傑教授、余民寧教授,謝謝兩位教授寶 貴的指導,為我的口試畫下圓滿的句點,我由衷感謝師長們的教誨諄諄。 接著,要謝謝可愛有趣的研究夥伴。室友孟巧讓寢室充滿才女氣息,也是我 半夜聊天的好對象;課業夥伴世諭照顧我的伙食,在我拔智齒後用雞腿刺激我, 激勵我口腔細胞恢復力;率直的雨潔分享笑話,提醒我早點回宿舍;團長曜瀚、 帥哥文俊、班代少祖,用食物喚醒我的戰鬥力;真的很慢的豐銘,熱心助人給大 家溫暖;電腦高手書豪、鈞翔,為我們解決許多「不能說的秘密」;超級模範生 敏彥學長,以無比的熱忱凝聚大家,也是我學習的「超級楷模」;新郎倌勝凱學 長,提供好吃的巧克力,也教我社會的現實面;玉貞、杏芬與惠芳學姐,氣質又 不失威嚴,讓我知道女老師怎麼帶領一個班;很阿沙力的丞凱、文宗學長,給大 家不一樣的感受;白馬王子士信學長,為大家增添許多意外的驚喜 (驚嚇?);可 愛知性的宛婷、婉星與筱倩,總是笑臉迎人;菩薩心腸的淑汶學姐,熱情和我經.

(4) 驗分享及提供「震撼教育」,促使我更加成長;也謝謝建儒、育隆、堅誌、良庭 學長與欣怡學姐,對我的照顧與指教。這兩年,真的非常感謝大家的鼓勵和幫忙, 也謝謝學弟妹們增添歡笑。 再來,要感謝遠在各地,卻不忘給我溫暖的家人好友。謝謝媽咪包容我不常 回家,提醒我大樂透累積 13 億;哥哥賢能總支持我做任何事;愛吃社美女群: 小邱、君姐、女王、貢丸與魚丸,這些一輩子的好朋友,無論在覓食還是課業上, 每每給我打氣和扶持;帥氣聿胖胖以食物誘惑我回台北,成為我考試的動力之 一;中國醫小邱、占星大哥扮演著啟發者的角色,提醒我要堅持夢想;老哥君儼 的關心和分享,讓我上了一課;澤邦、恆晢學長、清棋大哥的打氣和說話方式, 讓我在疲憊時想起你們都開懷大笑;超級好朋友曜遠的愛護與幫忙,陪我南征發 表與聽講,讓我歡喜讓我憂;也謝謝魚兒和小盆栽,因為要換水、澆水,督促我 天天早起到研究室。 另外,在告別碩士生涯的前夕,我歷經了最混亂的兩個月,謝謝素昧平生的 學長姐,分享準備考試的心得,也謝謝交大、政大和師大的教授,不吝給我批評 與指導,讓我清楚自己不足之處,警惕自己要不斷努力,更謝謝指導教授協助我 試後檢討,提醒我每場仗都要沉穩放鬆。 要感謝的人、事、物真的很多,非言語可以道盡我深切的感謝,容我深深的 一鞠躬,感恩台中城的一切,在這個平凡的城市,我遇見了不平凡的你們,因為 你們的愛,讓我充滿元氣,嘴角不自覺上揚,感激這份幸運,讓我與你們相遇。 謝謝我最親愛的父母與最敬愛的林原宏老師,以及一雙雙給我溫暖的手,如 果我有成長,這都是你們的功勞,也是你們的成就,這全要獻給你們。 我也會在一點點天真與堅持中,繼續勇敢下去。 我愛你們。 馨瑩 台中城 蟬鳴 6 月.

(5) 摘要 題組試題為考試常見的題型,其使考試更有效率,卻往往違反局部獨立性假 設。而有部分試題反應理論的使用者,可能侷限於題組反應模式軟體的不足,仍 沿用試題反應理論來處理具有題組現象的資料,而忽略題組產生的效果。故本研 究探討階層線性模式觀點的 1-P HGLLM,與試題反應理論觀點的 Rasch 模式,在 忽略題組試題的題組效果下,比較其試題難度與能力值的估計表現。 研究者以試題數、樣本數、題組效果程度為因子,進行模擬研究。1-P HGLLM 以 SAS 軟體進行參數估計,Rasch 模式則以 BILOG 軟體進行參數估計,兩個軟 體皆選用 MLE 估計法,重複次數為 50 次,進而分析兩個模式在各因子水準的參 數估計情形,其結果臚列如下: 一、1-P HGLLM 和 Rasch 模式在估計試題難度的精準度上,樣本數越多估計越 好,題組效果越大估計越不精準。 二、1-P HGLLM 和 Rasch 模式在估計能力值的精準度上,試題數越多估計越好, 題組效果越大估計越不精準。 三、有題組效果時,1-P HGLLM 估計的略較 Rasch 模式精準。 四、題數較多的情況下,1-P HGLLM 估計的略較 Rasch 模式精準。 五、1-P HGLLM 的穩健度略較 Rasch 模式好。. 關鍵字:多層次試題反應理論、局部獨立性、階層線性模式、題組效果、Rasch 模式. I.

(6) Abstract Testlet is a popular testing design and it will help the examination more efficient. However, owing to the limitation of testlet software or other reasons, some users of item response theory still adopt IRT software in analyzing testing data which exists certain conditions of testlet. In addition to the traditional Rasch model, the 1-P HGLLM, which is an extended model form Hierarchical Linear Model, could also calibrate IRT estimation. Therefore, the investigation of simulation study on estimation effects of testlet for these two models will be a promising study. Three factors are considered in this simulation study. They are number of items, sample size and degree of testlet effect. SAS is the software to implement 1-P HGLLM model and BILOG is the software to implement Rasch model. Both the estimation methods of these two softwares are based on MLE and their replications are 50 times. The main findings are as follows. 1. The larger the sample size is, the estimation preciseness of these two models will become better. However, the larger the testlet effect is, the estimation preciseness of these two models will reduce. 2. The factor of sample size will not influence the estimation effects for these two models. Moreover, the more the item number is, the estimation preciseness of these two models will be better. On the contrary, the estimation preciseness of these two models will decrease as the testlet effect becomes large. 3. The estimation preciseness of 1-P HGLLM will be better than that of Rasch model on the conditions of testlet. 4. The estimation preciseness of 1-P HGLLM will be better than that of BILOG when the number of items increase. 5. The robustness of 1-P HGLLM will be better that of Rasch model. The simulation results could provide references for empirical study and theoretical exploration. Finally, some suggestions and recommendations are provided. Key words: hierarchical linear model, local independence, multilevel IRT, Rasch model, testlet. II.

(7) 目錄 第一章 緒論 ……………………………………………………………. 1. 第一節. 研究動機 …………………………………………………….... 1. 第二節. 研究目的 …………………………………………………….... 3. 第三節. 名詞釋義 …………………………………………………….... 3. 第二章 文獻探討 ……………………………………………………... 5. 第一節. 階層線性模式 ……………………………………………….... 5. 第二節. 多層次試題反應理論 ……………………………………….... 8. 第三節. 局部獨立性 ………………………………………………….... 15. 第四節. 題組反應模式 …………………………………………..…….. 19. 第三章 研究方法與設計 …………………………………………... 21 第一節. 研究架構 …………………………………………………….... 21. 第二節. 研究工具 …………………………………………………….... 27. 第三節. 資料模擬 …………………………………………………….... 27. 第四章 研究結果 …………………………………………………….. 31 第一節 估計結果 ……………………………………………………….. 32. 第二節 固定試題數下的精準度比較 ………………………………….. 35. 第三節 固定樣本數下的精準度比較 ………………………………….. 39. 第四節 固定題組效果下的精準度比較 ……………………………….. 43. III.

(8) 第五章 結論與建議 …………………………………………….…… 47 第一節 結論 …………………………………………………………….. 47. 第二節 研究建議 ……………………………………………………….. 49. 參考文獻 ………………………………………………………………... 51 中文部分 ………………………………………………………………….. 51. 英文部分 ………………………………………………………………….. 51. 參考 附錄一 …………………………………………………………………….. 63. 附錄二 …………………………………………………………………….. 64. IV.

(9) 表目錄 表 3-1 受試者作答反應人數列聯表 …………………………………………... 16 表 4-1 SAS 和 BILOG 估計試題難度的精準度表現 …………………………. 33 表 4-2 SAS 和 BILOG 估計能力值的精準度表現 ……………………………. V. 34.

(10) 圖目錄 圖 2-1 階層線性模式的資料舉例 …………………………………………….... 5. 圖 2-2 Rasch 模式的試題特徵曲線圖 ………………………………………..... 9. 圖 2-3 二參數對數模式的試題特徵曲線圖 …………………………………... 10 圖 2-4 三參數對數模式的試題特徵曲線圖 …………………………………... 11 圖 2-5 Kamata 的 1-P HGLLM 二階層結構 ……………………………..……. 13 圖 3-1 本研究的資料模擬結構圖 ……..………………………………………. 21 圖 3-2 研究架構圖 …………………………………………………..…………. 22 圖 3-3 模擬流程圖 ……………………………………………………………... 28 圖 4-1 20 題時試題難度的 RMSE 折線圖 ……………………………………. 64 圖 4-2 40 題時試題難度的 RMSE 折線圖 ……………………………………. 64 圖 4-3 80 題時試題難度的 RMSE 折線圖 …………….……………………… 64 圖 4-4 20 題時試題難度的 BIAS 折線圖 ……………………………………… 64 圖 4-5 40 題時試題難度的 BIAS 折線圖 ……………………………………… 65 圖 4-6 80 題時試題難度的 BIAS 折線圖 ……………………………………… 65 圖 4-7 20 題時試題難度的 MCSE 折線圖 ………………………….………… 65 圖 4-8 40 題時試題難度的 MCSE 折線圖 ………………………….………… 65 圖 4-9 80 題時試題難度的 MCSE 折線圖 ………………………………….… 66 圖 4-10 20 題時能力值的 RMSE 折線圖 ……………………………………… 66 圖 4-11 40 題時能力值的 RMSE 折線圖 ……………………………………… 66 圖 4-12 80 題時能力值的 RMSE 折線圖 ……………………………………… 66 圖 4-13 20 題時能力值的均差折線圖 ……………………………………........ 67 圖 4-14 40 題時能力值的均差折線圖 ……………………………………........ 67 圖 4-15 80 題時能力值的均差折線圖 ……………………………………........ 67. VI.

(11) 圖 4-16 100 人時試題難度的 RMSE 折線圖 …………………………………. 67 圖 4-17 300 人時試題難度的 RMSE 折線圖 ………………………….……… 68 圖 4-18 900 人時試題難度的 RMSE 折線圖 ………………………….……… 68 圖 4-19 100 人時試題難度的 BIAS 折線圖 …………………………….…….. 68 圖 4-20 300 人時試題難度的 BIAS 折線圖 …………………………….…….. 68 圖 4-21 900 人時試題難度的 BIAS 折線圖 …………………………….…….. 69 圖 4-22 100 人時試題難度的 MCSE 折線圖 …………………………….…… 69 圖 4-23 300 人時試題難度的 MCSE 折線圖 ……………………………….… 69 圖 4-24 900 人時試題難度的 MCSE 折線圖 …………………………….…… 69 圖 4-25 100 人時能力值的 RMSE 折線圖 …………………………….……… 70 圖 4-26 300 人時能力值的 RMSE 折線圖 …………………………….……… 70 圖 4-27 900 人時能力值的 RMSE 折線圖 …………………………….……… 70 圖 4-28 100 人時能力值的均差折線圖 ……………………………….………. 70 圖 4-29 300 人時能力值的均差折線圖 ……………………………….………. 71 圖 4-30 900 人時能力值的均差折線圖 ……………………………….………. 71 圖 4-31 (0,0) 時試題難度的 RMSE 折線圖 ……………………….….…….. 71 圖 4-32 (0,2) 時試題難度的 RMSE 折線圖 ……………………….….…….. 71 圖 4-33 (0,8) 時試題難度的 RMSE 折線圖 …………………………..…….. 72 圖 4-34 (2,2) 時試題難度的 RMSE 折線圖 ………………………………… 72 圖 4-35 (2,8) 時試題難度的 RMSE 折線圖 ………………………………… 72 圖 4-36 (0,0) 時試題難度的 BIAS 折線圖 …………………………………. 72 圖 4-37 (0,2) 時試題難度的 BIAS 折線圖 …………………………………. 73 圖 4-38 (0,8) 時試題難度的 BIAS 折線圖 …………………………………. 73 圖 4-39 (2,2) 時試題難度的 BIAS 折線圖 …………………………………. 73 圖 4-40 (2,8) 時試題難度的 BIAS 折線圖 ……………………….………… 73 圖 4-41 (0,0) 時試題難度的 MCSE 折線圖 ………………………..……….. VII. 74.

(12) 圖 4-42 (0,2) 時試題難度的 MCSE 折線圖 ………………………….……... 74 圖 4-43 (0,8) 時試題難度的 MCSE 折線圖 ………………………….……... 74 圖 4-44 (2,2) 時試題難度的 MCSE 折線圖 ……………………………….... 74 圖 4-45 (2,8) 時試題難度的 MCSE 折線圖 ………………………………… 75 圖 4-46 (0,0) 時能力值的 RMSE 折線圖 …………………………………… 75 圖 4-47 (0,2) 時能力值的 RMSE 折線圖 …………………………………… 75 圖 4-48 (0,8) 時能力值的 RMSE 折線圖 …………………………………… 75 圖 4-49 (2,2) 時能力值的 RMSE 折線圖 …………………………………… 76 圖 4-50 (2,8) 時能力值的 RMSE 折線圖 …………………………………… 76 圖 4-51 (0,0) 時能力值的均差折線圖 ………………………………………. 76 圖 4-52 (0,2) 時能力值的均差折線圖 ………………………………………. 76 圖 4-53 (0,8) 時能力值的均差折線圖 ………………………………………. 77 圖 4-54 (2,2) 時能力值的均差折線圖 ………………………………………. 77 圖 4-55 (2,8) 時能力值的均差折線圖 ………………………………………. 77. VIII.

(13) 第一章 緒論 題組試題為考試常見的題型之一,這類試題往往違反局部獨立性假設,而有 部分的研究者或大型測驗機構,可能受限於題組反應模式軟體的不足,仍沿用試 題反應理論估計試題參數、能力參數,忽略題組試題產生的題組效果。因此,探 討不同數學模式詮釋下的試題反應模式,分析具題組現象的估計效果,有其必要 與可行之處。故本研究探討階層線性模式與 Rasch 模式,在忽略題組效果下之參 數估計情形,並比較兩個模式的穩健度。本章就研究動機、研究目的、名詞釋義 依序說明如下。. 第一節 研究動機 試題反應理論 (Item Response Theory) 為心理計量常用的分析工具,為使參 數方便估計,有「局部獨立性 (local dependence) 」之假設。局部獨立性是指考 慮學生的能力後,學生在不同試題的答題反應無任何相關。若忽略違反局部獨立 性情形,對受試者的能力參數估計會產生不良影響,也會使試題的信度、難度與 鑑別度的標準差被低估,而高估其精準度。試題參數的偏誤會干擾試題等化結 果,應用於電腦適性化測驗,就會因參數估計不當而提早結束測驗,無法正確估 計受試者的能力 (Jiao, Wang, & Kamata, 2005; Nofer, 2007; Spray & Ackerman, 1987; Wainer, Bradlow, & Du, 2000; Zhang, 2007)。 教育或心理領域的相關測驗,為能充分了解學生學習情形,一份測驗往往包 含數個系列的試題,一系列的試題源自相同的題材或刺激 (stimulus),例如閱讀 測驗,學生閱讀完一篇文章後回答的試題,皆以該篇文章為基礎;或是數學測驗 裡,根據一個圖表回答某些試題,圖表即為這些試題的共同刺激。諸如此類的試. -1-.

(14) 題,即稱為題組 (testlet) (Wainer & Kiely, 1987)。Wainer et al. (2000) 認為題組可 節省出題時間,學生基於一個相同的刺激就可回答數題,使考試更有效率;且相 較於其他題型,題組更適合測量高階的技能,尤其在以解決問題為導向的測驗, 題組比單一試題更能測得學生能力 (DeMars, 2006)。 但根據許多研究,題組內的試題往往違反局部獨立性 (Rosenbaum, 1988; Wang & Wilson, 2005),這並非表示題組內的試題不佳,而是面對題組試題時,要 慎選參數估計模式,減少違反局部獨立性對參數估計產生不良影響。相關研究針 對題組試題的參數估計,提出多種改善方法,例如在估計參數時,將題組與受試 者的交互作用視為隨機效果,稱作題組效果 (testlet effect),納入對數模式一併分 析後,參數估計的誤差較小 (Bradlow, Wainer, & Wang, 1999; Li, Bolt, & Fu, 2004)。而有些大型測驗以試題反應理論分析學生答題反應時,卻未考慮題組效 果,例如國中基本學力測驗,測驗包含多個題組,仍以單參數對數模式 (Rasch 模式) 估計試題難度與學生能力值,忽略題組試題違反局部獨立性造成的影響, 此用法適切性有待評估。 在 Rasch 模式裡,通常使用先估計試題參數,再估計能力值的兩階段分析法 (two-step analysis),但因能力值的標準誤並不相同,中間的能力值其標準誤較小, 兩 側 的 能 力 值 標 準 誤 較 大 , 這 種 不 等 變 異 性 的 測 量 誤 差 (heteroscedastic measurement error),兩階段分析法未考慮之,因而無法提供準確的估計結果。階 層線性模式 (Hierarchical Linear Model) 將能力值和試題參數分解,以線性模式同 時估計能力值和試題參數,減少估計標準誤 (Zwinderman, 1991),可改善參數估 計的精準度 (Mislevy, 1987)。 Kamata (1998a) 基於廣義階層線性模式 (Hierarchical Generalized Linear Model),認為一個學生的作答反應,會受該位學生的特質影響,亦即作答反應 (階 層一) 包含於該位學生本身 (階層二),如同學生相嵌於班級內,學生的表現會受 班級因素影響,故以二階層的廣義階層線性模式解釋 Rasch 模式,稱為單參數廣. -2-.

(15) 義階層線性對數模式 (One-Parameter Hierarchical Generalized Linear Logistic Model, 以下簡稱 1-P HGLLM),其將 Rasch 模式視為廣義階層線性模式的特例, 也證明兩個模式在代數上有等價關係,甚而將 Rasch 模式延伸至多層次模型 (multi-level model),使用途更為廣泛 (Cheong & Raudenbush, 2000; Kamata, 2001) 。 基於上述,可知 1-P HGLLM 與 Rasch 模式,皆能描述單參數模式下之潛在 特質 (latent trait) 與答題機率的關係,但此兩者在題組效果下,其參數估計的差 異性為何,則甚少見諸於文獻。因題組試題的特性,故本研究以資料模擬的方式, 探討 1-P HGLLM 與 Rasch 模式,在不同因子水準下,估計試題難度與能力值的 精準度情形,以檢視兩個模式的穩健度 (robust),提供給日後研究之參考。. 第二節 研究目的 本研究旨在探討 1-P HGLLM 與 Rasch 模式,在不同試題數、樣本數、題組 效果程度的情況下,兩者估計試題難度與能力值的表現情形。其研究目的臚列如 下: 一、在固定試題數下,探討 1-P HGLLM 與 Rasch 模式,在試題難度與能力值的 估計情形,並比較兩個模式於試題難度和能力值的估計精準度。 二、在固定樣本數下,探討 1-P HGLLM 與 Rasch 模式,在試題難度與能力值的 估計情形,並比較兩個模式於試題難度和能力值的估計精準度。 三、在固定題組效果程度下,探討 1-P HGLLM 與 Rasch 模式,在試題難度與能 力值的估計情形,並比較兩個模式於試題難度和能力值的估計精準度。. -3-.

(16) 第三節 名詞釋義 一、試題反應理論 (Item Response Theory,以下簡稱 IRT) 假設受試者的答題反應受本身內在因素的影響,這些因素觀察不到,稱為「潛 在特質」 。IRT 為藉由試題難度、鑑別度、猜測值等試題參數,以數學式描述潛在 特質和答題反應之關係的理論。 二、階層線性模式 (Hierarchical Linear Model) 當資料分為兩個以上的層次,亦即個體層次 (individual level) 和群體層次 (group level),以學生為個體層次,班級為群體層次為例,當研究者有學生的資料, 也有學生所屬的班級資料,此時同一個班級的學生,其各屬性變項彼此間可能存 在相關性或相似性,用一般傳統分析方法會造成偏誤。階層線性模式則為將群體 層次的變項,用來解釋「個體層次的解釋變項與依變項之關係」,以減少誤差的 理論。當資料非連續變數,需以非線性的連結函數 (linking function) 轉換,此即 階層線性模式的延伸,稱為廣義階層線性模式。 三、題組反應模式 (testlet response model) 題組是指一群有共同刺激 (common stimulus) 的題目,題組試題和人的交互 作用,稱作題組效果,亦即違反局部獨立性的程度。題組反應模式是試題反應理 論的延伸,為一種估計參數時,考量題組違反局部獨立性影響的理論。. -4-.

(17) 第二章 文獻探討 第一節 階層線性模式 迴歸分析為應用廣泛的統計分析技術,主要分析自變項對應變項的影響,而 一般的抽樣往往為集群抽樣,例如抽取學生前先抽取班級,抽取班級前先抽取學 校,班級內的學生較班級間同質性高,學校內的學生又較學校間同質性高,此種 巢套設計 (nested design) 如圖 2-1,忽略了樣本獨立性,殘差也非等變異性,使 得迴歸係數的估計標準誤被低估,造成型 I 誤差膨脹,迴歸係數容易達顯著 (林 原宏,1997;溫福星,2006)。階層線性模式改進上述問題,將組間變項同時併入 組內分析以減少誤差。以下用圖 2-1 的資料結構,敘述階層線性模式,另敘述廣 義階層線性模式 (Bryk & Randenbush, 1992)。. 學生 1 班級 1 學生 2 學校 1 學生 3 班級 2 學生 4 學生 5. 學校 2 班級 3. 學生 6 圖 2-1 階層線性模式的資料舉例. -5-.

(18) 一、二階層的階層線性模式 假設階層一為學生,階層二為班級,兩個階層的數學式表示如下: 階層一: Yij = β 0 j + eij. (1). 階層二: β 0 j = γ 00 + u 0 j. (2). Y ij 表示 j 班 i 生的分數, β 0 j 表示 j 班的平均分數, eij 表示 j 班 i 生與班上平均分. 數的差距。階層二的公式裡, γ 00 表整體平均分數, u0 j 表 j 班平均分數和總平均 的差距 (Hox, 2002; Raudenbush & Bryk, 2002),將公式 (2) 代入公式 (1) 後得公 式 (3)。 Yij = γ 00 + u 0 j + eij. (3). 由公式 (3) 可知,Y ij 的變異分解成學生間的變異 eij (組內變異) 和班級間的變異 u0 j (組間變異),當學生間或班級間的變異達顯著,可進一步加入該階層的變項,. 瞭解該變項對變異的解釋程度。在此以學生的社經地位 ( SES ) 表示階層一的變 項,教師教學經驗 ( TTE ) 為階層二的變項,兩個階層的數學式表示如下: 階層一: Yij = β 0 j + β1 j SESij + eij. (4). ⎧⎪β 0 j = γ 00 + γ 01TTE j + u0 j 階層二: ⎨ ⎪⎩β1 j = γ 10 + γ 11TTE j + u1 j. (5). β1 j 為階層一的斜率, γ 00 、 γ 01 、 γ 10 、 γ 11 為階層二的係數,稱為固定效果 (fixed effect),u0 j 、u1 j 則為隨機效果 (random effect),若將階層一的斜率視為固定常數, 則 β1 j 無隨機變項。 二、三階層的階層線性模式 若進一步考慮學校的影響,有些學生來自同一個班級,有的班級又隸屬於同 一學校,加入學校為階層三後,三個階層的數學式呈現如下:. -6-.

(19) 階層一:Yijk = π 0 jk + eijk. (6). 階層二:π 0 jk = β 00 k + u0 jk. (7). 階層三:β 00 k = γ 000 + r00 k. (8). Yijk 表示 k 校 j 班 i 生的分數, π 0 jk 表示 k 校 j 班的平均分數, eijk 表示 k 校 j 班 i 生. 與班上平均分數的差距; β 00 k 表 k 校的平均分數, u 0 jk 表示 k 校 j 班的分數與 k 校 的平均分數之差距;γ 000 為全體總平均分數,r00 k 表示 k 校的分數與全體總平均的 差距。也可分別在各階層內加入該層變項,探討造成變異的原因 (Beretvas & Kamata, 2005; Kamata, 1998a)。 階層線性模式為一種多層次測量模型 (multi-level measurement models),可應 用於教育、社會學的實徵研究,加入班級、學校與社會等變項,分析學生學習成 就、教師教學或行政績效等,也可加以探討影響學生學習、教師教學績效的原因 (王文中,1995;黃耀加、林原宏,2007;Huang, 2004; Miller & Murdock, 2007; Pastor, 2003),或應用在管理學、行銷學,探討相關變項影響顧客對產品滿意度的情形 (黃 建豪,2006;鄧志瑛,2005)。 三、廣義階層線性模式 一般階層線性模式,主要處理依變項為連續變數的情形,當依變項非連續變 數,如:二元變數、類別變數、次序變數等,以非線性函數當連結函數,處理階 層一的變化情形,此方法稱為「廣義階層線性模式」。其能應用於跨時間的縱貫 面資料,階層一為時間,階層二為受試者,探討年齡、種族、社經地位、代課次 數等變項對學生數學成就的影響,也稱為成長模式 (growth model) (高新建, 1999;葛湘瑋,2004;Singer, 1998)。也有研究以廣義階層線性模式的觀點,說 明試題反應理論相關模型,也就是本研究探討的部分 (Fox, 2004; Miyazaki, 2005; Wang, 2002; Wang & Liu, 2007; Williams & Beretvas, 2006)。. -7-.

(20) 第二節 多層次試題反應理論 一、IRT IRT 為以數學關係描述一組或一個潛在特質,影響答題反應情形的理論,其 數學關係式稱為試題特徵函數,繪成圖形稱作試題特徵曲線 (item characteristic curve)。IRT 的三個基本假設為: 1. 單一向度 (unidimensionality):測驗中的所有試題都測量到一個共同的潛在特 質,測驗結果不受其他因素干擾。 2. 局部獨立性:考慮學生的能力後,學生在不同試題的答題反應無任何相關。 3. 非速度測驗:受試者有足夠的時間完成所有試題,亦即考試成績不理想,是能 力不足而非時間不夠。 但實際應用上,常因測驗目的不同,測驗可能為速度測驗、多向度 (multidimension) 測驗,而出現違反這三個基本假設的情況,相關研究已對不同 情況提出適合的模型,如 Mckinley and Reckase (1982) 提出多向度的單參數模 式,可測量一個以上的潛在特質,但因未考慮各向度權重,有研究加以改進,但 改進後,模型受限於各試題難度必須相等,故較少使用。Thissen and Steinberg (1986) 依 不 同 假 設 與 參 數 估 計 的 方 式 , 將 IRT 歸 納 為 三 大 類 : 差 異 模 式 (Difference Model)、除總模式 (Divide-by-Total Model) 與左加模式 (Left-SideAdded Model),以 IRT 處理二元資料時,使用最廣泛的為對數 (logistic) 模式, 其根據參數不同又分為 Rasch 模式、二參數與三參數對數模式,三者介紹如下:. -8-.

(21) (一) Rasch 模式 Pi (θ ) =. 1 1 + exp{−(θ − bi )}. i = 1, 2 ,..., n. (9). Rasch 模式的試題特徵函數如公式 (9), Pi (θ ) 表示任何一位能力值為 θ 的受 試者,在試題 i 的正確作答機率; bi 為試題難度, n 表試題總數。 Pi (θ ) 為 θ 的單 調遞增函數,其值介於 0 ~ 1 之間。當 θ 很小時, Pi (θ ) 趨近於 0;當 θ = bi , Pi (θ ) = 0.5 。此函數繪出的試題特徵曲線如圖 2-2,其傾斜程度 (steeper) 皆同,. 各題的試題特徵曲線為平移關係,顯示在此模式下,只有試題難度會影響試題特 性。 1 0.9 正 確 反 應 的 機 率. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -4. -3. -2. -1. 0. 1. 2. 能力. 圖 2-3 二參數對數模式的試題特徵曲線圖. -9-. 3. 4.

(22) (二) 二參數對數模式 (two-parameter logistic model) Pi (θ ) =. 1 1 + exp{−α i (θ − bi )}. i = 1, 2, ..., n. (10). 二參數對數模式的試題特徵函數如公式 (10), α i 表試題 i 的鑑別度,此函數 繪出的試題特徵曲線如圖 2-3。 Pi (θ ) 的傾斜程度隨 α i 不同而不同,α i 越大表試題 特徵曲線越陡,試題越能區辨考生程度,反之表試題特徵曲線越平坦,試題較不 能區辨考生程度。由此可知除了試題難度外,影響試題特性的還有鑑別度。. 1 0.9 正 確 反 應 的 機 率. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -4. -3. -2. -1. 0. 1. 2. 3. 能力. 圖 2-3 二參數對數模式的試題特徵曲線圖. - 10 -. 4.

(23) (三) 三參數對數模式 (three-parameter logistic model) Pi (θ ) = Ci + (1 − Ci ). 1 1 + exp{−α i (θ − bi )}. i = 1, 2, ..., n. (11). 三參數對數模式的試題特徵函數如公式 (11),加入影響低能力受試者答題反 應的因素。 Ci 表能力值很低的考生答對試題 i 的機率。Lord (1974) 認為試題中常 有誘答選項, Ci 通常比隨機猜測下的機率小,不能完全視為猜測參數。三參數對 數模式的試題特徵曲線如圖 2-4,各題的試題特徵曲線,除了平移與傾斜程度不 同外,能力值很低時的漸近線也不同。. 1 0.9 正 確 反 應 的 機 率. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -4. -3. -2. -1. 0. 1. 2. 3. 能力 圖 2-4 三參數對數模式的試題特徵曲線圖. - 11 -. 4.

(24) 二、多層次試題反應理論 (Multilevel Item Response Theory) 許多研究基於不同觀點,將 IRT 視為多層次模型的一種 (Adams, Wilson, & Wang, 1997; Hedeker & Gibbons, 1993),以下介紹幾種觀點: 1. 為使邊際最大概似估計法 (marginal maximum likelihood estimation) 方便估計 試題參數,將受試者的能力參數視為隨機變數,避免同時估計試題參數與能力 參數時,發生不一致的問題 (Neyman-Scott problem) (Neyman & Scott, 1948)。 這種處理方式將試題參數視為固定影響,將能力參數視為隨機影響,亦是多層 次模型的觀點。Singer (1998) 更基於上述,把能力參數分解成固定效果和隨機 效果的線性組合,討論這種混合效果模式 (mixed effect model) 和多層次線性 模式 (multilevel linear model) 等價的概念。 2. 受試者因來自不同學校或不同種族,而有不同特徵,故依其背景變項將受試者 分成不同群,並定義各群受試者的能力值為不同分配。接著以多群體 (multiple-group) 的觀點,呈現多層次試題反應理論,也以此估計試題參數 (Bock & Zimowski, 1997; Mislevy, 1983; Mislevy & Bock, 1989),可應用在 DIF (differential item functioning) 或參數浮動模型 (item parameter drift model) (Bock, Muraki, & Preiffenberger, 1988; Thissen, Steinberg, & Wainer, 1993)。 3. 將試題參數分解成數個參數的組合,並加入試題特徵變數,探討試題對誤差的 解釋程度,有別於一般分解能力參數的觀點。Fischer (1973, 1983) 將 Rasch 模 式的試題參數分解成數個參數的線性組合,稱做線性潛在試題模式 (linear latent test model),即是此觀點的代表。 4. 第 4 種 多 層 次 試 題 反 應 理 論 的 觀 點 , 為 調 查 評 分 者 的 影 響 。 多 層 面 (many-faceted) 模式是指在 IRT 的模型中,加入代表評分者的變數 (Linacre, 1989),Patz, Junker, and Jihnson (1999) 也將評分者的影響以多層次模式呈現。 綜合上述,多層次試題反應理論,多半基於參數分解的觀點,以便以一步驟 的方式估計,減少參數標準誤。本研究則是運用 Kamata (2001) 提出的理論,將. - 12 -.

(25) 受試者個人與作答反應視為巢套設計。假設各試題作答反應包含於受試者內,如 圖 2-5 所示,以階層線性模式的觀點解釋 Rasch 模式 (Kamata, 2001; van den Noortgate, De Boeck, & Meulders, 2003),提出 1-P HGLLM。現以圖 2-5 的資料結 構,介紹 1-P HGLLM 和 Rasch 模式的關係。. 受試者 1 試題 1 受試者 2 試題 2 受試者 3 試題 3 受試者 4 圖 2-5 Kamata 的 1-P HGLLM 二階層結構圖. 1-P HGLLM 的階層一為試題,階層二為受試者,則 Yij 表試題 i (i = 1, 2..., k ) 受 試者 j ( j = 1, 2, ..., n) 的作答反應,給定 Rasch 模式的答對率下,服從伯努力分配 (Bernoulli. distribution) , 期 望 值 為 E (Yij pij ) = pij , 變 異 數 為. Var (Yij pij ) = pij (1 − pij ) ,其中 pij 表受試者 j 在試題 i 的答對機率。若勝率比的對. 數 (log-odds) 以線性關係表示,令 q = 1, 2..., (k − 1) ,這兩個階層分述如下: 階層一:試題 ⎛ pij log⎜ ⎜ 1 − pij ⎝. k −1 ⎞ ⎟ = η ij = β 0 j + ∑ β qj X qij ⎟ q =1 ⎠. 亦即. pij =. 1 1 + exp (−η ij ). - 13 -. ⎧1 , q = i X qij = ⎨ ⎩0 , otherwise. (12). (13).

(26) 連結函數有許多種,在此取二元試題最常用的對數函數為連結函數 (Raudenbush & Bryk, 2002)。階層一呈現如公式 (12)、(13), X qij 為受試者 j 的第 q 個虛擬變項,. β 0 j 為截距項, β qj 為 X qij 的係數,為使公式 (13) 有解,將最後一道試題的虛擬 ⎛ p ⎞ 變項拿掉,使得 log⎜ kj ⎟ = ηkj = β 0 j 。 ⎜ 1 − pkj ⎟ ⎝ ⎠. 階層二:受試者 ⎧⎪β 0 j = γ 00 + u0 j ⎨ ⎪⎩β qj = γ q 0. (14). 將階層一的係數當作線性迴歸中的依變項,其模型呈現如公式 (14),γ 00 為 β 0 j 的 固定效果,且所有受試者的 γ 00 皆相同; u0 j 為 β 0 j 的隨機效果,即為 β 0 j 隨受試者 變動的主因; γ q 0 為 β qj 的固定效果,且 β qj 無隨機效果,表 β qj 不因受試者不同而 改變,主要由試題決定,而為使方程式有解,在此令試題 k 的難度為 γ 00 。將公式 (14) 代入公式 (12) 可得: pij =. 1 1 + exp{−[u 0 − (−γ q 0 − γ 00 )]}. (15). u0 j 相當於 Rasch 模式中受試者 j 的能力值, − γ q 0 − γ 00 則相當於試題 q 的難度,. 而試題 k 的難度則為 γ 00 。 除 Rasch 模式外,還可用廣義階層線性模式,解釋二參數對數模式、部分給 分模式 (Partial Credit Model) 或等級比例模式 (Rating Scale Model)。. - 14 -.

(27) 第三節 局部獨立性 局部獨立性為 IRT 的基本假設之一,意指考生能力為影響反應作答的唯一因 素,亦即給定一能力值,其在一組試題反應組型的機率,等於單獨試題答對機率 的 連 乘 積 : P ( X 1 = x1 and X 2 = x2 θ ) = P ( X 1 = x1 θ ) P ( X 2 = x2 θ ) ( 余 民 寧 , 1991;Boeck & Wilson, 2004; Embretson & Reise, 2000; Lord, 1980)。但大多情況, 試題往往非完全遵守局部獨立性,違反試題局部獨立性的原因,大致可分成兩類 (Chen & Thissen, 1997; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Rosenbaum, 1988; Sireci, Thissen, & Wainer, 1991; Wainer, 1995; Wainer & Thissen, 1996; Yen, 1984): 1. 執行考試過程產生的:速度測驗、受試者疲累、考試時老師或同儕給予提示。 2. 試題本身產生的:多維度測驗、試題隱含其他題目答案的線索、題組式試題。 若試題違反局部獨立性,在進行參數估計時,容易高估試卷的信度與訊息函 數,低估能力值的測量標準誤,試題參數的估計也會產生偏誤,且高估或低估的 程度,隨違反試題局部獨立性的嚴重度而提高。高估訊息函數會使達到一定精準 度所需之題數被低估,在電腦適性化測驗時,會提早到達測量精準度使測驗提早 結束 (Sireci, Thissen, & Wainer, 1991; Thissen, Steinberg, & Mooney, 1989; Wainer, 1995; Wainer & Thissen, 1996; Wainer & Wang, 2000; Yen, 1984, 1993; Zenisky, Hambleton, & Sireci, 1999)。 有相關研究以無參數、因素分析和貝氏理論等觀點,檢測試題間違反局部獨 立性情形 (Hulin, Drasgow, & Parsons, 1983; McDonald, 1981, 1982; Stout, 1987, 1990; Zhang & Stout, 1999),因其計算較繁瑣,有些研究採用基於 IRT,以適合度 檢定或殘差相關程度的統計量,當作檢測局部獨立性的指標,例如:Q1、Q2、Q3 、. χ 2 、 G 2 、φdiff 、τ diff (Chen & Thissen, 1997; van den Wollenberg, 1982; Yen, 1981,. - 15 -.

(28) 1984),當統計量達顯著,表示試題違反局部獨立性。而這些指標除了檢定局部獨 立性外,也用於模式適配度檢驗,作為挑選模式之參考 (Orlando & Thissen, 2000)。本研究用 χ 2 、 G 2 、 Q3 、 Z d 四種指標,檢測試題違反局部獨立性情形, 以下介紹四種指標及其理論。 一、理論基礎 二元反應模型下,假設有試題 j 和試題 j ′ 兩道試題, k = 1, 2 、 k ′ = 1, 2 ,分別 表示試題 j 和試題 j ′ 的作答反應,則受試者兩兩試題反應的觀察人數,以列聯表 呈現如表 3-1。 Okk ′ 表第 k 列第 k ′ 行的反應人數,在無遺漏值的前提下,受試者總 數 N 定義如公式 (16)。 2. 2. N = ∑ ∑ Okk ′. (16). k =1 k ′ =1. 表 3-1 受試者作答反應人數列聯表 Item j′ k′ =1 k′ = 2 O11 O12 Item j k =1 O21 O22 k=2. 根據 IRT,若 Pjk (θ ) 表試題 j 為反應 k 的機率,令試題 j 和試題 j ′ 在各類反應 之期望作答人數為 E kk ′ ,定義如公式 (17); f (θ ) 為 θ 的分配函數,通常假設服從 標準常態分配。 Ekk ′ = N. ∞. ∫-∞ Pjk Pj′k ′ (θ ) f (θ ) dθ. - 16 -. (17).

(29) 二、偵測局部獨立性的指標 1. 皮爾森卡方檢定量 ( pearson statistic) (Bishop, Fienberg, & Holland, 1975). (O − E kk ' ) χ = ∑ ∑ kk ' E kk ' k =1 k '=1 2. 2. 2. 2. (18). 此檢定量在大樣本時服從卡方分配,且自由度為 (2 − 1) 2 = 1 ,當 Okk ′ = E kk ′ ,. χ 2 有最小值 0,當 Okk ′ 和 E kk ′ 相差越大,即 χ 2 越大,表越有可能違反局部獨立性。. χ 2 雖有遇到大樣本容易達顯著的特性,但在許多情況下仍是合宜的檢定指標,故 研究者仍將 χ 2 的檢定結果納入參考。 2. 概似比檢定量 G 2 (likelihood-ration statistic) (Bishop et al., 1975) K K ⎡O ⎤ G 2 = 2 ∑∑ Okk ' log ⎢ kk ' ⎥ k =1 k '=1 ⎣ Ekk ' ⎦. (19). 此檢定量服從卡方分配,且自由度為 (2 − 1) 2 = 1,當 Okk ′ = E kk ′ ,G 2 有最小值 0, Okk ′ 和 E kk ′ 相差越大,則 G 2 也會越大,表試題越有可能違反局部獨立性。 3. Yen's Q3 index (Yen, 1984) Yen (1984) 修正 Kingston and Dorans (1982) 的研究,提出檢測局部獨立性的 Q3 指標 (Kingston & Dorans,1982; Yen, 1984),此檢定量為觀察分數和期望分數殘. 差之相關係數。令 d ij = uij − T j (θˆi ) , uij 為受試者 i 在第 j 題的觀察分數, T j (θˆi ) 表 K. 示受試者 i 在第 j 題的期望分數,為 T j (θˆi ) = ∑ y jk Pjk (θˆi ) ,並以 y jk 表示第 j 題反 k =1. 應 k 的加權,故 d ij 即觀察分數和期望分數之差,為測量的殘差。 Q3 指標即是第 j 題測量殘差與第 j′ 題測量殘差的相關係數,其公式如下:. - 17 -.

(30) Q3 jj ′ = r (d j , d j′ ). (20). 其中 r (d j , d j′ ) 表示變數 d j 與 d j′ 的皮爾森積差相關,其絕對值越大表違反局部獨 立性的可能越大,一般以 .2 當決斷值, Q3 大於 .2 表違反局部獨立性 (Chen & Thissen, 1997)。 4. 標準化殘差 Z d ( Press, Flannery, Teukolsky, & Vetterling, 1986) y jk 表示第 j 題反應 k 的加權,則試題 j 和試題 j′ 觀察值的皮爾森積差相關 ro. 如公式 (21): 2. 2. ∑∑ y. ro =. k =1 k ′ =1. y j ′k ′Okk ′ −. jk. 2. 2. k =1. k ′ =1. (∑ y jk Ok + )(∑ y j ′k ′O+ k ′ ) N. (21). ⎡ ⎤⎡ ⎤ (∑ y jk Ok + ) 2 ⎥ ⎢ 2 (∑ y j ′k ′O+ k ′ ) 2 ⎥ ⎢2 2 2 k =1 k ′ =1 ⎢∑ y jk Ok + − ⎥ ⎢∑ y j ′k ′O+ k ′ − ⎥ N N ′ =1 = k k 1 ⎢ ⎥⎢ ⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ 2. 2. 2. 2. k ′ =1. k =1. 其中 Ok + = ∑ Okk ′ , O+ k ′ = ∑ Okk ′ , N 是總試題數。而在試題 j 與試題 j′ 期望 值的皮爾森積差相關 re 表示如公式 (22): 2. 2. 2. ∑∑ y. re =. k =1 k ′ =1. jk. y j ′k ′ Ekk ′ −. 2. (∑ y jk Ek + )(∑ y j ′k ′ E+ k ′ ) k =1. k ′ =1. N. (22). ⎡ ⎤⎡ ⎤ (∑ y jk Ek + ) 2 ⎥ ⎢ 2 (∑ y j ′k ′ E+ k ′ ) 2 ⎥ ⎢2 2 2 k =1 k ′ =1 ⎢∑ y jk Ek + − ⎥ ⎢∑ y j ′k ′ E+ k ′ − ⎥ N N ⎢ k =1 ⎥ ⎢ k ′=1 ⎥ ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ 2. 2. 2. 2. k ′ =1. k =1. 其中 Ek + = ∑ Ekk ′ , E+ k ′ = ∑ Ekk ′ 。 ro 與 re 的相關係數經 Fisher 轉換後形成標 準化殘差 Z d 如公式 (23):. - 18 -.

(31) ⎧1 1 + ro ⎡ 1 1 + re r ⎤⎫ Z d = N − 3 ⎨ log ( ) − ⎢ log ( ) + e ⎥⎬ 1 − ro ⎣ 2 1 + re N − 1⎦ ⎭ ⎩2. (23). Z d 服從標準常態分配,當 Z d 越大,表越有可能違反局部獨立性。. 第四節 題組反應模式 在測驗中,常見數個題目自成一群測量相同的主題,例如閱讀測驗,學生看 完文章後,回答幾個與文章有關的題目。諸如此類的試題,其有相同的刺激,學 生答題反應可能受前後試題的影響,試題違反局部獨立性。在建構試題時,將這 樣一群試題視為同一個單位建構,這種特徵的題目稱為題組 (testlet) (Lee, Brennan, & Friabie, 2000; Wainer & Kiely, 1987);而題組試題和受試者的交互作 用,稱為題組效果,處理此類試題的模式,稱為題組反應模式。 相關研究指出,當忽略題組違反局部獨立性的情形,以傳統計算方式會高估 信度 (Sireci et al., 1991),以 IRT 估計參數時,能力值很低之受試者其答對率會被 高估 (Wainer & Wang, 2000)。Bradlow et al. (1999) 指出在題組反應模式中,若忽 略違反局部獨立性情形,則違反局部獨立性的題目其鑑別度會被低估,沒有違反 局部獨立性的題目其鑑別度則被高估,但 Ackerman (1987) 和 DeMars (2006) 的 研究則顯示,測驗中違反局部獨立性的題目,其鑑別度會被低估。 參照以上文獻,當忽略題組反應模式而違反局部獨立性情形,無論以傳統方 法還是 IRT 進行分析,在參數估計上都會產生偏誤,由 Wainer et al. (2000) 的研 究也指出,刪除違反局部獨立性的情形後,試題難度與鑑別度的估計誤差較未刪 除時小。由上述可知,實有必要處理違反局部獨立性情形的題目,而處理題組的 方法大致可分成兩類: 1. 將該題組所有試題的得分加總,以總分為測量單位,用多元計分的試題反應模 型,如部分給分模式 (Partial Credit Model) (Masters, 1982)、等級反應模式. - 19 -.

(32) (Graded Response Model) (Samejima, 1969) 等進行試題參數估計 (Thissen et al., 1989)。 2. 將題組效果視為隨機效果納入每個試題中,如 Bradlow et al. (1999) 延伸二參 數對數模式,以隨機效果表示違反局部獨立性的程度,將之納入於同一題組的 每個試題中,Wainer et al. (2000) 進一步提出三參數的題組反應模式,不但考 慮猜測參數,也將題組間的交互作用考慮之。Glas, Wainer, and Bradlow (2000) 的研究中,比較題組反應模式與三參數對數模式,對題組的估計情形,在試題 參數估計方面,發現在三參數對數模式下,難度與鑑別度的估計誤差,都較考 慮題組反應的模式高,顯示題組反應模式對試題參數估計的表現較好。 以上兩種方式,當題組違反局部獨立性的程度不高,測驗中大多非違反局部 獨立性的題目時,用多元計分的模式估計是可行的 (Wainer, 1995),但以題組為 單位,等同忽略每一題作答反應提供的訊息,實為可惜,故本文將題組效果視為 隨機效果,進行題組試題的參數估計分析探討。 處理題組的模式還有很多,例如 Gessaroli and Folske (2002) 以階層因素分析 為基礎,提出優於傳統方法的信度估計方式;Wang and Wilson (2005) 的模擬研 究,視 Rasch 模式延伸的題組反應模式,為多變量常態對數模式 (Multinomial Logit Model) 的特例,發現樣本數越大,參數估計的誤差越小。無論題組效果的 處理觀點為何,都顯示此為值得正視的議題。. - 20 -.

(33) 第三章 研究方法與設計 第一節 研究架構 根據研究目的,研究者參閱相關文獻後,以試題數、樣本數、題組效果程度 為因子,在兩個題組下,依照不同因子水準,模擬產生受試者的反應組型,並以 1-P HGLLM 與 Rasch 模式,在忽略題組效果的情況下,分別估計試題難度與能力 值,探討兩種模式在各因子組合下,估計試題難度與能力值的精準度情形。 本研究的資料模擬結構如圖 3-1,題組包含不同試題,且學生皆作答每一個 題組中的試題。因本研究是探討忽略題組效果時的估計精準度,故在資料模擬時 有模擬題組效果,但在估計參數時,則忽略題組的存在,即沒有圖 3-1 中的虛線 部分。研究架構如圖 3-2,現就研究架構圖分述如下。. i = 1, 2, ... , I. m = 1, 2, ... , M. j = 1, 2, ... , J. 試題 1 試題 2 試題 3. 學生 1 題組 1. 題組 2. 試題 4. 學生 2 學生 3 學生 4. 圖 3-1 本研究的資料模擬結構圖. - 21 -.

(34) 文獻探討與評述. 階層線性模式. 多層次試題反應理論. 局部獨立性. 題組反應模式. 確認模擬因子 ‧試題數:( 20,40,80 ) ‧樣本數:( 100,300,900 ) ‧題組效果程度 (σ γ 2,σ γ 2 ) : 1. 2. (0,0)、(0,2)、(0,8)、 (2,2)、(2,8). 確認模擬工具效度 資料模擬. 試題局部獨立性檢驗. Rasch 模式. 1-P HGLLM. ‧試題難度估計. ‧試題難度估計. ‧能力值估計. ‧能力值估計. 分析結果比較. 結論與建議 圖 3-2 研究架構圖. - 22 -.

(35) 一、理論基礎 (一) 題組效果的隨機項 令 有 M ( m = 1, 2, ... , M ) 個 題 組 , 每 個 題 組 包 含 I ( i = 1, 2, ... , I ) 個 試 題 , d (i ) = m ( 1 ≤ m ≤ M ) 表示試題 i 屬於題組 m 中的一題。Bradlow et al. (1999) 視題. 組效果為隨機效果,將二參數對數模式延伸如公式 (24): tij = ai (θ j − bi − γ jd (i ) ) + ε ij. (24). tij 為受試者 j 在試題 i 的潛在分數,ai、bi 分別表示試題 i 的鑑別度、難度,當 ai = 1. 即為 Rasch 模式,也就是本研究用到的模式;θ j 代表受試者 j 的能力值, γ jd (i ) 為 受試者 j 和題組 d (i ) 間的題組效果參數,且假設同一題組內的所有題目,對同一 受試者的題組效果相同。Bradlow 等人令 γ jd (i ) ~ N ( 0 , σ γ2 ) ,且題組效果參數、能 力值、試題難度三者相互獨立,題組間的題組效果參數也不互相影響。γ jd (i ) 的變 異數 σ γ2 可代表題組效果程度外,也可視為違反局部獨立性的程度, σ γ2 越大表示 題組效果越大,違反局部獨立性程度越多;當 σ γ2 = 0 ,表沒有題組效果,符合試 題局部獨立性,即服從 IRT 的基本假設。 ε ij 代表受試者 j 在試題 i ,其潛在分數 和作答反應之誤差項,並假設 ε ij 服從標準常態分配。 二元計分時,受試者 j 在試題 i 的作答反應 yij 根據公式 (25) 而來,潛在分數 大於 0 時,表受試者答對該題,小於等於 0 則反之。 ⎧⎪1 , tij > 0 yij = ⎨ ⎪⎩0 , tij ≤ 0. - 23 -. (25).

(36) (二) 1-P HGLLM 參數估計 以 1-P HGLLM 估計參數時,階層一為試題,階層二為受試者,數學式如公 式 (12)、(14) 與 (15)。. 二、模擬因子與重複次數 (一) 模擬因子 Kamata (1998b) 以階層線性模式說明對數模式的模擬研究中,試題數、樣本 數為因子之一,進一步發現其他情況不變時,題數越多能力值估計的越精準;除 此之外,許多研究中,題組數和試題數,也為題組反應模式的模擬因子之一 (DeMars, 2006; Jiao et al., 2005)。在 Jiao et al. 的研究中,更發現其他情況不變時, 題組效果程度會影響試題參數的估計精準度。 (二) 因子水準 IRT 的模擬研究裡,試題數方面,一個題組包含 5~100 個試題不等 (Du, 1998; Jiao & Kamata, 2001; Wainer, Kaplan, & Lewis, 1992);樣本數則從 1000 以內 (Kamata, 1998b; Tuerlinckx & Boeck, 2001; Wang, Bradlow, & Wainer, 2002) 到 5000 以上不等 (Du, 1998; Ferrara, Huynh, & Michaels,1999; Li, Bolt, & Fu, 2005); 就題組效果程度而言,有研究者將其程度設在 2 以下 (DeMars, 2006; Du, 1998)。 綜合以上文獻可知,因子水準的選取頗具彈性,唯獨在題組效果程度部分,未對 比較嚴重的程度進行探討,也成為本研究設定題組效果程度之重要參考。 基於上述,本研究考量人力、物力等成本後,設定為兩個題組,並以試題數、 樣本數、題組效果程度為模擬因子,共 45 ( 3 × 3 × 5 = 45 ) 種組合。三個因子的水 準選取如下: (1) 試題數 ( i ):20、40、80 題。在此指「試題總數」,其平均分配在兩個題組, 例如:試題數為 20 時,表兩個題組各包含 10 題。 (2) 樣本數 ( N ):100、300、900 人,代表小、中、大樣本。. - 24 -.

(37) (3) 題組效果程度 (σ γ2 ,σ γ2 ) : σ γ2 表第一個題組的題組效果程度, σ γ2 表第二個 1. 2. 1. 2. 題組的題組效果程度。 (σ γ2,σ γ2 ) 的值為 (0,0) 、 (0,2) 、 (0,8) 、 (2,2) 1. 2. (2,8) 。本研究的題組效果可分為三種,第一種如 (0,0) ,表「兩個題組皆. 無題組效果」,服從 IRT 中的局部獨立性假設;第二種如 (0,2)、(0,8) 表 只有一個題組有題組效果,本研究稱作「單一題組有題組效果」;第三種如 (2,2)、(2,8) 則稱為「兩個題組皆有題組效果」 。研究者並進一步以 σ γ2 − σ γ2 , 2. 1. 表示兩個題組效果程度的差異,例如 (2,8) 之兩個題組效果程度的差異即為 6,以利進一步說明探討。 (三) 重複次數 關於每種因子組合的重複 (replication) 次數研究,Drasgow (1989) 重複 10 次,Seong (1990) 重複 5 次,以進行二參數對數模式相關研究;Yang (1995) 重 複 50 次,進行二元計分的階層線性模式分析;Tuerlinckx and Boeck (2001) 於對 數模式相關研究中,每種組合重複 50 次;Stone (1992) 則指出重複 100 次時,其 結果較穩定,不易受樣本浮動 (sample fluent) 干擾;而 Kamata (1998b) 針對 Rasch 模式的研究,指出重複 50 次和重複 100 次的效果無顯著差異。 參考以上研究得知,重複次數介在 5~100 次,研究者考量估計精準度、時 間與人力後,選取 50 次為重複次數。. 三、精準度比較指標 兩個模式進行參數估計後,以下列幾種指標進行估計精準度比較,並輔以圖 形探討精準度與各因子間的關係。令資料共重複 R ( r = 1, 2, ..., R ) 次, ξ j 表參數 1 R j 的實際值,ξˆ jr 表重複第 r 次時,參數 j 的估計值,ξ j = ∑ ξˆ jr ,現分述指標如 R r =1. 下:. - 25 -.

(38) (一) Root Mean Square Deviation (RMSE) RMSE 為 Maris (1999) 所提出的參數估計適配度指標,其值越小代表估計精 準度越高,表示如公式 (26)。 R. ∑ (ξˆ jr − ξ j )2. RMSE (ξ j ) =. r =1. R. (26). (二) Bias (Maris, 1999) 估計值的平均和實際值之差,其定義如下: R. BIAS (ξ j ) =. ∑ ξˆ jr. r =1. R. −ξj. (27). (三) Monte Carlo Standard Error (MCSE) 此為穩定度、一致性的指標,其表示如下,檢查是否有一致性的低估或高估, 其值越小表估計的越一致。 R. ∑ (ξˆ jr − ξ j )2. MCSE (ξ j ) =. r =1. R. (28). (四) 均差 (mean absolute difference) 為避免參數估計時,部分次數高估,部分次數低估而產生中和現象,在此取 離均差的絕對值平均,當作精準度指標之一, ξ j 的均差定義如下: R. ∑ ξˆ jr − ξ j. r =1. R. (29). 許多模擬研究以上述幾種指標,當作估計精準度的參考 (Jiao & Kamata, 2003;. Kamata, 1998b; Rijmen, Tuerlinckx, Meulders, Smits, & Balazes, 2005),Rijmen et al. 更提到精準度指標之間的數學關係式: RMSE 2 = MCSE 2 + BIAS 2 ,故本研究利用 上述幾種指標,做為參數估計精準度的依據。 - 26 -.

(39) 第二節 研究工具 一、SAS 研究者利用 SAS 模擬受試者反應組型,用 SAS PROC MIXED (Latour, Latour,. & Wolfinger, 1994; Littell, Milliken, Stroup, & Wolfinger, 1996; SAS institute, 1992; Singer, 1997) 以及巨集 GLIMMIX (語法於附錄一),進行 1-P HGLLM 之參數估 計。 二、BILOG-MG (以下稱 BILOG) 此為常見的 IRT 估計軟體,研究者用其做 Rasch 模式下,試題難度和能力值 的估計,其試題估計結果檔,也提供給 LDID 讀取,檢定違反局部獨立性情形。 三、LDID 由 Kim, Cohen, and Lin (2005) 所研發,提供 χ 2 、 G 2 、 Q3 、 Z d 四個指標, 針對 BILOG 估計出的試題參數,檢測二元計分試題違反局部獨立性情形。. 第三節 資料模擬 研究者根據文獻決定模擬因子與參數後,以 SAS 撰寫程式,分別產生 45 種 組合之下,受試者二元計分的反應組型,Rasch 模式以 BILOG、1-P HGLLM 則 以 SAS 估計試題難度和能力值,並探討與比較兩種模式參數估計情形,其模擬流 程如圖 3-3,現就流程圖詳細說明如下。. - 27 -.

(40) 決定因子水準與參數 ‧試題數:( 20,40,80 ) ‧樣本數:( 100,300,900 ) ‧題組效果程度 (σ γ 2,σ γ 2 ) : 1. 2. (0,0)、(0,2)、(0,8)、 (2,2)、(2,8) ‧難度:服從 N ( 0 , 1 ) 且 − 2 ~ 2 ‧能力值服從 N ( 0 , 1 ). SAS 產生各種模擬情況的反應組型. LDID 確認試題局部獨立性. BILOG. SAS. ‧試題難度估計. ‧試題難度估計. ‧能力值估計. ‧能力值估計. 不同組合情況之參數精準度比較 ‧試題難度精準度探討與比較 ‧能力值精準度探討與比較. 撰寫報告. 圖 3-3 模擬流程圖. - 28 -.

(41) 一、決定相關參數 許多 IRT 相關研究,能力值多服從標準常態分配,試題難度以不選取極值為 原則 (Li et al., 2005; Yen, 1984),故本研究的能力值與試題難度的範圍為:. 1. 能力值:能力值服從標準常態分配。 2. 試題難度:試題難度服從標準常態分配,且取 − 2 ~ 2 之間。 二、模擬反應組型 研究者根據公式 (24)、(25),以 SAS 撰寫模擬程式,依照 45 種組合,產生 受試者的反應組型,以利進行參數估計。 三、違反局部獨立性檢測 在進行正式模擬前,先模擬 45 種組合下受試者的反應組型各 10 次,以 BILOG 進行參數估計後,再以 LDID 偵測試題違反局部獨立性情形。LDID 提供的指標 很靈敏 (sensitive),即便是完全沒有違反局部獨立性的試題,也可能被檢測出部 分試題的統計量指標達顯著。故研究者主要是檢查當題組效果越大,試題違反局 部獨立性的比率,是否有越高的趨勢,以確認撰寫的模擬程式誤差在可接受的範 圍,再進行正式模擬。 四、參數估計 在 Rasch 模式以 BILOG 估計試題難度與能力值外,研究者參考 Roberts and. Herrington (2005) 的範例,利用 SAS 提供的巨集 GLIMMIX,進行試題難度和能 力值的估計,以其代表 1-P HGLLM 的觀點。在估計法方面,BILOG 與 SAS 都採 用 MLE 估計法 (Maximum Likelihood Estimate) 進行估計。 五、精準度比較 參考相關模擬研究,其精準度指標有相關係數、估計值和實際值之差的關係 式 (Kamata, 1998b; Rijmen, Tuerlinckx, Meulders, Smits, & Balazes, 2005),考量較 常用的幾個指標後,試題難度的精準度指標為 RMSE、BIAS、MCSE;能力值的 精準度指標為 RMSE、均差。在計算精準度前,將試題難度減去能力值的平均數, - 29 -.

(42) 再除以能力值的標準差,以將試題難度移至和能力值同一量尺。並進一步把能力 值也標準化,才計算精準度。研究者並將參數估計精準度加以整理分析,比較兩 個模式估計參數的精準度情形,並進一步探討精準度和各因子間的關係,臚列表 格及圖形說明之。. - 30 -.

(43) 第四章 研究結果 本章將呈現 BILOG 與 SAS 兩個軟體,估計試題難度和能力值的情形,並在 固定其中一個因子的情況下,比較兩個軟體的估計精準度。兩個軟體的估計精準 度除整理成表之外,也根據其精準度數值繪製成圖於附錄二,以利觀察與探討精 準度趨勢。為方便說明定義以下符號:. 1. B-a00:以 BILOG 估計樣本數為 a00 的情況。 2. S-a00:以 SAS 估計樣本數為 a00 的情況。 3. B-a0:以 BILOG 估計試題數為 a0 的情況。 4. S-a0:以 SAS 估計試題數為 a0 的情況。 5. (a,b):第一個題組的題組效果程度為 a,第二個題組的題組效果程度為 b。 例如:B-300 表示以 BILOG 估計樣本數為 300 的情況;S-80 表示以 SAS 估 計試題數為 80 的情況;(0,2 ) 表示第一個題組的題組效果程度為 0,第二個題 組的題組效果程度為 2。敘述及比較兩個軟體的估計情形時,大致依以下幾點:. 1. 固定一個因子下,精準度隨其他因子的變化趨勢。 2. 在 (0,2)、(0,8) 單一題組有題組效果時,兩個軟體的精準度隨因子的變化 趨勢。. 3. 在 (2,2)、(2,8) 兩個題組皆有題組效果時,兩個軟體的精準度隨因子的變 化趨勢。. 4. 兩個軟體在 (0,8) 的精準度與在 (2,2) 的精準度比較。藉此瞭解有題組效 果時,兩個題組效果程度的差異大小,對估計影響的情形。. 5. 兩個軟體在不同因子下的精準度比較。. - 31 -.

(44) 第一節 估計結果 表 4-1 為 SAS 和 BILOG 估計試題難度的精準度表現。. - 32 -.

(45) (σ γ2 ,σ γ2 ) 1. 2. (0,0). (0,2). (0,8). (2,2). (2,8). 表 4-1 SAS 和 BILOG 估計試題難度的精準度表現 I = 20 I = 40 軟體 指標 N N 100 300 900 100 300 900 100 RMSE .221 .128 .088 .220 .124 .076 .201 SAS BIAS .050 .046 .045 .045 .027 .025 .022 MCSE .213 .118 .072 .213 .119 .070 .199 RMSE .225 .131 .091 .220 .123 .074 .198 BILOG BIAS .054 .049 .049 .037 .021 .013 .023 MCSE .216 .119 .073 .215 .120 .072 .196 RMSE .245 .184 .157 .253 .179 .137 .247 SAS BIAS .114 .119 .117 .107 .106 .106 .114 MCSE .200 .125 .091 .213 .122 .064 .196 RMSE .246 .185 .148 .253 .178 .139 .248 BILOG BIAS .114 .119 .115 .106 .106 .105 .116 MCSE .200 .127 .075 .212 .116 .064 .192 RMSE .315 .268 .235 .320 .258 .226 .318 SAS BIAS .204 .220 .214 .213 .204 .200 .206 MCSE .192 .112 .064 .194 .111 .064 .191 RMSE .355 .268 .235 .319 .258 .226 .321 BILOG BIAS .204 .218 .212 .210 .200 .197 .203 MCSE .235 .112 .065 .190 .110 .064 .191 RMSE .276 .224 .205 .298 .237 .225 .297 SAS BIAS .185 .180 .189 .203 .198 .211 .213 MCSE .190 .117 .066 .199 .111 .064 .184 RMSE .280 .228 .209 .305 .247 .237 .305 BILOG BIAS .188 .183 .193 .215 .210 .223 .229 MCSE .193 .119 .066 .195 .110 .062 .178 RMSE .375 .336 .307 .373 .330 .317 .377 SAS BIAS .300 .299 .296 .302 .305 .306 .310 MCSE .195 .119 .062 .179 .098 .060 .177 RMSE .381 .344 .316 .380 .341 .329 .387 BILOG BIAS .307 .309 .306 .316 .319 .319 .326 MCSE .195 .119 .061 .173 .094 .056 .172. - 33 -. I = 80 N 300 .115 .015 .114 .114 .015 .113 .170 .110 .102 .174 .114 .099 .261 .204 .107 .263 .203 .104 .246 .212 .105 .259 .228 .102 .345 .317 .103 .357 .333 .097. 900 .066 .014 .064 .065 .008 .064 .146 .107 .069 .150 .110 .066 .235 .202 .067 .237 .200 .065 .226 .212 .059 .242 .229 .058 .327 .317 .056 .341 .333 .052.

(46) 表 4-2 為 SAS 和 BILOG 估計能力值的精準度表現。. (σ γ ,σ γ ) 2. 1. 2. 2. (0,0). (0,2). (0,8). (2,2). (2,8). 表 4-2 SAS 和 BILOG 估計能力值的精準度表現 I = 20 I = 40 軟體 指標 N N 100 300 900 100 300 900 100 RMSE .381 .354 .353 .277 .285 .350 .214 SAS 均差 .302 .282 .280 .219 .224 .277 .170 RMSE .372 .362 .361 .311 .300 .293 .282 BILOG 均差 .296 .288 .287 .248 .241 .234 .227 RMSE .625 .629 .639 .587 .597 .604 .579 SAS 均差 .508 .508 .513 .477 .481 .489 .470 RMSE .630 .634 .628 .592 .602 .602 .604 BILOG 均差 .510 .511 .505 .479 .485 .485 .487 RMSE .805 .805 .798 .768 .773 .784 .749 SAS 均差 .657 .663 .653 .630 .636 .647 .620 RMSE .809 .810 .802 .782 .787 .786 .775 BILOG 均差 .657 .664 .654 .635 .640 .642 .633 RMSE .826 .821 .823 .811 .803 .814 .800 SAS 均差 .660 .658 .658 .654 .640 .649 .636 RMSE .829 .824 .825 .818 .812 .812 .813 BILOG 均差 .662 .660 .659 .659 .648 .648 .648 RMSE .975 .957 .969 .951 .942 .953 .934 SAS 均差 .779 .762 .775 .764 .755 .764 .748 RMSE .980 .960 .974 .956 .952 1.427 .947 BILOG 均差 .785 .765 .779 .770 .764 1.138 .759. I = 80 N 300 .196 .154 .274 .223 .554 .452 .581 .469 .740 .611 .764 .619 .792 .633 .810 .649 .939 .750 .950 .759. 900 .187 .146 .266 .216 .607 .493 .583 .469 .743 .614 .767 .622 .796 .634 .810 .646 .950 .758 .962 .769. 由表 4-1 與 4-2 可看出,有些數值的差距很小,故下面三節牽涉到比較的說 明,只是相對上的情形,實際的差距還是要以表中的數值為主。. - 34 -.

(47) 第二節 固定試題數下的精準度比較 一、試題難度估計情形. (一) RMSE 圖形如圖 4-1、4-2、4-3 所示。在試題數 20、40、80 時均可發現:. 1. 兩個軟體在 RMSE 的表現,皆隨樣本數增加而減小。許多模擬研究也都顯示, 樣本數越多試題參數估計的越精準,不會因為用一階段分析法或用二階段分析 法,而有不同趨勢 (Kamata, 1998a, 1998b)。. 2. 兩個軟體在單一題組有題組效果時,無論樣本數是 100、300 或 900,RMSE 皆隨題組效果程度增加而增大;兩個題組皆有題組效果時,RMSE 也呈現此種 走勢。顯示題組效果會影響試題難度的估計精準度,題組效果越大,試題難度 的估計精準度越不好。也代表 1-P HGLLM 和 Rasch 模式在估計參數時,均未 將題組效果考慮進去。. 3. 大致上,兩個軟體在 (0,8) 的 RMSE 大於在 (2,2) 的 RMSE,但也有例外 的情形,在 40 題 (圖 4-2)、80 題 (圖 4-3) 時,BILOG 在樣本數 900 的情況,. (0,8) 的 RMSE 則小於在 (2,2) 的 RMSE。顯示有題組效果時,兩個題組效 果程度的差異較大,與兩個題組效果程度的差異很小時,兩個軟體在後者的估 計精準度較好,但隨著題數與樣本數增多,BILOG 在試題難度的估計精準度, 在兩個題組效果程度的差異較大時表現較好,但以 SAS 估計時則未出現此現 象。由此推測,Rasch 模式在試題難度估計上,比較容易受題組效果的影響。. 4. 比較兩個軟體的 RMSE,大致上,在沒有或單一題組有題組效果時,兩個軟體 的 RMSE 幾乎相同,但也有例外的情況,在 20 題 (圖 4-1)、(0,8) 且樣本數 為 100 時,BILOG 的 RMSE 較 SAS 的 RMSE 大,並非相差不多。這可能是重 複次數不夠多而造成的,也可能是 BILOG 本來就不適合估計小樣本的情況, 加上兩個題組效果程度的差異較大,故 RMSE 明顯增加。而兩個題組都有題 - 35 -.

(48) 組效果時,則 BILOG 的 RMSE 較 SAS 的 RMSE 略大,表示 SAS 的穩健度較. BILOG 略好。 (二) BIAS 圖形如圖 4-4、4-5、4-6 所示。在試題數 20、40、80 時均可發現:. 1. 兩個軟體在 BIAS 的表現,大致上,皆不受樣本數影響,在樣本數為 100、300、 900 時的 BIAS 都差不多,但有例外的情形,在 40 題 (圖 4-5)、80 題 (圖 4-6), 兩個題組皆有題組效果時,BILOG 的 BIAS 較 SAS 的 BIAS 略大。由 BIAS 的 趨勢,無法看出隨樣本數的變化情形,推測是 BIAS 的計算方式,會讓高估與 低估的值相互抵消所致。. 2. 兩個軟體在單一題組有題組效果,又樣本數為 100、300、900 時,BIAS 隨題 組效果程度增加而增加;在兩個題組同時有題組效果時,BIAS 也呈現此種走 勢。由 BIAS 的結果可知,題組效果會影響試題難度的估計精準度,與在 RMSE 的結果相同。另外一提的是,儘管局部獨立性是 IRT 中的假設,但當有題組效 果時,以階層線性模式估計試題難度,一樣會受題組效果的影響。. 3. 在 20 題 (圖 4-4) 時,兩個軟體在 (0,8) 的 BIAS 大於在 (2,2) 的 BIAS, 但在 40 題 (圖 4-5) 時,隨樣本數增加,此情形越不明顯。在 80 題 (圖 4-6) 時, 兩個軟體在 (0,8) 的 BIAS 小於在 (2,2) 的 BIAS。此結果顯示,隨試題數 和樣本數增大,BILOG 和 SAS 在兩個題組效果程度的差異較大時,有估計的 較兩個題組效果程度的差異很小時精準的趨勢。此結果與 RMSE 的結果有些 出入,可能是兩個精準度指標計算方式不同所造成的。. 4. 比較兩個軟體的 BIAS,大致上,在沒有或單一題組有題組效果時,兩個軟體 的 BIAS 幾乎相同;兩個題組皆有題組效果時,則 BILOG 的 BIAS 較 SAS 的. BIAS 略大。由此可知,當兩個題組皆有效果時,SAS 的穩健度略較 BILOG 好。. - 36 -.

參考文獻

相關文件

由於本計畫之主要目的在於依據 ITeS 傳遞模式建構 IPTV 之服務品質評估量表,並藉由決

李友錚【5】指出有關顧客需求特性的探討目前以 Kano 二維品質模式 最具代表。因此,可以利用 Kano

在軟體的使用方面,使用 Simulink 來進行。Simulink 是一種分析與模擬動態

住宅選擇模型一般較長應用 Probit 和多項 Logit 兩種模型來估計,其中以 後者最常被使用,因其理論完善且模型參數之估計較為簡便。不過,多項

則巢式 Logit 模型可簡化為多項 Logit 模型。在分析時,巢式 Logit 模型及 多項 Logit 模型皆可以分析多方案指標之聯合選擇,唯巢式 Logit

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

HDL) 如 VHDL 和 Verilog,透過如軟體設計般的語言方式進行描述來提升設計 上的抽象化階層並且降低設計時的複雜度,此設計階層被稱之為暫存器傳輸階層

本研究以 CCR 模式的投入導向模式進行差額變數分析 ,針 對相對無效率之