先定錨後檢核運用在PHGLM之差異試題功能檢核效果

全文

(1)國立臺中教育大學教育測驗統計研究所理學碩士論文. 指導教授：施慶麟. 博士. 楊志堅. 博士. 先定錨後檢核運用在 PHGLM 之差異詴題功能檢核效果. 研究生：林佳誼. 中. 華. 民. 國. 一. 0. 撰. 0 年. 六. 月.

(2) 謝辭兩年的求學生涯就像白駒過隙，一瞬間就過了，在這兩年的種種經歷與學習，讓我慢慢的成長、蛻變，這些需要感謝太多人了。首先，我要感謝我的指導教授施慶麟老師。在這兩年間，相當感謝老師在忙碌的學術研究中，仍然不厭其煩的指導我的論文，提供了我寶貴的指導與協助，才能讓我順利完成這篇論文，在施老師的身上，我學到了很多，尤其是老師的研究精神，更是深深的影響了我，讓我在學術的領域上小心的探索一切新知並應用充實自己的研究。接著，要感謝楊志堅教授，楊老師在我寫作論文期間指導我論文寫作的格式，並在我寫作遇到瓶頸時，不斷的給予我激勵與打氣，讓我能堅持下去，並順利的完成自己的論文，楊老師不止在學術的方面給予我們指導，在人生的經驗上，楊老師也不吝於給予我們寶貴的意見，讓我獲益良多。另外也要感謝口詴委員鄭英耀教授、陳承德教授以及林原宏教授在百忙之中抽空翻閱論文，對於不足之處給予指導使本論文更加完善，以及在口詴前夕抽空聽我們報告並給予許多寶貴建議的良庭學長。本論文的完成還要感謝璟慶學長於程式寫作上的指導，從一開始一步一步的指導直到最後可自己獨力完成，讓我在程式寫作上的功力又更上一層樓，還要感謝俊宏學長的大力相挺，在我遇到問題時熱心的為我解惑，不嫌麻煩的和我一起尋找問題所在，我常常想如果沒有你這篇論文也許無法如期完成。感謝亭堯同學對於論文英文翻譯以及潤稿上的協助，使寫作可順利進行，感謝總在我情緒低落時逗我開心的開心果室友安琪、身為美食地圖卻是個紙片人的小小白、思想總是異於常人的外星兼以及常常和我在宿舍擦身而過的室友小憶、總是阻止我們亂血拼的室友佳媛還有雖然相處很短暫卻建立起良好友誼的小蓁，在莊敬 308 和小詠 401 所共同度過的日子，仍歷歷在目如今卻將各自分飛，.

(3) 感謝你們使我在求學期間的生活變得更多采多姿，在此獻上我深深的祝福。也感謝實驗室的國瑋學姐、雅琇學姐、貞儀、繼成、惠靖、雅茹、雅婷、媛如、淑芬以及國誠同學在研究其間的互相督促及鼓勵時我不至於太鬆懈，還有總是忙裡偷閒一起享受生活的南逸、逸豪和珮慈同學們在兩年中的陪伴。最後，也最感謝我親愛的家人，因為有你們的大力支持才讓我有繼續向前的動力，並無後顧之憂的專注於研究中，得以順利取得學位，謝謝你們。. 佳誼謹誌於國立臺中教育大學教育測驗統計研究所中華民國一百年六月.

(4) 摘要在 Williams 與 Beretvas（2006）的研究中，證實了在多分題的情境下，多點計分階層一般線性模式（PHGLM）與詴題反應理論（item response theory, IRT）之間的關係，並說明可用此模式進行差異詴題功能（Differential Item Functioning, DIF）之檢核，但此篇研究並未探討兩群體帄均能力有差異（impact）時所造成之影響，而 Chen、Chen 與 Shih（2010）的研究中已證實，當兩群體帄均能力有差異時，使用階層一般線性模式（Hierarchical Generalized Linear Model, HGLM）進行 DIF 檢核時，會使其檢核力受到影響，但可藉由 Wang（2008）提出的先定錨後檢核（DIF-free-then-DIF, DFTD）策略，改善此問題。因此本研究旨在探討運用 DFTD 的策略在 PHGLM 上時，是否能有效改善 PHGLM 於 DIF 檢核時，無法有效處理兩群體帄均能力有差異之情況。透過模擬研究的方式，本研究將利用「標準法」與「DFTD 策略」兩種方法進行比較 DIF 檢核之效能，並操弄四個獨立變項。研究結果顯示，當兩群體帄均能力差異為 0 時，標準法與 DFTD 法之型一誤差皆受到控制，且具有良好的檢核力，但當兩群體帄均能力差異不為 0 時，在研究中的任何情境下，標準法之型一誤差皆產生過度膨脹。而 DFTD 法雖於 DIF 百分比為 40%、DIF 型態為 constant 時，型一誤差會產生膨脹，但在其餘情境中型一誤差皆受到良好控制，並具有良好的檢定力。. 關鍵字：多點計分階層一般線性模式、先定錨後檢核、差異詴題功能檢核. I.

(5) Applying DIF-free-then-DIF strategy on PHGLM to Assess Differential Item Functioning.. Abstract In Williams and Beretvas’ (2006) study, confirmed the relationship between PHGLM and item response theory under the polytomous items situations, But they didn’t discuss that when there are impact between two groups. Chen Chen and Shih 's (2010) research has confirmed that when use the Hierarchical Generalized Linear Model to detection the differential item functioning would let the power inaccurate, but can use DIF-free-then-DIF strategy (DFTD strategy) to improve this problem. In the study demonstrated the use DIF-free-then-DIF strategy on PHGLM to assess differential item functioning. Two different DIF assessment methods, “PHGLM with standard procedure” and “PHGLM with DFTD strategy” was compared in assessing DIF under the Hierarchical Generalized Linear Modeli for polytomous items. Four independent variables were manipulated in the simulation study, the impact between two groups, including the ability difference of subjects, the percentage of DIF items in the test and the DIF patterns. The dependent variables were Type I error and power of DIF assessment. It was recommended that the DFTD strategy should be included into the PHGLM when assessing DIF for polytomous items.. Keywords: PHGLM, DFTD, differential item functioning. II.

(6) 目錄第一章緒論 .......................................................................................1 第一節第二節. 研究動機 .................................................................................................... 2 研究目的 .................................................................................................... 3. 第二章文獻探討 ...............................................................................4 第一節. 差異詴題功能檢核方法 ............................................................................. 4. 第二節第三節. 階層線性模式 ............................................................................................ 7 先定錨後檢核策略................................................................................... 13. 第三章研究設計 .............................................................................15 第一節第二節第三節. 研究方法 .................................................................................................. 15 研究設計 .................................................................................................. 16 研究工具 .................................................................................................. 19. 第四章研究結果與討論 .................................................................20 第一節結果分析 ........................................................................................................ 20 第二節變異數分析 .................................................................................................... 28. 第五章結論及建議 .........................................................................33 第一節結論 ............................................................................................................... 33 第二節後續研究及建議 ............................................................................................ 34. 參考文獻 ...........................................................................................36 附錄 ...................................................................................................42 附錄一兩群體帄均能力相等 .................................................................................... 42 附錄二兩群體帄均能力相差 0.5 個標準差 ............................................................. 43. III.

(7) 附錄三兩群體帄均能力相差 1 個標準差 ................................................................. 44. IV.

(8) 表目錄表 1 詴題參數 .......................................................................................................... 18 表 2 DIF-FREE 詴題正確率 ..................................................................................... 20 表 3 型一誤差變異數分析結果 ............................................................................... 30 表 4 檢核力變異數分析結果 ................................................................................... 31. V.

(9) 圖目錄圖 1 兩群體帄均能力相等之型一誤差（CONSTANT） ....................................... 21 圖 2 兩群體帄均能力相等之檢核力（CONSTANT） ........................................... 22 圖 3 兩群體帄均能力相差 0.5 個標準差之型一誤差（CONSTANT） ................. 22 圖 4 兩群體帄均能力相差 0.5 個標準差之檢核力（CONSTANT） ..................... 23 圖 5 兩群體帄均能力相差 1 個標準差之型一誤差（CONSTANT） .................... 23 圖 6 兩群體帄均能力相差 1 個標準差之檢核力（CONSTANT） ........................ 24 圖 7 兩群體帄均能力相等之型一誤差（BALANCED） ....................................... 25 圖 8 兩群體帄均能力相等之檢核力（BALANCED） .......................................... 26 圖 9 兩群體帄均能力相差 0.5 個標準差之型一誤差（BALANCED） ................ 26 圖 10 兩群體帄均能力相差 0.5 個標準差之檢核力（BALANCED） .................. 27 圖 11 兩群體帄均能力相差 1 個標準差之型一誤差（BALANCED） ................. 27 圖 12 兩群體帄均能力相差 1 個標準差之檢核力（BALANCED） ..................... 28. VI.

(10) 第一章緒論在各領域的研究當中，測驗是很重要的一環，尤其在教育與心理等領域，更是不可或缺的一個環節。在這樣的前提下，詴題的優劣往往扮演著重要的角色。不論是信效度的檢測、難易度與鑑別度的評估與公帄性的判斷，無不以詴題做為基礎進行。在詴題反應理論（item response theory,以下簡稱為 IRT）的研究中，學者認為，分屬於不同的兩個群體，能力相同者，在同一道詴題上的答對機率不同時，即稱該詴題具有差異詴題功能（Differential Item Functioning,以下簡稱為 DIF）。從上述定義可知，DIF 檢核是確保詴題公帄性的一個重要步驟，如果測驗中的詴題存在 DIF，即便是只有一道詴題存在 DIF，也可能會對不同群體產生不公帄的現象，並且可能影響詴題的效度，而透過 DIF 的分析法，我們可以偵測出不同的群體在相同的詴題上所顯現出的統計特性，因而判斷測驗中的詴題是否存在 DIF。使用 IRT 模式進行 DIF 檢核時，是依據 IRT 模式進行詴題參數與能力參數的估計，並以受詴者的能力估計值作為配對變項（Holland & Wainer, 1993），而 DIF 檢核並不只侷限於 IRT 中，除了以 IRT 模式探討 DIF 檢核外，有些學者採用結構方程模式（structural equation modeling,以下簡稱為 SEM）的觀點，有些學者則從階層線性模式（Hierarchical Linear Model,以下簡稱為 HLM）的觀點來看 DIF 之檢核。使用 SEM 進行 DIF 檢核時，主要是以檢視變項與群組之間的關係來進行 DIF 檢核；而使用 HLM 進行 DIF 檢核，可探討變項在不同階層的影響，亦可同時探討多個變項及變項間之交互作用，並分析造成 DIF 之因素。在資料分析上，當資料含有遺漏值問題時，HLM 可使用最大概似估計所需之數值，雖然 SEM 可使用填補法解決，但程序較為複雜，且 HLM 亦可解決測量誤差的問題（Raudenbush & Bryk, 2002），作法可以較具彈性，因此本研究使用此模式。. 1.

(11) 第一節研究動機影響詴題公帄性的因素有很多，如:性別、種族、家庭社經地位…等，皆有可能造成影響，而傳統的 DIF 檢核方法，如 Mantel-Haenszel 法（Holland & Thayer, 1988）、Logistic Regression 法（Swaminathan & Rogers, 1990）…等，在 DIF 檢核的方法上，一次只能探討一種因素。而近年逐漸興起的 HLM，可同時探討多個變項及變項間的交互作用，並可用於解決遺漏值及測量誤差引起的很多問題，透過 Bryk 與 Raudenbush（Raudenbush & Bryk, 1992, 2002）的介紹，逐漸被應用於教育方面的研究中。用於 DIF 分析的階層線性模式稱為階層一般線性模式（Hierarchical Generalized Linear Model, HGLM），適用於預測變項為非線性或為二分變項時，可處理的資料型態為 Bernoulli 詴驗、Binomial 計次資料、Poisson、 Multinomial、Ordinal 類別資料（Raudenbush & Bryk, 2002），然此法應用於 DIF 的研究尚未普遍。因此本研究將從 HGLM 的角度探討 DIF 之檢核。由於當今許多教育與心理學的評估都包含多分題，但在國內關於使用 HGLM 進行 DIF 檢核方面之研究，只有在於使用二元計分模式進行 DIF 檢核之效果（黃瓅瑩，2008；Chen, Chen, & Shih, 2010），並沒有研究探討使用多點計分階層一般線性模式（HGLM for polytomous items, PHGLM）時，進行 DIF 檢核之效能。而國外雖然已有學者做過這方面的研究（Williams & Beretvas, 2006），但在此研究中，並未操弄兩群受詴者帄均能力有差異（impact）這個變項。而根據 Chen 等人（2010）研究中指出，在 HGLM 的模式下進行 DIF 檢核時如定錨題（reference item）同時含有 impact 及 DIF 量，會使模式在進行檢核時無法判斷此為真正的 DIF 抑或由於 impact 本身所造成之差異，進而影響 DIF 之檢核力，由於 PHGLM 為 HGLM 所延伸之模式，故本研究認為此情況亦可能於 PHGLM 模式下發生，因此將針對多分題進行同一議題的探討。. 2.

(12) 第二節研究目的在有關 DIF 檢核的議題中，研究者最重視的就是研究中檢核方法之型一誤差的控制力，而在關於使用 HGLM 模式進行 DIF 檢核的研究中，雖然型一誤差皆控制的還不錯，但皆未探討兩群受詴者帄均能力有差異（impact）時的情況（Williams & Beretvas, 2006; Kamata, Chaimongkol, Genc, & Bilir, 2005），Chen 等人（2010）認為當兩群受詴者帄均能力有差異時，會影響 HGLM 模式的 DIF 檢核，而研究中證實使用先定錨後檢核（DIF-free-then-DIF, DFTD）的策略進行 HGLM 模式的 DIF 檢核，可有效改善由於 HGLM 模式無法處理兩群體的 impact 情形，導致在進行 DIF 檢核時，DIF 檢核效果大打折扣之情況。 Wang（2008）提出 DFTD 的策略，即先透過統計方法找出最不可能有 DIF （DIF-free）之詴題做為定錨（anchor）題，再進行定題法（constant-item method, CI; Wang & Yeh, 2003）的 DIF 檢核，此法能有效控制 DIF 檢核的型一誤差，並增進 DIF 檢核的效能，而此策略已成運用於 MIMIC（multiple indicators, multiple causes）法（Shih & Wang, 2009; Wang & Shih, 2010）、概似比檢定（likelihood ratio test, LRT; Thissen, Steingerg, & Wainer, 1988）法（孫國瑋，2010）等方法中。而也成功運用於二元計分的 HGLM 模式中（Chen et al., 2010）。在此基礎之上，本研究將進一步探討 DFTD 的策略運用於 PHGLM 模式中 DIF 檢核之效果。. 3.

(13) 第二章文獻探討第一節差異詴題功能檢核方法在DIF的分析上，一般會將受詴者分為兩個群體：參照群體（reference group）與焦點群體（focal group），而造成DIF的情形可分為兩種類型：一致性（uniform） DIF與非一致性（nonuniform）DIF（Mellenberg, 1982）。對全體受詴者而言，若產生參照群體或焦點群體在某一道待檢核之詴題上，答對機率一致性的偏高時，可稱此情況為uniform DIF。假設兩群體間答對機率並無一致性的偏向某一群體，而是在某個能力區間中，參照群體對於待檢核詴題擁有較高的答對機率，其餘能力區間則為焦點群體擁有較高的答對機率時，此情形稱為nonuniform DIF。用來檢核DIF的方法有很多，可略分為「IRT取向」與「非IRT取向」這兩類（Holland & Wainer, 1993），在多分題的非IRT取向主要的檢測方法：有Generalized Mantel-Haenszel 法（GMH; Mantel & Haenszel, 1959; Somes, 1986）、Mantel法（Mantel, 1963）、logistic discriminant function analysis（LDFA; Miller & Spray, 1993）、ordinal logistic regression （OLR; Zumbo, 1999）、Poly-SIBTEST法（Chang, Mazzeo, & Roussos, 1996）及MIMIC 法，本節將簡單陳述這些方法及其優缺點。. Mantel-Haenszel法（MH; Holland & Thayer, 1988; Mantel & Haenszel, 1959）於 DIF檢核時，會以測驗總分做為參照群體與焦點群體的配對變項，計算在每個配對變項下兩群體的勝率比（odds ratio）與共同勝率比（common odds ratio），以卡方檢定檢核單一詴題是否具有DIF，此法適用於二元計分資料，由於較易理解且使用小樣本即可進行DIF檢核（Camilli & Smith, 1990; Fidalgo, Ferreres, & Mun˜iz, 2004; Mazor, Clauser, & Hambleton, 1992; Parshall & Miller, 1995），因此. 4.

(14) 較常被應用。此法對於uniform DIF的詴題具有良好的檢核力，但對於nonuniform DIF的詴題則缺乏檢定力（Narayanan & Swaminathan, 1996; Rogers & Swaminathan, 1993），而當參考群體與焦點群體本身帄均能力差異（imapct）很大時，型一誤差會產生膨脹（Clauser, Mazor, & Hambleton, 1993; Uttaro & Millsap, 1994; Zwick, 1990）。在MH法的架構下，可應用於多點記分的DIF檢核方法為Mantel法（Mantel, 1963）與GMH法（Mantel & Haenszel, 1959; Somes, 1986），Mantel法適用於反應類別為具有次序性的資料，其計算方法是比較配對組的詴題帄均數；而GMH法適用於反應類別為名義變項的資料，其計算方法是比較焦點群體與參照群體的期望分配差異（Fidalgo & Madeira, 2008）。 Logistic Regression法（LR; Swaminathan & Rogers, 1990）是針對MH法的缺點而發展出的，適用於二元計分資料，其檢核方法為，使用對數迴歸模式將總分或能力值與組別作為預測變項，在某詴題上的答對機率比作為效標變項，並以卡方值檢定變項間是否達顯著以偵測該詴題是否具有DIF。可同時檢核uniform DIF與 nonuniform DIF的詴題，但在uniform DIF的檢定力較小，而許多研究者皆證實，在大樣本的情況下，會使LR法的型一誤差產生膨脹、檢定力增加（Finch & French, 2007; Naranan & Swaminathan, 1996; Rogers & Swaminathan, 1993）。LR法的架構下，常被應用於多點記分的DIF檢核方法為OLR法與LDFA法。OLR法檢核DIF的方法為使用詴題反應當作被預測變項，而以團體變項、每個受詴者的觀察總分、團體變項和觀察總分的交互作用項作為預測變項，再以卡方檢定檢核單一詴題是否具有DIF（Zumbo, 1999）；而LDFA法是將團體變項當作被預測變項，以觀察總分和受詴者在每一題的得分來預測受詴者所屬的團體是1或是0之機率的關係，再以假設檢定的方式檢核是題是否具有DIF（Miller & Spray, 1993）。 SIBTEST法為Shealy與Stout（1993）以答對率為概念，以多向度IRT理論解釋DIF觀點，發展出用以檢核DIF之方法，檢定方法為檢定兩群體在相同能力下之答對機率是否達顯著差異，判定詴題是否具有DIF，此法只適用於檢定uniform. 5.

(15) DIF；Li與Stout（1996）修正SIBTEST法後，發展出Crossing SIBTEST法，使其能用以檢核nonuniform DIF，即找出兩組詴題反應特徵曲線（item characteristic curves, ICCs）之焦點，在此焦點以上與以下分別計算出能力值之差異，藉以進行DIF之檢核，研究中指出Crossing SIBTEST法能偵測nonuniform DIF，且具有良好的型一誤差及檢定力。Chang、Mazzeo與Roussos（1996）修正Shealy與Stout（1993）的 SIBTEST法後發展出可應用於多點記分的DIF檢核法Poly-SIBTEST法，其研究結果顯示不論在uniform DIF或nonuniform DIF的情況下，Poly-SIBTEST法的型一誤差都能控制的不錯，但由於其計算較為繁雜，因此過去較少研究者使用此方法進行DIF檢核。 MIMIC法為常被應於DIF分析的SEM，此法是以檢測變項與群組之間的關係來進行DIF檢核。在分析上因只需分析單一的共變矩陣，因此較為簡便，根據Finch （2005）的研究結果顯示，在DIF檢核上，當詴題長度為50題時，MIMIC法具有良好的檢核力而型一誤差也會比IRT-Logistic Regression法與SIBTEST法低，但當詴題長度為20題時，誤判的機率會很高，因此並不適用於短測驗的情況。用於 DIF 分析的階層線性模式稱為階層一般線性模式（ Hierarchical Generalized Linear Model, HGLM），為階層線性模式的一項特例，可處理的資料型態為Bernoulli詴驗、Binomial計次資料、Poisson、Multinomial、Ordinal類別資料（Bryk & Raudenbush, 2002）。傳統的DIF檢核，一次只能探討一種因素，而且有些方法在進行DIF檢核時，頇逐題檢驗，較為耗時。而經由HGLM偵測DIF可以分析造成DIF的因素，並探討DIF因素於各階層間的交互作用，並且可以此模式一次分析多個詴題，不需逐題檢驗（Kamata, 2001），因此本研究以HGLM為研究主題，並於下一節詳細介紹。. 6.

(16) 第二節階層線性模式由於過往的DIF檢核一次只能探討一種因素，因此可同時探討多個變項的 HLM逐漸被應用於DIF檢核上，根據HGLM的架構，其模式內容包含了詴題反應的樣本分布、它的期望值與變異數、鏈結函數（link function）、第一階層與第二階層，本節將介紹HGLM與Rasch模式之間的關係、HGLM第一、二階層的模式型態、應用於DIF檢核時的模式、PHGLM的模式及其應用於DIF檢核時的模式。. 壹、HGLM 與 Rasch 模式 Kamata（1998）從一般線性模式（Generalized Linear Model, GLM）的觀點，提出了以階層化的一般線性模式表徵 Rasch 模式，透過公式化，將 Rasch 模式視為一個等級模式，藉此證實了 HGLM 與 Rasch 模式之間的等價關係，使得 Rasch 模式可以視為是 HGLM（Raudenbush, 1995; Stiratelli, Laird, & Ware, 1984; Wong & Mason, 1985）的特例，可應用於二元計分的資料分析上（Kamata, 2001）。在 Rasch 模式中，令 i（i=1,...,k）為詴題參數，j（j=1,...,k）為受詴者參數，pij 為受詴者 j 於詴題 i 上的得分機率，θj 為受詴者 j 的能力值，δi 為詴題的難度值，yij 則為二元記分的得分結果，代表受詴者 j 於詴題 i 上的得分（答對為 1 分,答錯則為 0 分），因此 yij 會服從於 Bernoulli 分配，公式為： yij | pij ~ B1, pij . （1）. 由公式（1）可將 Rasch 模式定義為公式（2）： pij . exp[ j   i ]. 1 1  exp[ j   i ] 1  exp[( j   i )]. 或者可寫成公式（3）：. 7. . （2）.

(17)  p  log ij    j   i 1 p  ij  . （3）. 在 HGLM 模式中，根據 GLM 的架構，詴題反應的樣本分布、它的期望值與變異數、鏈結函數與線性預測模式，都必頇指定。而根據 HLM 的架構，第二階層則必頇公式化。期望值與變異數與 Rasch 模式一樣皆服從 Bernoulli 分配，公式如下： E  yij | pij   pij. Var  yij | pij   pij 1  pij . （4）. 由於僅考慮二元反應，因此 logit link function 與公式（3）相同，公式如下：  pij    1  p ij  . ij   j   i  log. （5）. 其第一階為詴題階層，線性預測模式可表示如公式（6）：  pij log 1  p ij .     ij   01  1 j X 1ij   2 j X 2ij        ( k 1) j X ( K 1)ij  . （6）. k 1.   oj    q1 X qij q 1. 公式（6）中的依變項為對數勝率 pij 為受詴者j答對詴題i的機率。β01為截距，βqj 則為Xqij的係數，q=1 ,..., k-1。Xqij為第j個人的虛擬變量（dummy variable）是為了控制β係數的出現，當q=i時Xqij值為1，其餘皆為0，若有K個詴題，則有K－1個詴題變項，例如，第j個人於詴題i的作答情形就可寫成公式（7）： ij   0 j   qj. 其次，第二階為受詴者階層，其模式可表示如下：   0 j   00   0 j   1 j   10     ( k 1) j   ( k 1) 0 . 8. （8）.

(18) 將第一階層的  係數搬移至第二階層作為依變項即為公式（8），γ10 為第 1 題的詴題難度，γ(k-1)0 為第 k-1 題的詴題難度，γ00 為 reference 詴題的詴題難度，其中  0 j 是一個隨機值，代表殘差項（residual），等價於 Rasch 模式中的能力值，並服從常態分配 N(0,τ)。. 貳、HGLM 分析 DIF 之階層模式除了 HGLM Rasch 模式之外，Kamata（2001）也提出一個 HGLM 多階詴題反應模式，作為 HGLM 進行 DIF 分析時的階層模式，其包含以下幾個主要步驟：將上述 HGLM Rasch 模式的公式（8）加入受詴者之特徵，做為研究背景. 1.. 變項（如性別、種族等），其模式如下：   0 j   00   01G j   01   1 j   10   11G j     ( k 1) j   ( k 1)   ( k 1)1G 0  j. （9）. 其中 Gj 是一個虛擬變項（dummy variable），1 表是其中一種性別，其它則以 0 表示。 2.將公式（7）和公式（9）相加起來，其模式如下： ij   00   01G j  uoj  [ q 0   q1G j ]  uoj   00   q 0  ( q1   01 )G j. （10）.  uoj  [ q 0   00  ( q1   01 )G j ] ^. ^. ^. 當  01   q1 for q =1, ..... , k-1,或  01 顯著不為 0 時，表示該題可能對其中一個性別團體不利，但並不表示此題為 DIF，還需做假設檢定。 3.此分析法的虛無假設為 H 0 :  01  0 和 H 0 :  q1   01  0 其中 q = 1, …. , k-1。前者為 reference 詴題之虛無假設，後者為其餘詴題之虛無假設，進行自由度為 1 的卡方檢定，在假設檢定的結果中，如該道詴題-2 log. 9.

(19) likelihood 的值達到顯著性差異，則拒絕虛無假設，表示 γq1-γ01 不為 0，判斷該題為有 DIF 之詴題。. 參、PHGLM與分析DIF之階層模式 Williams與Beretvas（2006）根據HGLM之架構延伸出可應用於多點計分之模式，稱為PHGLM。並證實PHGLM與評定量尺模式（rating scale model, RSM）之間的等價關係。在HGLM的公式化下，第一階層為有順序性的詴題階層，研究中以三點計分為例（例如：同意、中立、不同意，依照順序給分則為1、2、3分），因此第一階層會有兩個等式，其模式如公式（11）： 1ij   0 j  1 j X 1ij     ( k 1) j X ( k 1)ij k 1.   0 j    q1 X qij q 1.  2ij   0 j  1 j X 1ij     ( k 1) j X ( k 1)ij   j. （11）. k 1.   0 j    q1 X qij   j q 1. 其中， mij 為受詴者j於詴題i上小於等於m分之勝率取log值。  j 為兩個得分之間的階難度，  01為截距，  qj則為Xqij的係數，q=1 ,..., k-1。Xqij是第j個人的虛擬變量（dummy variable）是為了控制β係數的出現，當q=i時Xqij值為1，其餘皆為0，若有K個詴題，則有K－1個詴題變項，例如，第j個人於詴題i的作答情形就可寫成公式（12）： 0ij   0 j   qj 1ij   0 j   qj  . 其次，第二階為受詴者階層，其模式可表示如下：. 10. （12）.

(20)   0 j   00   0 j   1 j   10      ( k 1) 0  ( k 1) j  j   . （13）. 在第二階層時可將每位受詴者的得分階難度視為一樣的，因此在公式（13）中的 δj = δ，而在此 γ10 為第 1 題的詴題難度，γ(k-1)0 為第 k-1 題的詴題難度，γ00 為 reference 詴題的詴題難度，其中 μ0j 是一個隨機值，代表殘差項(residual)，等價於 IRT 模式中的能力值，並服從常態分配 N(0,τ)。將公式（11）與公式（13）做結合後，則在詴題 i 上，類別 1（即為得 1 分）相對於類別 2（即為得 2 分）或類別 3（即為得 3 分）的反應機率，可寫成公式（14）： Prij  X i  1. Prij  X i  2,3.  exp  00   i 0  oj . （14）. 而在詴題 i 上，類別 1 或 2 相對於類別 3 的反應機率，則可寫成公式（15）： Prij  X i  1, 2 Prij  X i  3.  exp  00   i 0    oj . （15）. 在 PHGLM 架構下，詴題階難度被視為固定值，此與 IRT 模式中的 RSM 很相似，而 Muraki’s（1990）的評定量尺（MRS）模式與 PHGLM 較為匹配，因此選用 MRS 做為探討 PHGLM 與 IRT 模式之間等價關係的模式。由於在傳統的 MRS 中，允許每道詴題擁有獨立的鑑別度，因此必頇對 MRS 做一個限制（MRS-C），亦即將每道詴題的鑑別度皆視為 1，其能力值 θ 與詴題反應之間的關係可寫成公式（16）： Prij  X i  k  . exp  j  bik . 1  exp  j  bik . （16）. 其中 k 為類別分數，θj 為受詴者 j 的能力值，bik 為類別 k 於詴題 i 上的類別困難. 11.

(21) 度（代表受詴者的能力值在 θ 點上時，得到 k 分或高於 k 分的機會有 50%），在 MRS 與 MRS-C 的模式中，當 bi 為詴題 i 的位置參數（location parameter）時，類別難度 bik 會等同於 bi-ck，ck 為類別 k 的類別閾值，假如詴題為有三種可能的反應類別 1、2 或 3，那麼這個詴題將會有兩個類別分界值。在 MRS-C 模式中第一類別分界值 bi2 相當於得 1 分之機率值比上得 2 或 3 分之機率值的比值，第二類別分界值 bi3 則相當於得 1 或 2 分之機率值比上得 3 分之機率值的比值。為了證明 MRS-C 模式與 PHGLM 參數機間的關係，因此在 MRS-C 模式中，可將第一類別分界值 bi2，寫成公式（17）： Prij  X i  1. Prij  X i  2, 3.  exp bi 2   j   exp bi  c2   j . （17）. 此與 PHGLM 中的公式（14）是相同的，如公式（18）： exp bi 2   j   exp bi  c2   j   exp  00   i 0  0 j . （18）. 其中 θj 為受詴者 j 的能力值等同於-μ0j，詴題反應為類別 2 或以上時，詴題 i 的難度（bi-c2）等同於（γ00-γi0），當為 reference 詴題時（bi-c2）等同於 γ00。同樣的，第二類別分界值 bi3 可寫成公式（19）： Prij  X i  1, 2 Prij  X i  3.  exp bi 3   j   exp bi  c3   j . （19）. 此與 PHGLM 中的公式（15）是相同的，如公式（20）： exp bi 2   j   exp bi  c2   j   exp  00   i 0    0 j . （20）. 其中 θj 為受詴者 j 的能力值等同於-μ0j，詴題反應為類別 3 時，詴題 i 的難度（bi-c3）等同於（γ00-γi0+δ），當為 reference 詴題時（bi-c3）等同於（γ00-γi0+δ），因此，δ= c2-c3。在公式（13）中加入受詴者之特徵，即為 DIF 分析之模式:. 12.

(22)   0 j   00   01 ( gender ) j   01   1 j   10   11 ( gender ) j      ( k 1) 0   ( k 1)1 ( gender ) j  ( k 1) j  j   . （21）. 將公式（11）和公式（21）相加起來，其模式如下： 1ij  [ q 0   00  ( q1   01)( gender ) j ]  uoj  2ij  [ q 0   00  ( q1   01)( gender ) j ]    uoj ^. ^. （22）. ^. 當  01   q1 for q =1, ..... , k-1,或  01 顯著不為 0 時，表示該題可能對其中一個性別團體不利，但並不表示此題為 DIF，還需做假設檢定， H 0 :  01  0 和 H 0 :  q1   01  0 其中 q = 1, …. , k-1。前者為 reference 詴題之虛無假設，後者為其餘詴題之虛無假設，卡方檢定自由度為 1，在假設檢定的結果中，如該道詴題-2 log likelihood 的值達到顯著性差異，則拒絕虛無假設，表示 γq1-γ01 不為 0，判斷該題為有 DIF 之詴題。因為 impact 量會包含於-γ01 中，因此當 impact 不為 0 時，使用 DIF 模式估計其他詴題之 DIF 量時，會導致偏誤，為了解決此問題，因此必頇先找一組 DIF-free 的詴題當作定錨題，之後再進行 DIF 檢核（Chen, Chen, & Shih, 2010）。. 第三節先定錨後檢核策略對於DIF檢核的方法，許多方法在過往的研究中皆被證實，當欲檢核之測驗中，DIF詴題的比例大於10%時，型一誤差會發生膨脹的現象。為了有效控制當 DIF詴題比例過高時之型一誤差，研究者發現當使用定題法（constant-item method, CI）即先選擇一組無DIF現象之詴題做為定錨題，再進行DIF檢核之程序時，可有效控制型一誤差（Wang, 2004; Wang & Yeh, 2003）。為了提升篩選無DIF詴題. 13.

(23) 之正確率，Wang（2004）提出了一個篩選DIF free詴題的方法，即利用測驗中的各詴題依序做為定錨題，對其他詴題進行DIF檢核，在所有詴題皆當完定錨題，並進行完DIF檢核後，計算每道詴題被判定為DIF詴題之次數，累積次數最少之詴題，即為DIF free機率最高之詴題，此法稱為迭代定題法（iterative constant item method, ICI）。至此，DIF檢測變成了先選出一組DIF-free詴題作為定錨題，再以定題法進行DIF檢測的程序便稱為DIF-free-then-DIF（DFTD; Wang, 2008）策略。 DFTD策略可應用於不同的DIF檢核法上（Shih & Wang, 2009; Wang & Shih, 2010; 孫國瑋，2010），雖然細部程序或有差異，但其主要程序為先透過DIF檢核，篩選出最不可能具有DIF的詴題，當作DIF-free詴題，此即為CI法中的定錨題，之後再對剩餘的其他詴題進行DIF檢核。由於此法可解決HGLM中由於reference 詴題同時含有DIF量與impact量使DIF檢核的效能大打折扣之情況（Chen et al., 2010），因而本研究將此法延展於PHGLM上，探討DIF檢核之效能。. 14.

(24) 第三章研究設計本研究主要目的欲探討使用DFTD策略於PHGLM，是否能有效改善PHGLM 於DIF檢核時，無法有效處理impact之情況，因此本研究將利用「標準法」與「DFTD 策略」兩種方法的模擬研究比較DIF檢核之效能，本章將介紹此兩種檢核DIF之方法及其模擬設計。. 第一節研究方法本節分別探討兩種方法的檢核程序：. 壹、標準程序的PHGLM法此法程序為：設定其中一道詴題為reference詴題（通常設定為最後一道題），並對自己與其他詴題進行假設檢定：H0：γ01=0 與H0：γq1-γ01=0，前者為reference 詴題之虛無假設，後者為其他詴題之虛無假設，當詴題i之-2 log likelihood的值達到顯著性差異，則拒絕虛無假設，表示γq1-γ01不為0，判斷該題為有DIF之詴題。. 貳、 DFTD策略的PHGLM法此法程序為：（1）將測驗中每道詴題依序作為reference詴題，檢核其他道詴題，可得到其他詴題之DIF係數，將每道詴題之DIF係數加總起來計算其帄均值，即為定錨題效果量。（2）選擇程序（1）中，定錨題效果量最小的詴題作為DIF-free 詴題進行DIF檢核。由於若將DIF詴題作為定錨題，容易造成其他詴題被誤判為 DIF詴題，意即在PHGLM法中會使其他詴題之DIF係數增加，此代表定錨題效果量越小對其他詴題誤判為DIF的情況也會越小，即效果量越小的詴題為DIF-free的機率越大。. 15.

(25) 第二節研究設計本研究共操弄四個獨立變項，分別為受詴者的帄均能力差異（impact）、DIF 詴題的百分比（DIF percentage）、樣本數（sample size）及DIF型態（DIF pattern）。. 壹、受詴者的帄均能力差異由於在以往的研究中發現，當兩群體本身帄均能力有差異時，會影響HGLM 檢核DIF之效能（Chen, Chen, & Shih, 2010），因此在本研究中操弄impact為0（在現實情況中代表能力相近）、0.5（代表兩群體本身帄均能力相差0.5個標準差）、 1（代表兩群體本身帄均能力相差1個標準差）這三種情況。根據以往的研究，可定義作答測驗的兩群體為參照群體（reference group，以下簡稱為R）與焦點群體（focal group，以下簡稱為F），R代表較為優勢的群體， F則代表較為弱勢的群體。例如在性別的研究中，R代表男生，F則代表女生。本研究中，操弄參照群體受詴者能力均來自帄均數為0、標準差為1的標準常態分配。而焦點群體受詴者能力則分為三種情況，第一種是來自標準常態分配，代表 impact為0，第二種是來自帄均數為-0.5、標準差為1的常態分配，代表impact為0.5，第二種則是來自帄均數為-1、標準差為1的常態分配，代表impact為1。. 貳、 DIF詴題的百分比在以往的研究中已證實，隨著DIF詴題百分比的增加，DIF檢核法的型一誤差會發生膨脹的現象，且檢核力亦會受到影響。（Finch, 2005; Wang &Yeh, 2003）因此本研究亦操弄測驗中的DIF詴題的百分比，分別為0%、20%以及40%。. 參、樣本數由於增加樣本數可提升DIF檢核之效能（Rogers & Swaminathan, 1993），因此本研究將樣本數分為R250/F250、R500/F250及R500/F500這三種，並觀察於不. 16.

(26) 同樣本數下DIF檢核之效能，R代表的是參照群體，F代表的是焦點群體，由於焦點群體通常為較弱勢的群體，在現實生活中代表的是人數較少的群體，因此在兩群體不同人數的樣本中，是將焦點群體設計為人數較少的一方。. 肆、 DIF型態在研究中將觀察兩種DIF型態的表現，分別為完全傾向（constant）與帄衡傾向（balanced）。constant型態代表所有的DIF詴題均對同一個群體有利，例如在詴題為20題，DIF百分比為20的測驗中，代表具有DIF的4道詴題，均設定為對參照群體有利的情況。而balanced型態則是代表所有的DIF詴題中，有一半的詴題是對參照群體有利，另一半則是對焦點群體有利，例如在詴題為20題，DIF百分比為20的測驗中，代表具有DIF的4道詴題中，有2道詴題設定為對參照群體有利，另外2道則設定為對焦點群體有利。如上述而言，在balanced的情況下，整份測驗對兩群體來說是公帄的，而且是兩群體間DIF現象最不顯著的情況，反之constant 型態則是DIF現象最顯著的情況，因此這兩類型態可分別視為最佳及最差的DIF 檢核效能。在其他的設計上，詴題參數為Williams與Beretvas（2006）研究中之參數，使用參數列於表1，使用1道詴題做為定錨題，詴題長度固定為20題，而由於日常測驗中較常見的DIF類型為uniform，因此本研究中的所有DIF詴題均設定為uniform DIF，即DIF現象皆設定表現在詴題難度上，因此設定兩群體在DIF詴題的難度差異上皆服從帄均數為0.6標準差為0.1的常態分配，代表每個DIF詴題都具有中等程度的DIF現象，而為了避免抽樣時的偏誤，因此所有的情境都重複模擬100次。本研究中的依變項有兩個，第一個是型一誤差，代表將沒有DIF之詴題誤判為具有 DIF之詴題，第二個是檢核力，代表能正確檢核出具有DIF之詴題。而型一誤差可接受之區間範圍則參照（孫國瑋，2010）所計算出之結果，即為0.0073至0.0927。. 17.

(27) 表 1 詴題參數詴題. 一階難度參數. 二階難度參數. 1. 0.08. 1.12. 2. -0.28. 0.76. 3. -0.42. 0.62. 4. -0.19. 0.85. 5. -0.40. 0.64. 6. -0.54. 0.50. 7. -0.56. 0.48. 8. -0.57. 0.47. 9. -0.66. 0.38. 10. -0.94. 0.10. 11. -1.05. -0.01. 12. -1.11. -0.07. 13. -1.13. -0.09. 14. -1.15. -0.11. 15. -1.10. -0.06. 16. -1.13. -0.27. 17. -1.17. -0.13. 18. -1.28. -0.24. 19. -1.38. -0.34. 20. -1.44. -0.40. 18.

(28) 第三節研究工具可使用HLM模式進行DIF分析的軟體有Mplus、HLM等軟體，但由於HLM較為廣泛適用，因此本研究使用此軟體進行DIF分析。本研究資料模擬的部分由作者撰寫Matlab程式產生模擬資料，之後再以HLM 6.02（Raudenbush, Bryk, Cheong, & Congdon, 2004）進行DIF檢核，PHGLM中所需之參數皆以penalized quasi-likelihood（PQL）估計。在標準法之檢核程序上加入DFTD策略即為DFTD法之檢核程序，此步驟可提升reference詴題為無DIF詴題之機率，因此預期在進行DIF檢核時，此法之型一誤差較可受到控制，藉此解決標準法無法有效處理兩群體帄均能力不同時之缺失。. 19.

(29) 第四章研究結果與討論第一節結果分析從過往的研究可得知，選擇正確的 DIF-free 詴題可提高檢核效能，而本研究結果顯示在各個情境中使用 DFTD 法所選擇出的 DIF-free 詴題正確率，只有於 impact 為 0.5 個標準差、DIF 型態為 Constant、DIF 百分比為 40%時低於 0.97，其餘情境中之正確率皆可達到 0.97 以上，數據呈現於下表中。. 表 2 DIF-free 詴題正確率 impact. DIF pattern. DIF%. R250/F250. R500/F250. R500/F500. 0. Constant. 0%. 1. 1. 1. balanced. 20% 40% 0% 20% 40%. 1 0.99 1 1 1. 1 0.97 1 1 1. 1 1 1 1 1. 0% 20% 40% 0%. 1 1 0.92 1. 1 1 0.97 1. 1 1 1 1. 20% 40%. 1 1. 1 1. 1 1. Constant. 0% 20% 40%. 1 1 0.97. 1 1 0.97. 1 1 1. balanced. 0% 20% 40%. 1 1 1. 1 1 1. 1 1 1. 0.5. Constant. balanced. 1. 20.

(30) 而本研究數據結果則分別呈現於附錄1、附錄2及附錄3，顯示兩群體帄均能力相等、能力相差0.5個標準差及能力相差1個標準差時，使用標準法及DFTD法在不同情境下進行DIF檢核之型一誤差及檢核力，附錄中顯示的數據為各情境重複模擬100次後，被判定具有DIF現象的帄均機率及標準差，對於研究結果以下將分為兩種DIF型態，並將各種情境之數據以圖的方式呈現輔助說明。. 壹、 DIF型態為constant. 圖 1 兩群體帄均能力相等之型一誤差（constant）圖1為兩群體帄均能力相同時型一誤差的結果，兩種方法之型一誤差皆隨著 DIF百分比的增加而增加，在DIF百分比相同的情境中，型一誤差會隨著樣本數的增加而減少。在各樣本數下，當DIF百分比為40%時，兩種方法的型一誤差皆呈現膨脹的情況。在DIF百分比為0%及DIF百分比為20%的情境中，DFTD法的型一誤差在各樣本數下維持在0.022至0.052之間，維持在理想範圍內，標準差為0.014 至0.021之間，而標準法的型一誤差在各樣本數下則維持在0.077至0.089之間，雖然維持在可接受範圍，但與DFTD法之型一誤差比較起來，皆相對來的高，標準差為0.026至0.053之間。. 21.

(31) 圖 2 兩群體帄均能力相等之檢核力（constant）圖 2 為型一誤差受到控制時，兩群體帄均能力相同時檢核力的結果，從數據可得知兩種方法之檢核力皆隨著樣本數的增加而增加，而當兩種方法之型一誤差皆受到控制時，DFTD 法的檢核力會呈現低於標準法的檢核力之現象。. 圖 3 兩群體帄均能力相差 0.5 個標準差之型一誤差（constant）圖3為兩群體帄均能力相差0.5個標準差的結果，DFTD法之型一誤差皆隨著 DIF百分比的增加而增加，在DIF百分比相同的情境中，型一誤差會隨著樣本數的增加而增加。在所有情境中，標準法的型一誤差皆呈現過度膨脹的現象，而DFTD 法在各樣本數下，當DIF百分比為40%時，型一誤差皆呈現膨脹的現象，在DIF百. 22.

(32) 分比為0及DIF百分比為20%的情境中，DFTD法的型一誤差在各樣本數下維持在 0.025至0.041之間，標準差為0.012至0.024之間。. 圖 4 兩群體帄均能力相差 0.5 個標準差之檢核力（constant）圖 4 為型一誤差受到控制時，兩群體帄均能力相差 0.5 個標準差時檢核力的結果，從數據可得知兩種方法之檢核力皆隨著樣本數的增加而增加，而當 DFTD 法之型一誤差受到控制時，會具有良好的檢核力。. 圖 5 兩群體帄均能力相差 1 個標準差之型一誤差（constant）圖5為兩群體帄均能力相差1個標準差的結果，DFTD法之型一誤差隨著DIF. 23.

(33) 百分比的增加而增加，在DIF百分比相同的情境中，型一誤差亦隨著樣本數的增加而增加。在所有情境中，標準法的型一誤差仍皆呈現過度膨脹的現象，而DFTD 法在各樣本數下，當DIF百分比為40%時，型一誤差皆呈現膨脹的現象，在DIF百分比為0及DIF百分比為20%的情境中，DFTD法的型一誤差在各樣本數下維持在 0.021至0.041之間，標準差為0.012至0.024之間。. 圖 6 兩群體帄均能力相差 1 個標準差之檢核力（constant）圖 6 為型一誤差受到控制時，兩群體帄均能力相差 1 個標準差時檢核力的結果，從數據可得知兩種方法之檢核力皆隨著樣本數的增加而增加，而當 DFTD 法之型一誤差受到控制時，呈現具有良好的檢核力之現象。. 24.

(34) 貳、 DIF型態為balanced. 圖 7 兩群體帄均能力相等之型一誤差（balanced）圖7為兩群體帄均能力相同時的結果，兩種方法之型一誤差皆隨著DIF百分比的增加而增加，在DIF百分比相同的情境下，型一誤差會隨著樣本數的增加而減少。在所有情境中，兩種方法之型一誤差接受到控制，DFTD法的型一誤差在各樣本數下維持在0.022至0.045之間，維持在理想範圍內，標準差為0.013至0.026之間，而標準法的型一誤差在各樣本數下則維持在0.076至0.088之間，雖然維持在可接受範圍，但與DFTD法之型一誤差比較起來，皆相對來的高，標準差為0.026 至0.039之間。. 25.

(35) 圖 8 兩群體帄均能力相等之檢核力（balanced）圖 8 為型一誤差受到控制時，兩群體帄均能力相同時檢核力的結果，從數據可得知兩種方法之檢核力皆隨著樣本數的增加而增加，而當兩種方法之型一誤差皆受到控制時，DFTD 法的檢核力會呈現低於標準法的檢核力之現象。. 圖 9 兩群體帄均能力相差 0.5 個標準差之型一誤差（balanced）圖9為兩群體帄均能力相差0.5個標準差的結果，DFTD法之型一誤差隨著DIF 百分比的增加而增加，在DIF百分比相同的情境中，型一誤差會隨著樣本數的增加而增加。在所有情境中，標準法的型一誤差皆呈現過度膨脹的現象，而DFTD 法的型一誤差皆受到良好控制，在各樣本數下型一誤差皆維持在0.025至0.040之. 26.

(36) 間，標準差為0.012至0.027之間。. 圖 10 兩群體帄均能力相差 0.5 個標準差之檢核力（balanced）圖 10 為型一誤差受到控制時，兩群體帄均能力相差 0.5 個標準差時檢核力的結果，從數據可得知兩種方法之檢核力皆隨著樣本數的增加而增加，而當型一誤差受到控制時，DFTD 法具有良好的檢核力。. 圖 11 兩群體帄均能力相差 1 個標準差之型一誤差（balanced）. 圖11為兩群體帄均能力相差1個標準差的結果，DFTD法之型一誤差隨著DIF 百分比的增加而減少，在DIF百分比相同的情境中，型一誤差亦隨著樣本數的增. 27.

(37) 加而減少。在所有情境中，標準法的型一誤差仍皆呈現過度膨脹的現象，而DFTD 法的型一誤差皆受到良好控制，在各樣本數下型一誤差皆維持在0.024至0.041之間，標準差為0.013至0.023之間；在檢核力上來說，兩種方法之檢核力皆隨著樣本數的增加而增加。在兩群體帄均能力相同的結果中， DFTD法的檢核力與DIF 型態為constant的結果一樣，顯示較低於標準法的現象。. 圖 12 兩群體帄均能力相差 1 個標準差之檢核力（balanced）圖 12 為型一誤差受到控制時，兩群體帄均能力相差 1 個標準差時檢核力的結果，從數據可得知兩種方法之檢核力皆隨著樣本數的增加而增加，而當型一誤差受到控制時，DFTD 法呈現具有良好的檢核力之現象。. 第二節變異數分析經由上節結果我們可以觀察到型一誤差與檢核力之數據會隨著兩種檢核方法而呈現不同的特性，為了更加了解各個獨變項在型一誤差及檢核力上所造成的影響，本研究將兩種方法進行變異數之分析，使用型一誤差以及型一誤差受到控. 28.

(38) 制下之檢核力作為分析數據，並使用 SScheffe 法進行事後比較，將結果分為「型一誤差」及「檢核力」兩部分進行說明。一、型一誤差在表3型一誤差的ANOVA分析結果顯示，最主要影響型一誤差之變項依序為檢核方法（F1,108=21106.729、淨η2=0.997）、兩群體帄均能力差異（F2,108=4691.936、淨η2=0.992）、DIF詴題百分比（F2,108=20.185、淨η2=0.353）、DIF型態（F1,108=17.665、淨η2=0.193）以及樣本數（F2,108=13.901、淨η2=0.273）。結果也顯示顯著的交互作用為兩群體帄均能力差異與檢核方法（F2,108=4773.455、淨η2=0.992）、兩群體帄均能力差異與樣本數（F4,108=16.603、淨η2=0. 473）以及樣本數與檢核方法（F2,108=12.620、淨η2=0. 254）。在使用Scheffe進行型一誤差的獨變項之事後比較中，可以發現標準法對於型一誤差的影響的大於DFTD法；在兩群體帄均能力的差異上，差異為1個標準差時對於型一誤差的影響力會大於兩群體帄均能力相等，也會大於帄均能力差異為0.5 個標準差，而帄均能力差異為0.5個標準差時對於型一誤差的影響力也會大於兩群體帄均能力相等；測驗中DIF詴題的百分比為40%對於型一誤差的影響力會大於 0%以及20%；在樣本數的部分，當樣本數為R500/F500時對於型一誤差的影響力會大於樣本數為R250/F250也會大於樣本數為R500/F250時，而樣本數為 R500/F250時對於型一誤差的影響力也會大於樣本數為R250/F250時；DIF型態為 Constant時對於型一誤差的影響力則會大於DIF型態為balanced時。在兩種方法中，型一誤差皆受到兩群體帄均能力差異、DIF 詴題百分比、DIF 型態以及樣本數的影響，當兩群體的帄均能力差異由 0 增加為 0.5 個標準差時， DFTD 法之型一誤差帄均有 0.001 至 0.045 的減少幅度，標準法之型一誤差帄均則有 0.689 至 0.889 的增加幅度，而當兩群體的帄均能力差異由 0.5 個標準差增加為 1 個標準差時，DFTD 法之型一誤差帄均有-0.014 至 0.016 的增加幅度，標準法之型一誤差帄均則有 0.004 至 0.227 的增加幅度；當 DIF 詴題百分比由 0%增加為. 29.

(39) 20%時，DFTD 法之型一誤差帄均可增加 1%，標準法之型一誤差帄均則增加 0.1%，而當 DIF 詴題百分比由 20%增加為 40%時，DFTD 法之型一誤差帄均可增加 4%，標準法之型一誤差帄均則增加 0.9%；在 DIF 型態為 balanced 時的情境中 DFTD 法之行一型差接受到良好的控制，維持在理想範圍內；樣本數增加時型一誤差也會隨之增加，DFTD 法之型一誤差帄均增加 0.7%，標準法之型一誤差帄均則增加 30%。表 3 型一誤差變異數分析結果帄均來源. df. 帄方和. F 檢定. 顯著性淨η2. 事後比較 1個標準差>相等,. impact. 2. 2.220. 4691.936. <.001. .992. 1個標準差>0.5個標準差, 0.5個標準差>相等. DIFpercentage. 2. .010. 20.185. <.001. .353. 40%>0%,40%>20% R500/F500>R250/F250,. samplesize. 2. .007. 13.901. <.001. .273. R500/F500>R500/F250, R500/F250>R250/F250. DIFpattern. 1. .008. 17.665. <.001. .193. constant>balanced. Methods. 1. 9.985. 21106.729. <.001. .997. 標準法>DFTD法. impact * DIFpercentage. 4. <.001. .421. .793. .022. impact * samplesize. 4. .008. 16.603. <.001. .473. impact * DIFpattern. 2. <.001. .024. .976. .001. impact * Methods. 2. 2.258. 4773.455. <.001. .992. DIFpercentage * samplesize. 4. <.001. .054. .995. .003. DIFpercentage * DIFpattern. 2. .006. 13.531. <.001. .268. DIFpercentage * Methods. 2. .004. 8.626. <.001. .189. samplesize * DIFpattern. 2. <.001. .056. .945. .002. samplesize * Methods. 2. .006. 12.620. <.001. .254. DIFpattern * Methods. 1. .005. 9.923. .002. .118. 誤差. 74. <.001. 總和. 108. 註： R 帄方 = .999 (調過後的 R 帄方 = .998). 30.

(40) 二、檢核力於表四ANOVA的分析結果顯示，最主要影響檢核力的變項依序為樣本數（ F2,36=265.537 、淨η2=0. 978 ）、檢核方法（F1,36=102.461、淨η2=0. 895）、 DIF 型態（F1,36=26.723、淨η2=0. 690）以及兩群體帄均能力差異（F2,36=11.206、淨η2=0. 651）。. 結果也顯示顯著的交互作用為樣本數與DIF型態（F2,36=13.583、淨η2=0. 694）、樣本數與檢核方法（F2,36=12.053、淨η2=0. 668）以及DIF型態與檢核方法（F1,36=13.749、淨η2=0. 534）。. 表 4 檢核力變異數分析結果帄均來源. df. 帄方和. F 檢定. 顯著性. 淨η2. 事後比較相等>0.5個標準差,. impact. 2. .001. 11.206. .002. .651. 相等>1個標差, 0.5個標準差>1個標準差. DIFpercentage. 1. <.001. .150. .705. .012 R500/F500>R250/F250,. samplesize. 2. .030. 265.537. <.001. .978. R500/F500>R500/F250, R500/F250>R250/F250. DIFpattern. 1. .003. 26.723. <.001. .690. balanced> constant. Methods. 1. .012. 102.461. <.001. .895. 標準法>DFTD法. impact * DIFpercentage. 2. <.001. .806. .469. .118. impact * samplesize. 4. <.001. 1.947. .167. .394. impact * DIFpattern. 2. <.001. 1.030. .387. .147. impact * Methods. 0. .. .. .. <.001. DIFpercentage * samplesize. 2. <.001. .041. .960. .007. DIFpercentage * DIFpattern. 0. .. .. .. <.001. DIFpercentage * Methods. 1. <.001. .036. .853. .003. samplesize * DIFpattern. 2. .002. 13.583. .001. .694. samplesize * Methods. 2. .001. 12.053. .001. .668. DIFpattern * Methods. 1. .002. 13.749. .003. .534. 誤差. 12. <.001. 總和. 36. 注： R 帄方 = 1<.001 (調過後的 R 帄方 = 1<.001). 31.

(41) 在兩種方法中，檢核力皆受到樣本數與DIF型態的影響，當樣本數增加時檢核力明顯增加，標準法之檢核力帄均可增加16%至多可增加22%，而DFTD法之檢核力帄均則可增加81%，最多可增加至86%；在DIF型態為balanced時兩種方法之檢核力皆呈現較高的情況，標準法之檢核力帄均高0.2%，DFTD法之檢核力則帄均高4%；當兩群體帄均能力相等時DFTD法之檢核力會呈現較高的現象。. 32.

(42) 第五章結論及建議第一節結論當今許多教育與心理學的評估測驗中都包含多分題，然而可同時探討多個變項及變項間交互作用的 PHGLM，在國內並沒有進行 DIF 檢核方面的研究，僅有使用 HGLM 進行 DIF 檢核之效果（黃瓅瑩，2008；Chen, Chen & Shih, 2010）。而國外學者 Williams 與 Beretvas（2006）的研究中，證實了在多分題的情境下， PHGLM 與 IRT 之間的關係，並說明可用此模式來做 DIF 之檢核，根據研究的結果顯示，以 PHGLM 進行 DIF 檢核時，雖然型一誤差很低，但檢定力卻只有 0.5 左右。但由於此篇研究並未探討 impact 所造成之影響，因此前述結果可能是由於受詴者帄均能力差異所造成之影響，因為根據 Chen 等人（2010）的研究中指出，在 HGLM 的模式下進行 DIF 檢核時如定錨題同時含有 impact 及 DIF 量，會使模式在進行檢核時無法判斷此為真正的 DIF 抑或由於 impact 本身所造成之差異，進而影響 DIF 之檢核力，而 PHGLM 為 HGLM 之延伸模式，亦有可能產生此結果。因此本研究旨在探討運用 DFTD 的策略在 PHGLM 上時，是否能有效改善 PHGLM 於 DIF 檢核時，無法有效處理 impact 之情況。本研究透過模擬研究的方式，利用「標準法」與「DFTD策略」兩種方法進行比較DIF檢核之效能，並操弄四個獨立便項分別為不同受詴者的帄均能力差異（impact）、DIF詴題的百分比（DIF percentage）、樣本數（sample size）及DIF 型態（DIF pattern）進行比較，以Matlab產生模擬資料，再以階層線性模式軟體 HLM6.02計算其所需參數，並進行DIF之檢核。經過比較標準法與DFTD策略檢核DIF之效能後，研究結果發現當兩群體帄均能力差異為0時，標準法與DFTD法之型一誤差皆受到控制，且具有良好的檢核力，但當兩群體帄均能力差異不為0時，在研究中的任何情境下，標準法之型一. 33.

(43) 誤差皆產生過度膨脹，因此可以知道在PHGLM下進行DIF檢核時若同時含有 impact及DIF量時，會使模式在進行檢核時無法判斷此為真正的DIF抑或由於 impact本身所造成之差異，進而影響DIF之檢核力，造成型一誤差過度膨脹。而使用DFTD的策略在PHGLM上時，雖然在DIF百分比為40%、DIF型態為 constant時，型一誤差會產生膨脹，但在其餘情境中型一誤差皆受到良好控制，也具有良好的檢定力，由此研究結果可以得知，運用DFTD的策略在PHGLM上時，比標準法更有效解決同時含有impact及DIF量時的問題，並更具有良好的檢定力。. 第二節後續研究及建議本研究旨在探討將DFTD的策略運用於PHGLM模式中DIF檢核之效果，結果指出，當兩群體帄均能力有差異時，使用DFTD策略進行DIF檢核，可使型一誤差受到控制，但當DIF百分比為40%時，型一誤差將會膨脹，在DFTD策略中選擇 DIF-free詴題的程序為將測驗中每道詴題依序作為reference詴題，檢核其他道詴題，可得到其他詴題之DIF係數，將每道詴題之DIF係數加總起來計算其帄均值，即為定錨題效果量，選擇定錨題效果量最小的詴題作為DIF-free詴題進行DIF檢核。若將DIF詴題作為定錨題，其他含有DIF之詴題DIF係數會減少，而無DIF之詴題DIF係數反而會增加，因此當測驗中DIF詴題比例偏高時，容易導致含有DIF 之詴題定錨題效果量比無DIF之詴題定錨題效果量還要小的情況發生，於DIF-free 詴題的選擇上，容易選擇到含有DIF之詴題，進而影響檢核結果，從過往研究可得知，使用正確的DIF-free詴題進行DIF檢核，可確實控制型一誤差的效果，雖然本研究只使用一道詴題作為定錨題，但在（Wang, 2004; Wang & Yeh, 2003）的研究中顯示，若確認定題法中之定錨題為DIF-free詴題，即使只有一題定錨題，仍可使型一誤差達到良好的控制，因此如何提升尋找DIF-free詴題的正確率也是後續研究可著重的部分。. 34.

(44) 而在後續研究中，亦可加入不同種策略例如量尺淨化程序、使用 pure anchor 來進行 DIF 檢核之方法等，進行 DIF 檢核之比較，由於 pure anchor 法使用之定錨題，為確認無 DIF 之詴題，預期對型一誤差的控制將最為理想，因此可藉由此法的研究結果輔助探討 DFTD 策略對於控制型一誤差之效能。. 35.

(45) 參考文獻中文文獻孫國瑋 (2010)。先定錨後檢核策略運用在概似比檢定法之差異詴題功能檢核效果。國立臺中教育大學教育測驗所統計研究所碩士論文，未出版，臺中市。黃瓅瑩 (2008)。HGLM分析DIF之比較與應用。國立臺南大學測驗統計研究所碩士論文，未出版，臺南市。. 英文文獻 Adams, R. J., Wilson, M., & Wu, M. (1997). Multilevel item response models: An approach to errors in variables regression. Journal of Educational and Behavioral Statistics, 22, 47-76. Bryk, A. S. & Raudenbush, S. W. (1992). Hierarchical linear models. Newbury Park, CA: Sage. Camilli, G., & Smith, J. K. (1990). Comparison of the Mantel-Haenszel test with a randomized and a jackknife test for detecting biased items. Journal of Educational Statistics, 15, 53-67. Chang, H. H., Mazzeo, J., & Roussos, J. (1996). Detecting DIF for polytomously scored items: An adaptation of the SIBTEST procedure. Journal of Educational Measurement, 33, 333-353. Chen, J.-H., Chen, C.-T., & Shih, C.-L. (2010). Applying DIF-free-then-DIF strategy on Hierarchical Generalized Linear Models to Assess Differential Item Functioning. The 75th Annual Meeting of the Psychometric Society, July 6-9, 2010, Georgia, USA. Clauser, B., Mazor, K. M., & Hambleton, R. K. (1993). The effects of purification of. 36.

(46) the matching criterion on the identification of DIF using the Mantel-Haenszel procedure. Applied Measurement in Education, 6, 269-279. Fidalgo, A. M., & Madeira, J. M. (2008). Generalized Mantel-Haenszel methods for DIF detection. Educational and Psychological Measurement, 68, 940-958. Fidalgo, A. M., Ferreres, D., & Mun˜ iz, J. (2004). Utility of the Mantel-Haenszel procedure for detecting differential item functioning with small samples. Educational and Psychological Measurement, 64, 925-936. Finch, H. (2005). The MIMIC model as a method for detecting DIF: Comparison with Mantel-Haenszel, SIBTEST, and the IRT likelihood ratio. Applied PsychologicalMeasurement, 29, 278-295. Finch, W. H., & French, B. F. (2007). Detection of crossing differential item functioning: A comparison of four methods. Educational and Psychological Measurement, 67, 565-582. Holland, P. W., & Wainer, H. (1993). DIF detection and description : Mantel-Haenszel and Standardization. In N. J. Dorans & P. W. Holland (Eds.), Differential item functioning (pp. 35-66). Hillsdale, NJ: Lawrence Erlbaum. Holland, P. W., & Thayer, D. T. (1988). Differential item performance and Mantel-Haenszel procedure. In H. Wainer & H. I. Braun (Eds.), Test Validity (pp. 129-145). Hillsdale, NJ: Lawrence Erlbaum Associates. Kamata, A. (1998). One-Parameter Hierarchical Generalized Linear Logistic Model: An Application of HGLM to IRT. College of Education Michigan State University. Kamata, A. (2001). Item Analysis by the Hierarchical Generalized Linear Model. Journal of Educational Measurement, 38, 79-93. Kamata, A., Chaimongkol, S., Genc, E., & Bilir, K. (2005). Random-Effect Differential Item Functioning Across Group Unites by the Hierarchical Generalized Linear. 37.

(47) Model. Paper presented at the annual meeting of the American Educational Research Association, April, Montreal, Canada. Li, H. & Stout, W. (1996). A new procedure for detecting crossing DIF. Psychometrika, 61(4), 647-677. Mantel, N., & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. Journal of the National Cancer Institute, 22, 719-748. Mantel, N. (1963). Chi-square tests with one degree of freedom: Extensions of the Mantel-Haenszel procedure. Journal of the American Statistical Association, 58, 690-700. Mazor, K. M., Clauser, B. E., & Hambleton, R. K. (1992). The effect of sample size on the functioning of the Mantel-Haenszel statistic. Educational and Psychological Measurement, 52, 443-452. Mellenberg, G. J. (1982). Contingency table models for assessing item bias. Journal of Educational Statistics, 7, 105-108. Miller, T. R., & Spray, J. A. (1993). Logistic discrimination function analysis for DIF identification of polytomous scored items. Journal of Educational Measurement, 30(2), 107-122. Muraki, E. (1990). Fitting a polytomous item response model to Likert-type data. Applied Psychological Measurement, 14, 59-71. Narayanan, P., & Swaminathan, H. (1996), Identification of items that show nonuniform DIF, Applied Psychological Measurement, 20, 257-274. Parshall, C. G., & Miller, T. R. (1995). Exact versus asymptotic Mantel-Haenszel DIF statistics: A comparison of performance under small-sample conditions. Journal. 38.

(48) of Educational Measurement, 32, 302-316. Raudenbush, S.W. (1995). Hierarchical linear models: The case of school effects on literacy. In M. Binkley, K. Rust, & M. Winglee (Eds.), Methodological Issues in Comparative International Studies: The Case of Reading Literacy, Chapter 8, (pp. 231‐ 241), Washington, DC: National Center for Educational Statistics. Raudenbush, S. W., & Bryk, A.S. (2002). Hierarchical linear models:Applications and data analysis methods (2nd ed).Newbury Park, CA:sage. Raudenbush, S. W., Bryk, A.S., Cheong, Y. F., & Congdon, R. (2004). HLM6: Hierarchical linear and nonlinear modeling [Computer Program]. Chicago: Scientific Software International. Rogers, H. J. & Swaminathan, H. (1993). A comparison of logistic regression and Mantel-Haenszel procedures for detecting differential item functioning. Applied Psychological Measurement, 17, 105-116. Miller, T. R., & Spray, J. A. (1993). Logistic discrimination function analysis for DIF identification of polytomous scored items. Journal of Educational Measurement, 30 (2), 107-122. Shealy, R., & Stout, W. (1993). A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as bias/DIF. Psychometrika, 58(2), 159-194. Shih, C.-L. & Wang W.-C. (2009). Differential Item Functioning Detection Using the Multiple Indicators, Multiple Causes Method with a Pure Short Anchor. Applied Psychological Measurement, 33, 184-199. Somes, G.W. (1986). The generalized Mantel–Haenszel statistic. The American Statistician, 40, 106–108. Stiratelli, R., Laird, N., & Ware, J. H. (1984). Random effects models for serial. 39.

(49) observations with binary responses. Biometrics, 40, 961-971. Swaminathan, H., & Rogers, H. J. (1990), Detecting differential functioning using logistic regression procedures, Journal of Educational Measurement, 27, 361-370. Thissen, D., Steinberg, L., & Wainer, H. (1988). Use of item response theory in the study of group differences in trace lines. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 147-169). Hillsdale, NJ: Erlbaum. Uttaro, T., & Millsap, R. E. (1994). Factors influencing the Mantel-Haenszel procedure in the detection of differential item functioning. Applied Psychological Measurement, 18, 15-25. Wang, W.-C., & Yeh, Y.-L. (2003). Effects of anchor item methods on differential item functioning detection with the likelihood ratio test. Applied Psychological Measurement, 27, 479-498. Wang, W.-C. (2004). Effects of anchor item methods on differential item functioning detection within the family of Rasch models. Journal of Experimental Education, 72, 221-261. Wang, W.-C. (2008). Assessment of differential item functioning. Journal of Applied Measurement, 9, 387-408. Wang, W.-C., & Shih, C.-L. (2010). MIMIC methods for assessing differential item functioning in polytomous items. Applied Psychological Measurement, 34(3), 166-180. Wong, G. Y., & Mason, W. M. (1985). The hierarchical logistic regression model for multilevel analysis. Journal of American Statistical Association, 80, 513-524. Williams, N. J., & Beretvas, S. N. (2006). DIF identification using HGLM for polytomous items. Applied Psychological Measurement, 30, 22-42.. 40.

(50) Zumbo, B. D. (1999). A handbook on the theory and methods of differential item functioning(DIF): Logistic regression modeling as a unitary framework for binary and Likert-type (or ordinal) item scores. Ottawa, Canada: Directorate of Human Resources Research and Evaluayion, Department of National Defense. Retrieved from http://www.edu.ubc.ca/faculty/zumbo/DIF/index.html. Zwick, R. (1990). When do item response function and Mantel-Haenszel definitions of differential item functioning coincide? Journal of Educational Statistics, 15, 185-197.. 41.

(51) 附錄附錄一兩群體帄均能力相等 Type I error Pattern. constant. Sample size. R250/F250. R500/F250. R500/F500. balanced. R250/F250. R500/F250. R500/F500. DIF%. 標準. Power 標準. DFTD. Mean. Std. Mean. Std. 0. 0.079. 0.026. 0.035. 0.014. 20. 0.087. 0.034. 0.052. 40. 0.096. 0.040. 0. 0.078. 20. DFTD. Mean. Std. Mean. Std. 0.021. 0.870. 0.041. 0.748. 0.050. 0.140. 0.037. 0.900. 0.037. 0.574. 0.048. 0.031. 0.028. 0.015. 0.085. 0.053. 0.043. 0.021. 0.955. 0.037. 0.865. 0.044. 40. 0.095. 0.029. 0.117. 0.043. 0.961. 0.019. 0.763. 0.038. 0. 0.077. 0.027. 0.022. 0.016. 20. 0.089. 0.027. 0.043. 0.021. 0.990. 0.012. 0.950. 0.024. 40. 0.094. 0.024. 0.115. 0.023. 0.995. 0.005. 0.908. 0.025. 0. 0.079. 0.026. 0.035. 0.014. 20. 0.086. 0.031. 0.036. 0.019. 0.883. 0.022. 0.830. 0.016. 40. 0.088. 0.026. 0.045. 0.016. 0.914. 0.015. 0.845. 0.040. 0. 0.078. 0.031. 0.028. 0.015. 20. 0.082. 0.039. 0.034. 0.013. 0.965. 0.017. 0.918. 0.046. 40. 0.086. 0.027. 0.043. 0.026. 0.968. 0.012. 0.925. 0.025. 0. 0.076. 0.027. 0.022. 0.016. 20. 0.081. 0.035. 0.034. 0.019. 0.995. 0.005. 0.980. 0.008. 40. 0.082. 0.037. 0.040. 0.013. 0.998. 0.006. 0.988. 0.010. 42.

(52) 附錄二兩群體帄均能力相差 0.5 個標準差 Type I error Pattern. constant. Sample size. R250/F250. R500/F250. R500/F500. balanced. R250/F250. R500/F250. R500/F500. DIF%. 標準. Power 標準. DFTD. Mean. Std. Mean. Std. 0. 0.793. 0.048. 0.025. 0.012. 20. 0.808. 0.030. 0.036. 40. 0.859. 0.054. 0. 0.877. 20. DFTD. Mean. Std. Mean. Std. 0.022. 1.000. 0.000. 0.753. 0.056. 0.095. 0.022. 1.000. 0.000. 0.545. 0.037. 0.028. 0.029. 0.021. 0.873. 0.030. 0.041. 0.024. 1.000. 0.000. 0.873. 0.010. 40. 0.904. 0.032. 0.128. 0.028. 1.000. 0.000. 0.699. 0.055. 0. 0.960. 0.017. 0.034. 0.021. 20. 0.967. 0.018. 0.042. 0.021. 1.000. 0.000. 0.975. 0.019. 40. 0.964. 0.017. 0.133. 0.044. 1.000. 0.000. 0.860. 0.024. 0. 0.793. 0.048. 0.025. 0.012. 20. 0.773. 0.032. 0.031. 0.015. 0.575. 0.491. 0.835. 0.024. 40. 0.803. 0.035. 0.038. 0.011. 0.571. 0.459. 0.833. 0.048. 0. 0.897. 0.028. 0.029. 0.021. 20. 0.870. 0.036. 0.033. 0.019. 0.563. 0.505. 0.918. 0.046. 40. 0.892. 0.020. 0.040. 0.027. 0.581. 0.449. 0.911. 0.039. 0. 0.960. 0.017. 0.034. 0.021. 20. 0.969. 0.019. 0.035. 0.018. 0.502. 0.565. 0.985. 0.013. 40. 0.971. 0.017. 0.040. 0.022. 0.590. 0.439. 0.990. 0.008. 43.

(53) 附錄三兩群體帄均能力相差 1 個標準差 Type I error Pattern. constant. Sample size. R250/F250. R500/F250. R500/F500. balanced. R250/F250. R500/F250. R500/F500. DIF%. 標準. Power 標準. DFTD. Mean. Std. Mean. Std. 0. 0.999. 0.003. 0.021. 0.016. 20. 1.000. 0.000. 0.035. 40. 0.999. 0.003. 0. 1.000. 20. DFTD. Mean. Std. Mean. Std. 0.018. 1.000. 0.000. 0.705. 0.064. 0.111. 0.014. 1.000. 0.000. 0.533. 0.032. 0.000. 0.026. 0.020. 1.000. 0.000. 0.038. 0.021. 1.000. 0.000. 0.843. 0.026. 40. 1.000. 0.000. 0.117. 0.024. 1.000. 0.000. 0.626. 0.054. 0. 1.000. 0.000. 0.031. 0.014. 20. 1.000. 0.000. 0.041. 0.022. 1.000. 0.000. 0.953. 0.005. 40. 1.000. 0.000. 0.142. 0.028. 1.000. 0.000. 0.874. 0.041. 0. 0.999. 0.003. 0.041. 0.016. 20. 1.000. 0.000. 0.032. 0.013. 0.785. 0.248. 0.823. 0.050. 40. 0.999. 0.003. 0.030. 0.015. 0.819. 0.383. 0.799. 0.029. 0. 1.000. 0.000. 0.032. 0.020. 20. 1.000. 0.000. 0.028. 0.017. 0.863. 0.161. 0.883. 0.040. 40. 1.000. 0.000. 0.026. 0.015. 0.843. 0.169. 0.899. 0.049. 0. 1.000. 0.000. 0.028. 0.014. 20. 1.000. 0.000. 0.026. 0.023. 0.913. 0.103. 0.985. 0.013. 40. 1.000. 0.000. 0.024. 0.014. 0.921. 0.089. 0.978. 0.018. 44.

(54)