國立台中教育大學教育測驗統計研究所
教學碩士論文
指導教授: 劉湘川 博 士
核平滑化無參數
IRT 模式常態轉換遞迴估計
之蒙地卡羅模擬研究
研究生: 洪宿芬 撰
中 華 民 國 九 十 八 年 七 月
摘 要
本研究提出以「相關鑑別指數」替代Ramsay(1991)之「高低鑑別指數」,並以「常 態CDF轉換遞迴估計」替代Ramsay之「分位數常態轉換」,提出雙重改進之「常態 CDF轉換遞迴估計」核平滑化無參數試題反應理論模式,以改進能力參數之估計, 期望克服分位數常態轉換所遭遇的問題,提升能力參數估計精準度。並藉由蒙地卡 羅模擬研究之參數估計檢驗其成效,進一步與Ramsay與劉湘川(2001)分別提出之「高 低鑑別加權」、「相關鑑別加權」兩種核平滑化無參數IRT模式,進行能力參數估計誤 差之比較。 根據本研究之分析結果可歸納出下列要點: 一、三種模式進行能力參數估計有一致結果,能力參數估計誤差會隨著測驗 題數增加而下降,提高能力估計精準度。 二、三種模式之能力參數估計誤差隨著人數增加至120 人而下降,提高能力 估計精準度。 三、分別改變測驗題數、及受試者人數,比較三種模式之能力估計精準度,結 果皆是「常態CDF 轉換遞迴估計」模式最佳,「相關鑑別加權」模式次之,「高低 鑑別加權」模式最不理想。 結論:本研究提出雙重改進之「常態CDF 轉換遞迴估計」核平滑化無參數 IRT 模式,優於劉湘川(2001)及 Ramsay(1991)分別提出之「相關鑑別加權」、「高低鑑 別加權」核平滑化無參數 IRT 模式,並再度驗證劉湘川提出之核平滑化無參數 IRT 模式優於Ramsay 提出之核平滑化無參數 IRT 模式。 關鍵詞:高低鑑別加權、相關鑑別加權、常態CDF 轉換、核平滑化法。Abstract
This research uses “correlation item discrimination” to replace “upper-lower item discrimination index (Ramsay,1991)”, and “normal CDF transformed recursive
estimation” to replace “quantilenormal transformation (Ramsay)”, so a proposed improved method “normal transformed recursive estimation of kernel smoothing nonparametric IRT model” can be applied to solve the problem resulted from quantile transformation, and to increase the accuracy of ability estimated value.
The parameter estimation of Monte-Carlo Simulation study is used to compare the error of ability estimated value of “upper-lower item discrimination(Ramsay,1991)” and “point-biserial correlation item discrimination (Liu,2001)”.
The analysis of this research concludes that:
1. The three methods have consistent results in ability parameter estimation, and the error of the ability estimated value decreases as the number of items increases, which increase the accuracy of the ability estimation.
2. The ability estimated value error of the three methods decreases as the examinees reaches 120 persons, which increases the accuracy of the estimation.
3. The number of items and the examinees are changed to compare the accuracy of ability estimated value for the three methods, and the result shows that “normal CDF transformed recursive estimation” is most accurate, upper-lower item discrimination is the least accurate, while the estimated accuracy of “point-biserial correlation item discrimination” lies between the above two.
This research concludes that the improved ” normal CDF transformed recursive estimation” gives better estimation than “point-biserial correlation item discrimination (Liu,2001)” and “upper-lower item discriminationof kernel smoothing nonparametric IRT model (Ramsay,1991)” . This research also shows that method proposed by
Hsiang-Chuan Liu gives better estimation than that by Ramsay.
Keywords:upper-lower item discriminination index, point-biserial correlation item discriminination index, Cumulative Density Function of Normal transformed, kernel smoothing.
目 錄
摘 要
... I
Abstract...II
目 錄 ...III
表目錄
...V
圖目錄
... VI
第一章 緒論
...1
第一節 研究動機...1 第二節 研究目的...3 第三節 名詞釋義...4第二章 文獻探討...9
第一節 古典測驗理論...10 第二節 試題反應理論模式...12 第三節 試題選項特徵分析模式...20 第四節 Ramsay「擴張高低鑑別指數」及核平滑化法...24 第五節 相關鑑別指數之系列研究...27 第六節 核平滑化無參數IRT 模式常態轉換遞迴估計 ...31第三章 研究方法...35
第一節 研究架構...35 第二節 研究工具...37 第三節 資料模擬步驟與演算...37第四章 研究結果與討論...44
第一節 結果分析...44 第二節 結果歸納...63第五章 結論與建議...65
第一節 研究結論...65 第二節 研究建議...66參考文獻
...67
壹、中文部分...67 貳、外文部分...68附錄
...69
附錄A 不同取樣下,三種模式之能力參數估計誤差MSE值比較(總表) ...69 附錄B 不同人數下,三種模式之能力參數估計誤差MSE值比較(總表) ...70 附錄C 不同取樣組合下,三種模式之能力參數估計誤差MSE值折線圖彙整71表目錄
表3-1 蒙地卡羅模擬研究能力參數估計誤差之組合樣本...43 表4-1 相同人數不同題數之三種模式能力參數估計之MSE值(抽樣 20 次) ...46 表4-2 相同人數不同題數之三種模式能力參數估計之MSE值(抽樣 30 次) ...47 表4-3 相同人數不同題數之三種模式能力參數估計之MSE值(抽樣 50 次) ...48 表4-4 相同人數不同題數之三種模式能力參數估計之MSE值(抽樣 100 次) ...49 表4-5 相同題數不同人數之三種模式能力參數估計之MSE值(抽樣 20 次) ...53 表4-6 相同題數不同人數之三種模式能力參數估計之MSE值(抽樣 30 次) ...54 表4-7 相同題數不同人數之三種模式能力參數估計之MSE值(抽樣 50 次) ...54 表4-8 相同題數不同人數之三種模式能力參數估計之MSE值(抽樣 100 次) ...55 表4-9 相同題數不同抽樣次數之三種模式能力參數估計之MSE值(40 人) ...60 表4-10 相同題數不同抽樣次數之三種模式能力參數估計之MSE值(80 人) ...60 表4-11 相同題數不同抽樣次數之三種模式能力參數估計之MSE值(120 人) ...61 表4-12 相同題數不同抽樣次數之三種模式能力參數估計之MSE值(160 人) ...61圖目錄
圖2-1 單參數試題特徵曲線...14 圖2-2 雙參數試題特徵曲線...15 圖2-3 三參數試題特徵曲線...16 圖2-4 四參數試題特徵曲線...17 圖2-5 1PL、2PL、3PL 模式之試題特徵曲線比較...19 圖2-6 Ramsay 選項特徵曲線...21 圖2-7 高鑑別度試題之選項特徵曲線...22 圖2-8 高誘答力之選項特徵曲線...22 圖2-9 低誘答力之選項特徵曲線...23 圖2-10 標準答案有誤之選項特徵曲線...23 圖3-1 研究架構圖...35 圖4-1 不同測驗題數之能力值MSE平均值比較折線圖(40 人抽樣 50 次) ...50 圖4-2 不同測驗題數之能力值MSE平均值比較折線圖(80 人抽樣 30 次) ...50 圖4-3 不同測驗題數之能力值MSE平均值比較折線圖(120 人抽樣 100 次) ...51 圖4-4 不同樣本數之能力值MSE平均值比較折線圖(30 題抽樣 20 次) ...56 圖4-5 不同樣本數之能力值MSE平均值比較折線圖(40 題抽樣 100 次) ...56 圖4-6 不同樣本數之能力值MSE平均值比較折線圖(50 題抽樣 50 次) ...57 圖4-7 不同抽樣次數之能力值MSE平均值比較折線圖(120 人題數 50 題) ...62 圖4-8 不同抽樣次數之能力值MSE平均值比較折線圖(40 人題數 30 題) ...63 圖4-9 不同抽樣次數之能力值MSE平均值比較折線圖(160 人題數 40 題) ...63第一章 緒論
對一位教師而言,其崇高的教育使命應是能因材施教,發揮最大教學成效, 使學生潛能充分發展,獲得最高的學習成就。但在教學現場,欲得知學生之資質 高低、潛力如何、學業成就是否切實展現學生之能力,並非易事。若教師能透過 測驗與統計分析,較準確評估學生能力值,將更能修正教學、分析學生學習之優 劣勢能力,有效引導學生學習。 本研究欲探討「核平滑化無參數試題反應理論模式」對能力參數估計準確度, 並透過模擬研究,以改進能力參數之估計準確度。第一節 研究動機
中國自古以來即有科舉取士的人才選拔方式。及至現代,不論中外,包含學 校各種評量(總結性評量、形成性評量、診斷性評量)、各類升學考試、各界選拔 人才、能力鑑定評估、人員分類、疾病診斷……,許多方面都會用到測驗與評量 方式。 為了更客觀有效的呈現所欲測定的特質,近百年來測驗理論蓬勃發展,從早 期的「古典測驗理論」(classical test theory;簡稱CTT),發展至目前的「試題反應 理論」(item response theory;簡稱IRT)。自1980年後,測驗理論的發展有兩大方 向:即「理論的發展愈趨向數學化,理論的應用愈趨向電腦化。」(余民寧,1992)。 在能力值估計方面,古典測驗理論以真實分數模式為理論架構,其假定主要在於 界定觀察分數、真實分數及誤差分數間之關係,以原始得分相同者,看成能力值 相同,忽視受試者作答的反應組型(item response pattern)所代表的意義,並未符合 個別差異的存在。而參數型及無參數型IRT針對試題選項作分析研究,除考慮選 項所反應出的訊息外,也針對受試者原始總分相同難以對其能力值做出區辨的問 題,提供較佳的解決方式。試題,了解受試者反應項目難度、鑑別度、猜測度等參數與受試者能力之間的關 係。因有優美數理結構之分析模式,而成了現代測驗理論的重心。但所有參數型 IRT都有以下共同的限制(劉湘川,2001b): 一、建立模式時需估計之參數過多,受試者人數需遠超過兩百人以上,不適 合個別學校診斷教學使用。 二、特徵曲線為預先主觀設定之單調平滑曲線,不能忠實反應實際資料特有 訊息之原貌。 三、試題參數須遞迴估計,複雜費時,非直接解(closed-form solution)。 四、為便於MSE估計,必須符合局部獨立之假設。 參數型IRT必須滿足局部獨立之限制,且僅適用於大樣本之測驗分析,在現 今小班教學的情境下頗受限制。無參數試題反應理論(non-paramenter item response theory;NP-IRT)無局部獨立之限制,可避免IRT模式迴歸函數之主觀認 定,讓資料自己適當表達,且適用於受試人數200人以下,並可與試題順序理論 結合,藉以分析個別受試之試題關聯結構,轉化應用於個別受試者之試題關聯順 序分析,符合目前班級教學小樣本之診斷評量分析需求,這是無參數IRT之發展 契機。 加拿大麥克基爾大學(McGill University)心理計量學教授J.O.Ramsay在1991 年首先應用直觀簡單之核平滑化無參數迴歸函數法,估計試題特徵曲線及選項特 徵曲線,茲稱為「核平滑化無參數試題選項特徵曲線估計法(Kernel smoothing nonparametric item characteristic curve estimation)」。本質上,參數估計法為「能 力參數」與「選項特徵參數」同時遞迴估計,Ramsay之核平滑化無參數估計法則 為二段獨立估計,先以「擴張高低鑑別指數」加權估計能力參數,再以「核平滑 化」加權估計各選項特徵曲線 (劉湘川,2001b) 。唯其加權總分之加權函數,採 試題選項之擴張高低鑑別指數,劉湘川(2001a)指出Ramsay之擴張高低鑑別指數有 下述五項缺失:
二、各試題選項高分組或低分組之選答率為1或0時均不適用。 三、總分居中之百分之五十受試者之作答反應未被考慮,損失訊息。 四、擴張高低鑑別指數非高低鑑別指數之保序變換,會發生加權總分逆序情 況。 五、總分同分情況未充分加權改善。 為改進上述情況,在能力值估計方面,劉湘川(2000a,2000b,2001a,2001b,2001c) 陸續提出「50%高低鑑別指數」、系列之「試題選項之相關鑑別指數」替代 Ramsay(1991)之「高低鑑別指數」,均可明確改善上述五項缺失,且以「相關鑑 別指數」為佳。故提出改進之「相關鑑別指數加權分位數常態轉換」核平滑化 無參數IRT模式,以進一步充分改善總分同分情況。劉湘川(2007)指出「分位數 常態轉換」不利於能力參數值之遞迴改進估計,無論全體受試加權總分之變動 為何,只要其位序不變,則經由「分位數常態轉換」之常態轉換值為恆定不變。 顯然擬經由常態轉換改進能力參數值之估計,須另謀他法。 故本研究提出以「常態CDF轉換」替代Ramsay之「分位數常態轉換」,提出 「核平滑化無參數IRT模式常態CDF轉換遞迴估計」之核平滑化無參數試題反應 理論模式,期望克服分位數常態轉換所遭遇的問題,並提升能力參數估計精準度。
第二節 研究目的
壹、理論基礎部分
本研究之理論部分分別就Ramsay(1991)提出之之「高低鑑別加權」模式、劉 湘川(2001)提出之「相關鑑別加權」改進模式與劉湘川(2007)提出之「常態CDF 轉換」改進模式,藉以得到三者之能力參數估計值。貳、資料模擬部分
基於上述,本研究擬運用MATLAB 7.1 軟體研發能力值估計程式,以「高低 鑑別指數」及核平滑化法、劉湘川(2001)提出之「點二系列相關鑑別指數」與劉湘川(2007)提出之「核平滑化無參數 IRT 模式常態 CDF 轉換改進估計」,得到能 力參數估計值,並採用蒙地卡羅模擬比較此三種模式之能力參數估計誤差。故本 研究目的有三: 一、比較測驗題數之改變,對三種模式之能力參數估計效果的影響。 二、比較測驗人數之改變,對三種模式之能力參數估計效果的影響。 三、比較相同樣本,抽樣次數之改變,對三種模式之能力參數估計效果的影 響。
第三節 名詞釋義
茲將本研究所涉及的名詞─高低鑑別指數、相關鑑別指數、分位數常態轉換、 常態CDF轉換、核平滑化法,提出釋義如下:壹、高低鑑別指數(
Wi)
Ramsay所採用的高低鑑別指數,Wi ,是取logit值來擴張D25高低試題鑑別指 數所得之加權值,藉以改善原始測驗得分同分之情況。 高低試題鑑別指數D25乃以原始總分排序後,依得分高低各25%的受試者答對 率,分別為高低分組。以其通過率之差作為加權總分排序時的加權函數。 ) 25 ( ) 75 ( ) 25 ( i i i P P D = − (1) 上式表示第i試題25%高低鑑別指數。其中Pi(75)、Pi(25)分別表示原始總分排序 前25%高分組、後25%低分組受試者中,實際選答第i題之通過率。 Ramsay引進logit轉換高低鑑別指數作為受試者加權總分排序時之加權函 數,如下式。[ ]
[ ]
⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − = − = (75) (25) (75(75) ) (25()25) 1 ln 1 ln log log i i i i i i i P P P P P it P it W (2)貳、相關鑑別指數(
r)
劉湘川(2001)定義「點二系列相關鑑別指數」,ri,在此簡稱「相關鑑別指數」, 為全體受試者之測驗總得分(x1,x2,...,xN)與試題得分(u1i,ui2,...,uiN)之點二系列相關 係數。即
(
)
(
)
1 i N s s i i s i x u x x u u r NS S = − − =∑
(3) 其中xs表示受試者s之測驗總得分。 s i u 表示受試者s是否實際選答第i試題正 確選項之指示函數。∑
= = N s s x N x 1 1 2 1 2 1 ( ) x x N S N s s x =∑
− =∑
= = N s s i i u N u 1 1 2 1 2 1 ( ) i N s i u u u N S i =∑
− =參、分位數常態轉換
分位數常態轉換:乃將受試者原始總分依大小排序,估計受試者s之秩:rs, 再藉由下列機率積分轉換,將受試者s之秩rs轉換成標準常態分配之分位數,而 得標準常態分配之相對應能力參數估計值之過程。 標準常態分配的對應分位數(quantile):qs,s=1,2,...,N。 機率積分轉換方式:(
)
1 2 1 22 + = ≤ = − ∞ −∫
N r r R p dt e s s t qs π ,s=1,2,...,N (4)肆、常態CDF轉換
劉湘川(2007)提出「常態CDF轉換」:係將相關鑑別指數ri常態化,使得新的 相關係數wi能介於0到1之間。∑
= = + = n i i i i i i w r 1 , 2 1 β β β (5)再以新的相關係數乘上答題指示值 s i u ,求得總分Zs。經過常態累積機率CDF 轉換方法轉換後以得到初步能力估計值 (0) s θ 。
∑
= ≤ ≤ = n i s s i i s w u Z 1 1 0 , Z ) 0 ( 2 2 ) 0 ( 2 1 s cdf s t z dt e s θ π θ ⇒ = − ∞ −∫
(6) 接著以所得之估計值 (0) s θ 代入核平滑化公式求得答對之機率,將每位受試者 每題之答對機率平均,並經由常態CDF轉換後得最後之能力估計值。伍、核平滑化法
無參數迴歸(nonparametric regression)估計法是直接估計預測變項X及反應變 項Y之間的函數關係,讓資料自己呈現合適的迴歸函數,藉以避免對迴歸函數的 主觀認定。但此模式在解釋上較不具有直觀上的意義,需配合散佈圖(plot)的解釋 說明,方能發揮效用。因此無參數迴歸估計量(nonparametric regression estimators) 亦稱為迴歸平滑化法(regression smoothers)或散佈圖平滑化法(scatterplot smoothers)。若以核函數(kernel function)為基礎之平滑化法,則稱之為核平滑化法 (kernel smoothing)。 核平滑化法係指被估計的之受試者得分加以排序後之函數與試題選項是否 被選(被選則指示值定為1,否則為0),所形成二元變數間之關係。 常見的核平滑化法模式有以下三種: 一、NW估計量 此估計量由Nadaraya和Watson(1964)所提出。 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎧ = − ≠ − − − =∑
∑
∑
∑
= = = 0 ) ( 0 0 ) ( ) ( ) ( ) ( ˆ 1 1 1 n n i i n i i n i i i NW X x h X x K h X x K Y h X x K x g (7)其中 n:樣本個數 Xi:預測變項 Yi:反應變項 K(⋅):核函數 h:帶寬參數 二、PC估計量 此估計量由Priestley和Chaon(1972)所提出。
∑
= − − − = n i i i i i PC h Y h X x K X X x g 1 1) ( ) ( ) ( ˆ (8) 其中 n:樣本個數 Xi:預測變項 Yi:反應變項 K(⋅):核函數 h:帶寬參數 三、GM估計量 此估計量由Gasser和Muller(1979)所提出。 dz h z x K h Y x g n i d d i GM i i ) ( 1 ) ( ˆ 1 1 − =∑ ∫
= − (9) 其中 d0 =0 2 1 + + = i i i X X d i=1,2,...,n dn =1 以上三種核平滑化模式中,K(⋅)為核函數,而核函數需滿足下列條件: (一)、對於所有的自然數u,K(u)≥0。 (二)、假如u≥0,K(0)> K(u)。(三)、當u →∞,則K(u)→0。 下列為三個常用之核函數:(Ramsay,2000) (一)、均一函數(uniform function): ⎩ ⎨ ⎧ ≤ = otherwise u if u K 0 1 5 . 0 ) ( (二)、二次函數(quadratic function) ⎩ ⎨ ⎧ − ≤ = otherwise u if u u K 0 1 ) 1 ( 75 . 0 ) ( 2 (三)、高斯函數(Gaussian function) ∞ < < ∞ − ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = u u u K 2 exp ) ( 2 核平滑化法在平滑過程中,尚需選擇適當的帶寬參數(平滑參數)h,以在偏 差及樣本變異中取得平衡。
第二章 文獻探討
實施測驗或進行評量,其目的皆在於採用適當的試題及配分,以得到受試者 的真實特質或能力。基於對心理特質的可測性假設:「凡是存在的東西,必可用 量化形式表示;凡是可以數的,不需要測量;凡是不可數的,必可測量,凡測量 必有誤差。」因此,如何使測量結果越接近受試者真實能力或特質,成為測驗理 論發展的目標。 測驗理論是解釋測驗資料間實證關係的理論,早期的測驗理論稱為古典測驗 理論(CTT)。其內涵主要是以真實分數模式(亦即,觀察分數x等於真實分數t與誤 差分數e之和,數學公式為x=t+e)為理論架構,依據弱勢假設(weak assumption) 而來,以各試題配分的總合為受試者的總分,並以此總分代表受試者的心理特質 或能力值,總分高的代表能力高,反之總分低的代表能力低。是描述「測量誤差」 如何影響觀察分數的一個簡單且很有用的模式。其理論模式的發展為時甚久,且 具相當規模,所採用的計算公式簡單明瞭、淺顯易懂,適用於大多數的教育與心 理測驗資料,以及社會科學資料的分析,為目前測驗學界使用與流通最廣的理論 依據。將於第一節簡介之。 為了更精確測定受試者潛在特質,試題反應理論(IRT)藉著電腦快速精準之估 算,試圖以單一試題分析之觀點,來估計試題與受試者之潛在特質。透過試題分 析,選取高鑑別度試題,組合成一份高鑑別力之測驗。第二節將簡介試題反應理 論。第三節簡介試題選項反應理論(item option response theory),加入各試題選項 之作答訊息來加權估計總分,期能使估計的總分更接近受試者真實能力之潛在特 質或能力。此理論之選項加權方法有很多種,如J.O.Ramsay所提出的高低試題鑑 別指數(upper-lower item discriminination index)、劉湘川所提出的點二系列相關試 題鑑別指數(point-biserial correlation item discriminination index)。分別於第四節及 第五節介紹之。
第六節介紹本研究提出之「常態CDF轉換遞迴估計之核平滑化無參數IRT模 式」。
第一節 古典測驗理論
古典測驗理論是最早的測驗理論,其主要目的是在估計某個測驗實得分數的 信度,故亦稱為「古典信度理論」(classical reliability theory)。
研究者真正想測量的是受試者的潛在特質,即真實分數;但測量中,受試者 表現出來的觀察分數(實得分數),可能受外在因素影響,而與真實分數間存在或 多或少的誤差分數。因此受試者的潛在特質無法由單一測驗的實得分數來表示, 必須由受試者在無數次測驗中所得的實得分數之平均值來表示。當測驗長度增加 時,受試者潛在特質(能力值θ)之最大近似值(θˆ)會呈現以θ為平均數的常態分 配,因此θˆ是受試者潛在特質的不偏估計值。
根據 Lord & Novick (1968)、 Allen & Yen (1979) 及 Gulliksen (1987),可將 古典測驗理論的基本假設歸納如下:(余民寧,2002)。
壹、 七項假設
一、χ =t+e(實得分數等於真實分數與誤差分數之和)。 二、E(χ)=t(實得分數的期望值等於真實分數)。 三、ρte =0(真實分數與誤差分數之間呈零相關)。 四、ρe1e2 =0(不同測驗的誤差分數間呈零相關)。 五、 0 2 1t = e ρ (不同測驗的誤差分數與真實分數間呈零相關)。 六、假設有兩個測驗,其實得分數分別為χ 和 χ′,並且滿足上述1到5的假 設,且對每一群體受試者而言,亦滿足t =t′和σ2e =σ2e′ 等條件,則這 兩個測驗便稱為「複本測驗」(parallel tests)。設,且對每一群體受試者而言,亦滿足t1=t2 +c12,其中為c12一常數,
則這兩個測驗稱作「本質上τ 相等測驗」(essentially τ -equivalent tests)。 古典測驗理論根據上列七個假設加以推導,得出十八個結論,企圖去估計測 驗內或測驗間實得分數和真實分數間的關聯強度,此關聯強度即古典測驗理論所 要估計的各種可能信度係數。對於測驗試題的特性所採用的係數指標,分別為試 題之難度(difficulty)及鑑別度(discrimination)。
貳、 難度、鑑別度
試題難度在統計上之操作型定義指全體受試者答對或通過該試題的百分 比。或將受試者依總分高低排序,取一定比例分別為高分組(PH)、低分組(PL), 再計算高分組和低分組答對該試題的百分比,即可得試題難度P為: 2 L H P P P= + 而試題鑑別度D在統計上的操作型定義是測驗得分排序後高分組與低分組 之差。 L H P P D= − 一般常取總分排序最高的27%受試者為高分組( H P27),排序最低的27%為低分 組( L P27),此時所得之鑑別指數記為D27。Ramsay(1991)則取D25為鑑別指數、劉湘 川(2001b)取D50為鑑別指數,以提高鑑別能力之量化比較值。 另外點二系列相關係數、二系列相關係數,則具有間接估計試題鑑別度的功 能。二系列相關係數(biserial correlation) 是一種適用於兩個變項均為常態的連續 變項,但其中一個變項因某種理由被以人為方式劃分為兩個類別的情況;例如老 師將學生得分以60分為界,區分成「及格」、「不及格」,使原為連續變數的成績 變成名義二分變項。點二系列相關係數與二系列相關類似,惟一差別在於點二系 列相關適用於一個變項為等距或比率變項,另一個變項為真正的名義二分變項的 資料,如文盲對非文盲、智能不足對智能正常。(余民寧,2001、林清山,1992)。在心理測驗的領域裡,鑑別指數是用來代表某個特定試題可以區別某種心理 特質之高低的依據。高的試題鑑別度表示:答對該特定試題之受試者,在該測驗 總分較高;而答錯該特定試題之受試者,在該測驗總分亦較低。以點二系列相關 係數來作為特定試題與測驗總分之相關,其中特定試題的計分通常只有兩種:答 對、答錯,以1、0表示之。
參、 古典測驗理論之優缺
古典測驗理論依據其基本假設及推論,延伸出其他關聯的議題,如信度、效 度、測驗編製、常模、測驗等化、測驗偏差、試題分析、適性測驗、題庫建立等, 其計算公式簡單明瞭、淺顯易懂、實用易實施,適用於大多數育與心理測驗資料, 及社會學資料的分析,迄今仍廣受中小學教師及一般大眾所接受。 但因其採用的係數指標如信度、難度、鑑別度等皆是樣本依賴之指標,亦即 這些指標的獲得會因抽樣的受試者樣本不同而不同,故同一份試卷很難獲得一致 之難度、鑑別度或信度;且信度建立在複本測驗之概念假設上,然複本測驗實際 上並未存在;加以測驗實施抽樣變動大、能力值難比較、缺乏預測力、假設測量 標準誤皆相等,忽略受試者作答的試題反應組型所代表的意義,將得分相同之受 試者視為潛在特質相同,及對於測驗設計、偏誤題的認定、測驗的等化問題,無 法得到滿意解決等缺點(余民寧,2002、王寶墉,1995),故有試題反應理論(IRT) 之興起。第二節 試題反應理論模式
試題反應理論(IRT)是現代測驗理論的重心,其特點是以「機率」的概念來解 釋受試者能力和試題反應間之關係,亦即依據受試者之實際試題反應結果,經由 理論的數學模式轉換運算,即可估計受試者的能力(ability)或潛在特質(latent traits)。此數學模式稱為試題特徵函數(item characteristic function,簡稱ICF),以試題特徵曲線是將能力不同的受試者得分點連接起來所構成的曲線,把各試 題的試題特徵曲線加總起來,便構成所謂的試卷特徵曲線(test characteristic curve,簡寫為TCC)。試題特徵曲線即是一條試題得分對能力因素所作的迴歸線。 其所表示的涵義,即是某種潛在特質的程度與其在某一試題上正確反應的機率二 者之間的關係;這種潛在特質的程度愈高(或愈強),其在某一試題上的正確反應 機率便愈大。 在IRT 中,每一試題反應模式即其相對應之一條試題特徵曲線,此一曲線通 常包含一或多個參數來描述試題的特性,及一或多個參數來描述考生的潛在特 質;因此,IRT 在描述受試者潛在特質和測驗反應機率間之數學函數關係。因函 數中所採用的參數個數不同,可區分為不同的模式,若模式中的試題特徵曲線可 以固定參數代表時,稱為「參數型IRT」,若其試題特徵曲線不能以固定參數表達 時,則列入「無參數型IRT」。
壹、參數型IRT模式
參數型模式大致可分為單參數(1PL,又稱為Rasch 模式)、雙參數(2PL)、三 參數(3PL)、四參數(4PL)模式等,各模式之試題特徵函數(ICF)及試題特徵曲線(ICC) 如下所示:一、單參數模式(one-parameter logistic model) 單參數對數模式試題特徵函數: i s i s b b s i e e P − − + = θ θ θ 1 ) ( (10) 單參數對數模式試題特徵函數公式推導:設Pi(θ 為受試者s ) s答對試題i之機 率。 取其勝率 0 ( ) 1 ) ( 1 ) ( < < − i s s i s i P P P θ θ θ 因 <∞ − < ) ( 1 ) ( 0 s i s i P P θ θ 故 < ∞ − < ln ) ( 1 ) ( ln 0 ln s i s i P P θ θ
設 = + = − −∞< − <∞ − = s i s i s i s i s i b b b P P y θ θ θ θ θ ' ) ( 1 ) ( ln ) ( 1 ) ( ) ( 1 ) ( ln s i s i b s i s i i s P P e P P b s i θ θ θ θ θ θ − = − = − 故 − ) ( )) ( 1 ( ) ( 1 i s i s s i b b P P P e e i s i s θ θ θ θ θ + − = + − − ) ( 1 1 1 ) ( i s i s i s b b b s i e e e P − − − − + = + = θ θ θ θ 若θ →−∞ 則 Pi(θs)→0 1 ) ( → ∞ → Pi θs θ 則 若 單參數對數模式之試題特徵曲線之線形隨bi (難度)值改變,−∞<bi <∞,當 難度bi 值等於受試者能力值θ時,對照到Pi(θ =.5。答對機等於s) 2 1 ,如圖2-1。適 用於有良好指導語之效標參照測驗。 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -4 -3 -2 -1 0 1 2 3 4 latent trait 能力值θ probablity P(θ) bi=-2 bi=0 bi=2 圖2-1 單參數試題特徵曲線(bi 難度)
二、雙參數模式(two-parameter logistic model) 雙參數對數模式試題特徵函數:
) ( ) ( 1 ) ( i s i i s i b a b a s i e e P − − + = θ θ θ (11) 雙參數對數模式多了鑑別度參數ai,試題特徵曲線產生斜率不同的改變。如 圖2-2。適用於單選題、能力分析或自由反應之試題分析。鑑別度沒有負值, ∞ < <ai 0 ,良好鑑別度一般介於0~3 之間。 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -4 -3 -2 -1 0 1 2 3 4 latent trait 能力值θ probablity P(θ) ai=1 bi=-2 ai=1.5 bi=0 ai=0.5 bi=2 圖2-2 雙參數試題特徵曲線(ai 鑑別度、bi 難度)
三、三參數模式(three-parameter logistic model) 三參數對數模式試題特徵函數: ) 1 )( 1 ( ) ( ( ) ) ( i s i i s i b a b a i i s i e e c c P − − + − + = θ θ θ (12) 1 0<ci < 1 ) ( → ∞ → i s s P θ θ i s i s →−∞ P(θ )→c θ 三參數對數模式又再加了ci 值(猜測度),使得試題特徵曲線線形雖接近於圖 2-2,但bi 值並未落在Pi(θ =.5,而是落在s) Pi(θ =(1+s) ci /2)。如圖 2-3。如為選擇 題,且可能存在猜測因素,則可考慮以三參數模式分析之。ci ≤0.3為宜。
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -4 -3 -2 -1 0 1 2 3 4 latent trait 能力值θ probablity P(θ) ai=1 bi=-2 ci=0.1 ai=1.5 bi=0 ci=0.2 ai=0.5 bi=2 ci=0.3 圖2-3 三參數試題特徵曲線(ai鑑別度、bi 難度、ci猜測度)
四、四參數模式(four-parameter logistic model) 四參數對數模式試題特徵函數: ) 1 )( ( ) ( ( ) ) ( i i i i i i b a b a i i i s i e e c d c P − − + − + = θ θ θ (13) 1 0<di < i s i s →∞ P(θ )→d θ i s i s →−∞ P(θ )→c θ 四參數對數模式中,能力值越趨近於負無限大者,其答對機率Pi(θ 越趨近s) 於ci ;而能力值越趨近於正無限大時,其答對機率Pi(θ 越趨近於s ) di ,無法趨近 於1,這表示能力再高的受試者也只有di 的答對機率Pi(θ ,所以稱s) di 為天井參 數,四參數對數模式所畫出之試題特徵曲線如圖2-4。 天井參數常出現於作文給分或申論題時,幾乎不會給予滿分的情況,故以下 研究略去此參數。
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -4 -3 -2 -1 0 1 2 3 4 latent trait 能力值θ probablity P(θ) ai=1 bi=-2 ci=0.1 di=.9 ai=1.5 bi=0 ci=0.2 di=.97 ai=0.5 bi=2 ci=0.3 di=.95 圖2-4 四參數試題特徵曲線(ai鑑別度、bi 難度、ci猜測度、di 天井參數) 其中Pi(θ 代表能力值為s) θ 之第s s位受試者答對第i題的機率函數。 e:底為2.718(自然對數 exp)之指數。 s θ :第s位受試者之能力值。 i a :第i題的鑑別參數。 i b :第i題的難度參數。 i c :第i題的猜測參數。 i d :第i題之天井參數。 進行測驗主要希望藉由受試者作答反應來估計其潛在能力,而受試者潛在能 力與其在題目反應之關係可藉由試題反應理論來建立,參數型IRT 的特色有: (一)、試題的參數估計值不變性(invariance),是樣本獨立(sample-independent) 的試題參數估計值。 (二)、能力的參數估計值不變,是試題獨立(item-independent)的能力估計值。 (三)、能力估計值的測量誤差大小,隨能力不同而異。(曾建銘,2006) 參數型IRT 主要以分析測驗中每一試題之難易度、鑑別度、猜測度等重要參 數,以卡方考驗來檢定模式否適合資料。採用卡方適合度統計顯示最少試題達顯 著(代表不適配)之模式。再以這些參數為基礎,配合測驗目的,選取鑑別度高的
試題,刪除鑑別度低的試題,進行組卷、施測,並將測驗結果的原始分數轉換為 可代表學生真實能力的量尺分數,以估計學生之能力。 參數模式中,Pi(θ 代表受試者能力值為s) θ時之答對機率。當能力值θ趨近正 無限大時,答對機率Pi(θ 會趨近於 1,而當能力值s) θ趨近負無限大時,答對機率 ) ( s i P θ 會趨近於 0,表示能力值越高者答對機率越高,反之,能力值越低者,答 對機率亦越低。在單參數、雙參數模式中,當能力值θ等於難度bi 時,答對機率 則為 2 1 。 舉例來看,若為單參數模式(Rasch model),假設難度參數bi = .5,則能力值θ 為.5,對照到Pi(θ =.5。如圖 2-5 之 1PL 試題特徵曲線。若為雙參數模式,假設s) ai = 1.5, bi = .5,多了鑑別度參數ai ,試題特徵曲線線形產生斜率不同的改變。如圖 2-5 之 2PL 試題特徵曲線。若為三參數模式,ai= 1.5, bi = .5,ci = .15,再加了猜 測度參數ci ,如圖2-5 之 3PL 試題特徵曲線,bi 值並未落在Pi(θ =.5,而是落在s ) ) ( s i P θ =(1+ci /2)。 如圖2-5,無論是單參數、雙參數或三參數模式,受試者能力值越高,即θ越 趨近正無限大時,答對機率Pi(θ 就越趨近於 1;當能力值越低,即s) θ越趨近負無 限大時,答對機率Pi(θ 就越趨近於 0,但是很明顯三參數模式(3PL)之答對機率s ) ) ( s i P θ 趨近於參測度ci ,高於另外二條試題特徵曲線。意即能力再低的受試者也 會有ci 的答對機率。
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 -4 -3 -2 -1 0 1 2 3 4 latent trait 能力值θ probablity P(θ) 1PL 2PL 3PL 圖2-5 1PL、2PL、3PL 模式之試題特徵曲線比較 參數設定:ai = 1.5, bi = .5, ci= .15 參數型IRT 假定某一試題之正確反應機率除了由受試者能力值θ所決定外, 並且受該試題之參數(難易度、鑑別度、猜測度)所決定。主要依據測驗中每一試 題的參數(難易度、鑑別度、猜測度),再以數學模式估計試題特徵曲線,因數學 模式是固定的,故限制了試題特徵曲線之真實性,對受試者真實呈現之作答訊息 的代表性較低。為改善此一缺失,以提昇估計受試者真實能力的精準度,無參數 試題反應理論(無參數 IRT)應運而生。
貳、無參數型IRT模式
無參數迴歸估計法對於迴歸函數事先並不設定其模式,完全依照資料忠實呈 現受試者能力特質。無參數IRT重點在於「受試者能力參數」的估計方式,而在 試題特徵曲線的估計方面則不限制以何種形式來進行描述(郭伯臣,1995),即受 試者能力參數的估計是由受試者實際作答的反應中獲得,並非由固定的數學模式 來估計。因此,無參數IRT模式所呈現之試題特徵曲線形狀亦較多樣化,也較能 精準估計受試者真實能力。鄭富森(1994)提出無參數IRT內容如下:一、 模式假設: 無參數IRT模式假定所有受試者的試題反應受下列三特性的影響: (一)、 受試者特性:影響答題反應的主要因素來自受試者內在能力特質 及外在測量誤差兩方面。 (二)、 試題特性:試題做量化分析的目的在描述受試者潛在特質與試題 特徵的關係。探討不同能力受試者在試題得分期望值。故假設能 用一條直線來表達受試者能力與其試題表現間的數量關係。 (三)、 評分特性:評分的量化數值受評分者主觀依受試反應給予量化分 數影響,故與受試者潛在特質間存在著誤差分數。 二、 能力值估計: 無參數IRT的估計方式,主要以直接得到的觀察分數xis來估計受試者 能力值θ ,再以s θ 估計其得分期望值s fis。 三、 無參數IRT模式優點: (一)、 不受試題參數之限制。 (二)、 能真實地描述出試題特徵之曲線。 (三)、 所得之試題特徵曲線為嚴格遞增(遞減),能忠實地呈現資料所代 表之訊息。 (四)、 即使在小樣本情況下,依舊能合理推算出能力估計值與試題特徵 函數。 (五)、 不需進行局部獨立之假設。 (六)、 不受計分方式限制。
第三節 試題選項特徵分析模式
不論是參數估計試題反應曲線,或無參數試題反應曲線,大都僅止於估計正 答選項之答對率與受試者能力之關係,但在多項選擇題(multiple-choice item)中,特徵分析模式的誕生。
試題選項特徵分析模式除正答選項外,又加入選擇題誘答選項,以試題鑑別 指數做為各選項加權值,加權估計總分,使其更能代表受試者的真正能力值。所 謂的選項特徵函數是將受試者能力與試題選項反應結果之間的關係以數學模式 表示。如果將此模式所要表達的關係以圖形化的方式表示,則稱為選項特徵曲線 (option characteristic curve;簡稱 OCC)。
利用圖形化的方式來記錄或比較資料及數據,比冗長的文宇敘述或單純的數 字表現來得詳盡且清楚,選項特徵曲線即具有此種特性(伍孝春,2005)。它以受 試者之能力為橫軸,以受試者在某一試題之選答率為縱軸,事先並無假設其服從 某一特定之試題反應模式,完全根據受試者之作答資料,再配合核平滑化法之使 用(Ramsay, 1991),得一平滑之曲線圖,如圖 2-6 所示。有別於試題特徵曲線是先 選定一試題反應模式,且只針對試題之正確選項進行分析。 圖2-6:Ramsay 資料檔 psych101.dat 第 5 題選項特徵曲線 伍孝春(2005)研究數學科基測命題競賽與試題分析,肯定選項特徵曲線對於 診斷試題的問題能提供有效的幫助,它能決定是否重新命題以強化不明的試題選 項或是提供較合理的誘答選項。以下特徵曲線的分析可以簡單明瞭看出試題之良 莠。例如圖2-7 是一題良好之試題,選項 1 為正確之選項,當受試者之能力值大 於1.2 時選答率急遽增加,即受試者需具備某一答題概念方可答對此題,此一試
題具有良好之鑑別度。 圖2-7:高鑑別度試題之選項特徵曲線(伍孝春,2005,p12) 圖2-8 顯示:這一題之正確選項為選項 4,選項 4 和選項 3 之曲線幾乎呈現 對稱,顯示選項3 具有高誘答力,影響受試者之作答反應。 圖2-8:高誘答力之選項特徵曲線(伍孝春,2005,p13) 圖2-9 顯示:這是一題相當容易之試題,正確選項為第 1 選項,任何能力之 受試者對於正確選項均有很高的選答率,其誘答選項幾乎不具有誘答力。
圖2-9:低誘答力之選項特徵曲線(伍孝春,2005,p13) 圖2-10 顯示:這也是一題有問題之題目,選項 3 為正確選項,但在中高能力 程度的學生卻以選項4 為正確答案,表示此題提供之標準答案有誤。 圖2-10:標準答案有誤之選項特徵曲線(伍孝春,2005,p14) 試題選項特徵分析模式依據能力值與估計選答機率繪出試題選項特徵曲 線,再依據選項特徵曲線之類型,篩選試題選項,提供命題者做為命題參考,也 可依據誘答選項特徵曲線診斷受試者在測驗內容之迷思概念,提供教學者教學參 考 (周郡禾,2003) 。 試題選項特徵分析模式之選項加權的方法有很多種,Ramsay 所提出之擴張 高低鑑別指數加權;劉湘川所提出之相關鑑別指數加權、距離平方比加權、多重
加權、高階相關鑑別加權、高階相關比累進加權、高階相關比累進相關鑑別加權; 周郡禾提出完美組型試題鑑別指數加權,都是無參數IRT 理論,都可據以估計受 試者之能力,具有良好的試題分析功能。下列二節針對Ramsay 所提出的擴張高 低鑑別指數、劉湘川所提出的相關試題鑑別指數及核平滑化法簡介之。
第四節 Ramsay「擴張高低鑑別指數」及核平滑化法
J.O.Ramsay在1991年首先結合「高低試題鑑別指數」與「核平滑化無參數估 計法」,提出正確選項與誘答選項均可分析之「高低試題鑑別指數加權分位數常 態轉換」核平滑化無參數IRT模式。壹、擴張高低鑑別加權
試題鑑別指數之功能,旨在測知該試題具有區別受試者能力高低之作用程 度。亦即高鑑別度試題較能高度反應出「高能力受試者答對率較高,而低能力受 試者答錯率亦較高。」之情況。(劉湘川,2003) 在大型標準測驗中,受試者人數眾多,卻限於測驗長度或題數,致測驗得分 同分情況嚴重,難以區別受試者能力。過去常以「試題難易度」加權計分改善, 而Ramsay(1991)則引進logit函數來擴張「D25高低試題鑑別指數」轉換得一加權 值:Wij,藉以獲得全部試題所有選項應答訊息之整合加權測驗得分:Ts,來改善 原始測驗得分嚴重同分的情況及可排序之改善結果。此時,Ts亦更接近真實能力 值之轉換估計,故得以排序後受試者s之秩(rank):rs,再選用適當的核函數(kernel function)作為加權,並配合帶寬參數(bandwidth parameter)h的運用來估計選項特 徵曲線。(吳慧珉,2001) Ramsay定義25%高低試題鑑別指數:D25,以原始總分排序前25%之受試者 為高分組,原始總分排序後25%為低分組,分別以 (75) P 、P(25)表示第i試題之高分鑑別指數。 在Ramsay之核平滑化無無參數IRT模式中,是以25%高低試題鑑別指數D25, 再取logit值來擴張D25高低試題鑑別指數所得之Wi加權值: ) 25 ( ) 75 ( log log i i i itP itP W = − (25) ) 25 ( ) 75 ( ) 75 ( 1 ln 1 ln i i i i P P P P − − − = 洛吉數函數(logit function):設logit定義於開區間(0,1) 之函數,若
( )
( )
log ln , 0,1 1 x it x x x = ∀ ∈ − (14) 則稱為洛吉數函數。 以擴張高低鑑別指數Wi做加權,可得受試者s之鑑別指數加權總分Ts統計量 如下式: s i n i i s Wu T∑
= = 1 s=1,2,...,N (15) s i u 表示第s位受試者選答第i題填答情形之指示值,若u is( )
=1表示答對,為0 則表示答錯,則(
u i u i1( ) ( )
, 2 ,...,uN( )
i)
為受試者指示值之數列(i=1,2,...,n)。 經擴張高低鑑別指數加權計算後,總分同分情形可獲大幅改善。但加權後可 能Ts之高低分順序已不同於原始得分之排序,產生非保序變換之結果。貳、分位數常態轉換
得到新的加權總分統計量Ts後,將Ts值由小而大重新排序,可估得受試者s之 秩(rank):rs。再以下列機率積分轉換方式,可得標準常態分配的對應分位數 (quantile):qs,s=1,2,...,N。qs為受試者s之估計能力值。(
)
1 2 1 22 + = ≤ = − ∞ −∫
N r r R p dt e s s t qs π (16) 經加權分位數常態轉換後,所有受試者之估計能力值qs依加權總分Ts排序後 之秩rs,由小而大依序排列於常態分配。參、高低鑑別加權模式核平滑估計
因選答機率p為機率估計值,需滿足p∈[ ]
0,1,故Ramsay(1991)採 Nadaraya &Watson(1964)提出之 NW 核平滑化估計模式,如下:( )
( ) 1 1 N s s i s i N s s q k y h p q k h θ θ θ = = − ⎛ ⎞ ⎜ ⎟ ⎝ ⎠ = − ⎛ ⎞ ⎜ ⎟ ⎝ ⎠∑
∑
(17) s:表受試者,s=1,2,...,N。 i:表試題,i=1,2,...,n。 ) (⋅ K :核函數。 ( )s i y :表加權排序後,第rs序位受試者實際選答試題i之反應指示值。 s q :表第rs序位受試者加權總分經機率積分轉換之分位數,以作為受試者之能力 值。h:表帶寬參數(bandwidth parameter)亦稱平滑參數(smoothing parameter)。
核平滑化法在平滑過程中,尚需選擇適當的帶寬參數(平滑參數)h,以在偏 差及樣本變異中取得平衡。當平滑參數h增加時,偏差(bias)會伴隨著h之增加而 增加,但樣本變異數卻會減少,樣本變異數小代表分散度小,鑑別度低,雖使估 計之試題選項特徵曲線較平滑,然而卻也容易失真;反之,隨著h帶寬參數減少, 偏差減少,樣本變異數卻相對增加,提高鑑別度,但估計之曲線較不平滑,易失 去平滑之目的。因此,想獲得較佳之估計量,需同時兼顧偏差及樣本變異數之間 的平衡。 Ramsay 採 5 1 1 . 1 − = N h ,其中N 為受試者人數。此外Ramsay 選(3)式之高斯函 數(Gaussian function)為專有之核函數,因高斯函數能提供快速傅立葉轉換(fast Fourier transform)所需要之重要訊息,加快估算速度。 ∞ < < ∞ − ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − = u u u K 2 exp ) ( 2 (18)
( )
(
)
( )(
)
2 2 5 1 2 2 5 1 exp 2.42 ˆ exp 2.42 N s s i s i N s s N q y p N q θ θ θ = = ⎡ ⎤ − ⎢− ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ = ⎡ ⎤ − ⎢− ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦∑
∑
(19) 其中 ) ( ˆ θ i P :表能力值為θ 的受試者s在第i試題之答對機率。 s:表受試者,s=1,2,...,N。 i:表試題,i=1,2,...,n。 ( )s i y :表加權排序後第rs序位受試者實際選答試題i
之反應指示值。 s q :表第rs序位受試者加權總分經機率積分轉換之分位數,以代替受試者之能力 值。簡言之,Ramsay(1991)之核平滑化無參數 IRT 模式,有下列 RESS 四個步驟(劉 湘川,2001b): 一、 求秩(Rank):由統計量Ts之排序,估計受試者s之秩rs。 二、 計算(Enumerate):以機率積分轉換,將受試者s之秩rs轉換成標準常態 分配之分位數;q1,q2,...,qN。 三、 排序(Sort):藉由被估計出之能力秩序,依序排出受試者s對應之原始 反應組型; (yi(1),yi(2),...,yi(N)), i=1,2,...,n 四、 平滑(Smooth):藉由(4)式平滑化估計Pˆi(θ)。
第五節 相關鑑別指數之系列研究
劉湘川(2000a)提出重要性質,「受試者測驗總分不少於3相異值時,相關鑑 別指數之值譜數,恆多於高低鑑別指數者。」並指出Ramsay之擴張高低鑑別指數 有下述五項缺失:一、受試者人數須為四之倍數。 二、各試題選項高分組或低分組之選答率為1或0時均不適用。 三、總分居中之百分之五十受試者之作答反應未被考慮,損失訊息。 四、擴張高低鑑別指數非高低鑑別指數之保序變換,會發生加權總分逆序情 況。 五、總分同分情況未充分加權改善。 因Ramsay 的理論模式中,以D25高低鑑別指數,只考慮高分組及低分組之作 答情形,忽略中間50%受試者之作答訊息;且分組百分比取全體受試者之 25%, 故受試者總人數需為4 之倍數;且log (75) log (25) ij ij itP itP − 並非Pij(75) −Pij(25)之保序變 換,取logit值將造成更大的誤差。再加上總分同分情況未充分加權改善。為改進 加權總分同分情況,劉湘川(2000a) 另提「50%高低鑑別指數」及「點二系列相 關鑑別指數」替代Ramsay(1991)之「高低鑑別指數」,劉湘川以光譜分析學 (spectrology)之值譜分析(spectral analysis)概念,指出區別能力較佳之鑑別指數, 應如功能較強之分光器,能夠呈現較完整之區分值譜,而有較大「值譜數」 (spectrum size)。定義「值譜數」為鑑別指數之所有可能相異數值之個數。經值譜 分析證實「50%高低鑑別指數」及「點二系列相關鑑別指數」兩者均可明確改善 上述五項缺失,且以「點二系列相關鑑別指數」為佳,無論在鑑別能力上或受試 者人數限制考量上,均遠勝於任何「高低試題鑑別指數」。因而提出改進之「相 關鑑別指數加權分位數常態轉換」核平滑化無參數IRT 模式。 劉湘川(2001a)提出改進之核平滑化模式與 IORS 之整合模式,在估得試題及 選項特徵曲線後,可接續分析試題正確選項間之關聯順序,及不同試題誘答選項 間之關聯順序。劉湘川(2001b)進而擴充核平滑化與 IORS 整合模式,不僅有效改 進能力參數之估計,更進一步改善總分同分情況。在能力參數之估計上,創新引 進隨機未作答虛擬選項,進行合併估計,因而能兼顧隨機未作答不完全資料之情 況。劉湘川、劉新梧(2001)進而應用於「不完全資料之多元計分三參數試題選項
進行加權遞迴改進估計,而得改進之試題選項分析整合模式。劉湘川(2002b)建議 以「高階相關比線性加權函數」取代原有之「多重加權函數」而得能力參數之改 進估計法。劉湘川(2003)再提出「高階相關比之累進加權函數」,分別取代先前之 加權函數而得改進擴充模式。吳世能(2008)運用相關加權之無參數 IRT 模式,可 有效區隔受試者之得分,增加試卷鑑別功能。其結合多點記分無參數IRT 與順序 理論,運算出個別受試者之試題解答機率並分別提出試題順序結構圖,則利於個 別受試者之診斷評量與補救教學。何志成(2008) 提出改進核平滑化無參數 IRT 模 式之蒙地卡羅模擬研究,證實相關鑑別模式對能力參數估計精準度優於高低鑑別 模式。
壹、相關鑑別加權
劉湘川(2001)提出「點二系列相關鑑別指數;ri」之定義如下: 假設受試者有N 人(s=1,2,...,N),試題有n
題(i=1,2,...,n)。ri表測驗總分(
x1,x2,...,xN)
與是否實際選答試題i正確選項之指示數值(
)
1, ,...,2 N i i i u u u 之積差相關 係數,稱為「點二系列相關試題鑑別指數」,即(
)
(
)
1 i N s s i i s i x u x x u u r NS S = − − =∑
(20) 其中xs表受試者s之測驗總分, s i u 表受試者s是否實際選答試題i正確選項之指示 數值。∑
= = N s s x N x 1 1 ,(
)
2 1 2 1∑
= − = N s s x x x N S 1 1 N s i i s u u N = =∑
,(
)
2 2 1 1 i N s u i i s S u u N = =∑
− 因ri介於-1 到 1 之間,取計分加權值β 則介於 0 到 1 之間。 i 1 0 , 2 1 ≤ ≤ + = i i i r β β加權總分 Ts統計量定義如下式: N s u T is n i i s 1,2,..., 1 = =
∑
= β (21) 其中Ts表受試者s之相關加權總分值, s i u 表受試者s實際選答試題i之指示值。貳、分位數常態轉換
將Ts值由小而大重新排序表示如右:T(s),即T(1),T(2),...,T(N),再藉由下式機率 積分轉換,可得標準常態分配之N 個對應能力參數估計值: ) ( ) 2 ( ) 1 ( ) ( ; ˆ , ˆ ,..., ˆ ˆ N s θ θ θ θ N s N s dt e t s ,..., 2 , 1 , 1 2 1 2 ˆ( ) 2 = + = − ∞ −∫
θ π (22) 經由相關加權常態轉換估計法,可估得兼顧隨機未作答及充分改善總分同分 情況之能力參數改進估計值;由小而大排序為: ) ( ) 2 ( ) 1 ( , ˆ ,..., ˆ ˆ N θ θ θ參、相關鑑別加權之核平滑估計
並令 ( )s i y 表能力參數估計值為θˆ(s)之受試者實際選答試題i之反應指示值,則 以θˆ(s)及 ( )s i y 分別取代(4)式之qs及 ( )s i y ,可得試題i之選答機率函數,如(23)式:∑
∑
= = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − = N s s N s s i s s i N y N P 1 2 ) ( 5 2 1 ) ( 2 ) ( 5 2 42 . 2 ) ˆ ( exp 42 . 2 ) ˆ ( exp ) ( ˆ θ θ θ θ θ (23) 採用相關試題鑑別指數具下列四項優點(吳慧珉,2001):較方便。 (二)、相關試題鑑別指數具有保序性,能確保受試者次序關係之改變,是根 據其作答反應訊息加權所得。 (三)、充分運用全部受試者的答題資訊,沒有遺漏任何一位受試者的答題訊 息,估計過程將更為謹慎。 (四)、在理論上已證明相關鑑別指數之鑑別能力優於高低試題鑑別指數。
第六節 核平滑化無參數IRT模式常態轉換遞迴估計
壹、核平滑化無參數IRT模式常態CDF轉換改進估計
一、規格化相關鑑別加權 劉湘川(2007)提出「核平滑化無參數 IRT 模式之常態 CDF 轉換改進估計」, 將原本之相關鑑別指數β 常態化,使得新的相關係數能介於 0 到 1 之間。再以新i 的相關係數wi乘上答題指示值 s i u ,求得總分Zs。∑
= ≤ ≤ = n i s s i i s wu 1 1 Z 0 , Z s =1,2,...,N (24) 之相關係數。 為 其中: N S s i n i s i i i i n i i i i r u u r W 1 1 1 , , 2 1 , = = = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + = =∑
∑
β β β 二、常態CDF 轉換 能力值估計不採分位數轉換,改採常態累積機率CDF 轉換,以得到初步能 力估計值 (0) s θ 。 ) 0 ( 2 2 ) 0 ( 2 1 s cdf s t Z dt e s θ π θ ⇒ = − ∞ −∫
s=1,2,...,N (25) 三、平滑估計答對機率 以所得之估計值 (0) s θ 代入核平滑化公式求得答對之機率。∑
∑
= = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − = N s s N s s i s i N y N P 1 2 ) ( 5 2 1 ) ( 2 ) ( 5 2 42 . 2 ) ( exp 42 . 2 ) ( exp ) ( θ θ θ θ θ ( )0 ( )0( )
( )0 k . , s s i i s s u P θ θ ⎡ ⎤ ⇒ ⎣ ⎦ (26) 再將每位受試者每題之答對機率平均,並經由常態累積機率CDF 轉換後得 最後之能力估計值 (1) s θ 。 ) 1 ( ) 0 ( ) 0 ( 2 1 ) 0 ( ) 0 ( ) 0 ( ) 0 ( ( ) 2 1 ) ( 1 ) ( 2 ) 1 ( s cdf s t n i s i s P e dt P n P s θ θ π θ θ = =θ − = ⇒ ∞ − =∫
∑
(27)貳、核平滑化無參數IRT模式常態CDF轉換遞迴估計
一、NW 核平滑化過程,會將兩尾之估計值偏向中心發展,故運用「兩尾修 正動態平滑參數核平滑化無參數試題選項特徵曲線」修正此問題。 令 ( ) min ( ), ( ) max ( ) ,..., 2 , 1 ,..., 2 , 1 N m s M s N m s s m p p p p θ θ θ θ = = = = 3 , 2 , 1 , ) 4 1 ( 2 1 −2 = + − = ∞ −∫
+ i i p p dt e M M t i N θ π 1, 1,2,3 ) ( + = = i y N i ) , 0,1,2 4 3 ( 2 1 2 1 = − = − ∞ −∫
− i p i dt e m t i θ π 4 ) , 0,1,2 3 ( (1) ) (− = − = i y i y i (28) 二、採取動態帶寬平滑參數改進核平滑化無參數試題選項特徵曲線。 在帶寬平滑參數估計部分,Ramsay 對所有能力參數估計值之常態分配分位 數,均採相同之帶寬參數估計值 5 1 1 . 1 − = N h ,其中N 為受試者人數,惟當受試者人 數不夠多時,估計所得之試題選項特徵曲線兩尾之波動甚大,為改進平滑曲線兩 尾之波動情況,本文取動態帶寬參數估計值hs。 (一)設定動態帶寬參數 。5 1 ) ( ) 10 ( + − − = N hs θ s θ (29) (二)代入得到核平滑化無參數試題選項特徵曲線機率模式,如下: ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − + − − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − + − − = − = − =
∑
∑
2 ) ( 2 ) ( 5 2 1 ) ( 2 ) ( 2 ) ( 5 2 1 ) 10 ( ) ( 5 . 0 exp ) 10 ( ) ( 5 . 0 exp ) ( θ θ θ θ θ θ θ θ θ s s N s s i s s N s i N y N P N s=1,2,..., ,i=1,2,...,n (30) (三)平衡遞迴核平滑化無參數試題特徵曲線:核平滑化運算過程,先針對全 部θ值進行排序,之後要計算某一θ值之Pi(θ)時,只針對θ值上下各若干 人的資料進行運算。以θ 值上下各 3 人(含自己共 7 人)的資料進行運算如 下: N s h q k x h q k P s t s t t s i s t s t s i , 1,2,..., ) ( ) ( ) ( 3 3 ) ( 3 3 = − − = + − = + + − =∑
∑
θ θ θ (31) N N N N N N N N q q q q q q q q q q q q q q θ θ θ ≤ ≤ ≤ < < < ≤ ≤ ≤ ≤ ≤ ≤ ≤ ≤ < < < − − − − + + + − ... ... 2 1 3 2 1 1 2 3 4 3 2 1 0 1 2參、遞迴過程:
(
)
(
)
1 i N s s i i s i x u x x u u r NS S = − − =∑
, 設∑
= = + = n i i i i i i w r 1 , 2 1 β β β ) 0 ( 2 1 2 ) 0 ( 2 1 1 Z 0 , Z s cdf s t n i s s i i s Z dt e u w s θ π θ ⇒ = ≤ ≤ = − ∞ − =∫
∑
∑
∑
= = ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − − = N s s N s s i s i N y N P s k 1 2 ) ( 5 2 1 ) ( 2 ) ( 5 2 42 . 2 ) ( exp 42 . 2 ) ( exp ) ( : . θ θ θ θ θ 令 2 (1) 1 ) 0 ( ) 0 ( ) 0 ( ) 0 ( 2 ) 1 ( 2 1 ) ( 1 ) ( s cdf t n i s i s P e dt n P s θ π θ θ = =θ − ⇒ ∞ − =∫
∑
[
, ( )]
(1)( (1)) . ) 1 ( ) 0 ( ) 1 ( θ θ θ i s k s i s P ⇒P ) 2 ( 2 1 ) 1 ( ) 1 ( ) 1 ( ) 1 ( 2 ) 2 ( 2 1 ) ( 1 ) ( s cdf t n i s i s P e dt n P s θ π θ θ = =θ − ⇒ ∞ − =∫
∑
[
, ( )]
( )( ( )) . ) ( ) 1 ( ) ( m m i s k m s m i m s P θ P θ θ − ⇒ ) 1 ( 2 1 ) ( ) ( ) ( ) ( 2 ) 1 ( 2 1 ) ( 1 ) ( − + ∞ − = ⇒ = = ⇒∑
∫
+ m s cdf t n i m s m i m s m dt e P n P m s θ π θ θ θ ) ( ) ( , ) ( 1 ( 1) ( ) ( ) ( ) 1 2 ) ( ) 1 ( θ ε θ θ θ θ θ i m m i m s m s N S m s m s P P N − < ⇒ = = + = +∑
(32) 常態CDF 轉換遞迴估計至能力值估計值達到既定收斂水準ε =0.001為止。 即 1 ( ) 0.001 1 2 ) ( ) 1 ( − < =∑
= + θ ε θ N S m s m s N 。第三章 研究方法
第一節 研究架構
本研究主要以「相關鑑別指數」替代Ramsay之「高低鑑別指數」,並以「常 態CDF轉換」替代Ramsay之「分位數常態轉換」,提出雙重改進之核平滑化無參 數IRT模式,以改進能力參數之估計。再藉由蒙地卡羅模擬研究之參數估計檢驗 此模式之成效,進行能力參數估計誤差之比較。 以下提出研究架構如圖3-1所示。 理論基礎 1. Ramsay「高低鑑別指數」核平滑化無參數IRT模式。 2. 劉湘川「相關鑑別指數」核平滑化無參數IRT模式。 3. 劉湘川「常態CDF轉換遞迴估計」核平滑化無參數IRT模式。 資料模擬 1. 設定受試母群體為3PL-IRT模式模擬,作為檢驗效標。 2. 預設題數、受試施測樣本大小、抽樣次數。 3. 依預設能力值代入3PL模式獲取答題機率值,並轉化為答題指示值。 高低鑑別加權模式 相關鑑別加權模式 常態CDF轉換模式 受試者能力值估計 能力值估計精確度比較 結果討論與建議 圖3-1 研究架構圖茲以研究架構圖,分別就理論基礎部分、資料模擬部分與研究工具敘述如下: