• 沒有找到結果。

利用混合模型探討英文詞彙測驗受測者之作答順序

N/A
N/A
Protected

Academic year: 2021

Share "利用混合模型探討英文詞彙測驗受測者之作答順序"

Copied!
60
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學數學系碩士班碩士論文. 指導教授: 蔡蓉青 博士. 利用混合模型探討英文詞彙測驗受測者之作答順序. 研 究 生:陳奕璇. 中 華 民 國 106 年 7 月.

(2) ii.

(3) 誌謝. 在此論文研究過程中,由衷感謝指導教授蔡蓉青教授的耐心指導, 在我困惑時願意多花時間講解到讓我理解,並且給予精準的建議讓論 文內容能夠表達得較清晰,真的非常感謝。. 也感謝口試委員游琇婷教授與呂翠珊教授在口試期間給予的指正與 建議,使得論文內容能夠更加完整。. 還有感謝學長謝逸安程式技術上的幫忙和學長賴國棟經驗上的協 助,使得在研究過程中所遇到的困難能夠順利解決。. 最後感謝家人與朋友們的鼓勵與談心,讓人能夠舒緩情緒並再次打 起精神繼續努力。. 陳奕璇謹識於 國立臺灣師範大學數學系碩士班 中華民國一零六年七月. iii.

(4) iv.

(5) 摘要. 研究第一語言及第二語言的研究者認為詞彙量對於語言能力有著 重要的意義。而英文詞彙測驗 (Vocabulary Levels Test, VLT) 是一個廣 泛應用在測試詞彙量的測驗,可有效確認受測者是否擁有足夠的詞彙 量。由於英文詞彙測驗有 10 個題組的試題結構,文獻中已提出利用二 參數英文詞彙測驗的依序試題模型 (VLT-Sequential Model, VSM),解 決題組內題目間所存在的相依性的問題。當應用該模型來分析實徵資 料時,出現配適不佳的狀況。除了考量該測驗中配適不佳的試題是否 具有其特殊性之外,希望進一步地對於二參數 VSM 模型中所假設的 全部受測者都是按照題目難易度順序作答的合理性進行檢定,故本論 文將建構混合二參數 VSM 模型,進一步考慮也存在有按照題目順序 作答的族群的可能性。在模擬研究中,使用邊際最大概似估計來估計 參數,確認混合二參數 VSM 模型估計的有效性,並觀察當資料中同 時存在有按照題目順序及題目難易度順序作答的受測者時的作答,卻 僅使用二參數 VSM 模型,在參數估計上會有何影響。分析實徵資料 3,000 字等級的英文詞彙測驗中,確認二參數 VSM 模型配適度不佳的 情況與按照題目作答順序無關,而在 5,000 字等級的英文詞彙測驗結 果中發現,混合二參數 VSM 模型表現優於二參數 VSM 模型,更進一 步,如果忽略其實存在有按照題目順序作答的這個族群,僅用二參數 VSM 模型來進行分析,將會低估這類受測者的能力。. 關鍵字:混合模型、英文詞彙測驗、作答順序 v.

(6) vi.

(7) Abstract. Vocabulary knowledge is considered by both first-language and secondlanguage researchers to be of great significance in language competence. Vocabulary Levels Test (VLT) is commonly used and shown effective in measuring learner’s vocabulary size. The test consists of ten item clusters, and two-parameter logistic VLT-Sequential Model(2PL-VSM) considers taking into account the dependency structure among items within a cluster in modeling VLT data. However, some clusters exhibit misfit while fitting the actual 3000-level data with a 2PL-VSM.The purpose of this study is to construct a two-parameter logistic Mixture VLT-Sequential Model(2PL-MVSM) that relaxes the assumption that the items within a cluster are answered in the order of their item difficulty, from easiest to the most difficult ones, and allows some examinees to answer these items in their order presented in the original test, i.e. item number. In the simulation study, we investigate the effect of ignoring the examinees answering items within a cluster by item number by comparing the estimation results from the 2PL-VSM to those from the 2PL-MVSM. In analyzing the 3000-level and 5000-level VLT data, the results show no necessity to include the additional class of answering-byitem-number examinees for 3000-level data, whereas 2PL-MVSM is shown to be superior over 2PL-VSM in the actual 5000-level data. Furthermore, the abilities of the examinees who answer the items by item number would be under-estimated if only 2PL-VSM is fit to the 5000-level data.. Keywords: Mixture model, Vocabulary levels test, Answering order vii.

(8) viii.

(9) 目錄 誌謝. iii. 摘要. v. Abstract. vii. 1. 緒論. 1. 2. 模型. 3. 2.1. 2.2. 2.3 3. 二參數 VSM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.1. 模型發展 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.2. 模型假設 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.3. 題組結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 混合二參數 VSM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2.1. 模型假設 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2.2. 題組結構 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 2.2.3. 試題反應機率函數 . . . . . . . . . . . . . . . . . . . . . . . .. 7. 估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 模擬研究 3.1. 3.2. 15. 生成資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 3.1.1. 題目參數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 15. 3.1.2. 樣本數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 3.1.3. 比例參數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 3.1.4. 能力參數 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 結果分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16. 混合二參數 VSM 的估計有效性 . . . . . . . . . . . . . . . . .. 16. 3.2.1. ix.

(10) 4. 二參數 VSM 估計的誤差情況 . . . . . . . . . . . . . . . . . .. 18. 3.2.3. 分群正確率與能力估計比較 . . . . . . . . . . . . . . . . . . .. 24. 實徵資料 4.1. 5. 3.2.2. 33. VLT 資料分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 33. 4.1.1. 模型比較 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 33. 4.1.2. 參數估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.1.3. 模型配適度 . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 討論與結論. 43. 參考文獻. 45. 中文文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. 英文文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45. x.

(11) 圖目錄 3.1. 鑑別度實徵偏誤圖 (樣本數 500,混合比例 0.2) . . . . . . . . . . . . .. 20. 3.2. 鑑別度實徵偏誤圖 (樣本數 1000,混合比例 0.2) . . . . . . . . . . . .. 20. 3.3. 鑑別度實徵偏誤圖 (樣本數 2000,混合比例 0.2) . . . . . . . . . . . .. 20. 3.4. 鑑別度實徵偏誤圖 (樣本數 500,混合比例 0.4) . . . . . . . . . . . . .. 21. 3.5. 鑑別度實徵偏誤圖 (樣本數 1000,混合比例 0.4) . . . . . . . . . . . .. 21. 3.6. 鑑別度實徵偏誤圖 (樣本數 2000,混合比例 0.4) . . . . . . . . . . . .. 21. 3.7. 難易度實徵偏誤圖 (樣本數 500,混合比例 0.2) . . . . . . . . . . . . .. 22. 3.8. 難易度實徵偏誤圖 (樣本數 1000,混合比例 0.2) . . . . . . . . . . . .. 22. 3.9. 難易度實徵偏誤圖 (樣本數 2000,混合比例 0.2) . . . . . . . . . . . .. 22. 3.10 難易度實徵偏誤圖 (樣本數 500,混合比例 0.4) . . . . . . . . . . . . .. 23. 3.11 難易度實徵偏誤圖 (樣本數 1000,混合比例 0.4) . . . . . . . . . . . .. 23. 3.12 難易度實徵偏誤圖 (樣本數 2000,混合比例 0.4) . . . . . . . . . . . .. 23. 3.13 分群正確率直方圖 (混合比例 0.2) . . . . . . . . . . . . . . . . . . . .. 24. 3.14 分群正確率直方圖 (混合比例 0.4) . . . . . . . . . . . . . . . . . . . .. 25. 3.15 能力估計散佈圖 (樣本數 500,混合比例 0.2) . . . . . . . . . . . . . .. 26. 3.16 能力估計散佈圖 (樣本數 1000,混合比例 0.2) . . . . . . . . . . . . .. 26. 3.17 能力估計散佈圖 (樣本數 2000,混合比例 0.2) . . . . . . . . . . . . .. 30. 3.18 能力估計散佈圖 (樣本數 500,混合比例 0.4) . . . . . . . . . . . . . .. 30. 3.19 能力估計散佈圖 (樣本數 1000,混合比例 0.4) . . . . . . . . . . . . .. 31. 3.20 能力估計散佈圖 (樣本數 2000,混合比例 0.4) . . . . . . . . . . . . .. 31. 4.1. 能力參數估計比較 (3, 000 字等級) . . . . . . . . . . . . . . . . . . . .. 38. 4.2. 能力參數估計比較 (5, 000 字等級) . . . . . . . . . . . . . . . . . . . .. 38. xi.

(12) xii.

(13) 表目錄 1.1. VLT 題組範例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 2.1. ∗ ∗ P (Y(2) |Y(1) , θ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.2. ∗ ∗ ∗ P (Y(3) |Y(1) , Y(2) , θ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.3. 二參數 VSM 各種作答情況機率 . . . . . . . . . . . . . . . . . . . . .. 12. 2.4. P (Y2∗ |Y1∗ , θ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.5. P (Y3∗ |Y1∗ , Y2∗ , θ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 3.1. 混合比例 0.2 的鑑別度參數 α 估計平均值 (標準差) . . . . . . . . . .. 18. 3.2. 混合比例 0.2 的難易度參數 β 估計平均值 (標準差) . . . . . . . . . .. 27. 3.3. 混合比例 0.4 的鑑別度參數 α 估計平均值 (標準差) . . . . . . . . . .. 28. 3.4. 混合比例 0.4 的難易度參數 β 估計平均值 (標準差) . . . . . . . . . .. 29. 3.5. 混合比例參數估計平均值 (標準差) 及偏誤 . . . . . . . . . . . . . . .. 29. 3.6. 分群正確率平均值 (標準差)、最大值及最小值 . . . . . . . . . . . . .. 30. 4.1. 模型比較 (3, 000 字等級) . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.2. 模型比較 (5, 000 字等級) . . . . . . . . . . . . . . . . . . . . . . . . .. 34. 4.3. 混合二參數 VSM 與二參數 VSM 之題目參數估計值 (標準誤)(3, 000 字等級) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.4. 36. 混合二參數 VSM 與二參數 VSM 之題目參數估計值 (標準誤)(5, 000 字等級) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37. 4.5. 配適度比較 (3, 000 字等級) . . . . . . . . . . . . . . . . . . . . . . . .. 40. 4.6. 配適度比較 (5, 000 字等級) . . . . . . . . . . . . . . . . . . . . . . . .. 40. 4.7. 配適度比較 (5, 000 字等級題組一) . . . . . . . . . . . . . . . . . . . .. 41. 4.8. 配適度比較 (5, 000 字等級題組九) . . . . . . . . . . . . . . . . . . . .. 41. 4.9. 配適度比較 (5, 000 字等級題組十) . . . . . . . . . . . . . . . . . . . .. 41. xiii.

(14) xiv.

(15) 1. 緒論 研究第一語言及第二語言的研究者認為詞彙量對於語言能力有著重要的意義. (Grabe, 1991;. Frederiksen, 1982)。而英文詞彙測驗 (Vocabulary Levels Test, VLT). 是一個廣泛應用在測試詞彙量的測驗 (Nation, 1990),其測驗依單字出現的頻率高 到低分為四個等級,分別為 2, 000、3, 000、5, 000 及 10, 000 字,此外還有大學英 語字彙 (University Word List)(Nation, 1999)。在此研究中,每份測驗皆有 10 個題 組,每一題組有 3 小題以及 6 個選項,所以分別都有 30 個小題。而每個題組的題 目參考形式如表1.1(Nation, 1999): 表 1.1: VLT 題組範例 1 2 3 4 5 6. business clock horse pencil shoe wall. part of a house animal with f our legs something used f or writing. 在實際施測時,受測者會被告知若遇到不會的題目,可以選擇不要填選項, 將該小題答案欄留為空白,並且在同一個題組裡,假設不會有任何一個選項被重 複填選的情況。 以往分析 VLT 資料時,Schmitt、Schmitt 與 Clapham(2001) 指出最常使用試題 反應理論 (item response theory, IRT) 來做分析,如 Linacre 與 Wright(1993)、Beglar 與 Hunt(1999),但使用 IRT 時,會發現其忽略同一題組內的題目之間的相依性 (DeMars,2006),因而在賴國棟 (2016) 的研究中,建構出英文詞彙測驗的依序試題 模型 (VLT- Sequential Model, VSM),其考慮了 VLT 資料中題組內部的相依性,模 型分別以 IRT 中的 Rasch 模型和二參數 (two- parameter logistic, 2PL)IRT 模型為基 礎,發展出單參數 VSM 以及二參數 VSM。在賴國棟 (2016) 的研究中分析 VLT 資 料時,二參數 VSM 的表現優於 Rasch 模型、單參數 VSM 與 2PL 模型,但對於有 些題組依然配適度不佳,他指出或許是有其他作答順序非 VSM 所考慮的,也就 1.

(16) 是非按照題目難易度由易至難的順序作答,有些人可能是按照題目順序作答,建 議可發展能同時考慮多種作答順序的模型,這樣可能會比較符合實際的狀況。故 在此研究中,將繼續考慮按照題目難易度順序作答的情況,並多增加考慮部分受 測者有按照題目順序作答的情形。 本文將考慮兩種作答順序,一為按照題目順序,另一為按照題目難易度,若 只考慮後者即為二參數 VSM,為了能同時考慮兩種作答順序方式,模型部分將 選用混合模型。混合模型為較一般化的模型,可觀察類別異質性的部分,並嘗試 去推斷所感興趣的事物。在此研究中所使用的混合模型,並非如此的一般化,而 是有較多限制的。像是題目參數對於兩群類別的受測者而言都是相同的,且為了 凸顯是僅因作答順序不同造成的分群,在模擬實驗中,是假設兩個族群的受測者 能力皆為標準常態分配,在分析實際資料時,也是以兩個族群的受測者能力為標 準常態分配做分析,還有兩個族群的作答情況之機率密度函數是相近的,綜合以 上,去估計混合比例參數,也就是有多少比例的受測者是屬於按照題目順序作 答。 本文第二章介紹二參數 VSM 與混合二參數 VSM 的建構。第三章介紹利用混 合二參數 VSM 生成資料,分別利用混合二參數 VSM 與二參數 VSM 估計,並觀 察混合二參數 VSM 的估計有效性及二參數 VSM 的估計誤差情況。第四章介紹在 3, 000 與 5, 000 字等級的英文詞彙測驗資料中,分別探討混合二參數 VSM 與二參 數 VSM 的模型選擇,並估計受測者能力。第五章為討論與結論,針對此研究做 結論並提出還可以改善的地方。. 2.

(17) 模型. 2. 在賴國棟 (2016) 研究中,以 Rasch 模型與 2PL 模型為基礎,依照 VLT 資料的 題組結構建構出單參數 VSM 與二參數 VSM,並與 Rasch 模型和 2PL 模型做模型 的比較研究。在分析 3, 000 字等級的英文詞彙測驗中,由 AIC 與 BIC 兩個指標可 以得到二參數 VSM 與 2PL 模型優於單參數 VSM 與 Rasch,也就是在分析 3, 000 字等級的英文詞彙測驗在模型的選擇上,二參數的模型表現會比單參數的模型 好。接著又從模型配適度可以發現,二參數 VSM 優於 2PL 模型,因此可以知道 符合 VLT 資料題組結構的二參數 VSM 的確比較優秀。在本文中,為了分析是否 可因多一種作答方式,而在參數估計上能夠更加精確,因此選擇使用二參數 VSM 作為發展基礎,並多考慮按照題目順序作答的族群,發展出混合二參數 VSM。以 下將先詳細介紹二參數 VSM 的發展想法和模型內容。. 二參數 VSM. 2.1 2.1.1. 模型發展. 二參數 VSM 發展自 IRT 模型中提出的 2PL 模型,並考慮英文試題測驗題組 內相依性的問題。. 2.1.2. 模型假設. 針對二參數 VSM,有著以下假設 1. 假設受測者作答順序只有一種,皆為按照題目的難易程度作答,也就是受測 者會先回答較簡單的題目。 2. 不考慮受測者猜對的情況,換言之受測者作答正確與否,與受測者的能力相 關。 3.

(18) 3. 受測者如果遇到不會的題目,會隨機選一個錯誤的選項填入,而每一個錯誤 選項被選中的機率是相等的。 4. 同一題組內,不會發生同個選項被重複選取的情況。 5. 給定能力參數 θ 下,同題組內的題目作答為相依事件,但不同題組間的題目 作答則為獨立事件。. 2.1.3. 題組結構. ∗ 根據模型假設來討論作答情況,每一題組題目為 6 選項 3 小題,令符號 Y(1) 、 ∗ ∗ Y(2) 和 Y(3) 表示為受測者在一題組內,依題目難易度作答的第 1 題、第 2 題和第 3. 題所回答的反應,因後作答的題目在作答時能選擇的選項與前面的作答有關,即 題組內的題目為相依事件,可表示為式 (2.1),其中 θ 為受測者能力。 ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ P (Y(1) , Y(2) , Y(3) |θ) = P (Y(1) |θ)P (Y(2) |Y(1) , θ)P (Y(3) |Y(1) , Y(2) , θ).. (2.1). 根據 IRT 的 2PL 模型,假設受測者能力為 θ,題目鑑別度參數為 α,題目難 易度參數為 β,可以得到受測者作答正確的機率為. P (Y = 1|θ) =. exp{α(θ − β)} , 1 + exp{α(θ − β)}. (2.2). 1 . 1 + exp{α(θ − β)}. (2.3). 而受測者作答錯誤的機率則為. P (Y = 0|θ) =. 若現有一名受測者的能力為 θ,假設受測者按照題目難易度作答的題目 順序的正確答案為 (1, 2, 3),且鑑別度參數依序為 α(1) 、α(2) 及 α(3) ,難易度參 ∗ = 1,而此機率為 數依序為 β(1) 、β(2) 及 β(3) 。如果第一題答對了,也就是 Y(1) exp{α(1) (θ−β(1) )} ,由於並沒有在作答第一題時選到第二題的正確選項,那麼第二 1+exp{α(1) (θ−β(1) )} exp{α (θ−β )} 題選到正確選項而答對的機率為 1+exp{α(2)(2) (θ−β(2)(2) )} ,每個錯誤的選項被選到的機率. 則為. 1 4. ×. 1 ,此情況就如表2.1內容中的第一列,若在作答第一題時 1+exp{α(2) (θ−β(2) )}. 4.

(19) ∗ 選到第二題的正確選項,也就是 Y(1) = 2,那麼第二題選到正確選項而答對的機. 率為 0,每一個錯誤選項被選到的機率則為 15 ,此情況就如表2.1內容中的第二列, ∗ ∗ ∗ ∗ ∗ 其餘 P (Y(2) |Y(1) , θ) 的各種情況也列於表2.1。同樣地,可以討論 P (Y(3) |Y(1) , Y(2) , θ). 會有哪些情況,以表2.2列出各種情況。 ∗ ∗ 表 2.1: P (Y(2) |Y(1) , θ) ∗ Y(1). ∗ Y(2) =1. ∗ Y(2) =2. ∗ Y(2) =3. 1. 0. p2. 2. 1 5. 0. 1 5. 0. 1 4. ∗ Y(2) =4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 5. 3. 1 4. × (1 − p2 ). p2. 4. 1 4. × (1 − p2 ). p2. 1 4. × (1 − p2 ). 5. 1 4. × (1 − p2 ). p2. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 6. 1 4. × (1 − p2 ). p2. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 註:p2 =. ∗ Y(2) =5. 1 4. × (1 − p2 ) 0. ∗ Y(2) =6 1 4. 1 5. × (1 − p2 ) 1 5. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 0 1 4. × (1 − p2 ). 0. exp{α(2) (θ−β(2) )} 1+exp{α(2) (θ−β(2) )}. 現以符號 Y(1) 、Y(2) 和 Y(3) 表示為受測者作答結果正確與否的隨機變數,若回 答正確則 Y(i) = 1 否則 Y(i) = 0,i = 1, 2, 3。討論各種答題情況隨機變數的機率, 假設受測者的答題情況隨機變數為 (1, 1, 0),而正確答案為 (1, 2, 3),那麼受測者 可能的回答為 (1, 2, 4)、(1, 2, 5) 和 (1, 2, 6),依照表2.1和表2.2,可列出答題情況為 (1, 1, 0) 的機率: ∗ ∗ ∗ ) = (1, 2, 4), (1, 2, 5), (1, 2, 6)|θ) , Y(3) , Y(2) P ((Y(1) , Y(2) , Y(3) ) = (1, 1, 0)|θ) = P ((Y(1). exp{α(1) (θ − β(1) )} exp{α(2) (θ − β(2) )} 1 1 × × × 1 + exp{α(1) (θ − β(1) )} 1 + exp{α(2) (θ − β(2) )} 3 1 + exp{α(3) (θ − β(3) )} exp{α(1) (θ − β(1) )} exp{α(2) (θ − β(2) )} 1 1 + × × × 1 + exp{α(1) (θ − β(1) )} 1 + exp{α(2) (θ − β(2) )} 3 1 + exp{α(3) (θ − β(3) )} exp{α(1) (θ − β(1) )} exp{α(2) (θ − β(2) )} 1 1 + × × × . 1 + exp{α(1) (θ − β(1) )} 1 + exp{α(2) (θ − β(2) )} 3 1 + exp{α(3) (θ − β(3) )} (2.4). =. 用此種方式,可計算各種作答情況隨機變數的機率。因此每個題組為 3 小題 6 選 項,二參數 VSM 的各種作答情況隨機變數的機率為表2.3。 5.

(20) 混合二參數 VSM. 2.2. 在同一題組內,二參數 VSM 假設受測者皆為按照題目的難易度順序作答族 群,在此假設下,受測者作答順序只有一種,即先做較簡單的題目。而混合二參 數 VSM 多考慮了按照題目順序作答的族群,因此混合二參數 VSM 假設有兩種不 同的作答順序,一為按照題目難易度,即二參數 VSM 的假設,另一則為按照題 目順序作答。. 2.2.1. 模型假設. 混合二參數 VSM 以二參數 VSM 作為發展基礎,因此混合二參數 VSM 的模 型假設和二參數 VSM 的相比,只有模型假設第 1 點,作答順序這部分不同,二 參數 VSM 假設只有一種,而混合二參數 VSM 模型的作答順序則假設有兩種。模 型假設的第 1 點內容,在混合二參數 VSM 的情況下變更為:假設受測者作答順 序有兩種,一為按照題目順序作答,另一為按照題目難易程度作答,也就是會先 從簡單的題目作答,並且決定一種作答順序後,就只使用這一種作答方式,在完 成整個測驗中作答順序不會切換。. 2.2.2. 題組結構. 混合二參數 VSM 為兩種作答順序,一為按題目順序作答,另一為按題目難 易程度作答,後者的題組結構即為二參數 VSM 題組結構,而前者的題組結構以 下說明。 按題目的順序作答的意思,就是在同一題組內,會先從第一題開始作答,答 完後才會回答第二題,最後才是第三題。令符號 Y1∗ 、Y2∗ 和 Y3∗ 表示為受測者在一 題組內的第 1 題、第 2 題及第 3 題的回答。同一題組內,先作答的會影響到後作 答的題目,可表示為式 (2.5),其中 θ 為受測者能力。 P (Y1∗ , Y2∗ , Y3∗ |θ) = P (Y1∗ |θ)P (Y2∗ |Y1∗ , θ)P (Y3∗ |Y1∗ , Y2∗ , θ).. (2.5). 若有一名受測者能力為 θ,其按照題目順序作答,那麼同一題組內,此受 6.

(21) 測者會先做答第一題,接著是第二題,最後為第三題,假設正確答案依序為 (1, 2, 3),難易度依序為 β1 ,β2 及 β3 。同樣是以 IRT 模型中二參數對數模式為基 exp{α (θ−β )} 礎,第一題回答正確的機率為 P (Y1∗ = 1|θ) = 1+exp{α1 1 (θ−β1 1 )} ,而在第一題每一個 錯誤的選項被選到的機率為. 1 5. ×. 1 。接著就第一題答對與否的情況, 1+exp{α1 (θ−β1 )}. 來討論 P (Y2∗ |Y1∗ , θ),討論情況如表2.4。再依照第一題跟第二題作答情形,來討 論 P (Y3∗ |Y1∗ , Y2∗ , θ) 為何情形,如表2.5。 現以符號 Y1 、Y2 和 Y3 表示為受測者作答結果正確與否的隨機變數,若回答 正確則 Yi = 1 否則 Yi = 0,i = 1, 2, 3,討論各種答題情況隨機變數的機率,可利 用與二參數 VSM 題組結構部份同樣的討論方式得到按照題目順序作答的各種作 答情況隨機變數的機率 P (Y1 , Y2 , Y3 |θ)。以符號 g 表示為作答族群變數,令 g1 為 按照題目順序作答族群,而 g2 為按照題目難易度作答族群;Y 為一個題組可能 的答題情況隨機變數,其中 Y 有 (1, 1, 1)、(1, 1, 0)、· · · 、(0, 0, 0),共 8 種答題情 況;在表2.3所得到的按照題目難易度作答的各種情況之機率 P (Y(1) , Y(2) , Y(3) |θ) 即 為 P (Y |θ, g2 ),其中 Y(i) = 1 表示題組內所作答的第 i 題為回答正確,即按照題目 ∗ 為正確選項,否則 Y(i) = 0,i = 1, 2, 3,而按照題目順序作 難易度作答的反應 Y(i). 答的各種情況之機率 P (Y1 , Y2 , Y3 |θ) 則為 P (Y |θ, g1 )。. 2.2.3. 試題反應機率函數. 以 Y i 表示第 i 個受測者十個題組的作答情況,並以 Y ik 表示為第 i 個受測者 在第 k 個題組的作答情況,且 Y ik = (Yik1 , Yik2 , Yik3 ),k = 1, . . . , 10,i = 1, . . . , n, n 為受測者數,由於在能力 θ 的情況下,十個題組之間的作答為獨立事件,因此 第 i 個受測者作答十個題組的情況可列式為. P (Y i |θ, gi ) = P (Y i1 , Y i2 , . . . , Y i10 |θ, gi ) = P (Y i1 |θ, gi )P (Y i2 |θ, gi ) · · · P (Y i10 |θ, gi ) =. 10 ∏. P (Y ik |θ, gi ) =. k=1. 10 ∏. P (Yik1 , Yik2 , Yik3 |θ, gi ).. (2.6). k=1. 而第 i 個受測者為第 gi 群時作答十個題組的機率函數則可先利用式 (2.6) 與 7.

(22) f (θ|gi ) 得到,其中 f (θ|gi ) 為第 gi 群的能力分配,不同族群的能力分配可考慮不 同的分配,在此研究中的兩個族群的能力分配皆假設為標準常態分配。而經由以 上可求得第 i 個受測者在第 gi 群時作答為 Y i 的邊際機率函數,如式 (2.7) ∫ P (Y i |gi ) =. ∞. −∞. ∫ =. P (Y i |θ, gi )f (θ|gi )dθ. 10 ∞ ∏. P (Y ik |θ, gi )f (θ|gi )dθ.. −∞ k=1. (2.7). 假設 πg 為第 g 群的比例參數,其中 g = 1, 2,分別為按照題目順序作答族群 與按照題目難易度作答族群,並利用式 (2.7) 得到第 i 個受測者的十個題組之作答 機率函數為. P (Y i ) =. 2 ∑. P (Y i |gi )P (gi ). g=1. =. 2 ∑. ∫ πg. g=1. 10 ∞ ∏. −∞ k=1. P (Y ik |θ, gi )f (θ|gi )dθ.. (2.8). 而 n 位受測者彼此之間的作答為獨立事件,因此 n 個受測者的作答情況機率 函數為. P (Y 1 , . . . , Y n ) = =. n ∏. P (Y i ). i=1 n ∑ 2 ∏ i=1 g=1. 2.3. ∫ πg. 10 ∞ ∏. −∞ k=1. P (Y ik |θ, gi )f (θ|gi )dθ.. (2.9). 估計 對於固定題數的測驗,使用最大概似估計法 (maximum likelihood estimates,. MLE) 估 計 受 測 者 能 力 參 數 時, 有 著 漸 進 屬 性 的, 如 一 致 性, 顯 然 不 適 用 (Drasgow, 1989)。且 Neyma 與 Scott(1948) 指出,IRT 的參數最大概似函數可能沒 有最大概似函數的性質。不過 Hulin、Lissak 與 Drasgow(1982) 表明,題目數有 50 題以及樣本數達 1000 筆以上的話,最大概似估計法是可行的。但在本研究中, 8.

(23) 實徵資料的每份測驗題目數只有 30 題,而樣本數為 745 筆,顯然不合標準,而 Drasgow(1989) 的研究結果為當題目數在 25 以下,樣本數 1000 以下時,使用邊際 最大概似估計法 (marginal maximum likelihood estimates, MMLE) 的結果較使用最 大概似估計法好。因此,本研究在估計的方法上,選擇使用邊際最大概似估計法 估計題目參數和混合比例參數。. 假設 ζ = {α, β} 為題目參數,α = (α1 , . . . , α30 ) 為 30 個小題的題目鑑別度, β = (β1 , . . . , β30 ) 為 30 個小題的題目難易度,而在二參數 VSM 題組結構所提到的 β(1) 、β(2) 與 β(3) ,其意義為題組內 3 個小題之中所作答的第 1 題、第 2 題與第 3 題的難易度參數,且會先做答的題目是由於此題較容易,也就是難易度較低,因 此 β(1) < β(2) < β(3) 。現以 β = (β1 , . . . , β30 ) 中的 β1 、β2 與 β3 來說明與 β(1) 、β(2) 與 β(3) 的關係,β1 、β2 與 β3 依序為題組一的第 1 題、第 2 題與第 3 題的難易度, 其中難易度最小的即為 β(1) ,第二大的為 β(2) ,最大的則為 β(3) ,舉例來說,若 (β1 , β2 , β3 ) = (−1.25, 1, 0.25),那麼 β1 即為 β(1) ,β2 為 β(3) ,而 β3 則為 β(2) ;繼續 以此例子說明鑑別度參數的部分,題組一的鑑別度參數 α1 、α2 與 α3 則依序為 α(1) 、α(3) 與 α(2) ,而 3 個小題的鑑別度參數並無像難易度參數那樣的大小關係。 再將 ζ 代入式 (2.9),可得題目參數與混合比例參數的概似函數為. L(πg , ζ; Y 1 , . . . , Y n ) = P (Y 1 , . . . , Y n ; πg , ζ) ∫ ∞∏ n ∑ 2 10 ∏ = πg P (Y ik |ζ, θ, g)f (θ|g)dθ −∞ k=1. i=1 g=1. =. n ∑ 2 ∏ i=1 g=1. ∫ πg. 10 ∞ ∏. θ2 1 P (Y ik |ζ, θ, g) √ exp{− }dθ. (2.10) 2 2π −∞ k=1. 其中 f (θ|g) 為第 g 群的受測者之能力 θ 的機率密度函數,在這裡皆假設為標準常 態分配。. 由 於 式 (2.10) 中 的 積 分 運 算 並 不 容 易, 所 以 改 用 Gauss-Hermite 積 分 法 (Abramowitz & Stegum, 1972) 逼近,因此式 (2.10) 可寫成式 (2.11),並令 9. θ2 2. = X2.

(24) L(πg , ζ; Y 1 , . . . , Y n ) =. n ∑ 2 ∏ i=1 g=1. ∫ πg. 10 ∞ ∏. √ 1 P (Y ik |ζ, 2X, g) √ exp{−X 2 }dX. π −∞ k=1 (2.11). 接著利用分群事後分配式 (2.12) 得到每位受測者的分群事後機率 P (gi = 1, Y i ) P (Y i ) P (Y i |gi = 1)P (gi = 1) = P (Y i ) P (Y i |gi = 1)P (gi = 1) = . P (Y i |gi = 1)P (gi = 1) + P (Y i |gi = 2)P (gi = 2). P (gi = 1|Y i ) =. (2.12). 其中,P (gi = 1) 可代入式 (2.11) 得到的按照題目順序作答的比例參數估計 π ˆ1 ,而 P (gi = 2) 則代入按照題目難易度作答的比例參數估計,研究中假設只有兩個族 群,因此 P (gi = 2) 等於 1 − π ˆ1 ,若受測者的分群事後機率 P (gi = 1|Y i ) 大於等於 0.5 的話,則 gˆi = 1,將其分類為來自按照題目順序作答的族群,否則 gˆi = 2,此 受測者分類為按照題目難易度作答的族群。 經由式 (2.12) 將受測者分群後,再估計其能力,而對於能力參數的估計,則 是利用式 (2.13). f (θi |gi , Y i ) =. f (Y i |gi , θi )f (θi |gi ) f (Y i |gi ). ∝ f (Y i |gi , θi )f (θi |gi ).. (2.13). 選擇 θˆi = arg max f (θi |ˆ gi , Y i ),其中 f (θi |gi ) 為第 i 個人在第 gi 群的能力機率密度 函數,而在此研究中為強調作答順序的差異,故兩個族群的能力的分配皆假設為 標準常態分配。. 10.

(25) ∗ ∗ ∗ 表 2.2: P (Y(3) |Y(1) , Y(2) , θ) ∗ Y(1). ∗ Y(2). ∗ Y(3) =1. ∗ Y(3) =2. ∗ Y(3) =3. 1. 2. 0. 0. p3. 1. 3. 0. 1 4. 0. 1 4. 1. 4. 0. 1 3. × (1 − p3 ). p3. 0. 1. 5. 0. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 1. 6. 0. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 2. 1. 0. 0. p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 2. 3. 1 4. 0. 0. 1 4. 2. 4. 1 3. × (1 − p3 ). 0. p3. 0. 2. 5. 1 3. × (1 − p3 ). 0. p3. 1 3. × (1 − p3 ). 2. 6. 1 3. × (1 − p3 ). 0. p3. 1 3. × (1 − p3 ). 3. 1. 0. 1 4. 0. 1 4. 1 4. 1 4. 3. 2. 1 4. 0. 0. 1 4. 1 4. 1 4. 3. 4. 1 4. 1 4. 0. 0. 1 4. 1 4. 3. 5. 1 4. 1 4. 0. 1 4. 0. 1 4. 3. 6. 1 4. 1 4. 0. 1 4. 1 4. 0. 4. 1. 0. p3. 0. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 4. 2. 0. p3. 0. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 4. 3. 1 4. 0. 0. 1 4. 4. 5. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 0. 0. 4. 6. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 5. 1. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 0. 1 3. × (1 − p3 ). 5. 2. 0. p3. 1 3. × (1 − p3 ). 0. 1 3. × (1 − p3 ). 5. 3. 1 4. 0. 1 4. 0. 5. 4. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 0. 0. 5. 6. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 6. 1. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 0. 6. 2. 0. p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 0. 6. 3. 1 4. 0. 1 4. 6. 4. × (1 − p3 ). p3. 0. × (1 − p3 ) 13 × (1 − p3 ) exp{α (θ−β )} 註:p3 = 1+exp{α(3)(3) (θ−β(3)(3) )}. p3. 6. 5. 1 3. 1 3. × (1 − p3 ) 1 4. 0 1 3. × (1 − p3 ) 1 4. 0 1 3. × (1 − p3 ) 1 4. 1 3 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 11. ∗ Y(3) =4 1 3. × (1 − p3 ). 0. 1 3. × (1 − p3 ). ∗ Y(3) =5 1 3. × (1 − p3 ). ∗ Y(3) =6 1 3. 1 4 1 3. × (1 − p3 ) 0. 1 4 1 3. × (1 − p3 ). 1 3. × (1 − p3 ) 0. 1 3. 1 4 1 3. × (1 − p3 ) 0. 1 3. 1 3. 1 3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ) 0. 1 4 1 3. × (1 − p3 ). 1 4. × (1 − p3 ) 0. × (1 − p3 ) 1 4. × (1 − p3 ). 0. × (1 − p3 ). × (1 − p3 ) 0. 1 4 1 3. × (1 − p3 ) 0. 0 0 0.

(26) (Y(1) , Y(2) , Y(3) ) (1, 1, 1). 表 2.3: 二參數 VSM 各種作答情況機率 P (Y(1) , Y(2) , Y(3) |θ) p1 p2 p3. (1, 1, 0). p1 p2 (1 − p3 ). (1, 0, 1). 3 p (1 − p2 )p3 4 1 3 (1 − p1 )p2 p3 5 3 p (1 − p2 )(1 4 1. (0, 1, 1) (1, 0, 0). − p3 ) + 14 p1 (1 − p2 ). 3 (1 − p1 )p2 (1 − p3 ) + 15 (1 − p1 )p2 5 9 4 (0, 0, 1) (1 − p1 )(1 − p2 )p3 + 25 (1 − p1 )p3 20 9 7 (0, 0, 0) (1 − p1 )(1 − p2 )(1 − p3 ) + 20 (1 − p1 )(1 20 1 4 + 25 (1 − p1 )(1 − p3 ) + 25 (1 − p1 ) exp{α(i) (θ−β(i) )} 註:pi = 1+exp{α(i) (θ−β(i) )} , i = 1, 2, 3.. (0, 1, 0). − p2 ). 表 2.4: P (Y2∗ |Y1∗ , θ) Y2∗ = 4. Y2∗ = 3. Y1∗. Y2∗ = 1. Y2∗ = 2. 1. 0. p2. 2. 1 5. 0. 1 5. 0. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). p2. 4. 1 4. × (1 − p2 ). p2. 1 4. × (1 − p2 ). 5. 1 4. × (1 − p2 ). p2. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 6. 1 4. × (1 − p2 ). p2. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 註:p2 =. 1 4. 1 5. 3. 1 4. exp{α2 (θ−β2 )} 1+exp{α2 (θ−β2 )}. 12. × (1 − p2 ) 0. Y2∗ = 6. Y2∗ = 5 × (1 − p2 ). 1 4. 1 5. × (1 − p2 ) 1 5. 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 1 4. × (1 − p2 ). 0 1 4. × (1 − p2 ). 0.

(27) 表 2.5: P (Y3∗ |Y1∗ , Y2∗ , θ) Y1∗. Y2∗. Y3∗ = 1. Y3∗ = 2. Y3∗ = 3. 1. 2. 0. 0. p3. 1. 3. 0. 1 4. 0. 1 4. 1. 4. 0. 1 3. × (1 − p3 ). p3. 0. 1. 5. 0. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 1. 6. 0. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 2. 1. 0. 0. p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 2. 3. 1 4. 0. 0. 1 4. 2. 4. 1 3. × (1 − p3 ). 0. p3. 0. 2. 5. 1 3. × (1 − p3 ). 0. p3. 1 3. × (1 − p3 ). 2. 6. 1 3. × (1 − p3 ). 0. p3. 1 3. × (1 − p3 ). 3. 1. 0. 1 4. 0. 1 4. 1 4. 1 4. 3. 2. 1 4. 0. 0. 1 4. 1 4. 1 4. 3. 4. 1 4. 1 4. 0. 0. 1 4. 1 4. 3. 5. 1 4. 1 4. 0. 1 4. 0. 1 4. 3. 6. 1 4. 1 4. 0. 1 4. 1 4. 0. 4. 1. 0. p3. 0. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 4. 2. 0. p3. 0. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 4. 3. 1 4. 0. 0. 1 4. 4. 5. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 0. 0. 4. 6. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 0. 5. 1. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 0. 1 3. × (1 − p3 ). 5. 2. 0. p3. 1 3. × (1 − p3 ). 0. 1 3. × (1 − p3 ). 5. 3. 1 4. 0. 1 4. 0. 5. 4. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 0. 0. 5. 6. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 6. 1. 1 3. × (1 − p3 ). p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 0. 6. 2. 0. p3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 0. 6. 3. 1 4. 0. 1 4. 6. 4. × (1 − p3 ). p3. 0. × (1 − p3 ) 13 × (1 − p3 ) exp{α (θ−β )} 註:p3 = 1+exp{α3 3 (θ−β3 3 )}. p3. 6. 5. 1 3. 1 3. × (1 − p3 ) 1 4. 0 1 3. × (1 − p3 ) 1 4. 0 1 3. × (1 − p3 ) 1 4. 1 3 1 3. × (1 − p3 ). 1 3. × (1 − p3 ). 13. Y3∗ = 4 1 3. 1 3. × (1 − p3 ). × (1 − p3 ). Y3∗ = 5 1 3. × (1 − p3 ). Y3∗ = 6 1 3. 1 4 1 3. × (1 − p3 ) 0. 1 4 1 3. × (1 − p3 ). 1 3. × (1 − p3 ) 0. 1 3. 1 4 1 3. × (1 − p3 ) 0. 1 3. 1 3. 1 3. 1 3. × (1 − p3 ). 1 3. × (1 − p3 ) 0. 1 4 1 3. × (1 − p3 ). 1 4. × (1 − p3 ) 0. × (1 − p3 ) 1 4. × (1 − p3 ). 0. × (1 − p3 ). × (1 − p3 ) 0. 1 4 1 3. × (1 − p3 ) 0. 0 0 0.

(28) 14.

(29) 模擬研究. 3. 模擬研究的目的在以混合二參數 VSM 生成資料,使用混合二參數 VSM 觀察 估計的有效性,並使用二參數 VSM 估計觀察若未考慮有兩種作答順序時其誤差 情況。 也就是說,在模擬研究的部分,將以混合二參數 VSM 生成資料,並以混合 二參數 VSM 和二參數 VSM 分別估計參數,探討資料為有分群情況時,使用混合 模型做估計的必要性及有效性。 模擬研究中,研究者使用統計軟體 R 自行撰寫程式,Gauss-Hermite 積分法的 部分則使用封包 fastGHQuad,其中節點數設定 20。改變樣本數與混合比例兩個條 件組合出 6 種情境,每種皆重複做 200 次,並估計題目鑑別度參數、題目難易度 參數、混合比例參數,並且呈現事後分群正確率以及能力參數估計。. 3.1. 生成資料. 3.1.1. 題目參數. 題目數與形式為十個題組,每個題組有 3 題,故有 30 題,且每題有兩個 參 數, 分 別 為 鑑 別 度 參 數 α 和 難 易 度 參 數 β, 故 共 有 60 個 題 目 參 數。 鑑 別 度參數 α 的範圍為 0.7 至 2,十個題組的設定分別是 (1.2, 1.7, 1)、(1.6, 1.7, 1.4)、 (1.7, 1.9, 0.8)、(0.8, 1.5, 1.8)、(1.9, 1.6, 0.7)、(1.4, 0.8, 1.2)、(0.85, 1.8, 1.3)、(1.5, 1.1, 0.9)、 (1.6, 1.4, 1.2)、(0.8, 1, 1.8),鑑別度選此範圍的目的是因為在實際測驗中,鑑別 度過小則不易分出受測者能力高低,鑑別度過大則有鑑別範圍較小的情況,也 是不利於辨別受測者能力,因此選沒有太極端的範圍來設定鑑別度 α 的值;難 易度參數 β 分別設定為 (−1.25, 1, 0.25)、(0, 1, −1)、(1.25, 0.25, −1.5)、(0, −1, 1)、 (1.25, −1.5, 0.25)、(−1.25, 0.25, 1)、(−1, 0.9, −1.2)、(1, −0.9, 1.2)、(−1.6, 1.5, −1.8)、 (1.6, −1.5, 1.8),前面六個題組分別為按照題目難易度作答可能會有的 6 種作答順 15.

(30) 序的其中一種,而後面四個題組則是想要檢測若有其中兩小題的難易度很接近在 估計上是否會有影響,在此設定相差為 0.2。. 3.1.2. 樣本數. 因實徵資料的樣本數為 745 筆,故在模擬研究的部分,會分別討論樣本數大 小為 500、1, 000 以及 2, 000 筆的情況。. 3.1.3. 比例參數. 混合比例參數表示為按照題目順序作答的受測者比例,而比例參數分別討論 0.2 與 0.4。. 3.1.4. 能力參數. 兩種作答順序的受測者能力 θ 皆從標準常態分配抽取。. 結果分析. 3.2. 表3.1到表3.4呈現使用混合二參數 VSM 和二參數 VSM 分析混合比例為 0.2 和 0.4 的模擬資料的題目參數估計平均值與標準差;圖3.1到圖3.12呈現了兩個模 型在混合比例為 0.2 和 0.4,而樣本數 500、1, 000 和 2, 000 的題目參數之實徵偏 誤 (empirical bias);表3.5呈現混合比例參數在樣本數 500、1, 000 和 2, 000 估計的 平均值與標準差;表3.6呈現分群正確率的平均值、標準差、最大值與最小值; 圖3.13和圖3.14分別為混合比例 0.2 與 0.4 在樣本數 500、1, 000 和 2, 000 時的分 群正確率直方圖;圖3.15至圖3.20為混合二參數 VSM 與二參數 VSM 在混合比例 參數為 0.2 與 0.4 下,估計的能力和模擬的能力所做的散佈圖,其中分為樣本數 500、1, 000 與 2, 000 的情況。. 3.2.1. 混合二參數 VSM 的估計有效性. 先看混合二參數 VSM 對於鑑別度參數估計的部分,表3.1與表3.3依序為混合 16.

(31) 比例 0.2 與混合比例 0.4 的鑑別度參數估計。在混合比例 0.2 時,樣本數 500 與 樣本數 1, 000 的最大實徵偏誤皆發生在題組六第 1 小題,實徵偏誤依序為 0.112 與 0.101,而樣本數 2, 000 的最大實徵偏誤發生在題組五第 3 小題,此時實徵偏誤 剩 0.057,而利用這些小題的標準差計算得到鑑別度估計平均值之標準誤依序為 0.017、0.009 與 0.003,雖實際值落在兩個標準誤外,顯示估計平均值與實際值有 顯著差異,但由於是做 200 次的結果,且樣本數 500、1, 000 與 2, 000 的 30 個小題 的實徵偏誤平均依序為 −0.056、−0.023 與 −0.014,與標準差相比較會覺得偏誤 並不算大,因此估計結果是還可接受的;在混合比例 0.4 的部分,樣本數 500 與 樣本數 1, 000 的最大實徵偏誤也皆發生在題組六第 1 小題,實徵偏誤依序為 0.085 與 0.081,而樣本數 2, 000 的最大實徵偏誤發生在題組二第 2 小題,實徵偏誤為 0.063,這些小題的估計平均值之標準誤依序為 0.018、0.01 與 0.004,實際值皆落 在兩個標準誤外,顯示估計平均值與實際值有顯著差異,而樣本數 500、1, 000 與 2, 000 的實徵偏誤平均依序為 −0.056、−0.027 與 −0.011,與標準差相比還是令人 接受的,因此混合二參數 VSM 在鑑別度參數的估計是可接受的。 接著看混合二參數 VSM 對於難易度參數估計的部分,表3.2與表3.4依序為混 合比例 0.2 與混合比例 0.4 的難易度參數估計。在混合比例 0.2 時,樣本數 500 與 樣本數 1, 000 的最大實徵偏誤皆發生在題組十第 1 小題,實徵偏誤依序為 0.406 與 0.119,而樣本數 2, 000 時,最大實徵偏誤為 0.118,發生在題組二第 2 小題,雖搭 配這些小題的估計平均值之標準誤會發現實際值落在兩個標準誤外,不過將 30 個 小題的實徵偏誤平均,可依序得到樣本數 500、1, 000 與 2, 000 的平均實徵偏誤為 0.082、0.018 與 0.03,整體而言,其難易度參數的估計結果是可接受的;在混合 比例為 0.4 時,樣本數 500 與樣本數 1, 000 的最大實徵偏誤也皆發生在題組十第 1 小題,最大實徵偏誤依序為 0.416 與 0.119,而樣本數 2, 000 的最大實徵偏誤為 0.117,發生在題組二第 2 小題,搭配這些小題的估計平均值之標準誤觀察,雖實 際值會落在兩個標準誤外,不過再去看樣本數 500、1, 000 與 2, 000 的平均實徵偏 誤,依序為 0.081、0.02 與 0.03,其難易度參數的估計結果是能接受的,因此混合 二參數 VSM 在難易度參數的估計是可以接受的。 混合比例參數估計重複 200 次的平均值 (標準差) 與偏誤如表3.5,可以看到當 設定為 0.2 和 0.4 時,平均值皆會隨著樣本數的增加而更靠近實際值,另外可利 17.

(32) 用標準差計算出估計平均值之標準誤,雖實際值落在兩個標準誤外,呈現顯著差 異,但由於是做 200 次的結果,且偏誤搭配標準差來看,雖有高估情況,但偏誤 並不算太大,因此混合二參數 VSM 在混合比例參數的估計是可以接受的。 表 3.1: 混合比例 0.2 的鑑別度參數 α 估計平均值 (標準差) 樣本數 500 題組 小題 實際 混合二參數 VSM 1 1 1.2 1.232(0.080) 2 1.7 1.568(0.185) 3 1 0.931(0.067) 2 1 1.6 1.580(0.338) 2 1.7 1.661(0.066) 3 1.4 1.347(0.193) 3 1 1.7 1.549(0.139) 2 1.9 1.762(0.216) 3 0.8 0.773(0.199) 4 1 0.8 0.789(0.101) 2 1.5 1.337(0.236) 3 1.8 1.673(0.121) 5 1 1.9 1.785(0.230) 2 1.6 1.469(0.125) 3 0.7 0.670(0.179) 6 1 1.4 1.512(0.236) 2 0.8 0.748(0.075) 3 1.2 1.227(0.130) 7 1 0.85 0.870(0.122) 2 1.8 1.647(0.134) 3 1.3 1.341(0.281) 8 1 1.5 1.431(0.125) 2 1.1 1.054(0.074) 3 0.9 0.831(0.183) 9 1 1.6 1.624(0.087) 2 1.4 1.451(0.200) 3 1.2 1.102(0.110) 10 1 0.8 0.796(0.098) 2 1.1 0.948(0.106) 3 1.8 1.850(0.192). 3.2.2. 樣本數 1, 000. 二參數 VSM 混合二參數 VSM 1.212(0.070) 1.187(0.106) 1.546(0.206) 1.611(0.070) 0.935(0.055) 1.071(0.025) 1.540(0.382) 1.614(0.212) 1.594(0.055) 1.683(0.063) 1.227(0.163) 1.356(0.079) 1.500(0.156) 1.698(0.151) 1.699(0.272) 1.866(0.092) 0.735(0.145) 0.790(0.030) 0.777(0.106) 0.792(0.036) 1.205(0.386) 1.448(0.085) 1.662(0.149) 1.779(0.171) 1.767(0.277) 1.818(0.074) 1.246(0.136) 1.543(0.108) 0.687(0.179) 0.662(0.054) 1.515(0.237) 1.501(0.134) 0.741(0.070) 0.769(0.063) 1.207(0.127) 1.201(0.092) 0.855(0.123) 0.629(0.135) 1.574(0.167) 1.773(0.124) 1.183(0.306) 1.286(0.078) 1.407(0.116) 1.502(0.073) 1.022(0.061) 1.152(0.057) 0.843(0.196) 0.897(0.061) 1.546(0.123) 1.568(0.079) 1.444(0.273) 1.357(0.055) 0.996(0.137) 1.090(0.102) 0.763(0.091) 0.804(0.059) 0.865(0.117) 0.971(0.078) 1.912(0.293) 1.834(0.157). 樣本數 2, 000. 二參數 VSM 混合二參數 VSM 1.117(0.117) 1.202(0.094) 1.584(0.053) 1.728(0.049) 1.106(0.064) 0.965(0.017) 1.659(0.248) 1.635(0.102) 1.672(0.056) 1.749(0.053) 1.282(0.089) 1.358(0.058) 1.689(0.146) 1.661(0.117) 1.820(0.041) 1.828(0.067) 0.764(0.070) 0.797(0.049) 0.775(0.051) 0.808(0.046) 1.407(0.076) 1.444(0.076) 1.691(0.256) 1.809(0.075) 1.827(0.079) 1.871(0.126) 1.260(0.117) 1.554(0.119) 0.661(0.085) 0.757(0.048) 1.491(0.150) 1.416(0.073) 0.753(0.045) 0.803(0.058) 1.210(0.114) 1.218(0.142) 0.650(0.187) 0.624(0.031) 1.719(0.143) 1.754(0.078) 1.170(0.176) 1.275(0.066) 1.415(0.092) 1.450(0.052) 1.134(0.054) 1.100(0.044) 0.883(0.077) 0.869(0.059) 1.514(0.104) 1.607(0.096) 1.341(0.068) 1.387(0.053) 0.935(0.119) 1.116(0.074) 0.778(0.060) 0.800(0.068) 0.912(0.071) 1.080(0.081) 1.909(0.265) 1.812(0.135). 二參數 VSM 1.121(0.098) 1.798(0.044) 0.962(0.019) 1.636(0.087) 1.763(0.053) 1.296(0.044) 1.652(0.106) 1.804(0.068) 0.782(0.046) 0.633(0.045) 1.439(0.077) 1.812(0.074) 1.857(0.126) 1.456(0.109) 0.752(0.047) 1.431(0.077) 0.809(0.060) 1.206(0.139) 0.614(0.031) 1.761(0.082) 1.161(0.059) 1.438(0.044) 1.088(0.046) 0.866(0.058) 1.550(0.111) 1.367(0.059) 1.104(0.061) 0.786(0.069) 0.994(0.075) 1.874(0.223). 二參數 VSM 估計的誤差情況. 圖 3.1至圖 3.12呈現了在不同的樣本數與不同的混合比例參數下,每一小題的 參數估計之實徵偏誤。 18.

(33) 在鑑別度參數估計偏誤比較的部分,圖3.1至圖3.3為混合比例 0.2 情況下,樣 本數 500、1, 000 與 2, 000 的兩個模型鑑別度估計之偏誤情況。可以發現不論在何 種樣本數下,混合二參數 VSM 偏誤皆沒有超過 0.2,而二參數 VSM 則是在樣本 數 500 時,題組四第 2 小題與題組五第 2 小題的偏誤皆低估超過 0.2,但在樣本數 1, 000 時,題組四第 2 小題的偏誤已有縮小的情況,而題組五第 2 小題則是在樣 本數 2, 000 時偏誤才明顯縮小至 0.2 的範圍內。圖3.4至圖3.6則為混合比例為 0.4 的情況,可以觀察到二參數 VSM 的表現與混合比例為 0.2 時是類似的,在樣本數 500 時,題組四第 2 小題與題組五第 2 小題的偏誤皆低估超過 0.2,而題組四第 2 小題於樣本數 1, 000 時偏誤有明顯縮小,題組五第 2 小題則是在樣本數 2, 000 時 偏誤才縮小至 0.2 範圍內。但不論何種混合比例的情況下,二參數 VSM 的鑑別度 偏誤還是皆有隨著樣本數增加而縮小的情況。. 而難易度參數估計偏誤比較的部分,圖3.7至圖3.9為混合比例 0.2 情況下,樣 本數 500、1, 000 與 2, 000 的兩個模型難易度估計之偏誤情況。可以發現二參數 VSM 在樣本數 500 時,難易度的偏誤達至 0.2 的題目比起鑑別度多,樣本數 500 時,題組十第 1 小題達至 0.4,不過此題偏誤有隨著樣本數的增加而縮小。而比 較特別的是題組三的第 3 小題,樣本數 500 時偏誤小於 0.1,但在樣本數 1, 000 與 樣本數 2, 000 時,偏誤反而上升至 0.2,可能原因為,此題是屬於題組內的第 3 小 題,且剛好又是題組內最簡單的題目,若按照題目順序作答應為最後作答,但按 照題目難易度順序作答卻為最先作答,所以使用二參數 VSM 分析有混合情況的 資料,就有可能會發生這種偏誤並無隨著樣本數增加而縮小的情況,而有同樣情 況的題目有題組二、題組四與題組九的第 3 小題,會發現這幾個小題偏誤情況 雖沒有如題組三的第 3 小題嚴重,卻也不易隨樣本數增加而縮小偏誤。圖3.10至 圖3.12則為混合比例為 0.4 的情況,偏誤狀況與混合比例為 0.2 時類似,在樣本數 500 時題組十第 1 小題偏誤達到 0.4,偏誤也隨樣本數增加而縮小,另外題組三的 第 3 小題同樣也發生偏誤反而於樣本數較大時增加的情況,除了題組三的第 3 小 題,基本上在不同的混合比例情況下,難易度偏誤皆會隨著樣本數增加而縮小。 19.

(34) 圖 3.1: 鑑別度實徵偏誤圖 (樣本數 500,混合比例 0.2). 圖 3.2: 鑑別度實徵偏誤圖 (樣本數 1000,混合比例 0.2). 圖 3.3: 鑑別度實徵偏誤圖 (樣本數 2000,混合比例 0.2) 20.

(35) 圖 3.4: 鑑別度實徵偏誤圖 (樣本數 500,混合比例 0.4). 圖 3.5: 鑑別度實徵偏誤圖 (樣本數 1000,混合比例 0.4). 圖 3.6: 鑑別度實徵偏誤圖 (樣本數 2000,混合比例 0.4) 21.

(36) 圖 3.7: 難易度實徵偏誤圖 (樣本數 500,混合比例 0.2). 圖 3.8: 難易度實徵偏誤圖 (樣本數 1000,混合比例 0.2). 圖 3.9: 難易度實徵偏誤圖 (樣本數 2000,混合比例 0.2) 22.

(37) 圖 3.10: 難易度實徵偏誤圖 (樣本數 500,混合比例 0.4). 圖 3.11: 難易度實徵偏誤圖 (樣本數 1000,混合比例 0.4). 圖 3.12: 難易度實徵偏誤圖 (樣本數 2000,混合比例 0.4) 23.

(38) 3.2.3. 分群正確率與能力估計比較. 表3.6為混合比例為 0.2 和 0.4 個別在樣本數 500、1, 000 和 2, 000 時重複做 200 次的分群正確率平均值 (標準差)、最大值及最小值。正確率的算法是將按照題目 順序作答的資料,事後分群依然為按照題目順序作答的資料和按照題目難易度順 序作答的資料,事後分群依然為按照題目難易度順序作答的資料,此兩種狀況的 資料數總和除以樣本數。舉例來說,在樣本數 500,混合比例為 0.2 條件下,按照 題目順序作答的資料其中分至按照題目順序作答的類別有 61 筆,按照題目難易度 順序作答的資料其中分至按照題目難易度順序作答的類別有 284 筆,總共有 345 筆,因此正確率為. 345 ,也就是 500. 0.69。從表3.6可以觀察到,混合比例 0.2 與混合比. 例 0.4 的正確率皆有隨著樣本數的增加而有上升的趨勢,其標準差也有縮小的情 形。 圖3.13和3.14分別為混合比例 0.2 與混合比例 0.4 在樣本數 500、1, 000 和 2, 000 各做 200 次的分群正確率直方圖。可以發現在不同的混合比例情況下,分群正確 率皆有隨著樣本數的增加而越來越集中,也就是正確率的區間越來越小,標準差 也就有縮小的情況。如樣本數 500 時,分群正確率落在 0.6 至 0.8 之間,樣本數 1, 000 時,分群正確率則落在 0.7 至 0.8 之間,而樣本數 2, 000 時,分群正確率落 在 0.75 至 0.8 之間。. 圖 3.13: 分群正確率直方圖 (混合比例 0.2). 24.

(39) 圖 3.14: 分群正確率直方圖 (混合比例 0.4) 在重複做 200 次的過程中,每次能力數值皆從標準常態分配重新抽取,兩個 模型估計出能力參數後,將所抽取的能力數值由小排到大,估計得到的能力參數 值則會跟著排序,將此 200 組數據平均繪表得圖3.15至圖3.20。圖3.15至圖3.17為 混合比例 0.2 的能力估計,圖3.18至圖3.20為混合比例 0.4 的能力估計,可以觀察 混合二參數 VSM 能力估計參數值與模擬能力值的散佈圖在混合比例 0.2 與 0.4 皆 在 x = y 上,未出現高估或低估的情況,也就是說混合二參數 VSM 的能力估計是 有效的。另外觀察二參數 VSM 估計能力估計參數值與模擬能力值的散佈圖,會 發現點往 x = y 下方移動,也就是說是有些低估的情況,那是因為資料中有以題 目順序作答的類別,而二參數 VSM 是將資料以題目難易度順序作答做估計,因 此若用二參數 VSM 估計以題目順序作答類別資料的能力參數,會發生低估的情 形,此外,以題目順序作答的資料,在比例參數 0.4 中數量會較比例參數 0.2 的 多,所以從二參數 VSM 的能力估計圖可以發現,在比例參數 0.4 時,低估的情況 較比例參數 0.2 時明顯。. 25.

(40) 圖 3.15: 能力估計散佈圖 (樣本數 500,混合比例 0.2). 圖 3.16: 能力估計散佈圖 (樣本數 1000,混合比例 0.2). 26.

(41) 表 3.2: 混合比例 0.2 的難易度參數 β 估計平均值 (標準差) 樣本數 500 題組 小題 實際 混合二參數 VSM 1 1 −1.25 −1.242(0.050) 2 1 1.223(0.048) 3 0.25 0.383(0.108) 2 1 0 0.122(0.114) 2 1 1.185(0.104) 3 −1 −0.966(0.077) 3 1 1.25 1.356(0.114) 2 0.25 0.353(0.065) 3 −1.5 −1.444(0.139) 4 1 0 0.112(0.115) 2 −1 −1.115(0.102) 3 1 1.039(0.065) 5 1 1.25 1.353(0.045) 2 −1.5 −1.544(0.164) 3 0.25 0.372(0.137) 6 1 −1.25 −1.298(0.133) 2 0.25 0.376(0.175) 3 1 1.072(0.148) 7 1 −1 −1.015(0.099) 2 0.9 1.047(0.091) 3 −1.2 −1.220(0.117) 8 1 1 1.118(0.132) 2 −0.9 −0.874(0.155) 3 1.2 1.473(0.122) 9 1 −1.6 −1.496(0.083) 2 1.5 1.693(0.105) 3 −1.8 −1.803(0.150) 10 1 1.6 2.007(0.110) 2 −1.5 −1.460(0.043) 3 1.8 1.654(0.107). 樣本數 1, 000. 二參數 VSM 混合二參數 VSM −1.251(0.046) −1.317(0.057) 1.248(0.054) 1.056(0.093) 0.500(0.142) 0.328(0.055) 0.105(0.116) −0.021(0.025) 1.165(0.107) 1.013(0.017) −0.852(0.127) −0.990(0.078) 1.468(0.116) 1.273(0.055) 0.389(0.132) 0.282(0.041) −1.473(0.173) −1.406(0.131) 0.131(0.122) −0.027(0.078) −1.124(0.151) −0.992(0.058) 1.039(0.073) 1.058(0.088) 1.354(0.050) 1.272(0.043) −1.510(0.170) −1.574(0.133) 0.472(0.153) 0.320(0.101) −1.313(0.205) −1.274(0.106) 0.404(0.192) 0.274(0.073) 1.076(0.175) 1.112(0.106) −1.080(0.135) −1.021(0.069) 1.129(0.096) 1.010(0.049) −1.076(0.166) −1.120(0.078) 1.125(0.146) 0.941(0.079) −0.791(0.155) −0.829(0.056) 1.409(0.198) 1.288(0.119) −1.547(0.095) −1.508(0.086) 1.711(0.147) 1.482(0.059) −1.703(0.164) −1.907(0.149) 2.024(0.172) 1.719(0.051) −1.409(0.089) −1.609(0.102) 1.571(0.160) 1.709(0.076). 27. 樣本數 2, 000. 二參數 VSM 混合二參數 VSM −1.212(0.068) −1.256(0.055) 1.031(0.103) 1.033(0.057) 0.455(0.069) 0.279(0.052) 0.004(0.040) 0.014(0.014) 0.989(0.029) 1.118(0.017) −0.919(0.127) −0.951(0.049) 1.250(0.062) 1.254(0.049) 0.332(0.064) 0.272(0.032) −1.142(0.161) −1.459(0.081) −0.118(0.094) 0.043(0.066) −0.968(0.083) −0.968(0.045) 1.078(0.080) 1.057(0.042) 1.243(0.066) 1.251(0.036) −1.544(0.154) −1.418(0.061) 0.399(0.098) 0.270(0.095) −1.291(0.119) −1.257(0.063) 0.282(0.105) 0.268(0.065) 1.131(0.127) 1.069(0.093) −1.034(0.077) −0.963(0.043) 0.973(0.038) 0.991(0.050) −1.034(0.069) −1.179(0.064) 0.918(0.093) 1.055(0.053) −0.770(0.064) −0.874(0.054) 1.285(0.117) 1.252(0.101) −1.565(0.102) −1.644(0.073) 1.484(0.065) 1.583(0.056) −1.810(0.161) −1.832(0.117) 1.693(0.058) 1.590(0.087) −1.570(0.180) −1.414(0.067) 1.693(0.113) 1.743(0.079). 二參數 VSM −1.257(0.054) 1.105(0.053) 0.367(0.035) 0.021(0.031) 1.106(0.028) −0.881(0.046) 1.283(0.045) 0.308(0.048) −1.227(0.115) 0.014(0.076) −0.936(0.054) 1.060(0.040) 1.266(0.050) −1.407(0.072) 0.311(0.108) −1.275(0.093) 0.286(0.081) 1.062(0.098) −0.951(0.060) 0.988(0.043) −1.102(0.053) 1.050(0.069) −0.727(0.050) 1.337(0.116) −1.680(0.071) 1.586(0.078) −1.760(0.110) 1.584(0.098) −1.391(0.071) 1.761(0.068).

(42) 表 3.3: 混合比例 0.4 的鑑別度參數 α 估計平均值 (標準差) 樣本數 500 題組 小題 實際 混合二參數 VSM 1 1 1.2 1.238(0.073) 2 1.7 1.580(0.201) 3 1 0.932(0.061) 2 1 1.6 1.619(0.316) 2 1.7 1.665(0.063) 3 1.4 1.352(0.186) 3 1 1.7 1.553(0.146) 2 1.9 1.765(0.231) 3 0.8 0.784(0.177) 4 1 0.8 0.788(0.094) 2 1.5 1.318(0.277) 3 1.8 1.673(0.126) 5 1 1.9 1.729(0.233) 2 1.6 1.463(0.125) 3 0.7 0.682(0.174) 6 1 1.4 1.485(0.255) 2 0.8 0.755(0.066) 3 1.2 1.205(0.138) 7 1 0.85 0.872(0.124) 2 1.8 1.662(0.153) 3 1.3 1.331(0.209) 8 1 1.5 1.430(0.112) 2 1.1 1.052(0.068) 3 0.9 0.824(0.177) 9 1 1.6 1.623(0.091) 2 1.4 1.450(0.178) 3 1.2 1.090(0.111) 10 1 0.8 0.805(0.095) 2 1.1 0.962(0.094) 3 1.8 1.865(0.219). 樣本數 1, 000. 二參數 VSM 混合二參數 VSM 1.222(0.064) 1.150(0.097) 1.515(0.194) 1.607(0.073) 0.939(0.052) 1.070(0.024) 1.555(0.350) 1.590(0.213) 1.593(0.064) 1.682(0.055) 1.244(0.168) 1.347(0.072) 1.489(0.146) 1.689(0.148) 1.740(0.253) 1.876(0.084) 0.725(0.141) 0.788(0.027) 0.746(0.111) 0.790(0.035) 1.213(0.362) 1.452(0.081) 1.691(0.144) 1.737(0.157) 1.758(0.226) 1.812(0.070) 1.250(0.150) 1.543(0.108) 0.673(0.189) 0.663(0.047) 1.461(0.255) 1.482(0.137) 0.739(0.069) 0.774(0.057) 1.228(0.136) 1.204(0.092) 0.856(0.123) 0.648(0.139) 1.597(0.162) 1.752(0.114) 1.182(0.303) 1.295(0.079) 1.399(0.127) 1.506(0.073) 1.030(0.057) 1.152(0.057) 0.802(0.204) 0.893(0.062) 1.561(0.126) 1.566(0.070) 1.448(0.292) 1.360(0.051) 0.969(0.124) 1.101(0.102) 0.770(0.088) 0.796(0.060) 0.855(0.117) 0.968(0.080) 1.904(0.256) 1.831(0.168). 28. 樣本數 2, 000. 二參數 VSM 混合二參數 VSM 1.124(0.108) 1.202(0.093) 1.586(0.056) 1.729(0.049) 1.097(0.061) 0.967(0.017) 1.618(0.247) 1.622(0.099) 1.672(0.077) 1.764(0.054) 1.278(0.104) 1.357(0.061) 1.700(0.142) 1.673(0.107) 1.814(0.139) 1.824(0.065) 0.764(0.074) 0.799(0.045) 0.774(0.071) 0.804(0.047) 1.412(0.173) 1.450(0.087) 1.702(0.238) 1.817(0.074) 1.830(0.071) 1.866(0.122) 1.259(0.116) 1.563(0.108) 0.657(0.106) 0.760(0.046) 1.495(0.131) 1.402(0.078) 0.764(0.057) 0.807(0.054) 1.210(0.112) 1.209(0.147) 0.628(0.185) 0.622(0.035) 1.680(0.147) 1.759(0.089) 1.161(0.186) 1.288(0.066) 1.419(0.108) 1.445(0.050) 1.133(0.054) 1.103(0.047) 0.886(0.086) 0.876(0.061) 1.514(0.105) 1.601(0.098) 1.342(0.067) 1.375(0.051) 0.978(0.112) 1.108(0.074) 0.779(0.070) 0.803(0.064) 0.915(0.063) 1.074(0.081) 1.909(0.245) 1.818(0.149). 二參數 VSM 1.153(0.096) 1.796(0.045) 0.962(0.021) 1.623(0.094) 1.761(0.087) 1.289(0.046) 1.670(0.105) 1.805(0.092) 0.781(0.050) 0.628(0.046) 1.427(0.088) 1.809(0.073) 1.848(0.121) 1.454(0.105) 0.753(0.045) 1.432(0.083) 0.809(0.057) 1.196(0.155) 0.616(0.032) 1.764(0.076) 1.159(0.061) 1.443(0.046) 1.084(0.043) 0.870(0.057) 1.541(0.110) 1.365(0.061) 1.107(0.057) 0.794(0.065) 1.006(0.071) 1.917(0.249).

(43) 表 3.4: 混合比例 0.4 的難易度參數 β 估計平均值 (標準差) 樣本數 500 題組 小題 實際 混合二參數 VSM 1 1 −1.25 −1.244(0.046) 2 1 1.231(0.045) 3 0.25 0.394(0.112) 2 1 0 0.120(0.104) 2 1 1.167(0.103) 3 −1 −0.982(0.084) 3 1 1.25 1.344(0.098) 2 0.25 0.347(0.066) 3 −1.5 −1.438(0.142) 4 1 0 0.130(0.122) 2 −1 −1.114(0.110) 3 1 1.036(0.061) 5 1 1.25 1.352(0.046) 2 −1.5 −1.541(0.167) 3 0.25 0.354(0.149) 6 1 −1.25 −1.283(0.138) 2 0.25 0.377(0.100) 3 1 1.071(0.142) 7 1 −1 −1.018(0.090) 2 0.9 1.043(0.086) 3 −1.2 −1.236(0.111) 8 1 1 1.139(0.123) 2 −0.9 −0.867(0.145) 3 1.2 1.433(0.161) 9 1 −1.6 −1.506(0.076) 2 1.5 1.706(0.107) 3 −1.8 −1.792(0.151) 10 1 1.6 2.016(0.129) 2 −1.5 −1.456(0.043) 3 1.8 1.668(0.113). 樣本數 1, 000. 二參數 VSM 混合二參數 VSM −1.257(0.057) −1.249(0.059) 1.246(0.060) 1.066(0.078) 0.527(0.129) 0.330(0.055) 0.102(0.121) −0.024(0.026) 1.158(0.119) 1.010(0.016) −0.856(0.114) −0.983(0.076) 1.477(0.121) 1.275(0.054) 0.382(0.135) 0.280(0.042) −1.482(0.178) −1.395(0.138) 0.119(0.124) −0.044(0.075) −1.123(0.142) −0.986(0.057) 1.037(0.067) 1.070(0.091) 1.357(0.051) 1.268(0.040) −1.515(0.176) −1.564(0.134) 0.452(0.143) 0.320(0.102) −1.312(0.197) −1.266(0.103) 0.395(0.202) 0.275(0.074) 1.068(0.173) 1.106(0.117) −1.086(0.141) −1.020(0.075) 1.127(0.092) 1.005(0.044) −1.098(0.181) −1.131(0.077) 1.100(0.134) 0.935(0.077) −0.787(0.148) −0.825(0.061) 1.431(0.204) 1.272(0.132) −1.549(0.086) −1.504(0.081) 1.698(0.176) 1.484(0.057) −1.687(0.174) −1.920(0.151) 1.996(0.172) 1.719(0.055) −1.395(0.090) −1.608(0.094) 1.659(0.167) 1.716(0.065). 樣本數 2, 000. 二參數 VSM 混合二參數 VSM −1.219(0.067) −1.253(0.055) 1.027(0.085) 1.022(0.060) 0.452(0.063) 0.266(0.056) 0.000(0.040) 0.014(0.012) 0.987(0.029) 1.117(0.017) −0.920(0.134) −0.953(0.048) 1.240(0.064) 1.257(0.046) 0.337(0.063) 0.274(0.032) −1.139(0.174) −1.459(0.079) −0.094(0.105) 0.038(0.064) −0.964(0.082) −0.964(0.042) 1.081(0.075) 1.055(0.043) 1.242(0.058) 1.257(0.038) −1.557(0.143) −1.421(0.062) 0.415(0.102) 0.267(0.089) −1.324(0.127) −1.260(0.064) 0.281(0.105) 0.267(0.062) 1.130(0.134) 1.071(0.106) −1.022(0.079) −0.964(0.042) 0.969(0.038) 0.994(0.042) −1.038(0.067) −1.176(0.065) 0.936(0.090) 1.043(0.058) −0.764(0.066) −0.875(0.050) 1.272(0.123) 1.244(0.123) −1.559(0.103) −1.641(0.068) 1.488(0.070) 1.579(0.056) −1.811(0.170) −1.813(0.120) 1.707(0.064) 1.601(0.069) −1.555(0.169) −1.413(0.071) 1.698(0.107) 1.738(0.069). 二參數 VSM −1.254(0.047) 1.111(0.057) 0.368(0.039) 0.022(0.032) 1.109(0.025) −0.886(0.048) 1.283(0.051) 0.310(0.058) −1.226(0.097) 0.018(0.074) −0.934(0.053) 1.053(0.041) 1.259(0.053) −1.405(0.092) 0.311(0.114) −1.271(0.103) 0.284(0.085) 1.069(0.096) −0.955(0.065) 0.977(0.039) −1.107(0.050) 1.039(0.079) −0.735(0.051) 1.343(0.120) −1.688(0.072) 1.569(0.067) −1.789(0.117) 1.581(0.088) −1.386(0.066) 1.746(0.076). 表 3.5: 混合比例參數估計平均值 (標準差) 及偏誤 樣本數 實際 0.2 0.4. 500. 1000. 2000. 平均 (標準差) 偏誤 平均 (標準差) 偏誤 平均 (標準差) 偏誤 0.2247(0.0269) 0.0247 0.2205(0.0201) 0.0205 0.2018(0.0150) 0.0018 0.4231(0.0481) 0.0231 0.4187(0.0388) 0.0187 0.4160(0.0241) 0.0160. 29.

(44) 表 3.6: 分群正確率平均值 (標準差)、最大值及最小值 混合比例 0.2 0.4 樣本數 500 1000 2000 500 1000 2000 平均 (標準差) 0.708(0.019) 0.739(0.013) 0.779(0.010) 0.710(0.022) 0.740(0.014) 0.780(0.009) 最大值 0.762 0.774 0.809 0.762 0.78 0.799 最小值 0.664 0.694 0.747 0.632 0.697 0.76. 圖 3.17: 能力估計散佈圖 (樣本數 2000,混合比例 0.2). 圖 3.18: 能力估計散佈圖 (樣本數 500,混合比例 0.4). 30.

(45) 圖 3.19: 能力估計散佈圖 (樣本數 1000,混合比例 0.4). 圖 3.20: 能力估計散佈圖 (樣本數 2000,混合比例 0.4). 31.

(46) 32.

(47) 實徵資料. 4. 本 文 中 所 使 用 的 資 料 為 臺 師 大 英 文 系 曾 文 鐽 教 授 提 供, 題 目 來 自 於 Schmitt(2000) 的 著 作 中, 施 測 對 象 為 台 灣 和 中 國 的 高 中 生、 大 學 生 以 及 研 究 生。而四個等級的 VLT 資料分別有十個題組,每一題組有 3 小題和 6 個選項,總 樣本數為 745 筆。 由於賴國棟 (2016) 分析了 3, 000 字等級的英文詞彙測驗實徵資 料,經由模型配適度發現其中題組六與題組九表現不如預期,且資料提供者曾文 鐽教授表示,這兩個題組的選項中皆誤植了屬於 4, 000 字等級的詞彙,選項屬於 高等級詞彙,與題目是不同等級的。在此部分嘗試使用能同時考慮按照題目順序 作答與按照題目難易度順序作答這兩種不同作答順序的混合二參數 VSM,檢驗是 否有改善 3, 000 字等級的詞彙資料配適狀況,並且同時分析相對 3, 000 字等級難 度要高的 5, 000 字等級的英文詞彙測驗,觀察在難度變高的情況下,使用混合二 參數 VSM 與二參數 VSM 分析的狀況。. VLT 資料分析. 4.1 4.1.1. 模型比較. 表4.1與 表4.2呈 現 使 用 混 合 二 參 數 VSM 與 二 參 數 VSM 分 析 3, 000 字 等 級 與 5, 000 字 等 級 所 用 的 參 數 個 數、log-likelihood 值、AIC(Akaike,1974) 以 及 BIC(Schwarz,1978),AIC 與 BIC 使用的式子依序為式 (4.1) 與式 (4.2),其中 L 為 模型的概似函數值,k 為模型參數個數,n 為資料樣本數。. AIC = −2 ln L + 2k,. (4.1). BIC = −2 ln L + k ln n.. (4.2). 33.

(48) 在 3, 000 字等級的部分,混合二參數 VSM 與二參數 VSM 的 AIC 值依序為 18081.994 與 18162.44,而 BIC 值依序為 18363.410 與 18439.243;在 5, 000 字等級 的部分,混合二參數 VSM 與二參數 VSM 的 AIC 值依序為 21673.30 與 21873.56, 而 BIC 值依序為 21954.716 與 22150.363,根據 AIC 與 BIC 兩個指標,在 3, 000 字 等級與 5, 000 字等級模型選擇皆為混合二參數 VSM 較優,因此下面將針對混合二 參數 VSM 的估計做討論。. 模型 混合二參數 VSM 二參數 VSM. 表 4.1: 模型比較 (3, 000 字等級) 參數個數 log-likelihood 值 AIC BIC 61 −8979.997 18081.994 18363.410 60 −9021.22 18162.44 18439.243. 表 4.2: 模型比較 (5, 000 字等級) 模型 參數個數 log-likelihood 值 AIC BIC 混合二參數 VSM 61 −10775.65 21673.3 21954.716 二參數 VSM 60 −10876.78 21873.56 22150.363. 4.1.2. 參數估計. 混合比例參數估計的部分,在 3, 000 字等級的混合比例為 0.006,標準誤為 0.241。由於混合比例過小,意思就是 745 位受測者中,幾乎沒有受測者是屬於按 照題目順序作答的族群,也就是說,可解釋成在 3, 000 字等級英文詞彙測驗中, 受測者皆是屬於按照題目難易度順序作答的族群。在這邊可先討論一件事,就 是估計 3, 000 字等級是否有必要使用混合二參數 VSM。從混合比例的角度來看, 在 3, 000 字等級受測者只有按照題目難易度順序作答的族群,這樣就符合二參數 VSM 所假設的情況,另外從模型選擇的角度來看,表4.1呈現 AIC 與 BIC 兩個指 標的值,根據指標的值會選擇混合二參數 VSM,但又可以從表4.1看到,其實二 參數 VSM 的 AIC 與 BIC 值相比混合二參數 VSM 的值,差距並不是很多,且因 為本研究的混合二參數 VSM 是屬於限制較多的混合模型,所以才會發生雖受測 者只有一群,但混合二參數 VSM 的 AIC 與 BIC 卻低於二參數 VSM 之值的情況。 或許在 3, 000 字等級的部分只需要二參數 VSM 即可,兩個模型估計上的優劣是否 有異,會在後面內容的模型配適度再做比較與說明。 34.

(49) 在 5, 000 字等級的混合比例為 0.29,標準誤為 0.173,會認為 0 有落在兩個標 準誤的範圍內,所以 5, 000 字等級的混合比例未必會顯著,也就是未必會呈現有 分群的情況,但由於在模型選擇時,AIC 與 BIC 兩個指標呈現選擇混合二參數 VSM 較好的情況,且混合二參數 VSM 與二參數 VSM 的兩個指標相差皆有 200, 因此混合二參數 VSM 在 5, 000 字等級的英文詞彙測驗是否真的優於二參數 VSM, 也有待在模型配適度的部分說明。 表4.3呈現 3, 000 字等級英文詞彙測驗的題目參數估計,可以發現混合二參 數 VSM 與二參數 VSM 的題目參數估計結果差異不大,例如題號 7 的難易度估 計,雖然混合二參數 VSM 與二參數 VSM 估計分別為 −2.224 與 −2.432,相差了 0.2,但因為標準誤的值使得差異不顯著,由這結果顯示使用混合二參數 VSM 分 析 3, 000 字等級在估計題目參數上與二參數 VSM 差異不大,因此 3, 000 字等級從 題目參數估計會傾向選擇二參數 VSM。從表4.4可以觀察到在 5, 000 字等級有些 題組內的難易度參數太過相近,如題組三與題組八,可能會影響到估計受測者能 力,另外鑑別度參數過高也不好,如題組一的第 3 題與題組七的第 2 題,分別為 3.495 與 3.450,皆達到 3 以上,則可能會出現鑑別的範圍較小的情況,而不利於 辨別受測者能力。除此之外也可以觀察到混合二參數 VSM 與二參數 VSM 的題目 參數估計出現不太相同的結果,在難易度參數如題組一第 2 題與題組九第 3 題, 而在鑑別度參數的部分,除了題組二、題組三與題組八之外,兩個模型的鑑別度 參數估計在其他題組皆有了差異,因此在 5, 000 字等級,可以發現兩個模型在題 目參數估計方面的確有了明顯差異,而哪一個模型在題目參數估計表現較優,則 要參考模型配適度。 圖4.1與圖4.2分別呈現受測者在 3, 000 字等級與 5, 000 字等級使用混合二參數 VSM 和二參數 VSM 的能力估計之散佈圖。由於在 3, 000 字等級時使用混合二參 數 VSM 分析時呈現是無分群的情況,故其能力估計的結果與使用二參數 VSM 的 能力估計相同,從圖4.1可以看到,使用兩個模型之能力估計結果所畫出的散佈 圖,皆在直線 x = y 上。而 5, 000 字等級的能力估計,可從圖4.2發現若受測者為 按照題目順序作答的族群,卻使用二參數 VSM 來估計其能力,也就是若將其視 為按照題目難易度作答的族群,會出現低估受測者能力的情況。 35.

(50) 表 4.3: 混合二參數 VSM 與二參數 VSM 之題目參數估計值 (標準誤)(3, 000 字等級) 混合二參數 VSM 二參數 VSM 題號 難易度 鑑別度 難易度 鑑別度 1 −1.278(0.060) 2.310(0.032) -1.271(0.074) 2.352(0.099) 2 −1.377(0.071) 3.089(0.140) -1.337(0.073) 2.979(0.114) 3 −1.066(0.073) 2.901(0.087) -1.092(0.071) 2.858(0.111) 4 −0.372(0.053) 1.445(0.112) -0.390(0.081) 1.413(0.103) 5 −1.032(0.095) 0.985(0.119) -1.081(0.134) 0.949(0.119) 6 −1.452(0.118) 1.338(0.105) -1.518(0.130) 1.281(0.109) 7 −2.224(0.074) 1.290(0.208) -2.432(0.340) 0.895(0.161) 8 −1.530(0.061) 2.885(0.150) -1.489(0.085) 2.774(0.114) 9 −1.625(0.101) 2.225(0.134) -1.546(0.085) 2.419(0.107) 10 −0.913(0.071) 2.261(0.106) -0.935(0.078) 2.238(0.106) 11 −1.035(0.057) 2.901(0.070) -0.964(0.063) 2.854(0.101) 12 −1.176(0.101) 2.415(0.120) -1.207(0.073) 2.367(0.097) 13 −0.340(0.061) 1.608(0.083) -0.356(0.071) 1.580(0.097) 14 −1.321(0.080) 1.535(0.072) -1.364(0.111) 1.495(0.106) 15 −1.514(0.084) 2.633(0.079) -1.550(0.081) 2.587(0.108) 16 −1.276(0.075) 2.007(0.071) -1.317(0.103) 1.947(0.110) 17 −1.324(0.086) 1.575(0.076) -1.368(0.114) 1.524(0.110) 18 −1.305(0.092) 1.979(0.065) -1.348(0.087) 1.936(0.100) 19 −0.862(0.088) 1.331(0.082) -0.894(0.091) 1.295(0.099) 20 −0.607(0.075) 1.781(0.073) -0.628(0.072) 1.749(0.095) 21 0.128(0.071) 1.446(0.092) 0.119(0.077) 1.419(0.104) 22 −1.447(0.083) 2.100(0.139) -1.491(0.092) 2.038(0.103) 23 −0.082(0.086) 1.836(0.095) -0.095(0.070) 1.791(0.101) 24 −0.195(0.074) 1.668(0.078) -0.208(0.065) 1.636(0.092) 25 −1.315(0.082) 1.415(0.107) -1.537(0.167) 1.251(0.127) 26 −1.042(0.086) 1.508(0.109) -1.245(0.103) 1.554(0.104) 27 −1.432(0.092) 2.386(0.104) -1.470(0.084) 2.331(0.103) 28 −0.450(0.067) 1.945(0.070) -0.467(0.063) 1.918(0.092) 29 −1.324(0.084) 2.014(0.101) -1.362(0.088) 1.966(0.099) 30 0.118(0.074) 1.470(0.088) 0.111(0.074) 1.445(0.103). 36.

(51) 表 4.4: 混合二參數 VSM 與二參數 VSM 之題目參數估計值 (標準誤)(5, 000 字等級) 混合二參數 VSM 二參數 VSM 題號 難易度 鑑別度 難易度 鑑別度 1 0.729(0.078) 1.839(0.110) 0.753(0.083) 1.207(0.171) 2 −0.181(0.053) 1.335(0.178) −0.364(0.064) 1.476(0.250) 3 −1.441(0.057) 3.495(0.142) −1.468(0.072) 3.077(0.251) 4 −0.441(0.042) 2.632(0.102) −0.490(0.093) 2.461(0.167) 5 −0.517(0.086) 2.388(0.093) −0.521(0.132) 2.156(0.149) 6 −0.044(0.072) 1.468(0.103) −0.032(0.061) 1.156(0.192) 7 −0.467(0.059) 1.794(0.118) −0.468(0.090) 1.726(0.205) 8 −0.468(0.081) 1.927(0.066) −0.487(0.101) 1.716(0.133) 9 −0.123(0.076) 1.111(0.102) −0.096(0.102) 0.906(0.182) 10 −0.094(0.061) 1.602(0.094) −0.178(0.063) 1.428(0.195) 11 −1.081(0.072) 1.975(0.070) −1.094(0.158) 1.468(0.089) 12 −1.402(0.088) 2.191(0.054) −1.426(0.199) 2.631(0.043) 13 −0.179(0.098) 1.688(0.039) −0.143(0.170) 1.198(0.049) 14 −1.022(0.057) 1.448(0.087) −1.030(0.203) 1.312(0.091) 15 −0.885(0.102) 1.422(0.104) −0.899(0.176) 1.251(0.098) 16 −0.187(0.149) 1.367(0.057) −0.205(0.196) 1.189(0.064) 17 0.172(0.187) 1.963(0.058) 0.190(0.330) 1.429(0.072) 18 −0.340(0.103) 1.163(0.078) −0.205(0.133) 1.229(0.078) 19 −0.611(0.150) 2.052(0.075) −0.684(0.241) 1.947(0.079) 20 −1.269(0.090) 3.450(0.074) −1.315(0.173) 2.605(0.066) 21 −0.042(0.058) 1.859(0.095) −0.066(0.083) 1.495(0.157) 22 −0.923(0.068) 2.166(0.156) −0.977(0.052) 1.994(0.224) 23 −0.808(0.059) 1.246(0.133) −0.828(0.067) 1.126(0.242) 24 −0.810(0.097) 1.477(0.107) −0.798(0.135) 1.545(0.192) 25 −0.813(0.100) 1.522(0.075) −1.098(0.101) 1.910(0.142) 26 −1.207(0.055) 2.244(0.107) −1.113(0.058) 2.278(0.193) 27 −0.074(0.056) 1.302(0.118) −1.112(0.084) 0.317(0.273) 28 −0.626(0.089) 1.657(0.092) −0.737(0.083) 1.601(0.097) 29 −0.197(0.084) 1.749(0.150) −0.100(0.088) 1.937(0.226) 30 −1.284(0.058) 2.796(0.098) −1.177(0.059) 1.992(0.122). 37.

參考文獻

相關文件

Abstract - The main purpose of this study is applying TRIZ theory to construct the Green Supply Chain management (GSCM) strategies for the international tourist hotel.. Based on

The main purpose of this study is applying TRIZ theory to construct the Green Supply Chain management (GSCM) strategies for the international tourist hotel1. Based on the

The purpose of this study was to investigate if providing consumers with a general dietary guidance or impose a cash punishment policy on customers for not finishing their food on

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

Developing a signal logic to protect pedestrian who is crossing an intersection is the first purpose of this study.. In addition, to improve the reliability and reduce delay of

By using Balanced Scorecard (BSC), the purpose of this study is to construct indicators of school management with Analytic Hierarchy Process (AHP) for L junior high school in

Therefore, the purpose of this study is to perform a numerical analysis on the thermal effect of shape-stabilized PCM plates as inner linings on the indoor air temperature

The purpose of this study is to analyze the status of the emerging fraudulent crime and to conduct a survey research through empirical questionnaires, based on