研究一結果

第四章研究結果

第一節研究一結果

一、Rasch 題組模式在不同情境下之參數估計的 RMSE 值計算結果

表 4-1-1 為在題組內 2 題的情境之下，Rasch 題組模式的參數估計 RMSE 值摘要表，根據此表，研究者可以發現，不論是在高效果或是低效果的情境下，當題組內只有 2 題時，Rasch 題組模式之試題參數的回覆情形都還算不錯，且隨著受測者人數的增加，其回覆情形還會更佳。然而，在題組效果變異數的部份，其回覆情形卻都表現得不是很好，而此現象雖然在受測者人數提升之後有得到些許地改善，但整體來說，當題組內只有 2 題時，Rasch 題組模式之題組效果變異數的回覆情形都不太好，RMSE 值介於 0.134 至 0.403 之間。

表 4-1-3 （續）

低題組效果高題組效果

N＝500 N＝1500 N＝500 N＝1500

0.105 0.082 0.105 0.084

0.111 0.064 0.133 0.071

0.094 0.053 0.106 0.066

0.107 0.063 0.126 0.068

0.144 0.084 0.163 0.082

0.125 0.051 0.144 0.054

0.140 0.067 0.150 0.090

0.130 0.059 0.111 0.061

0.162 0.065 0.168 0.074

0.108 0.051 0.112 0.061

0.139 0.080 0.169 0.084

0.104 0.067 0.129 0.081

0.093 0.057 0.100 0.065

0.137 0.078 0.150 0.086

0.133 0.061 0.161 0.062

0.153 0.065 0.149 0.072

註：為能力變異數；～為各題組效果變異數；～為各試題參數；N 為受測者人數

最後，表 4-1-4 為在題組內 8 題的情境之下，Rasch 題組模式的參數估計 RMSE 值摘要表，根據此表，研究者亦同樣發現，不論是在高效果或是低效果的情境下，

當題組內 8 題時，Rasch 題組模式之試題參數與題組效果變異數的回覆情形也都還算不錯，且受測者人數的增加依然對 Rasch 題組模式之試題參數有所幫助，惟其對於題組效果變異數之回覆情形的幫助卻也是相當地有限。

表 4-1-4 （續）

低題組效果高題組效果

參數 N＝500 N＝1500 N＝500 N＝1500

0.126 0.059 0.125 0.058

0.112 0.083 0.140 0.068

0.105 0.053 0.102 0.032

0.141 0.060 0.135 0.055

0.117 0.062 0.133 0.062

0.145 0.067 0.141 0.054

0.103 0.055 0.099 0.060

0.120 0.070 0.120 0.072

0.106 0.065 0.110 0.068

0.102 0.074 0.096 0.082

0.115 0.066 0.141 0.075

0.117 0.066 0.121 0.062

0.146 0.069 0.128 0.072 註：為能力變異數；～為各題組效果變異數；～為各試題參數；N 為受測者人數

二、Rasch 題組模式之題組效果估計的平均 RMSE 值、Bias 值

圖 4-1-1 為在不同情境下，Rasch 題組模式之題組效果估計的平均 RMSE 值，

根據此圖，研究者可以發現，不論是在高效果或是低效果的情境下，隨著題組內試題數及受測者人數的增加，Rasch 題組模式之題組效果變異數的平均回覆情形均有所改善。題組內試題數主要是在由 2 題增加為 4 題時，其平均的回覆情形改善最大，而受測者人數則是在高題組效果的情境之下，其增加對於平均的回覆情形改善最多。值得一提的是，在高題組效果的情境之下，Rasch 題組模式之題組效果變異數的平均回覆情形均較低題組效果的情境為差。

三、Rasch 題組模式之題組效果估計－題組局部試題依賴情形之判斷標準設定 根據表 4-1-5，研究者還可以發現，即便題組效果在不同情境之下確實有可能會有受到高估或低估的情形產生。但其高估或低估的情形均都是有一個限度存在的，即若題組確實是有局部試題依賴的情形，利用 Rasch 題組模式進行題組效果估計的結果，就算該題組的局部試題依賴情形有被低估，其題組效果的估計值也不會太低，反之，若題組確實沒有局部試題依賴的情形，利用 Rasch 題組模式進行題組效果估計的結果，就算該題組的局部試題依賴情形有被高估，其題組效果的估計值亦不會太高。所以，若欲根據 Rasch 題組模式之題組效果估計的偵測結果並以一判斷標準來判斷題組是否有局部試題依賴問題的話，應該能有效地區辨出題組是否具有局部試題依賴的問題。

然而，由於過去的文獻並未明確地指出 Rasch 題組模式之題組效果估計應以何判斷標準做為題組有無局部試題依賴情形的判斷依據，故研究者即根據本研究的分析結果進行不同判斷標準之設定上的比較，藉此瞭解在各種情境之下，分析者該以何種判斷標準來決定題組有無局部試題依賴的情形。

表 4-1-6 Rasch 題組模式之題組效果估計的偵測結果在不同判斷標準之下的第一類型錯誤率與統計考驗力摘要表。根據此表，研究者可以發現，不論是在何種情境之下，若以題組效果比值是否大於 0.7 做為題組有無局部試題依賴情形之判斷依據的話，其α 都相當低（＜0.05）且 Power 都相當不錯（＞0.8），惟當題組只有 2 題時，其 Power 卻都不是很高（≒0.6），是故，研究者即參酌其他標準在不同情境之下的第一類型錯誤率與統計考驗力情形，嘗試地調整判斷的標準。斟酌比較之後，研究者認為，利用題組效果比值是否大於 0.6 做為題組有無局部試題依賴情形之判斷依據，將會是一個較為理想的判斷標準，因為不論是在何種情境之下，利用該標準來判斷題組有無局部試題依賴情形的α 都很低（＜0.15）且 Power 也很不錯（＞0.7）。

表 4-1-6 Rasch 題組模式之題組效果估計值在不同判斷標準之下的α與 Power 摘要表

低題組效果（α）高題組效果（Power）

N＝500 N＝1500 N＝500 N＝1500

0.7 0.6 0.5 0.4 0.7 0.6 0.5 0.4 0.7 0.6 0.5 0.4 0.7 0.6 0.5 0.4 題組內 2 題 0.050 0.102 0.173 0.275 0.006 0.025 0.073 0.179 0.629 0.738 0.838 0.933 0.596 0.802 0.952 0.992 題組內 4 題 0.000 0.000 0.013 0.042 0.000 0.000 0.000 0.000 0.833 0.913 0.975 1.000 0.942 0.996 1.000 1.000 題組內 6 題 0.000 0.000 0.000 0.006 0.000 0.000 0.000 0.000 0.931 0.981 1.000 1.000 0.988 1.000 1.000 1.000 題組內 8 題 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.933 1.000 1.000 1.000 0.992 1.000 1.000 1.000 註：N 為受測者人數且此表是將低題組效果的情境視為無題組效果的情境；α為第一類型錯誤率，代表題組沒有局部試題依賴的情 形卻被偵測為有的概率；Power 為統計考驗力，代表題組有局部試題依賴的情形且確實被偵測為有的概率

四、題組-殘差主成分分析之偵測結果與題組局部試題依賴情形之判斷標準設定 表 4-1-7 與表 4-1-8 分別為題組-殘差主成分分析之偵測結果的描述統計摘要表以及題組-殘差主成分分析之偵測結果在不同判斷標準之下的α與 Power 摘要表，

而以下，研究者將分別針對上述兩個摘要表進行說明：

根據表 4-1-7，研究者可以發現，在高題組效果的情境之下，殘差的第一與第二主成分比值的中位數均較大，且其比值的中位數、最大值與最小值也都會隨著題組內試題數與受測者人數的增加而有逐漸提升的趨勢；而在低題組效果的情境之下，殘差的第一與第二主成分比值的中位數也都相當接近 1，且隨著題組內試題數或是受測者人數的增加，其比值的中位數、最大值與最小值還會有越來越接近 1 的情形。所以，若欲根據題組-殘差主成分分析的偵測結果並以一判斷標準來判斷題組是否有局部試題依賴問題的話，應該也能有效地區辨出題組是否有局部試題依賴的問題存在。

根據表 4-1-8，研究者發現，若以 1.4 或 1.3 作為題組有無局部試題依賴情形之判斷標準的話，雖然在低題組效果的情境之下，其 α 皆很低（＜0.05），但是在高題組效果的情境之下，其 Power 卻都不是很高，特別是在高題組效果且題組內 2 題的情境之下，其 Power 更是相當地差（＜0.35）。然而，若以 1.2 作為題組有無局部試題依賴情形之判斷標準的話，研究者則可以發現，不但其α 在低題組效果的情境之下很低（＜0.05），且其 Power 在高題組效果的情境之下也都還不錯

（＞0.65）。所以，研究者認為，不論在何種情境之下，以 1.2 作為題組有無局部試題依賴情形之判斷標準，應是一個不錯的選擇。

表 4-1-7 題組-殘差主成分分析之偵測結果的描述統計摘要表

低題組效果高題組效果

N＝500 N＝1500 N＝500 N＝1500

題組內 2 題 1.065（1.000, 1.352） 1.038（1.000, 1.153） 1.244（1.006, 1.877） 1.245（1.019, 1.506）

題組內 4 題 1.063（1.003, 1.214） 1.042（1.005, 1.122） 1.375（1.077, 1.699） 1.408（1.142, 1.627）

題組內 6 題 1.056（1.010, 1.191） 1.035（1.002, 1.121） 1.483（1.176, 2.133） 1.547（1.356, 1.779）

題組內 8 題 1.057（1.004, 1.176） 1.032（1.004, 1.125） 1.576（1.316, 1.834） 1.667（1.400, 1.940）

註：N 為受測者人數；細格數值：中位數（最小值, 最大值）

表 4-1-8 題組-殘差主成分分析之偵測結果在不同判斷標準之下的α與 Power 摘要表

低題組效果（α）高題組效果（Power）

N＝500 N＝1500 N＝500 N＝1500

1.4 1.3 1.2 1.1 1.4 1.3 1.2 1.1 1.4 1.3 1.2 1.1 1.4 1.3 1.2 1.1 題組內 2 題 0.000 0.004 0.044 0.319 0.000 0.000 0.000 0.079 0.140 0.325 0.665 0.885 0.033 0.250 0.715 0.985 題組內 4 題 0.000 0.000 0.004 0.192 0.000 0.000 0.000 0.021 0.404 0.767 0.938 0.992 0.546 0.908 0.996 1.000 題組內 6 題 0.000 0.000 0.000 0.156 0.000 0.000 0.000 0.019 0.713 0.938 0.981 1.000 0.938 1.000 1.000 1.000 題組內 8 題 0.000 0.000 0.000 0.117 0.000 0.000 0.000 0.025 0.958 1.000 1.000 1.000 1.000 1.000 1.000 1.000 註：N 為受測者人數且此表是將低題組效果的情境視為無題組效果的情境；α為第一類型錯誤率，代表題組沒有局部試題依賴的情 形卻被偵測為有的概率；Power 為統計考驗力，代表題組有局部試題依賴的情形且確實被偵測為有的概率

五、Q3指標的偵測結果與題組局部試題依賴情形之判斷標準設定

表 4-1-9 與表 4-1-10 分別為 Q₃指標之偵測結果的描述統計摘要表以及 Q₃指標之偵測結果在不同判斷標準之下的判斷錯誤率摘要表，而以下，研究者將分別針對上述兩個摘要表進行說明：

根據表 4-1-9，研究者則可以發現，在高題組效果的情境之下， Q3 指標的中 位數確實都較大，而在低題組效果的情境之下，Q₃指標的中位數也確實都較小，

且不論題組內有多少試題或是受測者有多少人，其中位數的變化情形皆不大，而在最大值與最小值的部分，研究者則發現到，不論是在高題組效果或是低題組效果的情境之下，隨著題組內試題數與受測者人數的增加，其最大值與最小值的差 距都有逐漸變小的趨勢，這也表示 Q₃指標的偵測結果將會隨著題組內試題數與 受測者人數的增加而越來越穩定。是故，若欲根據 Q3指標的偵測結果並以一判斷標準來判斷題組是否有局部試題依賴問題的話，應該也還是能有效地區辨出題組是否有局部試題依賴的問題存在。

然而，根據表 4-1-10，研究者則發現，若以過去研究者所指稱的 0.2（Chen &

Thissen, 1997）作為題組是否有局部試題依賴情形之判斷標準的話，幾乎都無法有效地偵測出題組的局部試題依賴情形，其 Power 皆相當地低（＜0.05）。是故，

研究者即嘗試降低此判斷標準，瞭解究竟在何種標準之下，判斷題組有無局部試題依賴情形的α 能夠降到最低且 Power 能夠提至最高。結果發現，不論是在何種情境之下，只有當以 0.1 作為題組有無局部試題依賴情形的判斷標準時，其 α 與 Power 的表現才較為令人接受（α＜0.05, Power＞0.35），雖然其 Power 並不如以 0.05 作為題組有無局部試題依賴情形的判斷標準時來得高，但相較之下，其 α 是比較低的。是故，整體來說，不論在何種情境之下，都應以 0.1 作為題組有無局部試題依賴情形之判斷標準。

表 4-1-9 Q₃指標之偵測結果的描述統計摘要表

低題組效果高題組效果

N＝500 N＝1500 N＝500 N＝1500

題組內 2 題 0.004（-0.110, 0.150） 0.006（-0.068, 0.071） 0.109（-0.031, 0.305） 0.109（0.009, 0.202）

題組內 4 題 0.005（-0.044, 0.069） 0.004（-0.029, 0.035） 0.107（0.037, 0.162） 0.106（0.044, 0.146）

題組內 6 題 0.002（-0.033, 0.045） 0.002（-0.019, 0.027） 0.099（0.051, 0.186） 0.100（0.070, 0.131）

題組內 8 題 0.003（-0.023, 0.024） 0.001（-0.011, 0.018） 0.094（0.060, 0.124） 0.095（0.064, 0.122）

註：N 為受測者人數；細格數值：中位數（最小值, 最大值）

表 4-1-10 Q₃指標之偵測結果在不同判斷標準之下的α與 Power 摘要表

在文檔中局部試題依賴偵測方法之偵測效果比較 (頁 43-0)

第四章 研究結果

第一節 研究一結果

第四章研究結果

第一節研究一結果