建議 - 結論與建議 - 以認知診斷模型分析台灣與亞洲四國（地區）八年級學生在TIMSS 2007的數學學習成就表現：以DINA模型為例

第五章結論與建議

第二節建議

認知診斷模型緣起於結合認知科學與心理計量學的認知診斷評量，且有別於 IRT 的設計而能夠進一步評量受試者在認知屬性的成就表現。在目前文獻中，運用上述優勢的實務研究取向上，又以同於本研究般將模型應用在既有評量資料來萃取已有的分析外更豐富的診斷訊息者為多，而用在基於認知診斷目的而從頭設計的測驗為少 (DiBello, et al., 2007)。因此以下謹基於研究的相關發現與研究過程所遇挑戰提出相關建議，包括針對後續欲進行類似取向的研究提出相關議題之建議。

一、檢視我國學生在機率、統計與閱讀理解方面的能力

本研究發現，針對解 TIMSS 2007 數學測驗題本四所需的認知屬性，不論是從精熟屬性的情形、認知屬性組型的分布情形或是精熟試題解題所需所有屬性的情形來看，我國學生的表現都能在 TIMSS 2007 數學成就調查排名前五名的國家（地區）中居於前段。

以各個數學主題來說，我國在代數的表現優於亞洲四國（地區）的情形最明顯，數與幾何次之。唯獨在機率、統計和閱讀理解分面，不僅表現優異的情形不如上述各主題明顯，

在部分屬性的表現亦不如韓國與日本。事實上呼應 TIMSS 2007 的調查結果，若限定於

題本四的學生，我國學生在機率與統計維度的能力值亦不如韓國與日本，而不像其他維度的表現般，不是表現最好就是僅次於一個國家；若從所有參與調查的學生來說，則根據 TIMSS 2007 公佈的資料，我國在機率與統計維度的能力值依然是表現較不如亞洲四國（地區）之處，如表 5-1 所示。

表 5-1 各國（地區）TIMSS 2007 八年級數學各主題成就之能力值總平均

數代數幾何機率與統計

臺灣 577 617 592 566

韓國 583 596 587 580

新加坡 597 579 578 574

香港 567 565 570 549

日本 551 559 573 573

臺灣排名 3 1 1 4

資料來源：出自曹博盛（2009b）

再以國際性的學習成就評量來看，國際學生評量計畫 (Programme for International Student Assessment, PISA) 亦為我國近年積極參與之國際型調查。該計畫自 2000 年開始，每隔三年以十五歲在學學生為受測對象，針對數學、科學與閱讀等方面的素養進行調查（李雯雅，2009），而至今我國已參與且完成調查的為 PISA 2006 與 PISA 2009。

依據 PISA 2006 的閱讀素養調查結果，我國學生的表現於參與成員中排名第 16，不如韓國的第 1 名、香港的第 3 名與日本的第 15 名（藍乙琳，2009）。依據 PISA 2009 的閱讀素養調查結果，我國學生的排名則在退步至第 23 名，而不如韓國的第 2 名、香港的第 4 名、新加坡的第 5 名、與日本的第 8 名（張文良，2010）。

綜合上述，我國學生在機率、統計與閱讀理解方面的能力值得進一步的檢視以找出學生的弱項，而提供修正相關課程或教學不足之處的參考。事實上近年來我國本身亦積極建立追蹤學生各項成就之資料庫，如「臺灣學生學習成就評量資料庫」(Taiwan Assessment of Studemt Achievement, TASA)，亦可從中特別關注學生此部分的學習情況。

二、探討輸入資料具不同特性時對估計 DINA 模型相關參數的影響

本研究在應用 CDM 中的 DINA 模型時出現了模型中的猜測參數 (guessing parameter)g 似被高估的情況。本研究主要用以進行試題編碼的認知屬性架構來自

「TIMSS-R 數學－診斷評量」研究計畫 (Corter, et al., 2006)，而研究者與專家教師進行編碼工作之初，針對各屬性的編碼門檻設定便參考了該計劃的相關文獻所公佈之各屬性被編碼的數量以及試題編碼示例。但依此得出的初始 Q 矩陣輸入 DINA 模型及其程式碼後，不少試題的 g 值皆大於 0.7，具偏高的現象。當依據文獻所提，透過「研究方法」

一章中的「研究工具與流程」一節所述方式反覆修正 Q 矩陣架構後，各屬性被編碼的數量便被減少。此時部分試題的 g 值確有降低，部分的值則高於 0.5，似仍偏高。以本研究所使用的臺灣資料為例，研究者與專家教師最初完成試題編碼時以及最後進行研究結果撰寫時，各試題分別具有的屬性編碼數，以及 DINA 模型之 g 值如表 5-2 所示，從表中可發現各試題的 g 值經修正後皆有下降。

此外，g 值偏高的試題似乎皆有答對率偏高的特徵，例如在表 5-2 中 g 值超過 0.7 的各試題 M04_05A、 M04_09 、M04_10、 M04_11、M05_05 與 M05_09 之答對率皆超過了 72%。

檢視本研究初期用以分析的 Q 矩陣，其具有以下特性：

1. 試題編碼數較修正後的 Q 矩陣版本多。

2. 少數試題編碼經研究者與專家教師再檢視後認定有誤。

3. 部分屬性的編碼原因可能包含了過多其實已是受試者的先備知識。

4. 部分屬性在試題的應用難度差異過大。

5. 部分屬性的編碼同時包含了答對率落差超過 40％的試題。

6. 各試題具有的編碼數目差異較大，如表 5-2 所示。

7. 共包含 26 個屬性，較修正後的 Q 矩陣所含的 20 個要多。

其中在本研究中造成第 1 點與第 3 點的原因來自於較寬鬆的屬性編碼門檻；第 3 點與第

表 5-2 Q 矩陣架構修正前後之試題編碼數與 g 值之變化，以及臺灣學生在各試題之

(http://timssandpirls.bc.edu/TIMSS2007/idb_ug.html)

6 點在最終用以分析的 Q 矩陣上仍然有相似的現象；針對第 7 點，可能礙於電腦軟硬體相關限制，就研究者所知仍未有 DINA 模型之相關研究涉及的屬性個數達到 20 個以上。

另一方面，研究者亦以相關檢定統計量進行簡易的模擬研究，希望初步的觀察模型的配適情形，結果顯示配適情形似乎未能達到期望的水準（相關研究過程謹詳述於附錄二）。雖限於研究時間，研究者此處之模擬研究僅以達到初步的現象觀察為目的，而有諸多未盡完善之處，因此結果仍有待後續研究確認，但亦引發研究者的思考。在本研究中，模型的配適度不佳以及 g 值偏高是否即來自於所使用的 Q 矩陣具有上述特性的影響，研究者限於可運用資源而未再行蒐集質性資料或進行更深入的模擬研究推斷其因，

但應值得深究。亦即當輸入 DINA 模型的相關資料具有包括試題編碼數過多、編碼有錯誤、認知屬性過多、以及 Q 矩陣具上述第 3 點與第 6 點之特性時，對於參數估計的影響為可深入探討的研究議題。經此研究過程後，研究者認為藉由上述研究結果提供的訊息越豐富，越有助於實務應用者在研究之初，便能依據資料特性預判未來可能遭遇的困難與必要的修正過程與評估資料是否適用以 DINA 分析，以及在研究過程中有修正 Q 矩陣架構之理論依據。

三、審視應用 CDM 於非基於 CDA 目的而設計的既有評量資料之可行性

本研究之研究取向主要參酌的文獻包含了 Lee 等人(2011)之研究，而本研究亦與該項研究最為相近，包括同以 DINA 模型分析 TIMSS 2007 數學測驗相關資料。當研究者以 Lee 等人之相關實徵資料進行前段所述之簡易模擬研究後，配適情形較佳，只是仍未達到期望的水準（相關研究過程謹詳述於附錄二）。

另一方面，研究者在研究過程中還遭遇了選擇適當的試題編碼架構的困難。在本研究程中，研究者一度參考 Lee 等人(2011)的作法，以 TIMSS 2007 八年級數學測驗共 55 項內容領域目標作為試題編碼的認知屬性集，而得出包含 16 項屬性的 Q 矩陣架構，如附錄五所述。但在此架構下許多試題僅涉及一項屬性，似不如直接以該試題答對與否解讀學生是否具有試題測驗目標所述能力，亦即似無必要再以複雜的心理計量模型進行認知診斷。另外在該架構下，有超過半數的屬性其被編碼數不超過兩次，因此也衍生了提

供模型估計受試者是否精熟屬性的訊息量不足的疑慮。但當研究者使用 Corter 等人 (2006) 的認知屬性架構後，卻又出現模型配適度不佳以及估計出的 DINA 模型之 g 值偏高的可能異常現象。

根據上述，研究者以為，或許由於進行分析的試題原先的設計理念不是為了進行認知診斷，因此研究者僅能盡力找尋能恰當描繪試題特性的認知屬性架構，而無法直接依據所欲診斷的認知屬性而從頭設計試題，這也使得研究者無法預先控制 Q 矩陣會具有的特性。而若後續研究證實，當 Q 矩陣具相關特性，例如試題編碼數過多、編碼有錯誤、

認知屬性過多、部分屬性的編碼原因可能包含了過多其實已是受試者的先備知識、各試題具有的編碼數目差異較大等特性時，確實會導致參數估計的偏誤與模型配適度不佳，

那麼如本研究或是 Lee 等人之研究般將 DINA 模型應用在非基於 CDA 目的而設計的既有評量資料以進行認知診斷分析的研究，實可特別再審視其可行性。

綜合上述，可說將 CDM 應用在非基於 CDA 目的而設計的既有評量資料，來萃取已有的分析外更豐富的診斷訊息的研究取向雖立意良好，但一方面，要針對所分析的試題建立合適的認知屬性架構，不但有其重要性，也可能是困難的；一方面在無法預先設定輸入 CDM 的資料（例如本研究所使用的 Q 矩陣）特性的情況下，研究人員可能因此使用了不合適的資料輸入了 CDM，而得出了無效的分析數據。因而此取向應值得後續欲進行類似研究之研究人員再審視其可行性。

四、發展有系統客觀性的方法以修正在應用模型時人為建立的假設

在本研究中，所有透過 DINA 模型得出之相關數據皆至少基於一項假設，即 Q 矩陣的架構。而 Q 矩陣的架構又至少建立於以下兩項假設之上：

1. 在各試題所假定的解題策略

2. 在 1.所述的解題策略下涉及的認知屬性

上述假設的合理性主要基於研究者與專家教師之認定，以及具數學教育專業之教授

在文檔中以認知診斷模型分析台灣與亞洲四國（地區）八年級學生在TIMSS 2007的數學學習成就表現：以DINA模型為例 (頁 129-200)

建議

第五章 結論與建議

第二節 建議

第五章結論與建議

第二節建議