• 沒有找到結果。

三、幾何方塊題組

第四節 實作評量試題的類推性

本研究試題的評分者有兩位,所以採用的是評分者與工作項目的兩面向交叉 設計(the two-facet , crossed person×rater×task design),研究者原先想 利用 SPSS 套裝軟體進行多變量變異數分析,將評分的結果做概化程度的分析,

計算出各個變異來源之變異成份的大小,及其佔總變異的百分比,但因檔案太 大,SPSS 套裝軟體無法進行多變量變異數分析,所以研究者改用 EXCEL 軟體進行 試算,其結果列於表 4-4-1

表4-4-1 實作評量概化程度變異成分表

變異來源 估計變異成份 佔總變異之百分比 受試者 0.887981185 19.44983082 評分者 9.6E-16 2.11E-14 工作項目 1.697518073 37.18146275

受試者*評分者 0 0

受試者*工作項目 1.872595983 41.0162689 評分者*工作項目 0.033245844 0.728197914 受試者*評分者*工作項目及誤差 0.074154589 1.624239615

G 係數 0.736144063

註 1:在受試者與評分者的交互作用項中,其估計變異成份的大小為-1.06396E-15。Shavelson

&Webb(1991)指出當某變異成份實際的值接近或等於 0 時,取樣的誤差可能導致該變異成份 的估計值成為負數,此時可將負值的變異成份大小設定為 0。

從以上的表 4-4-1,研究者有以下的發現

一、實作評量最大的三個變異來源是受試者和工作項目的交互作用、工作項 目之間的變異與受試者之間的變異。

實作評量最大的變異來源是受試者和工作項目的交互作用,佔總變異量的

41.016%,表示在研究者的實作評量裡,學生的成績會因著工作項目的不同而有 高低起伏,如此一來,便會降低以某位受試者的觀察分數概化至其真實分數的可 靠程度。所以,研究者無法以學生在少量的實作評量評量項目上的表現來做為他 們在數學科能力的推論。

此外,在研究者的實作評量中,第二大的變異來源為工作項目之間的變異,

其值為 1.70,佔總變異的 37.181%,這只是反應了學生在評量項目上能力、表 現的差異,並非影響 G 係數大小的主要因素。關於這一點,研究者從計算 G 係數 的公式可以了解,G 係數的計算公式是這樣的:

G=σ2p/(σ2p2pt/nt2rp/nr2rpt,e/nr×nt

G 係數的意義是受試者間的變異量在與受試者有關的變異量之總和中所佔的 比例大小。因此,若受試者間的變異量愈大,而相對於受試者與其他實驗設計面 向的變異量及誤差愈小,則 G 係數便會愈大,也就是根據測驗成績來作推論的可 靠性愈高。

二、兩位評分者之間的變異極小

評分者之間的變異為傳統的評分者信度,從表 4-4-1 可以看到兩位評分結果 之間的變異值為 9.6E-16,僅佔總變異的 2.11E-14%,顯示研究者的評分標準非 常一致,也就是說,研究者兩位當中並沒有誰評分時較為嚴格(stringent)或 較為寬大(liberal)。

三、受試者與評分者之間沒有交互作用

表 4-4-1 顯示受試者與評分者之間的交互作用為 0,表示研究者兩位評分者 並沒有受到月暈效應的影響而對某些學生給予較高的成績,對其他學生則給予較 低的成績。這一點也可做為評量是否具有公平性的證據之一。

四、評分者與工作項目間的交互作用非常小

評分者與評量項目間的交互作用很小,表示兩位評分者在評定各個評量項目 的評量標準相當一致,這原因是由於評分標準訂定的相當明確而且具體,讓評分

者之間沒有認知的差異存在。

從評量工作項目的內容來看,本次測驗所測量的雖然同樣是數學能力 測驗,但各題所涵蓋的領域包含了統計的資料處理分析能力(擲骰子)、幾 何對稱概念(魔術師)、概算能力(猜一猜)、幾何圖型的直觀概念(圖形 題)、數與量中的整數加減乘的運算分析能力(數字卡)、結合數與形兩大 主題的幾何形體構成要素及其數量性質(幾何方塊),題目本身的差異性很 大,而且每位學生所擅長的方面有所不同,在工作項目的表現自然就有所 不同,在加上每題的配分並不盡相同,所以由這些評量項目概化至其他數 學科能力的程度就降低了,這也就是本研究的 G 係數僅達 0.313,表示如果 使用少量的實作評量工作項目將無法達到所需要的信度。

另外主要效果是受試者的變異數值是 0.888,佔總變異的 19.450%,代 表學生之間的程度差異也很大。

根據概化程度研究的結果,研究者可以進一步做決策研究(decision study)。決策研究是用來指出若要達到足夠小的誤差變異或足夠大的概化 係數時,每一個學生需要多少工作項目以及每一個工作項目需要多少評分 者。下面研究者分別分析在幾個評分者的情況下,實作評量工作項目為幾 個時,G 係數才能達到 0.8。

表 4-4-2 G 研究與各種 D 研究之變異成分分析與推論力係數

變異源 G 研究變異成 分之估計值

D 研究變異成分之估計值

nr'= 1 2 3 5 2 2 2

ni'= 1 6 6 6 7 8 9

受試者 0.888 0.888 0.888 0.888 0.888 0.888 0.888 評分者 0.000 0.000 0.000 0.000 0.000 0.000 0.000 工作項目 1.698 0.283 0.283 0.283 0.243 0.212 0.189 受試者*評分者 0.000 0.000 0.000 0.000 0.000 0.000 0.000 受試者*工作項目 1.873 0.312 0.312 0.312 0.268 0.234 0.208 評分者*工作項目 0.033 0.100 0.066 0.040 0.116 0.133 0.150 受試者*評分者*工

作項目及誤差 0.074 0.006 0.004 0.002 0.005 0.005 0.004 σRel 1.947 0.318 0.316 0.315 0.273 0.239 0.212 G 係數 0.313 0.736 0.737 0.738 0.765 0.788 0.807

由表 4-4-2 可知,原設計研究 2 位研究者與 6 道題目的方式,推出 G 係數只有 0.736,當評分者增加一位而題目維持六題時,G 係數只增加 0.01 達到 0.737,

如果將評分者增加到五位而題目仍維持六題時,G 係數只增加 0.02 達到 0.738,

可見增加評分者的影響有限;如果評分者維持兩位而題目增加為七題,G 係數會 增加 0.029,達到 0.765,如果評分者維持兩位而題目增加為八題,G 係數會增加 0.052,達到 0.788,可見增加題目的效果比增加評分者更為有效,當評分者為兩 位,題目為九題時,G 係數可達 0.807,顯示評分者為兩位,題目為九題時,內 部一致性較佳。

第五章 結論

本研究以 TIMSS 數學實作評量的題目為工具,進行特定環境背景不同年度的 縱貫研究及與其他國際上表現較佳的國家進行橫貫研究。以下為本研究進行所得 的經驗以及資料分析所得之結果,分別以結論以及建議等兩節進行說明。

第一節 結論

壹、實作評量的信效度

TIMSS 試題在台灣之施測是具有一定信效度。在信度方面,經實際施測後計 算的結果為 0.799,所以 TIMSS 數學實作評量試題在台灣之施測是具有信度的。

但根據實作評量試題的類推性分析結果發現,G 研究中的 G 係數只有 0.313,深 入探討其原因,可能是試題難易程度的差別較大與各題配分比例不同所造成的,

所以在 D 研究中,要補救其信度低的措施就是增加評分者為兩位,題目為九題時,

其 G 係數就可以達到 0.807。在效度方面,每一題均有詳細說明細節行為的項目,

給定參考答案圖形的作品量表,各題除經著名國際測驗機構審核施測過外,並由 研究者另請學校資深四年級教師共同研究討論題目與答案,對於施測過程,研究 者也與四位監考老師討論後訂出共同標準,所以在效度方面,具有專家效度跟內 容效度。

貳、評量結果與比較

一、在進行縱貫研究方面,在魔術師題型上,民國 95 年的結果較佳;在擲 骰子題型上是民國 89 年的結果較佳;在猜一猜題型上,民國 89 年的結 果較佳。此結果顯示在幾何概念的對稱觀念上,民國 95 年的學生有較 佳的表現,但在統計觀念及概數觀念上,民國 89 年的學生表現較佳。

在實際施測過程中,研究者發現,在魔術師題型的第一題上,許多民國 95 年的學生是先將題目要求的圖形剪出來後再進行對摺,當然如果學生 是交出這樣的答案紙條,評分者是不給分的,因為當評分者在沿著摺線

還原時就會發現不是一刀剪出來的,可是因為有三個機會,所以許多學 生得到這樣的經驗後,就會在第二次或第三次時剪出題目要求的結果,

而且第一題的成功經驗,會連帶的影響第二題的作答,因為摺的方式是 一樣的,只是剪的地方是不同的,所以不管民國 95 年或是民國 89 年的 作答結果,都會發現第二題的答對率均比第一題高。而第三題的作答方 式因為要多摺一次,而且較難複製前面成功的經驗,所以第三小題的答 對率比前兩題均比較低,所以研究者認為在這一題型上,民國 95 年的 學生會表現得比較好的原因可能在於有比較好的作答技巧。

二、TIMSS 實作評量在性別及班級之間,沒有顯著差異。

三、在圖形題題型上,施測學校與台灣西元 2003 年施測結果沒有達到顯著 差異;在數字卡題型上,施測學校與台灣西元 2003 年施測結果沒有達 到顯著差異;在幾何方塊題型上,施測學校與台灣西元 2003 年施測結 果達到顯著差異。之所以在幾何方塊題型上會達到顯著差異,研究者認 為可能是時間點的問題,因為研究者施測的時間是利用學期末期末考 後,而剛好這次期末考有分數的單元,所以學生對這個範圍比較熟悉,

才可能造成施測學校的成績特別突出。

四、在圖形題題型上,施測學校優於新加坡、比利時及美國;在數字卡題型 上,我國優於比利時、美國;在幾何方塊題型上,施測學校優於新加坡、

香港、日本、比利時、美國。研究者特別注意到香港與美國這兩個國家,

在 89 年徐美英論文中,香港在該年的施測結果都比徐美英施測結果落 後,但在 95 年的施測結果卻只有幾何方塊題型是明顯落後施測學校,這 表示不是台灣學生在這幾年程度變低了,就是這幾年香港程度變高了。

在跟縱貫研究做交叉比較後,研究者認為台灣學生這幾年程度變低的可 能性較大。而美國不管是在 89 年與徐美英論文的施測結果比較或是與 95 年施測結果比較,均在這兩次比較中明顯落後。

第二節 建議

壹、TIMSS 實作評量的後續研究

由於數學科實作評量在實際施測時常有人力與物力上的考量,以至於在實

由於數學科實作評量在實際施測時常有人力與物力上的考量,以至於在實

相關文件