評量過程中,評定量表的計分程序必須仰賴人為的判斷,而產生測量的隨 機誤差,評分者的客觀性常常受到質疑。評量的信度即是隨機誤差的影響程度
,在測量領域的意義等同一致性;測量的物理情境可能不同,不同評分者對測 量結果的相同程度(張郁雯,1999)。
一、
研究者的構想如何提升評分的客觀性,增加評量的信度,李坤崇(1999)建議應使用明確 的量化次數、或外顯的明確行為來敘述;對評分者施予訓練;盡可能由二至三 位評分者共同評分等。Airasian(1996)建議避免評量題數太少,以增加評量的信 度。王信智(2001)的研究建議,進行科學寫作研究應該要:提高科學寫作作品 的樣本數,並且需要二位以上的評分者一起評分以增加客觀性。
本研究以實際教學現場的學生寫作作品為評量樣本,合乎實作評量的真實
性。對於提升評量的信度研究者做了以下的努力:
(一) 對作品評量的評定量表也以明確的特徵來描述。
(二) 第二次循環中,研究者批閱作品時,都能核對評分檢核表的特徵(表 2-2)
,作為評分能力的訓練。
(三) 學生人數 66 人,加上融入式科學寫作作品,第一次循環共有題目 9 題
,第二次循環共有題目 6 題,合計 15 題,共有 990 個作品樣本數。
屬於比較主觀的測驗,如論文式測驗或人格特徵的評定量表,評鑑計分過 程的一致性,便顯得格外重要(王文科,1986)。對於二位以上的評分者一起評 分以增加客觀性,在實際教學中對於大量的寫作作品評量,很難找到第二位以 上的評分者共同評量以增加客觀性。有鑑於此,本研究利用交互評分者信度來 探究所使用評定量表計分法的一致性,檢視自己評量分數的客觀程度,用以驗 證本量表的可推廣性。
二、
行動與實踐對於分析評分法決定分數或等第,需要教師針對各種標準提供多種的評分 結果,它最大矛盾就是評分的過程依賴人為的判斷,以及多向度的指標。這種 主觀的評分方式牽涉到信度的問題,主要是評分者信度(呂金燮,1999)。
在考驗評分者信度的作為上,研究者請求任教於同學年的自然科教師 C 老 師協助,擔任第二位評分者的角色。C 老師上課習慣以思考性題目與學生共同 研討,達成教學的目的。在定期評量方面,本學年擔任自然科教師都自行命題
,就個人所教的內容來評量學生的學習成果。C 老師歷年以來都以問答式題目 來進行定期評量,對於主觀性作品評量也有多年經驗,適合共同評量科學寫作 作品,探究評定量表的推展性、適用性。
研究者在自己所任教的二個班級繼續第三個行動循環實施科學寫作的評
量,重點即在考驗評分者的客觀性。估計由不同評分者,對同一作品評分的一 致性程度。同時對學生說明評量標準的特徵細目,在教學實況中反映出評量的 目標(謝祥宏、段曉林,2001),說明各個特徵所代表的作品評量涵義,以減輕 學生對於量化分數的依賴,導正評量的心態。研究者也經由更多份的科學寫作 評量過程中,加深對各個等第特徵的印象,更熟悉各個向度標準的拿捏,才能 客觀的依標準評定作品等第。
(一) 考驗評分者信度
研究者擬考驗第二次循環所使用的評定量表,其界定的評量標準,作品特 徵的具體描述,由研究者與 C 老師,共同評量研究者所任教班級學生所產出的 寫作作品,考驗交互評分者信度。兩位評分者各自就題目所指之課程內容設定 標準後同時評量。研究者兩班的學生學生作品收集後立即影印製作副本,讓研 究者與 C 老師能分別、同時評量。
評量之前研究者則將第一循環及第二循環所實施的評量方式和歷程告訴 C 老師,並解釋研究者對於評定量表作品特徵的標準認知。C 老師則對照作品特 徵的標準對作品內容評量。作品評量後,就勾選的等第轉換為量化分數,以利 統計分析:未達標準─1 分、達到標準─2 分、合乎標準─3 分、超越標準─4 分。第三循環題目設計如附錄--科學寫作第三單元,共計四題,樣本數 66 份,
統計分數之後,以各個向度為單一主體,分析二位評分者分數之相關係數。如 表 4-1;
兩位評分者在四題科學寫作作品的評量分數,經統計之後以 SPSS 套裝軟 體,在五個評分向度分析分數間的相關係數,以估量二者間的交互評分者信度 (王文科,1986),以每一題每一個向度的評分結果,二位評分者所評等第之相 關係數都達顯著水準(α=.05),顯示二位評分者分數之間有正相關存在,計分過 程顯現出一致性。
表 4-1 交互評分者信度分析 Pearson
相關係數 印象 意義
N=66,df=64
(二) 評量方法的可行性及意見
(I_941202)
期間研究者與 C 老師也常就評分的標準如何拿捏交換意見,其中以「概念
」標準,以及「技巧與文體」間的標準評定討論。
C 老師:評概念向度時,若題目要求寫出 3 種概念,但是題目中並沒 有明顯說明要學生完全指出三種概念,要如何評分?
研究者:我將會因描述的完整性,將說明一個概念的評為達標準,若
三個都能完整寫出的則是合乎標準。 準吧?(D_941118)
對於評分標準的拿捏竟然是學生寫作動機強弱的原因之一,評量 的目的若是以教學的課程內容來定奪,標準比較嚴謹,更多的學生作品 將被歸類為「未達」;如果單以科學寫作的目的─培養學生的表達能力 來看,學生能將自己的意見反映出來就難能可貴了,標準將比較寬鬆。
因評量的目的不同,將造成評量的手段及結果不同。(J_941118)
基於鼓勵學生勇於表達意見的原意,研究者將於大部分的時間採較為寬鬆 意義。(I_941202)
對於作品特徵的標準的描述,會影響評分者對於作品的看法,甚至讓評分 者對於標準要求不能了解,而造成評量的誤差。對於作品特徵的標準實在有重 新擬定的需要,讓標準間及等第間的分際更為清楚。
三、
小結科學寫作使用評定量表來評量學生作品,經由兩位評分者共同評量之後,
分數成正相關,但是評分過程中,評分者對評量目的、評分標準的解讀不同,
影響到評分標準的拿捏。作品特徵的標準的描述應該更加口語化,向度、等第 間的標準區分要更加明確,則評分者更能客觀地據以評定類似的寫作作品。