• 沒有找到結果。

第二章 文獻探討

第三節 效度的概念及研究方法

本節分為「效度的意義及測量方式」和「資優鑑定效度的定義和測量方法」等 兩個部分,先從測驗理論出發,介紹效度的定義和測量方式,再聚焦到資優鑑定的 效度,提出本研究的效度測量方式。

一、 效度的意義及測量方式

根據美國教育研究協會(AERA)、美國心理學會(APA)及國家教育測量委員會 (ACME)於 1999 年所編纂的《心理及教育測驗標準》(Standards for Educational and Psychological Testing),效度指的是「證據和理論支持測驗成績詮釋其宣稱之用途 的程度」。效度是發展和評鑑測驗最基本的考量要件。重要的是,效度是一個整體 的概念,以建構效度(construct validity)為核心,而是效度評估就是針對測驗是否符 合「所宣稱之使用目的」,蒐集相關證據進行證明的科學探索歷程(吳毓瑩,2000)。

儘管效度對測驗的使用具有極大的重要性,卻無法直接測量,只能從各種證據 資料進行推估。效度推估的方式有很多,但不論何種方式都是效度證據蒐集過程的 一部分,最終還是得回到測驗的目的,針對其適用性進行解讀。1999 年版的《心 理及教育測驗規準》將效度的證據分為五大類:

(一) 測驗內容的證據(evidence based on test content):重要的效度證據可透過分析測 驗內容和測驗打算測量之構念的關係取得。測驗內容包含測驗的主題、遣詞用 字、題目形式、任務、測驗題目和指導手冊或施測說明的內容。研究者必須蒐 集邏輯和實證上的證據,確認測驗內容和測驗分數的解釋之間有充分的代表 性和關聯性。要評斷此類效度,專家審查是常用的方式,不論是傳統的測驗題 型還是實作評量,專家的判斷結果都是內容效度評斷的重要依據。

(二) 作答過程的證據(evidence based on response processes):對分析受試者的作答歷 程進行理論和實證分析可以提供證據,檢視受試者實際的反應或表現是否與 欲測量的心理構念是否吻合。此類證據的來源多是受試者的回答和受試者對

29

作答歷程的內省回饋。除此之外,作答草稿、修訂歷程、甚至眼動資料也是作 答歷程的效度證據。在需要多位評審計分的測驗中,評分者間對測驗分數解釋 的共識也屬於該類效度證據。

(三) 內部結構的證據(evidence based on internal structure):分析測驗的內部結構能 指出測驗各項目和測驗成分符合測驗分數解釋基礎的構念之程度。測驗可能 僅反映行為的單一面向,或反映好幾個看似同質卻又不同的面相。舉例而言,

測量健康不適的問卷應包含「身體健康」和「情緒健康」兩部分,試題間的相 關若能反映此兩個構念,則是效度的證據。探討內部結構有助於找出測驗之構 念 是 否符合 編制的 概 念和使用的目的 。 差 異性試題作用(differential item functioning)則可以顯現出試題對於不同群體的受測者是否有不同的作用。然 而,差異性試題作用並不總是壞事。只要和測驗預設的架構一致,且符合測驗 使用的目的,就是支持效度的證據。

(四) 與其他變項相關的證據(evidence based on relations to other variables):分析測驗 成績與測驗外部變項的相關是重要的效度證據。所謂「外部變項」不只包含測 驗預期測量能力的指標,也包括測驗分數與其他測驗(不論測量的是相似、相 關或不同的構念)的相關。除此之外,不只測驗成績可做為外部指標,工作表 現,甚至資格有無等類別變項也可以作為與測驗相關的外部指標。此類證據有 三個次分類:

1. 幅合及區辨效度的證據(convergent and discriminant evidence):測驗與測量相似 構念的工具間的相關提供「幅合效度」的證據;測驗與測量不同構念的工具間 的相關則提供「區辨效度」的證據。舉例而言,選擇題測量的閱讀能力分數應 與其他方式所測量的閱讀能力分數有較高的相關(幅合效度);與邏輯推理能力 的分數則有較低的相關(區辨效度)。除了相關分析的證據之外,實驗介入也是 幅合效度的證據。倘若經過實證支持的介入後,實驗組的分數有增加但對照組 的分數未增加,也是測驗具有效度的證據。

30

2. 測驗效標的證據(test-criterion relationships):效標是測驗使用者測量他們視為最 重要的特質或後果的測量手段。測驗與相關效標關係的證據有很多種呈現方式,

但最基本的問題是:「測驗分數對效標表現的預測程度」,而測驗需要準確預測 的程度取決於測驗使用的目的。值得注意的是,效標證據的價值和效標本身的 相關性、信效度及效標能有效解釋測驗使用目的的程度有重大影響。傳統上,

此類證據分成預測性研究(predictive study)及同時性研究(concurrent study)。前 者是測驗預測未來才能取得之效標的程度;後者則是測驗預測大致同時取得之 效標的程度。值得注意的是,某些測驗常被用來作為受試者分類依據,且不同 的分類結果會造成不同的介入效果,如機構內的不同職位或接受不同課程的班 級。在這種情況下,效度的證據必須考慮到「將受試者分類的適切性」。倘若 測驗分數和不同介入組的表現效標有不同的關係,則是支持分類決定的證據,

否則就算測驗分數和效標的相關很高,也不表示分類的決策恰當。一般而言,

分類的決定也會受到各類別可容納人數的影響。此外,與其他變項相關的證據 也被用來探討「不同族群(group)間有不同預測效果」的問題。假如不同族群間,

測驗分數和效標有不同的相關,表示測驗或效標對不同族群可能有不同的意義,

也可能是測量誤差所造成,尤其是族群平均數不同的時候。

3. 效度的概化(validity generalization):效度概化是指統計證據支持「測驗與效標 間的關係可類推至新的情境,無須進一步效度研究」的程度,這在教育和雇用 的情境下非常重要。就算是同一個測驗,預測的也是相同或類似的效標,只要 情境或時間改變,測驗與效標間的關係仍有很能大幅度改變。不過近年來許多 後設分析(meta-analysis)發現,這些變異的來源多來自統計或抽樣誤差,實際上 效度係數的變異性不大。因此,過去在相似情境所做的效度研究之統計摘要可 能在估計測驗與效標的關係上,提供有效的參考。值得注意的是,只有在有大 量後設分析資料,足以代表所要類化之情境的時候,效度概化才有意義。否則 若後設分析資料不足或情境差異過大,只能靠特定情境的分析來決定效度證據

31 是否充足。

(五) 測驗後果的證據(evidence based on consequences of testing):後果的證據對效度 的決策能提供許多訊息。要注意的是,「與社會政策有關的後果證據」並不在 效度的討論範圍之內。舉例而言,在某些社會決策(如特教生篩選)中,不同族 群(如性別、社經地位、居住區域)在測驗分類結果的差異常被提出來討論。儘 管有關測驗後果的訊息會對測驗很重要,但「不同族群分類後果不同」並不會 減損測驗本身解釋的效度。要從測驗的後果判斷測驗有無效度,就要追溯其來 源。倘若上述族群間的分類後果差異僅反映各組不同的真實能力,則測驗的效 度沒有問題;但若是族群間差異可歸因於測驗對於構念的涵蓋不完全,或涵蓋 了無關的概念,就是測驗缺乏效度的證據。換句話說,測驗後果的證據若無法 追溯,而反應了族群間有效的差異,則此證據對決策有幫助,卻非效度討論的 範圍。通常測驗的實施會有特定的目的,比如當作分組或篩選合格受試者的依 據,或是被當作激勵學習動機的工具。在這種情況下,測驗是否達成宣稱的效 益就是效度的重要證據。舉例而言,若測驗是學生班級分組安置的依據,有效 的證據就必須顯示不同安置結果對學生和學校有利。此外,除了分組或檢視學 習成果等「直接目的」,某些測驗宣稱擁有「直接用途以外的益處」,比如教育 測驗的提倡者認為,此類測驗能提升學生的動機、改善教室的教學,讓教師替 教學的成果負責。若這些「直接用途以外的益處」本身就是測驗被提倡的重要 基礎,檢視這些證據就很重要。

二、 資優鑑定效度的定義及測量的方法

就本研究而言,效度指的是語文資優鑑定的測驗內容和計分方式,能達成

「篩選語文科學習表現優秀學生」目的之程度。這裡所謂「語文科學習表現」是 指學生在接受鑑定後三年內的語文科成績和學習過程的行為表現,屬於「預測效 度」(predictive validity)的概念,參考指標除了在校成績、會考成績之外,還有教

32 師評定之行為評量表。

在效度的概念上,此研究共包含了「內部結構的證據」、「與其他變項相關的證 據」、「測驗後果的證據」兩大類,分述如下:

(一) 與其他變項相關的證據:在語文科考試當中,最適當的效標應該是命題嚴謹,

經標準化程序的會考語文科成績,其次則是包含段考成績和班級教師評定的

「在校語文科成績」。此外,有鑑於「語文資優」和「影響外語學習的因素」

中,個人特質也是很重要的一環,所以本研究也使用教師評定之行為量表《資 優行為觀察量表》之總分及「語文表達」分量表作為效標。研究者認為,語資 鑑定各測驗與語文科考試成績的相關理應較高,與教師所評定之資優行為量表 雖有相關,但程度較低。

(二) 測驗後果的證據:測驗的結果是否能達到所宣稱的篩選或分類的效果,是「測 驗後果的證據」所關心的。以語資鑑定考試而言,最重要的證據就是通過測驗 篩選者(分為通過初選、通過複選兩階段)和未通過者在各效標的表現是否有所 差異,且通過複選鑑定者表現優於僅通過初選鑑定者,僅通過初選者優於未過 初選者。此外,研究者也分析語資鑑定的各個測驗中,哪個測驗對「通過鑑定 與否」(即測驗後果)最有影響。在計分和切截標準方面,由於初選評量只要單 一測驗通過標準即可進入複選,爭議不大,故本研究僅針對複選評量進行討論。

(二) 測驗後果的證據:測驗的結果是否能達到所宣稱的篩選或分類的效果,是「測 驗後果的證據」所關心的。以語資鑑定考試而言,最重要的證據就是通過測驗 篩選者(分為通過初選、通過複選兩階段)和未通過者在各效標的表現是否有所 差異,且通過複選鑑定者表現優於僅通過初選鑑定者,僅通過初選者優於未過 初選者。此外,研究者也分析語資鑑定的各個測驗中,哪個測驗對「通過鑑定 與否」(即測驗後果)最有影響。在計分和切截標準方面,由於初選評量只要單 一測驗通過標準即可進入複選,爭議不大,故本研究僅針對複選評量進行討論。