效度的概念及研究方法

第二章文獻探討

第三節效度的概念及研究方法

本節分為「效度的意義及測量方式」和「資優鑑定效度的定義和測量方法」等兩個部分，先從測驗理論出發，介紹效度的定義和測量方式，再聚焦到資優鑑定的效度，提出本研究的效度測量方式。

一、效度的意義及測量方式

根據美國教育研究協會(AERA)、美國心理學會(APA)及國家教育測量委員會 (ACME)於 1999 年所編纂的《心理及教育測驗標準》(Standards for Educational and Psychological Testing)，效度指的是「證據和理論支持測驗成績詮釋其宣稱之用途 的程度」。效度是發展和評鑑測驗最基本的考量要件。重要的是，效度是一個整體的概念，以建構效度(construct validity)為核心，而是效度評估就是針對測驗是否符合「所宣稱之使用目的」，蒐集相關證據進行證明的科學探索歷程(吳毓瑩，2000)。

儘管效度對測驗的使用具有極大的重要性，卻無法直接測量，只能從各種證據資料進行推估。效度推估的方式有很多，但不論何種方式都是效度證據蒐集過程的一部分，最終還是得回到測驗的目的，針對其適用性進行解讀。1999 年版的《心理及教育測驗規準》將效度的證據分為五大類：

(一) 測驗內容的證據(evidence based on test content)：重要的效度證據可透過分析測驗內容和測驗打算測量之構念的關係取得。測驗內容包含測驗的主題、遣詞用字、題目形式、任務、測驗題目和指導手冊或施測說明的內容。研究者必須蒐集邏輯和實證上的證據，確認測驗內容和測驗分數的解釋之間有充分的代表性和關聯性。要評斷此類效度，專家審查是常用的方式，不論是傳統的測驗題型還是實作評量，專家的判斷結果都是內容效度評斷的重要依據。

(二) 作答過程的證據(evidence based on response processes)：對分析受試者的作答歷程進行理論和實證分析可以提供證據，檢視受試者實際的反應或表現是否與欲測量的心理構念是否吻合。此類證據的來源多是受試者的回答和受試者對

作答歷程的內省回饋。除此之外，作答草稿、修訂歷程、甚至眼動資料也是作答歷程的效度證據。在需要多位評審計分的測驗中，評分者間對測驗分數解釋的共識也屬於該類效度證據。

(三) 內部結構的證據(evidence based on internal structure)：分析測驗的內部結構能指出測驗各項目和測驗成分符合測驗分數解釋基礎的構念之程度。測驗可能僅反映行為的單一面向，或反映好幾個看似同質卻又不同的面相。舉例而言，

測量健康不適的問卷應包含「身體健康」和「情緒健康」兩部分，試題間的相關若能反映此兩個構念，則是效度的證據。探討內部結構有助於找出測驗之構念是否符合編制的概念和使用的目的。差異性試題作用(differential item functioning)則可以顯現出試題對於不同群體的受測者是否有不同的作用。然而，差異性試題作用並不總是壞事。只要和測驗預設的架構一致，且符合測驗使用的目的，就是支持效度的證據。

(四) 與其他變項相關的證據(evidence based on relations to other variables)：分析測驗成績與測驗外部變項的相關是重要的效度證據。所謂「外部變項」不只包含測驗預期測量能力的指標，也包括測驗分數與其他測驗(不論測量的是相似、相關或不同的構念)的相關。除此之外，不只測驗成績可做為外部指標，工作表現，甚至資格有無等類別變項也可以作為與測驗相關的外部指標。此類證據有三個次分類：

1. 幅合及區辨效度的證據(convergent and discriminant evidence)：測驗與測量相似構念的工具間的相關提供「幅合效度」的證據；測驗與測量不同構念的工具間的相關則提供「區辨效度」的證據。舉例而言，選擇題測量的閱讀能力分數應與其他方式所測量的閱讀能力分數有較高的相關(幅合效度)；與邏輯推理能力的分數則有較低的相關(區辨效度)。除了相關分析的證據之外，實驗介入也是幅合效度的證據。倘若經過實證支持的介入後，實驗組的分數有增加但對照組的分數未增加，也是測驗具有效度的證據。

2. 測驗效標的證據(test-criterion relationships)：效標是測驗使用者測量他們視為最重要的特質或後果的測量手段。測驗與相關效標關係的證據有很多種呈現方式，

但最基本的問題是：「測驗分數對效標表現的預測程度」，而測驗需要準確預測的程度取決於測驗使用的目的。值得注意的是，效標證據的價值和效標本身的相關性、信效度及效標能有效解釋測驗使用目的的程度有重大影響。傳統上，

此類證據分成預測性研究(predictive study)及同時性研究(concurrent study)。前者是測驗預測未來才能取得之效標的程度；後者則是測驗預測大致同時取得之效標的程度。值得注意的是，某些測驗常被用來作為受試者分類依據，且不同的分類結果會造成不同的介入效果，如機構內的不同職位或接受不同課程的班級。在這種情況下，效度的證據必須考慮到「將受試者分類的適切性」。倘若測驗分數和不同介入組的表現效標有不同的關係，則是支持分類決定的證據，

否則就算測驗分數和效標的相關很高，也不表示分類的決策恰當。一般而言，

分類的決定也會受到各類別可容納人數的影響。此外，與其他變項相關的證據也被用來探討「不同族群(group)間有不同預測效果」的問題。假如不同族群間，

測驗分數和效標有不同的相關，表示測驗或效標對不同族群可能有不同的意義，

也可能是測量誤差所造成，尤其是族群平均數不同的時候。

3. 效度的概化(validity generalization)：效度概化是指統計證據支持「測驗與效標間的關係可類推至新的情境，無須進一步效度研究」的程度，這在教育和雇用的情境下非常重要。就算是同一個測驗，預測的也是相同或類似的效標，只要情境或時間改變，測驗與效標間的關係仍有很能大幅度改變。不過近年來許多後設分析(meta-analysis)發現，這些變異的來源多來自統計或抽樣誤差，實際上效度係數的變異性不大。因此，過去在相似情境所做的效度研究之統計摘要可能在估計測驗與效標的關係上，提供有效的參考。值得注意的是，只有在有大量後設分析資料，足以代表所要類化之情境的時候，效度概化才有意義。否則若後設分析資料不足或情境差異過大，只能靠特定情境的分析來決定效度證據

31 是否充足。

(五) 測驗後果的證據(evidence based on consequences of testing)：後果的證據對效度的決策能提供許多訊息。要注意的是，「與社會政策有關的後果證據」並不在效度的討論範圍之內。舉例而言，在某些社會決策(如特教生篩選)中，不同族群(如性別、社經地位、居住區域)在測驗分類結果的差異常被提出來討論。儘管有關測驗後果的訊息會對測驗很重要，但「不同族群分類後果不同」並不會減損測驗本身解釋的效度。要從測驗的後果判斷測驗有無效度，就要追溯其來源。倘若上述族群間的分類後果差異僅反映各組不同的真實能力，則測驗的效度沒有問題；但若是族群間差異可歸因於測驗對於構念的涵蓋不完全，或涵蓋了無關的概念，就是測驗缺乏效度的證據。換句話說，測驗後果的證據若無法追溯，而反應了族群間有效的差異，則此證據對決策有幫助，卻非效度討論的範圍。通常測驗的實施會有特定的目的，比如當作分組或篩選合格受試者的依據，或是被當作激勵學習動機的工具。在這種情況下，測驗是否達成宣稱的效益就是效度的重要證據。舉例而言，若測驗是學生班級分組安置的依據，有效的證據就必須顯示不同安置結果對學生和學校有利。此外，除了分組或檢視學習成果等「直接目的」，某些測驗宣稱擁有「直接用途以外的益處」，比如教育測驗的提倡者認為，此類測驗能提升學生的動機、改善教室的教學，讓教師替教學的成果負責。若這些「直接用途以外的益處」本身就是測驗被提倡的重要基礎，檢視這些證據就很重要。

二、資優鑑定效度的定義及測量的方法

就本研究而言，效度指的是語文資優鑑定的測驗內容和計分方式，能達成

「篩選語文科學習表現優秀學生」目的之程度。這裡所謂「語文科學習表現」是指學生在接受鑑定後三年內的語文科成績和學習過程的行為表現，屬於「預測效度」(predictive validity)的概念，參考指標除了在校成績、會考成績之外，還有教

32 師評定之行為評量表。

在效度的概念上，此研究共包含了「內部結構的證據」、「與其他變項相關的證據」、「測驗後果的證據」兩大類，分述如下：

(一) 與其他變項相關的證據：在語文科考試當中，最適當的效標應該是命題嚴謹，

經標準化程序的會考語文科成績，其次則是包含段考成績和班級教師評定的

「在校語文科成績」。此外，有鑑於「語文資優」和「影響外語學習的因素」

中，個人特質也是很重要的一環，所以本研究也使用教師評定之行為量表《資優行為觀察量表》之總分及「語文表達」分量表作為效標。研究者認為，語資鑑定各測驗與語文科考試成績的相關理應較高，與教師所評定之資優行為量表雖有相關，但程度較低。

(二) 測驗後果的證據：測驗的結果是否能達到所宣稱的篩選或分類的效果，是「測驗後果的證據」所關心的。以語資鑑定考試而言，最重要的證據就是通過測驗篩選者(分為通過初選、通過複選兩階段)和未通過者在各效標的表現是否有所差異，且通過複選鑑定者表現優於僅通過初選鑑定者，僅通過初選者優於未過初選者。此外，研究者也分析語資鑑定的各個測驗中，哪個測驗對「通過鑑定與否」(即測驗後果)最有影響。在計分和切截標準方面，由於初選評量只要單一測驗通過標準即可進入複選，爭議不大，故本研究僅針對複選評量進行討論。

在文檔中新北市國中語文類學術性向資優鑑定工具之效度研究 (頁 42-48)

第二章 文獻探討

第三節 效度的概念及研究方法

第二章文獻探討

第三節效度的概念及研究方法