測驗工具的信效度與其在創造力測驗的應用

第二章文獻探討

第二節測驗工具的信效度與其在創造力測驗的應用

驗本身得知，還需要經歷嚴謹的科學實證。為了瞭解一份測驗是否能穩定且有效測量一項能力或特質，務必檢視其信效度方能得到答案。

而本研究以建立信度與效度為研究目標，研究者本人亦需要先了解各種類信效度的內涵與其數值意義，在相關的文獻閱讀上才能有所理解。

以下將分成兩小節說明，依序為測驗工具的信度與效度內涵與創造力測驗的信效度應用。

一、測驗工具的信度與效度

（一）信度

信度是指測驗的穩定與一致性，若在不同人事時地物的環境下施測與計分，測驗分數的結果都相同，表示此測驗測量誤差極小，信度良好。標準化測驗常使用的信度評估類型有四種，分別為再測信度、複本信度、內部一致性信度和評分者信度（王文中、呂金燮、吳毓瑩、張郁雯、張淑慧，2005；余民寧，2012；陳柏熹，2011；葉重新，2010）。

以下將逐一介紹不同類型的信度評估方式。

1.再測信度

用途為確認測驗結果的時間穩定性，意即同測驗在歷經一段時間後施測第二次，其結果有無改變，若沒有改變則表示再測信度良好，但並不是每一項測驗都適合使用再測信度，若欲測量的目標能力在短時間內容易改變，如認知和情意測驗，則較不適用此方法。

2.複本信度

用途為確認內容取樣的穩定性，意即利用測量相同能力與相同難易度的複本測驗，對同一群受試者在近乎相同的時間施測，若兩測驗分數相關係數愈高，則表示複本信度愈好。

3.內部一致性信度

用途為確認所有測驗題目的相關程度，若某測驗的題目旨在測量同一項能力或特質，理論上該測驗的每一測驗分數相關性應當要高，

如此表示該測驗有良好的內部一致性信度。檢驗內部一致信的方法有三，一為折半法，作法為將測量同一特質或能力的題目總數平分成兩等份，其後對受試者施測兩份題目，將兩份題目的分數進行相關係數分析，若相關係數高則表示內部一致性良好。第二種方法為使用庫里

（Ku-Ri）公式，但庫里公式只適用於二元計分的測驗，並不適用選項超過兩者以上的對象。第三種方法為 α 係數，由於 α 係數公式是由 Cronbach 所發明，因此亦被稱為 Cronbach’s α ，其公式是由庫里 20 號所演進，與前者最大的差異為 Cronbach’s α 適用於多元計分的測驗，

意即選項超過兩個以上，故 Cronbach’s α 在心理測驗上更廣被使用。

4.評分者信度

用途為確認多位評分者的評分一致性，當測驗無標準答案和需要多位評分員時適用，可再細分為評分者間一致性與評分者內一致性，

評分者間一致性是指不同評分者對同一受試者評分的分數是否相同，

評分者內一致性是指同一評分者對不同受試者的評分是否依照受試者的反應給予相符的分數。

（二）效度

效度是指能否準確測量到欲測量的能力或特質，若某測驗的分數能確實反應欲測量的能力，則表示該測驗效度良好。標準化測驗常使用的效度評估類型有三種，分別為內容效度、建構效度與效標關聯效度（王文中等人，2005；余民寧，2012；陳柏熹，2011；葉重新，2010）。

以下將逐一介紹不同類型的效度評估方式。

1.內容效度

旨在檢視測驗的題目內容是否與欲測量的能力相符，為確認上述

條件，研究者通常會請多位測驗相關的專家來檢視測驗題目，以確保題目能確實反應欲測量的能力，此種方法稱之為專家效度。專家效度雖具有理性與邏輯的檢驗方式，但無法被量化和客觀程度易遭質疑是其缺點，於是另有學者發展出計算內容效度係數的方法，將每一試題的專家評分進行統計，求出平均每一題的平均專家評分，其係數愈高代表內容效度愈好。

2. 效標關聯效度

旨在檢視測驗分數與效標的相關程度，當測驗有決策的用途時會採用此效度檢驗。效標關聯效度也稱為統計效度與和經驗效度，所謂效標是指外在的行為指標或決策結果，通常為另一具有良好信效度的測驗。效標關聯效度可分為同時效度與預測效度，同時效度是指某測驗與同時段獲得的效標之相關程度；預測效度是指利用某測驗分數或結果預測受試者未來在效標的表現，該測驗與效標的相關程度越高，

預測效度越好。

3.建構效度

旨在建立測驗的理論架構，由於社會科學領域有許多抽象概念使其在測量上僅能透過間接的方式呈現，因此研究者會透過理論建構的方式描述抽象概念與外顯行為的關聯，再從所蒐集的理論中找尋合適的行為指標，並找出欲測量的抽象概念與其他概念的關係。由於檢驗建構效度的方法諸多，以下將分點說明現行研究較廣為使用的檢驗方法。

(1)內部一致性分析

與效標關聯效度概念相似，但將效標置換為該測驗的總分，此方法可再區分為相關分析法與團體對照法，前者的作法將每項題目得分與總分進行相關係數的考驗，若總分是由分測驗加總組成則是將分測驗與總分進行相關係數考驗；後者則是依測驗總分將樣本劃分為低分

組與高分組，兩組個別題目的答對率進行比較，若該題目高分組答對率顯著高於低分組，則表示該題目內部一致性良好。

(2)外在效標分析

與效標關聯效度的作法相同，但此方法的效標必須是依照理論架構而選定。此方法如同內部一致性分析，也可分為相關分析法與團體對照法，操作方式如同前段敘述。

(3)因素分析

是在社會科學上檢驗建構效度的重要方法，用途為確認理論架構中的因素是由測驗裡哪些特定題目而組成，根據研究者之研究目的可再分為兩種因素分析方式，一為探索性因素分析，當研究者沒有預設立場及不確定某一能力或特質是由什麼因素所構成時則適用此方法；

二為驗證性因素分析，當研究者對於理論已有假設的因素和架構時即使用此方法檢驗，而驗證性因素分析更被多數學者所使用，並且成為多項統計模式的方法學，是檢驗建構效度的主流方式之一。

(4)多特質－多方法取向

當建構效度檢驗的對象有大於等於兩種特質且有大於等於兩種的測量方法時則適合使用此方法。多特質－多方法分析是由兩種效度所構成，一為聚斂效度，指該測驗和相同理論架構的測驗兩者之分數必需擁有高的相關性；二為區別效度，與聚斂效度相反，是指該測驗和不同理論架構與測量不同特質的測驗應僅有低相關或零相關。一份測驗須同時通過以上兩種效度考驗才可判定該測驗擁有良好的建構效度。

(5)結構方程式模型（Structural Equation Modeling，簡稱 SEM）

為當代研究大量運用的建構效度分析方式，SEM 將諸多統計方法匯合，前述的因素分析與多特質－多方法在 SEM 的檢驗中都會囊括，

其用途與因素分析相似，可用來建立描述變項關係的模型以提出理論

架構，或驗證已有的理論架構是否正確，尤以後者為目的之使用佔極大多數。

以上僅探討測驗工具使用的信度與效度類別，但是創造力測驗使用的信效度是否涵蓋上述所有的檢驗類型，抑或者創造力測驗有其較合適的信效度種類，將在下小節討論之。

二、創造力測驗的信效度應用

Runco 和 Acar（2012）認為 CAP 和 TTCT 此類擴散性思考測驗最適合使用的信度檢驗類別為評分者間一致性與內部一致性，效度方面則以效標關聯效度中的預測效度和建構效度中的區辨效度為佳；而特質和傾向方面以自陳量表為主的測驗工具多數使用內部一致性信度和效標關聯效度中的同時效度（Silvia, Wigert, Reiter-Palmon, & Kaufman, 2012）。除了上述的信效度種類，國內外創造力測驗的信效度應用和其檢驗結果對本研究亦有參考價值，尤其國外有大量研究以 TTCT 為測量創造力的主要工具，其信效度的分析與批判為數眾多，以下將依序探討國外 TTCT 的信效度和國內標準化創造力測驗的信效度。

（一）陶倫斯創造思考測驗的信效度

陶倫斯創造思考測驗（Torrance Tests of Creative Thinking，簡稱 TTCT）為美國最廣泛使用的標準化創造力測驗，且全球有超過 35 個國家將 TTCT 翻譯和修訂作為其國內研究之工具（Millar, 2002），信效度經過重重檢視，其在美國的信效度考驗歷程如下。

信度方面，1966 年與 1974 年的 TTCT 指導手冊顯示其重測信度為.50 至.93 之間，並不是很好，但 Torrance 表示測驗時的動機因素可能對創造能力有所影響，導致重測信度低下。1990 年的 TTCT 圖形測驗指導手冊顯示其評分者間一致性信度大於.90，表示不同評分者的評分結果有很高的正相關；1998 年的 TTCT 圖形測驗指導手冊顯示該測驗利用庫李信度 21 號公式（kuder-richardson formula 21）檢驗六項創

造力指標的內部一致性，其信度為.89 至.94 間，表示測驗的內部一致性良好，受試者在同一指標的題目內作答方向性一致（Kim, 2006a）。

效度方面，TTCT 的效標關聯效度分析如下。效標關聯效度的同時效度中，Gonzales 和 Campos（1997）將基本心理能力測驗（Primary Mental Abilities Test, PMAT）的空間導向（spatial orientation）分測驗分數和 Gordon 視覺圖像控制測驗（Gordon Test of Visual Imagery Control, Gordon TVIC）作為 TTCT 的效標，結果顯示智商大於 120 的受試者在同儕提名更具有預測效度（Kim, 2006a；Torrance, 1972）。

Torrance（1972）追蹤 236 所高中學生，以間隔 12 年後的創造成

在文檔中威廉斯創造力測驗修訂版信效度之研究 (頁 20-28)

第二章 文獻探討

第二節 測驗工具的信效度與其在創造力測驗的應用

第二章文獻探討

第二節測驗工具的信效度與其在創造力測驗的應用