• 沒有找到結果。

項目反應理論看試題的心理特性的應用

第二章 文獻查證

第五節 項目反應理論看試題的心理特性的應用

項目反應理論(item response theory, IRT)乃因應過去古典測量理論 (classical test theory, CTT)的限制而發展出來86-88。過去CTT的缺點在於(i)無 法將受測者表現特徵和題目的表現特徵分開看,受測者的能力就是等於題目 的得分,而在IRT之中,題目參數與潛在能力間是獨立的。(ii)過去我們知道,

同一個人,做不同份難度不一的問題,得分當然可能有所不同,表面上的得 分看似程度有差異,但實際上都是同一個人的程度,而在CTT無法解決因問 卷不同,而造成表面上程度的差異,IRT模式的表現是從觀察題目反應層級,

而不是從測驗分數反應(加總後的分數)的層級,(iii)經由IRT所提供的訊息 可以用來評估每一個題目對於所測量概念的貢獻,(iv)可用在偵測不同次族 群(subgroups)間的試題差別功能(differential item functioning, DIF)或題 目偏差,(v)可用來產生簡短,複本及特定形式的問卷,並且(vi)儘管研究對 象回答不同的問卷也可以將研究對象的分數等化(equating)89

IRT分析可以提供的檢驗量表的心理特性和量表的品質,IRT提供一個 數學的基礎來代替傳統的方法,將量表的序位資料轉換為等距資料,並且提 供有關這些資料是否有達到測量被接受的指標。

這樣的分析可以提供量表的訊息量有:這個活動力是否適配這個潛在特 性?訪員如何使用這個量表?這一系列的活動(試題)是否可以定義在這個 潛在特性之中

所以項目反應理論不僅提供一個數學的基礎來代替傳統的方法,並且當 其他非心理學者努力地將他們的研究概念化成可操作的測量時,他們可以很 容易地了解,但是實證調查需要有一個明確的理論架構作為基礎並據以檢驗 找出適當模式整合,而不是任意找一個進階的模式來處理就可以了40,因應

以上的優點項目反應理論現在已被廣泛地用在主觀的健康測量上90

Wang 等利用多向度 Rasch 模式調整 WHOQOL-BREF 各範疇的相關性分 析台灣國民健康局之國民健康調查資料庫,來評估建構效度並且改善問卷的 信度及估計的精確度91。DIF 分析被用來評估模式-資料的適合度,在不同 性別及年齡分層間題目難度是否會有顯著的不同,當不同分群中題目難度的 估計值最大差距大於0.5 時表示有 DIF91

本研究,使用項目反應理論中的試題困難度來看不同收樣模式間的試題 困難度表現與適配度指標,另外,我們也用試題差別功能分析看不同收樣模 式的造成同一族群差異的心理特質。

在過去,也有研究做過問卷跨文化時,比較其心理特性差異,其中就使 用Rasch分析中的DIF功能,比較兩組在同一族群的人,使用荷蘭板和英文版 的差異92

近年來,有相當多的研究報告使用IRT 的方式來測試跨文化的問卷試 題,不在拘泥在問卷傳統信、效度的特質,而是將試題等化,各個題目擁有 不同的困難度,以往古典測驗理論是沒有辦法將試題區別開來。

即使對什麼樣的DIF 的定義才較適當?也有很多爭辯存在。目前有個 關於測驗公平性問題的看法認為:「在某個試題上,如果多數族群和少數族 群的平均表現有所不同的話,該試題便顯示出具有DIF 的現象。」其實,

這種看法也有個缺失,那就是未考慮其他影響變項的可能性,如:原本這兩 個族群的能力就有所不同,因此才導致他們在某個試題(或某份測驗)上表 現不同。

目前,比較被心理計量學者所接受的DIF 的定義為:「來自不同族群,

但能力相同的個人,如果在答對某個試題上的機率有所不同的話,則該試題 便顯現出DIF 的現象。」有了這項定義,試題反應理論(IRT)很自然的提供

一個研究DIF 的架構,因為試題特徵函數正可以說明答對某個試題的機率,

是與受試者的潛在能力和試題的潛在特徵有某種關聯存在。因此,DIF 的定 義可以被寫成下列的操作型定義:「某個試題特徵函數如果對不同的族群而 言都不相同的話,則該試題便顯現出DIF;反之,如果跨越不同族群的試題 特徵函數都相同的話,則該試題便不具有DIF。」本文即談論試題反應理論 對診斷試題偏差(或說試題DIF)的各種方法,並舉例說明它的用法。

許多的跨文化研究更應用項目反應理論來看其相等性。Roorda將英文版 的Western Ontario and McMaster Universities osteoarthritis index (WOMAC) 問卷翻譯成荷蘭版後,除了用傳統方法看其信效度外,也使用項目反應理論 看其跨文化轉譯後的問卷,看荷蘭版試題的適合度指標是否仍符合原版問卷 單一向度的假設,並進一步再比較英文版與荷蘭版的DIF情形,來檢查在不 同的語言對同一族群,題目的重要性是否有顯著不同92

現今DIF功能大多用在跨文化的量表研究比較相等性當中,鮮少用DIF 功能來看收樣管理模式之間的差異,在過去,多用傳統理論(cronbach alpha, internal consistent reliability , factor analysis),未曾有過用探討心理特質的項 目反應理論來比較收樣模式間的差異。

相關文件