量表評量 - 量表發展與評量

2.5. 量表發展與評量

2.5.2. 量表評量

在量表評量方面，為提昇量表測量結果的有效性，並符合「客觀」與「標準」

的原則，一般統計測驗學者對於良好量表的評鑑依據考量有：測量分數的成分、

效度評量、信度評量、信度與效度的關係，分述如下：

2.5.2.1. 測量分數的成分

量表測得分數的成分，將有助於區分效度與信度的差異。在最理想的狀況下，一份好的量表所測得之分數，應該只測到真實分數(true score)。但事實上不太可能做得到，亦即量表所測得的分數中，部分含有其他非真實分數的成分。依理論可將測得的分數(O)化為公式：O = T + S + R。「T (true score)表示真實分數，

S (systematic error) 表示系統性誤差，R (random error) 表示隨機誤差」(Burns &

Grove, 2001)。

上述公式表示真實測得的分數，包括欲測量概念之真實分數(T)、系統性誤差(S)以及隨機因素所造成的隨機誤差(R)。所謂系統性誤差是一種恆定干擾者所產生的誤差，例如：以愉悅程度量表來測量所有遊戲玩家(學習者)在數位學習遊戲中的愉悅程度，受測者希望儘可能在最短的時間內填完量表的所有題目等；而隨機誤差則可歸因於受測者因短暫且無規則、不可預測之因素影響所產生的誤差，例如：受測者身體不適、偶然地提供了不實資訊或計分錯誤等(Burns & Grove, 2001)。系統性誤差會影響測試結果正確性及可用性的程度，而隨機誤差則會影響測試結果一致性與穩定性(邱皓政，2003)。

2.5.2.2. 效度評量

效度(validity)係指一項測驗是否能真實而正確地測量出所欲測量的特質或概念；簡言之，效度即在說明一份量表「能測到什麼」及「測得有多好」(DeVellis, 1999)。有專家指出，研究者常因某種理論或目的，需用量表來評估受試者的心理特質，而這些目的是否達到，須視測試量表的效度高低(邱皓政，2003)。在測得分數中(O)，當隨機誤差越小，表示真實分數越高，效度就越高(Burns & Grove, 2001)。因此，效度可說是一份良好的量表所應當具備的眾多條件中，最為重要的特性。美國教育研究學會將效度概約分為內容效度(content validity)、建構效度 (construct validity)與效標關聯效度(criterion-related validity)三項(Burns & Grove, 2001)。分述如下：

1、內容效度

內容效度是指測試內容的代表性或內容選取的適切性(邱皓政，2003)。內容效度與其他效度不同，不是由一係數來代表效度高低，主要是根據量表編製者依所要測量之概念，採用邏輯分析方法進行專業判斷，相當重視試題的編製及預試過程。因此一般為提高內容效度，將透過多位專家或受測樣本的個別訪談與量表預試，以質量分析之方式尋求適切的內容(Burns & Grove, 2001)。本研究於量表發展過程，針對量表的測量目的及內容，透過與指導教授的討論並由指導教授擔任內容效度的審查人員，進行量表試題內容的評估，以了解量表內容廣度的適切程度。

2、建構效度

建構效度是指量表是否能測量到某一理論上的特質或概念的程度(邱皓政，

2003)。所謂建構(construct)是一種理論性的概念，用來代表心理上較抽象的特質或概念，諸如：資訊、壓力來源、動機等。如果量表有良好的建構效度，

它所測得的分數即可真實的反應受試者的心理特質，量表使用者即可對所測得之結果加以詮釋。建構效度的考驗方法並沒有單一的適當方法，它需從許多不同的資料來源中，逐漸累積證據。最常提及的建構效度評量技術有兩種：

一是多元特質多重方法分析，另一是因素分析法(DeVellis, 1999)。

Campbell 和 Fiske 在 1959 年設計的多元特質多重方法矩陣法 (multitrait-multimethod matrix，MTMM)是用來考驗量表的分殊效度(divergent validity)及聚斂效度(convergent validity)，判斷原理為：當量表的分數與測量不同概念的其它量表分數具有低相關性時，表示此量表之分殊效度佳；量表的分數與測量相同概念的其它測驗分數具有高相關性時，表示此量表之聚斂效度佳(林幸台，1986)。

另一考驗建構效度的方法為因素分析(factor analysis)，因素分析是為了要證實研究者所設計之試題，的確在測某一潛在概念，並釐清潛在概念的內在結構，

它是將一群具有共同特性之試題，抽離出其背後潛在概念的統計分析技術，

其主要功能有三：第一，協助量表研究者進行信效度的驗證。第二，提供一種簡化資料結構的方法，將量表中原來含有很多變數的潛在概念，盡可能予以歸併進而只呈現出少數之因素(factor)或共同特質(common traits)，亦即以受測者對試題的作答方向作歸類，以簡化描述概念時所使用的類別數目。第三、

因素分析能用來協助試題的編製，進行項目分析，檢驗試題的優劣好壞，同時針對每一試題的獨特性進行測量並比較相對的重要性(邱皓政，2003)。

因素分析是以變數之間的共變關係作為分析的依據，學者邱皓政(2003)認為進行因素分析須確認的條件有三：(1)變項都必須是連續變項，符合線性關係的假設。(2)抽樣的過程必須具有一定的規模或隨機。(3)變項之間須具有一定程度的相關，通常相關係數低於0.3時，不建議進行因素分析。以上學者所提進行因素分析的條件問題，可透過球形檢定(Bartlett’s test of Sphericity)的顯著性，來檢驗是否相關係數足以作為抽取因素之用，或以KMO (Kaiser-Meyer-Olkin)統計量0.7以上的判定原理，來檢驗進行因素分析的適合性(陳正昌 & 程炳林，2002)。

另外，有學者建議每個共同因素至少要由三到五個問項組成(MacCallum et al., 1999)。在因素負荷量方面，Gorsuch(1983)指出當問項在因素上的負荷量高時，問項的共同性指數也就較高，隨之誤差的影響即會減少，因此較容易得到正確的因素數目(邱皓政，2003)。總而言之，樣本人數、每因素中的問項數目、因素數目、轉軸方法與因素負荷量均會影響因素分析結果(王嘉寧 &

翁儷禎，2002)。

3、效標關聯效度

效標關聯效度(criterion-related validity)又稱實證效度(empirical validity)或統計效度(statistical validity)，是實用性最高的效度，係以量表測驗分數和特定效標(validity criterion)之間的相關係數，表示測量工具有效性之高低，研究者可透過文獻的證據作為選用效標(criterion)的基礎，效標的選用可作為測量分數有效性與意義度的參照標準，測量的效標如果是在測量的同時獲得的數據稱之為同時效度(concurrent validity)。另外，預測效度(predictive validity)是指在測量完成後再收集的效標資料(邱皓政，2003；林幸台，1986)。本研究在查證相關文獻後選用「整體愉悅感受」視覺類比量表為效標並於測量時同時獲得，以做為測量分數有效性與意義度的參照標準。

2.5.2.3. 信度評量

信度(reliability)即可靠性，係指量表結果的一致性與穩定性，代表一量表在測量某種概念的可信程度(DeVellis, 1999)。而項目分析(item analysis)是量表編製過程中，第一個與資料分析發生關係的工作，目的在確認量表題目的可用程度，

必要時得將不良的題目予以刪除(邱皓政，2003)。項目分析涉及多種統計數據或指標的判別，因此在資料分析運作上，佔有相當重要的地位，其中以「題目總分相關法」的相關分析技術是項目分析中最常使用的判別標準，一般要求每一個題目與總分的簡單積差相關係數在0.3以上(陳正昌 & 程炳林，2002)。除了以項目分析作個別試題確認外，整套量表的一致性與穩定性也應當藉由信度來檢驗。

信度通常以相關係數表示，在計算過程上由於總變異量獲得方式與來源有所不同，故各種信度係數分別說明信度的不同層面且具有不同的意義。信度的類型包括：內在一致性信度(internal consistence reliability) ，再測信度 (test-retest reliability)，複本信度(alternate-form reliability)及折半信度(split-half reliability) (邱皓政，2003)。依本研究之量表建構方式考量，信度測試程序是考驗量表的內在一致性與穩定性，分述如下：

1、內在一致性

內在一致性 α 係數、庫李信度及折半信度，皆可稱之為內在一致性係數 (coefficient of internal consistency)，數據結果所反應的是測量工具內部的同質性與一致性。其中「α 係數」與「庫李信度」是一種直接分析題目間的一致性(inter consistency)或相關程度的信度指標(邱皓政，2003)。本研究量表發展係以受測者在所有試題的反應一致性來估計信度，是為內在一致性法(internal consistence) (Burns & Grove, 2001)。統計上內在一致性係數(α 係數)是根據一次測量結果，評量受試者在試題上表現的一致性，α 係數應介於 0.7 至 0.8 間，

若低於 0.35 則應做試題修改(邱皓政，2003)。折半信度是在一種測驗沒有複本且只能實施一次的情況下試用，係在測驗實施後將題目平均分成兩組，分開計分，求得這兩組題目之分數的相關係數，並使用史布公式 (Spearman-Brown formula) 加以校正，即可計算量表的信度 (Waltz et al., 1991)。另外，庫李信度則適用於計分非對即錯的量表測試(陳正昌 & 程炳林，2002)。

2、穩定性

穩定性的考驗係以兩次測量結果之相關程度來表示，有再測信度及複本信度兩種。其中「再測信度」是一種以兩個分數計算信度的方法，係指以同一量表，對同一群測試者前後測試兩次，並以兩次的分數之相關係數做為再測信度的指標，說明量表所獲得之分數從一時間維持至另一時間點的一致性如何 (DeVellis, 1999)。其中總變異來源是受試者在兩次測量上得分差距的變異，

(邱皓政，2003)。而另一種「複本信度」是在原量表之外另編一種在內容、

型式、題數和難度均相同，但題目文字不同之量表作複本，並以此兩種量表測量相同對象，然後求得兩種量表分數的相關係數(Waltz et al., 1991)。

2.5.2.4. 信度與效度的關係

信度與效度的關聯性，可藉由量表測得的分數來說明。真實測得的分數(O)，

包括真實分數(T)、系統性誤差(S)及隨機誤差(R)，即O = T + S + R。影響效度的是系統性誤差及隨機誤差的大小，而影響信度是隨機誤差的大小。當系統性誤差及隨機誤差減少時，真實分數相對增加，故效度高必然使信度也提高。當隨機誤差減少時，未必表示系統性誤差亦會隨之減少，因為系統性誤差是獨立於信度外的未知數，由上述可知，從信度並無法估計效度，故信度為效度之必要條件 (necessary)而非充分條件(sufficient)(Burns & Grove, 2001)。如果項目分析與信度考驗是量表發展最根本的一項工作，效度即是充實量表發展之內涵的檢驗技術 (邱皓政，2003)。

綜合上述文獻查證，本研究於量表發展部分，採用DeVellis所提出之量表發

在文檔中 2. 文獻探討 (頁 27-31)