預試量表信效度與 Rasch 分析

第四章研究結果

第一節預試量表信效度與 Rasch 分析

在本研究中，運用 Mplus3.0 軟體進行驗證性因素分析(confirmatory factor analysis, CFA)，CFA 的目的則在檢驗研究者所提出的理論模式是否可以透過研究過程所蒐集得到的資料來獲得證實。當理論模式與觀察資料十分吻合時，我們將可宣稱理論模式與實際資料達到吻合的狀態，用以考驗此份預試量表的整體效度；並透過 ConQuest 軟體對預試量表中各分量表進行 Rasch 模式檢驗。將預試的分析結果，排除品質較不良的試題，取決試題品質優劣的標準為：模式量表適合度、模式試題的適合度以及是否含有 DIF 試題。一般大學常包含多個核心能力，因此較不適宜在每個分量表中保留過多的試題，如：大學生填答教學滿意度量表時，也大約在 10 道試題左右。因此，本研究的正式量表以 10 道試題作為最終版本。

壹、預試量表的效度

透過 Mplus3.0 進行驗證性因素分析，此為測量效度最常用方法。本次研究將參考非基準的配合指標，用以測量模式適配改進比率的程度，即 TuckerLewis 指標（TLI）作為評估驗證性因素分析的適合度。Heck & Thomas（2000）建議當 TLI（>.90）時，表示該模式越能與建構效度相符合。從預試資料分析結果得知 TLI 值為 0.862，與整體模式適配度的標準值相比，稍微低出標準值範圍。

依據預試量表的效度分析結果，雖不盡理想，但與標準值相差不遠，以下將進行 Rasch 模式檢驗及 DIF 考檢核，刪除不良試題，應可提升量表的效度。

貳、RSM 的結果分析與比較

預試量表的分析結果將進行 Rasch 分析中的 RSM 模式，以信度、模式適合度，並考量試題難度估計值及進行差異試題功能(differential item functionin g, DIF) 分析，作為正式量表選題依據。預試量表受試者人數為 279 人、題數為 25 題，

預試分析結果分別列於表 1 與表 2。

一、信度：

本研究中，採用條件信度（conditional reliability; Raju, Price, Oshima & Nering, 2007），也就是個人化的信度。原理係計算出所有受試者的能力估計值的變異數與每個受試者能力估計標準誤的平方，計算出每個受試者的個別信度，並再將所有受試者所得的信度求其平均值，亦即為平均信度，即為本次研究中量表的信度估計。本次預試量表，所得到的信度值為 0.91，信度值表現極佳，代表著本次預試測驗結果的可靠性與一致性。

二、模式適合度比較：

本研究中採用 RSM 模式進行分析，因 RSM 具有等距且客觀的特點，較適合用於評等量表中；在此模式下，總共估計 29 個參數，其中包括 25 個試題難度參數、受試者能力分配變異數及 3 個階難度參數。在適合度檢驗方面，常用的是均方誤（mean square error, MNSQ）或加權均方誤（weighted mean square error, MNSQ）適配統計量兩種。均方誤是指將所有作答者在該題的標準化殘差之平方和除以作答人數；加權均方誤是將所有作答者在該題的標準化殘差之平方以其變異數加權後再加總，最後再除以作答人數。依據 Linacre 及 Wright（1994）的看法，對於評定量尺而言，MNSQ 的值以 0.6～1.4 之間是合理可接受的範圍，即受試者在此試題的作答反應結果符合模式預期，即表示該試題與該向度是吻合的。

因研究中並未考慮極端值影響，因此選擇均方誤作為適配統計量。表 1 顯示在 RSM 模式下參數估計值與試題適配度，依據結果顯示，預試量表 25 道試題中，

有 3 道試題高於適配合理範圍值，即試題 1 （1.83）、試題 2 （1.67）、試題 23 （1.68）。三、各試題難度估計值比較：

在 RSM 的分析中，其試題難度的估計值界於1.090 ~ 0.274 之間，除試題 2

（0.274）難度最難之外，其餘試題難度值大多低於 0，即表示試題難度偏易，而以試題 6（1.090）難度最低。

表 1 RSM 的參數估計值與試題適配度：大學生美感品味能力預試量表試題 ESTIMATE ERROR MNSQ(未加權) MNSQ(加權)

1 0.782 0.07 1.83 1.72 10 0.455 0.07 0.72 0.75 11 0.579 0.07 0.65 0.64 12 0.227 0.07 0.71 0.77 13 1.023 0.08 1.12 1.15 14 0.663 0.07 0.73 0.72 15 0.553 0.07 0.80 0.81 16 0.227 0.07 0.88 0.92 17 0.626 0.07 0.97 1 18 0.145 0.07 0.95 0.97 19 0.276 0.07 0.69 0.71 20 0.281 0.07 0.69 0.77 21 0.212 0.07 1.16 1.12 22 0.594 0.07 1.14 1.08 23 0.866 0.08 1.68 1.59 24 0.092 0.07 0.73 0.74 25 0.345 0.07 1.36 1.43

四、差異試題功能分析

一份測驗經常會進行多群體間的比較（如性別、種族差異），此時必須確定該份測驗對於不同群體，所測量的概念是否一致。倘若該道試題在做答反應上明顯出現有利或不利情形，此時，我們便稱該道試題具有「差異試題功能」。本研究利用 ConQuest 軟體進行性別 DIF 分析，將受試者區分為兩個群體，即男生與女生，檢核各試題是否因受性別影響而導致 DIF 存在。

透過 ConQuest 軟體，可計算出每題 DIF 量的全距，Wang（2008）在研究中提及若全距量小於 0.5 （即 0.5 個 logits），代表此題無 DIF 存在。若以第一題為例：

男生的 DIF 值為 0.03，女生的 DIF 值為0.03，求得兩者之間的全距為 0.06，全距量小於 0.5（即 0.5 個 logits），便代表此試題不具有 DIF；若全距量大於 0.5（即 0.5 個 logits），則代表此試題具有 DIF，為品質不良試題，應予以刪除。表 2 表示性別 DIF 參數估計值的結果，由表中結果顯示本研究的預試量表中 25 道試題，

全距量皆小於 0.5 個 logits，即代表整份預試量表皆沒有 DIF 試題。

表 2 性別 DIF 參數估計值：大學生美感品味能力預試量表

個核心能力，因此較不適宜在每個分量表中保留過多的試題。因此，本研究的正式量表以 10 道試題作為最終版本。

透過模式試題適合度中的 MNSQ 值，可以發現試題 1、試題 2 及試題 23 量表較不適配；並將所有試題進行 DIF 檢核後，結果顯示此份預試量表並未有 DIF 試題；並從各道試題難易度作為判斷保留正式試題依據時，且須配合涵蓋各分量表中的子向度。

分量表一「認知與察覺」，包含四個子向度，試題 4 為測量第一個子向度試題，其難度值為0.410 且 DIF 量為 0.06，故保留此試題作為第一個子向度試題。

第二子向度中，包含試題 6 與試題 7，因試題 6 為整份預試量表中難度值最低，

具代表性，故保留試題 6。試題 3 及試題 5 皆在測量第三個子向度，此兩題難度值分別為0.958、0.481，DIF 量為 0.12、0.08，為了平衡該分量表的難易度，故此子向度選擇保留難度值較低的試題 3。第四個子向度中含試題 1 與試題 2，雖因兩題 MNSQ 值並未與此分量表達到適配，但因考量試題 2 在整份試題中難度值最高且透過質性分析後，該試題較符合子向度的行為指標-察覺地方藝術文化，故此向度保留試題 2。本分量表一共保留 4 道試題，試題 2、試題 3、試題 4 與試題 6。

分量表二「探索與審美」，一共包含三個子向度。第一子向度為試題 8 與試題 11，其試題難度為0.440、0.579，因考量難度因素，故保留難度值適中的試題 11。第二子向度行為指標內涵為藝文資訊的獲得，代表試題為試題 12 與試題 16，

其難度值皆為0.227、0.227，DIF 值為 1、0.08，選擇保留 DIF 量較小的試題 16 做為該向度試題。第三子向度，包含試題 9、試題 10、試題 13、試題 14 與試題 15，其試題難度為0.355、0.455、1.023、0.663、0.553，為了平衡分量表的難易度且透過質性分析試題，試題 13「參與藝文活動時我會注意應有的儀態，如：

儀容、舉止、聲音、服裝」較能涵蓋該向度的行為指標，故此子向度保留難度值

分量表三「實踐與應用」，一共包含三個子向度。第一個子向度為試題 17、

試題 18 與試題 24，其難度值分別為0.626、0.145、0.092，故此向度選擇保留試題難度值適中的試題 18 作為該向度試題。第二個子向度為試題 19、試題 20、

試題 21 與試題 22 四題，其難度值為0.276、-0.281、0.212、0.594，DIF 量為 0.06、

0.04、0.08、0.12，因此選擇保留難度值較低且考量 DIF 量，故決定保留試題 20 作為第二子向度的試題。在第三子向度中，行為指標為能美化生活空間，其涵蓋的試題有試題 23 與試題 25 ，而其試題難度值為0.866 、0.345 ，因試題 23 的 MNSQ 值高於合理範圍值，透過質性檢視試題，試題 25「我會美化自己的生活空間」較試題 23「我會留意自己的服裝儀容及生活環境，讓他人覺得乾淨整潔」更能符合代表性，故此子向度中選擇保留試題 25。

因此，本研究最終的正式量表試題，分別選取試題 2、試題 3、試題 4、試題 6、試題 11、試題 13、試題 16、試題 18、試題 20 與試題 25，合計一共 10 道試題作為正式量表的試題。

在文檔中美感品味能力量表之編製 —以大學生為例 (頁 26-32)

第四章 研究結果

第一節 預試量表信效度與 Rasch 分析

壹、預試量表的效度

貳、RSM 的結果分析與比較

第四章研究結果

第一節預試量表信效度與 Rasch 分析