單向度、Consecutive 與多向度方法之比較

第三章研究架構與方法

3.4 試題反應理論

3.4.1 單向度、Consecutive 與多向度方法之比較

試題反應理論最早為單向度試題反應理論，然而許多欲量測之潛在能力並非單向度而是多向度，許多學者欲解決此問題因而提出Consecutive方法，然而此方法有其限制性，因而發展出多向度試題反應理論，下列將介紹與比較三種模式。

單向度試題反應模式將測驗中所有題目共同校估，最後估計出一個潛在特質；

Consecutive 試題反應模式則分別校估各潛在特質，但忽略潛在特質間之相關性，校估出之潛在特質個數與研究原始假設之個數相同；多向度試題反應模式考量潛在特質間之相關性，同時進行校估，校估出之潛在特質個數與研究原始假設相同，但因考量各特質間之相關性，因此信度較佳且可用較少題數獲得與Consecutive 模式相同之信度[78][79]。

以本研究架構為例進行詳細說明，本研究欲估計之潛在特質為注意力分散程度、注意力轉換能力、風險感認以及過馬路能力，各潛在特質之試題數分別為9 題、5 題、13 題及 19 題，共 46 題。若以單向度試題反應模式估計，如圖 3.3 所示，其中 x1、x2…x46 為試題，將四個潛在特質之試題整合後以單向度試題反應模式進行估計，獲得獨自步行上放學能力。Consecutive 試題反應模式，如圖 3.4 所示，忽略四個潛在特質間之相關性，

將四個潛在特質視為獨立，分別以單向度試題反應模式校估，亦即執行四次單向度模式校估。多向度試題反應模式，如圖3.5 所示，則考量潛在特質間之相關性，同時校估四個潛在特質。

總結而言，單向度試題反應模式因以大量試題估計一個潛在特質，因此受測者能力信度高，然而其缺點為喪失潛在特質間之相關性資訊。而Consecutive試題反應模式因分別校估潛在特質，較單向度試題反應模式能獲得較多資訊，缺點為忽略潛在特質間之相關性，當特質間存在相關性時，可能導致模式適合度及信度不佳，更甚者會造成分析結果錯誤。多向度試題反應模式之優點則為保留各潛在特質之資訊外，更因校估時將潛在特質之相關性納入考量，使得受測者能力信度較Consecutive試題反應模式高。

圖3.3 單向度方法

圖3.4 Consecutive 方法

圖3.5 多向度方法 3.4.2 單向度試題反應理論模式

單向度試題反應模式中之模式種類眾多，在此僅介紹最簡單模式--Rasch模式。試題反應理論中單參數羅吉斯特模式即為Rasch模式，最早是由George Rasch於1960年提出 [80]，利用對數勝算比的觀念建立具類等距與可加性之logit量尺，在此量尺之基礎下，

利用受測者在試題上之答題情況測量出試題之困難度(difficulty)，再利用受測者在不同困難度試題上的表現情況，測量出受測者之能力(ability)。Rasch模式假設受測者之答題能力下限c=0，答題能力上限d=1，且所有試題之鑑別度都為相同之a_i =1。Rasch模式可應用於二元或多元計分模式。首先，我們先利用二元資料(Dichotomous Data)，來介紹 Rasch模式。例如某一風險感認試題為「騎自行車逆向行駛非常危險」，回答「同意」

者之編碼為1，而回答「不同意」者之編碼為0，則第n 位受測者對試題i 塡答「同意」

之機率為[81]：

(1

)

則受測者n 回答第i 題第x 個選項相對於第x−1個選項的勝算比如方程式(6)所分模式(Partial Credit Model) [82]。評定量表模式為早期常使用來分析社會科學資料的方法。該模式只測量一道試題所有選項的門檻值，再將這組門檻值套用到每道試題上，如時，則符合單向度之假設。(2)局部獨立性(local independence)：當受測者能力被固定時，

在統計學上，受測者在任何試題上的反應是獨立的，這意味著受測者能力才是唯一影響受測者在試題上表現的因素。

檢驗單向度可藉由因素分析或主成分分析來檢驗該測驗是否只萃取出單一因素或單一主成分，或是第一因素的特徵值與第二因素特徵值的比值大於2[85]，Reckase[86]

認為第一主成分至少解釋全體變異量20%，Smith & Miao[87]指出扣除第一成份之因素值，剩餘之因素值和小於1.5，則表示測驗符合單向度假設。如果不符合，則必須刪除不

(三)主成分分析，如果只萃取出一個主成分；或是第一主成分與第二主成分的特徵度二參數模式(multidimensional two parameters model)、多向度三參數IRT模式以及多向度隨機係數多項羅吉模式(multidimensional random coefficients multinomial logit model, MRCMLM)。Adams等人[69]所提出來的多向度隨機係數多項羅吉模式由單向度隨機係數多項羅吉模式(unidimensional random coefficients multinomial logit model, RCMLM)衍生出來，兩模式不同之處在於RCMLM之試題計分向量及受測者能力向量為數量(scalar

Mckinley & Reckase(1983) Reckase & Mckinley(1991)

M3PL

Hattie(1981) Sympson(1978)

MRCMLM

Adams, Wilson, &

Wang( 1997)

( ) maximum likelihood; JML)、邊際最大概似法(marginal maximum likelihood; MML)及條件最大概似法(conditional maximum likelihood; CML)。當受測者能力已知時，可使用最大概似估計法來校估參數；當受測者能力及試題參數皆未知之情況下，則可使用聯合最大概似估計法及邊際最大概似估計法，對試題參數及受測者能力參數進行同時之校估 [84]。目前單向度模式已有許多不同校估分析軟體，在使用上應依研究之需要選擇適當之軟體。Wang[79] 指出有許多軟體可用來校估多向度隨機係數多項羅吉模式之參數，

包括ACER ConQuest、SAS NLMIXED、STATA gllamm、MIXOR 及 MIXNO，其中 ACER ConQuest[93] 收斂速度最快。 ACER ConQuest 利用邊際最大概似估計法 (Marginal Maximum Likelood estimation) 以及期望最大化演算法 (Expectation-Maximization Algorithm)來進行參數校估。在試題與受測者為條件獨立(Conditional Independence)假設

下，受測者能力為θ_n時，其選擇反應組型r之機率為：

度若有問題，參數亦無法收斂，或忽略某些題目測到其他能力向度的可能性。

3.4.5 試題反應理論之信度檢測

試題反應理論提供評估潛在變數之信度及效度指標[94]，信度指標通常是指測驗者填答每個試題的一致性，對於每個試題的選項感受程度不因試題的不同而改變。在單向度試題反應理論中有試題信度(Item Reliability)及受測者信度(Person Reliability)，試題反應理論之信度部份觀念源自Cronbach’s α信度指數。受測者信度(Rp )為解釋之受測者變示[96]。Prieto(1998)指出好的分級間至少要有 0.15 logits 的距離差[引自 97]。

p 究目標相符合。試題反應理論利用適配度(Fit)指標及差異試題功能(Differential Item Functioning, DIF)檢定來評估模式是否符合向度假設，下列將分別介紹配適度指標與差異試題功能。

3.4.6.1 配適度指標

試題反應理論之適配度指標包括有Z standardized fit statistics(Zstd)指標及均方誤差 (Mean Square Error, MNSQ)指標，Wang[106]指出當樣本大於500時，建議適配度指標採用均方誤差指標。本研究抽樣樣本數大於500，因此將採用均方誤差指標。均方誤差指標包括未加權均方誤差指標(outfit MNSQ)及加權均方誤差指標(infit MNSQ)，未加權均

方誤差指標即將所有受測者在該題之標準化殘差之平方和除以受測者人數；加權均方誤

言，差異試題功能是試題對不同的團體(如男性、女性)有著不同的功能。如果差異試題功能存在，意味著該試題對不同團體有著不同的意義或試題可能測到與測驗欲測量之構念無關的因素，因此無法進行團體比較。

若存在差異試題值則會影響測驗效度，因此應將差異試題刪除。差異試題檢定方法有兩種，一為比較兩個或多個族群在某道試題特徵函數上的差異，即可判別該試題是否在不同群體間存在差異。二為分別估算不同團體之題目困難度，如果不同的團體間有明顯不相同的題目困難度，表示該題有差異試題功能存在。Wang[79]指出當樣本數為幾千份以上時，因樣本太大所以trivial DIF 一定會顯著存在，因此建議可以不同群體之題目困難度差異是否大於0.5 logits 為替代性差異試題指標(Substantial DIF)，如差異大於 0.5 logits，則應將該試題刪除後，再重新分析試題，直至所有題目皆無差異試題值存在。

第四章問卷設計、施測與樣本結構分析

本章將介紹本研究兒童獨自步行上放學能力問卷設計、問卷初測結果與問卷修改內容、正式調查施測學校問卷回收情形與樣本結構敘述統計分析。

4.1 問卷設計

兒童獨自步行能力問卷分為九大部份，分別為個人基本資料與家庭狀況、步行經驗、家庭交通安全教育、社會期許量表、注意力分散程度量測、注意力轉換能力量測、

風險感認能力量測、學校交通安全教育、過馬路能力量測，一一介紹如下。

第一部份：個人基本資料與家庭狀況

兒童個人基本資料包括性別、就讀年級等，家庭狀況則包括有父母親教育程度及年齡、

兄弟姐妹個數等，以瞭解兒童個人及家庭特性對其獨自步行能力之影響，此部分問卷共 6 題。

第二部份：兒童步行經驗

兒童步行經驗問題包括有兒童上學及放學主要交通工具、兒童一週步行上學及放學次數、兒童從家裡至學校的距離(以步行時間估計)、兒童事故經驗、兒童自我評估過馬路感覺及獨自過馬路能力，以及在沒有人行天橋、地下道或行人穿越道的地方，兒童是否知道該如何安全過馬路，此部分問卷共9 題。

第三部份：家庭交通安全教育

家庭交通安全教育部分主要包括父母是否教導兒童安全過馬路之知識與技巧、在何時教導，父母親對兒童危險行為是否糾正、父母對於兒童獨自步行上放學的態度、父母親在兒童面前表現之過馬路行為以及父母與兒童一起過馬路時，對兒童採取之態度等資料，

以瞭解家庭交通安全教育對兒童獨自步行能力之影響，此部分問卷共5 題，其中父母敎導交通安全知識時間為複選題。

第四部份：社會期許

社會期許問卷主要是為防止兒童填答問卷時有心理防衛現象而朝社會期許方向作答，故以此量表作為控制變項。社會期許量表採用Reynolds 及 Paget[100]之修正後兒童顯性焦慮量表(Revised Children’s Manifest Anxiety Scale)中的測謊量表(lie scale)，此量表適用於 8-10 歲兒童，Kathy 等人[101]則將此量表應用於 10-14 歲兒童。測謊量表中有 9 題與社會期許相關題目，量表以李克特五尺度為選項，其中〝1〞代表我從來不會這樣，〝5〞

在文檔中以多向度試題反應理論量測兒童步行上放學之能力 (頁 40-0)

第三章 研究架構與方法

3.4 試題反應理論

3.4.1 單向度、Consecutive 與多向度方法之比較

(1

)

第四章 問卷設計、施測與樣本結構分析

4.1 問卷設計

第三章研究架構與方法

第四章問卷設計、施測與樣本結構分析