貳、Rasch Model 探討
第六節 階層線性模式探討
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
「考試作弊」、「逃學或翹課」、「在學校打架,或和老師起衝突」、「看黃色書 刊、光碟或上色情網站」、「抽煙、喝酒或吃檳榔」、「逃家」、「偷竊或破壞他人物 品」。分數轉換為:0=從來沒有,1=偶爾有,2=有時有,3=經常有。因此國一學 生偏差行為的總分最低為 0 分,最高為 21 分。
若某甲總分為 1 分,某乙總分為 3 分。在數學上來說,某乙偏差行為是某甲 的 3 倍,但實際上未必如此。其次,總分 3 分和總分 2 分之間的差距,未必等於 總分 15 分和總分 14 分的差距。
再者,本研究測量偏差行為的題目第一波有 7 題,第二波只剩 4 題,最高總 分不相同,若要精確估算其偏差行為變化的程度,以古典測驗理論估算確實有所 不足,因此有必要仰賴試題反應理論估算,方能窺得全貌。
本研究適合採用 Rasch 模式的另一個原因是,Rasch 本人非常強調 Rasch 測 量無需假設母體的分佈,這是因為其 sample free 的特性。國中生的偏差行為畢 竟只有少數人,其分配不可能是常態分配,因此宜採用 Rasch model 估算。
圖 5: Rasch 模式中不同題目的 ICC
第六節 階層線性模式探討
社會科學的研究中會涉及許多資料的階層性問題。例如,研究學生的偏差
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
行為,可以設學生個人的家庭背景為自變項來研究,可以從學生就讀班級的班風 來研究,也可以由校長的辦學理念來研究。由於學生偏差行為屬於個人階層資 料,「巢套」在班級之下,若僅以階層資料研究,推論至個人層次,則犯以全蓋 偏的「生態謬誤」(ecological fallacy)。相對地,若以個人層次資料研究,推論至 總體層次,則為以偏蓋全的「原子謬誤」(atomistic fallacy)。
(一)階層線性模式簡介
階層線性模式 Hierarchical Linear Model (簡稱 HLM) 是為了解決研究資料中
「階層巢套現象」而產生的研究方法。一般社會科學領域中時常出現「資料巢套 現象」,例如學生巢套於學校之下、病人巢套於醫院之下。巢套現象使個體間隨 機誤差獨立性難以滿足,傳統迴歸統計亦無法適用。例如學生巢套於學校之下,
學生受到高階單位脈絡影響,造成個人資料之間相依現象,亦即組內觀察資料不 獨立,違反樣本獨立性(溫福星、邱皓政,2012)。傳統線性迴歸所使用的數據 必須符合獨立且同質母體的假設,傳統的變異數分析 ANOVA 也要求受試者必須 隨機分派。但在一般日常生活中,階層資料的受試者可能不是隨機分派,而是受 到環境影響。例如:若將台北市大安區的國中生和新北市金山的國中生兩相比 較,兩群學生之所以就讀該國中,顯然不是隨機分派,而是受到生活環境、群集 脈絡的影響。
因此當研究以單一階層線性迴歸處理多層次的資料時,會違反誤差獨立性假 設,會導致型Ι錯誤,造成錯誤的參數估計和統計結果。也因此近年來有越來越 多的階層資料以 HLM 方法進行分析。
HLM 可建立多階層線性迴歸模式以解決資料巢套的問題,有幾階層巢套資 料,就可建立幾階層的迴歸方程式。以兩階層巢套資料為例:學生巢套於班級之 下,當資料存在於不同階層時,先以階層一模式的自變項 X ij(i 代表學生,j 代 表班級)和 Y ij建立迴歸方程式,再以該方程式中的截距 β0j和斜率 β1j做為依變 項,使用階層二中的 Z j為自變項,再建立兩個方程式。因此誤差可以分解為階
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
層一個體間差異的 e ijk以及階層二的 u0j和 u1j。因此階層一個體間相互誤差獨立,
階層二班級間帶來的的誤差,在班級之間相互獨立,解決了隨機誤差獨立性的問 題,也解決了擴大型 I 錯誤的問題(黃建皓,2012)。
Level 1 model: Y ij = β0j + β1j X ij + e ij
Level 2 model: β0j = γ00 + γ01 Z j + u0j
β1j = γ10+ γ11 Z j + u1j
若將以上三個方程式混合,則得到混合模型:
Mixed Model: Y ij =γ00 + γ10 X ij + γ01 Z j + γ11 Z j X ij + u0j + u1j X ij+ e ij
例如:若研究社經地位(X)對於學生成績(Y)的影響,樣本來自不同學校,
包括台北市大安區的國中、新北市金山區的國中、新竹尖石鄉的國中,每個學校 的整體社經地位不同,因此資料為階層資料。Z 代表總體層次的社經地位。γ00 是平均截距,代表所有學生的平均分數。γ01是總體層次解釋變項對結果的直接 影響,又稱脈絡效果,代表各校平均社經地位對於學生成績的影響。γ10是個體 層次解釋變項對結果的影響,代表每個學生的社經地位對於成績的影響。γ11是 跨層級交互作用效果。
(二)各階層中隨機誤差的變異比例之估計
階層線性模式可以計算各階層因素對依變項影響的效果,並進一步估計各階 層中隨機誤差的變異數比例。HLM 最簡單的模式是虛無模式(null model),又 稱零模式(empty model),亦即模式中不放入任何解釋變數(溫福星,2006),
因此為 HLM 的起始模式。以本研究為例,其零模型如下:
Level 1 model: Y ijk = π0jk + e ijk
Y ijk是班級 k 中 j 學生的 i 偏差行為測驗的分數 π0jk是班級 k 中 j 學生 的 i 偏差行為測驗的平均分數
e ijk是隨機的「偏差行為測驗效果」,即測驗 ijk 的分數距個人平均分數的離均差
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
i 為班級 k 中的 j 學生的偏差行為測驗 j 為班級 k 中的各學生
k 為各班級
Level 2 model: π0jk = β00k + r 0jk
β00k是班級 k 的偏差行為平均分數
r 0jk是隨機的「個人效果」,即個人 jk 的平均偏差行為分數距所在班級平均分數 的離均差。在此假定這些效果為:平均數為 0,變異數為τπ的常態分配。
Level 3 model: β00k = γ000 + u 00k
γ000是偏差行為測驗的總平均分數
u 00k是隨機的「班級效果」,即班級 k 的偏差行為平均分數距總平均分數的離均 差。在此假定這些效果為:平均數為 0,變異數為τβ的常態分配。
三層模式將結果 Y ijk的總變異分解為三個部分:
階層一:「同一學生」兩次偏差行為測驗的的變異σ2。
階層二:「同班級中,不同學生之間」的變異τπ 階層三:不同班級之間的變異τβ
要估計各階層中隨機誤差的變異數比例,其計算方法為:
同一學生偏差行為測驗的變異數比例為:σ2 / (σ2 +τπ +τβ) 同一班級不同學生之間的變異數比例為:τπ / (σ2 +τπ +τβ) 不同班級之間的變異數比例為:τβ / (σ2 +τπ +τβ)
(三)各階層解釋變項的平減(中心化)
一般而言,傳統的迴歸分析研究法關注的是斜率,亦即斜率β1 顯著代表自 變項 X 對於 Y 有顯著效果。相對而言,研究者對於截距β0 較不關心。但在階層 線性模式而言,截距具有重要意義。隨機截距用來反應各組平均的差異,因此截 距的中心化(centering)議題亦不可忽略(邱皓政、溫福星 2012)。中心化一般 分為總平均中心化(grand mean centering,總平減)、組平均中心化(group mean
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
centering,組平減)兩種。HLM 的特性之一是能夠估計個體階層解釋變項對依變 項影響的隨機效果,包括截距、斜率。其中截距的隨機效果反映各學生的偏差行 為差異,斜率的隨機效果反映解釋變項對依變項影響的個別差異。
截距要能夠反映學生的偏差行為平均數,就要先經過中心化。經過平減後的 分數原點將會改變,但學生相對位置不會改變。
個體階層解釋變項中心化有兩種策略:組平減、總平減。組平減是指減去各 組(班)平均數,總平減是指減去全體的平均數。組平減與總平減意義不同。
Mathieu, Taylor (2007) 認為,以總平減進行 HLM 有兩個優點:一是避免共線 性問題,二是總平減模型與不平減模型是統計等價模式,可用來偵測脈絡效果與 跨層級交互作用。不平減(原始分數模型)與總平減是等直線性模型,亦即有相 同的配適度(離異數 deviance)、相同的預測值與殘差。
而組平減的平均數因各組而不同,所以各組減去的數值不同。組平減主要優 點是:各組截距項代表的就是各組依變項的組平均數,在解釋上較為清楚。組平 減混合模式與未平減模型在固定效果、以及隨機係數上都上會有差別。
Raudenbush 與 Bryk(2002)建議研究者除非有很清楚的理論,否則不適合 配適以組平均為基準的中心化隨機斜率模型(溫福星、邱皓政,2012)。
(四)卜瓦松迴歸模型
在公共衛生、社會科學、工程科學及農業學等領域中,經常使用卜瓦松分配 來分析離散計數型資料。
Poisson 分配(Poisson distribution),原本由法國數學家卜瓦松(Siméon-Denis Poisson)在 1838 年時發表,又稱卜瓦松小數法則(Poisson law of small numbers), 是一種統計與機率學裡常見到的離散機率分佈。卜瓦松分配適合於發生機率較低 的事件,例如描述單位時間內隨機事件發生的次數的機率分佈。如消防隊在一定 時間內接到服務請求的次數、機器出現的故障數、自然災害發生的次數、DNA 序列的變異數、放射性原子核的衰變數等等。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
卜瓦松迴歸模型採用對數連結函數 (Log Link Function),主要使用於反應變 數為間斷型資料。由於本研究的依變項為偏差行為,屬於間斷型資料,發生機率 較低,並且為追蹤資料,具備時間條件,因此適合以卜瓦松迴歸模型結合階層線 性模式,也就是「階層廣義線性模式」(Hierarchical Generalized Linear Models,
簡稱 HGLM)進行估算。
卜瓦松分配的機率質量函數為:
卜瓦松分配的參數 λ 是單位時間(或單位面積)內隨機事件的平均發生率。
圖 6: 卜瓦松分配機率質量函數圖
(引自:https://en.wikipedia.org/wiki/Poisson_distribution)
上圖中,橫軸是索引 k,代表發生次數。縱軸 P 為發生機率。λ 是單位時間
(或單位面積)內隨機事件的平均發生率。
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
與理論性的支持,3. 固定效果需強而有力的支持,4. 由資料內容決定隨機效果,
5. 若交互作用達顯著,即使造成交互作用的變項之主要效果未達顯著,該變項 亦需保留,6. 若隨機效果達顯著,則其固定效果需被保留,7. 聚合(aggregate)
後的階層變項可能是個重要變項,8. 若變項間產生交互作用,則交互作用不具 隨機效果。
Hox (2002)則針對探索性研究提出下列模型建構的步驟:1. 先用隨機效 果變異數模型並記錄模型適配度,2. 將所有最低階之變項投入隨機效果共變數
Hox (2002)則針對探索性研究提出下列模型建構的步驟:1. 先用隨機效 果變異數模型並記錄模型適配度,2. 將所有最低階之變項投入隨機效果共變數