林柏佐
1
Wilcoxon Two-Sample Test
如果我們現在要 test 兩個 continuous distribution 是不是相等的,一樣我們利 用觀測值的 magnitude. 不過要做這樣的 test 之前,我們必須假設這兩個
distribution 曲線非常接近(就很像我們之前要 test 2 個 normal 是一樣的假設,我 們會假設
σ2X=
σY2, 第一個是因為好做,雖然有提過不相等的 t test, 但是它的 degree of freedom 非常的難算,另一個是如果兩個 distribution 差太多,一般人不 會把它們合起來一起考慮)。現在我們將兩組 sample
1
,
2, ,
n1,
X X…
X與
1
,
2, ,
n2Y Y
…
Y合在一起,從小到大排列,將每個數值依序給它 ranks 1, 2, 3, … ,
n1+
n2. 如果在 sample 中有兩個以上相同的數值,那我們就針對這樣的數值採用平均的 ranks. 我 們令
W是
1
,
2, ,
n2Y Y
…
Yrank 的總和。若Y 的 distribution 是在 X 的右邊,那麼我們 可以預期Y 的 value 會高於 ,
X 那麼W通常算起來也會比較大。若
mX,
m 分別代Y表 ,
X Y 之 distribution 的 median, 我們可以猜測 testingH0:
mX=
mY與 alternative hypothesis
H1:
mX<
mY的 critical region 一定是形如
w>c這種形式。同理,若對 立假設為
H1:
mX>
mY, 那其 critical region 將會形如
w<c這種形式。
若對
W的 distribution 有興趣的人,可以嘗試繪製
n1=
n2= 的情形,會幫助 3 你了解這個分配,不過這裡我們不打算去關心這個 distribution, 在實務上,若
n1和
n 都大於27, 我們可以利用 normal 去逼近(central limit theorem),至於個數較少 的話,便可以利用手算即可,不過因此我們要去算
W的 mean 與 variance, 這裡 我們建議不要整體看 mean, 而是分別考慮每個數出現的 probability,以求其 mean.
)]
( 2
1
[
1 21 1
w 1 2
2 2 1
2 n n
C C
n n n n n
n
+ + + +
=
+−
−+
μ
2 ) 1 (
2
) 1 )(
(
2
) 1 )(
(
! )!
(
)!
1 (
)!
1 (
2 1 2 2
1 2 1 2 1
2
2 1 2 1
2 2 1
2 2 1
+
= + + +
⋅ +
= +
+ +
⋅ + +
−
− +
=
n n n n
n n n n n
n
n n n n
n n n
n n n
要先算 variance 之前,我們先來考慮高中我們學過相異數兩兩乘積之和的算法:
[ 1+2+ +(n1+
n2) ]
2 = + 1
22
2+ +(
n1+
n2)
2+ 2 1 2 1 3 [ ⋅ + ⋅ + + ⋅ 1 (
n1+
n2) + + (
n1+
n2)(
n1+ +
n21) ]
令
S= ⋅ + ⋅ + + ⋅ 1 2 1 3 1 (
n1+
n2) + + (
n1+
n2)(
n1+ +
n21)
2
1 2 1 2 1 2 1 2 1 2
( )( +1) ( )( +1)(2 2 +1)
2 6 2
n n n n n n n n n n
+ + + + +
S⎡ ⎤
⇒ ⎢ ⎣ ⎥ ⎦ = +
林柏佐
2
2 2
1 2 1 2 1 2 1 2 1 2
( ) ( +1) ( )( +1)(2 2 +1)
2 4 6
n n n n n n n n n n
S
+ + + + +
∴ = −
1 2 1 2
1 2 1 2 1 2
1 2 1 2 2
1 2 1 2
1 2 1 2 1 2 1 2
( )( +1)
[3( )( +1) (4 4 +2)]
12
( )( +1)
3( ) ( ) 2
12
( )( +1)( 1)(3 3 2)
12 n n n n
n n n n n n
n n n n
n n n n
n n n n n n n n
+ +
= + + − +
+ + ⎡ ⎤
= ⎣ + − + − ⎦
+ + + − + +
=
接著我們來算 variance, 利用與 mean 同樣的想法,個別算兩兩乘積所對應的 probability, 我們就可以得到 variance 的公式
w
2 2
( ) [ ]
Var W =E W −
μ
1 2 2
1 2 2
2 2
2 2 2 2
2 2 1 2
1 2
1 2
1 2
2 2
2 1 2 1 2 1 2 1 2 2 1 2
1 2
1 2
1 2
2 1 2 1 2 2 2
1 2
( 1)
[1 +2 + +( ) ] 2
2 ( 2)!
( )( +1)(2 2 +1) !( 2)! ( 1)
= 2
( )!
6 4
! ! ( +1)(2 2 +1) ( 1)
6 ( )(
n n n
n n n
n C n n n
n n S
n n C
n n
n n n n n n n n n n n n
n n S n n
n n
n n n n n n n
n n
+ −
− +
⎡ + + ⎤
= + + + ⋅ − ⎢ ⎣ ⎥ ⎦
+ −
+ + + + − ⋅ − + +
+ +
+ + −
= +
+
1 2 1 2 1 2 1 2 1 2( )( +1)( 1)(3 3 2)
1) 12
n n n n n n n n
n n
+ + + − + +
+ − ⋅
2 2
2
(
1 21)
4
n n+ +
n−
2 2
2 1 2 1 2 2 2 1 2 1 2 2 1 2
2 1 2
1 2 2 1 2 2 1 2
2 1 2 1 2 2 1 2 1 2
( +1)(2 2 +1) ( 1)( +1)(3 3 2) ( 1)
6 12 4
( +1)
[(4 4 +2) ( 1)(3 3 2) 3 ( 1)]
12
( +1)( ) ( +1)
12 12
n n n n n n n n n n n n n n
n n n
n n n n n n n n
n n n n n n n n n n