• 沒有找到結果。

高維離散型資料之雙樣本檢定

Székely and Rizzo (2004)認為雙樣本的 Kolmogorov-Smirnov 檢定要推廣到 高維度並不容易,因此他們在文章中提出一個新的檢定方法,內容如下:首先從

8

不難發現,Székely and Rizzo(2004)的方法很容易可推廣至更高維度的雙樣 本資料。接下來,我們將應用偽吉氏分配的性質來建構一個新的檢定方法並與 Székely and Rizzo(2004)的方法作比較。

由 第 二 章 的 介 紹 , 我 們 知 道 若 條 件 分 配𝑓1(𝑥|𝑦) 與 𝑓2(𝑦|𝑥) 相 容 , 則 𝜋12(𝑥, 𝑦) = 𝜋21(𝑥, 𝑦) = 𝑓(𝑥, 𝑦)(聯合密度函數);若不相容,則 𝜋12 ≠ 𝜋21。這裡 我們假設(𝑋, 𝑌)的可能值集合是一個積空間(product space),因此𝑓1與𝑓2若相容,

並不會對應多個聯合分配。

如 同 本 章 一 開 始 的 設 定 , 我 們 欲 檢 定𝐶1 = ��𝑥𝑖(1), 𝑦𝑖(1)�: 1 ≤ 𝑖 ≤ 𝑛1� 與 𝐶2 = ��𝑥𝑖(2), 𝑦𝑖(2)�: 1 ≤ 𝑖 ≤ 𝑛2�是否來自同一分配,我們可以建立𝐶1的經驗條件分

配 (empirical conditional distribution)𝑓̂1(1)(𝑥|𝑦) 與 𝑓̂2(1)(𝑦|𝑥) , 也 可 以 從 𝐶2得 到 𝑓̂1(2)(𝑥|𝑦)與𝑓̂2(2)(𝑦|𝑥)。假設𝐻0成立,則(𝑋(1), Y(1))與(𝑋(2), Y(2))的分配相同,於

是他們的條件密度函數也相同,且𝑓1(1)(𝑥|𝑦) = 𝑓1(2)(𝑥|𝑦)與𝑓2(1)(𝑦|𝑥) = 𝑓2(2)(𝑦|𝑥),

但由於樣本的緣故,𝑓̂1(1)與𝑓̂1(2)大致會相似,𝑓̂2(1)與𝑓̂2(2)也會相似,因此{𝑓̂1(1), 𝑓̂2(2)}

很少有機會相容,大部分的情況都是不相容的,同樣的,{𝑓̂2(1), 𝑓̂1(2)}亦是如此。

不相容導致𝑑(𝜋12, 𝜋21) > 0,雖是如此,但我們認為此不相容所得的𝑑(𝜋12, 𝜋21)不 會太大,並且會小於𝐻0不成立的情況,我們透過下面的實驗來了解這一現象。

實驗想法為每次從母體中抽取樣本,總共模擬 1000 次,求得的偽吉氏分配 會產生離差項,紅色為假設檢定𝐻0成立下,也就是同一母體所抽取樣本,藍色 為假設檢定𝐻0不成立下,也就是為不同母體所產生樣本,橫軸為每次偽吉氏分 配所產生的距離,縱軸為 1000 次裡總共有幾次落於距離區間內。模擬結果可以 知道,若原本的資料型態在𝐻0成立下,偽吉氏分配會產生的離差會比較小,反 之若是𝐻0不成立下,偽吉氏分配的離差表現會比較大,下圖 5 為實驗結果。

9

圖 5

接著,我們提供一個新的檢定方法,演算步驟如下:

給定兩組樣本𝐶1 = ��𝑥𝑖(1), 𝑦𝑖(1)�: 1 ≤ 𝑖 ≤ 𝑛1�與𝐶2 = ��𝑥𝑗(2), 𝑦𝑗(2)�: 1 ≤ 𝑗 ≤ 𝑛2�,虛 無假設𝐻0為𝐶1與𝐶2來自同一分配。

步 驟 1. 由𝐶1計 算 出 經 驗 條 件 密 度 函 數𝑓̂1(1)(𝑥|𝑦)與𝑓̂2(1)(𝑦|𝑥);由𝐶2計 算 出 𝑓̂1(2)(𝑥|𝑦)與𝑓̂2(2)(𝑦|𝑥)。

步驟 2. 由{𝑓̂1(1)(𝑥|𝑦), 𝑓̂2(2)(𝑦|𝑥)}計算偽吉氏分配𝜋12與𝜋21,並得到𝜋12與𝜋21的距

離,記作𝑑1;同樣的,由{𝑓̂2(1)(𝑦|𝑥), 𝑓̂1(2)(𝑥|𝑦)}得到偽吉氏分配間的距離𝑑2。最 後取𝐷 = max {𝑑1, 𝑑2}。

步驟 3. 將𝐶1與𝐶2合併成𝐶,以取後放回(我們亦考慮取後不放回)的方式從𝐶中取 出𝑛1個樣本並計算經驗條件密度函數𝑓̂1(1)與𝑓̂2(1);再從𝐶中取出𝑛2個樣本得到𝑓̂1(2)

與𝑓̂2(2)。如同步驟 2.的過程計算出𝑑1與𝑑2,最後取𝐷1 = max {𝑑1, 𝑑2}。

步驟 4. 重複步驟 3.直到有𝐷1,…,𝐷𝑏

步驟 5. 若𝐷大過{𝐷1,…,𝐷𝑏}中的 95%,則拒絕𝐻0。

接下來,我們將用一些例子來比較我們的方法與Székely and Rizzo(2004)的方法。

例 1:母體分配相同

10 Székely and Rizzo(2004)的方法在不同的距離上都有高度接受𝐻0的能力。

接下來我們將模擬母體分配不同的情形,若兩母體分配差異大,則我們的方 法與Székely and Rizzo(2004)都有很高的比例拒絕𝐻0,因此在下一個例子裡,我 們使用例 1.母體的分配,並且微調其機率值當第 2 個母體的分配,希望藉由這樣

11

12

13

虛無假設𝐻0為𝐶1與𝐶2來自相同的分配。

Székely and Rizzo (2004)很容易可以進行,只要將距離𝐷改成適合三維空間可用 的即可,如

𝐿1��𝑥𝑖(1), 𝑦𝑖(1), 𝑧𝑖(1)�, �𝑥𝑗(2), 𝑦𝑗(2), 𝑧𝑗(2)�� = �𝑥𝑖(1)− 𝑥𝑗(2)� + �𝑦𝑖(1)− 𝑦𝑗(2)� + �𝑧𝑖(1)− 𝑧𝑗(2)� 𝐿2��𝑥𝑖(1), 𝑦𝑖(1), 𝑧𝑖(1)�, �𝑥𝑗(2), 𝑦𝑗(2), 𝑧𝑗(2)��

= ��𝑥𝑖(1)− 𝑥𝑗(2)2+ �𝑦𝑖(1)− 𝑦𝑗(2)2+ �𝑧𝑖(1)− 𝑧𝑗(2)2 𝐿��𝑥𝑖(1), 𝑦𝑖(1), 𝑧𝑖(1)�, �𝑥𝑗(2), 𝑦𝑗(2), 𝑧𝑗(2)��

= max ��𝑥𝑖(1)− 𝑥𝑗(2)�, �𝑦𝑖(1)− 𝑦𝑗(2)�, �𝑧𝑖(1)− 𝑧𝑗(2)��

其檢定的步驟大致如同二維的情形。

我們的方法也容易執行,只要將二維時的步驟 1 改成:由𝐶1計算出經驗條件 密度函數𝑓̂1(1)(𝑥|𝑦, 𝑧)與𝑓̂2(1)(𝑦, 𝑧|𝑥);由𝐶2計算出經驗條件密度函數𝑓̂1(2)(𝑥|𝑦, 𝑧)與 𝑓̂2(2)(𝑦, 𝑧|𝑥)。其他步驟雷同。

例 4:母體分配相同

𝑥 1 2 3 1 2 3 1 2 3 1 2 3 1 2

𝑦 1 1 1 2 2 2 3 3 3 1 1 1 2 2

𝑧 1 1 1 1 1 1 1 1 1 2 2 2 2 2

𝑓(𝑥, 𝑦, 𝑧) 2 108� 3 108� 1 108� 5 108� 2 108� 3 108� 1 108� 2 108� 5 108� 6 108� 2 108� 1 108� 2 108� 4 108�

𝑥 3 1 2 3 1 2 3 1 2 3 1 2 3

𝑦 2 3 3 3 1 1 1 2 2 2 3 3 3

𝑧 2 2 2 2 3 3 3 3 3 3 3 3 3

𝑓(𝑥, 𝑦, 𝑧) 6 108� 4 108� 7 108� 9 108� 4 108� 3 108� 7 108� 2 108� 1 108� 7 108� 5 108� 8 108� 6 108�

14

由表 4 可發現Székely and Rizzo(2004)方法是可行的,而我們的方法在𝐶與𝐾出了 什麼問題呢?在第二章時,我們介紹了𝐶與𝐾的定義,可知這兩種距離在計算上

15

16

17

於多樣本下,Székely and Rizzo (2004)提出的檢定步驟與第三章類似,以上 述三樣本為例,由第一組樣本與第二組樣本透過第三章的方法計算統計量𝜀12

相關文件