高維離散型資料之雙樣本檢定 - 高維離散型資料之K樣本檢定

Székely and Rizzo (2004)認為雙樣本的 Kolmogorov-Smirnov 檢定要推廣到高維度並不容易，因此他們在文章中提出一個新的檢定方法，內容如下:首先從

不難發現，Székely and Rizzo(2004)的方法很容易可推廣至更高維度的雙樣本資料。接下來，我們將應用偽吉氏分配的性質來建構一個新的檢定方法並與 Székely and Rizzo(2004)的方法作比較。

由第二章的介紹，我們知道若條件分配𝑓₁(𝑥|𝑦) 與 𝑓₂(𝑦|𝑥) 相容，則 𝜋¹²(𝑥, 𝑦) = 𝜋²¹(𝑥, 𝑦) = 𝑓(𝑥, 𝑦)(聯合密度函數)；若不相容，則 𝜋¹² ≠ 𝜋²¹。這裡我們假設(𝑋, 𝑌)的可能值集合是一個積空間(product space)，因此𝑓₁與𝑓₂若相容，

並不會對應多個聯合分配。

如同本章一開始的設定，我們欲檢定𝐶1 = ��𝑥_𝑖⁽¹⁾, 𝑦_𝑖⁽¹⁾�: 1 ≤ 𝑖 ≤ 𝑛1� 與 𝐶2 = ��𝑥_𝑖⁽²⁾, 𝑦_𝑖⁽²⁾�: 1 ≤ 𝑖 ≤ 𝑛2�是否來自同一分配，我們可以建立𝐶1的經驗條件分

配 (empirical conditional distribution)𝑓̂₁⁽¹⁾(𝑥|𝑦) 與 𝑓̂₂⁽¹⁾(𝑦|𝑥) ，也可以從 𝐶₂得到 𝑓̂₁⁽²⁾(𝑥|𝑦)與𝑓̂₂⁽²⁾(𝑦|𝑥)。假設𝐻₀成立，則(𝑋⁽¹⁾, Y⁽¹⁾)與(𝑋⁽²⁾, Y⁽²⁾)的分配相同，於

是他們的條件密度函數也相同，且𝑓₁⁽¹⁾(𝑥|𝑦) = 𝑓₁⁽²⁾(𝑥|𝑦)與𝑓₂⁽¹⁾(𝑦|𝑥) = 𝑓₂⁽²⁾(𝑦|𝑥)，

但由於樣本的緣故，𝑓̂₁⁽¹⁾與𝑓̂₁⁽²⁾大致會相似，𝑓̂₂⁽¹⁾與𝑓̂₂⁽²⁾也會相似，因此{𝑓̂₁⁽¹⁾, 𝑓̂₂⁽²⁾}

很少有機會相容，大部分的情況都是不相容的，同樣的，{𝑓̂₂⁽¹⁾, 𝑓̂₁⁽²⁾}亦是如此。

不相容導致𝑑(𝜋¹², 𝜋²¹) > 0，雖是如此，但我們認為此不相容所得的𝑑(𝜋¹², 𝜋²¹)不會太大，並且會小於𝐻0不成立的情況，我們透過下面的實驗來了解這一現象。

實驗想法為每次從母體中抽取樣本，總共模擬 1000 次，求得的偽吉氏分配會產生離差項，紅色為假設檢定𝐻0成立下，也就是同一母體所抽取樣本，藍色為假設檢定𝐻₀不成立下，也就是為不同母體所產生樣本，橫軸為每次偽吉氏分配所產生的距離，縱軸為 1000 次裡總共有幾次落於距離區間內。模擬結果可以知道，若原本的資料型態在𝐻₀成立下，偽吉氏分配會產生的離差會比較小，反之若是𝐻0不成立下，偽吉氏分配的離差表現會比較大，下圖 5 為實驗結果。

圖 5

接著，我們提供一個新的檢定方法，演算步驟如下:

給定兩組樣本𝐶₁ = ��𝑥_𝑖⁽¹⁾, 𝑦_𝑖⁽¹⁾�: 1 ≤ 𝑖 ≤ 𝑛₁�與𝐶₂ = ��𝑥_𝑗⁽²⁾, 𝑦_𝑗⁽²⁾�: 1 ≤ 𝑗 ≤ 𝑛₂�，虛無假設𝐻0為𝐶1與𝐶2來自同一分配。

步驟 1. 由𝐶₁計算出經驗條件密度函數𝑓̂₁⁽¹⁾(𝑥|𝑦)與𝑓̂₂⁽¹⁾(𝑦|𝑥)；由𝐶₂計算出 𝑓̂₁⁽²⁾(𝑥|𝑦)與𝑓̂₂⁽²⁾(𝑦|𝑥)。

步驟 2. 由{𝑓̂₁⁽¹⁾(𝑥|𝑦), 𝑓̂₂⁽²⁾(𝑦|𝑥)}計算偽吉氏分配𝜋¹²與𝜋²¹，並得到𝜋¹²與𝜋²¹的距

離，記作𝑑₁；同樣的，由{𝑓̂₂⁽¹⁾(𝑦|𝑥), 𝑓̂₁⁽²⁾(𝑥|𝑦)}得到偽吉氏分配間的距離𝑑₂。最後取𝐷^∗ = max {𝑑₁, 𝑑₂}。

步驟 3. 將𝐶1與𝐶2合併成𝐶，以取後放回(我們亦考慮取後不放回)的方式從𝐶中取出𝑛₁個樣本並計算經驗條件密度函數𝑓̂₁⁽¹⁾與𝑓̂₂⁽¹⁾；再從𝐶中取出𝑛₂個樣本得到𝑓̂₁⁽²⁾

與𝑓̂₂⁽²⁾。如同步驟 2.的過程計算出𝑑₁與𝑑₂，最後取𝐷₁ = max {𝑑₁, 𝑑₂}。

步驟 4. 重複步驟 3.直到有𝐷₁，…，𝐷_𝑏。

步驟 5. 若𝐷^∗大過{𝐷1，…，𝐷𝑏}中的 95%，則拒絕𝐻0。

接下來，我們將用一些例子來比較我們的方法與Székely and Rizzo(2004)的方法。

例 1:母體分配相同

10 Székely and Rizzo(2004)的方法在不同的距離上都有高度接受𝐻₀的能力。

接下來我們將模擬母體分配不同的情形，若兩母體分配差異大，則我們的方法與Székely and Rizzo(2004)都有很高的比例拒絕𝐻₀，因此在下一個例子裡，我們使用例 1.母體的分配，並且微調其機率值當第 2 個母體的分配，希望藉由這樣

虛無假設𝐻0為𝐶1與𝐶2來自相同的分配。

Székely and Rizzo (2004)很容易可以進行，只要將距離𝐷改成適合三維空間可用的即可，如

𝐿¹��𝑥_𝑖⁽¹⁾, 𝑦_𝑖⁽¹⁾, 𝑧_𝑖⁽¹⁾�, �𝑥_𝑗⁽²⁾, 𝑦_𝑗⁽²⁾, 𝑧_𝑗⁽²⁾�� = �𝑥_𝑖⁽¹⁾− 𝑥_𝑗⁽²⁾� + �𝑦_𝑖⁽¹⁾− 𝑦_𝑗⁽²⁾� + �𝑧_𝑖⁽¹⁾− 𝑧_𝑗⁽²⁾� 𝐿²��𝑥_𝑖⁽¹⁾, 𝑦_𝑖⁽¹⁾, 𝑧_𝑖⁽¹⁾�, �𝑥_𝑗⁽²⁾, 𝑦_𝑗⁽²⁾, 𝑧_𝑗⁽²⁾��

= ��𝑥_𝑖⁽¹⁾− 𝑥_𝑗⁽²⁾�²+ �𝑦_𝑖⁽¹⁾− 𝑦_𝑗⁽²⁾�²+ �𝑧_𝑖⁽¹⁾− 𝑧_𝑗⁽²⁾�² 𝐿^∞��𝑥_𝑖⁽¹⁾, 𝑦_𝑖⁽¹⁾, 𝑧_𝑖⁽¹⁾�, �𝑥_𝑗⁽²⁾, 𝑦_𝑗⁽²⁾, 𝑧_𝑗⁽²⁾��

= max ��𝑥_𝑖⁽¹⁾− 𝑥_𝑗⁽²⁾�, �𝑦_𝑖⁽¹⁾− 𝑦_𝑗⁽²⁾�, �𝑧_𝑖⁽¹⁾− 𝑧_𝑗⁽²⁾��

其檢定的步驟大致如同二維的情形。

我們的方法也容易執行，只要將二維時的步驟 1 改成：由𝐶1計算出經驗條件密度函數𝑓̂₁⁽¹⁾(𝑥|𝑦, 𝑧)與𝑓̂₂⁽¹⁾(𝑦, 𝑧|𝑥)；由𝐶₂計算出經驗條件密度函數𝑓̂₁⁽²⁾(𝑥|𝑦, 𝑧)與 𝑓̂₂⁽²⁾(𝑦, 𝑧|𝑥)。其他步驟雷同。

例 4：母體分配相同

𝑥 1 2 3 1 2 3 1 2 3 1 2 3 1 2

𝑦 1 1 1 2 2 2 3 3 3 1 1 1 2 2

𝑧 1 1 1 1 1 1 1 1 1 2 2 2 2 2

𝑓(𝑥, 𝑦, 𝑧) 2 108� 3 108� 1 108� 5 108� 2 108� 3 108� 1 108� 2 108� 5 108� 6 108� 2 108� 1 108� 2 108� 4 108�

𝑥 3 1 2 3 1 2 3 1 2 3 1 2 3

𝑦 2 3 3 3 1 1 1 2 2 2 3 3 3

𝑧 2 2 2 2 3 3 3 3 3 3 3 3 3

𝑓(𝑥, 𝑦, 𝑧) 6 108� 4 108� 7 108� 9 108� 4 108� 3 108� 7 108� 2 108� 1 108� 7 108� 5 108� 8 108� 6 108�

由表 4 可發現Székely and Rizzo(2004)方法是可行的，而我們的方法在𝐶與𝐾出了什麼問題呢？在第二章時，我們介紹了𝐶與𝐾的定義，可知這兩種距離在計算上

於多樣本下，Székely and Rizzo (2004)提出的檢定步驟與第三章類似，以上述三樣本為例，由第一組樣本與第二組樣本透過第三章的方法計算統計量𝜀₁₂^∗ ，

在文檔中高維離散型資料之K樣本檢定 (頁 13-23)