• 沒有找到結果。

第三章 研究方法與設計

第二節 研究設計

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

實驗組樣本數變化比,並與 KLIC 與 KS 配對前對照關係,再以配對後之 KLIC 與 KS 統計量當作一個判斷的依據,最後計算 KLIC 與配對各別所需的時間。

第二節 研究設計

KLIC 又稱 relative entropy(Ullah,1996),儘管理論上其值永遠為一正數,但若以兩 樣本實際計算過程中可能因定義域不同產生正負相消的問題,且故這邊除了原始的三種 KLIC 定義之外,各別加了絕對值後去比較,分別定義如下:

(1)

(2)

(3)

(4)

(5)

(6)

壹、 臨界值的求取

我們考慮三種偏態的分配,依序分別為對稱分配、左偏分配、右偏分配,並透過 R 軟體來進行模擬。每一次的模擬實驗皆從相同分配中生成兩組樣本去計算相同分配前提 下的 KLIC 與 KS 值,藉由重複實驗 10000 次來找出 95%的臨界值。樣本數的部份,我 們考慮了 1000、500、200 這三種情況,來比較可能的變動差異。三種分配詳述如下:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(1) 對稱分配:常態(Normal)分配

(2) 左偏分配:偏斜常態(Skew-normal)分配

(3) 右偏分配: 分配

圖 3-2-1 為三種分配的機率密度函數分布圖的比較。

圖 3-2-1 三偏態 PDF 比較

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

貳、 檢定力比較

依據前述說明求出 95%( )臨界值作為判斷實驗、對照兩分配是否相同的準 則後,我們將針對三類分配的三種參數的不同變化:(1)位置—平均數移動、(2)散佈—

變異數大小、(3)形狀—厚薄尾差異等,並比照三種樣本數大小(1000、500、200),來探 討各個統計量檢定力的強弱。檢定力的計算仍是架構在 10000 次模擬所得出的結果。

在第一類對稱分配中,以常態分配的平均數與標準差作為位置與散佈參數的對照,但由 於常態分布並無厚尾的參數控制,這邊以同為對稱分配但具厚尾特性的 t 分布變動自由 度代替比較。由於理論上的左偏例子不多,第二類左偏分配選用偏斜常態 分配,是 用常態去傾斜,所以最極端的情形只有到半常態分配(half-normal);由第壹部分機率函 數可知其 是控制常態偏斜的重要參數,也屬於形狀參數的一種,用以控制偏斜的程度,

由圖 3-2-2.1 可知 的正負會決定偏態的方向, 時為對稱常態分配, 表示右偏,

為左偏,依次分別為紅色虛線、黑色實線、綠色虛線;接著去測驗 不同的負值所 產生的變化,如圖 3-2-2.2 所示可看出 從 到 ,偏態逐漸明顯,因此我們折衷選擇 適當的偏斜程度,以 作為我們模擬的基準分配;儘管 為形狀參數,圖 3-2-2.2 也觀察到不論 的改變為何並不會對尾部的分布造成影響,故我們詴著考慮 Azzalini (2013, p.101-p.104)介紹的偏斜常態所延伸之偏斜 分配(skew-t distribution)來控制厚尾分 布作為薄厚尾對照的分配[9],如圖 3-2-2.2 紫色虛線所示,相較於黑色實線的偏斜常態 分配,兩者除了尾部的變動之外,在其他地方並無明顯差異,故最後以偏斜 t 分配當作 形狀參數的對照。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-2-2.1 不同 正負變化所影響之偏斜常態 PDF 對照

圖 3-2-2.2 偏斜常態與偏斜 t 分配對不同形狀參數變化之 PDF

因此總結左偏分配的選取,決定除了在偏態係數上選負號之外,其他位置與變異參 數皆和常態分配一樣,以平均數和標準差變化控制,也因偏斜常態不具有控制薄厚尾表 現的形狀參數,故以偏斜 分配來控制厚尾分布。實務上有許多常見的右尾分配,因 分配函數直接取決於三類的參數,故以此為第三類分配模型的選取,相較於左 偏採用的偏斜常態, 本身具有可變動的形狀參數,變動不同參數對應的機率圖 如圖 3-2-2.3 所示,其中黑色實線皆代表各個偏態的預設分配,不同虛線則是在固定位

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

置參數( )下,分別變動散佈參數( )與形狀參數( )的情形。由圖 3-2-2.3(左)可看到在 其他條件不變下,整體變異隨散佈參數( )增加而變大,機率密度函數(PDF)的變動由黑 色實線到紅色虛線進而到綠色點線;而比較偏態 分配則可以發現隨著形狀參數( )下降,

其尾部分布較原始的預設分配來的厚一些,PDF 變化由黑色實線到藍色虛線再到紫色虛 線。同樣地,由圖 3-2-2.3(右)可比照在其他條件不變之下,散佈參數的增加會使整體變 異上升,造成 PDF 較為分散,依序如圖中黑色實線、紅色虛線、綠色點線;而形狀參 數( )的下降也使 PDF 呈現較厚尾的現象,變化由黑色實線、藍色虛線到紫色虛線。相

較於左偏的偏斜常態分配而言, 不論在變異或形狀的變動上皆比偏斜常態來的敏

感。

圖 3-2-2.3 左偏(圖左)與右偏(圖右)在不同參數下的 PDF

我們將依不同參數值來生成各種不同的對立假設分配,並與相對應的虛無假設分 配— 、 、 —求出 KLIC 值與 KS 統計量後,進行檢定力

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(1) 建立假說: 兩樣本來自相同母體 沒有差異

兩樣本來自不同母體 有差異 。

(2) 比較臨界值:理論上,兩樣本分配結構相同時,KLIC 與 KS 統計量皆為 0;而 當分配差異越大時,兩者皆隨之遞增,故以超過(大於)各自的 95%臨界值視為拒 絕兩分配相等的依據。

(3) 信心水準與檢定力:將上述之拒絕次數換算為此 10000 次模擬的比例,分為正

確拒絕 與錯誤拒絕 兩種情形,各代表

a. 拒絕 為真 信心水準 拒絕 為真 檢定力。

參、 樣本數比例對照

我們猜測藉由傾向分數來進行配對,配對後所得到的配對數的多寡應該與原始資料 中實驗組與對照組的分配結構有關。架構在這個想法之下,我們以為利用配對前實驗組 與對照組的觀察值所計算得到的 KLIC 值,或許可以做 為預估配對比率高低的一個先 行指標。如此一來,如果預測出來的配對比率不是很高的話,或許就不需要繼續進行效 果可能不大的配對步驟了。

為了瞭解配對比率是否與資料的原始分配有關,首先我們採用 Austin(2007)的建議,

藉由不同的迴歸係數( 、 、 )來隨機生成實驗組與對照組樣本[10]。圖 3-2-3 為 總樣本數為 2000 情況下,模擬樣本傾向分數的機率密度函數(PDF)圖,由圖左至右係數 分別為 、 、 ;黑色實線為實驗組,綠色虛線為對照組。上排為配對前的情況,

可以看到兩者傾向分數的 PDF 由左而右差異漸大;而在配對之後(如下排所示)可以看到 兩組之間分配幾乎一模一樣,顯示出非常良好的平衡結構。由於配對是以實驗組為主,

因此配對後的分配較近似於原始實驗組的結構靠近,不過相較於原始分配仍有些許差異,

尤其在兩樣本分配原先落差就很大的情況,差異會更加明顯。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-2-3 樣本數 2000 之模擬資料中,配對前後傾向分數 PDF 的變化

接著我們詴著觀察此三類樣本配對比率的差異,發現隨著原始兩組的差異增加,配 對比率會明顯下降,甚至減少幾乎一半以上,如表 3-2-3 最右一行所示,實驗組原先的 761 筆樣本中成功配對者只有 330 筆。由於配對樣本數相對而言過少,若據此做推論,

此結果可能有失充分。

表 3-2-3 樣本數 2000 之各係數對應樣本數前後比 係數

前 365 630 761

後 360 420 330

配對比例 0.9863 0.6667 0.4336

因此這一部分的模擬實驗中,我們希望可以藉由配對前後 KLIC 值以及 KS 統計量

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

(1) 隨機生成兩變量,分別為 與 。

(2) 視這兩變量為羅吉斯模型(logistic model)的解釋變項,藉以生成真實的傾向分數 PS。

(3) 以此傾向分數作為指派組別(Z)的真實機率,來產生實驗組別。

(4) 就這兩變量實驗組別的數據進行羅吉斯迴歸,取配適值為觀察的傾向分數 。

亦即

其中

兩變量分配: 、 各係數設定2: 、 ,

處理指標:實驗組 、對照組

2 截距項係數 之正負影響實驗組與對照組各數的多寡,負數表示實驗組個數少於對照組,因估計重在 實驗組平均處理效果(ATT),故這邊皆設定 。變量的係數( )分配結構相近程度,由 到 兩 組結構關係由高到低。

Distributions statistics KLIC1 KLIC2 KLIC3 KLIC4 KLIC5 KLIC6 KS percentile 95% 95% 95% 95% 95% 95% 95%

相關文件