• 沒有找到結果。

四個實例之涵蓋機率探討

第五章 實際資料驗證

5.4 四個實例之涵蓋機率探討

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

40

綜合以上結果,本研究所提出兩個估計共有物種數或共有字數的方法,在六 個案例中不管是抽出放回或者是抽出不放回下,在抽取比 Chao 還要少的樣本就 可以率先到真實共有物種數或共有字數。且本研究方法建立在無限母體進行抽樣,

其抽出放回類似在無限母體進行抽樣,實證資料抽出放回結果與第四章理論模擬 的結果相似,但實務上可利用抽出不放回進行共有物種數估計。不管從假設分配 模擬或是實際資料探討上,都驗證了本研究方法確實適合應用在實際情況估計共 有物種數上。

5.4 四個實例之涵蓋機率探討

涵蓋機率概念來至於,在每個樣本點重複 500 次模擬中,可得到 500 個 95%

信賴區間,其真實值落入 95%信賴區間的次數除以模擬次數即為所謂的涵蓋機率。

在上一節中雖然用本研究所提出之估計式可以估計到真實共有物種或共有字數,

但卻不知道何時停止抽樣就能估計的很準確。在現實例子中並不能永無止盡的抽 樣,有時受限於樣本蒐集困難、人力、成本等總總考量。所以在此以涵蓋機率的 角度探討,何時停止抽樣就可以準確估計到真實。

在抽出不放回下,樣本抽取太少會低估其真實值造成 95%信賴區間涵蓋率很 低,但樣本抽取太多會呈現高估情形其涵蓋率也會下降。在六個案例中,本研究 所提出之方法 ˆ12(1)

S

v 約抽取 40%左右樣本其 95%信賴區間涵蓋率會達到九成以上,

) 2 (

ˆ12

S

v 約抽取 50%樣本左右會其 95%信賴區間涵蓋率也會達九成以上,金庸小說 中【射鵰英雄傳】對【神鵰俠侶】比較特別,其 95%信賴區間涵蓋率最高的地方

) 1 (

ˆ12

S

v 約在抽取 30%左右的樣本,而 ˆ12( 2)

S

v 95%信賴區間涵蓋率最高處約在抽取 35%左右的樣本(圖 5.4-1、圖 5.4-2)。

有趣的發現是,在抽出放回中,金庸小說的兩個例子中, ˆ12(1)

S

v 和 ˆ12(2)

S

v 95%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

41

信賴區間涵蓋率最高的地方約是抽出不放回樣本數的 1.5 至 2 倍。【射鵰英雄傳】

對【神鵰俠侶】 ˆ12(1)

S

v 95%信賴區間涵蓋率最高的地方約在抽取 50%左右樣本,

為抽出不放回的 1.7 倍, ˆ12( 2)

S

v 95%信賴區間涵蓋率最高的地方約為抽取 70%左 右樣本,為抽出不放回的 2 倍。【笑傲江湖】對【雪山飛狐】 ˆ12(1)

S

v 95%信賴區間 涵蓋率最高的地方約為抽取 60%左右樣本,為抽出不放回的 1.5 倍, ˆ12(2)

S

v 95%

信賴區間涵蓋率最高的地方約在抽取 70%左右樣本,為抽出不放回的 2 倍。而其 他的案例像是台灣野生水鳥、巴拿馬螃蟹和巴洛柯羅島森林,其抽出放回 ˆ12(1)

S

v

95%信賴區間涵蓋率最高的地方約為抽取 80%左右樣本、95%信賴區間 ˆ12(2)

S

v 涵 蓋率最高的地方約為抽取 100%左右樣本,皆為抽出放回的 2 倍左右。

圖 5.4-1、抽出不放回下金庸小說和台灣野生水鳥涵蓋機率 註 1:虛線代表涵蓋機率達 95%左右所需抽樣比例

註 2:真實數值見附表 11、附表 13、附表 15

0 20 40 60 80 100

0.00.40.8

0 20 40 60 80 100

0.00.40.8

0 20 40 60 80 100

0.00.40.8

sample percentage

Cov. Pro.

金 庸小 說覆 蓋機 率 笑 傲江 湖 VS 雪山 飛狐 S^

12Chao2 S^

12v1

S^

12v2

0 20 40 60 80 100

0.00.40.8

0 20 40 60 80 100

0.00.40.8

0 20 40 60 80 100

0.00.40.8

sample percentage

Cov. Pro.

金 庸小 說估 覆蓋 機率 射 鵰英雄 傳 VS 神鵰 俠侶 S^

12Chao2 S^

12v1 S^

12v2

0 20 40 60 80 100

0.00.40.8

0 20 40 60 80 100

0.00.40.8

0 20 40 60 80 100

0.00.40.8

sample percentage

Cov. Pro.

台 灣野 生水 鳥覆 蓋機 率

S^ 12Chao2 S^

12v1 S^

12v2

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

43

圖 5.4-4、抽出放回下巴拿馬螃蟹和巴洛科羅拉多島森林涵蓋機率 註 1:虛線代表涵蓋機率達 95%左右所需抽樣比例

註 2:真實數值見附表 18、附表 20、附表 22

事實上在 500 次模擬中其平均估計值,和本研究所提出估計變異數在 500 次模擬中有 500 個估計變異數,取其平均所得的變異數計算其 95%信賴區間。在 抽出不放回下, ˆ12(1)

S

v 最少需要抽取 25%至 35%左右的樣本其真實共有物種數或 共有字數就會落入信賴區間,而 ˆ12( 2)

S

v 最少需要抽取 30%至 45%左右的樣本其真 實共有物種數或共有字數就會落入信賴區間。在抽出放回下 ˆ12(1)

S

v 最少需要抽取 30%至 50%左右的樣本其真實共有物種數或共有字數就會落入信賴區間,而

) 2 (

ˆ12

S

v 最少需要抽取 40%至 65%左右的樣本其真實共有物種數或共有字數就會落 入信賴區間(表 2)。

0 50 100 150 200

-0.20.41.0

0 50 100 150 200

-0.20.41.0

0 50 100 150 200

-0.20.41.0

0 50 100 150 200

-0.20.41.0

0 50 100 150 200

-0.20.41.0

sample percentage

Cov. Pro.

巴 拿馬 螃蟹 覆蓋 機率

S^ 12Chao2 S^

12v1(Est var.) S^

12v1(Sample var.) S^

12v2(Sample var.) S^

12v2(Est var.)

0 50 100 150 200

0.00.40.8

0 50 100 150 200

0.00.40.8

0 50 100 150 200

0.00.40.8

sample percentage

Cov. Pro.

巴 洛科 羅拉 多島 森林 覆蓋機 率 A區 VS AB區

S^

12Chao2 S^

12v1 S^

12v2

0 50 100 150 200 250 300 350

0.00.40.8

0 50 100 150 200 250 300 350

0.00.40.8

0 50 100 150 200 250 300 350

0.00.40.8

sample percentage

Cov. Pro.

巴 洛科 羅拉 多島 森林 覆蓋機 率 D區 VS AB區

S^

12Chao2 S^

12v1 S^

12v2

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

44

抽出不放回 抽出放回

) 1 (

ˆ12

S

v ˆ12( 2)

S

v ˆ12(1)

S

v ˆ12( 2)

S

v

金庸小說- 笑傲江湖 對 雪山飛狐 35% 45% 50% 65%

金庸小說-射鵰英雄傳 對 神鵰俠侶 25% 40% 40% 50%

台灣野生水鳥 25% 30% 30% 40%

巴拿馬螃蟹 25% 35% 35% 55%

巴洛科羅拉多島森林-A 區 對 AB 區 30% 40% 35% 55%

巴洛科羅拉多島森林-D 區 對 AB 區 25% 35% 40% 50%

表 2、95%信賴區間包含真實值最小抽樣百分比

在以上實例驗證中,未出現共有物種或字數機率在抽出放不回下,不管是 )

1(

n

v

或是

v

2(

n

)都呈現高估傾向樣本數越多高估情形越嚴重。而在抽出放回下 )

2(

n

v

能準確估計到真實機率且有不偏的趨勢,雖然

v

1(

n

)在抽出放回上有成高估 情形,但其高估情況不會太嚴重,且隨著樣本數增加而估計會趨於準確。總體來 說

v

2(

n

)會比

v

1(

n

)估計效果來的好,與理論模擬驗證結果一致。

在共有物種數或字數估計上 ˆ12(1)

S

v 會最先達到真實值再來為 ˆ12( 2)

S

v 最後為

) 2 (

ˆ12

S

Chao 抽出放回與否的結果都是如此,抽出放回情形下與理論模擬幾何分配參 假設下結果相仿。由點估計可以看出,本研究所提出方法確實能估計到真實共有 物種數或字數,但何時停止抽樣成了關鍵的問題。在母體觀測個體已知下,從涵 蓋機率的角度而言在抽出不放回下,ˆ12(1)

S

v 約需抽取最小群落的 40%左右,ˆ12(2)

S

v

約需抽取最小群落的 50%左右,在抽出放回下 ˆ12(1)

S

v 約需抽取最小群落的 80%左 右, ˆ12( 2)

S

v 約需抽取最小群落的 100%左右。但在母體觀測個體未知下,何時停 止抽樣即能準確估際是仍待克服的問題。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

45

相關文件