• 沒有找到結果。

兩母體共有物種數的估計及最佳停止點 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "兩母體共有物種數的估計及最佳停止點 - 政大學術集成"

Copied!
109
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計學系 碩士學位論文. 兩母體共有物種數的估計及最佳停止點 The Optimal Stopping Rule Estimating the Number of 政 for治. 大. 立Species of Two Populations Shared. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 研究生:蔡政珈 指導教授:余清祥 博士. 中華民國一百零二年七月.

(2) 謝詞 在政大就讀的這兩年時間雖然不長,但在學習過程中,系上老師們熱心地指 導使我受益良多,特別感謝我的指導教授余清祥老師,在研究過程中老師以循序 漸進方式給予建議與方向,老師不太會直接說該怎麼做、要做什麼,而是講解原 理與概念,讓我能順著線索找出正確的方向,即使遇到困難,老師也總能適時給 予建議,讓我能從不同的角度去思考問題與解決問題。也非常感謝擔任口試委員 的馬瀰嘉老師、黃逸輝老師與薛慧敏老師在口試時給予了非常多寶貴的建議,也 感謝其他給予我協助的朋友們,還有支持我完成研究所學業的家人。在此獻上由 衷的感謝。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(3) 摘要 在生態學與生物學上,物種數常作為生物多樣性的指標,以估計單一群體物 種數為例,較知名的方法首推 Good (1953)以在樣本中出現一次的物種為基礎, 提出的物種數估計方法堪稱的先驅,隨後許多文獻延伸 Good 的想法,發展出許 多的估計方法,例如 Burham and Overton (1978)的摺刀估計法,Chao and Lee (1992)則以涵蓋機率方式估計。相對而言,兩群體的共有物種數的研究少有人探 討,目前以 Chao et al. (2000)的估計式較為知名。 本研究參考 Good (1953)提出估計未發現物種出現機率的想法,估計未發現. 政 治 大 念,建立一階摺刀估計式與變異數,且另行以多項分配公式推導變異數估計式, 立 共有物種的機率,並以 Burham and Overton (1978)中應用摺刀法估計物種數的概. ‧ 國. 學. 進行電腦模擬與實際資料驗證並與 Chao et al. (2000)提出的共有物種估計式比較。 最後根據 Rasmussen and Starr (1979)以抽樣成本建立最適停止規則的概念,應用. ‧. 於本研究所提出的估計式,並經由電腦模擬找出抽樣成本與物種分佈均勻程度的. al. er. io. sit. y. Nat. 關聯,可作為設定停止規則的依據。. v. n. 關鍵詞:生物多樣性、共有物種數、摺刀法、最適停止規則、電腦模擬. Ch. engchi. i n U.

(4) Abstract The number of species is often used to measure the biodiversity of a population in ecology and biology. Good (1953) proposed a famous estimate for the number of species based on the probability of unseen species. Subsequently, many studies applied Good’s idea to create new estimation methods, For example, the Jackknife estimate by Burham and Overton (1978), and the estimate by using the sample coverage probability in Chao and Lee (1992) are two famous examples. However, not many studies focus on estimating the number of shared species of two populations,. 政 治 大 In this study, we modify立 Good’s idea and extend the Jackknife method of Burham. except the method by Chao et al. (2000).. ‧ 國. 學. and Overton (1978) to develop the estimate for the number of shared species of two populations. In addition, we also establish the variance formula of the estimator by. ‧. using the multinomial distribution. Subsequently, we use computer simulation and. sit. y. Nat. real data sets to evaluate the proposed method, and compare them with the estimator. n. al. er. io. by Chao et al. (2000). Finally, we adapt the idea of optimal stopping rule by. v. Rasmussen and Starr (1979) and combine it with the proposed jackknife estimate. We. Ch. engchi. i n U. found that using the sampling cost as the stopping rule is a feasible approach for estimating the number of shared species.. Key words: Biodiversity, Number of shared species, Jackknife estimate, Optimal stopping rule, Computer simulation.

(5) 目錄 第一章、. 緒論......................................................................................1. 第二章、. 文獻回顧............................................................................ 3. 第一節、. 抽樣方法與假設.................................................................................... 3. 第二節、. 符號定義................................................................................................ 4. 第三節、. 未出現物種發現機率-Good 估計式 .................................................... 5. 第四節、. 單一群體物種數估計............................................................................ 6. 壹、. Burham and Overton 估計式 .................................................................... 6. 貳、. Chao 估計式 .............................................................................................. 8. 政 治 大. 第五節、. 共有物種數估計-Chao 估計式 ............................................................. 9. 第六節、. 估計新物種的最適停止點.................................................................. 11. ‧ 國. 學. 第三章、. 立. 研究方法.................................................13 共有物種摺刀估計式- J ................................................................... 13. 第二節、. 共有物種摺刀估計式- J ................................................................... 16. 第三節、. 電腦模擬驗證...................................................................................... 17. ‧. 第一節、. sit. y. Nat. 貳、. 共有物種一階摺刀估計式...................................................................... 19. 參、. 變異數估計式.......................................................................................... 21. 第四章、. 摺刀估計式與 Chao 估計式 ................................................................... 25. n. al. er. 未發現共有物種機率.............................................................................. 18. io. 壹、. Ch. engchi. i n U. v. 第一節、. 電腦模擬驗證...................................................................................... 25. 第二節、. 實際資料驗證...................................................................................... 30. 第五章、. 最適停止規則.................................................................... 35. 第一節、. 抽樣停止點.......................................................................................... 35. 第二節、. 以共有物種數建立停止規則.............................................................. 38. 第六章、. 結論與建議.........................................................................43. 第一節、. 結論...................................................................................................... 43. 第二節、. 未來研究方向與建議.......................................................................... 45.

(6) 參考文獻...............................................................................47 附錄 ..... ..... .... ... ....... ..... .... ..... ... ... .. .. ..... .... ..... ... ..... .. ..... ..... .... ... 49 附錄一、. 摺刀估計式變異數推導...................................................................... 49. 附錄二、. 未發現共有物種機率估計值與真實值比值...................................... 52. 附錄三、. 幾何分配 Type1,參數α為 0.3 與 0.4 時涵蓋率 .............................. 53. 附錄四、. 實際資料不均勻程度.......................................................................... 54. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(7) 圖目錄 圖 3-1、. 物種出現次數分配類型 ......................................................................... 18. 圖 3-2、. 不同參數 α 下發現新共有物種實際機率值 ......................................... 18. 圖 3-3、. 發現新共有物種機率估計值偏誤 ......................................................... 19. 圖 3-4、. S. = 25,各一階摺刀估計值 .............................................................. 20. 圖 3-5、. S. = 50,各一階摺刀估計值 .............................................................. 20. 圖 3-6、. J 摺刀估計式各變異數值比較............................................................... 21. 圖 3-7、. J 各 95%信賴區間對S 各涵蓋率比較 ................................................. 22. 圖 3-8、. 摺刀估計式各變異數值比較 .............................................................. 23. 圖 3-9、. 各 95%信賴區間對. 立. = 25 ,各共有物種估計式比較............................ 25. 圖 4-2、. 幾何分配 Type1,. = 50 ,各共有物種估計式比較............................ 26. 圖 4-3、. 幾何分配 Type2,. = 25 ,各共有物種估計式比較............................ 27. 圖 4-4、. 幾何分配 Type2,. = 50 ,各共有物種估計式比較............................ 27. 圖 4-5、. 幾何分配 Type1,. = 50,各變異數值比較 ........................................ 28. 圖 4-6、. 幾何分配 Type1,. = 50,各涵蓋率比較 ............................................ 29. 圖 4-7、. 巴拿馬螃蟹與台灣野生水鳥資料物種次數分佈 ................................. 31. 圖 4-8、. 兩組巴洛科羅拉多島森林資料物種次數分佈 ..................................... 32. 圖 4-9、. 四組實際資料估計值 ............................................................................. 32. y. sit. n. er. io. al. ‧. ‧ 國. 幾何分配 Type1,. 學. 圖 4-1、. Nat. 治 政各涵蓋率比較 ................................................. 23 大. Ch. engchi. i n U. v. 圖 4-10、 四組實際資料變異數 ............................................................................. 33 圖 4-11、 四組實際資料涵蓋率 ............................................................................. 34 圖 5-1、. 幾何分配 Type1,. = 50,以 (n)與 (n)於各抽樣數停止次數 ....... 36. 圖 5-2、. 幾何分配 Type1,. = 50,以 (n)與 (n)停止的加權平均抽樣數 ... 37. 圖 5-3、. 以 (n)配 與 (n)配. 圖 5-4、. 以 (n)配 與 (n)配 1停止抽樣時對. 圖 5-5、. 不同機率門檻值以 (n)停止抽樣時配 對. 圖 5-6、. 以 (n)停止抽樣配 涵蓋率,參數α與機率門檻值對照 ................... 41. 停止抽樣時對. 的加權平均涵蓋率........... 39 的加權平均涵蓋率 ............ 39 的加權平均涵蓋率 .... 40.

(8) 圖 5-7、 圖 6-1、 附圖一、. (n)停止抽樣時配 涵蓋率,參數α與機率門檻值對照 ................... 42 以 (n)與 (n)停止抽樣配 對. 涵蓋率............................................. 46. = 50 發現新共有物種實際機率與估計機率比值......................... 52. 附圖二、. 各 95%信賴區間對. 各涵蓋率比較 ................................................. 53. 附圖三、. 各 95%信賴區間對. 各涵蓋率比較 ................................................. 53. 各共有物種估計值 95%信賴區間對. 立. 各涵蓋率比較 ........................ 53. 政 治 大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 附圖四、. Ch. engchi. i n U. v.

(9) 表目錄 表一、. 四組實際資料母體特性 ......................................................................... 31. 表二、. 實際資料各群體熵值與幾何分配參數α參考值 ................................... 54. 附表一、. 幾何分配 Type1 共有物種數 50 下v (n)未發現共有物種出現機率 .. 55. 附表二、. 幾何分配 Type1 共有物種數 50 下v (n)未發現共有物種出現機率 .. 56. 附表三、. 幾何分配 Type1 共有物種數 50 下 v(n)未發現共有物種出現機率 ... 57. 附表四、. 幾何分配 Type1 共有物種 25 下J 估計值 ............................................ 58. 附表五、. 幾何分配 Type1 共有物種 25 下J 估計值 ............................................ 59. 附表六、. 幾何分配 Type1 共有物種 50 下J 估計值 ............................................ 60. 附表七、. 幾何分配 Type1 共有物種 50 下 估計值 ............................................ 61. 附表八、. 幾何分配 Type1 共有物種數 50 下Var( ). 附表九、. 幾何分配 Type1 共有物種數 50 下Var( )值 ....................................... 63. 附表十、. 幾何分配 Type1 共有物種數 50 下Var( ). 立. 政 治 大. 值 ................................. 62. &. ‧. ‧ 國. 學. 值 ................................. 64. &. Nat. &. 涵蓋率 .............. 66. sit. 附表十二、幾何分配 Type1 共有物種數 50 下 使用Var( ). y. 附表十一、幾何分配 Type1 共有物種數 50 下Var( )值 ....................................... 65. n. al. er. io. 附表十三、幾何分配 Type1 共有物種數 50 下 使用 Var( )的涵蓋率 ............... 67. i n U. v. 附表十四、幾何分配 Type1 共有物種數 50 下 使用Var( ). Ch. engchi. &. 的涵蓋率.......... 68. 附表十五、幾何分配 Type1 共有物種數 50 下 使用Var( )的涵蓋率 ................ 69 附表十六、幾何分配 Type1 共有物種數 25 下. (. ) 值..................................... 70. 附表十七、幾何分配 Type1 共有物種數 50 下. (. ) 值..................................... 71. 附表十八、幾何分配 Type2 共有物種數 25 與 50 下 估計值 .............................. 72 附表十九、幾何分配 Type2 共有物種數 25 與 50 下 估計值 .............................. 73 附表二十、幾何分配 Type2 共有物種數 25 與 50 下. ) 值........................... 74. (. 附表二十一、幾何分配 Type1 共有物種數 50 下Var(. (. 附表二十二、幾何分配 Type1 共有物種數 50 下. ) 的涵蓋率..................... 76. (. ) ))值 ...................... 75. 附表二十三、巴拿馬螃蟹資料各共有物種估計式值 ............................................. 77 附表二十四、台灣野生水鳥資料各共有物種估計式值 ......................................... 78.

(10) 附表二十五巴洛科羅拉多島森林資料 A 區與 AB 區各共有物種估計式值 ......... 79 附表二十六、巴洛科羅拉多島森林資料 D 區與 AB 區各共有物種估計式值 ..... 80 附表二十七、巴拿馬螃蟹資料各共有物種估計式變異數值 ................................. 81 附表二十八、台灣野生水鳥資料各共估計式變異數值 ......................................... 82 附表二十九、巴洛科羅拉多島森林資料 A 區與 AB 區各估計式變異數值 ......... 83 附表三十、巴洛科羅拉多島森林資料 D 區與 AB 區各估計式變異數值 ............. 84 附表三十一、巴拿馬螃蟹資料各共有物種估計式涵蓋率 ..................................... 85 附表三十二、台灣野生水鳥資料各共有物種估計式涵蓋率 ................................. 86 附表三十三、巴洛科羅拉多島森林資料 A 區與 AB 區共有物種估計式涵蓋率 . 87. 政 治 大. 附表三十四、巴洛科羅拉多島森林資料 D 區與 AB 區共有物種估計式涵蓋率 . 88. 立. 附表三十五、幾何分配 Type1,. = 50,以 (n)判斷停止加權平均抽樣數......... 89. 附表三十七、幾何分配 Type1,. = 50,以 (n)停止與. 附表三十八、幾何分配 Type1,. = 50,以 ′ (n)停止與 對. 附表三十九、幾何分配 Type1,. = 50,以 (n)停止與 對. n. al. 附表四十二幾何分配 Type2,. 涵蓋率 ............... 92. y. 涵蓋率 ................ 93. sit. io. 附表四十一、幾何分配 Type2,. 涵蓋率 .............. 91. = 50,各α下以 ′ (n)停止與 對. er. Nat. 附表四十、幾何分配 Type1, . 對. ‧. ‧ 國. = 50,以 ′ (n)判斷停止加權平均抽樣數 ....... 90. 學. 附表三十六、幾何分配 Type1,. = 50,各α下以 ′ (n)停止與 對. v ni. Ch = 50,各α下以 ′ (n)停止與 engchi U. 對. 涵蓋率 ........ 94 涵蓋率 ... 96 涵蓋率......... 97. 附表四十三、Type1,. = 50, 各機率門檻值下達涵蓋率差異對應之參數α ...... 98. 附表四十四、Type2,. = 50, 各機率門檻值下達涵蓋率差異對應之參數α ..... 99.

(11) 第一章、. 緒論. 隨著人口與資源消耗近年來大幅增加,加上氣候變遷與各種人為污染,造成 大量生物死亡,甚至許多物種消失,一時之間生態多樣性成為熱門議題。事實上, 多樣性影響層面很廣,以人類的角度來看,生物多樣性也影響著農業、醫學、科 技、文化等層面,甚至是近年廣為人知的社群及網路理論,知名網路理論學家 Albert-László Barabási 即指出,社群外的人其重要性高於有緊密連結的社群內朋 友,證明多樣性對任何團體都非常重要。評估生物多樣性最直接的方式是觀察物 種個數,但實際上,要全盤記錄所有物種幾乎不可能,所耗費的時間及成本可觀,. 政 治 大 and Fitzpatrick (1993)整理了估計物種個數的相關研究, 的研究相當豐富,Bunge 立. 更遑論有些區域的物種人跡罕至,故需藉由抽樣方法來估計物種個數。這個領域. ‧ 國. 學. 提供非常完整的參考文獻。. 這方面的研究亦可以應用於其他領域,譬如文學領域上,Efron and Thisted. ‧. (1976)以對莎士比亞作品抽樣來推估莎士比亞到底知道多少詞彙。科技領域最常. sit. y. Nat. 被大眾使用的網路搜尋引擎即是將關鍵字當作一個物種與網路資料做比對,找出. al. er. io. 符合的網站,或是以麥克風收音即可在網路資料庫配對,找出正確歌名的軟體,. n. 均是生物多樣性各方面的應用。. Ch. engchi. i n U. v. 對單一群體推估時,只要專注於該群體給予的資訊即可進行推估,但在兩群 體研究中,同一物種在不同群體可能有不同的資訊,例如在一群中為豐富物種, 在另一群可能為罕見。兩群體結構上的不同,也會造成估計上的差異,需考慮不 同的組合對估計造成的影響,或是在抽樣時如何選取各群樣本數,以什麼方式抽 樣才能在兩群體均獲得需要的資訊,可藉由兩群體共有物種數,推測兩群相似程 度,做群體與群體間的比較,以網路引擎為例,是以關鍵字來尋找符合的網站, 而兩群體的應用則可以輸入網址,找到相同類型的網站,不用思考該類網站需以 什麼關鍵字搜尋,相較於單一群體的研究,目前兩群體研究較少,目前較知名的 為 Chao et al. (2000)所提出的估計方法。 1.

(12) 實際上做生物多樣性研究時,需要考慮的不只是估計與抽樣的方式,由於樣 本不可能無限抽取,在考量成本因素下,如何決定抽多少樣本,也是我們關心的 問題,故我們嘗試尋找一些可作為參考的指標,在我們可以觀測或是可以推估的 資訊中,是否有某種關聯幫助我們將可掌握的資訊作為抽樣時的依據。 本研究第二章先定義相關符號,再回顧未出現物種發現機率、單一群體物種 數估計、兩群體共有物種估計與估計新物種數時最適停止規則等相關文獻,於第 三章本研究延伸 Burham and Overton (1978)以摺刀估計式估計單一群體物種個數 的想法,建立兩群體共有物種數的摺刀估計式與變異數,亦以公式直接推導摺刀. 治 政 大 的估計式比較,並以電腦模擬與四筆實際資料作探討 ,第五章則以 Rasmussen and 立. 估計式的變異數,並以電腦模擬驗證,第四章為本研究與 Chao et al. (2000)提出. Starr (1979)以抽樣成本建立最適停止規則的概念,與本研究提出的估計方法結合,. ‧ 國. 學. 並以電腦模擬找出群體物種分配與抽樣成本的關係。最後一章則總結本研究結果. ‧. 並提出未來可行研究方向。. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(13) 第二章、. 文獻回顧. 物種估計有許多不同的方向,Bunge and Fitzpatrick (1993)的文獻回顧中做了 完整的整理,並依是否為有限母體與抽樣分配分別統整說明,亦包含貝氏概念與 資料分析方法,本文採用其中無母數方法以及多項分配為抽樣方法,先回顧關於 物種估計與共有物種估計的相關文獻。首先先介紹抽樣方式與符號定義,再依序 回顧單一群體未出現物種發現機率、單一群體物種數估計、兩群體共有物種數估 計,與估計新物種時最適停止規則。. 治. 政 第一節、 抽樣方法與假設. 立. 大. 單一群體狀況下,假設物種數為 S,各物種出現機率為 P={ }. ‧ 國. = 1,以取後放回方式抽取 n 個樣本, ( )表示 i 物種於 n 個樣本中出現. 次 數 , 且 ∑ ( ), … ,. ( )=. , 故 此 S 物 種 出 現 次 數 為 多 項 分 配. ( ) ) ~ Multinomial(n,. ,…,. ‧. (. ,且. 學. ∑. ,…,. )。. y. Nat. n. al. er. io. 取n個樣本:. sit. 兩群體狀況下,假設群體一物種數為 ,群體二物種數為 ,以取後放回抽. 令群體一各物種出現機率為 P={ }. Ch. 於 n 個樣本中出現次數,且∑ 項分配 . ( ), … ,. ,…,. ( ) ~ Multinomial( ,. 個樣本中出現次數,且∑. 項分配 Y ( ), … ,. v = 1,. ( )表示 i 物種. e( n) =g c,故此群體一的S hi 物種出現次數為多. 令群體二各物種出現機率為 Q={ } 於. i n U. ,且∑. ,…,. ,…,. )。. ,且∑. = 1, ( )表示 i 物種. Y ( ) = ,故此群體二的S 物種出現次數為多. ( ) ~ Multinomial( ,. 3. ,…,. )。.

(14) 第二節、 符號定義 單一群體符號定義: S:群體物種數 S:樣本所觀測到的物種數 :物種 i 出現機率,. +. ⋯+. =1. n:抽取的樣本數 :i 物種在樣本中出現個數 :樣本中恰出現 r 次之物種數,∑. 政 治 大. 立. 兩群體符號定義:. =. ‧ 國. 學. :群體一物種個數. :群體二物種個數. ‧. ⋯+. =1. :群體二第 i 物種出現機率,. +. ⋯+. =1. n. al. er. io. n:各群體所抽取樣本數. sit. +. Nat. :群體一第 i 物種出現機率,. y. :兩群體共有物種個數. Ch. engchi. ( ):群體一中第 i 物種在樣本中出現個數 (n):群體二中第 i 物種在樣本中出現個數 :樣本中共有物種個數 :樣本中在任一群恰出現 k 次的物種數 :∑. [ ( ) = 1, ( ) > 0]. :∑. [ ( ) > 0, ( ) = 1]. :∑. [ ( ) = 1, ( ) = 1]. 4. i n U. v.

(15) 第三節、 未出現物種發現機率-Good 估計式 本節回顧 Good (1953) 所提出的未出現物種發現機率,以所觀測到的物種出 現次數來推得發現未出現物種的機率。Good (1953)首先提出樣本中任一個出現 r 次(r > 0)的物種在群體中的出現機率 ,其期望值近似值為 1 ( + 1) E( ) ≅ . ( . ). 由(2.1)式可一般化至 的 m 階動差近似為 E. ≅. ( +. )(. ). ( . ). = t(t − 1) … (t − m + 1) ) 治 政 大 之期望值近似為 由(2.1)式與(2.2)式得樣本中所有出現 r 次的物種的出現機率 立 ( + 1) 其中r = 1,2,3, . . ; m = 0,1,2, … ; t (. ). ‧ 國. ( . ). 學. ( )≅. 由(2.3)式可得出現 r 次以上物種的出現機率期望值近似為. Nat. ⋯. n. al. = 1 − ,而樣本中未出現物種的發. er. io. 現機率近似為. ( . ). sit. 所以樣本中物種的出現機率近似為. +⋯. y. + ( + 2). ‧. ( + 1). v i n C h v (n) = ( engchi U. 5. . ).

(16) 第四節、 單一群體物種數估計 壹、Burham and Overton 估計式 摺刀法概念最早由 Quenouille (1949)所提出,藉由分割樣本並反覆運算以減 少估計式的偏誤,Tuckey (1958)首先為此法命名為摺刀法,並加以推廣於統計量 的偏誤並計算其變異數,由於此法不需模型假設,可利用電腦反覆運算,已成為 常用之統計分析方法。 先以一階摺刀法介紹摺刀法的概念與運算,首先假設預估計參數為θ,其估 計式為觀測值函數θ( , (1) 移除一個觀測值. ,…,. ),計算步驟如下:. 政 治 大. 。. 立. ),. = θ( , … ,. (3) 計算虛擬值(pseudo value) θ = nθ − ( − 1)θ(. ),. ,. ,…,. )。. 學. ‧ 國. (2) 計算移除觀測值 後估計式函數為 θ(. 。. 若樣本數為 n,每次移除一個觀測值,重複以上步驟共移除 n 次,則一階摺刀法. y. 1. io. al. θ = nθ − ( − 1)θ(. n. 其中. sit. Nat. =. ) (. . ). er. 為:. ‧. 估計. Ch θ(. engchi ). =. 1. θ(. i n U. v. ),. 一階摺刀法變異數估計式為 Var. (. =. −θ ) ( . ) ( − 1). 二階摺刀法則是一次移除兩個觀測值,Schucany et al. (1971)將其推廣至高階摺刀 估計式,高階摺刀法可修正較多偏誤,但通常也有較高的變異。Burham 在他自 己的論文與 Sharot (1976)將 k 階摺刀法表示為. 6.

(17) 1 !. =. (−1). i. ( − ) θ(. ) (. . ). Burham and Overton (1978)指出物種出現次數為群體物種數的充分統計量,並將 摺刀估計式寫成物種出現次數的線性組合,以一階摺刀法為例,在單一群體狀況 下,欲估計參數θ為群體物種數 S,其估計式θ為觀測到物種數 ,令. = 1為第. i 次抽取樣本為恰出現一次物種,. = 0則為第 i 次抽取樣本為出現兩次以上物. 種,故θ(. − ∑. ),. =. ,θ(. −. ). =. 式可得群體物種數的一階摺刀估計式. ,令 k=1 代入(2.8). −. :. −1 治 政 = + ( . 大. 立. ). ) 寫成一般化線性組合形式. θ(. ). =. 學. ‧ 國. 並可將θ(. =. − −. −. ‧. Burham and Overton (1978)列出前五階摺刀估計式,在此僅簡略列至三階. =. +. 2 −3. −. 3 −6. y. −(. 可進一步將 = ∑. sit. al. +. 3. 代入. 例如:一階摺刀估計式 =. ( − 2). ( − 1). er. +. . n. =. −1. io. +. Nat. =. −1. Ch. e n g c −h i (. − 15 + 19 ) ( − 1). =∑. ,使. iv n U( − 3). − 1)( − 3). 為物種出現次數的線性組合,. 可寫成 =. ,. =. 2 −1. 變異數估計式為 Var. =. −. 7. ,. =⋯=. =1.

(18) 貳、Chao 估計式 Chao and Lee (1992) 提出以樣本涵蓋率(sample coverage)估計群體物種。若 隨機樣本來自多項分配Multinomial(n,. ,…,. 種的機率總和,即樣本涵蓋率 C = ∑. ),其樣本涵蓋率定義為已發現物. ( ( ) > 0),但C是一個隨機變數且. 隨著樣本變化而改變,假設抽取 n 個樣本,Good (1953)所提出的(2.5)式為未出現 物種發現機率估計式,可用來估計C,則樣本涵蓋率估計式C為 C=1−. ( .. ). 在所有物種出現機率相等時,Darroch and Ratcliff (1980)首先提出以樣本涵蓋率. 政 治 大. 估計群體數 S,估計式為. 立. ). ‧ 國. 學. S = ( . C. 但實務上,所有物種出現機率相等的假設常不適用,在物種間出現機率不相等時, 修正,物種估計式為 =. (1 − ). +. ( .. ). n. a=l. Ch. . er. io. sit. ). y. Nat. 其中. (. ‧. 以變異係數. ∑. ( − 1) , 0 ( − 1). engchi. i n U. v. Chao et al. (1993)指出 γ ≥ 1時,可以稍微修改(2.12)式,由於出現很多次的物種 很容易被抽到,所以攜帶很少未出現物種的訊息,以實務的觀點是可以被忽略的, 因此只要專注於出現不太常見的物種即可,若出現次數大於 k,則為常見物種, =∑. 建議 k 可設為 10,先定義. ,. =. ,. −. ∗. =1−∑. ,. 則(2.11)式修改為 ∗. =. +. ∗. ( .. ). (2.12)式修改為 (. ). =. + 8. ∗. +. ∗ ∗. ( .. ).

(19) 其中 ∗. =. ∑. +. ( − 1). ∗. − 1 , 0. ∑. 第五節、 共有物種數估計-Chao 估計式 共有物種數的推估在文獻上較知名的為 Chao et al. (2000) 以延續 Chao and. 政 治 大 將群體分為豐富(abundant)物種與罕見(rare)物種,以罕見物種與樣本涵蓋率推估 立. Lee. (1993)的概念,拓展至兩群體共有物種的估計,與估計單群體時概念相同,. ‧ 國. 學. 未出現物種數,再以變異係數修正物種間出現機率差異太大可能造成的高估現象, 假設群體一物種數為 ,抽取n 個樣本,物種出現次數 . ) 服從Multinomial(n ,. al. n. 為 表示。. ,此節將 (. 物種 ) 簡化. ),不失一般性假設前 )簡化為 表示, (. er. io. 為共有物種,樣本中共有物種數為. ,…,. y. (. ) 服從. sit. ) , … ,. (. ),群體二物種數為 ,抽取n 個樣本,物種出現次數. ,…,. Nat. (. ), … ,. ‧. Multinomial(n ,. (. Ch. engchi. i n U. v. 令共有物種中的罕見物種為樣本中於兩群出現次數均小於等於 10 的物種, 即共有物種中的罕見物種數 有物種數為. (. ). =. −. (sub-community),物種數為 ∗. 滿足 ∑ ∑. ∗. ∗. ∗. =. ∗. ∗. =. 1−∑. = 1,. ∗. (. {. ) (. ∗. =∑. ≤ 10,0 <. ≤ 10),豐富共. ),定義群體一扣除豐富共有物種為第一子群. =S −. ∗[ (. (0 <. ),則第一子群中各物種出現機率為. (. > 10. 為第一子群剩餘的. ∗. 。. 9. > 10)]}. , = 1, … ,. ∗. 個樣本中,第 物種出現次數,且.

(20) 同理,定義群體二扣除豐富共有物種為第二子群(sub-community),物種數為 ∗. =S −. ∗. 滿足 ∑ ∑. ∗. ∗. ) ,則第二子群中各物種出現機率為. (. ∗. ∗. ∗. =. =. {. 1−∑ ∗. = 1,. ∗[ (. ∗. 為第二子群剩餘的. ∗. 個樣本中,第 物種出現次數,且. ). =. ∗. 。兩子群共有物種數為. (. > 10)]}. , = 1, … ,. > 10. −. ) ,兩子群共有物種. (. 樣本涵蓋率定義為 ∗. =. (. ∑. ). ∗ ∗ ∗. (. ∗. > 0,. ∗. > 0). 治 政 大 兩子群共有物種樣本涵蓋率估計式為 立 (. ∑. ∗. ( ). ∗. = 1) − (. =. ∗. ∗ ∗. = 1)]. ( .. ). ( .. ). ) 全相等時, 則共有物種估計式為. (. ). =. (. ). (. +. ) 不全相等時,先定義. al. n ∗. (. ). y. (. sit. (. ). =. (. ∑. io. (. ∗. = 1) +. (. = 1,. = C h> 0) , engchi U ∗. (. er. ‧ 國 ∗. , i = 1, … ,. ∗. (. ). ‧. ∗ ∗. ∗. , i = 1, … ,. ∗. [. Nat. 若. ∗ ∗. ). ( .. ∗ ∗. 學. =1− 若. (. ∑. ). v ni ( ). ∗. > 0,. ∗. = 1). ). (. =. ∗. =. ∗. = 1). 共有物種估計式為 (. ). =. (. ). (. +. ). +. 1. Γ +. Γ +. Γ. ( .. 其中令 =. (. ). Γ. ∗. ∗. , =. Γ =. (. ∗. (. ∗. − 1). ∗ ∗. (. ) − 1). − 1)(. ∗. − 1 , − 10. Γ =. (. ∗. − 1). − Γ − Γ ,. − 1 ,. ).

(21) 而 (. ). (. ∗. = (. . ,. ). (. ∗. =. , (. ∗. (. ∗. − 1) (. ∗. ,. ,. ). ∗ ∗. =. (. ∗. − 1),. ). ∗. =. ∗ ∗. =. ). =. ). (. ∗. − 1). ∗. (. ∗. − 1). 政 治 大 第六節、 估計新物種的最適停止點 立. ‧ 國. 學. 估計新物種時常以取後放回抽樣方式記錄所抽到物種,但欲觀測全部物種所 耗費的成本通常很高,若有出現機率很低的物種,則所需樣本數更為可觀,何時. ‧. 停止抽取樣本是實務上常碰到的問題,Rasmussen and Starr (1979)提出以未發現. y. sit. Nat. 物種機率與抽樣成本的概念構築一個最適停止的規則。. al. = 1,一次抽. er. io. 首先假設單一群體中,各物種出現機率為 , = 1,2, …,∑. v. n. 取一個樣本,定義函數d(n) = 為抽取第 n 個樣本時已觀測到j個物種,報酬函數. Ch. engchi. i n U. h(j)為一非遞減函數且滿足h(0) < ∞和|h(k)| < ∞,. = 1,2, …,每次抽樣成本為 c,. 則抽了 n 個樣本的收益函數ω(n) = h[d(n)] − cn , n = 1,2, …,假設( ,. , … )已. 知,定義未發現物種出現機率為 ( ( ) = 0) ( .. u(n) =. ). 此為給定前 n 次抽樣下的條件機率,Rasmussen and Starr (1979)提出,當 h(k + 1) − h(k),. = 1,2, …為非遞增函數時,最佳停止點為. s = inf. ≥ 0: ℎ( ( ) + 1) − ℎ. ( ). ( )≤. ( .. ). 且對於任意時間t ≥ 0,E[ω(s)] = sup E[ω(t)] 。 但在實務上( ,. , … )通常未知,所以使用 Good(1953)所提出(2.5)式v (n)取 11.

(22) 代 u(n),故此時最佳停止點為 ≥ 0: ℎ( ( ) + 1) − ℎ. s = inf. ( ) v (n) ≤. ( .. ) . 下一章將藉由 Burham and Overton (1978)所提出的概念為基礎,衍伸至兩群 體共有物種的推估與建立變異數,此外也將由估計式直接推導物種服從多項分配 下的變異數,並以電腦模擬驗證。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 12. i n U. v.

(23) 第三章、. 研究方法. 此章我們以無母數方法提出三種共有物種估計式,並提出變異數估計方式, 最後以電腦模擬與實際資料作驗證。第一部分以 Yue and Clayton (2012)所提出的 未出現共有物種機率估計式並延伸 Burham and Overton (1978)一階摺刀法,建立 共有物種估計式與變異數。第二節我們直接以 Good (1953)提出未出現共有物種 機率的概念,直接各自應用於兩群體並以 Burham and Overton (1978)的想法建立 變異數與公式推導之變異數,另外在假設物種出現次數服從多項分配下,本研究 針對前兩節估計式提出以公式推導之變異數估計式。在建立各共有物種估計式與. 政 治 大. 變異數後,於第三節將各估計式以電腦模擬與實際資料驗證與比較。. 立. ‧ 國. 學. 第一節、 共有物種摺刀估計式-. 在單一群體時,Good (1953)提出未出現共有物種發現之機率期望值為. ‧. (1 −. ) ,其估計式為(2.5)式u′(n) = 。在兩群體時,假設各. y. Nat. io. ( ,…,. ),群體二各物種出現機率為. er. 抽取 n 個樣本,群體一各物種出現機率為( , … ,. sit. E[u(n)] = ∑. ),在各抽取 n 個樣本後,樣本中未發現之共有物種情況有三種,第一. al. n. v i n 種為在兩群體均未出現,第二種為在群體一已出現,但在群體二未出現,第三種 Ch engchi U. 為在群體一未出現,而在群體二已出現,Yue and Clayton (2012)提出以各抽取 n. 個樣本後,未出現共有物種發現機率為. × [ ( )=. (n) =. +. {. ( ) = 0]. × [ ( ) = 0, ( ) > 0] +. 其期望值為. 13. × [ ( ) > 0, ( ) = 0]} ( . ).

(24) { (1 −. E[v(n)] =. ). (1 −. ). ) [1 − (1 −. + (1 − =. (1 −. ) +. +. (1 −. ) (1 −. =. (1 −. ) +. +. [(1 −. ). ) ]+ (1 −. −. (1 −. −. ). ). 政 治 大 ). − (1 −. ) ]. ) (1 −. ( + 1) = 0] − [ ( ) =. { [ ( + 1) =. ‧. ‧ 國. 學. ≅ E[u (n)] + E[u (n)] +. ) ]} . ). ) (. 立(1 −. ) [1 − (1 −. (1 −. Nat. y. ( ) = 0]} ( . ). Ch. [ ( ) = 1]. (n) =. −. iv n U [ (. n. al. er. io. 種機率估計式為. sit. 將 Good (1953)的未出現物種機率估計式(2.5)式代入(3.2)式,可得未出現共有物. +. e [n (g)c=h1]i +. [ ( ) = 0, ( ) = 1]. −. )=. ( ) = 1]. [ ( ) = 1, ( ) = 0]. ( . ). 延伸 Burham and Overton (1978)的一階摺刀估計式的計算方式,令共有物種 估計式函數為共有物種觀測值θ =. ,. 的. 定義為. = [ ( ) = 1] + [ ( ) = 1] + [ ( ) =. ( ) = 1]. − [ ( ) = 0, ( ) = 1] − [ ( ) = 1, ( ) = 0] 簡化後為 = [ ( ) = 1, ( ) > 0] + [ ( ) > 0, ( ) = 1] + [ ( ) = 14. ( ) = 1].

(25) 移除一組樣本的估計函數為 θ(. ),. =. ,代入(2.6)式得共有物種一階摺刀. −. 估計式為 =. −1. −. −. =. −1. +. 展開後得 =. −1. +. (. +. ) ( . ). +. 根據 Burham and Overton (1978)的想法,將 轉換成 的線性組合,則 =. +. −1. (. +. +. 立. 其中. −1. (. 政 治 大. +. ‧ 國. ( − 1)(. +. ). +. +. +. 學. =. )=. + 1 ,. =⋯=. )=. =1. 再根據 Burham and Overton (1978)變異數推導過程可得 變異數估計式為. ‧. =. − ( . ). y. &. sit. Nat. Var( ). n. al. er. io. 本研究另外以多項分配公式直接推導 變異數估計式Var( ),由於算式較繁雜,. i n U. v. 請見附錄一,另外 (n)在兩群體樣本中幾乎都出現一次的共有物種,可能會大. Ch. engchi. 於 1,但此情況較出現機率很低,不太影響估計。。. 15.

(26) 第二節、 共有物種摺刀估計式本節將直接以 Good (1953)以出現一次種次數來估計未出現物種的出現機率 的想法,分別對兩群估計,則未發現共有物種出現機率估計式為 [ ( ) = 1, ( ) > 0]. (n) =. [ ( ) > 0, ( ) = 1]. +. ( . ). 並直接以 Burham and Overton (1978)的一階摺刀法的概念延伸,將兩群樣本兩兩 分組為成對樣本,一次移除一組樣本,將 ′ 定義為 ′ = [ ( ) = 1, ( ) > 0] + [ ( ) > 0, ( ) = 1]. 政 治 大. 仿照上一節作法,代入(2.6)式得共有物種一階摺刀估計式為 −. 立− 1. 展開後得. − ′. =. −1. +. ′. 學. =. −1. +. (. ‧. ‧ 國. =. ) ( . ). +. y. Nat. al. (. 其中 =. +. )=. Ch. ( − 1)(. +. −1. (. engchi U ). +. + 1 ,. er. −1. n. +. io. =. sit. 並根據 Burham and Overton (1978)的想法,將 轉換成 的線性組合,則 +. v ni. =⋯=. )=. =1. 再根據 Burham and Overton (1978)變異數推導過程可得 變異數估計式為 Var( ). &. =. − ( . ). 本研究另外以多項分配公式直接推導 變異數估計式Var( ),由於算式較繁雜, 請見附錄一,另外 (n)在兩群體樣本中幾乎都出現一次的共有物種,可能會大 於 1,但此情況較出現機率很低,不太影響估計。. 16.

(27) 第三節、 電腦模擬驗證 此節將假設兩群體物種機率均服從幾何分配,參數為 α,物種機率密度函數 為 (x) ∝ α(1 − α). = 1,2, …,兩群體物種數均假設為 100 種,各抽取 n 個樣. ,. 本,參數 α 越小則樣本分佈越均勻,參數 α 越大則樣本分佈越極端,本研究於此 節模擬參數 α 為 0.1 至 0.4,共有物種在兩群體均為前 25 種或前 50 種,並以蒙 地卡羅法模擬 1000 次,將依序以發現共有物種出現機率、共有物種摺刀估計式、 各變異數估計式進行電腦模擬以驗證其合理性。 在模擬前先以 Yue and Clayton (2001)的想法,將物種數分佈類型分為三種,. 政 治 大 於另一群是罕見物種,第三類為共有物種在各群均是罕見物種,電腦模擬中,假 立. 第一類型為共有物種在各群均是豐富物種,第二類為共有物種在一群是豐富物種,. ,. ‧ 國. α). 學. 設 各 群 體 物種 出現 次 數 機 率服 從幾 何 分 配 ,機 率密 度 函 數 為 ( ) = α(1 − = 1,2, …,物種數分佈第一類型的群體一中,令 ́ = ( = ), = 1, … ,. ,. ‧. 為了使機率總合為一,將其正規化後為 , = 1, … , ,為群體一各物種的出現機. al. ,為了使機率總合為一,將其正規化後為. ,為群體二各物種的出現機率,前. n. , = 1, … ,. sit. io. 二中,令 ́ = ( = ), = 1, … ,. y. 種為共有物種,在物種數分佈第一類型的群體. Ch. engchi. er. Nat. 率,不失一般性情況下,使前. v. 種為共有物種。物種數分佈. i n U. 第二類型,群體一各物種出現機率不變,但群體二的共有物種機率為 的後 物種數分佈第三類型,群體一的共有物種機率為 的後 種機率為 的後. 個。. 個,群體二的共有物. 個。例如:假設群體一、群體二物種數均為 100 種,共有物. 種數為 25 種,幾何分配參數α分別為 0.1 與 0.2,則各物種分佈類型如圖 3-1,圖 中前 25 物種為共有物種。. 17.

(28) 0.10. group1 group2. 0.00. probability. 0.20. Type 1. 0. 20. 40. 60. 80. 100. 80. 100. 80. 100. species. 0.10. group1 group2. 0.00. probability. 0.20. Type 2. 0. 20. 40. 60 species. 0.10. group1 group2. 政 治 大. 0.00. probability. 0.20. Type 3. 0. 20. 40. 60. 立圖3-1、 物種出現次數分配類型 species. ‧ 國. 學. 壹、未發現共有物種機率. ‧. 首先以電腦模擬驗證未發現共有物種機率估計式 (n) (3.3)式和 (n) (3.6). y. Nat. sit. 是否不偏,假設物種分布為幾何分配 Type1,共物種數為 50,圖 3-1 為未發現共. n. al. er. io. 有物種機率 (n)真實值,計算各發現新共有物種機率估計式的偏誤,如圖 3-2 所. i n U. v. 示, ( )較 (n)具高估現象,但隨樣本數增加,各發現新共有物種機率估計值. Ch. engchi. 的偏誤均會收斂至 0,符合大樣本下不偏性質。. 0.12. v1n α= 0.3 α= 0.4. 0.06 0.04 0.02 0.00. Bias. 0.08. 0.10. α= 0.1 α= 0.2. 100. 1000. 2000. 3000. 4000. 5000. 6000. 7000. 8000. 9000. n. 圖3-2、 不同參數 α 下發現新共有物種實際機率值 18. 10000.

(29) v1n. 0.010. α= 0.3 α= 0.4. 0.000. Bias. 0.020. α= 0.1 α= 0.2. 100. 700. 1500. 3000. 4000. 5000. 6000. 8000. 10000. n. 0.0000 0.0010. α= 0.1 α= 0.2. 100. 700. 立. 1500. 3000. α= 0.3 α= 0.4. 政 治 大 4000. 5000. 6000. 8000. 10000. n. 圖3-3、 發現新共有物種機率估計值偏誤. 學. ‧ 國. -0.0015. Bias. v2n. 本研究亦以未發現共有物種機率估計值與真實值的比值來看兩這是否有明. ‧. 顯差異,請見附錄二。. sit. y. Nat. n. al. er. io. 貳、共有物種一階摺刀估計式. i n U. v. 在此部分我們探討各共有物種一階摺刀估計式 (3.4)式與 (3.7)式的特性,. Ch. engchi. 並確認與大樣本下不偏性質。假設共有物種數. = 25,參數 α 為 0.1 至 0.4,物. 種分佈為 Type1 進行模擬,如圖 3-4 所示,兩種摺刀估計式在物種分佈較均勻的 時候均有高估的現象,越均勻高估現象越明顯,不過也越快收斂至真實值,但樣 本分佈較不均勻時,例如參數α = 0.3時,雖然高估現象不明顯,但需要較多的 樣本數才能收斂至真實值。假設共有物種數. = 50,參數 α 為 0.1 至 0.4 進行. 模擬,如圖 3-5 所示,在共有物種數增加後,各參數 α 設定下各摺刀估計式均需 要更多樣本數以達真實值。. 19.

(30) 30 20 5 10. real number α= 0.1 α= 0.2. α= 0.3 α= 0.4. 0. Number of Shared Species. J1. 100. 10000. 20000. 30000. 40000. 50000. n. 30 20 5 10. real number α= 0.1 α= 0.2. 政 治 大. 0. 100. 10000. 20000. 立. = 25,各一階摺刀估計值. ‧ 國. ‧. J1. y. sit. 30 0 10. io. al. real number α= 0.1 α= 0.2. n. 10000. 15000. 20000. Ch. 25000. 30000. n. engchi U. v ni 35000. 40000. 45000. α= 0.3 α= 0.4 50000. J2. 30. 50. 100. 50000. 學. 50. 40000. Nat. Number of Shared Species. 圖3-4、. real number α= 0.1 α= 0.2. 0 10. Number of Shared Species. 30000. α= 0.3 α= 0.4. n. er. Number of Shared Species. J2. 100. 10000. 15000. 20000. 25000. 30000. 35000. 40000. n. 圖3-5、. = 50,各一階摺刀估計值. 20. 45000. α= 0.3 α= 0.4 50000.

(31) 參、變異數估計式 本研究使用的變異數估計式有 Burham and Overton (1978)提出的變異數估計 式與本研究提出以多項分配公式直接推導的變異數估計式,在電腦模擬時亦以蒙 地卡羅法模擬 1000 次並計算估計式變異數值,並以摺刀估計值與各變異數值建 立 95%信賴區間,比較各信賴區間包含共有物種的樣本涵蓋率。 首先先探討 各變異數估計式,假設兩群體物種數均 100,共有物種數 50, 在四種物種分佈為不同參數的幾何分配,物種分佈為 Type1 類型,我們使用蒙地 ( )、本研究衍伸 Burnham and Overton. 卡羅方法計算出 估計式的變異數值. 治 政 ,與本研究所提出使用公式所計算變異 大 ),如圖 3-6 所示,兩種變異數估計值,均與蒙地卡羅所計算的 變 立. (1978) 所提出變異數的估計式Var( ) 數估計值Var(. ( )差距不大,特別是以公式計算出的Var( )更接近. α = 0.1時外, Var( ). &. 稍微低估了 的變異數,但在參數α = 0.2時可看出各變. 異數均有逐漸下降且有相互接近的趨勢。. Nat. y. 10000. 14000. er. 15. engchi. i n U. v. 18000. 1e+02. 2e+04. 4e+04. 6e+04 n. α=0.3. α=0.4. 8e+04. 1e+05. 16. 11. n. 9. 10. Var(J 1) Var(J 1) Var(J 1)B&O. 7. 10. 8. 12. Varince. 14. Var(J 1) Var(J 1) Var(J 1)B&O. 8. Varince. Var(J 1) Var(J 1) Var(J 1)B&O. 10. 20 10. Ch. 0. 6000. sit. 25 Varince. al. 20. Var(J 1) Var(J 1) Var(J 1)B&O. n. Varince. α=0.2. io. 30. 40. α=0.1. 100 2000. ( )。除參數. ‧. ‧ 國. 學. 異數值. &. 1e+02. 2e+04. 4e+04. 6e+04. 8e+04. 1e+05. 1e+02. n. 2e+04. 4e+04. 6e+04 n. 圖3-6、. 摺刀估計式各變異數值比較. 21. 8e+04. 1e+05.

(32) 接下來比較 使用這三種變異數值,以漸進常態分配建立 95%信賴區間,並 分別計算對真實物種數的涵蓋率,由於參數α = 0.3與 0.4 涵蓋率均很低,所以在 此僅列出參數α = 0.1與 0.2 情況,α = 0.3與 0.4 涵蓋率請見附錄三。如圖 3-7 所 ( )、Var( )、Var( ). 示,以. &. 建立信賴區間對. 各涵蓋率依序以. ) 與 ( & ) 表示,物種分佈較均勻時,使用Var(. (. ). )、. (. 所得涵蓋率略高於. &. 使用Var( ),但在樣本較不均勻,共有物種估計值尚未到達真實值時,由於Var( ) 略大於Var( ). &. ,故其信賴區間較寬,較易涵蓋真實值,故在物種分佈較不均. 勻時,使用Var( )所計算的涵蓋率較高。. 政 治 大. 4000. 8000. J 1formula. 12000. 16000. 20000. 24000. 0.8 0.6. J1formula. 0.4. J1B&O. 0.0. J 1B&O. J1Monte. 0.2. ‧ 國. 100. J 1Monte. ‧. 0.0. 0.2. 0.4. 0.6. 0.8. 立. Coverage Probability. 1.0. α=0.2. 學. Coverage Probability. 1.0. α=0.1. 1e+02. 2e+04. 4e+04. 6e+04. 8e+04. 1e+05. n. 各涵蓋率比較. sit. io. n. al. 各 95%信賴區間對. er. Nat. 圖3-7、. y. n. i n U. v. 再探討 各變異數估計式,電腦模擬設定相同,我們使用蒙地卡羅方法計算 出 估計式的變異數值 Var( ) 異數值. &. Ch. e n g& c與 Var hi (. ( )、Var( ). 整體來說比Var( )與Var( ). &. ),如圖 3-8 所示,Var( )與. 小一些,且均與蒙地卡羅所計算的 變. ( )差距不大,以公式計算出的Var( )較接近. 時外, Var( ). &. ( )。除參數α = 0.1. 稍微低估了 的變異數,但在參數α = 0.2時,各變異數值亦有. 遞減且靠攏趨勢。. 22.

(33) α=0.2 15. 30. α=0.1. 14 13. Var(J 2) Var(J 2)B&O. 10 8. 9. 5 0. 100 2000 4000 6000 8000. 12000. 16000. 20000. 1e+02. 2e+04. 4e+04. 6e+04. α=0.3. α=0.4. 8e+04. 1e+05. 7.0. n. 9.0. n. Var(J 2) Var(J 2)B&O. 7.5. Varince. 6.0. Var(J2)B&O. 8.0. Var(J 2). 6.5. Var(J2). 5.5. 8.5. Var(J2). 4.5. 立. 6.0. 1e+02. 2e+04. 4e+04. 6e+04 n. 4.0. 6.5. 5.0. 政 治 大. 7.0. Varince. Var(J 2). 12. Varince. 15 10. Varince. 20. Var(J 2) Var(J 2)B&O. 11. 25. Var(J 2). 8e+04. 1e+02. 2e+04. 4e+04. 6e+04. 8e+04. 1e+05. n. 摺刀估計式各變異數值比較. 學. 圖3-8、. ‧. ‧ 國. 1e+05. 比較 以這三種變異數所計算的 95%信賴區間,分別計算其對真實共有物種. )與. al. n. 較接近蒙地卡羅方法計算的. ( & ) 表示,與. y. 建立信賴區間對. v ni. ( ),除α = 0.1外,Var( ). Ch. 各. 情況類似,公式計算Var( )均. er. )、 (. io. (. Nat. 涵蓋率依序以. &. sit. ( )、Var( )、Var( ). 的涵蓋率,如圖 3-9 所示,以. engchi U. 稍微低估了 的變. &. 異數,故如圖 3-9 所示,物種分佈較不均勻時,共有物種較不易估計,使用Var( ) 計算的信賴區間的涵蓋率較高於使用Var( ). &. 。. J2Monte J2formula J2B&O. 100. 4000. 8000. 12000. 18000. 24000. 0.0 0.2 0.4 0.6 0.8 1.0. α=0.2. Cov. Rate. 0.0 0.2 0.4 0.6 0.8 1.0. Cov. Rate. α=0.1. J2Monte J2formula J2B&O. 100 14000. n. 圖3-9、. 32000. 50000. 68000. n. 各 95%信賴區間對 23. 各涵蓋率比較. 86000.

(34) 根據第三節的電腦模擬結果,本研究所提出 ( )較 (n)估計式均具不偏的 現象,一階摺刀估計式在物種分佈越均勻時,高估現象雖越明顯,但亦越快收斂 至真實值,變異數方面以本研究以公式推導的變異數估計值較接近摺刀估計式的 變異數模擬值,以目前模擬的樣本數下,除物種分佈較不均勻下,亦有收斂至 0 的趨勢,由於其變異數估計值較大,對真實共有物種數的涵蓋率亦較 Burnham and Overton (1978)的變異數估計值略高一點。由於以公式推導的變異數較為接近模 擬值,且涵蓋率也較穩定,故在之後的章節將以. ( )與. ( )進行相關分析. 及統計推論。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 24. i n U. v.

(35) 第四章、. 摺刀估計式與 Chao 估計式. 本章將對本研究所提出共有物種數摺刀估計式與 Chao et al. (2000)所提出的 共有物種估計式. ) 比較,本章第一節以電腦模擬探討本研究提出的兩個共. (. 有物種一階摺刀估計式與的特性與差異,第二節則以實際資料驗證,在本章中摺 刀估計式其變異數估計式均以Var( )與Var( )為主。. 第一節、 電腦模擬驗證 本節以延續上一章的電腦模擬方式,物種出現次數均以分配參數α的幾何分 配模擬,並在物種分佈型態為幾何分配 Type1 與 Type2 下與不同共有物種數比較, 探討本研究提出的摺刀估計式與. 立. 治 政 特性與差異。首先假設兩群體物種出現 大 (. ). 與 高估現象越明顯,但也越快收斂至真實值,. (. 學. ‧ 國. 次數為幾何分配 Type1,共有物種數為 25 種,如圖 4-1 所示,物種分佈越均勻時, ) 則較無高估現象,也. 很快收斂至真實值,物種分佈較不均勻時,各估計式較難收斂至真實值時,此時. ‧. 摺刀估計式的高估現象反而較. ) 接近真實值,但兩者差異不大。. (. y. Nat. er. 30 25 20. 20. Ch. engchi U. v ni. real number ~ S12 J1. J2 ^ S. 12(Chao). 10. 12(Chao). 10. 15. J2 ^ S. 15. n. al. real number ~ S12 J1. 2000. 4000. 6000. 8000. 10000. 100. 2000. 4000. 6000. n. n. α=0.3. α=0.4. 8000. 10000. J2 ^ S. 12(Chao). 20 15. real number ~ S12 J1. J2 ^ S. 12(Chao). 5. 10. 15. real number ~ S12 J1. 10. 20. 25. Number of Shared Species. 25. 30. 100. Number of Shared Species. sit. α=0.2. Number of Shared Species. 25. io. Number of Shared Species. 30. α=0.1. 1e+02. 2e+04. 4e+04. 6e+04. 8e+04. 1e+05. 1e+02. n. 圖4-1、. 幾何分配 Type1,. 2e+04. 4e+04. 6e+04. 8e+04. n. = 25 ,各共有物種估計式比較. 25. 1e+05.

(36) 將共有物種數增加為 50 種,如圖 4-2 所示,參數α設定相同下,各估計式效 果均下降,物種分佈較均勻時,摺刀估計式高估現象依然存在,物種分佈較不均 勻時,摺刀估計式依舊稍微較接近真實值。 α=0.2. 2000. 3000. 4000. 5000. 6000. 7000. 8000. 40 30. 9000 10000. 1e+02. 2e+04. 4e+04. 6e+04. n. n. α=0.3. α=0.4. 政 治 大. 8e+04. 1e+05. 2e+04. 4e+04. 40 30 20 10. J2 ^ S12(Chao). 0. ‧ 國. 10 0. 1e+02. 立. 6e+04. 8e+04. 1e+05. 1e+02. 2e+04. 4e+04. n. 6e+04. 8e+04. 1e+05. n. 幾何分配 Type1,. = 50 ,各共有物種估計式比較. ‧. 圖4-2、. J2 ^ S12(Chao). real number ~ S12 J1. 學. real number ~ S12 J1. Number of Shared Species. 20. 30. 40. 50. 1000. 50. 100. Number of Shared Species. J2 ^ S12(Chao). real number ~ S12 J1. 0. 10. 20. J1. 20. 30. 12. 10. Number of Shared Species. 50 40. J2 ^ S12(Chao). real number ~ S. 0. Number of Shared Species. 50. α=0.1. sit. y. Nat. io. er. 模擬幾何分配 Type2,參數α = 0.05、0.01,共有物種為 25 種與 50 種,如 圖 4-3、圖 4-4 所示,摺刀估計式特性與幾何分配 Type1 時相似,但在幾何分配. al. n. v i n Ch 估計結果更接近。不論共有物種數為 25 或 50, engchi U. Type2 時 與. 配 Type2 時較 Type1 時差異最明顯,在 (. ) 是藉由兩群皆出現. (. (. ) 在物種分. ) 與共有物種觀測值很接近,由於. 10 次以下的共有物種來推估,在 Type2 情況下,同. 一共有物種在兩群體的出現機率差異很大,造成一群出現次數多一群卻很少,使 得兩群皆只出現 10 次以下的機會不大,故其估計值與 。. 26. 很接近。.

(37) 30 20 5. 10. real number ~ S12 J1 J2 ^ S12(Chao). 0. Number of Shared Species. α=0.05. 100. 2000. 4000. 6000. 8000. 10000. 12000. 14000. 16000. 18000. 20000. n. 25 20 15 10 5 0. 1e+02. 1e+04. 2e+04. 4e+04. 5e+04. 6e+04. 7e+04. α=0.05. 4000. y. sit. 50 30 0 10. al. 1e+05. = 25 ,各共有物種估計式比較. n 2000. 9e+04. ‧. ‧ 國. 幾何分配 Type2,. io. 100. 8e+04. 12(Chao). n. Nat. Number of Shared Species. 3e+04. J2 ^ S. 學. 圖4-3、. 立. 政 治 大. real number ~ S12 J1. er. Number of Shared Species. α=0.1. Ch. 6000. 8000. 10000. engchi n. i n U. 12000. v. 14000. real number ~ S12 J1 J2 ^ S 12(Chao). 16000. 18000. 20000. 10 20 30 40 50. real number ~ S12 J1. J2 ^ S 12(Chao). 0. Number of Shared Species. α=0.1. 1e+02. 1e+04. 2e+04. 3e+04. 4e+04. 5e+04. 6e+04. 7e+04. 8e+04. 9e+04. n. 圖4-4、. 幾何分配 Type2,. = 50 ,各共有物種估計式比較. 27. 1e+05.

(38) 以公式推導摺刀估計式的變異數值Var( )與Var( )與. (. ) 使用蒙地卡. 羅法計算的變異數比較,僅比較物種分佈為幾何分配 Type1,共有數為 50 種, 如圖 4-5 所示,除參數α = 0.1時樣本分佈較均勻,Var(. ) )較Var(. (. )與. Var( )快收斂至 0,樣本分佈較不均勻時,則跳動幅度較大且也比Var( )與 Var( )來得大,. ) 的變異數值在均勻情況下較穩定。. (. VarJ 1. VarJ2 ^ VarS12Chao. VarJ 2 ^ VarS12Chao. 1000. 2000. 3000. 4000. 5000. 6000. 7000. 8000. n. 40. 4e+04. 20. 8e+04. 1e+05. α=0.4. VarJ 2 ^ VarS12Chao. 10. Variance. 30. VarJ 1. 6e+04. 8e+04. 1e+05. 1e+02. 2e+04. 4e+04. n. 6e+04. 8e+04. 1e+05. n. y. = 50,各變異數值比較. io. sit. 幾何分配 Type1,. al. er. Nat. 圖4-5、. 6e+04 n. 0. 30 20 10 0. 2e+04. 4e+04. ‧. 1e+02. 2e+04. 學. VarJ 2 ^ VarS12Chao. ‧ 國. VarJ 1. 1e+02. 40. 立. α=0.3. 9000 10000. 20. 100. Variance. 政 治 大 0. 0. 10. 20. Variance. 30. VarJ1. 10. Variance. 30. 40. α=0.2. 40. α=0.1. v. n. 各共有物種估計式建立 95%信賴區間所得涵蓋率如圖 4-6 所示,在物種分佈. Ch. engchi. i n U. 服從幾何分配參數α = 0.3 與 0.4時,由於物種分佈太不均勻,故各估計式涵蓋率 均很低而難以比較,故置於附錄三。在物種分佈服從幾何分配參數α = 0.1時,. (. ) 較快收斂至真實值且變異數較摺刀估計式變異數高一些,故對真實共有. 物種的涵蓋率較快收斂於 0.95,摺刀估計式的涵蓋率則略低,在物種分佈服從幾 何分配參數α = 0.2時,Chao 估計值與 估計值差異較小,但變異數差異較大, 使得兩者對真實共有物種涵蓋率差不多, 估計值較大,且其變異數與 Chao 估 計值的變異數差距比 小,故涵蓋率較高。. 28.

(39) 0.0. 0.0. 0.2. 12(Chao). 0.6. 0.8. J1 J2 ^ S 12(Chao). 0.4. Coverage Probability. 0.6 0.4. J1 J2 ^ S. 0.2. Coverage Probability. 0.8. 1.0. α=0.2. 1.0. α=0.1. 100. 2000. 4000. 6000. 8000. 10000. 1e+02. 2e+04. 4e+04. n. 6e+04. 8e+04. 1e+05. n. 圖4-6、. 幾何分配 Type1,. 立. = 50,各涵蓋率比較. 政 治 大. 綜合以上電腦模擬結果,摺刀估計式均隨樣本分佈越均勻高估現象越明顯,. ‧ 國. 學. 但收斂至真實時也越快,在樣本分佈較不均勻時,高估現象反而使其較快接近真 實值, 估計值均較 估計值大,但在 Type2 時兩者很接近。. (. )在. Type1. ‧. ) 會比摺刀估計式小,在. (. Type2 時同一共有物種在兩群出現機率. sit. Nat. 真實值前. y. 且物種分佈較均勻時,較無高估現象且收斂速度快在物種分佈較不均勻時,未達. n. al. er. io. 差異太大,使得符合條件的稀有物種很少,較難估計。變異數方面,在物種分佈 較均勻時,. (. i n U. v. ) 較快收斂至零,物種分佈較不均勻時,. Ch. engchi. 刀估計式大,且有跳動現象。物種分佈均勻時,. (. (. ) 變異數較摺. ) 的涵蓋率較摺刀估計式. 接近 0.95,物種分佈較不均勻時,由於變異數較大,估其涵蓋率與摺刀估計式差 異不大。. 29.

(40) 第二節、 實際資料驗證 此節以下三筆實際資料,抽樣方式為取後放回方式,巴拿馬巴洛哥羅多導森 林資料共分四區,將取其中兩種組合分別驗證,表一為四組實際資料的母體特性, 圖 4-6、圖 4-7 為四組資料物種次數分佈。 巴拿馬螃蟹 此資料為 Smith et al. (1996)文中所提及巴拿馬螃蟹(decapod crustacean (crab)),位於在巴拿馬的奇里基海灣烏瓦島礁(Uva Island reef in the Gulf of Chiriqui),和巴拿馬灣珍珠島(Pearl Island in the Gulf of Panama)的珊瑚礁群落。. 政 治 大 此資料為 Chao et al. (2000)中用以驗證其所提出的方法的台灣野生水鳥資料。 立. 台灣野生水鳥. ‧ 國. 學. 地點位於新竹的客雅溪和中港溪,兩嚴重汙染的河流入海口。資料由新竹野生水 鳥協會,每個禮拜一次且為期一年的收集。. ‧. 巴拿馬巴洛科羅拉多島森林. sit. y. Nat. 此資料為中興大學沈宗荏老師所提供,巴洛科羅拉多島(Barro Colorado. al. er. io. Island)森林位於巴拿馬運河中間的人造加通湖(Gatun Lake),占地 50 公頃,調查. v. n. 每一棵胸徑大於等於 1 公分的植物,並且將此森林分為四個區域 A、AB、D、P,. Ch. engchi. i n U. 本節將以 A 區與 AB 區為一組, D 區與 AB 區為一組,分為兩筆資料探討。. 30.

(41) 母體個數. 物種數. 1107. 55. 群體一. 共有物種數. 巴拿馬螃蟹. 31 群體二. 4724. 50. 群體一. 85257. 155. 群體二. 59666. 140. A區. 242083. 380. 台灣野生水鳥. 111. 巴洛科羅拉多. 207 島森林. AB 區. 5884. 207. 巴洛科羅拉多. D區. 19870. 258. 島森林. AB 區. 政5884 治 大207. 立. 200. 表一、 四組實際資料母體特性. ‧ 國. 學 Taiwan Wild Waterfowl. ‧. Panama Decapod Crustacean. n. er. io. sit. y. Nat. al. Group1. 圖4-7、. Ch. Group2. engchi. i n U. v. Group1. Group2. 巴拿馬螃蟹與台灣野生水鳥資料物種次數分佈. 31.

(42) Barro Colorado Island. Barro Colorado Island. Region A. Region D. Region AB. 圖4-8、. Region AB. 兩組巴洛科羅拉多島森林資料物種次數分佈. 政 治 大. 立. 摺刀估計式特性與電腦模擬相似,. 學. ‧ 國. 四組實際資料以取後放回方式抽樣,所得共有物種估計式結果如圖 4-9 所示, ) 除了巴洛科羅拉多島森林資料. (. A 區與. AB 區資料外也有高估現象外,其餘三組資料均與電腦模擬結果一致。. ‧. Taiwan Wild Waterfowl. 15000. 20000. 25000. 30000. 35000. y. sit. 100. engchi 40000. real number ~ S12 J1. er. 80 60. Number of Shared Species. 22 20 18. 10000. Ch. 5e+02. i n U 2e+04. v. J2 ^ S12(Chao). 4e+04. 6e+04. 8e+04. 1e+05. Barro Colorado Island Region A VS. Region AB. Barro Colorado Island Region D VS. Region AB. 180 140. real number ~ S12 J1 J2 ^ S12(Chao). 100 120 140 160 180 200. n. Number of Shared Species. n. real number ~ S12 J1 J2 ^ S12(Chao). 80. 80 100. Number of Shared Species. 500. real number ~ S12 J1 J2 ^ S12(Chao). 40. al. n. 24. io. 26. 28. 30. Nat. Number of Shared Species. 32. Panama Decapod Crustacean. 5e+02. 2e+04. 4e+04. 6e+04. 8e+04. 1e+05. 5e+02. 2e+04. n. 4e+04. 6e+04 n. 圖4-9、. 四組實際資料估計值. 32. 8e+04. 1e+05.

(43) 模擬變異數值結果如圖 4-10,巴拿馬螃蟹與巴洛科羅拉多島森林資料中,在 樣本數較少情況下,. ) 變異數值較大,但隨即下降至與摺刀估計式差不多,. (. 但巴洛科羅拉多島森林資料 A 區與 AB 區資料需要較多樣本數變異數才與摺刀 估計式變異數接近,在樣本較多狀況下則與電腦模擬一致。而在物種分佈較不均 勻的台灣野生水鳥資料中,. ) 變異數較大且跳動現象也電腦模擬結果一致。. (. Taiwan Wild Waterfowl. 200. Varaince. Var(J2) ^ Var(S12chao). 200. 300. Var(J1). 100. 政 治 大 0. 0. 100. 500. 10000. 立. 15000. 20000. n. 25000. 30000. 500. 400. ‧ 國. 300 200. Varaince. y. 100. 30000. 500. 10000. 15000. er. 25000. i n U. 圖4-10、 四組實際資料變異數. Ch. Var(J1) 12chao ). n. al. 30000. Var(J2) ^ Var(S. 0. 600 500 400 300. Varaince. 200 100 0. n. 25000. ‧. 20000. io. 15000. 20000. Barro Colorado Island Region D VS. Region AB. 學. Var(J1) Var(J2) ^ Var(S12chao). Nat. 10000. 15000 n. Barro Colorado Island Region A VS. Region AB. 500. 10000. sit. Varaince. Var(J1) Var(J2) ^ Var(S12chao). 300. 400. 400. 500. Panama Decapod Crustacean. engchi. 20000. 25000. 30000. n. v. 涵蓋率方面,如圖 4-11,摺刀估計式與電腦模擬結果一致,而. (. ) 在台. 灣野生水鳥資料中,有時估計值與摺刀估計值差不多,且變異數也較摺刀估計式 大,故涵蓋率較高,與電腦模擬稍有不同,但大致與摺刀估計式的涵蓋率相似, 其餘資料則也與電腦模擬結果一致。. 33.

(44) 10000. 20000. 0.8 0.6 0.4. Coverage Probability. J2 ^ S12chao. 30000. 40000. 50000. 500. 10000. 20000. 30000. 40000. 50000. n. Barro Colorado Island Region A VS. Region AB. Barro Colorado Island Region D VS. Region AB. 立. 0.0. 500. 10000. 20000. 30000. 0.8 0.6 0.2. 政 治 大. 40000. 50000. 500. 10000. 20000. 30000. 40000. 50000. n. 圖4-11、 四組實際資料涵蓋率. 學 ‧. ‧ 國. n. J1 J2 ^ S12chao. 0.0. 0.2. 0.4. J1 J2 ^ S12chao. 0.4. 0.6. Coverage Probability. 0.8. 1.0. n. 1.0. 500. Coverage Probability. J1. 0.0. 0.2. J2 ^ S12chao. 0.2. 0.8 0.6 0.4. J1. 0.0. Coverage Probability. 1.0. Taiwan Wild Waterfowl. 1.0. Panama Decapod Crustacean. 此章與 Chao et al. (2000)所提出的估計式比較,就兩種估計式特性而言,k. y. sit. al. er. ) 估計式以所有稀有共有物種樣本涵蓋率與稀有物種的變異係數進行估. io. (. Nat. 階摺刀估計式需使用其中一群出現 k 次以下的物種以線性組合形式進行估計,而. v. n. 計,運算上較為複雜,目前變異數計算以拔靴法(Bootstrap)或蒙地卡羅法為主。. Ch. i n U. i ) 估計較為穩定,較無摺刀估計式的 e n g( c h. 電腦模擬方面,在物種分佈均勻時,. 高估現象,在物種分佈較不均勻時摺刀估計式則較. (. ) 接近真實值,但差異. 不大,Type2 類型各估計式均較難以估計,由於同一物種於兩群體出現機率差異 較大,故使得. (. ) 結果會接近觀測值。實際資料除台灣野生水鳥資料外,其. 餘三組資料均較偏向 Type1 型態,摺刀估計式依然有高估現象, 真實值較快,而有樣本數少時. (. (. ) 收斂至. ) 變異數較大,在巴洛科羅拉多島森林資料. A 區與 AB 區資料較為嚴重,但樣本數至一定程度亦收斂,故不太影響整體估計, 涵蓋率方面唯台灣水鳥資料. (. ) 估計值有時較接近摺刀估計值,且. 變異數較高使得涵蓋率較高一些,其餘均與電腦模擬結果類似。 34. (. ).

(45) 第五章、. 最適停止規則. Rasmussen and Starr (1979)的想法,定義抽樣成本 c,將報酬函數 h(j),d(n) = 為抽取第 n 個樣本時已觀測到j個物種,則最佳停止點為 ∗. = inf. ≥ 0: ℎ( ( ) + 1) − ℎ. ( ). (n) ≤. Yue and Clayton (2012) 直接簡化其概念,直接以若發現新物種的機率低於機率門 檻值 c 時,則繼續抽樣本亦難以觀測到新物種作為停止規則,並提出此概念下的 停止規則為n∗ = inf{ ≥ 0: (n) ≤ }。本章將以此概念進行電腦模擬,以未發現 共有物種出現機率值小於門檻值 c 時決定停止的抽樣數,並藉由摺刀估計式的變. 政 治 大 物種數的涵蓋率來探討機率門檻值與物種分佈均勻程度的關係。 立. 異數估計值所提供的 95%信賴區間,以 1000 次電腦模擬,計算其包含真實共有. ‧ 國. 學. 第一節、 抽樣停止點. 由於 (n)與 (n)均以在某一群體中恰出現一次的共有物種數進行估計,此. ‧. 處可將停止抽樣分為兩類,一類為自然停止,意指所抽樣本中沒有任何一個物種. y. Nat. sit. 滿足在任一群體中恰出現一次,則我們無法從樣本中攫取未發現共有物種的資訊,. n. al. er. io. 故停止抽樣,而自然停止又可分為兩種狀況,第一種為物種分佈較均勻,使得共. i n U. v. 有物種容易均被觀測到,使得無恰出現一次的共有物種,第二種為物種分佈較不. Ch. engchi. 均勻,使得雖然尚有共有物種未被觀測到,但其出現機率太小導致樣本中無恰出 現一次的物種。強迫停止則是在當0 <. (n) ≤ 時,雖發現共有物種出現機率尚. 未為零,但已經小於機率門檻值 c 則停止抽樣,首先將以兩群物種均為 100 種, 共有物種數為 50,物種出現次數服從參數為α的幾何分配且為 Type1 分佈類型進 行電腦模擬,設定機率門檻值c = 10 以 (n)作為停止規則,如圖 5-1 所示,物 種分佈較均勻時,不用太多的抽樣數即可將大部分的共有物種抽完,屬於自然停 止的第一種情況,當樣本分佈逐漸不均時,強迫停止次數漸漸提高,自然停止中 物種已觀測完的狀況次數下降,等物種分佈不均勻至一定程度後,有些共有物種 出現機率太小而沒有觀測到,而漸漸出現自然停止的第二種情況,而我們目的在 35.

(46) 於避免這種已經很難觀測到卻繼續抽樣的情況,故欲藉由設定適合的機率門檻值 來迫使抽樣再變成上述狀況前先強迫停止。. 400. J1 ,   0.12 , C = 10. 300. vn  c 0<v1  n  c singleton=0. 0. 0. 1e+02. 2e+04. 4e+04. 6e+04. 8e+04. 1e+05. 1e+02. 2e+04. 4e+04. 6e+04. n. J1 ,   0.2 , C = 10 100 80 20 0. 20 0. ‧ 國. 6e+04. 8e+04. 1e+05. vn  c 0<v1  n  c singleton=0. 學. 4e+04. -4. 60. stopping count. 80 100. 政 治 大. 40. 60. 立 2e+04. 1e+05. 40. 140. -4. v n  c 0<v1n  c singleton=0. 1e+02. 8e+04. n. J1 ,   0.16 , C = 10. stopping count. -4. 100. 200. 300. stopping count. 400. v n  c 0<v1n  c singleton=0. 100. stopping count. -4. 200. 500. J1 ,   0.08 , C = 10. 1e+02. 2e+04. 4e+04. 6e+04. n. 8e+04. 1e+05. n. ‧. 圖5-1、 幾何分配 Type1,. = 50,以 (n)與 (n)於各抽樣數停止次數. sit. y. Nat. al. er. io. 根 據 自 然 停 止 與 強 迫 停 止 的 次 數 , 做 加 權 平 均 可 得 接 近 n∗ = inf{ ≥. v. n. 0: (n) ≤ }的抽樣數,因為電腦模擬的停止次數不是抽一個樣本則計算一次,. Ch. engchi. i n ∗U. 是以增加固定樣本數進行模擬,故只能得到接近n 的抽樣停止點,以 (n)為例, 與 (n)一同比較,如圖 5-2 所示,在機率門檻值 c 較嚴格時,物種分佈較均勻時, 兩者所停止的抽樣數差距不大,但物種分佈不均勻於至一定程度後,例如 c = 10 時參數α大於 0.18 之後,使用 (n)的停止規則不再繼續抽更多樣本了, 使用 (n)的停止規則仍繼續抽樣;在機率門檻值 c 太寬鬆時,容易形成強迫停止, 使抽樣數還很少時便停止,此時即使使用 (n)的停止規則的停止抽樣數較大也 無多大意義。. 36.

(47) -5. J1 , c=10 25000. J1 , c=10. 15000. n. vn v1 'n. 0. 5000. 20000. n. 60000. vn v1'n. -4. 0.05. 0.07. 0.09. 0.11. 0.13. 0.15. 0.17. 0.19. 0.05. 0.07. 0.09. 0.11. 0.13. α. 0.17. 0.19. -3. -2. 1100. J1 , c=10. vn v1 'n. n. 3000. 4000. 1000. vn v1'n. 900. 5000. J1 , c=10. 800. 政 治 大. 0.07. 0.09. 0.11. 0.13 α. 立 0.15. 0.05. 0.07. 0.09. 0.11. 0.13. 0.17. 0.19. = 50,以 (n)與 (n)停止的加權平均抽樣數. io. sit. y. Nat. n. al. 0.15. α. ‧. ‧ 國. 0.19. 學. 圖5-2、 幾何分配 Type1,. 0.17. er. 0.05. 700. 2000 1000. n. 0.15. α. Ch. engchi. 37. i n U. v.

(48) 第二節、 以共有物種數建立停止規則 在進行探討前,先以電腦模擬 1000 次,計算在每個抽樣數時,以 與Var( )建 立 95%信賴區間對真實共有物種數的涵蓋率,與以觀測值. 與Var(. )建立 95%. 信賴區間對真實共有物種數的涵蓋率。再分別以 (n)與 (n)小於等於機率門檻 值 c 為停止點,並比較使用摺刀估計式或觀測值所得對真實共有物種的涵蓋率, 作為建立停止規則的依據。若以 (n)為停止依據,以電腦模擬 1000 次,計算在 每個抽樣數停止的次數,並以各抽樣數的停止次數與 涵蓋率計算加權平均的涵 蓋率,由於可計算出 (n)時亦代表可計算出 估計值,故無必要只使用觀測值. 政 治 大 次數,藉由各抽樣數的停止次數,分別計算 涵蓋率加權平均的涵蓋率與 立. 涵蓋率來做加權平均的涵蓋率。若以 (n)為停止依據,計算在每個抽樣數停止的. ‧ 國. 學. 率加權平均的涵蓋率。. 涵蓋. 先比較以 (n)為停止依據時 估計式對真實共有物種的涵蓋與以 (n)為停. ‧. 止依據時觀測值. 對真實共有物種的涵蓋,如圖 5-3 所示,當物種分佈不均勻. sit. y. Nat. 到一定程度時,停止依據與涵蓋率均使用估計值的涵蓋率,較均使用觀測值的涵. al. er. io. 蓋率開始有較大的差異,代表物種分佈不均勻到一定程度時,單純使用觀測值所. v. n. 得的涵蓋率已經開始下降,而均使用估計值較均使用觀測值具更高的涵蓋率,故. Ch. engchi. i n U. 本研究認為當停止依據與涵蓋率均使用估計值比單純使用觀測值所得的涵蓋率 優於一定程度時,可設為停止點。 此外亦須比較使用 (n) 或 (n)為停止依據時,均計算 的加權平均涵蓋率, 是否會有物種不均勻至一定程度後,涵蓋率差距變大的現象,如圖 5-4 所示, (n) 或 (n)為停止依據時,兩者涵蓋率差異不大,故造成涵蓋率差異主要來自 使用摺刀估計式時較單純使用觀測值具更高的涵蓋率。. 38.

(49) -5. 0.8 0.6 0.4. Cov. Rate. 0.8 0.6 0.4. ~ vn&S12. 0.2. Cov. Rate. 0.2. ~ vn&S12. v1 'n&J 1. 0.0. 0.0. v1'n&J1. 0.05. 0.07. 0.09. 0.11. 0.13. 0.15. 0.17. 0.19. 0.05. 0.07. 0.09. 0.11. 0.13. α -3. 0.17. 0.19. 1.0. -2. 0.8. ~ vn&S12. 0.6. 政 治 大 0.2. 0.09. 0.11. 立. 0.13. 0.15. α. 0.0. 0.0. v1'n&J1. 0.07. v1'n&J1. 0.4. Cov. Rate. 0.6 0.4 0.2. Cov. Rate. 0.8. 1.0. J1 , c=10. ~ vn&S12. 0.05. 0.17. 0.19. 0.05. 0.07. 0.09. 0.11. 0.17. 0.19. -4. sit er. engchi 0.05. i n U. vn&J1 v1'n&J1. 0.07. 0.09. v. 0.11. α. 0.13. 0.15. 0.17. 0.19. α -3. -2. 0.2 0.0. 0.0. 0.2. vn&J1 v1'n&J1. 0.6. 0.8. vn&J1 v1'n&J1. 0.4. 0.4. 0.6. Cov. Rate. 0.8. 1.0. J1 , c=10. 1.0. J1 , c=10. 0.19. y. 1.0. 0.15. 0.6. Cov. Rate. 0.8. 0.13. 0.2. 0.2 0.0. 0.09. Ch. 0.0. 0.4. n. al. 0.4. ‧ 國. 1.0 0.8 0.6. io 0.07. 0.17. ‧. J1 , c=10. Nat. 0.05. 0.15. 的加權平均涵蓋率. -5. vn&J1 v1'n&J1. 0.13. 學. J1 , c=10. 0.11. α. 圖5-3、 以 (n)配 與 (n)配 停止抽樣時對 = 50 幾何分配 Type1,. Cov. Rate. 0.15. α. J1 , c=10. Cov. Rate. -4. 1.0. J1 , c=10. 1.0. J1 , c=10. 0.05. 0.07. 0.09. 0.11. 0.13. 0.15. 0.17. 0.19. 0.05. 0.07. α. 0.09. 0.11. 0.13. 0.15. 0.17. α. 圖5-4、 以 (n)配 與 (n)配 停止抽樣時對 幾何分配 Type1, 39. = 50. 的加權平均涵蓋率. 0.19.

(50) 另外以個別參數α下的觀點,在不同機率門檻值下,計算以 (n)作為停止規 則並對應 的 95%信賴區間包含. 的涵蓋率,若涵蓋率達一定標準時,也可將. 其作為停止點的一種依據,將取門檻值為−log (c)表示,如圖 5-5 所示,有機率 門檻值 c 越嚴格對. 涵蓋率大於等於 0.8,則紀錄對應的機率門檻值 c。. 0.6. 立. 政 治 大. α= 0.05 α= 0.06 α= 0.07 α= 0.08 α= 0.09 α= 0.1 α= 0.11 α= 0.12. 0.4. al. n. 1.50. 2.00. α= 0.13 α= 0.14 α= 0.15 α= 0.16 α= 0.17 α= 0.18 α= 0.19 α= 0.2. er. 0.0. io. 1.00. sit. y. Nat. 0.2. ‧. ‧ 國. 學. Cov. Prob.. 0.8. 1.0. 參數α下,若對. 涵蓋率越高的趨勢,在此將涵蓋機率停止點設為 0.8,在各. 2.50. Ch. 3.00. engchi -log(c). i n U. 3.50. v. 4.00. 圖5-5、 不同機率門檻值以 (n)停止抽樣時配 對 幾何分配 Type1,. 4.50. 5.00. 涵蓋率. = 50. 以上區分為兩種觀點,第一種為估計值與觀測值的模擬結果比較,若使估計 值作為停止規則對. 的涵蓋與單純只用觀測值作為停止規則的涵蓋率若大於等. 於 0.2、0.3、0.4,則設為停止點,第二種為以估計值為停止規則對. 的涵蓋率. 大於等於 0.8 則設為停止點,比較兩種結果,如圖 5-6 所示,可發現停止時,隨 物種分佈不均程度上升,所需設定的機率門檻值需越嚴格亦符合直觀想法,且參 數α與−log (c)具一定程度的線性關係,而使用涵蓋率高於 0.8 時也有類似的趨 40.

(51) 勢,但須注意的是,若樣本分佈不均勻時,可能 c 值已經設定很小了一樣達不到. 0.13. Cov.Rate  0.8 Cov.Rate diff  0.2 Cov.Rate diff  0.3 Cov.Rate diff  0.4. 0.09. 0.11. α. 0.15. 0.17. 0.19. 要求的涵蓋率而導致還是抽了很多樣本。. 1.25. 1.50 1.75. 2.00. 2.25 2.50. 2.75. 3.00 3.25. 3.50. 3.75 4.00. 4.25. 4.50 4.75. 5.00. -log(c). ‧. ‧ 國. 1.00. 學. 0.05. 0.07. 立. 政 治 大. er. io. sit. y. Nat. 圖5-6、 以 (n)停止抽樣配 涵蓋率,參數α與機率門檻值對照 幾何分配 Type1, = 50. 另外以同樣條件下,將物種分佈改為 Type2,其結果如圖 5-7,共有物出現. al. n. v i n 機率在兩群體差異很大的情況下,隨分配參數α增加,須設定的機率門檻值增加 Ch engchi U. 幅度較 Type1 情況下高上許多,表示使用 (n)為停止規則與 估計式,若為了突 顯與單純使用觀測值停止規則相比有更高的涵蓋率差異,或達到 0.8 以上涵蓋率 則需要各嚴格的機率門檻值,可能需要更多的樣本。 此章希望藉由使用估計值對真實共有物種數的涵蓋率到達一定要求或是 相較與單純使用觀測值來涵蓋真實值有高於多少的涵蓋率作為設定停止點的參 考,可藉物種分布均勻程度來選擇對應適當的機率門檻值 。. 41.

參考文獻

相關文件

Locke, 1632~1704) ,主張心物兩 種實體均存在,認為物體本身具有 性質(quality),如硬度、形狀、動

Hamilton 以很多方式從跟均曲率流 (mean curvature flow) 做類比 得到關於他的 Ricci 流的直觀。曲線縮短流 (curve shortening flow) 已被 Grayson 研究過,而

一、成績計算:以術科實作及面試之原始分數計算,術科實作成績佔 70%,面試成績佔 30% (術 科實作原始分數*70%+面試原始分數*30%,分數四捨五入至小數點第 2

以下簡單介紹魔術三角形: 如圖 1, 若三角形每邊有 三個數且數字和都是定值, 稱為 3 階 (傳統) 魔術三角形; 如圖 2, 若每邊有三 個數且較大兩數和減最小數的差都是定值, 稱為

估計兩母 體平均數 差時樣本 數的選擇 估計兩母 體比例差

應用統計學 林惠玲 陳正倉著 雙葉書廊發行 2006... 了解大樣本與小樣本母體常態、變異數已知與未知 下,單一母體平均數區間估計的方法。知悉

滿足 deflation rule ,在原來的兩種 tiles 上刻出分割線及記號,注意灰 色面積與原來的瓦片面積一樣。. 第 25 頁,共 27 頁

逸中、玟靜兩個人數學小考的平均分數為80分,若昊星的小考成績比逸