• 沒有找到結果。

3-1 K-means 法

群集分析是一種數值分類法,主要使用一組計量資料,計算各觀察體 的相似或相異性,然後用各種標準將觀察體劃分成數個群集,期望分類後 同群內的觀察體具有高度相似性,而分在不同群集間的觀察體具有高度相 異性。本文採用的群集分析方法為 K-means 法,

K-means 是 MacQueen (1967)提出的一種非監督式學習(unsupervised learning)演算法,在事先並不知道樣本資料屬於何種類別的情況下,仍然可 以將樣本資料依照所指定的群數進行分類,並使得每群的資料與該群集中 心的距離平方總合,盡可能達到最小。其步驟如下:

1. 將所有樣本分成 k 個群集,此 k 個群集重心稱為「種子點」。

2. 計算每個觀察體到各群集重心的距離,並將其分派到最近的一群,再 重新計算得到新樣本群集和失去該樣本群集之新重心。

3. 重複步驟 2.,直到無法重新分派為止。

在進行群集分析法前須先檢查變數間的相關性,以避免變數間的加權 造成結果偏差。因為變數間的單位通常不會一致,因此在進行分析前必須 先將變數正規化使變數間具有相同的單位,最後再選擇變數進行分析,其 分析流程如下所示:

1. 檢查變數間的相關性

Wuder (2002)建議若兩變數間的相關係數絕對值超過 0.80 時,則表示 變數間具有高度相關,應予以刪除。因群集分析的資料不需具有常態性及 直線性等假定,但變數間的複共線性(multicollinear)會影響分析結果,其中 複共線性是指當兩變數間有非常高的相關(相關係數>0.80)。因為具有複共 線性的變數會有較大權重,所以進行群集分析之前,須檢查變數之間的相

10

關性。

2. 變數的正規化

由於變數之間的單位通常不會一樣,但群集分析是根據變數來計算觀 察體間的相似性或相異性,如果變數間的單位不一致可能造成偏差的結果,

如 100 公尺與 10 隻生物是屬於兩種不同單位,如果要放在一起分析時會造 成不相等的加權,因此在分析過程中須將變數加以正規化,使其有共同的 單位。

3. 變數的選擇

群集分析的結果會受到所選變數的影響,若採用不同的變數就會產生 不同的分類結果。因此在進行群集分析前,應先考慮使用什麼變數當成分 類的依據。假設以身高、體重等變數將學生分類,結果可分為男生與女生;

如果用成績、學習策略又可得到不同結果。由上述例子可知變數的選擇是 影響分類結果的重要因素。

3-2 一般克利金法

3-2-1 推估值

由於測站會受到人力、經費、地形及地物等因素的限制,導致測站數 量有限或集中於某範圍。因此必須先將研究區域切成網格後,再使用內插 方法推估網格無數據的結果。本文採用內插的方法為一般克利金法。

克利金法最早是由法國地質學家 G. Matheron 所提出的地質統計概念,

並定義地質統計是以隨機函數推估自然現象的應用。地質統計學中是以區 域化變數理論探討自然資源在空間中的分佈,假設 x 為空間中的一點,與 x 點對應的變量 Z(x)定義為區域化變數(regionalized variable),自然界的空間 變量如降雨量、空氣汙染量及生物量都可視為區域化變數。

一般克利金法為修正簡單克利金法。簡單克利金的假設為: Davis (2002)

11

1. 估計值是由區域中的區域化變數 Z(x)所推估的。

2. 區域化變數符合二階定常性(second-order stationary),故其平均值、

共變異數及半變異數與兩點 x 的相對距離有關。

克力金法具有最佳線性不偏估特性(Best Linear Unbiased Estimator,

(3-1)

BLUE),即分析過程中符合以下三個假設條件。 將(3-6)式代入(3-7)式整理後可得(3-9)式。

1

將(3-6)式代入(3-8)式並引入半變異數可得(3-10)式。

∑∑ ∑

Lagrange 函數表示可得(3-11)式。

) equation)如(3-12)式、(3-13)式所示。

(3-6)

帶回(3-6)式與(3-15)式可求得估計值及對應的克力金估計變異數(Kriging estimated variance)

使用克利金法時必須藉由分析半變異圖(semi-variogram)來推估未知點 的數值,其詳細介紹如 3-2-3 所述。

3-2-3 半變異數

半變異數代表實測資料的空間變異情況,由實測資料計算的半變異數 稱為試驗半變異數(experimental semivariance),定義如下式

=

的過程中會對區域內的實測點任取兩點進行配對,因此會產生一組配對數。

由 r(h)及 h 的關係可以繪出半變異圖,如圖 3-1 所示。

圖 3-1 試驗半變異圖

由圖 3-1 可知試驗半變異數呈現散亂的分佈,而圖中的曲線函數表示散亂點 的分布趨勢。

試驗半變異數會隨著 h 的趨勢逐漸變小或變大,當 h=0 時,r(0)=0,但 在應用上常會出現 r(0)≠0 的情況,此現象稱為碎塊效應(nugget effect)。當 h 逐漸增加達到某一範圍時,變異數會趨於一個穩定值,此定值稱為臨界變 異值(sill),而臨界變異值所對應到的 h,稱為影響範圍(influence range)。由 圖可知臨界變異值是規模值(scale)與碎塊效應的總和。

3-2-4 理論半變異模式

理論半變異數在半變異圖中是呈現散亂的分佈,所以在分析上會採用

15

理論半變異模式(variogram model)對散亂點進行擬合(fitting)。通常採用試誤

3. 指數模式(exponential model) )]

本文是以標準化克利金平均誤差(Standardized Kriging Average Error, SKAE)趨近於 0 及標準化克利金變異數(Standardized Kriging Variance, SKV) 趨近於 1 為準則,採用試誤法選取合適的理論半變異模式。

σi為克利金估計變異數(Kriging estimation variance)。

本文蟹類及底棲動物內插時選用的理論半變異模式為高斯模式,而鳥

2. 豐度指數(Species Richness index, SR)

(3-22)

(3-20)

(3-21)

17

表示群聚內生物種類的豐富情形,數值愈大則反映群聚內的生物種類 數愈多。

N SR S

ln ) 1 (

=

其中 S 為該測站之生物種類數,N 為該測站所有生物之總個體數。

本研究預期劃設之核心區域應具有保育稀有動物的功能,首先將高美 濕地稀有動物的個體數做加總後進行內插,然後針對個體數探討稀有動物 在保護區中的分布情況。其中選取的稀有動物是以農委會林務局自然保育 網 (http://conservation.forest.gov.tw/ct.asp?xItem=44417&ctNode=631&mp=10) 中的野生動物名錄為依據,其保育等級見表 3-1。

表 3-1 野生動物的保育等級

保育等級

I 瀕臨絕種的野生動物

II 珍貴稀有的野生動物

III 其他應予保育的野生動物

因本研究所使用的資料中沒有保育等級 I 的物種,所以僅選取保育等級 II 的八哥、紅隼、黑嘴鷗及小燕鷗,以及保育等級 III 的大杓鷸。以上稀有 物種之特性介紹可見附錄 C。

(3-23)

18

相關文件