密度依賴選擇的影響 - 研究分析與結果 - 巨量資料生態：以模因學分析網路文本的進化

第四章研究分析與結果

第二節密度依賴選擇的影響

(Herrando-Pérez, Delean, Brook, & Bradshaw, 2012)，不過沒有一種簡單能夠從牲口普查資料中區分密度依賴與密度獨立因素的檢驗(Pollard, Lakhani, & Rothery, 1987)，目前生物學者對於密度依賴檢驗的方法也沒有共識，過去研究發現沒有一種最適的密度依賴驗證技術，因為不同的方法都有其內定的假設，同時不同資料的趨勢、自我相關、空間上的趨勢與時間序列等等都會影響個別檢測的效果 (Fox & Ridsdill-Smith, 1995)，在生態學中傳統的檢驗大都可以被歸類為

Neyman-Pearson 假設檢驗類型（Neyman-Pearson hypothesis testing, NPHT，這些包含 Bulmer, Pollard 與 Taper 等等學者所提供的檢驗），其他種類的檢驗方式則是透過不同標準來選擇最佳密度依賴或密度獨立模型(Brook & Bradshaw, 2006)，

Bulmer (1975)所提供的密度依賴檢定是不同密度依賴檢驗中比較容易執行的一種，同時該檢定比較保守，所以比較不會偵測到沒有密度依賴關係的時間序列 (Henderson & Southwood, 2016)，因此在這節中本研究透過 Bulmer 的檢定針對不同模因類種的時間序列進行密度依賴的檢視。

因為密度依賴假設牲口的變動會受到其本身的數量影響，因此可以透過簡單的變動與數量之間的關聯性分析探討，以下為基本的密度依賴相關模型，左邊為

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

116

牲口的變化，右邊則為在特定時間點下的牲口(Eberhardt, 1970)。

ρ [𝑁_𝑡+1 𝑁_𝑡 , 𝑁_𝑡]

針對以上的密度依賴模型，在種群生態學中也很常透過 log（對數）將人口變化進行轉化(Solow, 1990；Turchin & Taylor, 1992)，因為 log 轉化有許多優勢 (Smith, 1961)，例如使得資料更加對稱(Lai & Wong, 2006)、減少資料平均與變異之間的關聯性(Koenig, Mumme, Carmen, & Stanback, 1994)、穩定資料的變異 (Morris, 1959)、減少極端值的影響(Shumway & Stoffer, 2011)，並使得資料的分布逼近常態(Ranta, Lundberg, & Kaitala, 2006)，因此本研究將針對個別網站的模因類種時間訓練進行對數的轉化，這種轉化與 Norton & Kelly (1988)和 Koenig, Mumme, Carmen, & Stanback (1994)的研究中針對橡樹種子時間序列的轉換一樣，

以下為該轉化的公式。

𝑥̂_𝑡 = log₁₀(𝑥_𝑡+ 1)

壹、趨勢與季節性

在此節中本研究將針對個別模因類種（主文集群）進行時間上分布趨勢的分析，要進行時間相關的統計分析前，必須先探討資料的變動背後是否有趨勢 (trend)，透過文本集群分析將 Yahoo!奇摩新聞主文分成的 7 個集群，在時間上的分布大都集中在七月底到八月初這個時段，不過就算各集群的文本主要集中在同一個時間點上，這些集群的分布狀態還是都有許多差異，圖 10 為整體主文在時間上的分布狀態，為了規律得呈現主文數量的變動，本研究在分析中是以「天」

為單位。

圖10： Yahoo!奇摩新聞整體主文在時間上的分布趨勢

表 22 中可以看到，不同集群(k=7)主文在各月份的次數分配，並可以發現所有集群的主文數量主要都集中在 7、8 月，接下來本研究將透過不同時間序列的統計量來驗證不同集群在時間上演變的趨勢，與之間的關聯性。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

117

表22： Yahoo!奇摩新聞整體主文個集群(k=7)個月份個數

集群月份¹

5 6 7 8 9 10 11 12 整體 33 202 728 682 46 35 13 22

k=7

1 15 111 186 172 17 16 6 7 2 11 53 267 214 7 9 3 1 3 1 11 85 54 1 0 0 5 4 6 27 87 88 15 7 4 8

5 0 0 7 59 0 0 0 0

6 0 0 53 17 6 2 0 1 7 0 0 43 78 0 1 0 0

1雖然課綱微調議題的文本 4 月 1 日就開始蒐集了，不過 Yahoo!奇摩新聞一直到 5 月份才有與該議題相關的新聞主文

當探討網路文本變化時會遇到一個和生物牲口變化很不一樣的問題，那就是網路文本雖然有被產生的時間點，不過卻沒有確切「死亡」的時間，因此可以說只要是被上傳的文本除了少數被伺服器刪除以外，原則上是會不斷的產生影響，

因此文本在每一個時間點的變化其實是不斷得在累積，如圖 11 所呈現的現象。

圖11： Yahoo!奇摩新聞主文集群累加狀態(k=7)

如果假設沒有文本會「死亡」，課綱微調主文的數量變動趨勢可以說是類同創新擴散學中探討的 S 形曲線(Boushey, 2010；Pemberton, 1936；1937)，不過過

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

118

去創新學者都忽略了一件事情，那就是創新與文本一樣都還是可能會「死亡」，文本與創新都是模因的表型，因此對於這些社會文化現象背後的模因而言，產生表型最重要的目的當然就是複製自己，不過網路文本與創新一樣會受到使用者的注意力轉移問題，因為對於網路模因而言最主要需要競爭的資源就是注意，這一點在創新擴散研究中也是一樣的(Van de Ven, 1986)，在網路文本被上傳或創新被提出/採用的那一刻開始，因為文本/創新是新鮮的，所以會受到許多人的注意，

不過上傳/提出/採用的時間長了，會越來越少人注意到這些模因表型，使得它們擴散、複製模因的機率減少，最後變成零，在這種狀態下可以說該網路文本/創新處於「死亡」的狀態，圖 12 為本研究以注意力的概念針對 Yahoo!奇摩新聞主文集群進行的調整，該圖以每篇文本的壽命為 7 天的假設來計算文本數量，因此如果𝑁_𝑡為第 t 天的未「死亡」總文本數量，則可以透過以下簡單的公式來計算。

𝑁_𝑡= ⁡ 𝑁_𝑡+ (𝑁_𝑡−1∗6

7) + (𝑁_𝑡−2∗5

7) + (𝑁_𝑡−3∗4

7) + (𝑁_𝑡−4∗3

7) + (𝑁_𝑡−5∗2 7) + (𝑁_𝑡−6∗1

圖12：受到「死亡」影響的 Yahoo!奇摩新聞主文集群分布(k=7)

圖 12 所呈現的網路文本在時間上分布的情形會比較貼近實際上網路文本所產生影響的狀態，不過目前並沒有網路文本影響力持續長度的詳細研究，同時不同網路類型對於文本影響力的長短也會有影響，因此要明確的界定不同文本的壽命是很困難的，同時如果以這種方式調整文本時間序列，則會納入以 7 天為週期的趨勢，這對於文本時間序列的分析會產生沒必要的干擾，所以本研究在後續的分析中還是將在各天新產生的文本數量視為該天文本的總數量。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

119

在驗證不同集群和自己本身或與其他集群之間是否有關係前，必須探討這些集群的時間序列本身是否有特定趨勢或是季節性的變化，因為這些變化會干擾統計檢驗的準確性，大部分時間序列的統計方法都是針對具有平穩性質的資料，所以如果資料沒有平穩性則必須先進行轉換(Shumway & Stoffer, 2011)，本研究首先透過將資料的週期定義為一星期（7 天），原因在於網路使用情形會受到每星期使用者生活週期的影響，另外，如果不定義週期則無法分解出趨勢與季節性的影響，接著並將不同集群進行分化為趨勢、季節與隨機等三個時間序列，其中隨機序列為排除趨勢與季節影響的時間序列，結果如圖 13，可以看到四個時間序列中第一個為原本的時間序列，這裡是變異最高的集群 1，第二個時間序列則為原本時間序列的趨勢成分，第三個序列是季節性趨勢，而最後一個序列就是排除趨勢、季節性影響的時間序列，這個序列也是本研究將用於進行統計分析的序列。

圖13： Yahoo!奇摩新聞主文集群 1 排除趨勢與季節的時間序列(k=7)

在圖 14 中為 7 個不同集群在排除趨勢與季節性影響後的隨機序列，該序列如同之前的敘述，是在透過將原本時間序列分成趨勢、季節與隨機三個序列的過程產生的。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

120

圖14： Yahoo!奇摩新聞主文所有集群隨機序列

在分解原本的時間序列後，本研究根據 Cowpertwait & Metcalfe (2009)的建議，針對原本、排除趨勢與排除趨勢與季節的三個標準差進行比對，探討不同時間序列背後趨勢與季節性動態的強度，在表 23 中可以看到 Yahoo!奇摩新聞主文整體而言或是根據文本集群分析分為 7 個個別集群都沒有明顯的季節性變化，因為排除趨勢的標準差與排除趨勢與季節的標準差之間沒有很大的差異，不過排除趨勢的標準差與原始時間序列的標準差之間確有相當程度的差異，因此在接下來的統計分析中，本研究將以排除趨勢與季節的時間序列進行估計，該序列就是以上所討論的隨機序列。

在 7 個集群當中由集群 1 的季節性影響最高，而集群 3 和 7 的季節性影響最低，不過趨勢最高的集群為集群 7 和 2，趨勢最少的是集群 6。

‧

除了透過演算法排除趨勢與季節外，也可以透過一階差分(first difference)來使得時間序資料具有平穩性，相較於排除趨勢與季節的計算過程，差分的計算簡單，並可以排除趨勢的影響(Chatfield, 1996；Cowpertwait & Metcalfe, 2009；

Shumway & Stoffer, 2011)，時間序列{∇𝑥_𝑡}一階差分的計算如下：

∇𝑥_𝑡 = 𝑥_𝑡− 𝑥_𝑡−1

差分的計算因為不依賴線性模型參數與殘差的估計(Shumway & Stoffer, 2011)，不過卻會使得時間序列的資料從牲口或密度被轉換為牲口或密度的變動，

使得統計分析的結果不一定符合解釋原本的假設(Ranta, Lundberg, & Kaitala, 2006)，在網路文本資料的分析上，一階差分則會把每天發表的文本數量轉化為發表數量變動的時間序列，因為主文發表數量的時間序列與生態學中所探討的牲口密度或牲口數量時間序列有些不同，因此本研究同時針對排除趨勢、季節的隨機時間序列與一階差分的時間序列進行分析，圖 15 為 Yahoo!奇摩新聞主文所有集群一階差分的序列。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

122

圖15： Yahoo!奇摩新聞主文集群(k=7)一階差分

貳、 Bulmer 的密度依賴檢定

Bulmer (1975)所發展的密度依賴檢定，是一個受到許多學者應用而且容易執行的方法(Brook & Bradshaw, 2006；Pollard, Lakhani, & Rothery, 1987；Woiwod &

Hanski, 1992)，在針對 Yahoo!奇摩新聞不同模因類種背後密度依賴機制的探討前，

本研究先參考 Southwood & Henderson (2016)所提供的語法透過 Bulmer 的檢定初步探討不同模因類種是否受到密度依賴的影響，以下為 Bulmer (1975)所提供的檢定公式。

𝑈 = ∑(𝑥_𝑡+1− 𝑥_𝑡)²

𝑁−1

𝑡=1

𝑉 = ∑(𝑥_𝑡− 𝑥̅)²

𝑁

𝑡=1

𝑅 =𝑉 𝑈

在公式中𝑥_𝑡為時間序列，而 N 則為觀察天數。Bulmer (1975)認為一般很難獲得實際牲口的數量資料，因此時間序列𝑥_𝑡很可能會有測量錯誤，使得 R 值比實際

‧

1975；Woiwood & Hanski, 1992)，不過檢定本身卻沒有提供一個明確的顯著指標，

因此為了更加確定特定時間序列是否含有密度依賴的影響，本研究參考

Southwood & Henderson (2016)所提供的 RI 與 RI*值語法，計算出 R 和 R*的 95%

信賴區間。

雖然 Bulmer (1975)認為自己所發展的檢驗應該被用在排除趨勢前的時間序列，不過後續針對 Bulmer 檢定評估的研究都認為該檢定並不適合用於探討有趨勢的時間序列(Pollard, Lakhani, & Rothery, 1987；Southwood & Henderson, 2016)，

在文檔中巨量資料生態：以模因學分析網路文本的進化 - 政大學術集成 (頁 129-144)

密度依賴選擇的影響

第四章 研究分析與結果

第二節 密度依賴選擇的影響

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

壹、 趨勢與季節性

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、 Bulmer 的密度依賴檢定

‧

第四章研究分析與結果

第二節密度依賴選擇的影響

立政治大學

壹、趨勢與季節性

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學