3. 研究方法 研究方法 研究方法 研究方法
4.2. 實際資料驗證 實際資料驗證 實際資料驗證 實際資料驗證
4.2.1. 裁縫店罷工事件 裁縫店罷工事件 裁縫店罷工事件 裁縫店罷工事件
Kapferer (1972)觀察了一段十個月在尚比亞(當時北羅得西亞)一家裁縫店的 39 位工人之間友誼關係。在這個十個月裡,因為薪資低的問題工人們想提高工 資,而與老闆抗議,最後歷經十個月的抗議中獲得成功,工人如願以償。Kapferer 感興趣的事是工人在提高工資談判的這段期間,兩時期的工人友誼網絡密度 (density)的變化是否是使抗議成功的關鍵因素。
兩時期工人友誼網絡的網絡密度與三種作法比較:
Node=39 Period 1:
Density=0.2132
Period 2:
Density=0.3009
Bootstrap Jackknife Factor
Period 1:
[0.1244 0.3021]
Period 2:
[0.2123 0.3896]
Period 1:
[0.1560 0.2704]
Period 2:
[0.2357 0.3662]
Period 1:
[0.1885 0.2380]
Period 2:
[0.2737 0.3282]
表格 13: 三種作法在兩時期之網絡密度 95%信賴區間結果
圖表 20: 三種作法之信賴區間比較(一)
- 41 -
從上表可以得知,經過三種方法的實驗結果可以看到因子重抽法的兩時期信 賴區間較比 Bootstrap 以及 Jackknife 的區間還要顯著有差異。
兩時期工人關係網絡圖的變化:
圖表 21: 第一時期工人友誼網絡的連結狀態
圖表 22: 第二時期工人友誼網絡的連結狀態
從上面兩張圖我們可以看到網絡的連結數在第二時期變的更密集。所以綜合 上述所有的資訊得知,以因子重抽法所建立的的信賴區間,其顯著有差異證明了 Kapferer 的見解,兩時期的網絡密度變化可能為抗議的關鍵。
- 42 - Last semester:
Density=0.5497
Node=16 Next semester:
Density=0.7500
Bootstrap Jackknife Factor
Last semester:
[0.3390 0.7604]
Next semester:
[0.6074 0.8906]
Last semester:
[0.3908 0.7086]
Next semester:
[0.6346 0.8652]
Last semester:
[0.4905 0.6089]
Next semester:
[0.6829 0.8171]
表格 14: 三種作法在上下學期之網絡密度 95%信賴區間結果
圖表 23: 三種作法之信賴區間比較(二)
- 43 -
從上表可以得知,經過三種方法的實驗結果可以看到因子重抽法的上下學期 期信賴區間較比 Bootstrap 以及 Jackknife 的區間還要顯著有差異。
上下學期關係網絡圖的變化:
(粉紫色:老師; 藍色:學生; 橘色:行政人員)
圖表 24: 上學期師生關係網絡的連結狀態
圖表 25: 下學期師生關係網絡的連結狀態
- 44 -
對照上面兩張圖,主要可以看到在下學期同學之間的連結變的更密集,可能 是到下學期大家開始變的熟識,雖然有些同學因為個人因素而選擇休學,但同學 間的感情也變得更好。所以綜合上述所有的資訊得知,以因子重抽法所建立的的 信賴區間,其顯著有差異,代表著統計所師生經過了這學期之後,整個所上的氛 圍變的相當融洽且向心力變的良好。
- 45 -
4.2.3. 911 恐怖份子劫機事件 恐怖份子劫機事件 恐怖份子劫機事件 恐怖份子劫機事件
Krebs (2002)繪製了一個關於 911 劫機恐怖份子之間聯絡關係的網絡,事情 描述是在美國經過 2001 年 911 事件當天,4 架飛機總共被 19 名恐怖份子挾持,
然而 3 架飛機撞毀於世貿中心以及五角大廈,另 1 架則不幸墜毀,造成美國多數 人傷亡,是美國歷史上的最慘烈的悲痛。而 Krebs 認為劫機的事件不因只有劫機 的 19 名恐怖份子行動而成功的,其背後還有 43 名沒上飛機的恐怖份子的幫助,
才讓他們得逞。之後 Duval, Christensen and Spahiu (2010)利用 Bootstrap 的方法來 對中心度(centrality) 、參與中間度(betweenness)和近距中間度(closeness)作標準差 的估計,發現 Mohammed Atta、Marwan Al‐Shehhi 和 Hani Hanjour 三名恐怖分子 為主要聯絡人。我們欲用平均任意兩點之間的最短路徑(average of the shortest path between any two nodes)來作實驗,為了得知在我們所觀察網絡中的重要腳色 是誰,所以我們欲每一次刪掉一個刪掉去做分析,所以總共刪了 62 次有 62 張不 同的網絡圖。利用因子重抽法去實驗,有刪掉與沒刪掉的網絡當中,其任意兩點 平均的最短路徑 95%信賴區間是否有顯著的差異,有差異代表我們抓出主要的劫 機者,假如在事件發生前是有很大的機會去阻止一場劫機事件。
首先計算網絡刪掉各個點的平均任兩點之最短路徑:
Terrorist Average of the shortest path between any two nodes
1. Mohamed Atta 4.0787
2. Waleed Alshehri 2.9180
3. Wail Alshahri 2.9344
⋮ ⋮
60. Jerome Courtaillier 2.9120
61. Kamel Daoudi 2.9120
62. David Courtaillier 2.9087
表格 15: 每次刪掉 1 點的平均任兩點最短路徑結果
- 46 -
Original ASP (62): 2.9201 Interval: (ASP: Average of the shortest path between any two nodes)
表格 16: 刪掉各點的 95%信賴區間結果
上節談到,Duval, Christensen and Spahiu (2010)利用 Bootstrap 的方法來對中 心度(centrality) 、參與中間度(betweenness)和近距中間度(closeness)作標準差的估 計,他找出 1 號點 Mohammed Atta、10 號點 Hani Hanjour 和 11 號點 Marwan Al‐
Shehhi 三名恐怖分子為主要聯絡人,而我們假如是對 62 張圖的平均任兩點最短 路徑作標準差的估計且建立區間,發現只有 1 號點 Mohammed Atta 為最顯著,
其他兩人的區間分別為[2.7395, 3.5567]和[2.5976, 3.4646],所以能確定的是 1 號 點 Mohammed Atta 為恐怖份子網絡之中是極為重要的腳色。
- 47 -
以下為劫機恐怖份子的關係網絡圖:
(紅色: 航班 AA77; 藍色:航班 UA93; 綠色:航班 AA11; 紫色:航班 UA175)
圖表 26: 原 62 個恐怖份子的關係網絡圖
圖表 27: 刪掉 1 號點 Mohammed Atta 的關係網絡圖
從上兩張圖可以得知,刪掉 1 號點過後的圖明顯少了些許的連結。綜合上述 所有資訊,我們的結果以及 Duval, Christensen and Spahiu (2010)的結果,雖然沒 有一致,但對不同特徵的作法,同樣可以找出 1 號點的主嫌,假如在事件發生前 把他抓到是有可能有很大的機會去阻止這件美國有史以來最大的慘案的。
- 48 -
5. 結論 結論 結論 結論
在第二章以及第三章中,我們採用模擬資料和實際網絡資料分析,實驗結果 發現,模擬資料上因子重抽法的表現大部分都比其他兩種傳統的方法估計還要準 確,且實際資料中裁縫店工人罷工抗議的例子以及運用在所上師生關係的網絡在 三種方法比較上,因子重抽法的結果也是有不錯的效果的。由此可見,考慮 Kuo, Ho and Liu (2013)提出的網絡特徵團之下的因子矩陣,再進一步改進更新的重抽 樣方法對於研究網絡重抽樣議題帶來令人出乎意料的結果。
網絡不單只是一張圖,透過重抽樣的方法得到點估計其建立信賴區間之後,
透過區間的顯著關係,在現實的生活網絡是否能不能提供我們一些未知的資訊,
有待進一步研究。舉例來說:近年來南臺灣台南市以及高雄市飽受登革熱疾病的 痛苦,每逢夏季轉入秋季,蚊子繁殖季的來臨,登革熱的發病人數是快速成長,
而我們希望是否能透過與上述三個實際的例子一樣,對於我們感興趣的網絡特徵 進行重抽樣,例如:三角形的個數,而每個節點可能所代表的是一個區或鄉,鄰 近且發病率都是上升的區當作有連結,然後觀察數周的區間情況,最後在下適當 的結論。當然,實際的實驗模擬與我們想像的結果並非那麼容易好下結論,其三 角形的個數在這裡扮演的腳色還有它的意義是什麼?還有該網絡怎麼定義好的連 結?是否加入時間序列的概念呢?這些問題其實很快就浮出檯面。
現今社會網絡重抽樣的議題,加上現在大數據的時代來臨,網絡資料也會逐 漸擴展為高維度的資料,對於分析上變的越來越困難,重抽樣的方法如何運用到 高維度網絡資料上的作法也會逐漸興起。此外,在第 24 屆的南區統計研討會中 寇星昌教授針談論到網絡資料亦是大數據的一種型式,研究網絡的學者們如何去 應用是一門很大的課題。本文僅針對因子重抽法提出一些想法,運用網絡特別的 特徵「團」,Kuo, Ho and Liu (2013)提出的因子模型的概念能直接提供與研究議 題相關的特徵,找出網絡網絡圖中最大團來建立每個點的因子集並建構因子矩陣,
其在用一些創新的想法再創造出一套新的因子重抽法。目前在國內重抽樣的技術
- 49 -
尚未蓬勃發展,過去只有 Frank and Snijders (1994)的 Jackknife 以及 Snijders and Borgatti (1999)的 Bootstrap 兩種傳統的重抽樣技術來支持,雖然至現今還未有一 定好的重抽樣方法,但是在往後相信未來有研究者可以提出更多元的重抽樣技術,
或者是證明我們的概念及作法,使網絡的重抽樣技術在國內外不只網絡分析的領 域,同樣地我們也期盼能在統計學術界上發光發熱。
- 50 -
參考文獻 參考文獻 參考文獻 參考文獻
[1] Albert, Réka, Barabási, Albert-László (2002). "Statistical mechanics of complex networks" . Reviews of Modern Physics 74: 47-97.
[2] Duval, R.D., Christensen, K., Spahiu, A. (2010): Bootstrapping a terrorist network.
Presented in the Conference of Southern Illinois University Carbondale.
[3] Efron, B. (1979). "Bootstrap Methods: Another Look at the Jackknife". The Annals of Statistics 7 (1): 1-26.
[4] Erdős,P ,Rényi,A (1959). "On Random Graphs. I" . Publicationes Mathematicae 6:
290-297.
[5] Frank, O., Snijders, T.A.B. (1994). "Estimating the size of hidden populations using snowball sampling". Journal of Official Statistics, 10, 53-67.
[6] Jones J.H., Hankcock M.S. (2003). "An assessment of preferential attachment as a mechanism for human sexual network formation". The Royal Society, 02PB1027.1- 02PB1027.6.
[7] Kapferer B. (1972). Strategy and transaction in an African factory. Manchester:
Manchester University Press.
[8] Krebs, V. (2002). "Uncloaking Terrorist Networks". First Monday. Volume 7 Number 4-1 April.
[9] Kuo, K.-L., Ho, H.-C. and Liu, W.-C. (2013). "Nonparametric inference for network statistics". Trends in Social Network Research, Taipei Workshop 2013.
Academia Sinica, Taipei, Taiwan, 2013/11/15-16.
[10] Liljeros, F. (2001). "The web of human sexual contacts". Nature 411: 907-908.
[11] Lin W.-H., Liu W.-C., Hwang M.-J. (2009) "Topological and organizational properties of the products of house-keeping and tissue-specific genes in protein-protein interaction networks". BMC Syst Biol 3-32.
- 51 -
[12] Mitchell, J.C. (1969). "The concept and use of social networks". In Social Networks in Urban Situations, J.C. Mitchell (ed.). Manchester: Manchester University Press.
[13] Newman, M.E. (2003). "The structure and function of complex networks". SIAM Review 45(2): 167-256.
[14] Patricia Sobradillo, Francisco Pozo, Álvar Agustí (2011). "P4 Medicine: the Future Around the Corner". Arch Bronconeumol, 47(1): 35-40
[15] Quenouille, M.H. (1949). "Problems in Plane Sampling". The Annals of Mathematical Statistics 20 (3): 355-375.
[16] Snijders, T.A.B., Borgatti S.P. (1999), "Non-parametric standard errors and tests for network statistics", Connections, 22(2), 61-70.
[17] Wasserman, S., Faust, K. (1994). "Social Network Analysis: Methods and Applications". New York and Cambridge, ENG: Cambridge University Press.
[18] Watts, D.J., Strogatz, S.H. (1998). "Collective dynamics of 'small-world' networks" . Nature 393 : 440-442.
[19] Woolhouse M.E.J, Haydon D.T, Antia R. (2005). "Emerging pathogens: the epidemiology and evolution of species jumps". Trends Ecol Evol 20: 238-244.
[20] Zachary, W.W. (1977). "An Information Flow Model for Conflict and Fission in Small Groups". Journal of Anthropological Research, Vol. 33, No. 4, pp. 452-473 [21] 劉維中(2009),網絡,中央研究院週報,1181,2-4。