運用社會網絡分析法與網路探勘技術以發掘仇恨團體
64
0
0
全文
(2) 口試委員會審定書. I.
(3) 誌謝 碩士的求學路程,即將在不久後畫下句點。這過程中經歷的風風雨雨,所有心路歷 程,對我來說都是重大且有意義的。在此首先感謝我的指導教授丁一賢老師,感謝您在 這求學路上的悉心指導與諄諄教誨,對於學生所面臨之瓶頸總是細心解答,對於學生所 提出之疑問總是耐心與學生研討。有了您,學生才能在此寫下對你的感激之情,心中對 您萬分感謝,謝謝您。 感謝我的口試委員周棟祥老師與楊新章老師,對於我的論文提出許多寶貴的建議, 學生謹遵教誨。同時感謝在 Lab 211 技術組的老師,王學亮、蕭漢威老師們的意見與指 導,讓學生總是受益良多。感謝郭英峰老師對學生的關心與鼓勵,感謝已經離開的閔玲 姊對我的支持與鼓勵,感謝過去曾經教導我的師長們,謝謝您們。 在這三年多的求學路上,感謝許多朋友的幫助與支持。謝謝過去碩士班 100 級的同 學們,阿陌、政哲、Sasaki、豆豆、暉哥、芳羽、小高、小古、宛真,很高興可以跟你 們有一段快樂的共事時光,其中要特別感謝 Sasaki,除了給予我鼓勵與支持,對於我 研究實驗進行所遇到的難關,總是不吝於分享意見與討論,謝謝你。 同時,感謝碩班可愛的學弟妹們,阿珊、翔齡、維尼、筱萱、仲膺,謝謝你們在 211 所帶來的活力與鼓勵,也特別感謝翔齡在實驗機器上的支援與幫助。感謝銀伶、昱 儒、柏宇,謝謝你們在口試當日的幫忙,才能讓我在無後顧之憂的情形下順利完成口試, 你們辛苦了。感謝系辦明君姊,您在一些口試流程方面的提醒,給予了我不少幫助,謝 謝您。 最後我要感謝父母親對我的栽培,能讓我達到現在的成就。這過程中您們總是適度 的叮嚀與鼓勵,對於我給予包容與耐心,謝謝您們,您們辛苦了。謝謝哥哥、姊姊在這 些日子的幫助與鼓勵。在此謹對於所有陪伴、幫助過我的人敬上最高的感謝之意。 峻興 謹誌於高雄大學 中華民國一○二年一月 II.
(4) 運用社會網絡分析法與網路探勘技術以發掘仇恨團體 指導教授:丁一賢 博士 國立高雄大學資訊管理學系 學生:吳峻興 國立高雄大學資訊管理研究所. 摘要 隨著網際網路與通訊技術的蓬勃發展,人與人之間透過網路產生互動的管道可說是 日益多元。加上近年Web 2.0概念導入網路世界,人們可以更自由地在網路上分享各自 的資訊或想法。由此基礎衍生而出的虛擬線上社群網站,更是如雨後春筍般地出現。透 過虛擬線上社群平台的管道,人們常藉由某幾種特定類型因素而相互依存,形成另一種 社會網絡(social network)的型態。 社會網絡帶來人與人訊息傳遞之便利,但伴隨而來的亦有網路濫用的問題。在帶有 正面意象網絡生成的同時,負面意象網絡亦悄悄藉由網路逐漸成形(如:恐怖分子組織、 仇恨團體……等)。而其中與我們最為貼身相關的便是仇恨團體。仇恨團體是指對某特 定領域與對象(例如:種族、宗教、性別……等)提倡仇恨、敵視、暴力對待或發表言 論予以牴觸的有組織團體或運動。 本研究試圖透過社會網絡分析法與網頁探勘技術,以Facebook平台為資料來源,擷 取以仇恨3C電子軟體產業之仇恨團體做為案例。解析仇恨團體社會網絡特徵與內容特 徵,並透過資料探勘中的分類技術,發掘影響分類的重要關鍵字與社會網絡特徵,並針 對實驗結果進行分析與探討。. 關鍵字:3C 電子軟體產業仇恨團體、社會網絡分析、網頁探勘、資料探勘. III.
(5) Discovering Potential Hate Groups by Using the Technique of Social Networks Analysis and Web Mining. Advisor:Dr. I Hsien Ting Department of Information Management National University of Kaohsiung Student:Jyun Sing Wu Department of Information Management National University of Kaohsiung. ANSTRACT With the rapid growth of Internet and communication technology, there are more and more channels for people to interact with each other. Furthermore, with the development of web 2.0 concept, people can more freely to share their information or ideas on the Internet. Base on this background, online social networking web sites sprung up on the Internet. Through the virtual online community platform, people are often interdependent by some factors of several specific types and form another kind of online community is called “social network”. Social networks make people easier to transmit messages with each other, but problematic internet use (PIU) is also accompanied. The more noteworthy of which and also frequently in our daily life are hate groups. In this study, Facebook has been selected as the primary source of data and we choose the groups that hate "3C electronic software industry" as a case study. We also attempts to use social network analysis and web mining techniques to retrieve the social networking features and content features of hate groups. Through the classification techniques of data mining, trying to find out the key features that can be used on discriminating hate groups or not. Keywords:Hate Groups of “3C electronic software industry”, Social Networks Analysis, Web Mining, Data Mining IV.
(6) 目錄 口試委員會審定書.................................................................................................................... I 誌謝........................................................................................................................................... II 中文摘要.................................................................................................................................. III 英文摘要..................................................................................................................................IV 第一章 前言.............................................................................................................................. 1 1.1 1.2 1.3 1.4. 研究背景..................................................................................................................... 1 研究動機..................................................................................................................... 2 研究目的與假設......................................................................................................... 4 論文架構..................................................................................................................... 5. 第二章 文獻探討...................................................................................................................... 7 2.1 仇恨團體..................................................................................................................... 7 2.2 社會網絡分析........................................................................................................... 13 2.3 相關研究................................................................................................................... 16 第三章 實驗方法與設計........................................................................................................ 19 3.1 Facebook 仇恨粉絲團資料擷取 ............................................................................... 19 3.2 資料前置處理........................................................................................................... 20 3.2.1 資料淨化........................................................................................................ 20 3.2.2 Facebook 使用者定義 .................................................................................... 22 3.3 仇恨團體社會網絡特徵與內文特徵擷取............................................................... 23 3.4 仇恨團體判別實驗及評估....................................................................................... 24 3.4.1 實驗(一)僅以社會網絡特徵進行分類判別 ................................................. 24 3.4.2 實驗(二)僅以內容相似度特徵進行分類判別 ............................................. 25 3.4.3 實驗(三)結合社會網絡特徵與內容相似度特徵進行分類判別 ................. 26 第四章 實驗結果與分析........................................................................................................ 27 4.1 樣本資料呈現........................................................................................................... 27 4.2 前置處理結果........................................................................................................... 28 4.2.1 社會網絡矩陣建置........................................................................................ 28 4.2.2 文字內容資料淨化........................................................................................ 29 4.3 社會網絡特徵值與內容特徵值處理結果............................................................... 30 4.4 實驗結果與分析....................................................................................................... 31 4.4.1 實驗(一)僅以社會網絡特徵進行分類判別 ................................................. 32 4.4.2 實驗(二)僅以內容相似度特徵進行分類判別 ............................................. 33 V.
(7) 4.4.3 實驗(三)結合社會網絡特徵與內容相似度特徵進行分類判別 ................. 36 4.4.4 實驗結果分析................................................................................................ 40 第五章 結論............................................................................................................................ 42 5.1 結論........................................................................................................................... 42 5.2 研究限制................................................................................................................... 43 參考文獻.................................................................................................................................. 44 附錄.......................................................................................................................................... 47 附錄 1:仇恨關鍵字集比較基準................................................................................... 47 附錄 2:粉絲團樣本完整社會網絡特徵值................................................................... 49 附錄 3:不同規模關鍵字集相似度............................................................................... 50 附錄 4:單從社會網絡特徵進行分類判別之特徵向量............................................... 51 附錄 5:單從內容相似度特徵進行分類判別之特徵向量........................................... 52 附錄 6:結合社會網絡特徵與內容相似度特徵進行分類判別之特徵向量............... 53. VI.
(8) 圖目錄 圖 1-1:世界前十網頁瀏覽次數..............................................................................................1 圖 1-2:簡單社會網絡示意圖..................................................................................................2 圖 1-3:研究流程圖…………………………………..............................................................5 圖 2-1:存活至今的「白亞利安抵制」仇恨團體網頁..........................................................7 圖 2-2:SPLC 建構出仇恨地圖................................................................................................9 圖 2-3:社會網絡架構示意圖................................................................................................14 圖 3-1:研究方法流程設計.....................................................................................................19 圖 3-2:互動模式示意圖.........................................................................................................21 圖 3-3:史丹佛斷詞系統處理之結果範例............................................................................22 圖 3-4:簡單族群網絡模式示意圖…....................................................................................23 圖 3-5:實驗流程圖……………............................................................................................26 圖 4-1:蒐集資料集的關鍵字組合模式................................................................................27 圖 4-2:粉絲團關鍵字整理範例............................................................................................30 圖 4-2:各規模關鍵字計算示意圖........................................................................................31. VII.
(9) 表目錄 表 4-1 仇恨與非仇恨樣本基本資料…..................................................................................27 表 4-2 粉絲團社會網絡矩陣建置範例…..............................................................................29 表 4-3 社會網絡特徵值計算結果範例…..............................................................................30 表 4-4 不同規模關鍵字特徵值計算結果範例......................................................................31 表 4-5 實驗(一)單從社會網絡特徵進行分類訓練結果…...................................................32 表 4-6 實驗(一)單從社會網絡特徵進行分類訓練之實際類別與預測結果……...............32 表 4-7 實驗(二)僅以內容相似度特徵 Top 30 進行分類訓練結果…………...…................33 表 4-8 實驗(二)僅以內容相似度特徵 Top 30 進行分類訓練結果之實際類別與預測結 果…..............................................................................................................................34 表 4-9 實驗(二)僅以內容相似度特徵 Top 50 進行分類訓練結果......................................34 表 4-10 實驗(二)僅以內容相似度特徵 Top 50 進行分類訓練結果之實際類別與預測結 果................................................................................................................................34 表 4-11 實驗(二)僅以內容相似度特徵 Top 100 進行分類訓練結果……………………...35 表 4-12 實驗(二)僅以內容相似度特徵 Top 100 進行分類訓練結果之實際類別與預測結 果................................................................................................................................35 表 4-13 實驗(三)結合社會網絡特徵與內容相似度特徵 Top 30 進行分類訓練結果…….36 表 4-14 實驗(三)結合社會網絡特徵與內容相似度特徵 Top 30 進行分類訓練結果之實際 類別與預測結果........................................................................................................37 表 4-15 實驗(三)結合社會網絡特徵與內容相似度特徵 Top 50 進行分類訓練結果........37 表 4-16 實驗(三)結合社會網絡特徵與內容相似度特徵 Top 50 進行分類訓練結果之實際 類別與預測結果...........................................……………………………………….38 表 4-17 實驗(三)結合社會網絡特徵與內容相似度特徵 Top 100 進行分類訓練結果…..38 表 4-18 實驗(三)結合社會網絡特徵與內容相似度特徵 Top 100 進行分類訓練結果之實 際類別與預測結果…..........................................………..........................................39 表 4-19 實驗結果整合….........................................………...................................................40. VIII.
(10) 第一章 前言. 1.1 研究背景 隨著網際網路與通訊技術的蓬勃發展,人與人之間透過網路產生互動的管道 可說是日益多元。加上近年 Web 2.0 概念導入網路世界,人們可以更自由地在 網路上分享各自的資訊或想法。由此基礎衍生而出的虛擬線上社群(online social networking )網站,更是如雨後春筍般地出現。透過虛擬線上社群網站,使用者 可在網路上從事各種不同的活動,例如:提供互動影音分享的 Youtube (http://www.youtube.com)、提供個人網誌交流的 Blogger (http://www.blogger.com)、 分享網路相簿的 Flickr (http://www.flickr.com)、甚至出現了提供多元服務的線上社 群網站 Facebook (http://www.facebook.com)與 MySpace (http://www.myspace.com), 這些新興的虛擬線上社群平台,提供了人們在網際網路互動上更多元的管道。 以時下最流行的 facebook.com 為例,根據網站流量分析公司 Compete.com (http://www.compete.com)的統計數據顯示(圖 1-1),Facebook.com 在 2010 年 10 月 有高達 133,541,892 個來自世界各地的獨立使用者曾拜訪 Facebook.com,且在 3,541,659,918 的拜訪次數中瀏覽了高達 87,263,464,825 個網頁,而同性質的 youtube.com 與 myspace.com 也分別位居第 5 與第 6 名,且各線上社群平台相對 於過去的統計資料,都仍有漸趨成長的態勢。這些數據顯示了線上社群平台已逐 漸成為了人與人之間重要的溝通平台,且在未來仍有持續成長的空間。. 圖 1-1:世界前十網頁瀏覽次數 資料來源:http://lists.compete.com/. 相對於實體社群的社會形態,Rheingold (2000)認為,虛擬線上社群是一種新 型的社會組織,並具有以下四種特點:(1)表達的自由;(2)缺乏集中的控制;(3) 多對多的傳播;(4)成員出於自願的行為。而透過虛擬線上社群平台的管道,人 1.
(11) 們常藉由某幾種特定類型因素(如:價值觀、理想、衝突、貿易……等)而相互依 存,形成另一種社會網絡(social network)的型態。其構成主要包含兩個重要的角 色:節點(node)與連結(tie);節點通常是指網絡中的個人參與者亦可用來代表特 定組織與團體,而節點與節點間則存在著許多連結,以表示節點間相互作用的關 係,這些關係可以透過社會網絡分析技術(SNA:social network analysis)加以定義 與解釋。 社會網絡分析是一個針對社會網絡內部結構與節點間之關係進行分析與解 釋的重要研究領域,透過社會網絡分析可以了解一個社會網絡的內部特性(Scott, 2000)。這些用來描述社會網絡內部特性的元件,包括社會網絡的密度(density)、 中介程度(betweeness)、親密度(closeness)與集中程度(centrality),或是各節點所代 表的不同角色(role),如在圖 1-2 所示的橋梁(bridge)、社交(social)、明星(star)、 孤立點(isolate)與頂端(peak)。以此為基礎架構分析整合虛擬線上社群內部節點, 整體社會網絡結構圖形將會非常的複雜。而透過此相似特性取向的社會網絡分群, 人們可以在網路上清楚的找到相似於自己特性的社會網絡,結合社會網絡概念, 可進一步了解本身在社會網絡中所擔任的角色,做進一步的關係連結、資料蒐集 以及知識分享。. 圖 1-2:簡單社會網絡示意圖 (Scott, 2000). 1.2 研究動機 當資訊科技與網際網路成為大多數人生活中的一部分時,我們利用這些管道 與他人互相溝通的時間也越久、互動次數也越頻繁。因此,每個人利用網際網路 進行人際通訊的累積資料量越來越多,其牽涉的範疇也越來越廣。網路就像是個 兩面刃一般,雖然帶來了溝通上的便利,但對於透過網路進行之攻擊、毀謗等不 當行為,其影響的範圍也比過去更廣,傳播速度亦更加的快速。 儘管社會網絡帶來人與人訊息傳遞之便利,伴隨而來的亦有網路濫用的問題。 由於社會網絡的組成,是由一群持有、推崇特定思想或相同興趣的個體所組織而 成,在帶有正面意象網絡生成的同時,負面意象網絡亦悄悄藉由網路平台逐漸成 形(如:恐怖分子組織、極端主義團體、仇恨團體……等)。而網際網路同時也是 2.
(12) 極端主義份子當作成員間聯絡的管道、消息與資訊獲取的來源,並以此為招募新 成員的媒介(Froehling, 1999;Levin, 2002)。由此,網路濫用的程度可見一斑。而 其中較值得注意,同時也是較常出現在我們生活周遭的,便是仇恨團體(hate group)。 對於仇恨意向的規範,最早可追溯至 1990 年起,歐美各國陸續建立起反仇 恨的法規以及思想。但當仇恨行為意象出現在複雜的網際網路時,伴隨而來的又 是一連串的新現象與問題:第一、截至目前為止,對於網路上仇恨的言論或思想 傳播尚未有相關法規可進行規範及限制;第二、網路仇恨團體的定義與其言論行 為標準未建立明確判別準則;第三、網路仇恨犯罪的進行,通常是跨國際的案例。 舉例而言,2009 年 6 月 10 日發生的華盛頓納粹大屠殺紀念館槍擊事件,其中槍 擊者為馬里蘭州「白人至上」主義者及新納粹分子,且曾經在網路部落格上發表 「納粹大屠殺紀念館為捏造的事實」等相關文章。類似上述例子,若可以及早發 現並加以防範,或許可以避免掉不必要的傷亡或是社會案件的產生。諸如此類的 例子層出不窮,也反映了若放任仇恨團體在網路上滋長,將會對社會造成許多的 不良影響。 仇恨團體是指對某特定領域與對象(例如:種族、宗教、性別……等)提倡 仇恨、敵視、暴力對待或發表言論予以牴觸的有組織團體或運動,其透過網際網 路進行陳述想法、散播信仰、以及吸收新成員的動作已與日俱增(Lee and Leets, 2002),且因仇視而犯罪的人約有 60%是青少年(Levin and McDevitt, 1993),而根 據台灣網路資訊中心(TWNIC;Taiwan Network Information Center )統計資料顯示, 截至 2009 年 1 月,15 歲到 19 歲的青少年中,有 99.45%曾透過網際網路從事各 項不同的活動。由此可知仇恨團體若透過網際網路對於社會網絡造成顯著負影響, 將可能再次提高青少年的犯罪率。 而現存的虛擬線上社群網站種類繁多,本研究挑選目前網路上最熱門且最普 遍為人使用,且可讓使用者建立社團或粉絲團及發表個人言論或思想的 Facebook.com 做為主要研究的樣本來源。 根據 Facebook 創辦人扎克伯格(Mark Zuckerberg)在 2012 年 10 月 4 日接受美 國知名商業週刊 Bloomberg Businessweek 的專訪中指出「Facebook.com 的每月活 躍用戶數量已突破 10 億人」,這意味著平均每七個人中就有一個使用 Facebook.com 所提供的服務。而 Facebook 所提供的社團或粉絲團服務,可讓任 何使用者輕易地在此平台上創建具有傳播思想功能的社會網絡團體。透過分析團 體內部成員的互動情形,可解析出其各自所扮演的角色與角色間的關係。 總結上述,網路上的仇恨視團體已漸漸發展成不可小覷的勢力,其影響力及 3.
(13) 帶給社會的衝擊已遠遠超出網際網路的範疇,而是切身的影響我們周遭的生活。 因此,若能透過相關資訊科技對仇恨團體進行定義、查覺與界定,對於社會將有 相當大的幫助。. 1.3 研究目的與假設 總結上述,可清楚了解,若是網路仇恨團體充斥在我們生活周遭,將會對社 會整體規範產生多少不良的影響,更由於虛擬線上社群擁有自由發表以及無法透 過有效規章加以規範之特性,難以控制仇恨團體在網路上進行資訊思想的散播以 及進行吸收新成員的動作。 在此情形之下,本研究試圖透過各種社會網絡分析之方法與網頁探勘技術, 對仇恨團體進行分析,期望透過資料探勘中的分類技術,可以發掘出可用以定義 仇恨團體的關鍵字與社會網絡特徵,並針對在網路平台上既有之社會網絡進行偵 測,進一步判斷是否為仇恨團體,以利後續未來的關鍵資訊封鎖或是資訊隱藏。 因此,本研究之研究目的可以具體條列如下: 1. 針對目前存在於 Facebook 中的仇恨團體與喜好團體進行觀察,並萃取出 這些團體中成員發布資訊或留言的關鍵字與社會網絡架構。 2. 透過資料探勘中的分類技術,發掘影響分類的重要關鍵字與社會網絡特 徵。 3. 驗證所發掘的關鍵字特徵與社會網絡特徵,用於發掘潛在仇恨團體的準 確度。 4. 驗證僅以社會網絡特徵、僅以關鍵字特徵與合併兩者特徵值此三種情況 下,何者有最佳分類準確度。 根據上述之研究目的,本研究有以下之研究假設: 1. 現存仇恨團體之行為與社會網絡特徵可透過觀察歸納與分析加以定義 之。 2. 利用網頁探勘技術與社會網絡分析法,對於判斷未知社會網絡團體是否 為仇恨團體具有一定的準確性。. 4.
(14) 1.4 論文架構 本研究之研究流程如圖 1-3 所示,共分為以下五章:. 圖 1-3:研究流程圖 第一章 前言:說明研究的背景、動機、目的及研究流程。 第二章 文獻探討:對於研究的相關定義與方法加以說明,包含了社會網絡 定義與分類及社會網絡分析法,並對於仇恨團體相關研究進行探討 與分析。 第三章 實驗方法與設計:首先介紹本研究之實驗資料來源與後續資料前置 處理方法,再說明實驗相關特徵向量之建置方式,最後針對兩種特 徵值組進行實驗(一)至(三)的設計。 5.
(15) 第四章 實驗結果與分析:針對本研究所蒐集之資料進行展示,並對於實驗 (一)至三所得之結果進行分析與解釋。 第五章 結論:包含本研究之結論與研究限制。. 6.
(16) 第二章 文獻探討. 2.1 仇恨團體 因仇恨所造成的犯罪行為,在美國已是個持續存在且不容忽視的問題。會有 如此的現象產生,主因在於不同的歷史、文化、政治充斥在美國各地,甚至種族、 性別、宗教、殘疾也常常是造成仇恨行為的主因(Chau and Xu, 2006)。在台灣, 這塊領域雖鮮少被提及,但在台灣相似於美國多元種族、文化、宗教的特性,仇 視團體是否已悄悄在台灣生根滋長,將會是我們值得關心的議題。 長久以來,仇視團體被定義:因相同或相似信仰而聚集在一起的人,對某特 定領域與對象(例如:種族、宗教、性別……等)提倡仇恨、敵視、暴力對待或 發表言論予以牴觸的有組織團體或運動(Chau and Xu, 2006)。例如:在美國存在 著許多具有白人優越感的團體已經長久的在美國活動,Ku Klux Klan(KKK)和 Neo-Nazis 就是其中的一些例子(Burris et al., 2000)。 仇恨團體最早的起源可追朔到 1980 年代初期,幾位著名的白人至上主義領 導者透過電子佈告欄系統(BBS:bulletin board system)進行仇恨團體的組織與運 作。較著名的例子為 1985 年,Tom Metzger 透過建立宗旨為「白亞利安抵制(WAR: white Aryan resistance)」的電子佈告欄系統,正式參與了種族主義行動(Hamm, 1993)。從此之後,相關團體就在網路上持續出現且一直相當活躍(Levin, 2002)。. 圖 2-1:存活至今的「白亞利安抵制」仇恨團體網頁 資料來源:http://www.resist.com/. 7.
(17) 隨著網際網路的發達,仇恨團體透過網路進行傳播思想、散佈信仰、招募新 成員的動作已日漸頻繁(Lee and Leets, 2002)。而 Glaser et al. (2002)則指出,種族 歧視者因網際網路發達而可以更自由地傳播思想。早期研究指出,因仇恨進行犯 罪行為的人,有 60%是青少年(Levin and McDevitt, 1993)。Lee 和 Leets (2002)則 發現,仇恨團體會使用對青少年較具影響力的「說故事方式」或是「暗示性的資 訊」對其目標的青少年團體進行招募成員的動作。Hate directory (Franklin, 2005) 則列出數百個網站、新聞團體或其他類型網路媒體皆充斥著仇恨、種族歧視的資 訊。上述說明了網際網路的發達間接幫助了仇恨思想的傳播,而受害最深的就是 現今接觸網路最頻繁的青少年族群。 Gerstenfeld et al. (2003)曾手動的對 157 個激進份子網站進行分析,他們發現 在這些組織之間,常會透過某些思想、個人因素而聯繫在一起。這說明了各組織 間的聯繫可能會對社會造成更顯著的影響。Zhou et al. (2005)則透過軟體的幫助, 對這些網站進行自動化的內容分析,他們發現這些網站有個共通的最重要目的- 散播組織思想意識。如前所述的 Ku Klux Klan(KKK)和 Neo-Nazis 網站,都是這 些網站的明顯例子。 而本研究針對由文獻探討所蒐集到的仇恨團體,嘗試從不同維度進行分析與 區分: 1. 仇恨團體種類: 時至今日,若要將一個組織或團體歸類在仇恨團體的範疇,其分類的界 線仍然是具爭議且不具有共識的。美國著名的追蹤仇恨團體組織-南方反貧 窮法律中心(SPLC:Southern Poverty Law Center),在 2010 年 3 月發布的 「Anti-Immigration Hate Groups Surging」一文中,不僅說明了仇恨團體日漸 成長的趨勢,更根據其長年的觀察,進一步將仇恨團體歸納為最常見且最具 有勢力的三大種類,分別為: (1) 愛國組織(patriot groups) 又稱為民兵組織(militia organizations),一般而言,愛國組織者定義 自己為「反新世界秩序」主義者,其從事著毫無根據理論的陰謀,主張 或堅持反政府的極端主義。例如:“Oath Keepers”、“Three Percenters” and “We Are Change”。 (2) 本土主義/反移民組織(nativists /anti-immigrant organizations) 其宗旨多為強硬的反移民主張,排外思想傳遞。此類型組織推動更 嚴厲的法律對抗非法外籍勞工,而對於個別移民則實施「平民邊境巡邏」 或「騷擾雇用勞工中心」……等極端手法予以干擾。例如:美國國防民 兵(minuteman American defense)、消防聯盟(fire coalition)。 8.
(18) (3) 一般仇恨團體(general hate groups) 此種類範疇較廣,舉凡種族主義份子、反同性戀主義份子、宗教仇 恨團體……等,皆分屬此類。例如:種族主義-光頭黨(racist skinhead)。. 圖 2-2:SPLC 建構出仇恨地圖(hate map)。 第(3)大類之一般仇恨團體,其範疇與主題性較為廣域,同時此大 類也是最廣為人知且最常出沒於每個人的生活周遭,故本研究在此針對 此大類進行更進一步之分類,以定義清楚一般仇恨團體包含哪些主要類 別。 I. 以仇恨之目標區分: A. 針對個人仇恨: 此種仇恨團體主在針對某一領域之特定人物進行反制、仇恨、 打壓的動作,透過散佈不利於此仇恨對象的消息達到名譽、形象破 壞的目的,甚至可能對此對象進行計畫性的暴力攻擊。其所跨之領 域通常非常廣域,包含宗教、政治、影視、體育……等。例如:反 美國總統歐巴馬的公開網站(http://obambi.wordpress.com/)、反台灣總 統馬英九 Facebook FansClub (http://www.facebook.com/pages/fan-ma-ying-jiu/105303236179757) … …等。 針對團體仇恨: 針對團體的仇恨通常發生於政治、商業、宗教……等領域。此 類仇恨團體通常藉由一些新聞、訊息攻擊仇恨對象,使其在社會媒 體大眾的印象大為降低,甚而參與抵制。例如:反 Facebook 社群網 站(http://sickfacebook.com/)、反微軟企業 (http://www.red-squirrel.com/antiMS/index.html/)……等。 B.. 9.
(19) 針對事件、現象仇恨: 此類仇恨團體通常是針對某一政策、事件、現象進行排斥與仇 恨。通常目標在於使社會大眾思維改觀進而支持仇恨團體所擁護之 中心思想,或是透過活動(抗議、簽名聯署……等)給予相關單位 施加壓力,進而改變現況。例如:反戰爭團體(http://www.antiwar.com/)、 反禁煙自救聯盟(http://smokingareas.pixnet.net/blog/)……等。 C.. II.. 以行為模式區分: A. 資訊宣傳、意識轉移: 此類採和平意識轉移方式,藉由網路、媒體之力量宣傳其組織 所堅守之理念,對其仇恨之目標則採負面訊息、新聞,擴大渲染傳 播予大眾,達到抵制目標對象之目的。例如:反焚化爐團體 (http://www.no-burn.org/index.php/)、國際反皮草聯盟 (http://www.antifurcoalition.org/)……等。 訴諸非法極端行動: 此類之仇恨團體不僅透過網路、媒體進行理念宣傳,甚至會透 過一些有組織的活動(暴力攻擊以警示仇恨目標、非法集會抗議造 成治安問題……等)進行仇恨思想的傳播或體現。例如:白人至上 主義團體(Ku Klux Klan)。 B.. III. 以組織平台區分: A. 實體組織: 實體組織通常是早期仇恨團體的主要形式,一些歷史較為悠久 的仇恨團體幾乎都曾經歷過這段時期。成員間之聯絡較為不易且組 織理念資訊較為不易傳播,所以通常衍伸為較為極端的有組織活動, 讓社會大眾可以了解其組織的理念與堅持。例如:歷史最悠久的白 人至上主義團體 Ku Klux Klan 最早成立於 1865 的普拉斯基,秘密執 行企圖回復白人至上的暴力行為(謀殺黑人)。 網路組織: 在網際網路平台發達以來,大多數仇恨團體已將主要資訊傳播 途徑從實體往網路平台移動,在於網路傳播的一些特質:便利性、 不受地域限制、不受時間影響……等的影響。國際猶太人人權組織 Simon Wiesenthal Center 曾在 2000 年時統計網路上已超過 3000 個以 上的仇恨、恐怖主義、種族主義組織且仍每年持續成長中 (http://www.wiesenthal.com/)。由此可知,網路平台儼然已成為仇恨 團體的新溫床。以下針對仇恨團體在網路上應用之平台進行探討。 B.. 10.
(20) 2. 仇恨團體之網路平台 南方反貧窮法律中心發言人馬克波托(Mark Potok)在 1999 年接受美國電 視台 CNN 的專訪中曾提到「網際網路已成為仇恨團體宣傳平台的選擇」,並 指出「越來越低廉的價格就可以在網路上架設一個網站,甚至激進份子可以 不識字單靠竊取其他網站資訊就可以完成網站架設」 (http://www.cnn.com/US/9902/23/hate.group.report/index.html)。從上述可了解 到,網路的便利性很早就被仇恨團體所了解甚至更進一步的利用,而且使用 此媒介的門檻在將近 10 幾年前就已相當低廉。時至今日網路的進步,不難想 像仇恨團體在網路上的拓展將是多麼的遼闊。故本研究在此針對仇恨團體使 用網路上的平台種類進行探討。 (1) 電子佈告欄系統(BBS:bulletin board system) 此為最早之仇恨團體應用平台,著名例子有 1985 年 Tom Metzger 透過 建立宗旨為「白亞利安抵制」的電子佈告欄系統,參與種族主義之仇恨活動, 此後,激進分子漸漸將資訊傳遞媒介由實體往網路移動。 (2) 一般網站(web site) 從 Web 1.0 時代開始,單向資訊傳播的網站架構漸漸受到激進份子使用, 利用其成本低廉、架設簡便、曝光率高等特性進行仇恨意識與資訊的傳播, 甚至進一步招募成員、擴充規模。例如:從 BBS 平台延伸至網站平台的「白 亞利安抵制」仇恨團體(http://www.resist.com/)、抵制 Facebook 社群平台之 網站(http://sickfacebook.com/)……等。 (3) 部落格(blog) 在 web 2.0 時代的展開後,最具代表性的突破便是部落格網站的產生。 他提供每個使用者一個自我管理的平台,可進行發表網誌、回覆留言、訂閱 網誌……等動作。仇恨團體在此同時也運用了部落格平台進行意識傳遞、組 織活動訊息傳播……等動作。例如:無名小站的反惡質媒體 (http://www.wretch.cc/blog/antibadmedia)、反國軍志願役聯盟 (http://www.wretch.cc/blog/ttll916824) ……等。 (4) 微網誌(micro-blogging) 此種平台是近幾年來發展而成,屬於一種微型部落格,允許使用者即時 更新簡短文字並可公開發佈的部落格形式。微網誌的代表性網站是 Twitter(http://twitter.com/),他帶起微網誌的興起,甚至 twitter 一詞已成為微 網誌的代名詞。其他類似概念的服務網站,例如:Plurk (http://www.plurk.com/) 與近幾年相當熱門的 Facebook (http://www.facebook.com/)皆屬於微網誌的範 疇。而對於如此熱門的微網誌平台,仇恨團體亦透過此種更即時的訊息傳播 11.
(21) 方式,進行仇恨思想的散播且使得仇恨團體招募新成員更為快速便利。例如: Facebook 上反對蘋果日報大聯盟 (http://www.facebook.com/group.php?gid=47745043598) 、反對廢除死刑聯盟 (http://www.facebook.com/pages/fan-dui-fei-chu-si-xing-lian-meng/3573609884 43) ……等。 總結上述對仇恨團體的分析結果,本研究針對之仇恨團體類型將設定為一般 仇恨團體,如前所述,第(1)(2)大類(愛國組織及本土主義/反移民組織)為主題性 較為強烈且偏向美國地域性之仇恨類別,故在本文中將其視為美國地區性特殊案 例,本研究將不針對此兩大類別進行討論。而由於實體仇恨團體樣本資料收集不 易且較為稀少,對後續樣本分析等相關研究步驟易造成分析結果偏差,是故本研 究將主要針對活動於網路上並進行仇恨意向相關活動的組織進行研究。 網路仇恨團體從事仇恨活動的平台略有差異,從上述針對網路仇恨平台的分 析中發現,電子佈告欄系統平台形式已在近年日漸式微,導致此平台的資訊傳播 能力大幅下降,已不敷仇恨團體使用之要求;而一般網頁形式之仇恨團體,其基 本的目的只在於傳播仇恨思想,缺乏成員與成員間之互動模式;部落格平台近年 雖然熱門但受到微網誌崛起的影響,使用率與影響力已日漸下降,且微網誌的資 訊傳播能力較好,使用者可透過簡短且即時的訊息對其他眾多的使用者同時傳達 概念或資訊,相較於部落格平台單一文章發佈且需耗時等待使用者前來觀看的使 用模式,微網誌平台在資訊傳播上的優勢顯而易見。此外,微網誌平台提供的社 會網絡服務較為健全,如:Facebook.com 提供使用者組織社團或粉絲團的服務, 可輕易的在平台上找到相似興趣的團體成員。總結上述原因,本研究關注的焦點 在於微網誌平台上之仇恨團體。 由於近年來微網誌平台的易用性與多樣性大增,Facebook.com 平台所帶來 的旋風可說是席捲全球。透過此平台,人們可輕易地擁有一個專屬自己的粉絲團 或社團,也因此導致仇恨團體利用此管道作為其資訊傳播、招募新成員以及從事 其他組織活動的可能性及便利性大為提高。而 Facebook.com 平台提供的多種方 便使用者之間互動的功能,也導致其被仇恨團體廣為利用的原因,包含(1)可方 便地在社團或粉絲團內部發表文章;(2)可針對特定文章進行留言的動作;(3)可 對任何文章或留言進行「按讚」的動作,表示其同意此言論。透過分析使用者間 發表文章、留言、按讚等互動模式,可了解其線上社群成員的活動概況。本研究 期望透過分析使用者在 Facebook 粉絲團成員之間的互動模式,了解其成員間互 動之社會網絡特性,進一步用以判別仇恨團體。. 12.
(22) 2.2 社會網絡分析 社會網絡分析此一領域的發展,已有相當悠久的歷史。早在 1994 年 Wasserman 與 Faust 已對社會網絡分析進行初步的定義-「社會網絡分析是一種 社會學的方法論,透過分析關係之間的模式以及社會活動者之間的互動,以找尋 潛在的社會網絡結構」(Wasserman and Faust, 1994)。時至今日,許多社會網絡分 析的相關名詞與定義亦已具備一定的成熟度且廣泛地應用在各種領域,例如:社 會學領域、管理學與商學領域、生物學領域與資訊科學領域……等(Jun et al., 2006)(Wilson, 1989)。 在 Social Network Analysis:A Hand Book 此本專書中(Scott, 2000),對於社 會網絡之架構以及社會網絡分析的基本觀念和方法都已有詳盡與完整的介紹,例 如:社會網絡中各種角色的定義(bridge、social、star、isolate、peak)、社會網絡 中角色之間關係的定義與計算(centrality、closeness、network cluster、network diameter……等)。這些社會網絡分析已定義完備的名詞與方法,對於欲在此相關 領域進行研究的學者奠定了良好的基礎與典範。 面對一個未知的社會網路,透過社會網絡分析技術可以擷取出其中的結構模 式,例如:哪個節點扮演著領導者的角色、誰擔任把關者的角色、那些節點可分 為一個群體、群體與群體之間的互動模式……等。而這些分析出來的社會網絡特 徵,對於一個社會網絡的運作通常佔有舉足輕重的地位。例如:把關者通常位於 兩個或多個群體之間,擔任著群體間資訊傳遞與接收的重要角色。當把關者的角 色移除掉,則可以很簡單且有效率地破壞多個群體間的資訊傳遞路徑,甚至影響 整體社會網絡原有的運作。 由上述可知,社會網絡分析可進一步地對社會網絡結構進行剖析,以了解整 體社會網絡的特徵。在此將針對一些常用的社會網絡技術進行介紹與探討(Scott, 2000)。 1. 社會網絡的組成 Hanneman and Riddle 於 2005 年的研究指出,一個社會網絡的組成,應 包含以下三種要素: (1) 行為者(actors) 行為者為社會網絡中的主體,代表著不同的角色。其代表的角色 可以是個人、組織、事件、國家……等皆可。 (2) 關係(relationships) 行為者與行為者之間相互依存的關系,包含關係的存在與關係的 13.
(23) 型態等。行為者會因不同關係的存在而影響行為者之間的互動,且不 同的關係型態反映在網絡上的樣貌也略有差異。 (3) 連結(linkages) 連結是指,當行為者之間建立起關係時,透過途徑(Path)直接或間 接的去建立彼此的關係。 C. B F. A. Actors. D. E. Relationships & Linkages. 圖2-3:社會網絡架構示意圖 2. 社會網絡常用技術(Scott, 2000) (1) 平均最短路徑(Average shortest path length) 常用於衡量社會網絡中,資訊在節點與節點間傳遞的效率,其定 義為「網絡圖中,所有任意兩節點間,最短路徑長度的平均值」。值 越小,則代表資訊傳輸的效率較優於值較大的社會網絡。以圖5為例, 其平均最短路徑長度為1.53,代表的意義是,資訊從任意甲方傳至任意 乙方平均最多只需經由不到2個連結即可到達。 (2) 直徑(Diameter) 常用於衡量整體社會網絡的規模架構。其定義是「所有任意兩節 點間最短路徑長度的最大值」。以圖5為例,直徑為A→C(C←A)此段 路徑,其值為3。 (3) 密度(Density) 社會網絡密度表示行為者之間關係的緊密程度,用以衡量網絡圖 中所有行為者之間關係的連結緊密程度。 其計算公式如下(無向圖): 𝐷𝑒𝑛𝑠𝑖𝑡𝑦 =. R. ,……………………………………………公式1. 𝑛(𝑛−1)⁄2. R:網絡圖中連結的數量, n:網絡圖中節點的個數。 依據上述公式,以圖5為例,可計算得知圖5的社會網絡密度為 8/[6(6-1)/2]×100%=53.33%。. 14.
(24) (4) 中心性(Centrality) 社會網絡中心性,主要是用於衡量個體在網絡圖中的重要程度,可 以藉此掌控整體社會網絡圖的主要資訊流向、個體控制資源的可能 性……等,其主要目標在於定義出網絡圖中重要的個體角色。而過去的 相關研究把社會網絡中心性細分為程度中心性、親密中心性、中介中心 性(Freeman, 1979)。 I. 程度中心性(Degree Centrality) 程度中心性主要是透過個體其相鄰其他個體的數量,來衡量個體 在社會網絡中的區域中心程度,可藉此看出個體掌控的社會網絡區 域大小。 其計算公式如下: DCi =. ∑n j=1 𝒶ij n−1. ,………………………………………………公式2. n:網絡中所有節點個數, ∑nj=1 αij :所有與節點i存在連結的節點數量總和。. 依據上述公式,以圖5之F節點為例。F節點存在著4個相鄰節點, 而整體網絡圖中共有6個節點,因此,節點F的程度中心性為: DCF =4/(6-1)×100%=80%。 當程度中心性值越高時,其個體可能擔任著網絡圖中領導者、專 家、樞紐的角色。 II. 親密中心性(Closeness Centrality) 親密中心性,主要是用以測量個體與其他個體間接近緊密程度, 其所代表的意義是個體是否容易接收到訊息的程度。親密中心性越 低,代表其個體越不易與其他個體進行通訊聯繫。 其計算公式如下: n−1. CC(ni ) = ∑n. j=1 αij. ,…………………………………………公式3. n:網絡中所有節點個數。 ∑nj=1 αij :網絡中所有節點到節點i的最短距離總和。. 依據上述公式,以圖5之F節點為例。其親密中心性為: CC(nF )=(6-1)/6×100%=83.33%。. III. 中介中心性(Betweenness Centrality) 中介中心性,主要用於衡量某一節點存在於任兩節點或社群之間 路徑上的重要程度。擁有較高中介中心度的節點,其通常存在於不 同的社群之間,擔任著守門人(gatekeepers)的角色,掌控著不同社群 間的資料、資訊、資源接收與交換。 15.
(25) 其計算公式如下: BC(ni ) = ∑s≠ni≠t∈V. σst (ni ) σst. ,………………………………公式4. n:網絡中所有節點個數。 V:網絡中所有節點所成之集合。 σst :從節點s到節點t的最短路徑個數。 σst (ni ):從節點s到節點t的最短路徑過程中,經過ni 節點的 最短路徑個數。. 上述所提及之社會網絡分析概念及方法,皆可用以本研究參考之相關資料及 輔助研究方法制定。其中,平均最短路徑與密度,可用於觀察與比較仇恨團體之 社會網絡與一般普通社團之社會網絡其內部資訊傳遞與節點連結之特性,而中心 性所包含的三種方法則可以用來計算與定義仇恨團體組織內部節點之角色定 位。. 2.3 相關研究 過去使用社會網絡分析法進行研究的領域想當廣泛,如前所述,包含社會學 領域、管理學與商學領域、生物學領域與資訊科學領域……等。早期對於社會網 絡的分析大都是針對較小的群體或是小型社會網絡。而由於近年通訊技術與網際 網路發展的普及,人與人之間溝通的管道有了爆炸性的發展,人與人之間的關係 也越趨複雜,藉由資訊科學領域等相關技術的幫助下,時至今日的社會網絡分析 研究,其所涵蓋的資料維度越趨龐大且整體社會網絡規模也大幅提高,也因此社 會網絡分析應用層面更為廣闊。 應用於社會學與商學領域研究,例如:利用社會網絡技術探討網路組織之組 成行為(Borgatti and Foster, 2003)、分析網路組織內部之連結關係(Stuart, 1998)。 在學術網絡上之應用,例如:Baldi (1998)學者利用社會網絡探討研究論文之 間引用模式(Baldi, 1998)、Matsuo et al. (2003)針對參加研討會的學者資料進行建 構學術社會網絡(Matsuo et al., 2003)、而 Tang 等學者在 2007 年則透過論文發表 的資料建置學術社會網絡(Tang et al., 2007)……等。 應用於網路社會網絡建構領域,例如:Mutton 學者在 2004 年提出了一個利 用推論(inferring)的方式,根據線上聊天室的聊天行為來建立使用者的社會網絡 (Mutton, 2004)、Bird 等學者在 2006 年提出了利用文字探勘的方式來分析電子郵 件內容,並建構以電子郵件通訊為基礎的社會網絡,並進行相關的社會網絡分析 (Bird, 2006)、而在 2006 年 Hamasaki 等學者則是利用整合的技術來進行網頁資料 16.
(26) 與連結的分析,包括網頁探勘、使用者互動分析、使用者描述分析,並藉此建構 社會網絡(Hamasaki, 2006)。 應用於情報與安全領域,社會網絡分析亦已被運用於分析犯罪與恐怖主義組 織之社會網絡結構。(Dombroski and Carley, 2002;Krebs, 2001;Xu and Chen, 2004, 2005)。而 Wang 等學者在 2010 年則透過社會網絡分析對近年來出現在網路上常 見的現象-人肉搜索行動,進行社會網絡圖的建置與分析,他們發現了此類型的 社會網絡亦遵守著小世界(small word)原則且其中的資訊來源符合 Power-law 的 理論(Wang, 2010)。 由上述文獻可以了解到,社會網絡分析可應用的領域範疇相當廣泛,而對於 社會網絡分析應用於仇恨團體的相關研究則在下面進行探討。 雖然仇恨團體的發跡已具備一定的歷史背景,但早期對於仇恨團體進行的相 關研究卻僅止於心理學或社會學領域,探討的是仇恨團體生成原因與其組織運作 的行為特色……等,而其使用之方法通常是經過長期對於仇恨團體的觀察,最後 加以歸納出相關研究成果。例如:Lee 和 Leets 學者在 2002 年的研究指出,仇恨 團體透過網際網路進行陳述想法、散播信仰、以及吸收新成員的動作已與日俱增, 且透過「說故事」的招募方式對於已成為仇恨團體招募的對象而言,是更具有說 服力的;而同年的 Glaser 等學者亦發現仇恨團體透過網際網路可以更容易且自 由地散佈仇恨思想。Gerstenfeld 等學者在 2003 年透過手動分析歸納的方式針對 157 個極端份子網站進行分析,他們發現這些網站中,多數的網站都曾與其他仇 恨網站或仇恨組織產生過連結。時至 2005 年,Zhou 等學者透過軟體的幫助,首 次半自動化的對於仇恨團體網站的內文與連結進行分析,他們發現,這些仇恨團 體網站其最主要的目標在於散播與分享組織思想,而白人至上主義者(White Supremacists)團體與新納粹份子(Neo-Nazis)組織為其中最顯著的例子。而近年對 於仇恨團體研究的突破在於 2006 年 Chau 和 Xu 學者使用了社會網絡分析與網頁 探勘技術對於部落格上的仇恨團體進行分析。他們發現,部落格平台上的仇恨團 體結構大致相似於過去對於網頁仇恨團體研究的結果。相對於過去學者單純針對 仇恨社會網絡中的節點進行結構分析,Will 等學者在 2010 年的研究則是透過社 會網絡分析針對仇恨網絡中的連結進行重要性的評估,並以此建構以連結為主的 仇恨網絡。Warner 和 Hirschberg 學者則透過文本探勘與詞語解析技術,搭配模 組化的詞語結構配合資料探勘的分類技巧,以仇恨猶太人為主題,試圖偵測在網 路上存在之仇恨言論(Warner and Hirschberg, 2012)。 以上所述對於仇恨團體近年的相關研究,早期使用人工的分析方法對於時間、 研究成本所費不貲,且單純透過人工的方式進行歸納分析無法處理規模或維度龐 大的仇恨團體樣本,導致研究範圍受限。. 17.
(27) 而近年 Chau 和 Xu 學者的創新,雖然對於過去的方法進行大幅度的改善, 且留下良好的方法典範供後續相關研究利用,但其研究結果仍然設限於研究當前 樣本的仇恨團體特性,而未進一步的對於仇恨團體此種社會型態的組織特性進行 分析、歸納與定義。且在 Chau 和 Xu 學者的研究中,雖名為使用了社會網絡分 析與網頁探勘技術對部落格平台既有之仇恨團體進行分析,但此研究在網頁探勘 技術的使用上,卻只用來擷取部落格擁有者的名稱以及成立時間……等部落格基 本資料。在分析方法上,仍然只著重於社會網絡結構的分析,而未針對仇恨部落 格上所發表之資訊與成員間互相留言的內容進行擷取與探勘。 然而在本研究的觀察下,仇恨團體之社會網絡結構固然重要,但其所蘊含的 內容資訊特徵亦不可忽視。其所發佈的訊息皆代表著仇恨團體所奉行之中心思想, 且內部成員在發佈資訊時的用字遣詞,常以較為偏激且強烈的字眼進行仇恨論述, 如:”Fuck you Microsoft!”、”Microsoft bullshit!”……等。故本研究在上述之前提 下,認為仇恨團體內部之內容資訊特徵亦是需要納入考量之重點。 總結上述,本研究除了期望對於仇恨團體組織的社會網絡特性加以歸納分析 之外,同時加入仇恨團體內容資訊特徵,並透過特徵間互相組合的實驗設計,以 此嘗試去辨別潛在可能之仇恨團體。. 18.
(28) 第三章 實驗方法與設計 為達成本研究之研究目的,針對文獻探討所獲得之資訊,本研究所提出之研 究方法主要包含下列四個步驟,(1)Facebook 仇恨粉絲團資料擷取;(2)資料前置 處理;(3)仇恨團體社會網絡特徵與內文特徵擷取;(4)仇恨團體判別實驗及評估。 整體流程如下圖所示,並詳述如下:. 圖3-1:研究方法流程設計. 3.1 Facebook 仇恨粉絲團資料擷取 此步驟之目的在於將本研究所需之實驗數據自 Facebook.com 平台上進行擷 取之動作,並存放於本研究實驗主機資料庫中備用。 本研究透過文獻探討,針對過去研究發現,仇恨團體在發表言論或是傳播思 想時,其所使用之詞彙皆有較為偏激的字眼出現,諸如:hate、suck、shit、evil…… 等。因此本研究將透過這些詞彙線索進行既有存在之仇恨團體偵測。而構成仇恨 團體的另一項重要條件在於,需具備一個群眾共同仇視的對象。本研究挑選了以 仇視 3C 電子軟體業公司為主的仇恨團體,例如:仇視 Microsoft、Apple、Samsung, 主因在於此些公司都有一定的悠久歷史,各擁有自己的死忠支持者,其在網路上 互相的比較、謾罵、對峙已有一定的時間。故本研究透過關鍵字組合的方式, 如:”hate Microsoft”、”Microsoft fuck”……等,在 Facebook 平台上找尋已存在之 仇恨粉絲團做為主要研究資料來源。 本研究使用 Facebook 公開之 API(Application programming interface)結合 PHP 程式操作,後端以 Mysql 資料庫將仇恨團體儲存以待後續研究步驟使用。 19.
(29) 3.2 資料前置處理 由於網路上擷取所得之資料通常相當繁複且雜亂,資料量則相當龐大難以處 理,因此必須藉此階段將繁複的資料去蕪存菁,萃取出其中關鍵成分進行分析, 以提高實驗的信度以及效度。本研究綜合過去學者(Cooley et al., 2000)的研究, 提出兩個資料前置處理的步驟: 3.2.1 資料淨化 此步驟主要之目的在於刪除並過濾原始資料多餘雜亂的部分,同時保持 資料的品質不變。由 Facebook 收集而來的資料,本研究將其分為兩類:仇 恨團體成員間的互動資料與仇恨團體的內容資料,此步驟將針對此兩類資料 進行前置處理: 仇恨團體成員間的互動資料淨化 Facebook成員間,可透過觀察得到的互動模式主要有三種:在團體 內部發表資訊、對其他成員所發表的資訊留言、對其他成員所發表的 資訊按讚。針對此三種互動模式,本研究保留了成員間互動的所有資 訊,以此建構出其成員間互動模式的社會網絡矩陣。透過此矩陣之建 置,後續的社會網絡特徵即可進行計算。. 1.. 本研究建構矩陣之規則,針對三種不同互動模式分述如下: (1)在團體內部發表資訊 當某成員A在團體內部發表資訊時,在本研究假設其所有成員 都會接受到此資訊的情形下,此成員A對其他所有成員之社會網絡 關係都+1。 (2)對其他成員所發表的資訊留言 當某成員A針對某成員B所發表的資訊進行留言動作,在本研 究假設其兩者間即有資訊上的交流,而成員B亦會追蹤有誰對其發 表的資訊留言並觀看的情形下,成員A與B的矩陣交叉處+1。 (3)對其他成員所發表的資訊按讚 當某成員A對於某成員B所發表的資訊或是留言進行按讚的動 作,可確認此成員A對於成員B之言論具有贊同的意圖,亦表示此 成員B的言論已被成員A所接收,因此成員A與B的矩陣交叉處+1。. 20.
(30) 此三種互動模式以下圖實例呈現:. 圖3-2:互動模式示意圖 如圖3-2所示,Collins此成員在仇恨粉絲團之塗鴉牆上發佈資訊, 在本研究假設其所有成員都會接受到此資訊的情形下,則成員Collins 對此粉絲團其他所有成員社會網絡關係都+1。而成員Huber對於成員 Collins所發佈之資訊進行留言的動作,在本研究假設其兩者間即有資訊 上的交流情形下,成員Huber與成員Collins之社會網絡關係矩陣交叉處 +1。成員「烈」對於成員Huber所發佈之資訊按讚,等同於認可成員Huber 之言論,故成員「烈」與成員Huber社會網絡關係矩陣交叉處亦+1。 而由於討論資訊有向性需具備一個主要的角色作為探討的基礎, 在本研究乃是針對整體社會網絡的特徵進行分析的情形下,本實驗所 建立的社會網絡矩陣都是無向圖且為相鄰矩陣。 仇恨團體的內容資料淨化 此步驟之內容擷取技術,主要是基於自然語言處理(NLP:Nature Language Processing)對於Facebook粉絲團內容部分進行關鍵字的萃取 與篩選,利用Data Mining(資料探勘)方式,將常用字詞(Stop-Words)進 行篩檢刪除,最後歸納成由字詞儲存之資料集合。. 2.. 內文檢索(Content Mining)的領域裡,最常被提及的內文探勘準則就 是TF-IDF指數,TF(term frequency)以及IDF(inverse document frequency), 公式如下:’ TF = freq(i, j)/maxfreq(l, j)…………………………………………公式5 freq(i, j):關鍵字i在總文件數j中出現的總次數 maxfreq(l, j):總文件數j中解析出之總詞彙數. IDF = log(N/ni )………………………………………………………公式6 N:總文件數 𝑛𝑖 :文件中包含關鍵字i的文件數目 21.
(31) TF-IDF指數= TF ∙ IDF ………………………………………………公式7. TF探討的是單一文章內,目標詞彙的出現頻率,而IDF關心的是總 文件出現該詞彙的次數,舉例來說,詞彙「歐巴馬」在文章內總共出 現了5次,而該文件總共可解析出1000個字彙,而TF的值就等於 0.005(5/1000),而在目前蒐集的100000份文件內有1000份文件是有包含 「歐巴馬」此關鍵詞彙,可求得IDF為2(100000/1000),則所求的TF-IDF 指數為0.01(0.005×2),這個公式的值越高代表該詞彙在文章中的重要程 度就越高。 本研究在文字內容的斷詞方面,使用了美國史丹佛大學所研發的斷 詞系統(http://nlp.stanford.edu/software/segmenter.shtml),其可以將完整 的句子進行斷詞並賦予詞類標記以及進行原詞轉換的動作。如圖所示, 將每個字句轉換後,可得到一系列的單詞,在透過程式計算所有關鍵 字之TF-IDF值並進行排序,即可得到足以代表各個仇恨團體內容的關 鍵字組合。. 圖3-3:史丹佛斷詞系統處理之結果範例 3.2.2 Facebook 使用者定義 在Facebook平台上,所有使用者與任何社團、粉絲團……等,皆具備一 個隱形的ID,概念如同身分證字號一般可代表每一個獨立的個體。因此,本 研究基於網路隱私權的限制下,僅擷取每個成員ID的後六碼作為獨立個體的 表示。. 22.
(32) 3.3 仇恨團體社會網絡特徵與內文特徵擷取 此步驟之目的在於透過社會網絡分析與內文探勘技術,擷取仇恨團體訓練樣 本中之社會網絡特徵與內文關鍵字特徵,以下將對此兩種技術所應用之方法分別 詳細說明。而後續之社會網絡分析將以下圖為範例說明:. 圖 3-4:簡單族群網絡模式示意圖 1.. 社會網絡分析特徵擷取 (1) 社會網絡的群聚係數(clustering coefficient)分析 群聚係數分析,從單一節點的角度來看,可解釋為「某個節點的 鄰居節點,其彼此之間亦是鄰居的程度」;從整體社會網絡角度來看, 則可以了解整個目標仇恨團體中,其整體集聚程度的評估。其值越高 則代表著,其內部成員之間形成聚落的程度越高,內部成員之間訊息 的流通更為緊密。 (2) 社會網絡的中心性(centrality)分析 如文獻中所述,社會網絡中心性,主要是用於衡量個體在網絡圖 中的重要程度,可以藉此掌控整體社會網絡圖的主要資訊流向、個體 控制資源的可能性……等,其主要目標在於定義出網絡圖中重要的個 體角色。 透過此中心性對仇恨樣本進行分析,可得知仇恨團體樣本內部各 節點之角色擔當以及仇恨團體其內部組成節點之結構,可用以當作仇 恨團體節點角色之特徵值,以利後續研究分析。 (3) 社會網絡的密度(density)分析 密度分析可以了解仇恨樣本社會網絡之內部節點互動之聯結的強 度,密度高的社會網絡通常代表與核心高度密集或是高度相關且資訊 傳遞快速密集,本研究利用密度指標作為一仇恨團體特徵值已進行後 續分析。參照文獻探討2.2,公式1,以圖7為例,其整體社會網絡密度 為Density =. R n(n−1)⁄2. =. 8. 9(9−1)⁄2. = 0.222。. 23.
(33) (4) 社會網絡的平均最短路徑(average shortest path length)分析 要了解仇恨團體樣本網絡中之資訊傳遞特質,除了參考上述之密 度特徵值外,另一項指標便是整體網絡之平均最短路徑。參照文獻探 討2.2,其代表的意義是,資訊從甲方傳至乙方平均最多只需經由多少 個連結即可到達。以圖7為例,其網絡之平均最短路徑為2.333,此特徵 值也可作為仇恨團體網絡之特性之一。 綜合上述之社會網絡分析技術,可從仇恨團體樣本中萃取出代表仇恨團 體之社會網絡特徵向量。而本研究使用既有的工具 Ucinet6.0(https://sites.google.com/site/ucinetsoftware/home),將前述步驟所產 生之社會網絡矩陣,匯入至 Ucinet6.0 軟體,轉換成適用於此軟體的資料格 式,並計算出上述本研究所需之社會網絡特徵值。 內文探勘關鍵字特徵擷取 基於前述自然語言處理之步驟,各個仇恨團體已具有代表其各自內容特 徵之關鍵字排序。為了將內容特徵量化以進行內容相似度的比較且需具備單 一比較基準的情形下,本研究將透過下述方式建立比較基準。 為了建立比較基準,本研究將所蒐集之所有仇恨團體的關鍵字排序,選 取出其各自排名前 30 名的關鍵字,加以整理排序;其步驟包含簡化重複的 關鍵字、TF-IDF 值進行算術平均數的計算,最後進行排序。如此將關鍵字 去蕪存菁的方式,可得到足以代表仇恨網絡內容特徵之關鍵字列表,往後各 團體的比較基準由此建立。 而本研究比較內容特徵相似度的計算方法,採用最常被使用於文本相似 度計算的餘弦定理相似度(cosine similarity)計算方式,其公式如下:(Salton, 2.. 1988) 其中,����⃑ A、����⃑ B分別表示兩份文件之向量,n 則代表����⃑ A、����⃑ B兩份文件關. 鍵字向量之規模。. similarty(A, B) =. ����⃑·B ����⃑ A. �����⃑ A�×�����⃑ B�. =. ∑𝑛 𝑖=1 𝐴𝑖 ×𝐵𝑖. 𝑛 2 2 �∑𝑛 𝑖=1(𝐴𝑖 ) ×�∑𝑖=1(𝐵𝑖 ). ……………………公式 8. 3.4 仇恨團體判別實驗及評估 此步驟將說明本研究之實驗設計與最終評估方式,主要可分為三大實驗: 3.4.1 實驗(一)僅以社會網絡特徵進行分類判別 本實驗先單就社會網絡特徵進行考量,試著從社會網絡特徵值訓練出可 24.
(34) 用以判別是否為仇恨團體的模型,由上述社會網絡特徵之計算結果,各個實 驗樣本可以此特徵向量方式呈現: Group = [Density, Avg shortest Distance, Clustering Coefficient, Degree Centrality, Closeness Centrality, Betweenness Centrality,是否為 仇恨團體(Yes or No)] 各個實驗樣本包含了七個社會網絡特徵值,每一個單一獨立樣本均透過 前六個特徵值反映其整體社會網絡的特性,而最後添加一個是否為既有仇恨 團體的屬性值(Yes or No),此屬性值可用以當作訓練之分類基準。 本研究之分類判別實驗係採用知名資料探勘軟體 Weka3.6.8 (http://www.cs.waikato.ac.nz/ml/weka/)進行,將所有獨立樣本整合成 Weka 可 讀取之檔案格式,以進行分析。而分類器之選用主要是以最普遍為人所用之 分類器做為基礎,例如:J48(C4.5 決策樹)、Naive Bayes(簡單貝式分類),並 配合十折交叉驗證(10-fold cross-validation)的方式進行。 透過不同分類器的訓練模型,本研究將比較各模型之間訓練的準確度即 正確分類比率做為最終的評估標準。 3.4.2 實驗(二)僅以內容相似度特徵進行分類判別 本實驗的進行,只考慮各獨立樣本的內容特徵與研究步驟 3.3 中之內文 探勘關鍵字特徵擷取所產生出之仇恨團體內容特徵比較基準,此兩者間內容 相似度即可做為此實驗(二)各獨立樣本之特徵向量,其呈現如下: Group = [各樣本內容特徵與仇恨團體比較基準之相似度, 是否為仇恨 團體(Yes or No)] 本研究試圖在不考慮社會網絡特徵的情形下,單從內容相似度的因素進 行仇恨團體分類模型的訓練。基於各獨立樣本所擁有的關鍵字樣本大小不一, 本研究再將其關鍵字的規模進行控制,以利於內容相似度的比較。而關鍵字 規模大小的控制沒有一定的規範及準則,故本研究設計以三種不同的規模維 度進行實驗,分別為: (1) 取關鍵字 TF-IDF 值前 30 名的關鍵字組合做為各樣本的內容特徵 (2) 取關鍵字 TF-IDF 值前 50 名的關鍵字組合做為各樣本的內容特徵 (3) 取關鍵字 TF-IDF 值前 100 名的關鍵字組合做為各樣本的內容特徵 同時,做為比較基準的仇恨團體關鍵字集,其擷取的規模大小亦跟著各 25.
(35) 實驗之關鍵字集規模變動,以求實驗比較分析的一致性。 不同規模的關鍵字內容特徵,對於分析與用以判斷是否為仇恨團體的依 據,是否會隨著擷取的關鍵字規模大小不同而影響其分類的準確度,何者才 是較佳的擷取規模,亦是此實驗設計想了解的要點之一。 3.4.3 實驗(三)結合社會網絡特徵與內容相似度特徵進行分類判別 本實驗將結合實驗(一)、(二)的所有特徵要素,同時使用社會網絡特徵 值與內容特徵的相似度以進行各獨立樣本特徵向量之建置,可呈現如下: Group = [Density, Avg shortest Distance, Clustering Coefficient, Degree Centrality, Closeness Centrality, Betweenness Centrality, 各樣本 內容特徵與仇恨團體比較基準之相似度,是否為仇恨團體(Yes or No)] 結合社會網絡特徵值與內容相似度特徵,可從完整的社會網絡團體維度 進行分析。 本實驗除了從整體的角度分析之外,同時亦考慮了關鍵字規模的大小, 因此各個整體的樣本又可分為以關鍵字規模為主要區分的三種樣本: (1) 社會網絡特徵值+關鍵字 TF-IDF 值前 30 名的關鍵字組合 (2) 社會網絡特徵值+關鍵字 TF-IDF 值前 50 名的關鍵字組合 (3) 社會網絡特徵值+關鍵字 TF-IDF 值前 100 名的關鍵字組合 以各自不同關鍵字規模大小的樣本,進行分類器訓練的動作,期望了解 以整體網絡的角度來分析(社會網絡特徵+內容特徵),對於判別仇恨團體的 準確度是否有所影響,而內容特徵的規模大小不同,是否又會造成實驗表現 的影響。整體的實驗流程以下圖表示:. 圖 3-5:實驗流程圖 26.
(36) 第四章 實驗結果與分析 本章節將根據第三章研究方法所設計的整體研究流程,進行實證研究結果。 首先會介紹本研究擷取到的 Facebook 粉絲團仇恨團體的基本內容概況。步驟二、 展現原始資料進行前置處理後的資料格式。步驟三、使用 Ucinet 6.0 所得到的社 會網絡特徵與史丹佛斷詞系統所得之內容斷詞結果。步驟四、進行實驗一、二、 三其所呈現的結果與分析比較。. 4.1 樣本資料呈現 本研究透過觀察到常見的仇恨字眼,組合各大 3C 電子軟體產業的名稱,以 人工的方式在 Facebook 的平台上,蒐集了 15 個仇恨團體與 15 個非仇恨團體做 為本研究的資料集。. 圖 4-1:蒐集資料集的關鍵字組合模式 各仇恨與非仇恨粉絲團的資訊,由於隱私權的關係,本研究只擷取粉絲團其 在 Facebook 上特有 ID 的後六碼,做為在本研究中分辨各個獨立團體的依據。本 研究挑選研究樣本之基準在於 (1)粉絲團之訴求符合本研究所需之主題、(2)總成 員數需至少擁有 10 個以上。各仇恨與非仇恨團體詳細資訊如下表所列: 表 4-1 仇恨與非仇恨樣本基本資料 仇恨粉絲團 Facebook ID 後 6 碼. 粉絲團名稱. 總成員數. 821466. Microsoft-sucks. 237. 255974. I-Hate-Microsoft-Office-Word-2007. 22. rosoft. Anti0Microsoft. 19. 655018. Anti-microsoft. 18. 27.
(37) 270982. I-hate-Microsoft. 17. 461260. Microsoft-Sucks. 16. 641688. Microsoft-sucks. 11. 710373. Microsoft-Sucks. 10. 434979. I-hate-Microsoft. 13. 602759. I-Hate-Microsoft. 11. idespi. idespisemicrosoft. 14. efails. Applefails. 49. llshit. Applebullshit. 70. 498571. I-hate-Apple. 17. 276717. Fuck-Apple 非仇恨粉絲團. 76. 912593. I-love-Windows-7. 47. 465118. I-LOVE-MSN. 13. 544011. I-love-Sony. 16. 614062. I-love-Apple. 19. 219345. I-love-Microsoft. 45. sunite. appleloversunite. 52. ppleIT. iLoveAppleIT. 34. pleWin. ILoveAppleWin. 36. VE.MAC. NO.PC.I.LOVE.MAC. 18. roduct. TheAppleProduct. 61. 929645. I-Love-Xbox. 30. 737290. XBOX-Love. 92. 154096. I-Love-Apple-Ipad. 59. 039396. I-Love-Apple. 29. gApple. iLoveEverythingApple. 51. 4.2 前置處理結果 本研究將蒐集而得的仇恨團體資料進行初步儲存之後,將分別針對社會網絡 矩陣建置部分與粉絲團文字內容部分進行前置處理的動作。而為了實驗步驟展示 之便利,以下之實驗結果將挑選本研究樣本中社會網絡規模最小之 ID:710373 團體作為範例講解。 4.2.1 社會網絡矩陣建置 根據研究方法 3.2.1 章節的步驟,本研究根據成員間三種不同的互動模 28.
(38) 式,分別對此 30 個獨立樣本進行各自社會網絡矩陣建置。 此矩陣是一個規模大小為總成員數×總成員數的相鄰矩陣,而建置此矩 陣的目的除了可以將成員間的互動關係數據化,更有利於後續匯入 Ucinet6.0 進行社會網絡特徵值的運算。 下表所示為仇恨團體 ID:710373,其根據成員間互動關係所建置而成 的相鄰矩陣: 表 4-2 粉絲團社會網絡矩陣建置範例 710373 710373. 184604. 011192. 630659. 647141. 497203. 798701. 082428. 271258. 921307. 10. 10. 10. 11. 12. 10. 10. 9. 9. 0. 0. 1. 1. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 2. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 184604. 10. 011192. 10. 0. 630659. 10. 0. 0. 647141. 11. 1. 1. 1. 497203. 12. 1. 1. 1. 2. 798701. 10. 0. 0. 0. 1. 1. 082428. 10. 0. 0. 0. 1. 1. 0. 271258. 9. 0. 0. 1. 1. 1. 0. 0. 921307. 9. 0. 0. 0. 1. 0. 0. 0. 0 0. 上表最左行與最上列數字,各代表著此粉絲團一獨立之成員,對角線呈 現的是成員自己對自己的互動關係,故以空值表現;成員與成員間交叉數值 越大,表示其兩者在團體內部互動次數較為頻繁。 各個團體擁有自己獨立的互動關係矩陣,以此用以後續社會網絡特徵值 運算。 4.2.2 文字內容資料淨化 本研究將 Facebook 粉絲團內部所有文字資訊以篇為單位的方式儲存成 txt 文字檔,包含粉絲團中塗鴉牆的文字以及成員針對他人資訊的留言。透 過批次處理的概念,逐篇的透過史丹佛大學的斷詞系統進行切詞及還原原詞 的動作,如前述圖 3-3 所示。最終將所有字詞整合成可代表各自粉絲團內容 特性之關鍵字集合。 得到各粉絲團所代表之關鍵字集合後,再逐字的計算各關鍵字的 TF(term frequency)與 IDF(inverse document frequency)值,最後將兩值相乘積, 29.
(39) 可得到各關鍵字之 TF-IDF 值,其數值越大則代表此關鍵字重要程度越高。 本研究為了建立後續內容特徵之比較基準,將 15 個仇恨粉絲團各取出其 TF-IDF 值前 30 名,可得到 450 個關鍵字。重複的關鍵字其 TF-IDF 值則進 行算術平均數的運算,再依照大小排序,即可得到本研究用以比較內容相似 度基準之仇恨關鍵字集,此完整字集參照附錄 1。. 圖 4-2:粉絲團關鍵字整理範例 上圖為仇恨團體 ID:710373 之關鍵字 TD-IDF 前 30 名排序. 4.3 社會網絡特徵值與內容特徵值處理結果 本研究將 4.2.1 步驟所建立之社會網絡矩陣,透過軟體 Ucinet6.0 的幫助, 進行計算社會網絡特徵值。以仇恨團體 ID:710373 為例,其各社會網絡特徵值 可以下表呈現,各粉絲團詳細之社會網絡特徵值如附錄 2 所示: 表 4-3 社會網絡特徵值計算結果範例 Hate ID. 710373. Total. Node. 10. Avg Degree. 4.889. Density. 0.611 30.
Outline
相關文件
1、 網路管理與通信技術整合實務、機電控制、網拍多媒體行銷及物流從業人員
[r]
機器人、餐飲服務、花藝、雲端運算、網路安全、3D 數位遊戲藝術、旅 館接待、行動應用開發、展示設計、數位建設
新媒體定義 網絡形象 網絡言行 網絡自保 網絡交友 網絡法律 網絡欺凌 沉迷上網
第十條 香港特別行政區應當通 過學校、社會團體、媒體、網絡 等開展國家安全教育,提高香港 特別行政區居民的國家安全意識
熟悉 MS-OFFICE
熟悉 MS-OFFICE
Whatsapp、Youtube、虛擬實境等)。社交媒體(social media)是可