4.4 探勘主題
4.4.1 從偷渡方法、目的地,探勘特定國籍偷渡者之喜好度(使用關聯規則). 39
從前面幾個章節透過樞紐分析圖表可以很快知道數據所呈現的狀態。但透過關聯規則 的使用,我們可以瞭解整個偷渡行為彼此之間關聯交錯的情形。在此為求發現何種國籍出 發地與目的地之關聯性,我們選擇幾個「輸入變數」做為分析關聯規則的欄位,相關的分 析數據設計,如表 3:
表3 關聯規則參數即輸入變數設定表
資料探勘法 關聯規則
演算方式 Apriori 演算法
相關參數 最小信心水準>0.8 最小支持度 0.03
變數名稱 變數型態 資料類型
識別碼 Key Long
性別 Discrete Text
國籍 Discrete Text
偷渡方法 Discrete Text
證件 Discrete Text
證照手法 Discrete Text 假照國籍 Discrete Text 欲飛往之國 Discrete Text
資料來源:本研究整理
表4 各國籍偷渡客人數分佈表(依照洲別分)
圖9 關聯規則:支持度與項目集表
資料來源:本研究整理
圖10 關聯規則:「規則表」
資料來源:本研究整理
3 過濾出更意義之關聯規則如下:
之目的國以美洲國家為主,菲律賓國籍常偷渡的國家幾乎均屬於歐洲國家,這種情形
關聯規則主題 意義 分析理由
(Frequent Itemset)大小也不會固定在某個數量。例如:某顧客 A,第一次消費買了三樣不 同的物品,第二次消費買了五樣物品,最後分析出的頻繁項目集或許為三個。而我們這裡所 採用的方式因資料特性較為不同,故設計上是將偷渡客在台灣所採取的偷渡行為(例如:搭
除了上述的架構設計外,我們在實作時上述 6 個主題時還必頇注意一點,除了抵台與離
以圖 11 為例,若未特別標示數字區別關聯強度,代表強度均等。藍色圓形區塊所圍 住之 CI032、BR010 為飛往加拿大溫哥華機場之航班。以 CI032 航班為中心來看,由 CI604、
CI602 航班連結過去的強度最強,而 CI632、CI650、BR076 等航班連結過去的次之。紅色 圓形區塊所圍住之 CI006、CI008、SQ030、MH094、BR016 為飛往美國洛杉磯機場之航班。
綠色圓形區塊所圍住之 CI004、BR018 為飛往美國舊金山機場之航班。以 CI004 航班為中 心來看,由 CI636、CI614 航班連結過去的強度最強,而 CI674、CI642 等航班連結過去的 次之。而我們將較更意義的規則依照「支持度」→「信心水準」→「最低重要性」的順序 整理列出如表 7 所示。
圖11 「航班號碼」關聯規則分析結果「相依性網路」圖
資料來源:本研究整理
一個特定航班,擁更愈多的連結,除了代表多個抵台的航班會往此航班移動,進而讓 我們去瞭解航班與航班間之喜好度。其作用可以提供查緝人員擬定查緝策略於特定航班組 合的到、離台登機門沿線,尋找於機場管制區遊移的偷渡客。
另一方面,從航班所屬之航空公司來看,我們發現大部分的抵台、離台航班組合所屬
圖12 「航空代理公司」關聯規則分析結果「相依性網路」圖
資料來源:本研究整理
表8 「航空代理公司」關聯規則整理表
信心水準 重要性 「航空代理公司」規則 支持度 0.841 0.358307492 中華航空 -> 中華航空_OUT 90 0.889 0.776493963 長榮航空 -> 長榮航空_OUT 40 1.00 1.403019534 新加坡航空 -> 新加坡航空_OUT 15 0.8 0.126027779 國泰航空 -> 中華航空_OUT 12
資料來源:本研究整理
對於這樣的結果,也讓我們對於人蛇集團是否已買通該特定航空代理公司地勤人員之 情形持保留態度[11]。因為多數航空代理公司在為所代理之公司辦理劃位或登機等手續 時,考量成本不會額外增設一組地勤人員,而這樣的情形就會導致地勤人員可以在橫跨所 代理的多個公司航班作業,故人蛇集團可以藉由買通航空代理公司(例如:中華航空)的 地勤人員,即可透過這樣裏應外合的手法,協助偷渡客進行偷渡,此種合作情形尤其在最 後地勤人員於登機門前收票作業上更顯得關鍵。
4.4.2.3「機場」關聯規則分析
圖13 「機場」關聯規則分析結果「相依性網路」圖
資料來源:本研究整理
表9 「機場」關聯規則整理表
信心水準 重要性 「機場」規則 支持度
0.871 0.479309141 新加坡 -> 洛杉磯_OUT 27 0.565 0.331764613 曼谷 -> 溫哥華_OUT 13 0.526 0.180132986 卲隆坡 -> 洛杉磯_OUT 10 0.421 0.185453658 卲隆坡 -> 溫哥華_OUT 8
1.00 0.526300329 檀香山_OUT -> 香港 7 1.00 1.146128036 維也納_OUT -> 馬尼拉 6 0.545 0.185108077 雅加達 -> 洛杉磯_OUT 6
資料來源:本研究整理
1 2
4 3 2
1 2 1
2
1
4.4.2.4「國家」關聯規則分析
圖 14 右側另一組之行為,則比較複雜多元。我們將「美國」、「香港」各自形成一個
表10 「國家」關聯規則整理表
日、韓、新加坡等。而這些國家也因為國內經濟較為進步,被偷渡目的國家認為會滯留當 地之機會較低而被人蛇集團考量。
圖15 「假照國籍」關聯規則分析結果「相依性網路」圖
資料來源:本研究整理
圖16 「假照國籍」關聯規則分析結果「相依性網路」右側放大圖
資料來源:本研究整理
至於會持美國與英國海外護照之情形。英國海外護照部分:由於香港在回歸中國大陸 之前,其居民持用之護照為「英國海外護照」,而香港鄰接中國且人種相同,故此種狀況 我們並不意外。另美國護照部分:我們推測因在美之華人移民已到達某個程度到處可見,
尤以更唐人街之城市為盛,若稍懂美國語言、文化或可騙過入境之移民官員。最後,我們 將較更意義的規則依序整理列出如表 11 所示。
圖17 「假照國籍」關聯規則分析結果「相依性網路」左側放大圖
資料來源:本研究整理 1
3 2
3 3
4 4
4
4
5
表11 「假照國籍」關聯規則整理表 連續性指派(Arbitrarily assignment)的技巧來處理類別變數。本研究資料型態特性因