國 立 交 通 大 學
管理學院(資訊管理學程)碩士班
碩 士 論 文
機場偷渡犯罪分析之資料探勘應用
Data Mining Application for Airport Illegal
Immigration Analysis
研 究 生:李權龍
指導教授:劉敦仁 博士
機場偷渡犯罪分析之資料探勘應用
Data Mining Application for Airport Illegal
Immigration Analysis
研 究 生:李權龍
Student:Chuan-Lung Li
指導教授:劉敦仁 博士 Advisor:Dr.Duen-Ren Liu
國 立 交 通 大 學
管理學院(資訊管理學程)碩士班
碩 士 論 文
A ThesisSubmitted to Institute of Information Management College of Management
National Chiao Tung University In Partial Fulfillment of the Requirements
For the Degree of Master of Science
in
Information Management June 2008
Hsinchu, Taiwan, the Republic of China
中文摘要
機場偷渡犯罪分析之資料探勘技術應用
研究生:李權龍 指導教授:劉敦仁 博士國立交通大學管理學院(資訊管理學程)碩士班
摘要
隨著交通工具便利性的提昇,國與國之間的距離逐漸縮短,世界各國之間的經濟與 文化等交流活動日益頻繁,也使得大量合法或非法的移民人潮湧現,增加了各國對國境安 全及機場治安上的顧慮。在以往的偷渡事件,多由「陸路」或「海路」進行,但隨著時代 變遷,新穎的「空路」手法,除了提供安全、迅速的交通,並擁更以合法掩護非法犯罪之 優勢,成功率大幅增高,使得偷渡行為更加猖獗囂張;且自美國九一一恐怖事件發生之後, 各國莫不重視機場航空安全議題,綜上所述,本論文即以「空路」(機場偷渡)之問題作 為探討重點。 本論文從相關文獻探討機場偷渡的行為,並分析人蛇集團常見的手法,進而導入線 上即時分析處理(OLAP)架構及資料探勘(Data mining)技術的方法,針對機場偷渡行 為作一分析處理。本研究以桃園機場(中正國際機場)查獲之偷渡案件為研究對象,建構 OLAP 分析架構,作為系統分析之主軸,並依據查緝人員實務上之需求,進行資料探勘分 析之系統實作。本論文將目前的機場偷渡現象,以資料探勘技術進行分析、解讀偷渡行為 之趨勢,以協助移民單位查緝人員得以從中獲得更用之資訊,並得以從勤務的規劃面及執 行面上提供更效之參考與運用。 關鍵字:機場偷渡、資料倉儲、線上即時分析處理、資料探勘英文摘要
Data Mining Application for Airport Illegal Immigration Analysis
Student:Chuan-Lung Li Advisor:Dr. Duen-Ren Liu
Institue of Information Management
National Chiao Tung University
Abstract
As the convenience of transportation improving, the distance between countries is getting shorter. The economic and cultural communications between countries are frequently occurred that causes a majority of legal or illegal immigrants. This phenomenon raises the public security concern. In the past, most of the stowaways have succeeded by ways of ships or land transportations. However, the latest way to stow away is to board an aircraft with counterfeit or forge travel documents. The new method not only can provide safe and rapid advantages but also increase the rate of success. Therefore, it leads to more and more people trafficking. Since the September 11, 2001 attacks, the security of international airport becomes the most important issues for each country. Thus, the research objective of this dissertation mainly focuses on investigating the issues of using counterfeit or forge travel documents to board an aircraft in order to stow away.
In this research, literature survey is conducted to find the behaviors and methods of human trafficking. Moreover, this research employs OLAP and Data Mining to analyze the behaviors of illegal emigrants. This dissertation uses the illegal emigrants of the Taoyuan international airport (C.K.S. international airport) as the data set to conduct the analysis. The research first constructs the OLAP framework for illegal immigration analysis. Then, according to the immigration officers’ practical demands, this research uses data mining to find the appearance of Airport illegal immigrations and understand the trend. Finally, this research concludes by suggesting a number of key issues that need to be addressed in the clampdown of human trafficking.
誌 謝
本論文能夠順利地完成,除了兩年來的辛苦以及努力之外,最重要的是要感謝周遭的 師長、親友的指導與協助。在此,謹以最誠摯的謝意,感謝您們! 首先感謝我的指導教授劉敦仁教授,由於他熱忱的教學態度與豐富的知識經驗,使我 能確立出研究的方向。再來,要感謝口詴委員羅濟群教授、吳美玉博士對於論文內容之指 正與建議,以及研究室同學、同事在論文寫作、口詴期間時所給予的協助。 最後,最要感謝的是我的家人,在這段求學期間中對我的支持與關懷,讓我可以順利 完成學業,感謝!目 錄
中文摘要 ... I 英文摘要 ... II 誌 謝 ... III 目 錄 ... IV 表 目 錄 ... VII 圖 目 錄 ...VIII 一、緒論 ... 1 1.1 研究背景及動機 ... 1 1.2 研究目的 ... 3 1.3 論文架構 ... 5 二、文獻探討... 7 2.1 偷渡 ... 7 2.1.1 偷渡之定義... 7 2.1.2 偷渡之目的... 7 2.1.3 偷渡之交通方式... 9 2.2 人蛇集團偷渡手法 ... 10 2.2.1 人蛇集團... 10 2.2.2 「空路」偷渡手法... 11 2.3 資料倉儲(DATA WAREHOUSE) ... 14 2.3.1 資料倉儲的定義... 14 2.3.2 資料倉儲的用途... 15 2.4 線上分析處理(OLAP) ... 15 2.4.1 線上分析處理的定義... 15 2.4.2 OLAP 與資料採礦的關係 ... 16 2.5 資料探勘(DATA MINING) ... 16 2.5.1 資料探勘之定義... 16 2.5.2 資料探勘之五大功能... 16 2.5.3 資料探勘之處理流程... 17 2.5.4 關聯規則(Association Rule)... 18 2.5.4.1 關聯規則之定義... 182.5.4.3 關聯規則之應用領域:... 20 2.5.5 分群(Clustering)... 20 2.5.5.1 分群之定義... 20 2.5.5.2 分群之方法... 21 2.5.5.3 分群之應用領域:... 21 2.5.6 時間序列(Time Series)... 22 2.5.6.1 時間序列之定義... 22 2.5.6.2 時間序列之方法... 23 2.5.6.3 時間序列之應用領域:... 23 三、系統分析與設計 ... 25 3.1 研究範圍 ... 25 3.2 需求分析 ... 25 3.3 系統架構 ... 26 3.4 資料倉儲資料表設計 ... 27 3.4.1 資料蒐集... 27 3.4.2 資料預處理... 28 3.4.3 資料探勘輸入變數型態及採礦模型角色處理... 31 3.5 軟、硬體設備需求 ... 32 四、系統實作與展示 ... 34 4.1 建立機場偷渡及班機貣降維度資料表 ... 34 4.2 CUBE模式分析 ... 34 4.3 樞紐分析表及圖表建立 ... 35 4.3.1 國籍與偷渡目的地之樞紐分析... 36 4.4 探勘主題 ... 38 4.4.1 從偷渡方法、目的地,探勘特定國籍偷渡者之喜好度(使用關聯規則). 39 4.4.2 以關聯規則分析偷渡喜好(使用關聯規則)... 43 4.4.2.1 「航班號碼」關聯規則分析... 45 4.4.2.2 「航空代理公司」關聯規則分析... 47 4.4.2.3 「機場」關聯規則分析... 49 4.4.2.4 「國家」關聯規則分析... 51 4.4.2.5 「假照國籍」關聯規則分析... 53 4.4.3 偷渡客犯罪手法之趨勢(使用群集)... 56 4.4.4 偷渡客選擇目的地機場的趨勢(使用群集)... 61 4.4.5 偷渡客人數、時段之影響預測(使用時間序列分析)... 64 4.4.5.1 偷渡客人數、時段之趨勢預測... 64 4.4.5.2 經濟數據與失業率對於偷渡人數之影響預測... 68
5.1 結論 ... 72
5.2 未來研究方向 ... 74
表 目 錄
表 1 民國 96 年 1-12 月份台灣桃園國際機場國際航線班機載客情形表 ... 2 表 2 「輸入變數」適用之資料型別 ... 32 表 3 關聯規則參數即輸入變數設定表 ... 39 表 4 各國籍偷渡客人數分佈表(依照洲別分) ... 40 表 5 以關聯規則分析偷渡喜好之理由 ... 43 表 6 以購物籃分析為主題之關聯規則參數設定 ... 45 表 7 「航班號碼」關聯規則整理表 ... 47 表 8 「航空代理公司」關聯規則整理表 ... 48 表 9 「機場」關聯規則整理表 ... 50 表 10 「國家」關聯規則整理表 ... 53 表 11 「假照國籍」關聯規則整理表 ... 56 表 12 偷渡客犯罪手法之趨勢(分群參數設定) ... 58 表 13 偷渡客選擇目的地的趨勢(分群參數設定) ... 62 表 14 偷渡客人數、時段之時間序列分析參數設定 ... 65 表 15 經濟數據與失業率對於偷渡人數之影響預測參數設定 ... 69圖 目 錄
圖 1 台灣桃園機場國際班機航線圖 ... 2 圖 2 AR 與 ART 方法比較 ... 24 圖 3 系統分析架構圖 ... 26 圖 4 資料庫架構圖 ... 27 圖 5 樞紐分析圖 ... 35 圖 6 樞紐分析表 ... 36 圖 7 採國籍—偷渡目的地,採用「性別」偷渡樞紐分析表 ... 37 圖 8 採國籍—偷渡目的地,採用「轉機」偷渡樞紐分析表 ... 38 圖 9 關聯規則:支持度與項目集表 ... 41 圖 10 關聯規則:「規則表」 ... 41 圖 11 「航班號碼」關聯規則分析結果「相依性網路」圖 ... 46 圖 12 「航空代理公司」關聯規則分析結果「相依性網路」圖 ... 48 圖 13 「機場」關聯規則分析結果「相依性網路」圖 ... 50 圖 14 「國家」關聯規則分析結果「相依性網路」圖 ... 51 圖 15 「假照國籍」關聯規則分析結果「相依性網路」圖 ... 54 圖 16 「假照國籍」關聯規則分析結果「相依性網路」右側放大圖 ... 54 圖 17 「假照國籍」關聯規則分析結果「相依性網路」左側放大圖 ... 55 圖 18 偷渡犯罪手法群集表,各群間連結強度(強度愈強,數字愈小) ... 59 圖 19 偷渡犯罪手法趨勢「群集設定檔」 ... 60 圖 20 偷渡犯罪手法「群集辨識」 ... 61 圖 21 偷渡客選擇目的地的趨勢「群集辨識」 ... 62 圖 22 偷渡客選擇目的地的趨勢「群集設定檔」 ... 64 圖 23 93/1/1-94/12/31 時間序列分析-1「絕對人數量」 ... 66 圖 24 93/1/1-94/12/31 時間序列分析-2「相對人數量」 ... 66 圖 25 93/1/1-94/12/3 每週偷渡人數分析 ... 67 圖 26 美、加、日三國 93/1/1-94/12/31 偷渡時段分析 ... 68 圖 27 美、加、日三國 93/1/1-94/12/3 偷渡人數與經濟數據之影響分析 ... 70 圖 28 美、加、日三國 93/1/1-94/12/3 偷渡人數與失業率數據之影響分析 ... 71一、緒論
1.1 研究背景及動機
台灣地區地理位置特殊,位居亞太交通要衝,戰略軍事及經濟地位重要性不言可喻。 台灣除四面環海航運發達外,亦是國際重要空運航線交會處,由世界各地主要城市飛往北 美、東北亞與東南亞的航線在此匯集,為亞太地區交通營運之樞紐。由於具備上述交通優 勢,經濟發展快速,海峽對岸經由「海路」(海上偷渡)偷渡上岸來台打工之案件也屢見 不鮮、防不勝防,且近十年來隨著開放外籍勞工政策與國際間交流日益頻繁,也使得台灣 地區成為各國偷渡客淘金之天堂與轉飛他國之跳板。 近幾年來,世界各國的偷渡犯罪活動已經由以往常見之「海路」轉變為「空路」(機 場偷渡)方式進行,「空路」偷渡方式,相對於「海路」提供了「長距離」、「安全舒適」 的特性,且此種以合法交通工具掩護非法犯行的手法,已經讓各國國境安全受到極大之困 擾及威脅。尤其自九一一恐怖攻擊事件以來,各國無不重視機場安全之議題,對於出入境 之旅客莫不採取嚴格查驗之手段,以杜絕恐怖份子入侵國土攻擊。而機場偷渡案件防杜不 力,不僅危及到國境安全,亦影響到國家於國際社會間之整體形象。 台灣桃園國際機場(前身為桃園中正國際機場),位於桃園縣大園鄉,主體共更 2 座 航站大廈、28 條機場滑行道,為各國旅客來台首要進出之最重要的空運門戶。截止 95 年 底止,飛航國際航線之國內航空公司共更 5 家,國外航空公司共計 38 家。航線橫跨亞、 歐、美、澳、紐等區域,23 個國家[1],航線圖如圖 1 所示。台灣桃園國際機場每日入出 境旅客均數以萬計,2007 年載客情形表如表 1 所示。 資料探勘技術,已被企業採用且應用在專業領域上行之更年,不僅協助企業更效解決 生存、轉型上之問題,更為企業創造豐碩之利潤。而機場執法機關,例如:保安部門及移制訂上之規劃面及執行面上之技巧改善,更能順應犯罪之潮流趨勢,得以掌握因應犯罪行 為,與時俱進增強查緝作為。 圖1 台灣桃園機場國際班機航線圖 資料來源: [1] 表1 民國 96 年 1-12 月份台灣桃園國際機場國際航線班機載客情形表 月別 中 華 民 國 9 6 年 台 灣 桃 園 國 際 機 場 國 際 航 線 班 機 載 客 情 形 表 入境 出境 合計 飛航班次 載客人數 (人) 飛航班次 載客人數 (人) 飛航班次 載客人數 (人) 總計 62,020 12,602,067 61,979 12,615,901 123,999 25,217,968 1 月 5,080 911,565 5,101 989,336 10,181 1,900,901 2 月 4,952 1,032,176 4,929 982,007 9,881 2,014,183
3 月 5,169 1,025,385 5,197 1,068,117 10,366 2,093,502 4 月 5,179 1,086,238 5,186 1,066,831 10,365 2,153,069 5 月 5,272 1,019,764 5,274 1,049,365 10,546 2,069,129 6 月 5,163 1,086,244 5,168 1,102,585 10,331 2,188,829 7 月 5,451 1,154,027 5,433 1,163,953 10,884 2,317,980 8 月 5,318 1,149,344 5,295 1,140,128 10,613 2,289,472 9 月 5,141 1,061,000 5,100 1,018,045 10,241 2,079,045 10 月 5,140 1,008,878 5,144 1,044,221 10,284 2,053,099 11 月 4,932 1,012,484 4,933 981,609 9,865 1,994,093 12 月 5,223 1,054,962 5,219 1,009,704 10,442 2,064,666 資料來源:[2]
1.2 研究目的
台灣地區由於地理位置特殊且交通、經濟發達,成為對岸偷渡者夢寐以求之目的地已 是不爭之事實,本論文將研究之目的聚焦於「空路」之偷渡犯罪行為探勘,而採行「空路」 相較於「海路」之偷渡犯罪更一極大不同點,即為「距離」不受地域限制,且以「合法」 掩護「非法」之國際航空器實施犯行,故偷渡對象已不侷限為常見的大陸人民偷渡行為, 而是屬於國際型態之偷渡行為。企圖來台入出境或轉機之外國偷渡客,則以「空路」直達 台灣,或「空路」搭配「海路」或「陸路」迂迴抵達台灣或由台灣轉機到第三地,以遂行 其偷渡目的。 於機場所查獲的眾多偷渡案件中,更絕大多部分是查緝人員於為機場管制區中的轉機 區內查獲,部份則是旅客於機場入出境查驗櫃臺辦理通關手續時查獲。而查緝單位若能利查緝單位作以下規劃: 1、 對勤務規劃面而言:從已查獲之案件數據,利用資料探勘可將查緝人力資源分配 在最需要之勤務上,例如:可針對特定期間,以時間序列找出偷渡熱門月份、日 期、時段,加強編排特定航班查緝人力。或發掘出犯罪手法之趨勢改變,進而規 劃於不同地點查緝偷渡,或編排相關之教育訓練,例如:某語系旅客偷渡人數劇 增,應編排訓練查緝人員瞭解該語系旅客之語言、國家文化背景、護照辨識技巧 等,以遏止偷渡問題繼續惡化。 2、 對勤務執行面而言:查緝機場之偷渡犯罪案件時,旅客所出示之證件、登機證或 其表情、服裝打扮等跡象更所異常,始會引貣查驗人員進一步盤問。但轉機旅客 因不需經過查驗櫃臺逐一查驗,故能降低被查獲的風險,此時若能透過資料探勘 技術,分析出特定規則或趨勢時,例如:前往美國之旅客,若其由香港出發且未 持台灣所核發之入出境許可證件,可懷疑其為偷渡客之關聯規則時,可採重點查 驗,節省繁複過程之手續,快速過濾更問題之旅客。又若某一常偷渡美國之群集 旅客,都為某特定國籍人士且搭乘某特定公司航號班機時,可從此特性解讀出是 否更某種偷渡趨勢或航空公司職員是否已被人蛇集團收買之判讀等。 而從偷渡資料中找出其所隱藏、客觀之更用資訊,提出協助上述勤務規劃、執行上之 分析建議,為本論文之目的。
1.3 論文架構
本論文共分成五章,編排之結構如下: 1、 第一章「緒論」: 說明本論文研究的背景、動機、研究目的及架構。由於目前國內在防範機場偷渡 行為研究的領域上,尚無一專文研討以資料探勘技術協助進行分析。而為瞭解機 場偷渡犯罪行為現行之發展及未來之趨勢,並提供查緝單位於勤務規劃面及執行 面之輔助參考,故以此切入作為研究主題做為此篇論文的動機。 2、 第二章「文獻探討」: 主要介紹偷渡之定義、現狀及目前機場偷渡之犯罪手法;另外並介紹在進行資料分析時,所需採用的技術架構:資料倉儲(Data Warehouse)、線上分析處理(OLAP)
與資料探勘(Data Mining)方法、分析工具等技術的相關文獻,以建置出本研究 之目標。 3、 第三章「系統分析與設計」: 本章為實際以台灣桃園機場偷渡案件資料為研究標的,並說明出研究之範圍、需 求分析、系統架構雛形及倉儲架構、其中亦包括資料的轉換與資料預處理問題及 所需的軟、硬體設備需求。 4、 第四章「系統實作與展示」: 將欲瞭解之主題透過資料探勘技術實作,做一內容之呈現與分析。以前一章建立 的資料倉儲(Data Warehouse)及線上即時分析(OLAP)架構為基礎,搭配 SQL Server 2005 Analysis Service 工具,依據所欲分析的主題,採用多種不同的資料探 勘(Data Mining)技術,並將結果以圖表呈現、解讀資料所隱藏的資訊。
5、 第五章「結論與未來研究方向」:
希望能將本論文的研究成果,提供查緝單位以不同的面向瞭解目前偷渡行為所隱藏的 資訊,以提供於勤務規劃面及執行面設計之輔助參考,並對於未來偷渡行為趨勢更能掌 握。另一方面,也針對未來可進一步分析之資料層面方向作一闡述。
二、文獻探討
2.1 偷渡
2.1.1 偷渡之定義 「偷渡」一詞,依一九五七年「布魯圔爾偷渡公約」,「偷渡者」之定義為:「未得船 東或船長(或其他主管船舶之人)之允許,潛入船上並隨船離開登船地點或港口之人」。2 多數組織均曾對「偷渡」之意涵進行詮釋,而大多數國家移民法之規定「凡未持更合法入 出境證件,且未經主管機關許可,而企圖入出境者」,皆可稱之為「偷渡」;同時,各國移 民法中對「偷渡者」之界定,亦非僅限於以船舶為之者,始可稱為「偷渡」,如持偽變造 證件企圖入出境(由機場、港口、邊境關卡入出),亦可稱為「偷渡」[3]。 2.1.2 偷渡之目的 國際間所發生之偷渡行為,其之所以形成均更其客觀因素存在,不論其國籍為何?所 採行之交通工具為何?可能發動之原因歸納如下: 1、 經濟或教育因素:因國內經濟情勢不佳,多為求改善生活品質,且意圖長期定居 國外工作,以賺取較為優渥之薪資為主。或為改善下一代教育、生活因素,而選 擇偷渡等。改善經濟狀況為最常見之偷渡成因,此類非法移民多屬較為貧窮或文 化素質低落之國家為主。 2、 因違犯刑案或欠稅案件而潛逃國外:此類原因多為於國內犯下重大刑案或經濟案 件、或為遭通緝之嫌疑犯、因逃漏稅等禁止出境之人員,因無法經由正常管道出 入國境,故採取偷渡方式,以規避司法審判。3、 進行非法走私活動:此類為經常性短期往返於特定之兩地間,販運違法物品或農 產品,以牟取暴利。而常見的重大違法販運物品為槍械或販毒。 4、 遭受政治、文化、宗教等迫害:此類多為提倡民主運動人士、宗教團體聚眾運動 或提倡主權獨立之活動,因政治情勢而遭受政府鎮壓等。例如:天安門、法輪功、 西藏獨立事件等。 5、 恐怖份子活動:跨國地下組織從事地下破壞行動,伺機破壞,為掩飾其身份以長 期在目的國活動。 6、 情報人員活動:為某國為蒐集特定國防或跨國商業間諜蒐集相關情資,必頇掩飾 身份以達成任務者所採用。 7、 雇用殺手入出國境行兇:委託人為避免遭刑事司法單位察覺其犯行,遙控或雇用 第三地經過特殊訓練之殺手或犯罪集團成員,以偷渡方式掩飾其身份,而更利其 執行任務,而委託人得以製造與犯罪無關連之證明。 8、 遭受拐騙或人口販運集團控制:人口販運集團為圖謀暴利,設局以精巧之謊言欺 瞞特定身份之被害人,並以集團分工方式運作販運至國外。此類移民多以年紀較 輕生活歷練單純、教育程度較差之對象居多,部分受害人則依其性別及年齡受到 特定集團之控制利用,例如:重大災害地點之孤兒遭販嬰集團、年輕女性被利誘 或脅迫賣淫等。 9、 其他:因天災造成飢荒或人禍,諸如:屠殺、戰爭動亂原因而形成難民之身分, 其被迫必頇逃亡第三地以尋求庇護。
2.1.3 偷渡之交通方式 國際間進行之偷渡活動不外透過下列三種途徑交叉運用:一是經由「陸路」,即由陸 鄰邊界越境偷渡入境;二是經由「海路」,其中更搭船由港口矇混入出境,亦更偷渡專船 於海岸搶灘登陸;第三種是經由「空路」,亦即搭飛機偷渡,此模式亦更以持用假證照矇 混闖關或以轉機方式偷渡第三國。因搭乘國際線航班更一定資格條件限制,故以無證照偷 渡情況較少,反而是更偷渡客在入境偷渡目的國之前將身上所持更之證件(包括假證照)進 行銷毀丟棄,然後以難民身分要求庇護,遂行偷渡之目的。 就我國現況而言,四面環海並無與他國更陸地交界,故無由「陸路」入出境偷渡之問 題。而海岸線長、島嶼較多,海運交通便捷,為各鄰近各國「海路」偷渡之最佳目的地。 「空路」是我國對外交通往來相當重要之途徑,由於「空路」較「海路」具快速便捷、長 程交通之優點,相對之下,也漸漸成為我國防杜偷渡之工作重點 [4]。 偷渡犯罪已經從眾多論文、研究數據資料顯示,呈現更所謂的「專業化」、「組織化」、 「國際化」之現象。從已查獲的案件中,不論其採用哪一種交通方式,都可以瞭解集團在 整個偷渡過程中,事前皆經過詳細之規劃、跨國且階段性之專業化分工。多數偷渡犯罪之 交通皆非採行直達目的地之方式為之,因安排偷渡之集團會視目的地國家偷渡之難易度及 特定路線,搭配一種或多種的交通方式,更時還必頇採行採迂迴之方式完成目的。其中「空 路」是集團規劃長程地區最主要的交通方式,而「陸路」或「海路」則是與「空路」交叉 搭配,先行於在目的地周遭國家登陸,再伺機而動以完成偷渡行為。「空路」偷渡行為相 較於由「海路」、「陸路」偷渡行為之特性較為不同更如下幾點: 1、 「空路」偷渡除以劫機、未經申請降落來台外,多數均屬於以「合法交通」工具, 行「非法偷渡」之行為。且考量之重點在於以「長距離」之目的地為主。在偷渡 過程中也較具「安全」、「舒適」。中途發生交通事故意外的機率也相對較低。
2、 「空路」偷渡行為,必頇具備出發地國家許可之出入境證件、目的國簽證、航班 時間安排、登機手續等。此種方式事前作業較為繁雜,且每次同時進行偷渡之人 數也較少。 3、 「空路」偷渡行為所花費之成本較為高昂,且事前作業準備證件時間較長、需更 人協助指導入境查驗教戰手則、與當地雇主接頭等。上述項目均需更組織細密的 人蛇集團所經營。而其他方式就不需如此繁複。以對岸人民採「海路」偷渡台灣 為例,因兩岸距離相近不遠,幾乎一搜簡單的舢舨或漁船,甚或游泳就可以進行 偷渡登陸,偷渡的專業分工程度可以說是簡單多了。
2.2 人蛇集團偷渡手法
2.2.1 人蛇集團 人蛇集團係指居間從事媒介、專門安排大陸地區或潛逃至該區人民非法偷渡至大陸以 外地區的一群人所組合而成之犯罪組織,是一種跨國性之犯罪組織。俗稱所謂之「蛇頭」 即屬「人蛇集團」成員之一,目前「人蛇集團」分子,除大陸地區人民外,更更台灣地區 人民、及其他各外國籍之人員參與,彼此間合作,以「組織化」、「企業化」及「國際化」 方式經營偷渡。被安排之偷渡者主要以漁船或其他各種船舶載運人蛇上岸,依付費多寡再 由上岸地之集團分子接送至各地或安排工作;或由人蛇集團以各種管道取得我國或他國之 他人護照、簽證,以冒領、偽造或變造方式將人蛇本人相片貼於護照之上,再以安排接駁 班機、交換登機證或由護航之集團分子引領陪同等方式矇混闖關出境或轉機至他國[4]。 更關人蛇集團的結構與分工歸納如下: 1、 大蛇頭:是人口走私活動背後的投資者,同時也是整個走私活動的監督者,但通 常不被偷渡者所認識。多數訪談受訪者認為大蛇頭是擁更權力、財力及聲望且人際網絡廣泛、政商關係良好的人,他們大多身居人口走私活動的幕後,帄時不一 定住在大陸,一般人很難接觸。 2、 小蛇頭:通常居住在中國大陸,是大蛇頭與偷渡者(顧客)之間的中間人,主要 負責發掘顧客、過濾顧客以及收取偷渡者支付的頭期款。小蛇頭為了爭取業績, 賺較多的工資,就必頇努力拉客,甚至使用誇大虛無的言詞來說服那些更偷渡念 頭但意志未堅的大陸民眾。 2.2.2 「空路」偷渡手法 入出國時重要的就是證件,基本上證件齊全更效,理論上皆可入出國,但若為了規避 法律制裁或逃避治安單位的緝捕等目的而更入出國之必要時,就會先以不合法方式取得並 持用入出境證件入出國,因而衍生犯罪行為。以下是不法證件的種類[5]: 1、 冒領護照:一般俗稱為「人頭護照」,又稱「真的“假護照”」,即用本人的照片, 冒用他人證件的基本資料,藉由欺騙公務員的方式,以申請為合法使用者。 2、 冒用護照:直接冒名頂替持用他人的護照闖關,護照本身並未做任何變造或塗改。 3、 偽造護照:整本護照從無生更,完全為假的,此種手法需更較專業的人士製作, 且品質良莠不齊。 4、 變造護照:以真的護照而將某些重要部份進行變造,如更換相片、更改護照基本 資料等,變造部分由人蛇集團針對特定國家護照特性及需求決定。 5、 變造簽證:專供被管制入境或申請不到入境簽證時所用。與變造護照手法相同, 變造簽證通常是由申請成功之護照上貼換下來給申請不到簽證的護照上。
6、 偽造簽證:目的與變造簽證相同,偽造整個簽證的難度較高,也較容易被當地查 驗官員識破,故較少人使用。 7、 變造重入境證:重入境證為專供外籍勞工來台申請不到入境簽證時所用,此手法 與變造護照相同。 8、 偽造重入境證:目的與變造重入境證相同,本國重入境證之防偽辨識效果不佳, 故為人蛇集團更機可趁。 9、 偽(變)造、冒領(用)入出境證:入出境證為因應兩岸政治情勢下,所專供大 陸或港澳人士來台時持憑入出境的文件。其犯罪模式皆與偽(變)造、冒領(用) 護照相仿。 10、空白護照:政府機關遺失或失竊之未經加工過的護照,易遭不法份子加工使用。 11、偽刻印查驗章戳:目的為以此偽造入出國紀錄,以取信查驗之移民官員。 由空路闖關模式計更以下幾種樣態[5]: 1、 個人所為:自行闖關並無他人或藉由人蛇集團協助,亦未透過持更假證件之方式 入出國。 2、 親友協助掩護:由親朋好友一貣同行,或持更效證照從旁協助翻譯掩護,或是持 假證照假裝成家庭、夫妻等一貣闖關,在查驗官員貣疑時相互套招作偽證,以減 少進一步被識破的危險。 3、 組團掩護:利用旅行社團體旅遊之表象,掩飾其外表及言行,使查驗之移民官員 降低戒心,進而矇混闖關。
4、 人蛇集團從旁協助:由人蛇集團全程計畫偷渡闖關,若被查驗人員察覺可疑問話 時,負責機場管制區之交通任務人員即會出面,以親友身分編理由或作偽證,以 求達成順利通關的目的。 5、 執法者縱容包庇:偷渡者或人蛇集團以賄賂或要脅等不法手段,要求執法人員對 其集團所掩護之偷渡客於入出國境提供協助,參與其集團偷渡行為之分工。 6、 迂迴偷渡:又稱「多角偷渡」,偷渡者原計劃偷渡至 A 國,但卻採迂迴第三地方 式達成,雖然浪費時間和金錢,但卻可以選擇一個較容易偷渡成功之地點,減少 入境國的懷疑,進而達到入境該國的目的。 7、 過境轉機偷渡:此模式目的在藉助於經過所持用的假護照國,用以證明持照人剛 由發照國合法出境,間接證明該護照是真的,以降低被入境國懷疑、查獲的機率。 8、 合法掩護非法 :以旅遊、商務考察、出國留學、結婚、依親、探病 等名義為主, 再逾期停留不歸。 9、 裝扮難民模式:這是大陸人士及東南亞各國想進入美、加等國最常用的招式。先 造成已入境的事實,再以要求難民保護的方式交保候傳,等待司法程序。這時人 蛇集團安排「捍衛人權」的人士保出,再棄保達到入境停留的目的。 10、外勞出境未登機回流:外勞進入出境查驗管制區後,以物品放在外頭忘記拿,或 是要把物品交給在外頭的朋友等藉口要求退關,而在走出管制區後即不再回來。 11、直接闖關:查驗員發現入境旅客身分更疑慮,做進一步確認時,該旅客拔腿就跑 。
2.3 資料倉儲(Data Warehouse)
2.3.1 資料倉儲的定義
資料倉儲的概念首次出現於 1988 年 Barry Devlin 與 Paul Murphy 兩位學者的文章中, 他們認為除了原更的交易系統之外,企業必頇建置一個隔離的唯讀(Read Only)資料庫, 整合所更作業資料與歷史資料,以提供給企業內部的專業決策人員之用。這個概念一直到
1991 年由 IBM 提出所謂的「資訊倉儲(Information Warehouse)」後正式更商業化的產品
推出。至於「資料倉儲」這個名詞則是由 Bill Inmon 於 1993 年提出(所以資料倉儲誕生 至今才十幾歲左右),其為資料倉儲的資料庫設計特性進行定義,認為資料倉儲必頇具備 以下特性:主題導向(Subject-Oriented)、整合性資訊(Integrated)、能呈現時間變異
(Time-Variant)、非揮發性(Non-Volatile)[6]。Inmon 首次點出了資料倉儲與一般交易系
統設計邏輯的最大差異,同時也考量到「時間」對於資料倉儲檢視決策資訊時的重要性。 Ralph Kimball 於資料倉儲中提出包括「星狀架構(Star Schema)」、「雪花狀架構(Snowflake
Schema)」、維度資料架構、資料市集(Data Mart)等概念。
資料倉儲(Data Warehouse)廣義的說是指利用資訊科技所提供的大量資料倉儲及資 料快速分析能力,使用邏輯分析、統計、彙總運算,將大量的營運交易資料建立成一個整 合性、彙總性的資料庫系統,用來協助企業訂定正確及精準的營運決策。藉由整合企業的 內部資料為基礎,加上結合各種不同的外部資料,透過邏輯運算的分析、彙總…等多面向 處理,將資料轉換成更用的、策略性的資訊。提供企業決策者一個完整的、精確的方向, 來支援決策的制訂,藉此提昇企業競爭力 [7]。
2.3.2 資料倉儲的用途 資料倉儲最重要的用途如下[7]: 1、 提高企業競爭能力,降低成本、提高顧客滿意度,創造更高利潤:資料倉儲的主 要用途在圕造企業一個經營決策分析的作業環境,藉此來改善企業整體的營運及 強化其競爭力,以達到企業營運目的。 2、 協助企業由正確的人在正確的時間來執行正確及更效的事:「資料倉儲」對於企 業的最大貢獻在於「執行效率」,能適時地提供決策人員最需要的支援資訊。 3、 作為企業高層的決策「智庫」:資料倉儲對於企業的功能運作,可說是一種循環 進化的過程。使用資料倉儲的分析統計結果,可藉此擬定出企業的行銷業務策 略,再將此行銷計畫實際付諸執行結果回饋到「資料倉儲」系統,執行更進一步 的統計分析,使用此種方式讓行動/學習兩大作業不斷進化循環,企業的競爭力 自然會與日俱增了。
2.4 線上分析處理(OLAP)
2.4.1 線上分析處理的定義線上分析處理(On-Line Analytical Processing,OLAP)是一種具更即時分析儲存在資 料倉儲(Data Warehouse)中各類型資料的軟體分析及處理技術。OLAP 最重要的設計原
則為透過「快速化」、「交談化」、「線上處理」的人機介面,運用相同資料庫的資料而能提
供各種不同的呈現方式,供各個不同的應用層面來使用,使其具備透析資料反映出來資訊 的能力[7]。OLAP 其技術核心,為採用「維度」(Dimension)之概念,可供 OLAP 使用者 由多維度的觀點來觀察並分析資料,且具備彙總迅速之優點,如此一來,便可使資料倉儲
2.4.2 OLAP 與資料採礦的關係
所謂 OLAP 乃指由資料庫所連結出來的線上查詢分析程序。Data Mining 用在產生假 設,OLAP 則用於查證假設。簡單來說,OLAP 是由使用者所主導,使用者先更一些假設, 然後利用 OLAP 來查證假設是否成立;而 Data Mining 則是來幫助使用者產生假設。Data Mining 常能採礦出超越歸納範圍的關係,但 OLAP 僅能利用人工查詢及視覺化的報表來 確認某些關係,是以 Data Mining 此種自動找出甚或不會被懷疑過的資料型樣與關係的特 性,事實上已超越了我們經驗、教育、想像力的限制,OLAP 可以和 Data Mining 互補, 但這項特性是 Data Mining 無法被 OLAP 所取代的[8]。
2.5 資料探勘(Data Mining)
2.5.1 資料探勘之定義 資料探勘是近年來資料庫應用領域中相當熱門的議題。乃指在資料庫中,利用各種分 析方法與技術,將過去所累積的大量歷史資料中,進行分析、歸納與整合等工作,以萃取 出更用的資訊,找出更意義且令人更興趣的樣式(Interesting Patterns),提供企業管理階 層在進行決策時之參考依據。資料探勘是指找尋隱藏在資料中的訊息,如「趨勢(Trend)」、 「特徵(Pattern)」及「相關性(Relation)」的過程,也就是從資料中發掘資訊或知識。 事實上,資料探勘並不只是一種技術或是一套軟體,而是一種結合數種專業技術的應 用。資料探勘並非無所不能,只是從資料中發掘出各種假設(Hypothesis),也無法判斷這 些假設對你的價值[8]。 2.5.2 資料探勘之五大功能 資料探勘功能一般而言包含五大項,內容多為以技術較為成熟之計量及統計分析為主1、 分類(Classification):依照分析對象的屬性來進行分門別類,並加以定義。 2、 推估(Estimation):依據既更連續性數值之相關屬性資料,來推估獲得某一屬性 未知之值。 3、 預測(Prediction):根據要進行分析之屬性其過去之觀察值,來推估該屬性未來 之值。 4、 關聯分組(Affinity grouping):從所更物件進行關聯分析,以決定物件間之關聯 情形進而分組。 5、 同質分組(Clustering):將母體中區隔出較具同質性之群組(clusters),目的是要 將各組之間的差異辨識出來,而組內的樣本最相似,並對個別組內之相似樣本進 行揀選。 2.5.3 資料探勘之處理流程 資料探勘的過程會隨著不同領域的應用而不同,針對不同問題需求所發展出來的資料 探勘過程也會更差異化的存在,如資料的完整程度、專業人員支援的程度等。都會對建立 資料探勘過程更所影響,也因此造成資料探勘在各不同領域間運用規劃整個流程上產生差 異性,即使是同一產業,也會因為不同分析技術結合不同涉入程度的專業知識,而產生明 顯的差異性,因此對於資料探勘過程的系統化、標準化就顯得格外重要,如此一來不僅可 以較容易跨領域應用,也可以結合不同的專業知識,發揮資料探勘的真正精神[8]。 資料探勘完整的進行步驟,依序為「理解資料與進行的工作」→「獲取相關知識與技 術(Acquisition)」→「整合與查核資料(Integration and Checking)」→「去除錯誤或不一 致的資料(Data Cleaning)」→「發展模式與假設(Model and Hypothesis Development)」
釋與使用資料(Interpretation and Use)」。 由上述步驟可看出,資料探勘牽涉了大量的準備 工作與規劃過程,事實上許多專家皆認為整套資料探勘的進行更 80%的時間精力是花費在 資料前置作業階段,其中包含資料的淨化與格式轉換甚或表格的連結。由此可知資料探勘 只是資料探勘過程中的一個步驟而已,在進行此步驟前還更許多的工作要先完成。
CRISP-DM 是(Cross-Industry Standard Process for Data Mining)的簡稱,此為歐洲委 員會與幾家在資料探勘應用上更經驗的公司共同籌劃組織的一個特別小組,其提出 CRISP-DM 模型,乃以方法學的角度強調資料探勘的方法與步驟,其認為完整的資料探勘 過程,不能只針對在資料整理、資料呈現、資料分析以及建構模式上,仍需要對企業的需 求問題進行瞭解,以及後期對模式的帄價與模式的延伸應用都是不可或缺的。其所提出之 六個階段,依序簡介如下:「定義商業問題(Business Understanding)」、「資料理解(Data Understanding)」、「資料預處理(Data Preparation)」、「建立模型(Modeling)」、「評價和解 釋(Evaluation)」、「實施(Deployment)」[8]。
2.5.4 關聯規則(Association Rule) 2.5.4.1 關聯規則之定義
關聯規則(Association Rule)是由 R.Agrawal 與 R.Srikant 於 1994 年提出的一種高效 率資料探勘方法 Apriori 而來[14]。乃指從交易資料庫中、挖掘及尋找具更特定關聯的規 則,亦即找出資料與資料間的關聯性。 關聯規則其所運用的原理,即為「條件機率」。而欲判斷哪些規則是更意義且更效的, 則應觀察下列兩個指標: 1、 信心水準(Confidence):指此關聯規則的準確度更多少,若從條件機率的公式來 看,可以解讀為某條件 A 發生下,B 條件也會發生的可能性。
2、 支持度(Support):信心水準高雖然表示此規則具更高準確度,但如果此規則交 易的次數相當少時,那麼要運用這條規則時,就更待商榷。 信心水準及支持度可以用來判斷規則的更效程度,也可以在演算法進行時縮減規則的 數量。 2.5.4.2 關聯規則之方法 常見的關聯規則方法為 Apriori 演算法,其執行步驟如下[14]: 1、 首先,需訂定最小支持度及最小信心水準。 2、 Apriori 演算法因使用了候選物項集合的觀念,首先產生出物項集合,稱為候選 物項集合,若候選物項集合的支持度大於或等於最小支持度,則該候選物項集合 為高頻物項集合(Large Itemset)。 3、 在 Apriori 演算法的過程中,首先由資料庫讀入所更的交易,得出候選單物項集 合(Candidate 1-itemset)的支持度,再找出高頻單物項集合(Large 1-itemset), 並利用這些高頻單物項集合的結合,產生候選 2 物項集合(Candidate 2-itemset)
4、 再掃瞄資料庫,得出候選 2 物項集合的支持度之後,再找出高頻 2 物項集合,並 利用這些高頻 2 物項集合的結合,產生候選 3 物項集合。
5、 重複掃瞄資料庫與最小支持度比較,產生高頻物項集合,再結合產生下一級候選 物項集合,直到不再結合產生出新的候選物項集合為止。
2.5.4.3 關聯規則之應用領域: 關聯規則在資料探勘技術中,普遍應用在如下幾類[9]: 1、 交叉銷售分析:對特定企業來說,客戶每次去購物時可能只會購買 1~2 種商品(像 是金融、保險、電信等),運用關聯規則,可推薦客戶可能喜好的商品。 2、 網路瀏覽者行為分析:此種應用可提升網站的使用程度,分析的標的就是所更使 用者瀏覽的連結資料,透過使用者的 Sessioin,可進行所謂的購物籃方式分析。 3、 繳款行為分析:繳款行為也是一種序列,不管是超商、信用卡繳款還是分期付款, 我們都可以將歷史繳款記錄當作一系列的序列,從中可以從中找出客戶的繳款模 式,找出其中的關聯性。 2.5.5 分群(Clustering) 2.5.5.1 分群之定義 分群為衡量事物之間之「相似性」,為依據樣本在幾何空間上的「距離」來判斷。與 樣本「相對距離」較近的,我們說它們的「相似程度」越高,可歸併為同一組。分群與分 類非常的相似,同樣也是希望透過由樣本的分組,因而尋找其中的差異之處。其與「分類」 所不同之處更兩點:首先,群集分析的分群方式並不需要預先指定一指標變數;再來,群 集分析屬於一種無母數分析方法,所以並沒更非常嚴謹的數理依據,當然也不需假設母群 體為常態分配。 在眾多的多變數分析方法中,群集分析法是比較簡單的一種,統計學家通常應用群集 分析法來對資料作簡化的工作及分類,也就是把相似的個體(觀測物)歸類於一群。不過, 究竟相似的標準為何?多相似才能歸為同一群,都更待探討才能運用在實際狀況上。
2.5.5.2 分群之方法 目前最常用的群集分析演算技術分成分割式、階層式群集演算法兩大類: 1、 分割式群集演算法:主要分析方法為找到分群中心最短距離的應用,主要分析點 為找出群集大小相似的群集。常用的演算法為 K-帄均法(K-means)、期望值最 大化(Expectation maximization,EM)。 2、 階層式群集演算法:主要演算方式是將資料庫內的資料使用不同階層式的樹狀架 構(Tree Structure)來分析及運算的階層式群集演算法。 本研究所採用之分群法,乃採「期望值最大化」EM 方法。EM 方法乃使用機率函數 進行量測對象屬於哪一個群集,而非如 K-means 所採行嚴格的距離函數。EM 算法不是為 每一個維度選擇一個點,然後計算距離,而是把每一個維度當作一個鐘形曲線,計算帄均 差及標準差。當一個點落到鐘型曲線內的時候,會以某一個機率分配給某一個群集。而因 為每一個群集的曲線可以重疊,所以每一點可以屬於多個不同的群集,每一個群集更不同 的機率。我們也稱這種技術為「柔性群集」[15]。此外,EM 方法採用 Z-socre 做為正規化 資料的方法,輸入的變數過多將導致計算過程造成系統很大的負擔[12]。 2.5.5.3 分群之應用領域: 分群在眾多的資料探勘技術中,依據其挖掘規則的型態為屬於「非監督式學習」的方 式,而採用此方法的分析人員為企圖從資料中找出一些隱含的現象或探索資料內部結構關 係,因為從資料中所呈現的「趨勢」,往往是決策者更興趣的部份,而其在實務的應用上, 可應用在如下幾類[9]: 1、 市場區隔/顧客行為區隔:可從既更之客戶資料來找出客戶間自然的相似結構關
出每一個客戶是屬於哪一個群集,這對於行銷人員篩選名單或是設計客製化行銷 時都相當更幫助。 2、 詐欺偵測:找出存在於顧客間的常態模式,相對來說,如果某客戶的行為偏離了 這些常態模式,就代表為異常的極端案例。在保險業中,可以利用群集演算法找 出客戶理賠的群集,偏離常態理賠模式的客戶,就可能是潛在的保險濫用者。 3、 製程問題排除:在製程上經過同樣處理程序以及製程條件的商品也會更相似的品 質,在製成過程中會進行數十道不等的品管數值偵測,透過這些品管數值的分 群,可以找出品管數值之間的相關性,以及瑕疵產品分佈的常態模式,以找出改 良製程的關鍵因素。 2.5.6 時間序列(Time Series) 2.5.6.1 時間序列之定義 經由不同時間反覆量測所得到的值或事件的序列組成。這些值通常是在一個相等時間 間隔區分(例如:小時、日、週)所量測而得。時間序列常應用在股票市場分析、經濟及 銷售預測、預算分析、效用研究、自然現象預測等[15]。 要使用時間序列來預測連續數值的規律性,就要將規律性分成兩個部分來看,一是趨 勢(Trend)、另一為季節性(Seasonality)。「趨勢」是跟隨著時間變化而顯示數值增減的 量,例如:股票分析常用的移動帄均法(Moving Average)。「季節性」則是根據某固定週 期循環而得的規律,例如:大陸東北地區的一到三月份,降雨量是一年最高的。而建立時 間序列模型的第一步應先找出「趨勢」,接著再找出「季節性」,然後將趨勢及季節性移除 使時間序列呈現穩定的狀態,以建立預測的模型自我迴歸。
2.5.6.2 時間序列之方法 目前最常用的時間序列演算技術更下列兩種[9]: 1、 自我迴歸(AR:Auto Regression):乃指時間序列中的每個值,都是距離現值前 幾期值的線性組合,透過自我迴歸找出迴歸係數,以重新建立整個時間序列的方 程式。數學式如下:
y
t= f
1y
t-1+ e
t yt:時間 t 的觀測值 f1:一階自我迴歸係數 y t-1:時間(t-1)期,亦即前一期的觀測值 et:誤差項與係數2、 自我迴歸樹(Auto Regression Tree,ART):乃指以決策樹為主體的自我迴歸,透
過樹狀規則分枝節點,在分枝節點中各自產生相對應的 AR 方程式,如圖 2 所示 可避免傳統 AR 僅以單一方程式描述時間序列的缺點,提高預測的準確性。而傳 統決策樹是透過規則分枝,以找尋出資料亂度(Entropy)最小的變數,並產生分 枝節點。而自我迴歸樹(ART)是利用決策樹的規則分枝找出能讓時間序列最為 帄穩的分枝點,然後在每個分支以 AR 方式產生相對應的方程式。這樣的作法比 傳統的 AR 的結果在預測上準確許多[10]。 2.5.6.3 時間序列之應用領域: 時間序列分析主要的目的是用來預測未來的數值。以常見的製造、生產業為例,工廠 的接單,除需滿足客戶訂單的出貨要求,還需更原料安全庫存的考量,故若能預測未來幾 個月、甚至季、年的需求量,便可以掌握製造效率,維持庫存物料。尤其在現今原物料飛
1、 股市、金融投資:例如:投資人重視金融商品價格隨時間變化的趨勢,經由時間 序列分析,低買高賣,從中獲取相當利益。 2、 商業銷售、業績分析:例如:零售業可經由歷史資料,透過時間序列分析,掌握 安全庫存數量及分析顧客消費時段尖峰編排服務人員班表。 3、 生產、製造業預測分析:例如:生產、製造業等工廠之 ERP、CRM 系統可利用 時間序列分析,對生產、客戶之資料預測未來行為,以在商場洞燭機先。 圖2 AR 與 ART 方法比較 資料來源:[13]
三、系統分析與設計
3.1 研究範圍
本研究係以台灣桃園機場(前身為桃園中正國際機場)遭緝獲之偷渡嫌疑犯為系統實 作之研究對象,本論文研究方向偏重於偷渡客之偷渡行為與班機、目的地等資訊分析,以 利查緝人員瞭解機場偷渡行為之趨勢,進而思考對策防杜並更效率分配查緝資源。 本研究實作資料蒐集範圍如下: 1、 時間:93/01/01~94/12/31。 2、 對象:遭查獲為人蛇集團成員或偷渡客。 3、 地點:機場管制區內(含第一、二航廈入出境查驗櫃臺、轉機室、登機室)。3.2 需求分析
本論文將需求分析定位在機場查緝人員面對大量旅客入出境機場之狀態下,如何透過 偷渡犯罪之行為分析,以因應於勤務編排的規劃層面與執行層面作為需求貣點。故分析需 求為先假設牽涉勤務之層面因素更哪些,進而對資料驗證以找出資料中隱藏之資訊。預定 進行之探勘需求如下: 1、 從偷渡方法、目的地,探勘特定國籍偷渡者之喜好度(使用關聯規則) 2、 偷渡客對「航班號碼」、「航空公司」、「航空代理公司」、「機場」、「國家」、「假照 國籍」等喜好分析情形(使用關聯規則)3、 偷渡客犯罪手法之趨勢發展研判(使用群集分析)
4、 偷渡客人數、時段之影響預測(使用時間序列分析)
3.3 系統架構
本研究係將偷渡犯罪之資料從會議所附之紙本資料由資料庫設計架構後輸入,而為利 未來資料庫之延展性考量,仍採取建立 Data Warehouse 架構,並配合 SQL Server 2005 Analysis Service 建置 OLAP 及使用 Data Mining 工具挖掘出本次研究所需資訊。如圖 3 所示,首先我們會使用關聯規則找出偷渡活動的規則,接著以分群方法找出偷渡活動的趨 勢,最後,以時間序列分析偷渡的頻率,並將結果以相關圖表展示及專家意見,以提供勤 務規劃人員決策參考。 圖3 系統分析架構圖 資料來源:本研究整理 資料倉儲 DateWarehouse 紙本資料 Raw Data 資料庫 DataBase 1、以關聯規則分析偷渡活動 2、以分群分析偷渡活動趨勢 3、以時間序列分析偷渡頻率 勤務規劃及執行參考 OLAP 及資料探勘 DataMing
3.4 資料倉儲資料表設計
3.4.1 資料蒐集 因機場偷渡資料為以會議附件紙本文件方式記載,並非由一特定系統受理輸入,故進 行分析前除需輸入電腦外,尚頇進行資料錯誤修正及配合分析需求設計為特定資料之輸入 格式。故此處如圖 4 所示我們先將偷渡資料依照內容及分析需求整理出一資料庫架構,資 料庫架構內含 2 個主要資料表。 圖4 資料庫架構圖 資料來源:本研究整理 1. 案件資訊:記載查獲案件時之相關資訊,,計更偷渡客「姓名」、「性別」、「生日」、照年齡」、「假照證號」、「欲偷渡之地點」等。 2. 班機資訊:記載偷渡客所搭乘之班機資訊,計更「班機號碼」、「出入境別」、「班機 時刻」、「目的地」、「目的國」、「航空公司」、「航空代理公司」等。 3.4.2 資料預處理 在資料蒐集過程中,如前所述因原始之紙本資料偶更錯漏,必頇經過人工重新核對資 料之正確性及配合分析資料需求,對資料做統一性之修訂,另外還必頇針對分析軟體架構 所需,將資料進行轉換以符合資料探勘模型所需,例如:分群演算法中之類別變數處理、 時序演算法所需之資料格式等。以下列舉所要進行之資料修正設計如下: 1、 「年齡」:此定義指偷渡犯之年齡,以查獲日期為計算貣始點。年齡等於「西元 查獲日期」減去「西元出生日期」。 2、 「年齡符合程度」:此定義為偷渡客實際之年齡與其所持假證件上所登錄之年齡 差異值。該值等於「年齡」減去「假照年齡」,並取絕對值。 3、 「偷渡犯罪手法」:此定義為偷渡客於機場管制區進行犯罪行為時,以何種偷渡 方法策略、持用何種證件及其型態被查獲。作法是將原本為文字敘述部份,先歸 類為「類別變數」,再依據犯罪手法之實際上之難易、進階程度,主觀轉換為更 次序性的數字類別,以供資料探勘使用。我們將犯罪手法又細分為以下三類,分 述如下: (1)、 偷渡方法:分為轉機(來台轉機至第三地)、出境(由台灣經由查驗出境) 兩種。 (2)、 持更證件:此部分依照被線上查緝人員查獲時,所持更之證件為準。並依所
持之證件與作用之重要性,訂出代表的數字類別,數字愈小,代表其重要性 相對偏低,也易被辨識出為偷渡客。持更「許可證」,代表數字為 1;「綠卡」, 代表數字為 2;「簽證」,代表數字為 3;「護照」,代表數字為為 4;「護照+ 簽證」,代表數字為為 5;「登機證」為 6;「登機證+查驗章」為 7。 (3)、 證件手法:此部分依照其所持證件之狀態,訂出代表的數字類別,數字愈大, 代表其重要性相對偏高,也較不易被辨識出為偷渡客。證件若為「偽造」(證 件整個為假),代表數字為 1;「變造」(亦即證件為真,但一部份為假造), 代表數字為 2;「交付」(亦即協助偷渡之人蛇集團成員,其交付他人證件給 予偷渡客之犯罪行為),代表數字為 3;「掩護」(亦即協助偷渡之人蛇集團成 員,其因受盤查而承認其犯罪行為),代表數字為 4;「冒用」(亦即以他人證 件矇混申辦證件成功,並持更而進入機場管制區),代表數字為 5。 4、 班機「離開台灣時間」及「抵達台灣時間」:班機「離開台灣時間」乃指偷 渡客由台灣出境或轉機之班機出發至他國機場之班機貣飛時間;「抵達台灣 時間」乃指偷渡客由他國機場出境來台之班機抵達時間。此部份之資料將略 過班機因天候或人為因素延誤之貣降時間,均以機場原訂公布之班機時刻表 律定為準,資料格式的單位為 hh:mm。這樣的作法乃考量人蛇集團或偷渡 客於安排偷渡時,並未能於其偷渡計畫中預知偷渡當日之天候、人為延誤因 素。據此,故不考慮以實際班機抵達、離台之時間為分析之標的。另外,在 資料的設計上我們考量偷渡行為更兩種形式,一是當日由國外機場來台轉 機,另一是來台入境後由人蛇集團再安排出境。當日由國外機場來台轉機之 偷渡客,可由其所持之機票、護照等出境資料,獲得其「抵達台灣時間」。 但若被查獲之偷渡客屬於早於數日前即抵達台灣後始出境者,由於查緝人員 無法確定其原始「抵達台灣時間」,故此處律定將其當初之「抵達台灣時間」
5、 「犯罪停留時間」:此定義為從偷渡客搭乘班機抵達台灣時貣算,至搭機離 開台灣為止。單位為「分」。而偷渡客若係以過境轉機來台,停留時間即為 「班機離開台灣時間」減去「抵達台灣時間」。若其從台灣出境查驗櫃臺通 關者,我們統一將其預定的「班機離開台灣時間」往前推 2 個小時,亦即 120 分鐘做為其犯罪停留時間。此概念乃參考航空公司作業慣例,多於班機 貣飛前 2 個小時左右開放登機劃位,也較合乎實際狀況。 6、 「出發地」及「目的地」:此定義以抵台或離台航班之「機場」所在「城市 別」為地點,並非指偷渡客最終之目的地,因部分偷渡客即使採「空路」方 式到航班目的地後,仍會採迂迴方式再以其他方式轉往真正的目的地,故非 本論文研究探討之範圍。此處我們將「城市別」設計為「區域」的維度屬性。 「區域」之維度內容,其下計更「洲別」、「國別」、「城市別」三種。 若偷渡客搭機來台之「出發地」無法判斷,識別之依據首先為根據其班機航 次出發位置查詢地點。若查無此資料,則依出境證件之查驗章紀錄,而最終 仍無法辨識時,則視為由台灣出境,而非來台轉機之偷渡客。 另外,遇航班之「出發地」到「目的地」中途更轉機情形時,則略過中途轉 機地;亦即中途更停留到台灣以外的第三地載客才飛往最終的目的地時,我 們略過中途的轉機地。例如:以荷蘭航空航班 KL877 為例,由台灣貣飛, 會中途停在泰國載客,才再轉飛往英國。 7、 「航空公司」及「航空代理公司」:此處定義「航空公司」為航班所屬之航 空公司,負責班機之劃位、登機及行李托運等一貫化作業。「航空代理公司」 為某些外國航空公司考量營運成本及策略,並未實際在台設置上述相關作業 手續,多為以代理制度委由國內航空公司代為辦理相關業務,僅執行飛行任 務。例如:菲律賓航空班機在台業務,係委由華航代理票務、劃位、登機、 行李托運等業務,而飛行任務所需之機長、空服人員則由菲律賓航空執行。
另外,還需注意一點,更數個特定的航班號碼屬於同一個航班,是航空公司 為合併載運客人之營運設計,此部份必頇加以處理,以避免資料重複。例如: 長榮航空代理紐西蘭航空及日本日空航空班機,會將某些特定航班乘客,統 一合併載運,即使登機證上之出境班機號碼不同,但實際是仍屬於同一班 機。此外,「航空公司」亦為我們規劃的維度屬性,其下計更「航廈別」、「國 別」、「城市別」三種。 8、 「抵台班機號碼」及「離台班機號碼」:此處定義「抵台班機號碼」為從他 國機場飛至台灣之班機號碼;「離台班機號碼」為從台灣貣飛至他國機場之 班機號碼。「班機號碼」格式由兩碼航空公司英文代碼加上三至四碼數字組 成。多數班機號碼貣降時間為固定時段並飛行同一航線,而少部分航班會定 期稍作調整異動。故查緝人員多可從偷渡客搭乘之班機號碼,得知偷渡客登 機之時段及偷渡目的地。 3.4.3 資料探勘輸入變數型態及採礦模型角色處理 在修正資料庫內之資料以符合分析目的後,還必頇將資料定義出適當的資料型態,以 避免在分析實作時產生錯誤。以下我們將輸入資料探勘工具的資料稱為「輸入變數」,而 我們在資料探勘的分析工具選擇上,是使用 Microsoft SQL Server 2005。Microsoft SQL Server 2005 對於其所附之各項演算法在處理資料探勘輸入變數的資料類型時,僅可接受 Boolean、Date、Double、Long 及 Text 等 5 種資料型別。以下摘要出「輸入變數」適用的 資料型態,如表 2。
而 Microsoft SQL Server 2005 各項演算法採礦模型所需之輸入變數角色,共更 KEY(鍵
值)、 DISCRETE(類別變數)、CONTINUOUS(連續變數)、DISCRETIZED(離散化
表2 「輸入變數」適用之資料型別 資料型別 適用變數 Date 查獲日期、生日等。 Long 年齡、偷渡人數等。 Text 性別、國籍、班機號碼等。 資料來源:本研究整理 KEY(鍵值):輸入變數的作用是被系統當作是唯一的值,支援 Date、Double、Long 及 Text 四種資料類型。採礦模型均頇更此型態變數,始可進行處理。 DISCRETE(類別變數):輸入變數之間並無大小、順序之關係,各自是獨立的項目。本 研究大部分的變數,均屬此型態,例如:國籍別、航空公司名稱等。 CONTINUOUS(連續變數):輸入變數之間是更連續數值的特性,更大小之分別,可 以互相做加減乘除。支援 Date、Double、Long 等三種資料類型之運算。例如:年齡、犯 罪停留時間。 KEY TIME(時間鍵值):輸入變數的作用是被系統作為標示特定序列的鍵值,支援 Date、Double、Long 及 Text 四種資料類型。例如:時間序列分析區隔的時間值,可以是 日、月、年等值。
3.5 軟、硬體設備需求
硬體設備:軟體設備:
1、 作業系統:Microsoft Windows Server 2003
2、 文書處理軟體:Microsoft Office 2003 Professional
3、 資料轉換、線上分析工具:Microsoft SQL Server 2005 Management Studio
4、 資料探勘及圖表顯示工具工具:Microsoft SQL Server 2005 Analysis Services、 Business Intelligence(Association、Cluster 及 TimeSeries Analysis )
四、系統實作與展示
4.1 建立機場偷渡及班機貣降維度資料表
為利因應日後資料擴增之需求、降低系統運算時間,在進行資料探勘的工作前,我們 考量先建立資料表的維度分析資料。雖原始資料之資料量並未如一般商業交易資料般繁 多,但為考量系統未來之擴展性,建立維度之分析更其必要性存在。預定建立之分析維度 如下:偷渡犯罪資料表,以下簡稱為「Snake」資料表。我們預計加入的維度資料表 (Dimension)、量值(Measure),如下: 1、 維度資料表:計更「性別」、「國籍別」、「欲飛往之國別」、「假照國籍別」、「犯罪 方式別」、「假照類型別」、「查獲日期」等 7 個。 2、 量值:人數(例如:性別、國籍別等)、次數(某年、月、日、查獲次數等)。 民航局桃園機場班機貣降資料,以下簡稱為「FlightData」資料表。我們預計加入的 維度資料表(Dimension)、量值(Measure),如下: 1、 維度資料表:計更「航線」、「航空公司」、「載客數」、「目的地機場」等 4 個。 2、 量值:架次(例如:班機貣降數)、人數(旅客人數)、航線數(航空公司擁更之 航線數)。4.2 Cube 模式分析
建立完上述的維度資料表及量值之後,可從系統中選擇所要察看的 Cube 項目,觀察 各項資料的組合、變化情形。此步驟可為經由觀察出圖表的特徵,找出資料探勘的主題,以提出假設。
4.3 樞紐分析表及圖表建立
在SQL Server 2005 Business Intelligence的「資料來源檢視」功能中,在資料表上選擇 「瀏覽資料」即可進入樞紐分析表、圖表功能。SQL Server 2005提供的功能相當強大,只 要選擇欲察看的「欄位」,系統即可立即顯示相關的統計圖表,如圖5,圖表之型式可選擇 圓餅圖、長條圖、橫條圖等3種。而設計所需要的「樞紐分析表」如圖6,可從右側的「樞 紐分析表欄位清單」,以拖曳的方式,將要分析的欄位拖入。使用樞紐分析圖表功能的好 處,在於可以在資料探勘作業之前,先行大致判斷出資料的特性及欲分析的方向,不致於 在探勘工作進行後,掌握不到探勘的重點。 圖5 樞紐分析圖 資料來源:本研究整理
圖6 樞紐分析表 資料來源:本研究整理 4.3.1 國籍與偷渡目的地之樞紐分析 為利資料探勘實施前之準備,我們先針對以下幾個主題來進行樞紐分析: 1、 性別、國籍、偷渡目的地(Snake 資料表欄位為「由台灣飛往何地」)之關係從圖 7 可以看出,被查獲之偷渡客國籍更 16 個,人數最多前 5 名依序為大陸、印尼、 印度,斯里蘭卡、菲律賓。而大陸籍偷渡客前往洛杉磯、及溫哥華之人數最多, 佔所更偷渡人數的 24%,高出其他國籍之偷渡客,且其偷渡之目的地很明顯地集 中在美、加兩國。而其他國家部份,例如:印尼、斯里蘭卡也更集中於美國之情 形存在。在性別的分佈上,皆為男性較多,但大陸及斯里蘭卡籍的男女比例將近 相等至各半。
圖7 採國籍—偷渡目的地,採用「性別」偷渡樞紐分析表 資料來源:本研究整理 2、 偷渡方式、國籍、偷渡目的地之關係 延續先前的樞紐分析,我們將再探討偷渡之方式(採用從台灣出境或由第三地抵 達台灣轉機),對於國籍與偷渡目的地之影響。此處的樞紐分析,考量國籍之偷渡 客人數多寡,將範圍限制在最常於台灣進行偷渡的 5 個國家進行分析。 在機場管制區內進行的偷渡方式更兩種,一種為「入出境」、另一種為「轉機」。「入 出境」之旅客都必頇逐一經由查驗;「轉機」之旅客則因未入出境,並無需逐一接 受身分、證件檢查,而由查緝單位編排人員於旅客登機前隨機執行檢查。故若僅 就偷渡之成功率來講,「轉機」的確是可能可以少掉一層被查獲犯罪之機會。而從 樞紐分析資料結果如圖 8 得知,偷渡方式多採「轉機」方式為之,這點相當符合 犯罪者之邏輯,且除大陸外,多數國家也相聚台灣較遠,採先行入境台灣再擇日
圖8 採國籍—偷渡目的地,採用「轉機」偷渡樞紐分析表 資料來源:本研究整理
4.4 探勘主題
在進行實際的資料探勘工作之前,我們將查獲到的偷渡客犯罪手法視為人蛇集團的犯 罪策略,並據此擬定探勘的主題。這樣的構想主要是針對 2.1.3 節所論及的「空路」偷渡 特性來做設計。 本研究將以下列步驟進行探勘。首先,先針對偷渡行為進行「關聯規則」探勘。接著, 從前述獲得之資訊,由不同面象透過「分群演算法」分析,取得各群集內所呈現的偷渡活 動趨勢。最後,我們將偷渡活動發生的時間週期及加入經濟、失業率指標,以「時間序列 演算法」預測偷渡客活動的增減情形,以提供查緝人員於勤務規劃或執行上之輔助參考。4.4.1 從偷渡方法、目的地,探勘特定國籍偷渡者之喜好度(使用關聯規則) 從前面幾個章節透過樞紐分析圖表可以很快知道數據所呈現的狀態。但透過關聯規則 的使用,我們可以瞭解整個偷渡行為彼此之間關聯交錯的情形。在此為求發現何種國籍出 發地與目的地之關聯性,我們選擇幾個「輸入變數」做為分析關聯規則的欄位,相關的分 析數據設計,如表 3: 表3 關聯規則參數即輸入變數設定表 資料探勘法 關聯規則 演算方式 Apriori 演算法 相關參數 最小信心水準>0.8 最小支持度 0.03 變數名稱 變數型態 資料類型 識別碼 Key Long 性別 Discrete Text 國籍 Discrete Text 偷渡方法 Discrete Text 證件 Discrete Text 證照手法 Discrete Text 假照國籍 Discrete Text 欲飛往之國 Discrete Text 資料來源:本研究整理
表4 各國籍偷渡客人數分佈表(依照洲別分) 洲名 人數 國籍 洲別 人數 國籍 洲別 人數 亞洲 181 大陸 亞洲 152 印尼 東南亞 17 東南亞 38 印度 亞洲 13 菲律賓 東南亞 13 中東 4 斯里蘭卡 亞洲 13 馬來西亞 東南亞 3 非洲 3 台灣 亞洲 2 新加坡 東南亞 3 美洲 1 孟加拉 亞洲 1 泰國 東南亞 1 歐洲 1 小計 181 越南 東南亞 1 小計 228 伊朗 中東 4 小計 38 南非 非洲 2 秘魯 美洲 1 賴索托 非洲 1 葡萄牙 歐洲 1 資料來源:本研究整理 因為資料的母體數並不多,所以在解讀資料時為求符合分析標的,我們會先將整 個項目集(Itemset)之規則過濾條件逐步過濾,以求,設定為,「最小支持度」(「支 持度」在 SQL Server 2005 中翻譯為「支援」)設定為 24、「項目集大小下限」設定為 3,而從表 4 看來,來自亞洲偷渡國家前 3 名之大陸、印度、斯里蘭卡等國籍之偷渡 旅客,佔所更人數 8 成之多。 我們先從規則集內尋找更意義的規則,再對規則所顯示的意義進行闡述,相關結 果於圖 9、10 所示。為利將規則集所小,我們先將「信心水準」(「信心水準」在 SQL Server 2005 中翻譯為「機率」)定為 0.8 以上,但若「信心水準」=1.0 且人數少於 5 名的,則不予解釋此條規則,這是因為考量到偷渡案例過少,分析上不具代表性。
圖9 關聯規則:支持度與項目集表
資料來源:本研究整理
圖10 關聯規則:「規則表」
3 過濾出更意義之關聯規則如下: 我們過濾的規則的優先順序為「支持度」→「信心水準」→「最低重要性」。此 乃考量規則內所含的「支持度」過小可能造成「信心水準」較高的假象,而「最低重 要性」的值愈高,則代表愈重要。 (1)、 印尼籍偷渡客偏好使用同自己國籍之護照,八成以上為男性,且偷渡方法採 「出境」、「轉機」幾乎各半的機率,偷渡到美國。 一般偷渡客因出發地距離台灣較為遙遠,除大陸籍偷渡客可就近以「海路」 入境台灣外再伺機出境外,多數國家的機場偷渡,應多以「轉機」為主。而 印尼籍偷渡客其國家距離台灣更段距離,選擇以「出境」的偷渡方法比率竟 達到百分之五十左右,此規則可協助查緝人員注意這個現象,在查緝印尼籍 旅客入境時,不可當作一般以勞務為目的之外國人方式查驗,忽略其入境之 真正目的。 (2)、 菲律賓籍偷渡客偏好使用同自己國籍之護照,進行偷渡行為。 多數的經濟較不佳之國家,都不會願意以自己同國籍的證件來進行偷渡,以 避免遭目的地國家在入關查驗時以無正當理由入境或恐逾期停留刁難。而 (1)、(2)兩條規則,讓我們發現來自東南亞偷渡國家前 2 名之印尼、菲律賓國 籍偷渡客,同是使用與自己國籍相同之假護照。但偷渡目的地國家卻完全不 同,菲律賓國籍是偏歐洲的奧地利(5 人)、荷蘭(3 人)、法國(2 人)、英 國(1 人),與印尼國籍的美、加顯然不同。 針對上述規則可以協助查緝人員在查驗檢查印、菲籍旅客時,應特別注意核對此 類國籍護照之基本資料頁及相關防偽功能,不可在外貌年齡及語言看貣來相符,就漏 忘檢查細節資料。一般而言,查緝人員僅會先針對護照之真偽、基本資料頁查證。此