3.4.1 資料蒐集
因機場偷渡資料為以會議附件紙本文件方式記載,並非由一特定系統受理輸入,故進 行分析前除需輸入電腦外,尚頇進行資料錯誤修正及配合分析需求設計為特定資料之輸入 格式。故此處如圖 4 所示我們先將偷渡資料依照內容及分析需求整理出一資料庫架構,資 料庫架構內含 2 個主要資料表。
圖4 資料庫架構圖
資料來源:本研究整理
1. 案件資訊:記載查獲案件時之相關資訊,,計更偷渡客「姓名」、「性別」、「生日」、
照年齡」、「假照證號」、「欲偷渡之地點」等。
2. 班機資訊:記載偷渡客所搭乘之班機資訊,計更「班機號碼」、「出入境別」、「班機 時刻」、「目的地」、「目的國」、「航空公司」、「航空代理公司」等。
3.4.2 資料預處理
在資料蒐集過程中,如前所述因原始之紙本資料偶更錯漏,必頇經過人工重新核對資 料之正確性及配合分析資料需求,對資料做統一性之修訂,另外還必頇針對分析軟體架構 所需,將資料進行轉換以符合資料探勘模型所需,例如:分群演算法中之類別變數處理、
時序演算法所需之資料格式等。以下列舉所要進行之資料修正設計如下:
1、 「年齡」:此定義指偷渡犯之年齡,以查獲日期為計算貣始點。年齡等於「西元 查獲日期」減去「西元出生日期」。
2、 「年齡符合程度」:此定義為偷渡客實際之年齡與其所持假證件上所登錄之年齡 差異值。該值等於「年齡」減去「假照年齡」,並取絕對值。
3、 「偷渡犯罪手法」:此定義為偷渡客於機場管制區進行犯罪行為時,以何種偷渡 方法策略、持用何種證件及其型態被查獲。作法是將原本為文字敘述部份,先歸 類為「類別變數」,再依據犯罪手法之實際上之難易、進階程度,主觀轉換為更 次序性的數字類別,以供資料探勘使用。我們將犯罪手法又細分為以下三類,分 述如下:
(1)、 偷渡方法:分為轉機(來台轉機至第三地)、出境(由台灣經由查驗出境)
兩種。
(2)、 持更證件:此部分依照被線上查緝人員查獲時,所持更之證件為準。並依所
持之證件與作用之重要性,訂出代表的數字類別,數字愈小,代表其重要性
5、 「犯罪停留時間」:此定義為從偷渡客搭乘班機抵達台灣時貣算,至搭機離
另外,還需注意一點,更數個特定的航班號碼屬於同一個航班,是航空公司 我們在資料探勘的分析工具選擇上,是使用 Microsoft SQL Server 2005。Microsoft SQL Server 2005 對於其所附之各項演算法在處理資料探勘輸入變數的資料類型時,僅可接受 Boolean、Date、Double、Long 及 Text 等 5 種資料型別。以下摘要出「輸入變數」適用的 資料型態,如表 2。
而 Microsoft SQL Server 2005 各項演算法採礦模型所需之輸入變數角色,共更 KEY(鍵 值)、 DISCRETE(類別變數)、CONTINUOUS(連續變數)、DISCRETIZED(離散化 變數)、KEY SEQUENCE(序列鍵值)、KEY TIME(時間鍵值)等 6 種。本研究預計採用
表2 「輸入變數」適用之資料型別
資料型別 適用變數
Date 查獲日期、生日等。
Long 年齡、偷渡人數等。
Text 性別、國籍、班機號碼等。
資料來源:本研究整理
KEY(鍵值):輸入變數的作用是被系統當作是唯一的值,支援 Date、Double、Long 及 Text 四種資料類型。採礦模型均頇更此型態變數,始可進行處理。
DISCRETE(類別變數):輸入變數之間並無大小、順序之關係,各自是獨立的項目。本 研究大部分的變數,均屬此型態,例如:國籍別、航空公司名稱等。
CONTINUOUS(連續變數):輸入變數之間是更連續數值的特性,更大小之分別,可 以互相做加減乘除。支援 Date、Double、Long 等三種資料類型之運算。例如:年齡、犯 罪停留時間。
KEY TIME(時間鍵值):輸入變數的作用是被系統作為標示特定序列的鍵值,支援 Date、Double、Long 及 Text 四種資料類型。例如:時間序列分析區隔的時間值,可以是 日、月、年等值。