• 沒有找到結果。

資料轉換及前處理過程

在文檔中 中 華 大 學 (頁 45-52)

第三章 公車乘客起迄需求之推估

3.5 資料轉換及前處理過程

圖3.6 公車到站時間遺漏值

一、資料內容不正確:

雖然資料欄位有紀錄乘客刷卡方式(上車刷卡或是下車刷卡),不過由 於司機疏忽及乘客行為難以規範,因此,該欄位所紀錄之刷卡方式不正確,

這將造成日後推估乘客需求起迄點時,較難用程式判斷。

二、系統訊號受干擾:

衛星定位系統之收發訊號,會受到天氣及其他因素干擾。

三、系統未整合連線:

目前衛星定位系統尚未與刷卡系統整合,只紀錄公車位置及時間,和 乘客刷卡時間,無法直接得知乘客刷卡地點。

上列因素會影響到資料分析的結果,因此本研究必須對資料內容進行簡化 及轉換,流程圖及內容說明如下(圖 3.7):

一、取得802 路線乘客交易資料

首都客運提供94 年 10 月份整月份原始乘客交易資料。

二、資料轉換過程

把連續型刷卡記錄轉換成離散型資料,變成易判讀、統計的資料格式,

可以縮小資料檔案的空間及大小。

三、資料前處理過程

在此步驟可新增欄位,使資料庫內容更趨完整,增加往後在資料探勘 時的資訊豐富性。

圖3.7 資料前處理及轉換流程

資料轉換通常是把資料內容做簡化的動作,使得資料能用簡單明瞭的方式呈 現,為使之後在推估乘客起迄點位置時,有較多資訊可供判讀參考,所以在乘 客交易資料記錄裡,有二個項目需要做前處理的動作,即刷卡時間的離散化以 及判別有無轉乘旅次,詳述如下:

一、刷卡時間的離散化:

原始資料的刷卡時間為連續型數據,這樣過於細微的記錄型態,會造 成日後了解乘客尖離峰分佈及判讀乘客搭乘時段的困難,因此本研究每15 分鐘當成一個區段,ㄧ天 24 小時,共切割成 96 個時間區塊,再把每筆刷 卡時間歸類到其中,可讓我們清楚知道各時段的刷卡人數分佈,詳細切割 時間於表3.8。

二、分辨有無轉乘轉次:

若乘客搭乘範圍為一段票,且為下車刷卡,可從判讀乘客是否有轉乘 旅次,瞭解乘客起點是否從新埔捷運站,可增加判讀資訊,因此,本研究 從個人優惠欄位裡的優惠金額來判讀乘客是否有轉乘旅次。若有優惠金額 出現,則代表該位乘客有轉乘旅次並以1 表示之,反之若該欄位為 0,表示 該位乘客無轉乘旅次則用0 表示之。

表3.8 刷卡時段分割方式

刷卡時段 時段 刷卡時段 時段 刷卡時段 時段 1 05:01 ~ 05:15 33 13:01 ~ 13:15 65 21:01 ~ 21:15 2 05:16 ~ 05:30 34 13:16 ~ 13:30 66 21:16 ~ 21:30 3 05:31 ~ 05:45 35 13:31 ~ 13:45 67 21:31 ~ 21:45 4 05:46 ~ 06:00 36 13:46 ~ 14:00 68 21:46 ~ 22:00 5 06:01 ~ 06:15 37 14:01 ~ 14:15 69 22:01 ~ 22:15 6 06:16 ~ 06:30 38 14:16 ~ 14:30 70 22:16 ~ 22:30 7 06:31 ~ 06:45 39 14:31 ~ 14:45 71 22:31 ~ 22:45 8 06:46 ~ 07:00 40 14:46 ~ 15:00 72 22:46 ~ 23:00 9 07:01 ~ 07:15 41 15:01 ~ 15:15 73 23:01 ~ 23:15 10 07:16 ~ 07:30 42 15:16 ~ 15:30 74 23:16 ~ 23:30 11 07:31 ~ 07:45 43 15:31 ~ 15:45 75 23:31 ~ 23:45 12 07:46 ~ 08:00 44 15:46 ~ 16:00 76 23:46 ~ 24:00 13 08:01 ~ 08:15 45 16:01 ~ 16:15 77 00:01 ~ 00:15 14 08:16 ~ 08:30 46 16:16 ~ 16:30 78 00:16 ~ 00:30 15 08:31 ~ 08:45 47 16:31 ~ 16:45 79 00:31 ~ 00:45 16 08:46 ~ 09:00 48 16:46 ~ 17:00 80 00:46 ~ 01:00 17 09:01 ~ 09:15 49 17:01 ~ 17:15 81 01:01 ~ 01:15 18 09:16 ~ 09:30 50 17:16 ~ 17:30 82 01:16 ~ 01:30 19 09:31 ~ 09:45 51 17:31 ~ 17:45 83 01:31 ~ 01:45 20 09:46 ~ 10:00 52 17:46 ~ 18:00 84 01:46 ~ 02:00 21 10:01 ~ 10:15 53 18:01 ~ 18:15 85 02:01 ~ 02:15 22 10:16 ~ 10:30 54 18:16 ~ 18:30 86 02:16 ~ 02:30 23 10:31 ~ 10:45 55 18:31 ~ 18:45 87 02:31 ~ 02:45 24 10:46 ~ 11:00 56 18:46 ~ 19:00 88 02:46 ~ 03:00 25 11:01 ~ 11:15 57 19:01 ~ 19:15 89 03:01 ~ 03:15 26 11:16 ~ 11:30 58 19:16 ~ 19:30 90 03:16 ~ 03:30 27 11:31 ~ 11:45 59 19:31 ~ 19:45 91 03:31 ~ 03:45 28 11:46 ~ 12:00 60 19:46 ~ 20:00 92 03:46 ~ 04:00 29 12:01 ~ 12:15 61 20:01 ~ 20:15 93 04:01 ~ 04:15 30 12:16 ~ 12:30 62 20:16 ~ 20:30 94 04:16 ~ 04:30 31 12:31 ~ 12:45 63 20:31 ~ 20:45 95 04:31 ~ 04:45 32 12:46 ~ 13:00 64 20:46 ~ 21:00 96 04:46 ~ 05:00

資料前處理通常是把資料內容完整化的過程,由於所擷取的原始資料僅 5 個欄位,因此在這個部份需要新增欄位,使資料庫完整及健全。而增加的欄位 為:由刷卡時間引申之營運日、星期別、平假日別,以及乘客刷卡站別等。詳 述如下:

一、營運日:

為使資料庫便於查詢,由刷卡時間新增營運日一欄位。

二、星期別:

依據營運日期當天為星期幾填入星期別,爾後在推估乘客起迄點需求 時,可從星期別間之差異行為判讀。

三、刷卡站別:

運用衛星定位系統所紀錄之公車位置及時間,與乘客刷卡時間做一比 對,可得出乘客刷卡位置,802 公車路線站牌代碼如表 3.9 所示,其比對方 法及概念如圖3.8 及 3.9。

圖3.9 係以下車刷卡為例,公車於第一站離站時間為 08:00:10,於第二站離 站時間08:05:20,於第三站離站時間 08:10:30,以此類推。若今天有位乘客其刷 卡時間為08:08:50,其刷卡時間已超過第二站離站時間的 08:05:20,但未超過第 三站離站時間08:10:30,因此推導出該位乘客其刷卡地點應於第三站。

表3.9 802 站牌代碼

去程 回程 去程 回程

編號 站牌 編號 站牌 編號 站牌 編號 站牌

1 三峽站 116 三峽站 28 樹林火車站 85 樹林火車站 115 三峽國小 29 中山路口 84 中山路口 114 文化路 30 濟安宮 83 濟安宮 2 新興街口 113 新興街口 31 圳安里 82 十三宮 3 民生街口 112 民生街口 32 圳福里 81 圳福里 4 三峽 111 三峽 33 許厝 80 許厝 5 教育研究院 110 教育研究院 34 大唐江山 79 大唐江山 6 龍埔 109 龍埔 35 台灣通用 78 台灣通用 7 姑娘廟 108 姑娘廟 36 光華街口 77 光華街口 8 三樹路 107 三樹路 37 新寶社區 76 新寶社區 9 農業改良所 106 南龍橋 38 光明里 75 光明里 10 南園 105 南園 39 光華國小 74 光華國小

104 南園里 40 福祿新城(一) 73 福祿新城(一) 11 公厝仔 103 公厝仔 41 福祿新城(二) 72 福祿新城(二) 12 十八間 102 十八間 42 民安路橋 71 民安路橋 13 柑園 101 柑園 43 民安路 70 民安路 14 北柑園 100 北柑園 44 福營國中 69 福營國中 15 北園 99 北園 45 富國社區 68 富國社區 16 柑園橋 98 柑園橋 46 丹鳳 67 丹鳳一 17 育德 97 育德 47 三洋 66 丹鳳二 18 山佳 96 山佳 48 營盤口 65 營盤口 19 中州街口 95 中州街口 49 輔仁大學 64 輔仁大學

94 吉祥寺 50 盲人重建院 63 盲人重建院 20 山佳國小 93 山佳國小 51 海山里 62 海山里 21 東山 92 東山 52 新泰路口 61 新泰路口 22 電光公司 91 電光公司 53 新莊 60 新莊 23 國光 90 國光 54 新莊國小 24 樹林市衛生所 89 樹林市衛生所 55 大眾廟 59 大眾廟 25 海明寺 88 海明寺 56 捷運新埔站 58 捷運新埔站 26 樹西 87 樹西 57 板橋花市

27 育英街口 86 育英街口

圖3.8 乘客刷卡站位推導圖

圖3.9 乘客刷卡站位示意圖

衛星定位系統

紀錄公車所在位置及經過時間

悠遊卡系統

紀錄乘客刷卡時間

乘客刷卡 站別資料庫 比對兩者時間

第二站

各站離站時間 乘客刷卡時間

第二站 08:05:20

第三站 08:10:30

第四站 08:15:40

第五站 08:20:50 第一站

08:00:10 08:05:20 08:10:30

08:15:40 08:20:50

第三站

第四站

第五站

:屬於第n 站 刷卡之乘客

在文檔中 中 華 大 學 (頁 45-52)