• 沒有找到結果。

本研究主要是運用探針車輛實際地在研究路段上運行,並且利用GPS及GPRS等技 術將其行駛的時空資料回傳至監控中心,後續則透過許多不同的工具及處理手法進行資 料的處理與分析。為此,本研究先行在前三章確定研究問題並敘述研究目的,接著回顧 相關的研究文獻;在文獻的探討中,可知許多的研究多以模擬程式產生所需之交通資 料,或使用少許的真實資料進行模擬預測;在少許的真實資料方面,研究者多使用人工 記錄方式或者自行開車測試而獲得驗證所需之資料。然而在本研究中,則完全採取由探 針車所紀錄之真實資料,藉由大量的歷史資料,其所能夠解讀之資訊,相信並不是少許 資料或以人工記錄方式所獲得之資料可以比擬的。

本研究已規劃一套適用的資料處理流程(如圖4.1),主要包含最初的資料轉換、整 併、設計VB程式語言、定義研究時間及範圍、切割路段及定義停等範圍、空間分析以 及使用統計分析等,除將資料建構成一個資訊庫外,並利用該資訊庫推估道路服務水 準、預測路段旅行時間以及推估公車到站時間等。以下詳敘本研究中所使用之研究方法 及資料處理之流程。

圖 4.1 資料處理流程圖

1.資料探勘方法

Han & Kamber 指出現今決策樹的演算法大致有 C5.0、CART、CHAID 與 QUEST 這 四種演算法。CHAID 演算法的目的主要是在每次分割時利用卡方檢定(chi-square test)

來計算節點中類別的 p-value,以 p-value 大小來決定決策樹是否繼續生長,所以不需要 再做修剪樹的動作,CHAID 的一個問題是它無法處理連續型資料,在本研究的資料庫 中存在著許多連續型數值的資料,所以並不適用在我們的研究中。CART(Classification and Regression Trees )演算法是一個二元(binary)分割的方法,應用於資料屬性為連 續型的資料型態,每次分割將資料分為兩個子集合,以 gini index 評估資料的分散程度,

作為選擇分割條件的依據。本研究採用以亂度(Entropy)為基礎之決策樹,為 Quinlan 所 開發的決策樹演算法 ID3(Iterative Dichotomiser 3, C5.0/C4.5 的前身)。C4.5 是 Quinlan 改善他自己所發展出來的 ID3 演算法,C4.5 與 ID3 最大的不同就是 C4.5 改進了 ID3 不 能處理連續型數值的問題,所以 C4.5 可以算是 ID3 的後續版本。他以資訊增益 (Information Gains)作為分岔準則,但是發現應用在實際案例上時,資訊增益會偏好選擇 選項數較多的變數作為多,且容易造成過度學習的效應。為了改善這項系統偏誤,Quinlan 重新定義出「增益比值(Gain Ratio)」的計算公式來取代原有的分岔準則,但無論是哪個 版本,最根本的內容還是透過所謂亂度(Entropy)的概念作為決策樹的分岔準則。以下便

分的子集個數, b 代表屬性i C中類別B被劃分的子集個數,所以根據由C劃分成子集

(split information),如下式所述:

Gain ratio=

)

Gain (15)

) C4.5 在處理連續型數值時,會先將數值排序,在依次地計算各別的獲利比(Gain ratio), 挑選最大的獲利比為數值的分割點。 tree-based regression, HTBR),其分析因素為對市區道路幾何特徵、事故率和其它影響事 故率之因素,道路資料庫包含道路路段、交通量、幾何特性等,事故資料庫包含地區、

事故型態等,結果顯示,以多車道的模式來看,在迴歸樹分析所得的重要變數中在兩車 道和多車道,次等重要的為道路服務水準,摩擦力(每小時 40 英里數以標準輪胎行駛 於濕潤舖面之行駛狀況)、和舖面型態這些兩個變數是有關於道路舖面的條件因素。

此外,近年來新發展的歸納學習法,大多改良自 C5.0/ C4.5 之學習方式或與其比較 學習效能,因此,它幾乎已變成目前歸納學習法中的標準學習法。由於本研究考慮到處 理多元屬性值的資料,採用 SQL Server 2005 之中決策樹演算法,而特別的是 SQL Server 2005 將決策樹與迴歸整合為迴歸樹演算法,透過決策樹先產生樹狀規則分岔,而分岔準 則的目標是要使得分岔後樣本的連續數值變異數降低,接下來再處理過的樹狀分岔樣本 中,會各自產生一條線性方程式。

2.資料前置處理方法

以數位式行車記錄器為例,由於數位式行車記錄器所紀錄之歷史資料筆數太過於龐大,

故本研究針對於此,發展出一套適用於此方面研究之資料處理流程方法。

(1)轉換資料:由於數位式行車紀錄器之資料,是以 SOR 的檔案格式所儲存,此種檔 案格式較為少見,故須透過 HAS-101 數位式行車紀錄器所設計之解碼程式,將 原本 SOR 的檔案格式轉換成 TXT 純文字檔的格式。HAS-101 之解碼程式係一種 檔案轉換程式,為捷世林公司專為 HAS-101 數位式行車紀錄器所設計之解碼程 式,主要是將原來的資料格式轉換可以適用於一般大眾分析之用的格式。

圖 4.2 HAS101 之解碼程式

(2)合併檔案:由於數位式行車紀錄器之資料記錄方式,為每台數位式行車紀錄器自 行作每天之記錄,故每天都有多個檔案,為了利於我們處理資料分析,故需要透

過 AeroMerge 1.0 將多個檔案合併成一個檔案。AeroMerge 1.0 係一種可將多各 TXT 文字檔合併成一各 TXT 文字檔的工具。

圖 4.3 AeroMerge 1.0 合併程式

(3)撰寫 Visual Basic 程式語言:因為數位行車記錄器是每零點五秒產生一筆資料並傳 至資料庫,如此會造成資料處理上一種極大的負擔,所以本研究利用透過 Visual Basic 的程式語言去找出每六秒為一筆的資料,來當本研究之研究樣本。Visual Basic 係以 BASIC 程式語言為基礎,發展成數百個敘述、函數、及關鍵字的 Windows 應用程式發展工具。Visual Basic 可設計出任何其它 Windows 程式語言所能做到的 功能,即使是初學者也可以很輕易建立實用的應用程式。

圖 4.4 Visual Basic 程式語言

(4)建立完整路段資訊庫:將利用匯入的方式將資料表轉進 ACCESS,以構建完整資 訊庫。ACCESS 係一種資料庫,可以將整理好的資料,放入 ACCESS 裡作成資料 庫,當要查詢、增加、刪除及修改資料時,只要輸入指令即可連結 ACCESS 執行 功能。

圖 4.5 建立完整資料庫圖

(5)資料庫匯出,轉成 DBF 檔格式:為便利於地理資訊系統軟體之讀取,故須先將資 料匯出並轉成 DBF 檔案格式,以利於地理資訊軟體讀取。地理資訊軟體係結合地

理、資訊及系統而成。一套完整的地理資訊系統,可以儲存極為龐大的空間資訊,

能迅速呈現出一幅相關地區的電子地圖,並且能根據使用者需要,提供各種空間 資訊,讓使用者在電腦螢幕上操作、疊合、重組或抽離,並具有結合地圖處理、

資料庫與空間分析三項功能。

圖 4.6 匯出轉成 DBF 檔格式

(6)環域分析(Buffer Analysis):本研究使用之地理資訊系統(Geographic Information System, GIS)軟體為 Arcview,其系統具有資料數化、儲存、連結、圖層套疊、

整合分析及展示查詢等功能。為了正確找出本研究之研究範圍資料,故使用地理 資訊系統軟體 Arcview,並將資料數化、儲存、圖層套疊等,繼而利用環域分析工 具,將空間資料清楚劃分出來。環域分析係指當要表示某一地理現象時,想顯現 出該種地理現象的影響範圍,而此種以中軸線為基礎,然後向中軸線兩側一定範 圍內標示出此種地理資料的影響範圍稱為環域分析。GIS 就是整合各個研究領域 的專家,將地球表面上及表面下所有的資訊分別以一張一張的圖層儲存,例如土 壤圖、街道圖、地質圖、人口分佈圖等等,資料彙整後,配合 GIS 專業軟體進行 圖層的編輯、屬性資料庫管理、查詢、分析、展示、製圖等工作,並將資料處理 及分析後的結果,提供給相關領域的專家或決策者,做為分析規劃或策略制定時 的重要參考依據。

圖 4.7 環域分析

(7)資料轉換:由於從 Arcview 之環域分析得到研究範圍之資料為 DBF 格式,故需將 資料轉成文字檔格式或 Excel 可讀取之格式,以利建構成高速公路之資料庫

(8)剔除異常值和極端值:由於全球衛星定位系統(Global positioning system, GPS)

是具有誤差的,故在利用 Arcview 選取研究範圍所需之資料時,有一些偏離之值 會被涵蓋進來,此時須將其剔除。

(9)判別南北向:本研究之大量歷史資料皆具有連續性,其紀錄每台車每天完整之行 駛路線及旅行時間,故其資料具有南下跟北上之資料,為了清楚區分南下跟北上 之旅行時間,本研究自訂一套標準。

圖 4.8 區分南北向圖

(10)區分時段:本研究依照交通部運研所高速公路路段速率推估之研究,並透過樞紐 分析之工具,將每天分為 00-07、07-09、09-11、11-15、15-17、17-19、19-24 等 不同時段。

(11)旅行時間之計算:本研究後續之迴歸樹分析,將建構出預測旅行時間之模式,並 在第五章中將驗證預測旅行時間模式之準確性,故本研究透過統計方法,將計算 旅行時間,並將其以秒數呈現。

(12)建構高速公路路段資訊庫:進行完上述之步驟後,可將處理完之資料表匯入結構 化查詢語言(Structured Query Language, SQL)資料庫,建構符合本研究之空間 及時間之資訊庫,以提供後續資料查詢、增加、刪除、修改及資料探勘分析之用。

SQL 係由 IBM 公司於 1970 年代所發展出來,用於關連式資料庫 (Relational Databases) 當中的一種資料庫查詢語言,利用 SQL 可以用來定義資料庫結構、

指定資料庫表格與欄位型態與長度、新增資料、修改資料、刪除資料、查詢資料,

以及建立各重複雜的表格關連,成為一個查詢資料庫的標準語言。

相關文件