研究方法 - 多模車機整合技術暨先進安全駕駛輔助系統－子計畫五:車載即時交通資訊作業資料庫建立(3/3)

本研究主要是運用探針車輛實際地在研究路段上運行，並且利用GPS及GPRS等技術將其行駛的時空資料回傳至監控中心，後續則透過許多不同的工具及處理手法進行資料的處理與分析。為此，本研究先行在前三章確定研究問題並敘述研究目的，接著回顧相關的研究文獻；在文獻的探討中，可知許多的研究多以模擬程式產生所需之交通資料，或使用少許的真實資料進行模擬預測；在少許的真實資料方面，研究者多使用人工記錄方式或者自行開車測試而獲得驗證所需之資料。然而在本研究中，則完全採取由探針車所紀錄之真實資料，藉由大量的歷史資料，其所能夠解讀之資訊，相信並不是少許資料或以人工記錄方式所獲得之資料可以比擬的。

本研究已規劃一套適用的資料處理流程(如圖4.1)，主要包含最初的資料轉換、整併、設計VB程式語言、定義研究時間及範圍、切割路段及定義停等範圍、空間分析以及使用統計分析等，除將資料建構成一個資訊庫外，並利用該資訊庫推估道路服務水準、預測路段旅行時間以及推估公車到站時間等。以下詳敘本研究中所使用之研究方法及資料處理之流程。

圖 4.1 資料處理流程圖

1.資料探勘方法

Han & Kamber 指出現今決策樹的演算法大致有 C5.0、CART、CHAID 與 QUEST 這四種演算法。CHAID 演算法的目的主要是在每次分割時利用卡方檢定（chi-square test）

來計算節點中類別的 p-value，以 p-value 大小來決定決策樹是否繼續生長，所以不需要再做修剪樹的動作，CHAID 的一個問題是它無法處理連續型資料，在本研究的資料庫中存在著許多連續型數值的資料，所以並不適用在我們的研究中。CART（Classification and Regression Trees ）演算法是一個二元（binary）分割的方法，應用於資料屬性為連續型的資料型態，每次分割將資料分為兩個子集合，以 gini index 評估資料的分散程度，

作為選擇分割條件的依據。本研究採用以亂度(Entropy)為基礎之決策樹，為 Quinlan 所開發的決策樹演算法 ID3(Iterative Dichotomiser 3, C5.0/C4.5 的前身)。C4.5 是 Quinlan 改善他自己所發展出來的 ID3 演算法，C4.5 與 ID3 最大的不同就是 C4.5 改進了 ID3 不能處理連續型數值的問題，所以 C4.5 可以算是 ID3 的後續版本。他以資訊增益 (Information Gains)作為分岔準則，但是發現應用在實際案例上時，資訊增益會偏好選擇選項數較多的變數作為多，且容易造成過度學習的效應。為了改善這項系統偏誤，Quinlan 重新定義出「增益比值(Gain Ratio)」的計算公式來取代原有的分岔準則，但無論是哪個版本，最根本的內容還是透過所謂亂度(Entropy)的概念作為決策樹的分岔準則。以下便

分的子集個數， b 代表屬性_i C中類別B被劃分的子集個數，所以根據由C劃分成子集

（split information），如下式所述：

Gain ratio=

)

Gain (15)

) C4.5 在處理連續型數值時，會先將數值排序，在依次地計算各別的獲利比（Gain ratio），挑選最大的獲利比為數值的分割點。 tree-based regression, HTBR），其分析因素為對市區道路幾何特徵、事故率和其它影響事故率之因素，道路資料庫包含道路路段、交通量、幾何特性等，事故資料庫包含地區、

事故型態等，結果顯示，以多車道的模式來看，在迴歸樹分析所得的重要變數中在兩車道和多車道，次等重要的為道路服務水準，摩擦力（每小時 40 英里數以標準輪胎行駛於濕潤舖面之行駛狀況）、和舖面型態這些兩個變數是有關於道路舖面的條件因素。

此外，近年來新發展的歸納學習法，大多改良自 C5.0/ C4.5 之學習方式或與其比較學習效能，因此，它幾乎已變成目前歸納學習法中的標準學習法。由於本研究考慮到處理多元屬性值的資料，採用 SQL Server 2005 之中決策樹演算法，而特別的是 SQL Server 2005 將決策樹與迴歸整合為迴歸樹演算法，透過決策樹先產生樹狀規則分岔，而分岔準則的目標是要使得分岔後樣本的連續數值變異數降低，接下來再處理過的樹狀分岔樣本中，會各自產生一條線性方程式。

2.資料前置處理方法

以數位式行車記錄器為例，由於數位式行車記錄器所紀錄之歷史資料筆數太過於龐大，

故本研究針對於此，發展出一套適用於此方面研究之資料處理流程方法。

（1）轉換資料：由於數位式行車紀錄器之資料，是以 SOR 的檔案格式所儲存，此種檔案格式較為少見，故須透過 HAS－101 數位式行車紀錄器所設計之解碼程式，將原本 SOR 的檔案格式轉換成 TXT 純文字檔的格式。HAS－101 之解碼程式係一種檔案轉換程式，為捷世林公司專為 HAS－101 數位式行車紀錄器所設計之解碼程式，主要是將原來的資料格式轉換可以適用於一般大眾分析之用的格式。

圖 4.2 HAS101 之解碼程式

（2）合併檔案：由於數位式行車紀錄器之資料記錄方式，為每台數位式行車紀錄器自行作每天之記錄，故每天都有多個檔案，為了利於我們處理資料分析，故需要透

過 AeroMerge 1.0 將多個檔案合併成一個檔案。AeroMerge 1.0 係一種可將多各 TXT 文字檔合併成一各 TXT 文字檔的工具。

圖 4.3 AeroMerge 1.0 合併程式

（3）撰寫 Visual Basic 程式語言：因為數位行車記錄器是每零點五秒產生一筆資料並傳至資料庫，如此會造成資料處理上一種極大的負擔，所以本研究利用透過 Visual Basic 的程式語言去找出每六秒為一筆的資料，來當本研究之研究樣本。Visual Basic 係以 BASIC 程式語言為基礎，發展成數百個敘述、函數、及關鍵字的 Windows 應用程式發展工具。Visual Basic 可設計出任何其它 Windows 程式語言所能做到的功能，即使是初學者也可以很輕易建立實用的應用程式。

圖 4.4 Visual Basic 程式語言

（4）建立完整路段資訊庫：將利用匯入的方式將資料表轉進 ACCESS，以構建完整資訊庫。ACCESS 係一種資料庫，可以將整理好的資料，放入 ACCESS 裡作成資料庫，當要查詢、增加、刪除及修改資料時，只要輸入指令即可連結 ACCESS 執行功能。

圖 4.5 建立完整資料庫圖

（5）資料庫匯出，轉成 DBF 檔格式：為便利於地理資訊系統軟體之讀取，故須先將資料匯出並轉成 DBF 檔案格式，以利於地理資訊軟體讀取。地理資訊軟體係結合地

理、資訊及系統而成。一套完整的地理資訊系統，可以儲存極為龐大的空間資訊，

能迅速呈現出一幅相關地區的電子地圖，並且能根據使用者需要，提供各種空間資訊，讓使用者在電腦螢幕上操作、疊合、重組或抽離，並具有結合地圖處理、

資料庫與空間分析三項功能。

圖 4.6 匯出轉成 DBF 檔格式

（6）環域分析（Buffer Analysis）：本研究使用之地理資訊系統（Geographic Information System, GIS）軟體為 Arcview，其系統具有資料數化、儲存、連結、圖層套疊、

整合分析及展示查詢等功能。為了正確找出本研究之研究範圍資料，故使用地理資訊系統軟體 Arcview，並將資料數化、儲存、圖層套疊等，繼而利用環域分析工具，將空間資料清楚劃分出來。環域分析係指當要表示某一地理現象時，想顯現出該種地理現象的影響範圍，而此種以中軸線為基礎，然後向中軸線兩側一定範圍內標示出此種地理資料的影響範圍稱為環域分析。GIS 就是整合各個研究領域的專家，將地球表面上及表面下所有的資訊分別以一張一張的圖層儲存，例如土壤圖、街道圖、地質圖、人口分佈圖等等，資料彙整後，配合 GIS 專業軟體進行圖層的編輯、屬性資料庫管理、查詢、分析、展示、製圖等工作，並將資料處理及分析後的結果，提供給相關領域的專家或決策者，做為分析規劃或策略制定時的重要參考依據。

圖 4.7 環域分析

（7）資料轉換：由於從 Arcview 之環域分析得到研究範圍之資料為 DBF 格式，故需將資料轉成文字檔格式或 Excel 可讀取之格式，以利建構成高速公路之資料庫

（8）剔除異常值和極端值：由於全球衛星定位系統（Global positioning system, GPS）

是具有誤差的，故在利用 Arcview 選取研究範圍所需之資料時，有一些偏離之值會被涵蓋進來，此時須將其剔除。

（9）判別南北向：本研究之大量歷史資料皆具有連續性，其紀錄每台車每天完整之行駛路線及旅行時間，故其資料具有南下跟北上之資料，為了清楚區分南下跟北上之旅行時間，本研究自訂一套標準。

圖 4.8 區分南北向圖

（10）區分時段：本研究依照交通部運研所高速公路路段速率推估之研究，並透過樞紐分析之工具，將每天分為 00-07、07-09、09-11、11-15、15-17、17-19、19-24 等不同時段。

（11）旅行時間之計算：本研究後續之迴歸樹分析，將建構出預測旅行時間之模式，並在第五章中將驗證預測旅行時間模式之準確性，故本研究透過統計方法，將計算旅行時間，並將其以秒數呈現。

（12）建構高速公路路段資訊庫：進行完上述之步驟後，可將處理完之資料表匯入結構化查詢語言（Structured Query Language, SQL）資料庫，建構符合本研究之空間及時間之資訊庫，以提供後續資料查詢、增加、刪除、修改及資料探勘分析之用。

SQL 係由 IBM 公司於 1970 年代所發展出來，用於關連式資料庫 (Relational Databases) 當中的一種資料庫查詢語言，利用 SQL 可以用來定義資料庫結構、

指定資料庫表格與欄位型態與長度、新增資料、修改資料、刪除資料、查詢資料，

以及建立各重複雜的表格關連，成為一個查詢資料庫的標準語言。

在文檔中多模車機整合技術暨先進安全駕駛輔助系統－子計畫五:車載即時交通資訊作業資料庫建立(3/3) (頁 37-47)