資料前置處理

第四章公共建設計畫績效評估指標及預測模型分析

4.1 資料前置處理

本研究所蒐集的原始資料（raw data）經過初步的檢視，發現有不完整、

遺失、不乾淨…等問題，甚至有些還無法理解，這是因為資料的蒐集分別來自三個不同的管理系統，雖然每個系統的資料都經過整理，然而不同來源的資料，會因格式不同、資料重複或未經整合而無法使用。

對於來自不同管理系統所蒐集的原始資料，需依據分析技術或方法的需求

，花費大量的準備工作與規劃時間作適當的處置，包含資料的淨化與格式轉換

，甚至表格的連結等，而此一程序稱為資料的前置處理，處理步驟如圖4-1。

圖4-1 資料前置處理步驟

資料需求

原始資料資料

選擇資料清除

資料整合

資料轉換或編碼

其他資料

產生報表

根據資訊作必要的

4.1.1 資料蒐集（Data Collection）

在第二章，有關績效評估系統的回顧文獻資料中，可發現專案計畫的績效評估，大部分都需等到工程執行完成後或年度結束時才能進行探討或分析。本研究期望有別於一般公共工程績效評估系統的運用模式，希望當一個專案計畫形成時或年度開始時，我們即可從它的基本資料中得到一些訊息，並用以評估計畫之績效。因此，有關在分析資料的蒐集上，係以專案計畫開始執行階段或者計畫所屬之工程標案發包完成階段即可獲得的資料，而不需等到計畫結束後 才可以得到。

4.1.2 資料需求（Data Requirements）

資料前置處理的第一個步驟，乃是依據研究的目的及需求選擇適當的資料

，因此確定資料的內容是否足夠是很重要的，包括「資料項目」及「資料數量

」。

「資料項目」係指計畫基本屬性資料的項目，如果計畫的說明資料項目不足，於資料勘探分析階段，將無法從這些說明資料中，採擷到隱藏其中的的潛在訊息；也可能無法找與績效指標之間的關聯性，而影響後續分析的結果。

「資料數量」則指分析時所用計畫的筆數，計畫數量太多，會增加計算的手續；而計畫數量不足時，則所分析出的結果將不具代表性，本研究所蒐集之計畫原始件數為238 件。

所蒐集的資料如果不足時，除可再繼續進行其他資料的蒐集外，亦可利用現有的資料，將其轉換成多樣性的分析資料。當然蒐集的資料項目及數量確定足夠之後，還要確認這些資料是否符合需求，才可作為分析之用。

4.1.3 資料清除（Data Cleaning）

在建立績效評估指標及資料探勘建置預測模型等過程中，要遇到原始資料正好為分析所需，而收集的機會可說是微乎其微。由於這些資料是來自各個不同的管理系統所擷取出的，所以資料可能會包含一些會互相干擾分析結果的資料。為了預防資料分析後，所帶來資訊中斷或不明確的問題，除了需將不齊全

、遺失、不乾淨的資料予以刪除外，亦必須依照這些資料所造成的干擾情況以不同的方式先進行清理的工作，以便得到較精確的分析結果。

（一）遺漏或無效的資料

由於原始資料在蒐集時常會有漏填的項目或者是無效的資料，例如：遺失的數值（Missing Values）、雜訊資料（Noisy Data）以及不一致資料等。如果這些遺漏的資料數量不多，在分析過程中尚可接受；但是如果遺漏的資料數量太多時，則需作些適當的處置。

1、針對數量大的遺漏資料，我們所採取遺漏資料的轉換方法就是「數值替換」，也就是將遺漏的以平均數、中位數或眾數予以取代。

2、所謂無效的資料係指差異過大或過小或雜訊的數值資料。因為資料如果太大或太小或獨特將會使整體資料呈現太離散的情形，無法呈現資料正真的原貌，而影響分析的結果，所以在處理上有兩種方法。第一種稱為資料平滑化（Data Smoothing），就是將資料的雜訊去除；另一種稱為資料正規化（Data Normalization），仍是依據特定的範圍將屬性資料做刪減。

鑑於本研究所分析的每個專案計畫是獨立的，之間並沒有明確的關聯性。

所以在處理遺漏或無效的資料方法上，乃是採取刪除的方法，經刪除遺漏或無效的資料後，最後投入分析的有效樣本資料共有171 筆。

（二）分類階層

資料要採用何種分類階層，取決於分析目的為何。一般來說，原始資料越詳盡，由不同分類階層中所獲得的情報越豐富，然而，這並不代表越詳盡的資料就一定越好。例如，資料中有些很詳盡的部分可能根本不是所需的；或者在最詳盡的分類階層下，符合的資料數量根本不夠。因此，透過資料分類階層的應用可以將分類較多或較複雜的資料，簡化為適當分類且單純的資料。

簡化資料的方法為歸納資料（Generalization Data），乃是將低階層之原始資料以較高階的觀點重新定位。例如，本研究所蒐集資料中包含計畫之主管機關及主辦機關，若純粹探討績效與管理單位的關係可能以主辦機關作為分析的變數，其說明能力較高。惟若以主辦機關當作說明變數，則分類後將有高達約四十種分群，如此細微的分類可能會造成分析結果無法收歛或無結果。因此最後係以主管機關來說明管理的單位，如此高階化後，分類的群組則僅有八個。

4.1.4 資料整合（Data Integration）

在資料處理過程中，除了不同來源、不同型態的資料需要予以彙整外，對於我們想要得到的資訊，而無法從單一類的原始資料中分析，需要加入其它資訊，綜合整理才可能得到我們想要資訊，此步驟稱為資料整合。

（一）不一致的資料格式

當我們從不同來源蒐集特定目的的原始資料時，相同的資料往往會以不同的格式被記錄下來，如果我們沒事先察覺這些問題，那麼它們就很可能會成為錯誤的判斷基礎。所以為了資料的統一，我們需要將不同單位的連續資料採用一致的表達方式，如此原始的資料將會以相同的格式被分析。

（二）資料的聚集

礙於資料來源的不足，所以在資料處理過程中，我們利用原始資料，將多

種資料彙整在一起，以產生新的「資料項目」，提供資料多樣化的使用，這個方法稱為資料聚集（Data Aggregation）。例如，本研究所蒐集計畫相關經費資料有計畫總經費、年度經費、標案經費…等。如果我們想資料本年度可用經費與計畫全部經費之間的關係，則可透過計算方式，將年度經費除以計畫總經費，得到計畫預算比；如果我們想知道本年度預計執行之重大工程標案佔年度經費的比例，則可將標案經費除以年度經費，而得到標案預算比。其他資料項目的聚集尚有發包金額與標案預算組成的發包折數及其變異係數等。

4.1.5 資料轉換或編碼（Data Transaction or Coding）

本研究所蒐集的原始資料，文字形態佔大部分，而文字資料屬於類別的資料，在處理上比較複雜。雖然我們希望能夠從文字資料中得到需要的情報，然而，在許多情況下，我們需要將它們記錄成其他比較適合分析的格式才可以使用。

在分析時，如果類別資料的格式都能夠保持一致，那麼我們可以比較放心的運用它們。然而，本研究所蒐集的類別資料中，有些資料需要經過轉換才具有意義。例如，有關計畫執行時間資料的蒐集，乃是以民國幾年至幾年的方式表達，以此種型態之表達方式，分析的軟體無法分辯其意義，所以將這項資料轉換成計畫年限之數值資料及計畫階段之類別資料，如圖 4-2 所示；另外，有關執行地點的資料因為過於分散且複雜，所以我們將執行地點劃分為北、中、

南、東部、外島…等 8 個地區。

另外，開始進行資料分析之前，往往必須將原始資料彙整、轉換成適合分析所需格式，而如何轉換，取決於使用的技術和應用軟體，有些軟體需要將連續值轉換成類別資料或某種範圍；有些則需要將數據轉換成 0 到 1 之間的虛擬變數（Dummy）。

圖4-2 資料轉換示意圖

上述的類別資料如果格式不一樣時，則可以用編碼方式，將所有的合法敘述都列成表，然後根據資料的差異，修改或增加相同的敘述。所以本研究對於類別資料的處理方式都是先將它的表達格式一致化後，再進行編碼，以利後續分析之用。

計畫執行時間（文字資料）

民國81 年 1 月至 92 年 12 月

計畫年限（數值資料）

12 年

計畫階段（類別資料）

未期（以91 年度為計算基準）

在文檔中資料探勘與管制圖技術於公共建設計畫績效評估與預測之研究(II) (頁 60-66)

第四章 公共建設計畫績效評估指標及預測模型分析

4.1 資料前置處理

第四章公共建設計畫績效評估指標及預測模型分析