第四章 公共建設計畫績效評估指標及預測模型分析
4.1 資料前置處理
本研究所蒐集的原始資料(raw data)經過初步的檢視,發現有不完整、
遺失、不乾淨…等問題,甚至有些還無法理解,這是因為資料的蒐集分別來自 三個不同的管理系統,雖然每個系統的資料都經過整理,然而不同來源的資 料,會因格式不同、資料重複或未經整合而無法使用。
對於來自不同管理系統所蒐集的原始資料,需依據分析技術或方法的需求
,花費大量的準備工作與規劃時間作適當的處置,包含資料的淨化與格式轉換
,甚至表格的連結等,而此一程序稱為資料的前置處理,處理步驟如圖 4-1。
資料 需求
原始 資料 選擇
資料 清除
資料 整合
資料轉換 或編碼
其他
產生 報表
根據 資訊 作必 要的
4.1.1 資料蒐集(Data Collection)
在第二章,有關績效評估系統的回顧文獻資料中,可發現專案計畫的績效 評估,大部分都需等到工程執行完成後或年度結束時才能進行探討或分析。本 研究期望有別於一般公共工程績效評估系統的運用模式,希望當一個專案計畫 形成時或年度開始時,我們即可從它的基本資料中得到一些訊息,並用以評估 計畫之績效。因此,有關在分析資料的蒐集上,係以專案計畫開始執行階段或 者計畫所屬之工程標案發包完成階段即可獲得的資料,而不需等到計畫結束後 才可以得到。
4.1.2 資料需求(Data Requirements)
資料前置處理的第一個步驟,乃是依據研究的目的及需求選擇適當的資料
,因此確定資料的內容是否足夠是很重要的,包括「資料項目」及「資料數量
」。
「資料項目」係指計畫基本屬性資料的項目,如果計畫的說明資料項目不 足,於資料勘探分析階段,將無法從這些說明資料中,採擷到隱藏其中的的潛 在訊息;也可能無法找與績效指標之間的關聯性,而影響後續分析的結果。
「資料數量」則指分析時所用計畫的筆數,計畫數量太多,會增加計算的 手續;而計畫數量不足時,則所分析出的結果將不具代表性,本研究所蒐集之 計畫原始件數為 238 件。
所蒐集的資料如果不足時,除可再繼續進行其他資料的蒐集外,亦可利用 現有的資料,將其轉換成多樣性的分析資料。當然蒐集的資料項目及數量確定 足夠之後,還要確認這些資料是否符合需求,才可作為分析之用。
4.1.3 資料清除(Data Cleaning)
在建立績效評估指標及資料探勘建置預測模型等過程中,要遇到原始資料 正好為分析所需,而收集的機會可說是微乎其微。由於這些資料是來自各個不 同的管理系統所擷取出的,所以資料可能會包含一些會互相干擾分析結果的資 料。為了預防資料分析後,所帶來資訊中斷或不明確的問題,除了需將不齊全
、遺失、不乾淨的資料予以刪除外,亦必須依照這些資料所造成的干擾情況以 不同的方式先進行清理的工作,以便得到較精確的分析結果。
(一)遺漏或無效的資料
由於原始資料在蒐集時常會有漏填的項目或者是無效的資料,例如:遺失 的數值(Missing Values)、雜訊資料(Noisy Data)以及不一致資料等。如果這 些遺漏的資料數量不多,在分析過程中尚可接受;但是如果遺漏的資料數量太 多時,則需作些適當的處置。
1、針對數量大的遺漏資料,我們所採取遺漏資料的轉換方法就是「數值 替換」,也就是將遺漏的以平均數、中位數或眾數予以取代。
2、所謂無效的資料係指差異過大或過小或雜訊的數值資料。因為資料如 果太大或太小或獨特將會使整體資料呈現太離散的情形,無法呈現資 料正真的原貌,而影響分析的結果,所以在處理上有兩種方法。第一 種稱為資料平滑化(Data Smoothing),就是將資料的雜訊去除;另一 種稱為資料正規化(Data Normalization),仍是依據特定的範圍將屬 性資料做刪減。
鑑於本研究所分析的每個專案計畫是獨立的,之間並沒有明確的關聯性。
(二)分類階層
資料要採用何種分類階層,取決於分析目的為何。一般來說,原始資料越 詳盡,由不同分類階層中所獲得的情報越豐富,然而,這並不代表越詳盡的資 料就一定越好。例如,資料中有些很詳盡的部分可能根本不是所需的;或者在 最詳盡的分類階層下,符合的資料數量根本不夠。因此,透過資料分類階層的 應用可以將分類較多或較複雜的資料,簡化為適當分類且單純的資料。
簡化資料的方法為歸納資料(Generalization Data),乃是將低階層之原始 資料以較高階的觀點重新定位。例如,本研究所蒐集資料中包含計畫之主管機 關及主辦機關,若純粹探討績效與管理單位的關係可能以主辦機關作為分析的 變數,其說明能力較高。惟若以主辦機關當作說明變數,則分類後將有高達約 四十種分群,如此細微的分類可能會造成分析結果無法收歛或無結果。因此最 後係以主管機關來說明管理的單位,如此高階化後,分類的群組則僅有八個。
4.1.4 資料整合(Data Integration)
在資料處理過程中,除了不同來源、不同型態的資料需要予以彙整外,對 於我們想要得到的資訊,而無法從單一類的原始資料中分析,需要加入其它資 訊,綜合整理才可能得到我們想要資訊,此步驟稱為資料整合。
(一)不一致的資料格式
當我們從不同來源蒐集特定目的的原始資料時,相同的資料往往會以不同 的格式被記錄下來,如果我們沒事先察覺這些問題,那麼它們就很可能會成為 錯誤的判斷基礎。所以為了資料的統一,我們需要將不同單位的連續資料採用 一致的表達方式,如此原始的資料將會以相同的格式被分析。
(二)資料的聚集
礙於資料來源的不足,所以在資料處理過程中,我們利用原始資料,將多
種資料彙整在一起,以產生新的「資料項目」,提供資料多樣化的使用,這個 方法稱為資料聚集(Data Aggregation)。例如,本研究所蒐集計畫相關經費資 料有計畫總經費、年度經費、標案經費…等。如果我們想資料本年度可用經費 與計畫全部經費之間的關係,則可透過計算方式,將年度經費除以計畫總經 費,得到計畫預算比;如果我們想知道本年度預計執行之重大工程標案佔年度 經費的比例,則可將標案經費除以年度經費,而得到標案預算比。其他資料項 目的聚集尚有發包金額與標案預算組成的發包折數及其變異係數等。
4.1.5 資料轉換或編碼(Data Transaction or Coding)
本研究所蒐集的原始資料,文字形態佔大部分,而文字資料屬於類別的資 料,在處理上比較複雜。雖然我們希望能夠從文字資料中得到需要的情報,然 而,在許多情況下,我們需要將它們記錄成其他比較適合分析的格式才可以使 用。
在分析時,如果類別資料的格式都能夠保持一致,那麼我們可以比較放心 的運用它們。然而,本研究所蒐集的類別資料中,有些資料需要經過轉換才具 有意義。例如,有關計畫執行時間資料的蒐集,乃是以民國幾年至幾年的方式 表達,以此種型態之表達方式,分析的軟體無法分辯其意義,所以將這項資料 轉換成計畫年限之數值資料及計畫階段之類別資料,如圖 4-2 所示;另外,有 關執行地點的資料因為過於分散且複雜,所以我們將執行地點劃分為北、中、
南、東部、外島…等 8 個地區。
另外,開始進行資料分析之前,往往必須將原始資料彙整、轉換成適合分 析所需格式,而如何轉換,取決於使用的技術和應用軟體,有些軟體需要將連 續值轉換成類別資料或某種範圍;有些則需要將數據轉換成 0 到 1 之間的虛擬
圖 4-2 資料轉換示意圖
上述的類別資料如果格式不一樣時,則可以用編碼方式,將所有的合法敘 述都列成表,然後根據資料的差異,修改或增加相同的敘述。所以本研究對於 類別資料的處理方式都是先將它的表達格式一致化後,再進行編碼,以利後續 分析之用。
計畫執行時間(文字資料)
民國81 年 1 月至 92 年 12 月
計畫年限(數值資料)
12 年
計畫階段(類別資料)
未期(以91 年度為計算基準)