• 沒有找到結果。

建築工程總成本估算缺漏資料之探勘

第五章 案例驗證

5.2 建築工程總成本估算缺漏資料之探勘

本研究之建築工程總成本估算之案例資料主要來源取自於余家祥 君碩士論文[14],但驗證之資料庫主要參考針對其論文中之集合住宅案 例,地點則選以北台灣為主。為考慮原始案例中有許多案例差異性太 大及資料分佈均勻性與完整性,其資料又經劉彥慶君[4]整理後,最終 整理成具有 25 筆案例資料之建築工程總成本估算資料庫。

對於類神經網路需要龐大的資料量的問題,此 25 筆建築工程總成 本估算之資料庫資料量並不滿足學習需要,此問題稱為「資料不足」

(data scarcity)。此問題在本研究之第一章中曾加以說明,在資料探勘

中所遇到問題中,資料不足與資料缺漏是具高度相關聯性。假設資料 量十分充裕,捨棄缺漏資料並不一定影響結果之精度;而當資料量少,

捨棄資料可能會造成結果較差之精度。

本研究亦在研究動機中說明,營建工程具有經驗累積的價值,可 是因營建業工程本身特性常常造成資料量不足問題。依上述原因,本 研究採劉彥慶君已整理後之建築工程總成本估算之案例資料做案例驗 證,其原始資料庫如下表所示:

表 5.4 建築工程總成本估算之案例資料[4]

排序 擋土結構 地上樓 地下樓 樓地板 總工程費用

1 3 7 2 2959 43459663

2 3 7 2 3318 46696021

3 3 12 2 7449 164000000

4 3 13 2 15178 255260938

5 2 6 1 918 15769572

6 2 7 1 1502 22722088

7 2 7 1 1721 32171609

8 2 12 1 4518 77150600

9 2 16 2 27866 407150000

10 2 20 3 38255 525000000

11 1 4 1 2630 28500000

12 1 6 1 2958 36154899

13 1 8 2 3855 47714078

14 1 8 1 7316 89872402

15 1 12 2 8331 114884225

16 1 12 2 8351 122814797

17 1 12 1 9396 122923137

18 1 12 2 10810 173313000

19 1 12 1 20993 329966802

20 1 12 1 28059 434390623

21 1 14 2 31513 533289382

22 1 14 2 32955 557683814

23 3 6 2 3223 50394716

24 1 12 1 13989 185164666

25 2 12 1 5560 95530000

表 5.1 中,案例索引參數是參考劉彥慶君[4]的整理。其輸入索引

參數為擋土結構形式、地上樓層數、地下樓層數、總樓地板面積四種 模式,而「擋土結構形式」則細分為連續壁、預壘樁、鋼軌樁。另外 由於 FALCON 模式的輸入參數採數值分析,故需先對資料作處理,根 據影響成本之高低程度,依序給予編號。如表 5.1 所示,鋼軌樁為 1,

預壘樁為 2,連續壁為 3。

5.2.1 完整資料之學習結果

依 5.1 的驗證流程,第一步應用 FALCON 系統學習完整之建築工 程總成本估算之資料庫。亂數選取後之 25 筆資料庫中,前 22 筆為訓 練組,後 3 筆為驗證組。經系統學習後之精度如下表所示:

表 5.5 完整建築工程總成本估算資料庫學習精度 訓練組 系統精準度 94.66%

Case A 88.37%

Case B 91.99%

Case C 97.53%

驗證組

平均精度 92.63%

系統精準度為 FALCON 系統學習完後之學習精確率,驗證組之平 均精度為系統經驗證組驗證後之系統精確率。上表 5-2 中 Case A、Case B 及 Case C 分別為三組驗證組,驗證組中每組之精準度為驗證組依序 輸入已學習完之 FALCON 系統輸出答案之精準度。

5.2.2 缺漏資料之學習結果

依 5.1 的驗證流程,第二步將完整之建築結構體工程成本預測資料 庫以百分比之方式模擬實際案例缺漏情形。將完整之建築結構體工程 成本預測資料庫分為 5%、10%、15%及 20%等缺漏比例進行實驗。另 外為驗證當每筆資料皆有缺漏時,系統處理之精度。本實驗以亂數排 列原完整之建築結構體工程成本預測資料庫,再將每筆資料皆隨機缺 漏一屬性,造成全資料庫都有缺漏之極端情況。

上述方法共產生五種缺漏的資料庫,分別為 5%缺漏、10%缺漏、

15%缺漏、20%缺漏及每筆資料皆缺漏(全缺漏)。五種資料庫皆有 25 筆資料,其前 22 筆皆為訓練組,其後 3 筆皆為驗證組。經系統學習之 後分別表列如下:

表 5.6 缺漏之建築工程總成本估算資料庫學習精度

5%缺漏 10%缺漏 15%缺漏 20%缺漏 全缺漏 訓練組系統精準度 96.77% 89.00% 93.84% 97.82% 94.22%

驗證組之平均精度 90.67% 89.64% 86.48% 83.44% 74.71%

上表中,因選取缺漏時,某些重要屬性因亂數選取而缺漏,造成 訓練組雖然精準度高,可是驗證組之精度未必符合期望。

5.2.3 捨棄缺漏資料之學習結果

依 5.1 的驗證流程,第三步將上述五項缺漏的資料庫中的缺漏資料 捨去,再以 FALCON 系統進行訓練。經捨棄之後的 5%缺漏、10%缺漏、

15%缺漏、20%缺漏及全缺漏等五項已捨棄缺漏資料之資料庫,資料數 量互有不同。而每一項缺漏資料庫之資料庫總數、訓練組數、驗證組 數列於下表:

表 5.7 捨棄缺漏資料後之資料庫數量表

資料庫總數 訓練組數 驗證組數

5%缺漏 21 18 3

10%缺漏 18 15 3

15%缺漏 14 11 3

20%缺漏 14 11 3

捨棄後

全缺漏 0 0 0

表 5.4 中,由於亂數選取缺漏部分的位置,所以經整理及捨棄之後 的數量為訓練組,原驗證組不設計缺漏亦不捨去。而全缺漏之資料庫 由於是設計為每ㄧ筆資料皆有缺漏的情形,所以經整理之後須將全部 資料捨去。全缺漏資料庫各組數皆為零,意思即是系統無法測試。經 系統學習之後分別表列如下:

表 5.8 捨棄缺漏資料之建築工程總成本估算資料庫學習精度 捨棄後

5%缺漏 10%缺漏 15%缺漏 20%缺漏 全缺漏 訓練組系統精準度 97.37% 98.80% 99.72% 99.41% 無法測試 驗證組之平均精度 75.69% 62.21% 58.97% 38.52% 無法測試 上表中,由於捨棄的案例過多而造成系統產生內、外插之案例型 資料缺漏,因此造成訓練組雖然精準度高,可是卻與驗證組之精度相 差極大。

5.2.4 結果比較分析

本研究對上述已完成建築工程總成本估算之驗證結果做一比較及 分析,如下:

ㄧ、資料庫之資料量比較

在知識發掘流程中資料的前處理步驟,會將缺漏資料作處 理。最傳統之方式是直接將缺漏資料捨棄,而無法保存原完整資 料庫之智慧,亦容易陷入資料不足之窘境。因此,針對於上述現 象,本研究在案例驗證中以實驗設計之方法模擬缺漏資料之實際 情況,用以比較若保留缺漏資料與捨棄缺漏資料的兩者之間資料 庫之資料量差異性。如下表所示:

表 5.9 建築工程總成本估算資料庫保留與捨棄之資料量比較 完整資料 缺漏資料 捨棄後資料 捨棄資料差別 百分比

5%缺漏 25 25 21 4 16%

10%缺漏 25 25 18 7 28%

15%缺漏 25 25 14 11 44%

20%缺漏 25 25 14 11 44%

全缺漏 25 25 0 25 100%

上表 5.6 為整理在建築工程總成本估算之案例中,資料庫之資 料量。在 15%缺漏中,所以資料格數只缺漏 15%的資料量,可是 卻捨棄 11 筆的資料筆數,佔總資料量百分比 44%。上述設計之缺 漏資料,呼應在研究動機中所提到資料捨棄之情況。

另外在上表中,15%缺漏與 20%缺漏的資料庫在捨棄後之資料 筆數皆為 14 筆。原因是 20%缺漏之資料庫在經亂數選取缺漏屬性 時,選取到數筆資料缺漏屬性皆兩個以上,因此造成缺漏量嚴重 卻捨棄量不多之情形。

二、案例驗證後之精準度比較

根據表 5-6,在不同缺漏資料量的形況下,傳統之捨棄方式會 減少資料庫之資料量,亦減少了能讓系統學習之機會。文獻中說 明直接捨棄之方法在缺漏資料量不多時,並不影響系統學習結 果。因此本研究將具有缺漏資料之資料庫經由修改後之系統學 習,並與傳統直接捨棄之方式作一比較,如下表所示:

表 5.10 建築工程總成本估算資料庫之精度比較 完整資料 學習缺漏 傳統捨棄

5%缺漏 92.63% 90.67% 75.69%

10%缺漏 92.63% 89.64% 62.21%

15%缺漏 92.63% 86.48% 58.97%

20%缺漏 92.63% 83.44% 38.52%

全缺漏 92.63% 74.71% 0.00%

上表顯示若缺漏資料量越多,系統精準度會下降;而捨棄資 料量越多,則系統精準度亦會隨之下降。兩者之精度差異會隨著 缺漏資料量的差異而越趨變大。而缺漏資料庫之精度與捨棄後資 料庫之精度關係如下圖所示:

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

5%缺漏 10%缺漏 15%缺漏 20%缺漏 全缺漏

保留 捨棄

圖 5.1 建築工程總成本估算資料庫保留與捨棄之精度比較

由圖 5.1,可以驗證在缺漏的建築工程總成本估算資料庫情形 下,保留缺漏資料供系統學習會比直接捨棄資料的結果更好,精 準度更高。

另外,本研究對於完整資料庫學習之精度、缺漏資料庫學習 之精度及捨棄缺漏資料之資料庫精度作差異比較分析,整理如下 表:

表 5.11 建築工程總成本估算精度之差異性分析

完整資料與學習缺漏 完整資料與傳統捨棄 學習缺漏與傳統捨棄

5%缺漏 1.96% 16.94% 14.98%

10%缺漏 2.99% 30.42% 27.42%

15%缺漏 6.15% 33.66% 27.51%

20%缺漏 9.19% 54.11% 44.92%

全缺漏 17.92% 92.63% 74.71%

上表中,在資料量只有 5%缺漏的情形下,保留缺漏資料學習 精度與完整資料之差異百分比只有 1.96%。若直接捨棄,則差異度 達 16.94%。保留缺漏資料學習精度與完整資料之最大差異度百分 比達 17.92%,遠小於直接捨棄而致無法訓練的結果。藉由表 5.8 之比較,保留缺漏資料之學習方式的精度與完整資料的精度差異 性未有超過 20%,可以驗證本案例中所有缺漏資料庫學習完後之 精度都可以被接受。