第四章 研究方法
第三節 曲面方程式分析方法
一、 過度擬合
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
使用本資料的原因在於,目前內政部所公告含有橢球高的一等水準點 位資料,在空間分布上並不是相當均勻,如果要討論不同曲面方程式,其 擬合成果的好壞,必須先透過一個較為理想的資料進行分析。本台中市水 準點位的分布相當均勻,是用來擬合大地起伏的理想資料。
圖 10 台中市政府公共管線資料庫系統建置案所測設之水準點
第三節 曲面方程式分析方法
一、 過度擬合
利用幾何擬合大地起伏時,曲面方程式的選擇將會影響擬合是不是能 夠更完美的呈現實際的大地水準面。大地水準面並非實際存在的一個平 面,而是一個物理概念。所以利用任何幾何方法並不能完美的呈現出真實 的大地水準面,僅能依據現有的水準點位盡可能合理呈現之。而幾何法所 使用的擬合方程式可為多次的曲面方程式,本節曲面方程式的研究方法將 針對不同的曲面方程式擬定分析方法。
曲面方程式可以分為一次、二次或高次方程式。一次曲面方程式即為 平面方程式,方程式如式(40):
ζ = 𝑎0+ 𝑎1𝑥 + 𝑎2𝑦 + 𝑎3𝑥𝑦
(40) 其中,𝑎0~𝑎3代表未知參數、ζ代表 z 分量(在本研究即為大地起伏值)、x 及 y 分別為橫坐標及縱坐標的分量。一次曲面方程式含有四個未知參數,
在擬合大地起伏面上至少需要四個點位方能解算;於是在選擇擬合範圍
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
時,必須考慮到擬合範圍內點數是否足夠,方能解算曲面方程式,這個問 題會在第四節、 曲面擬合範圍分析方法中進行分析。
二次曲面方程式在第三章第二節中敘述,參照式(9)。而三次曲面方程 式相對於前面兩種來說,為較高次的曲面方程式;從幾何的角度分析,越 高次的曲面方程式越能夠完美擬合資料。三次曲面方程式如式(41):
ζ = 𝑎0+ 𝑎1x + 𝑎2𝑦 + 𝑎3𝑥𝑦 + 𝑎4𝑥2 + 𝑎5𝑦2+ 𝑎6𝑥3+ 𝑎7𝑦3+ 𝑎8𝑥2𝑦 + 𝑎9𝑥𝑦2 (41) 而四次曲面方程式為式(42):
ζ = 𝑎0+ 𝑎1x + 𝑎2𝑦 + 𝑎3𝑥𝑦 + 𝑎4𝑥2 + 𝑎5𝑦2+ 𝑎6𝑥3+ 𝑎7𝑦3+ 𝑎8𝑥2𝑦 + 𝑎9𝑥𝑦2 + 𝑎10𝑥4 + 𝑎11𝑦4+ 𝑎12𝑥3𝑦 + 𝑎13𝑥2𝑦2+ 𝑎14𝑥𝑦3
(42) 本研究將探討至五次曲面方程式,如式(43):
ζ = 𝑎0+ 𝑎1x + 𝑎2𝑦 + 𝑎3𝑥𝑦 + 𝑎4𝑥2 + 𝑎5𝑦2+ 𝑎6𝑥3+ 𝑎7𝑦3+ 𝑎8𝑥2𝑦 + 𝑎9𝑥𝑦2 + 𝑎10𝑥4 + 𝑎11𝑦4+ 𝑎12𝑥3𝑦 + 𝑎13𝑥2𝑦2+ 𝑎14𝑥𝑦3+ 𝑎15𝑥5 + 𝑎16𝑦5+ 𝑎17𝑥4𝑦 + 𝑎18𝑥3𝑦2+ 𝑎19𝑥2𝑦3+ 𝑎20𝑥𝑦4
(43) 同樣地,𝑎𝑛代表未知參數、ζ代表 z 分量、x 及 y 分別為橫坐標及縱坐標的 分量。
前面所談的完美擬合資料,是對於擬合後的內部精度可以趨近於 0。
以模擬資料來討論擬合的成果,分別以一次曲面、三次曲面及五次曲面方 程式來呈現。本研究模擬資料為 9 乘 9 個方格點位,z 分量為 0 到 1 單位 之間的隨機數,詳細內容如表 2。如圖 11、圖 12 及圖 13,將資料擬合 成一次曲面的內部精度為 0.2723 單位;將資料擬合成三次曲面的內部精度 為 0.2703 單位;將資料擬合成五次曲面的內部精度為 0.2637 單位。從以上 數據及圖形可以得到,越高次項的曲面方程式將使得資料更為擬合。但是 越高次的曲面方程式隱含著過度擬合(overfitting)的風險,也就是會有相 對高的預測誤差(prediction error)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表 2 曲面擬合模擬資料點位表
y
1 2 3 4 5 6 7 8 9
x
1 0.706 0.0344 0.7094 0.3404 0.5472 0.35 0.9172 0.7792 0.3112 2 0.0318 0.4387 0.7547 0.5853 0.1386 0.1966 0.2858 0.934 0.5285 3 0.2769 0.3816 0.276 0.2238 0.1493 0.2511 0.7572 0.1299 0.1656 4 0.0462 0.7655 0.6797 0.7513 0.2575 0.616 0.7537 0.5688 0.602 5 0.0971 0.7952 0.6551 0.2551 0.8407 0.4733 0.3804 0.4694 0.263 6 0.8235 0.1869 0.1626 0.506 0.2543 0.3517 0.5678 0.0119 0.6541 7 0.6948 0.4898 0.119 0.6991 0.8143 0.8308 0.0759 0.3371 0.6892 8 0.3171 0.4456 0.4984 0.8909 0.2435 0.5853 0.054 0.1622 0.7482 9 0.9502 0.6463 0.9597 0.9593 0.9293 0.5497 0.5308 0.7943 0.4505
圖 11 一次曲面擬合模擬點位的成果,內部精度為 0.2723 單位
圖 12 三次曲面擬合模擬點位的成果,內部精度為 0.2703 單位
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 13 五次曲面擬合模擬點位的成果,內部精度為 0.2637 單位
圖 14 在不同模型複雜度下的訓練樣本誤差及測試樣本誤差(Hastie T., et al., 2009)摘錄自 Hastie T. 等人(2009)以一百組的訓練集(每組訓 練集中各自有 50 個樣本),針對不同模型複雜度下的訓練樣本誤差及測試 樣本誤差,所繪製的比較圖。橫坐標代表模型的複雜程度、縱坐標代表預 測誤差、實線代表訓練誤差(training error)、虛線代表測試誤差(test error)。由圖形可以得知,複雜度越高的模型,其訓練誤差及測試誤差會 越低;但模型複雜度越高,其與測試誤差的差距反而增高。當提高複雜度 直到訓練誤差達到零的時候,代表已經對訓練樣本過度擬合了。
圖 14 在不同模型複雜度下的訓練樣本誤差及測試樣本誤差(Hastie T., et al., 2009)
‧
(Hastie T., et al., 2009)。交叉驗證法是用來判斷模型的預測誤差,作法是 將原始資料分為測試資料和訓練資料,並循環分析計算來驗證資料的品
Validation Train Train Train Train
Part 1 Part 2 Part 3 Part 4 Part 5
Train Validation Train Train Train
Part 1 Part 2 Part 3 Part 4 Part 5
Train Train Validation Train Train
Part 1 Part 2 Part 3 Part 4 Part 5
Train Train Train Validation Train
Part 1 Part 2 Part 3 Part 4 Part 5
Train Train Train Train Validation