過度擬合

第四章研究方法

第三節曲面方程式分析方法

一、過度擬合

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

使用本資料的原因在於，目前內政部所公告含有橢球高的一等水準點位資料，在空間分布上並不是相當均勻，如果要討論不同曲面方程式，其擬合成果的好壞，必須先透過一個較為理想的資料進行分析。本台中市水準點位的分布相當均勻，是用來擬合大地起伏的理想資料。

圖 10 台中市政府公共管線資料庫系統建置案所測設之水準點

第三節曲面方程式分析方法

一、過度擬合

利用幾何擬合大地起伏時，曲面方程式的選擇將會影響擬合是不是能夠更完美的呈現實際的大地水準面。大地水準面並非實際存在的一個平面，而是一個物理概念。所以利用任何幾何方法並不能完美的呈現出真實的大地水準面，僅能依據現有的水準點位盡可能合理呈現之。而幾何法所使用的擬合方程式可為多次的曲面方程式，本節曲面方程式的研究方法將針對不同的曲面方程式擬定分析方法。

曲面方程式可以分為一次、二次或高次方程式。一次曲面方程式即為平面方程式，方程式如式(40)：

ζ = 𝑎₀+ 𝑎₁𝑥 + 𝑎₂𝑦 + 𝑎₃𝑥𝑦

(40) 其中，𝑎₀~𝑎₃代表未知參數、ζ代表 z 分量（在本研究即為大地起伏值）、x 及 y 分別為橫坐標及縱坐標的分量。一次曲面方程式含有四個未知參數，

在擬合大地起伏面上至少需要四個點位方能解算；於是在選擇擬合範圍

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

時，必須考慮到擬合範圍內點數是否足夠，方能解算曲面方程式，這個問題會在第四節、曲面擬合範圍分析方法中進行分析。

二次曲面方程式在第三章第二節中敘述，參照式(9)。而三次曲面方程式相對於前面兩種來說，為較高次的曲面方程式；從幾何的角度分析，越高次的曲面方程式越能夠完美擬合資料。三次曲面方程式如式(41)：

ζ = 𝑎₀+ 𝑎₁x + 𝑎₂𝑦 + 𝑎₃𝑥𝑦 + 𝑎₄𝑥² + 𝑎₅𝑦²+ 𝑎₆𝑥³+ 𝑎₇𝑦³+ 𝑎₈𝑥²𝑦 + 𝑎₉𝑥𝑦² (41) 而四次曲面方程式為式(42)：

ζ = 𝑎₀+ 𝑎₁x + 𝑎₂𝑦 + 𝑎₃𝑥𝑦 + 𝑎₄𝑥² + 𝑎₅𝑦²+ 𝑎₆𝑥³+ 𝑎₇𝑦³+ 𝑎₈𝑥²𝑦 + 𝑎₉𝑥𝑦² + 𝑎₁₀𝑥⁴ + 𝑎₁₁𝑦⁴+ 𝑎₁₂𝑥³𝑦 + 𝑎₁₃𝑥²𝑦²+ 𝑎₁₄𝑥𝑦³

(42) 本研究將探討至五次曲面方程式，如式(43)：

ζ = 𝑎₀+ 𝑎₁x + 𝑎₂𝑦 + 𝑎₃𝑥𝑦 + 𝑎₄𝑥² + 𝑎₅𝑦²+ 𝑎₆𝑥³+ 𝑎₇𝑦³+ 𝑎₈𝑥²𝑦 + 𝑎₉𝑥𝑦² + 𝑎₁₀𝑥⁴ + 𝑎₁₁𝑦⁴+ 𝑎₁₂𝑥³𝑦 + 𝑎₁₃𝑥²𝑦²+ 𝑎₁₄𝑥𝑦³+ 𝑎₁₅𝑥⁵ + 𝑎₁₆𝑦⁵+ 𝑎₁₇𝑥⁴𝑦 + 𝑎₁₈𝑥³𝑦²+ 𝑎₁₉𝑥²𝑦³+ 𝑎₂₀𝑥𝑦⁴

(43) 同樣地，𝑎_𝑛代表未知參數、ζ代表 z 分量、x 及 y 分別為橫坐標及縱坐標的分量。

前面所談的完美擬合資料，是對於擬合後的內部精度可以趨近於 0。

以模擬資料來討論擬合的成果，分別以一次曲面、三次曲面及五次曲面方程式來呈現。本研究模擬資料為 9 乘 9 個方格點位，z 分量為 0 到 1 單位之間的隨機數，詳細內容如表 2。如圖 11、圖 12 及圖 13，將資料擬合成一次曲面的內部精度為 0.2723 單位；將資料擬合成三次曲面的內部精度為 0.2703 單位；將資料擬合成五次曲面的內部精度為 0.2637 單位。從以上數據及圖形可以得到，越高次項的曲面方程式將使得資料更為擬合。但是越高次的曲面方程式隱含著過度擬合（overfitting）的風險，也就是會有相對高的預測誤差（prediction error）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 2 曲面擬合模擬資料點位表

1 2 3 4 5 6 7 8 9

1 0.706 0.0344 0.7094 0.3404 0.5472 0.35 0.9172 0.7792 0.3112 2 0.0318 0.4387 0.7547 0.5853 0.1386 0.1966 0.2858 0.934 0.5285 3 0.2769 0.3816 0.276 0.2238 0.1493 0.2511 0.7572 0.1299 0.1656 4 0.0462 0.7655 0.6797 0.7513 0.2575 0.616 0.7537 0.5688 0.602 5 0.0971 0.7952 0.6551 0.2551 0.8407 0.4733 0.3804 0.4694 0.263 6 0.8235 0.1869 0.1626 0.506 0.2543 0.3517 0.5678 0.0119 0.6541 7 0.6948 0.4898 0.119 0.6991 0.8143 0.8308 0.0759 0.3371 0.6892 8 0.3171 0.4456 0.4984 0.8909 0.2435 0.5853 0.054 0.1622 0.7482 9 0.9502 0.6463 0.9597 0.9593 0.9293 0.5497 0.5308 0.7943 0.4505

圖 11 一次曲面擬合模擬點位的成果，內部精度為 0.2723 單位

圖 12 三次曲面擬合模擬點位的成果，內部精度為 0.2703 單位

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 13 五次曲面擬合模擬點位的成果，內部精度為 0.2637 單位

圖 14 在不同模型複雜度下的訓練樣本誤差及測試樣本誤差（Hastie T., et al., 2009）摘錄自 Hastie T. 等人（2009）以一百組的訓練集（每組訓練集中各自有 50 個樣本），針對不同模型複雜度下的訓練樣本誤差及測試樣本誤差，所繪製的比較圖。橫坐標代表模型的複雜程度、縱坐標代表預測誤差、實線代表訓練誤差（training error）、虛線代表測試誤差（test error）。由圖形可以得知，複雜度越高的模型，其訓練誤差及測試誤差會越低；但模型複雜度越高，其與測試誤差的差距反而增高。當提高複雜度直到訓練誤差達到零的時候，代表已經對訓練樣本過度擬合了。

圖 14 在不同模型複雜度下的訓練樣本誤差及測試樣本誤差（Hastie T., et al., 2009）

‧

（Hastie T., et al., 2009）。交叉驗證法是用來判斷模型的預測誤差，作法是將原始資料分為測試資料和訓練資料，並循環分析計算來驗證資料的品

Validation Train Train Train Train

Part 1 Part 2 Part 3 Part 4 Part 5

Train Validation Train Train Train

Part 1 Part 2 Part 3 Part 4 Part 5

Train Train Validation Train Train

Part 1 Part 2 Part 3 Part 4 Part 5

Train Train Train Validation Train

Part 1 Part 2 Part 3 Part 4 Part 5

Train Train Train Train Validation

在文檔中運用曲面擬合提升幾何法大地起伏值精度之研究 - 政大學術集成 (頁 48-52)

第四章 研究方法

第三節 曲面方程式分析方法

一、 過度擬合

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 曲面方程式分析方法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第四章研究方法

第三節曲面方程式分析方法

一、過度擬合

立政治大學

第三節曲面方程式分析方法

立政治大學

立政治大學

立政治大學