實驗結果 - 排除難/無匹配點之非監督式單眼深度估計

本章將介紹我們的實驗結果，首先於 4.1 節會介紹我們的實驗環境以及實驗參數設定，4.2 節展示我們的視差網路估計出來的深度圖，4.3 節展示和其他方法比較的數據，4.4 節將我們的方法估測錯誤的地方顯示出來。

4.1實驗環境及實驗參數

表 4. 1 實驗環境

CPU I5-4670

VGA NVIDIA GTX-960 4G

作業系統 Windows 7

開發環境 Tensorflow

程式語言 Python3.5

RAM 12GB

資料集 KITTI

訓練資料單眼約 44000 筆、雙眼約 22000 筆

測試資料 697 筆(和訓練資料不同場景的)

表 4. 2 實驗參數

優化器 Adam 優化器

學習速率 0.00005

訓練迭代次數 300000

batch 大小 1

視圖合成損失的α_𝑝 0.85

平滑損失的𝛼_𝑠 0.5

視差網路的𝛼_𝑑 10

視差網路的𝛽_𝑑 0.01

4.2深度圖估計

在這小節我們將展示我們的視差網路所估計出來的深度圖，首先我們先展示我們的方法用單眼資料和真實值以及其他方法的比較，在來我們會展示我們的方法用單眼資料、雙眼資料、單眼+雙眼資料預測出來的結果。

圖 4. 1 深度圖和其他方法的比較圖

此結果為我們將我們估計出來的深度圖可視化的結果，越白的地方代表離畫面越近，越黑的地方代表離越遠，其中 Eigen 為[4]的結果是監督式的方法，SFM-Learner 為[15]的結果是非監督式的方法，Ours 為我們的方法使用單眼資料估計出來的結果，Ground-truth 為 KITTI 提供的 LiDAR 資料插值得到的結果，和同為非監督式的 SFM-Learner 相比我們的輪廓更為明顯，邊緣的部分更清楚，這主要是 4.5 小節提到的邊緣檢測平滑損失的效果，SFM-Learner 為一般的平滑損失，

因此在物體邊緣的部分也會被平滑損失影響。

圖 4. 2 深度圖比較圖

我們比較了我們的方法使用單眼資料、雙眼資料、單雙眼資料混合估計深度圖的結果，從圖中可以看到使用雙眼資料的模型在較遠的地方也能清楚的估計出物體的深度，而且對於移動物體的估計比起單眼也比較清楚。

Ours mono+ stereo

(without mask) K No 0.142 1.076 5.454 0.220 0.817 0.939 0.975

Ours mono+ stereo K No 0.145 1.111 5.538 0.224 0.812 0.937 0.974

K 表示使用的為 KITTI 資料集，Ours 為我們的方法，我們分別對單眼資料、雙眼資料、單雙眼資料混合都進行了實驗，mono 為使用單眼資料、stereo 為使用雙眼資料、mono+stereo 為單雙眼資料混合，為了驗證我們 mask 的有效性我們也對這些資料進行了有無使用 mask 的比較。

表 4.3 為我們的準確率比較圖，從 Ours mono(without mask)和 GeoNet VGG 比較可以看出我們網路結構的優勢，從 Ours mono(without mask)和 Ours mono 比較可以看出我們的 mask 在移動場景中的有效性，但是從其它結果看起來我們的 mask 對於靜態場景的效果並不是很好，從 Ours stereo(without mask)和 Ours mono(without mask)比較驗證了我們在 3.7 小節所提到的靜態場景的有效性，最後我們也對單雙眼資料混合進行了測試，從結果來看，單雙眼資料混合的結果比較好，我想這是因為單雙眼資料考慮了更多場景的可能性，因此解決了一些雙眼資料可能會遇到的問題。

4.4錯誤估計的地方

在整個實驗完成之後，我們也把我們的實驗結果錯誤估計的地方展示出來，

觀察我們的方法錯誤較多的地方出現在哪，以方便我們做後續的探討。

圖 4. 3 錯誤估計圖

此為我們的方法使用單眼資料估計出來的深度圖，估計錯誤的地方，這裡我們把δ<1.25³的地方視為錯誤估計，也就是我們預測的結果和真實值偏差比較多的地方。

從圖中可以看出我們錯誤的地方主要位在車子和行人的地方，也就是 2.2.5 小節提到的移動物體，我們在 3.7 節也進行了一些相關的探討。

在文檔中排除難/無匹配點之非監督式單眼深度估計 (頁 60-67)