多重模型本體移動估測 - 結合特徵匹配與光度誤差之本體移動估計

傳統基於特徵點匹配的本體移動估計，是採取最小化重投影誤差的策略，如前章 3.6 節所述。本章提出一新式模型，同時採用單眼視覺測程中常用之光度誤差 (photo-consistency)模型與對極幾何限制，以多重目標函數作為最佳化相機姿態之調整依據，強化雙眼視覺測程對離群值與雜訊之容錯性，增強移動估測的穩健性。

4.1 投影誤差模型

如前章所述，給予 𝑡 − 1 影像之三維空間點雲(𝑥_𝑖, 𝑦_𝑖, 𝑧_𝑖)，與該點雲於 𝑡 時二維影像中的投影位置 (𝑢_𝑖, 𝑣_𝑖)，重投影誤差之平方合目標函數定義為：

∅_RPE(𝐑, 𝐭) = ∑‖(𝑢_𝑖, 𝑣_𝑖) − 𝜋_𝐊(𝐑 ∙ (𝑥_𝑖, 𝑦_𝑖, 𝑧_𝑖)^⊤+ 𝐭)‖²

𝑖

(4.1)

式 (4.1) 可作為相機姿態估計 (𝐑, 𝐭) 精準與否之依據，並在點雲測量與投影觀測函數誤差呈現高斯分布時，被證實能提供最大機率估計[45] (maximum likelihood estimation, MLE)。然而，由視差圖雜訊產生之三維點座標重新投影後可能造成極大誤差，往往高於數十甚至數百像素，使得重投影誤差模型在數值運算上相對失準，因此常輔以而外限制 (如極幾何[34]) 抑制此類雜訊。

4.2 極幾何模型

本研究除了對重投影誤差進行最佳化調整之外，使最佳化結果更為穩健，考慮了特徵點二維影像的對應關係 (𝑢, 𝑣) ↔ (𝑢^′, 𝑣^′) 之極線誤差。如圖 4-1 所示，在影像𝐼_𝑡−1上中有一點𝑝̇(𝑢, 𝑣, 1)，依據特徵匹配，在序列中下一張影像𝐼_𝑡找到對應的一點𝑝̇^′(𝑢^′, 𝑣^′, 1)，

考慮兩個時間點的空間轉換關係(𝐑, 𝐭)，透過極幾何產生的極線偏移誤差是從點𝑝̇^′到極

線𝑙 = 𝐅𝑝̇ = (𝑙₀, 𝑙₁, 𝑙₂)^⊤的最短距離：

𝛿(𝑝̇, 𝑝̇^′; 𝐑, 𝐭) = |𝑝̇^′^⊤𝐅𝑝̇|

√𝑙₀²+ 𝑙₁² (4.2)

其中𝐅 = 𝐊^−⊤[𝐭]_×𝐑𝐊^−𝟏為基礎矩陣，[𝐭]_×為向量𝐭 = (𝑡_𝑥, 𝑡_𝑦, 𝑡_𝑧)^⊤的斜對稱矩陣形式：

[𝐭]_× = (

0 −t_𝑧 t_𝑦 t_𝑧 0 −t_𝑥

−t_𝑦 t_𝑥 0

) (4.3)

由於點𝑝̇^′同樣在影像𝐼_𝑡−1上產生了一條極線，限制了𝑝̇的位置，因此式 (4.2) 可對稱擴充為雙向極幾何誤差：

𝛿(𝑝̇, 𝑝̇^′; 𝐑, 𝐭) = ‖𝑝̇^′^T𝐅𝑝̇‖²

√(𝐅𝑝̇)₀²+ (𝐅𝑝̇)₁²+ ‖𝑝̇^′^T𝐅𝑝̇‖²

√(𝐅^⊤𝑝̇′)₀²+ (𝐅^⊤𝑝̇′) ₁² (4.4)

其中(𝐅𝐱)_𝑖表示為極線𝑙 = 𝐅𝐱的第𝑖 = {0,1,2}個係數。式 (4.4) 在計算上較為繁瑣，本研究採用近似其平方值之Sampson 距離[42][43]，定義為：

𝛿̂²(𝑝̇, 𝑝̇^′; 𝐑, 𝐭) = ‖𝑝̇^′^T𝐅𝑝̇‖²

(𝐅𝑝̇)₀²+ (𝐅𝑝̇)₁²+ (𝐅^⊤𝑝̇′)₀²+ (𝐅^⊤𝑝̇′) ₁² ≅ 𝛿²(𝑝̇, 𝑝̇^′; 𝐑, 𝐭) (4.5)

根據極幾何，兩幅影像間之特徵點追蹤𝑝̇_𝑖(𝑢_𝑖, 𝑣_𝑖) ↔ 𝑝̇_𝑖^′(𝑢_𝑖^′, 𝑣_𝑖^′) 對姿態估計(𝐑, 𝐭)產生另一個目標函數：

∅_EPI(𝐑, 𝐭) = ∑ 𝛿̂²(𝑝_𝑖̇ , 𝑝̇_𝑖^′; 𝐑, 𝐭)

𝑖

(4.6)

圖 4-1 極幾何誤差示意圖

4.3 光度誤差模型

除前述兩項幾何模型外，本研究結合直接視覺估測法中常用之光度誤差模型 (photo-consistency) 建立第三個目標函數，以影像投影位置與預期位置之亮度值 (intensities) 評估本體移動之正確性。

在節 4.1 當中提到的重投影幾何誤差，考慮兩張影像當中對應的特徵點，以時間 𝑡 之二維影像中的投影位置作為理想的投影點，使用估計的本體移動參數將時間 𝑡 − 1 之三維空間座標轉換並投影於時間點 𝑡 與之比較，實際投影與理想位置間的距離就可 用以評估本體移動的準確度。而在不使用特徵空間轉換的 VO 演算法中，兩個時間點影

像間的對應關係並無法預先透過特徵值匹配得知，此情況下則改採用像素之深度與兩幅影像的亮度值作為依據，將特徵點投影至 𝑡 ，並以其在影像 𝑡 − 1 中之亮度值作為參考，與實際投影位置的亮度比較其相似性，進而評估本體移動之準確度。亮度誤差函數定義為：

𝜌(𝑝̇, 𝑃, 𝐼, 𝐼^′; 𝐑, 𝐭) = 𝐼(𝑝̇) − 𝐼^′(𝜋_𝐊(𝐑 ∙ 𝑃 + 𝐭) ) (4.7)

其中 𝑝̇ 與 𝑃 分別為特徵點於時間 𝑡 − 1 之影像與三維座標，而 𝐼 與 𝐼^′ 分別為時間 𝑡 − 1 與 𝑡 取得之亮度影像。

直接比較光度的策略，能在影像模糊、無法準確偵測像素特徵值時作為 VO 的參考依據。在下列情況中，式 (4.7) 能有效反應本體移動估測 (𝐑, 𝐭) 之準確性：

1. 影像感測器之曝光條件恆定，或在兩個時間點間變化不大 2. 特徵點對應的表面亮度恆定，或在兩個時間點間變化不大 3. 特徵點在時間點 𝑡 中並沒有被遮蔽

4. 深度估計𝑃準確

為了克服單一像素受雜訊干擾或不符合以上條件，式 (4.7) 可以延伸使用像素鄰近區塊，

以區塊間之 SAD 或 SSD 評估圖像間的相似度。在本研究中，我們考慮所有於 𝐼 取得之特徵點，無論是否自 𝑡 − 1 成功匹配至 𝑡，皆計入光度誤差。依此概念，定義光度目標如下：

ϕ_PHOTO(𝐑, 𝐭) = ∑‖𝜌(𝑝_𝑗̇ , 𝑃_𝑗, 𝐼, 𝐼^′; 𝐑, 𝐭)‖²

𝑗

(4.8)

4.4 結合多目標之最佳化模型

本研究結合 (4.1)、(4.6) 與 (4.8) 式，改寫 3.6 節的最佳化目標 (3.23) 式，形成一個三重目標之本體移動估計模型：

Φ(𝐑, 𝐭) = 𝜙_RPE(𝐑, 𝐭) + 𝜙_EPI(𝐑, 𝐭) + 𝛼 ⋅ 𝜙_PHOTO(𝐑, 𝐭) (4.9)

其中加入了係數α ≥ 0，調整光度誤差之權重。該模型之前兩項𝜙_RPE與𝜙_EPI為幾何誤差，

單位為像素平方，而第三項𝜙_PHOTO為影像亮度值平方差，由於該單位與前兩項相異，因此加入 α 作單位調整。在下一章中，我們以實驗方式探討此三種模型各種組合時對 VO 估測之影響。

在文檔中結合特徵匹配與光度誤差之本體移動估計 (頁 42-47)