傳統基於特徵點匹配的本體移動估計,是採取最小化重投影誤差的策略,如前章 3.6 節所述。本章提出一新式模型,同時採用單眼視覺測程中常用之光度誤差 (photo-consistency)模型與對極幾何限制,以多重目標函數作為最佳化相機姿態之調整依據,強 化雙眼視覺測程對離群值與雜訊之容錯性,增強移動估測的穩健性。
4.1 投影誤差模型
如前章所述,給予 𝑡 − 1 影像之三維空間點雲(𝑥𝑖, 𝑦𝑖, 𝑧𝑖),與該點雲於 𝑡 時二維影 像中的投影位置 (𝑢𝑖, 𝑣𝑖),重投影誤差之平方合目標函數定義為:
∅RPE(𝐑, 𝐭) = ∑‖(𝑢𝑖, 𝑣𝑖) − 𝜋𝐊(𝐑 ∙ (𝑥𝑖, 𝑦𝑖, 𝑧𝑖)⊤+ 𝐭)‖2
𝑖
(4.1)
式 (4.1) 可作為相機姿態估計 (𝐑, 𝐭) 精準與否之依據,並在點雲測量與投影觀測函數 誤差呈現高斯分布時,被證實能提供最大機率估計[45] (maximum likelihood estimation, MLE)。然而,由視差圖雜訊產生之三維點座標重新投影後可能造成極大誤差,往往高 於數十甚至數百像素,使得重投影誤差模型在數值運算上相對失準,因此常輔以而外限 制 (如極幾何[34]) 抑制此類雜訊。
4.2 極幾何模型
本研究除了對重投影誤差進行最佳化調整之外,使最佳化結果更為穩健,考慮了特 徵點二維影像的對應關係 (𝑢, 𝑣) ↔ (𝑢′, 𝑣′) 之極線誤差。如圖 4-1 所示,在影像𝐼𝑡−1上 中有一點𝑝̇(𝑢, 𝑣, 1),依據特徵匹配,在序列中下一張影像𝐼𝑡找到對應的一點𝑝̇′(𝑢′, 𝑣′, 1),
考慮兩個時間點的空間轉換關係(𝐑, 𝐭),透過極幾何產生的極線偏移誤差是從點𝑝̇′到極
31
線𝑙 = 𝐅𝑝̇ = (𝑙0, 𝑙1, 𝑙2)⊤的最短距離:
𝛿(𝑝̇, 𝑝̇′; 𝐑, 𝐭) = |𝑝̇′⊤𝐅𝑝̇|
√𝑙02+ 𝑙12 (4.2)
其中𝐅 = 𝐊−⊤[𝐭]×𝐑𝐊−𝟏為基礎矩陣,[𝐭]×為向量𝐭 = (𝑡𝑥, 𝑡𝑦, 𝑡𝑧)⊤的斜對稱矩陣形式:
[𝐭]× = (
0 −t𝑧 t𝑦 t𝑧 0 −t𝑥
−t𝑦 t𝑥 0
) (4.3)
由於點𝑝̇′同樣在影像𝐼𝑡−1上產生了一條極線,限制了𝑝̇的位置,因此式 (4.2) 可對稱 擴充為雙向極幾何誤差:
𝛿(𝑝̇, 𝑝̇′; 𝐑, 𝐭) = ‖𝑝̇′T𝐅𝑝̇‖2
√(𝐅𝑝̇)02+ (𝐅𝑝̇)12+ ‖𝑝̇′T𝐅𝑝̇‖2
√(𝐅⊤𝑝̇′)02+ (𝐅⊤𝑝̇′) 12 (4.4)
其中(𝐅𝐱)𝑖表示為極線𝑙 = 𝐅𝐱的第𝑖 = {0,1,2}個係數。式 (4.4) 在計算上較為繁瑣,本研 究採用近似其平方值之Sampson 距離[42][43],定義為:
𝛿̂2(𝑝̇, 𝑝̇′; 𝐑, 𝐭) = ‖𝑝̇′T𝐅𝑝̇‖2
(𝐅𝑝̇)02+ (𝐅𝑝̇)12+ (𝐅⊤𝑝̇′)02+ (𝐅⊤𝑝̇′) 12 ≅ 𝛿2(𝑝̇, 𝑝̇′; 𝐑, 𝐭) (4.5)
根據極幾何,兩幅影像間之特徵點追蹤𝑝̇𝑖(𝑢𝑖, 𝑣𝑖) ↔ 𝑝̇𝑖′(𝑢𝑖′, 𝑣𝑖′) 對姿態估計(𝐑, 𝐭)產生另一 個目標函數:
32
∅EPI(𝐑, 𝐭) = ∑ 𝛿̂2(𝑝𝑖̇ , 𝑝̇𝑖′; 𝐑, 𝐭)
𝑖
(4.6)
圖 4-1 極幾何誤差示意圖
4.3 光度誤差模型
除前述兩項幾何模型外,本研究結合直接視覺估測法中常用之光度誤差模型 (photo-consistency) 建 立 第 三 個 目 標 函 數 , 以 影 像 投 影 位 置 與 預 期 位 置 之 亮 度 值 (intensities) 評估本體移動之正確性。
在節 4.1 當中提到的重投影幾何誤差,考慮兩張影像當中對應的特徵點,以時間 𝑡 之二維影像中的投影位置作為理想的投影點,使用估計的本體移動參數將時間 𝑡 − 1 之三維空間座標轉換並投影於時間點 𝑡 與之比較,實際投影與理想位置間的距離就可 用以評估本體移動的準確度。而在不使用特徵空間轉換的 VO 演算法中,兩個時間點影
33
像間的對應關係並無法預先透過特徵值匹配得知,此情況下則改採用像素之深度與兩幅 影像的亮度值作為依據,將特徵點投影至 𝑡 ,並以其在影像 𝑡 − 1 中之亮度值作為參 考,與實際投影位置的亮度比較其相似性,進而評估本體移動之準確度。亮度誤差函數 定義為:
𝜌(𝑝̇, 𝑃, 𝐼, 𝐼′; 𝐑, 𝐭) = 𝐼(𝑝̇) − 𝐼′(𝜋𝐊(𝐑 ∙ 𝑃 + 𝐭) ) (4.7)
其中 𝑝̇ 與 𝑃 分別為特徵點於時間 𝑡 − 1 之影像與三維座標,而 𝐼 與 𝐼′ 分別為時間 𝑡 − 1 與 𝑡 取得之亮度影像。
直接比較光度的策略,能在影像模糊、無法準確偵測像素特徵值時作為 VO 的參考 依據。在下列情況中,式 (4.7) 能有效反應本體移動估測 (𝐑, 𝐭) 之準確性:
1. 影像感測器之曝光條件恆定,或在兩個時間點間變化不大 2. 特徵點對應的表面亮度恆定,或在兩個時間點間變化不大 3. 特徵點在時間點 𝑡 中並沒有被遮蔽
4. 深度估計𝑃準確
為了克服單一像素受雜訊干擾或不符合以上條件,式 (4.7) 可以延伸使用像素鄰近區塊,
以區塊間之 SAD 或 SSD 評估圖像間的相似度。在本研究中,我們考慮所有於 𝐼 取得 之特徵點,無論是否自 𝑡 − 1 成功匹配至 𝑡,皆計入光度誤差。依此概念,定義光度 目標如下:
ϕPHOTO(𝐑, 𝐭) = ∑‖𝜌(𝑝𝑗̇ , 𝑃𝑗, 𝐼, 𝐼′; 𝐑, 𝐭)‖2
𝑗
(4.8)
34
4.4 結合多目標之最佳化模型
本研究結合 (4.1)、(4.6) 與 (4.8) 式,改寫 3.6 節的最佳化目標 (3.23) 式,形成一 個三重目標之本體移動估計模型:
Φ(𝐑, 𝐭) = 𝜙RPE(𝐑, 𝐭) + 𝜙EPI(𝐑, 𝐭) + 𝛼 ⋅ 𝜙PHOTO(𝐑, 𝐭) (4.9)
其中加入了係數α ≥ 0,調整光度誤差之權重。該模型之前兩項𝜙RPE與𝜙EPI為幾何誤差,
單位為像素平方,而第三項𝜙PHOTO為影像亮度值平方差,由於該單位與前兩項相異,因 此加入 α 作單位調整。在下一章中,我們以實驗方式探討此三種模型各種組合時對 VO 估測之影響。
35