緒論 - 應用於三維立體視訊之低複雜度深度圖壓縮演算法

1.1 背景介紹

多重視角影片是目前熱門的應用之一，和過去不同是，傳統影片不能隨使用者的喜好任意切換視角；而現在卻可以讓使用者依照自己的喜好，選擇自己想要觀賞場景的視角。為了達到此目的，廠商需要在任一個視角加裝攝影機以獲得該角度之影片；後果是除了會大量增加硬體成本之外，在傳輸影片的網路頻寬上也面臨極大的挑戰。因此，如何減少硬體成本和傳輸影片所需要的網路頻寬便是目前需要解決的課題，而多重虛擬視角合成技術可以解決上述之問題。

近幾年，MPEG 組織為了能夠有效減少硬體成本且達到可以觀賞任意視角影片的目標，而訂立新的資料格式 ─ Multi-view video plus depth [1]，此格式用來表示多重視角影片及任何視角之像素都各自擁有深度值；深度值為相機與實際物體之深度關係，此深度值可描述 3D 場景之幾何空間資訊。一旦具備 3D 幾何空間的資訊，即可利用現有的影片及其對應之深度值以合成任意視角的影片，這個技術稱為 Depth-image-based rendering ( DIBR ) [2][3][4][5]。每個像素對應的深度值，若以影像的方式儲存之，則稱之為深度圖。因此，深度圖是以二維影像表示該自然影像在 3D 場景之深度值，提供合成虛擬影像之用，如圖 1。

(a) (b) 圖 1 (a)自然影像；(b) 與(a)對應之深度圖

DIBR 在內容格式之要求上，需要參考影像及其對應的深度圖。在接收端，

深度圖的取得方式有兩種：一、接收端獨立產生各個參考視角之深度圖，其缺點為運算複雜度非常可觀，無法即時產生合成虛擬視角之影像，而延遲播放影片之速度。二、深度圖經由傳送端傳輸至接收端，但是每個像素深度值是由 8 個位元所組成，所以深度圖佔全部資料量的 25%，如果深度圖資訊不經過壓縮的話，勢必在網路頻寬的限制下，亦無法即時合成虛擬影像以提供使用者觀賞。

為了減少網路頻寬的使用，MPEG 組織致力於多重視角影片格式的壓縮，以 H.264/AVC 為基礎，結合 Temporal 和 Inter-view 的移動補償及視差補償估測技術，發展出多重視角影片壓縮 ( Multi-view Video Coding，簡稱 MVC ) 之標準，此壓縮標準亦適用於深度圖之壓縮。

(a)

(b)

圖 2 (a) 原始深度圖及其合成影像；(b) 重建深度圖及其合成影像

1.2 研究動機

由於現今的影像壓縮技術是針對人眼視覺對自然影像之邊界及細緻的地方較不敏銳之特性所設計，而 MVC 亦是如此，並且在壓縮深度圖上達到不錯的壓縮效率。MVC 之特點是原本由空間定義上的 Residual 值經過離散餘弦轉換後成為頻率定義的資料型態，接著再量化訊號而產生失真；但是，深度圖是表示 3D 場景的幾何空間之資訊，對於物體邊界及細緻的地方不能產生失真，否則會產生嚴重的合成影像瑕疵。因此，深度圖和自然影像之特性是完全不同，需要有一套針對深度圖壓縮之演算法；如果選用 MVC 來壓縮深度圖，則深度圖容易在高、低頻訊號產生幾何資訊上的失真，尤其高頻訊號之失真會在合成虛擬影像時產生不可預期的瑕疵。如圖 2，深度圖的人之背部經由 MVC 壓縮並重建後，

產生失真，後果是在合成虛擬影像時，人之背部產生明顯的合成錯誤。

為了合成較高品質的虛擬影像，經實驗結果顯示，參考影像之品質不能太差，

所以本篇論文採用高品質的自然影像為參考影像，提供合成虛擬影像之用途。根據實驗統計，分別使用 MVC 的 Intra 和階層 B 影像壓縮架構 ( Hierarchical B Picture Coding Structure ) 之預測方式來壓縮深度圖，Intra 之深度圖與自然影像資料量的比例為 4%~9%，階層 B 影像壓縮架構之深度圖與自然影像資料量的比例為 1%~3%，由此可以得知兩者之深度圖資料量遠小於自然影像資料量；不過階層 B 影像壓縮架構的運算複雜度卻為 Intra 之數十倍，雖然使用階層 B 影像壓縮架構預測模式可以提高資料壓縮效率，不過其運算複雜度卻遠超過資料壓縮之好處。因此，考慮深度圖資料量遠不及自然影像資料量之情況下，選用 Intra 之預測方式來壓縮深度圖，企圖降低深度圖之運算複雜度。

除此之外，對於主觀視覺或是客觀分析的比較上，顯示深度圖資訊較原始影像單純。因此，本篇論文希望在不影響主、客觀的品質之下，針對深度圖之特性提出簡單且更有效率的方式，壓縮深度圖。

1.3 研究貢獻

本篇演算法與 MVC 之 Intra 預測方式不同的地方最主要可以分成三種：

1. 預測深度值部份，MVC 採用相鄰區塊的像素深度值估測目前區塊的像素深度值；本篇論文在每個區塊採用眾數演算法，挑選代表該區塊之深度值。

2. 資料量化器設計部份，MVC 採用純量量化器精簡資料輸出值的種類數至一個較小的集合裡；本篇論文則以門檻量化器將不同於眾數之像素深度值，取代為眾數深度值。

3. 資料型態部份，MVC 將空間定義的 Residual 值經過離散餘弦轉換後成為頻率定義之資料型態；本篇論文直接採用空間定義的資料型態處理像素深度值。

因此，本篇論文提出壓縮深度圖之架構，如圖 3，其最主要之貢獻如下：

1. 傳送端壓縮深度圖之前，每個區塊經由眾數演算法，挑選出眾數及需要傳輸至接收端之剩餘深度資訊，本篇論文稱此為 Residual，部份與眾數不同的像素深度值會經由門檻量化器而產生失真。

2. 傳送端使用 1D 掃瞄的方式將剩餘深度資訊排列，並比較相鄰深度資訊間是否可以經由估測之方式重建該深度值。最後資訊以無失真壓縮之方式傳輸至接收端。

3. 當接收端重建深度圖之後，根據前處理端之眾數演算法產生的幾何資訊失真，設計線性權重的過濾器以重建該像素之深度值。

實驗結果顯示，在不影響客觀品質評量 PSNR 的情況下，相較於 MVC Intra 之預測方式，本論文之演算法不僅可以再下降 4% ~ 13% 的資料量，且運算複雜度也會下降 5%~15%。在同樣的網路頻寬的情況下，合成虛擬影像之主觀視覺也較 MVC Intra 之預測方式好。

1.4 論文編排

本篇論文的編排如下：第二章為 DIBR 以及現今深度圖壓縮演算法之簡介；

第三章為針對深度圖特性作分析；第四章為介紹本篇論文所提出的深度圖壓縮演算法；第五章為 MVC 與本篇論文演算法的主、客觀品質之比較；第六章為本篇論文之結論與未來展望。

圖 3 演算法之流程圖

在文檔中應用於三維立體視訊之低複雜度深度圖壓縮演算法 (頁 10-15)