• 沒有找到結果。

第二章 相關研究

2.4 以卷積神經網路搜尋模型

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

10

的筆觸搜尋模型結果,Wang 等人提出要將筆觸圖與模型投影圖連結並產生特徵 向量。所使用的方法就是運用暹羅卷積神經網路,這種神經網路常運用於不同 類型的資料整合上,將此種神經網路分別使用在筆觸圖與模型投影圖兩端,會 個別得到一組特徵向量。再將這兩組特徵向量經由損失函數減少差異性後,得 出一個最終特徵向量。使用上述的特徵整合架構後,得到的準確度比起以往的 方法都還要好,下圖六為執行後的結果,最左邊為輸入的筆觸圖,由左至右為 相似度由高至低。對於暹羅卷積神經網路的應用,我們也列為未來可採用的結 構,雖然這麼做喪失了一部分自由度,但是從此論文中看出可以用少量的模型 投影圖,得到相當不錯的準確度成果。

圖 六. 筆觸圖搜尋模型結果,淺藍色為正確結果(摘自[Fang 2015]) (最左邊為輸入的手繪圖)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

第三章 研究方法與步驟 3.1 系統架構

圖 七. 系統架構圖

Contours 的線條風格投影且描繪成模型投影描繪圖,之所以選擇這兩種描繪方式,

是由於先前論文[Etiz 2012;Su 2015;Wang 2015]對於這兩種描繪方式,哪一種更好 各有千秋。有了模型投影描繪圖就需要取得該圖的特徵向量,因為我們可以透過

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

13

3.2 模型的投影

模型的資料來源與分類皆來自於Princeton Shape Benchmark(PSB)[Shilane 2004],總共有1,814個模型,訓練集(training set)和測試集(testing set)各907個模型,

訓練集有90個類別,測試集有92個類別,兩者盡量相近。

為了減少資料庫的資料量與搜尋的時間,不可能對每一個模型都給予三百六 十度視角的投影,根據先前論文[Eitz 2012]的統計,一個模型平均要使用14.4個 投影去描述,此篇論文[Su 2015]也將模型投影成12個面。與此不同處是我們不採 用攝影機繞著中心點水平旋轉,我們選用一個十二面體包覆在模型外圍,並且將 相機放置在每一面的中心點,相機的方向指向模型中心點,模型中心點是將該模 型的邊界盒 (Bonding Box)先求出後將長寬高分別除以二得到的結果。下圖八為 其中一個結果。

圖 八. 使用十二面體投影結果

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

14

訓練集中有907個模型,每個模型有12個投影,也就是有10,884張圖需要做特 徵提取與分群。根據實驗結果這大大的增加了許多雜訊,若是該模型左右上下對 稱性強,則在投影的角度增加情況下,該模型被搜尋到的機率也就會提升。為此 我們將投影數減少到4面,由模型的正面、側面、上面和下面四個視角做投影,

這麼做除了增加準確度外也加快搜尋資料庫的速度,投影圖如下圖九。

圖九的第一張圖是模型讀取進系統後的初始投影,可以發現若是沒有旋轉到 其他角度,是難以發現這個模型是一台戰鬥機,因此是有其必要進行模型投影。

而本論文最後採用的角度為基本的三視圖,這是由於從模型的上和下視角投影成 的圖片相似度高,多餘的圖片會增加雜訊,反而降低平均準確度,詳細的數據將 在第五章做呈現。

3.3 建立資料庫

本篇論文所選用的是手繪圖片[Eitz 2012]資料庫,與一般圖片資料庫[Lee 2011]不同,不需要生成邊緣圖與長邊偵測,僅需要做特徵偵測和生成特徵向量。

特徵的提取方式採用 BOF (Bag-Of-Feature) 圖片檢索策略[Squire 1999; Sivic and Zisserman 2003]和卷積神經網路(Convolutional Neural Network) 策略[Krizhevsky 2012]。詳細的方法說明我們會在 3.3.2 節和 3.3.3 節做介紹。

圖 九. 使用四面投影

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

15

3.3.1 投影圖描繪

如同先前多數論文皆選用 Canny Line[Canny 1986]和 Suggestive Contours [DeCarlo et al. 2003]兩者之一,我們也會對兩者做評估,首先介紹使用 Canny Line 去針對投影完成圖做描繪。Canny 等人的目標是找到一個最佳的邊緣檢測算法,

最佳邊緣檢測的定義有三點;第一點,盡可能增加標識出圖片中的實際邊緣。第 二點,標識出的邊緣要與實際圖片中的實際邊緣盡可能地接近。最後一點,圖片 中每個邊緣只能標識一次,並且可能存在的圖片雜訊不應標識為邊緣。根據以上 原則實踐後得到的描繪圖如下圖十。使用的最小閥值為 50,最大閥值為 150,當 該像素點的梯度值大於最大閥值則被當成邊緣,若小於最小閥值則捨棄。

Suggestive Contours 方法的目的是將模型內部的輪廓線描繪出來,因為以往 的方法只呈現外部輪廓線,這會失去很多模型的特徵。因此 DeCarlo 等人加強 輪廓線給予的形狀資訊並結合非擬真算圖技術 (Non-Photorealistic

Rendering) ,於模型內部產生輔助輪廓線,並且提供互動式修改特徵線去描述 模型。下圖十一為我們系統實現的結果,除了使用 DeCarlo 等人提出的模型 Suggestive Contours 方法外,我們也參考了[Potcharapol 2013]對於 Suggestive Contours 的改良,所有的模型都有先經過簡化成一半網格,並經由使用

Openmesh 函數庫處理。這麼做是因為一來網格的減少讓執行更省時,又可以檢 查是否有錯誤的網格,若有發現則對其進行刪除。得到一組輪廓資訊後,再針 對此資訊做進一步的簡化處理,並過濾掉多餘的輪廓線,最後的結果為下圖十 一的第二、四張圖片。

圖 十. 使用 Canny Line 描繪模型投影圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

有了上述兩種方法的投影描繪圖之後,我們便比較了在同個模型下的投影 結果。下圖十二為執行後的結果,中間為 Suggestive Contours 結果,右邊為 Canny Line 所描繪的模型投影圖。

可以由上圖看出,Suggestive Contours 比起 Canny Line 更能過濾掉不必要的線 條,尤其是網格的簡化,可以觀察圖十二中間與右邊圖片的差異,翅膀的部位 尤其明顯。加上本論文目的要和使用者的筆觸圖做比對,觀察手繪圖資料庫和 使用者繪畫時的行為,使用者通常會用盡可能少的線條去描繪物體,也就是說 模型的投影圖要越簡單越好,但是又不可以失去應當有的模型特徵,因此我們 選用 Suggestive Contours 方法去繪製模型投影圖。

圖 十一. 使用 Suggestive Contours 描繪模型投影圖

圖 十二. 比較 Suggestive Contours 和 Canny Line 描繪模型投影圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

17

3.3.2 Bag-Of-Feature 檢索

BOF 檢索技術仿照文字檢索領域的文字圖片檢索(Bag-of-Words)方法,把輸 入的每幅圖片切割為數個局部區域,並且描述為多個關鍵點特徵的無序集合。將 產生出來的無序集合,使用聚類演算法對局部特徵進行分群,每個分群中心被視 為是詞典中的一個視覺詞彙(Visual Word),相當於文字檢索方法中的詞,視覺詞 彙由分群中心對應特徵形成的編碼向量來表示,也可稱為一種特徵量化的過程。

所有視覺詞彙形成一個視覺詞典(Visual Vocabulary),對應生成一本特徵向量的 詞典,即特徵向量的集合,視覺詞典中所含視覺詞彙的個數反映了詞典的大小。

圖片中的每個特徵都將被映射到視覺詞典的某個詞上,也就對應到資料庫中的某 個圖片。在輸入查詢圖片後,對查詢圖片也做一次特徵處理,產生一組代表該圖 片的字詞,這組字詞就是特徵向量。接著就像人們查詢字典一樣,使該字詞與視 覺詞典中的視覺詞彙最比對。比對方式可以通過計算特徵間的距離去實現,然後 統計每個視覺詞彙的出現與否或者出現次數,則可以將此查詢圖片描述為一個維 數相同的直方圖向量,即 BOF 檢索技術(Bag-of-Features)。下圖十三為 BOF 檢索 技術的運作流程圖,輸入圖為我們資料庫中的模型投影圖,此圖中為示意圖,因 此其中的數據並非真實資料。

有了特徵向量後,需要將特徵區塊做分群生成視覺詞彙(Visual Vocabulary) , 我們使用 K-means 分群法,這是一種聚類(Cluster)的分群方式,聚類基本上就是 依照著物以類聚的方式在進行,也就是相似的東西有著相似的特徵,給予一組資

這是因為就像英文文章中會常出現 the,this,he 等字詞,這些字詞相當常出現,

但是這些字詞是沒有判斷文章特色的價值,如果某個詞或短語在一篇文章中出現 的頻率高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區 分能力,適合用來分類。當沒有判斷價值的字詞被選錄到辭彙後,會無謂的增加 資 料 量 和 拖 慢 搜 尋 速 度 。 因 此 我 們 採 用 了 term frequency-inverse document frequency( Tf-idf) 權重演算法,將出現頻率高的字詞做刪減,重新給予權重值。

根據此權重值,建立比較特徵向量的索引檔。

𝑆

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

間的情況下,提升圖片的描述與準確度。卷積神經網路的非全連接和權值共享的 網路結構使之更類似於生物神經網路,且還降低了網絡模型的複雜度,也減少了 權值的數量。在輸入是多維圖片時表現的更為明顯,將圖片直接作為網路的輸入,

免去了傳統圖片檢索架構中復雜的特徵提取和數據重建過程。卷積神經網路是為 了識別二維形狀而特殊設計的一個多層感知器,此種網絡結構對平移、比例縮放、

傾斜或者共他形式的變形具有高度不變性。對於不好處理的圖片深度學習結構來 說,這是非常重要的,為此我們選擇了卷積神經網路。

卷積神經網路根據使用者的需求又有許多不同的架構變化,為了可以快速的 進行特徵提取,我們使用的是這篇論文[Ken 2014]提出的 CNN-F 模型,運作流程 為下圖十四。

CNN-F 卷積神經網路模型與[Krizhevsky 2012]所提出的卷積神經網路模型相似。

不同處為卷積層和連接密度的減少。圖十四中可我們將看出輸入的圖片直接將整 張原圖調整到 224*224 的大小,而不是取圖片區塊。這麼做可以預防使用卷積核 的時候掉出邊界外。雖然不是將圖片切割後做特徵擷取,降低了一些準確度,但 是可以加速特徵擷取的運作。在第一層卷積層使用 64 種卷積核,每個卷積核大 小為 11*11,每次移動的步伐為 4。第二層卷積層則使用了 256 種卷積核進行卷 積,這 256 種是由第一層的 64 種加以混合使用所產生的,每個卷積核大小為 5*5。

第二層還將第一層產生的特徵對映加以池化縮小成二分之一,使用的方式為最大

第二層還將第一層產生的特徵對映加以池化縮小成二分之一,使用的方式為最大

相關文件