以卷積神經網路搜尋模型 - 相關研究 - 藉由直覺性素描與輔助影像的模型搜尋技術

第二章相關研究

2.4 以卷積神經網路搜尋模型

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的筆觸搜尋模型結果，Wang 等人提出要將筆觸圖與模型投影圖連結並產生特徵向量。所使用的方法就是運用暹羅卷積神經網路，這種神經網路常運用於不同類型的資料整合上，將此種神經網路分別使用在筆觸圖與模型投影圖兩端，會個別得到一組特徵向量。再將這兩組特徵向量經由損失函數減少差異性後，得出一個最終特徵向量。使用上述的特徵整合架構後，得到的準確度比起以往的方法都還要好，下圖六為執行後的結果，最左邊為輸入的筆觸圖，由左至右為相似度由高至低。對於暹羅卷積神經網路的應用，我們也列為未來可採用的結構，雖然這麼做喪失了一部分自由度，但是從此論文中看出可以用少量的模型投影圖，得到相當不錯的準確度成果。

圖六. 筆觸圖搜尋模型結果，淺藍色為正確結果(摘自[Fang 2015]) (最左邊為輸入的手繪圖)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法與步驟 3.1 系統架構

圖七. 系統架構圖

‧

Contours 的線條風格投影且描繪成模型投影描繪圖，之所以選擇這兩種描繪方式，

是由於先前論文[Etiz 2012;Su 2015;Wang 2015]對於這兩種描繪方式，哪一種更好各有千秋。有了模型投影描繪圖就需要取得該圖的特徵向量，因為我們可以透過

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 模型的投影

模型的資料來源與分類皆來自於Princeton Shape Benchmark(PSB)[Shilane 2004]，總共有1,814個模型，訓練集(training set)和測試集(testing set)各907個模型，

訓練集有90個類別，測試集有92個類別，兩者盡量相近。

為了減少資料庫的資料量與搜尋的時間，不可能對每一個模型都給予三百六十度視角的投影，根據先前論文[Eitz 2012]的統計，一個模型平均要使用14.4個投影去描述，此篇論文[Su 2015]也將模型投影成12個面。與此不同處是我們不採用攝影機繞著中心點水平旋轉，我們選用一個十二面體包覆在模型外圍，並且將相機放置在每一面的中心點，相機的方向指向模型中心點，模型中心點是將該模型的邊界盒 (Bonding Box)先求出後將長寬高分別除以二得到的結果。下圖八為其中一個結果。

圖八. 使用十二面體投影結果

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

訓練集中有907個模型，每個模型有12個投影，也就是有10,884張圖需要做特徵提取與分群。根據實驗結果這大大的增加了許多雜訊，若是該模型左右上下對稱性強，則在投影的角度增加情況下，該模型被搜尋到的機率也就會提升。為此我們將投影數減少到4面，由模型的正面、側面、上面和下面四個視角做投影，

這麼做除了增加準確度外也加快搜尋資料庫的速度，投影圖如下圖九。

圖九的第一張圖是模型讀取進系統後的初始投影，可以發現若是沒有旋轉到其他角度，是難以發現這個模型是一台戰鬥機，因此是有其必要進行模型投影。

而本論文最後採用的角度為基本的三視圖，這是由於從模型的上和下視角投影成的圖片相似度高，多餘的圖片會增加雜訊，反而降低平均準確度，詳細的數據將在第五章做呈現。

3.3 建立資料庫

本篇論文所選用的是手繪圖片[Eitz 2012]資料庫，與一般圖片資料庫[Lee 2011]不同，不需要生成邊緣圖與長邊偵測，僅需要做特徵偵測和生成特徵向量。

特徵的提取方式採用 BOF (Bag-Of-Feature) 圖片檢索策略[Squire 1999; Sivic and Zisserman 2003]和卷積神經網路(Convolutional Neural Network) 策略[Krizhevsky 2012]。詳細的方法說明我們會在 3.3.2 節和 3.3.3 節做介紹。

圖九. 使用四面投影

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.1 投影圖描繪

如同先前多數論文皆選用 Canny Line[Canny 1986]和 Suggestive Contours [DeCarlo et al. 2003]兩者之一，我們也會對兩者做評估，首先介紹使用 Canny Line 去針對投影完成圖做描繪。Canny 等人的目標是找到一個最佳的邊緣檢測算法，

最佳邊緣檢測的定義有三點；第一點，盡可能增加標識出圖片中的實際邊緣。第二點，標識出的邊緣要與實際圖片中的實際邊緣盡可能地接近。最後一點，圖片中每個邊緣只能標識一次，並且可能存在的圖片雜訊不應標識為邊緣。根據以上原則實踐後得到的描繪圖如下圖十。使用的最小閥值為 50，最大閥值為 150，當該像素點的梯度值大於最大閥值則被當成邊緣，若小於最小閥值則捨棄。

Suggestive Contours 方法的目的是將模型內部的輪廓線描繪出來，因為以往的方法只呈現外部輪廓線，這會失去很多模型的特徵。因此 DeCarlo 等人加強輪廓線給予的形狀資訊並結合非擬真算圖技術 (Non-Photorealistic

Rendering) ，於模型內部產生輔助輪廓線，並且提供互動式修改特徵線去描述模型。下圖十一為我們系統實現的結果，除了使用 DeCarlo 等人提出的模型 Suggestive Contours 方法外，我們也參考了[Potcharapol 2013]對於 Suggestive Contours 的改良，所有的模型都有先經過簡化成一半網格，並經由使用

Openmesh 函數庫處理。這麼做是因為一來網格的減少讓執行更省時，又可以檢查是否有錯誤的網格，若有發現則對其進行刪除。得到一組輪廓資訊後，再針對此資訊做進一步的簡化處理，並過濾掉多餘的輪廓線，最後的結果為下圖十一的第二、四張圖片。

圖十. 使用 Canny Line 描繪模型投影圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

有了上述兩種方法的投影描繪圖之後，我們便比較了在同個模型下的投影結果。下圖十二為執行後的結果，中間為 Suggestive Contours 結果，右邊為 Canny Line 所描繪的模型投影圖。

可以由上圖看出，Suggestive Contours 比起 Canny Line 更能過濾掉不必要的線條，尤其是網格的簡化，可以觀察圖十二中間與右邊圖片的差異，翅膀的部位尤其明顯。加上本論文目的要和使用者的筆觸圖做比對，觀察手繪圖資料庫和使用者繪畫時的行為，使用者通常會用盡可能少的線條去描繪物體，也就是說模型的投影圖要越簡單越好，但是又不可以失去應當有的模型特徵，因此我們選用 Suggestive Contours 方法去繪製模型投影圖。

圖十一. 使用 Suggestive Contours 描繪模型投影圖

圖十二. 比較 Suggestive Contours 和 Canny Line 描繪模型投影圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.2 Bag-Of-Feature 檢索

BOF 檢索技術仿照文字檢索領域的文字圖片檢索(Bag-of-Words)方法，把輸入的每幅圖片切割為數個局部區域，並且描述為多個關鍵點特徵的無序集合。將產生出來的無序集合，使用聚類演算法對局部特徵進行分群，每個分群中心被視為是詞典中的一個視覺詞彙(Visual Word)，相當於文字檢索方法中的詞，視覺詞彙由分群中心對應特徵形成的編碼向量來表示，也可稱為一種特徵量化的過程。

所有視覺詞彙形成一個視覺詞典(Visual Vocabulary)，對應生成一本特徵向量的詞典，即特徵向量的集合，視覺詞典中所含視覺詞彙的個數反映了詞典的大小。

圖片中的每個特徵都將被映射到視覺詞典的某個詞上，也就對應到資料庫中的某個圖片。在輸入查詢圖片後，對查詢圖片也做一次特徵處理，產生一組代表該圖片的字詞，這組字詞就是特徵向量。接著就像人們查詢字典一樣，使該字詞與視覺詞典中的視覺詞彙最比對。比對方式可以通過計算特徵間的距離去實現，然後統計每個視覺詞彙的出現與否或者出現次數，則可以將此查詢圖片描述為一個維數相同的直方圖向量，即 BOF 檢索技術(Bag-of-Features)。下圖十三為 BOF 檢索技術的運作流程圖，輸入圖為我們資料庫中的模型投影圖，此圖中為示意圖，因此其中的數據並非真實資料。

‧

有了特徵向量後，需要將特徵區塊做分群生成視覺詞彙(Visual Vocabulary) ，我們使用 K-means 分群法，這是一種聚類(Cluster)的分群方式，聚類基本上就是依照著物以類聚的方式在進行，也就是相似的東西有著相似的特徵，給予一組資

這是因為就像英文文章中會常出現 the，this，he 等字詞，這些字詞相當常出現，

但是這些字詞是沒有判斷文章特色的價值，如果某個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。當沒有判斷價值的字詞被選錄到辭彙後，會無謂的增加資料量和拖慢搜尋速度。因此我們採用了 term frequency-inverse document frequency( Tf-idf) 權重演算法，將出現頻率高的字詞做刪減，重新給予權重值。

根據此權重值，建立比較特徵向量的索引檔。

𝑆

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

間的情況下，提升圖片的描述與準確度。卷積神經網路的非全連接和權值共享的網路結構使之更類似於生物神經網路，且還降低了網絡模型的複雜度，也減少了權值的數量。在輸入是多維圖片時表現的更為明顯，將圖片直接作為網路的輸入，

免去了傳統圖片檢索架構中復雜的特徵提取和數據重建過程。卷積神經網路是為了識別二維形狀而特殊設計的一個多層感知器，此種網絡結構對平移、比例縮放、

傾斜或者共他形式的變形具有高度不變性。對於不好處理的圖片深度學習結構來說，這是非常重要的，為此我們選擇了卷積神經網路。

卷積神經網路根據使用者的需求又有許多不同的架構變化，為了可以快速的進行特徵提取，我們使用的是這篇論文[Ken 2014]提出的 CNN-F 模型，運作流程為下圖十四。

CNN-F 卷積神經網路模型與[Krizhevsky 2012]所提出的卷積神經網路模型相似。

不同處為卷積層和連接密度的減少。圖十四中可我們將看出輸入的圖片直接將整張原圖調整到 224*224 的大小，而不是取圖片區塊。這麼做可以預防使用卷積核的時候掉出邊界外。雖然不是將圖片切割後做特徵擷取，降低了一些準確度，但是可以加速特徵擷取的運作。在第一層卷積層使用 64 種卷積核，每個卷積核大小為 11*11，每次移動的步伐為 4。第二層卷積層則使用了 256 種卷積核進行卷積，這 256 種是由第一層的 64 種加以混合使用所產生的，每個卷積核大小為 5*5。

第二層還將第一層產生的特徵對映加以池化縮小成二分之一，使用的方式為最大

在文檔中藉由直覺性素描與輔助影像的模型搜尋技術 - 政大學術集成 (頁 17-0)

以卷積神經網路搜尋模型

第二章 相關研究

2.4 以卷積神經網路搜尋模型

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法與步驟 3.1 系統架構

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 模型的投影

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3 建立資料庫

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.1 投影圖描繪

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3.2 Bag-Of-Feature 檢索

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章相關研究

立政治大學

立政治大學

第三章研究方法與步驟 3.1 系統架構

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學