論文章節架構 - 緒論 - 藉由直覺性素描與輔助影像的模型搜尋技術

第一章緒論

1.4 論文章節架構

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

1.3 論文貢獻

本論文嘗試將筆觸資料庫與模型資料庫產生聯結，並即時的跟使用者繪畫作比對，提供使用者繪畫建議與三維模型搜尋結果，本論文的貢獻主要可以分為以下四大部分，各部分內容簡單敘述如下：

 實作出能藉由二維繪畫搜尋三維模型的系統，並且是能夠即時給予使用者相似於當前繪畫的手繪圖與模型回饋。

 探討 Bag-Of-Feature(BOF) 檢索和卷積神經網路 (Convolutional Neural Networks)兩種特徵提取方式，套用在本系統中的效率與即時性實現。

 比較三維模型投影圖在 Canny Line 和 Suggestive Contours 兩種方式，對於手繪圖與模型查準率的影響。

 提出之前論文提供的手繪圖資料庫中的缺陷，並請使用者繪畫新的手繪圖做更換。

1.4 論文章節架構

在第二章中，本論文將會介紹與本論文相關的研究背景知識，第三章為主要的研究方法與步驟，第四章為實驗結果呈現與分析比較討論，第五章為使用統計方式評估系統，第六章為結論與未來研究。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章相關研究 2.1 圖片特徵儲存方式

現今有許多的特徵描述方式，基本上可分為全域描述器和區域描述器，全域描述器用於尋找整張圖片的特徵，找出場景中的特徵區域。區域描述器只專注於圖片中的特定區域，並將這些區域描述結合起來作為描述該圖片的依據。目前很多都是基於[Squire et al. 1999; Sivic and Zisserman 2003]這兩篇論文所提出的 Bag-Of-Feature (BOF)概念做整理特徵與比對，方便搜尋階段的處理。

Sivic 和 Zisserman 希望可以搜尋影片中特定物件出現的位置，且這些物件可以有不同的角度與亮度，甚至只有部分出現也可以搜尋到。有別於之前的描述方式，Sivic 和 Zisserman 採用文字搜尋的概念去實作影像搜尋，文字搜尋分為以下幾個步驟：第一步，先將檔案切成以文字為單位的格式；第二步，將不同時態和表現的文字歸成同一類；第三步，創立一個 Stop list，將出現頻率高的文字收錄在這個列表，在搜尋時可以忽略該列表上的文字；最後一步，根據不同需求給予權重值，且創立一個索引檔以加速搜尋。

文字搜尋的流程套用到影像搜尋後，將輸入的圖片切成區塊來當作文字搜尋裡的文字，並把區塊依照其特徵向量的表示歸類成不同群組，再將出現較多次的區塊排除後產生 BOF，用以代表該圖片的特徵，因為資料的表示方式統一化和簡化後，後續的搜尋也可以更有效率且更快速。我們採用了他們提出的 BOF 架構，

並且加以改良。

下圖一為提取出來的特徵區塊經分類後得出的圖片展現。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2 以筆觸搜尋圖片

現今社會由於網路普及，大量的圖片和影片等的資料量迅速普及，如何有效地取得使用者想要取得的資訊就變得尤其重要。搜尋圖片有幾種方式，有關鍵字搜圖、以圖搜圖還有筆觸搜尋，目前研究以圖搜圖的論文較多，但是為了專注於繪畫搜尋，因此以下專注於繪畫搜尋的部分。這也是開啟本研究的概念，繪畫才是最能自由地表達想法的搜尋方式。

繪畫的時候，當技巧沒有很好或者對要畫的東西不熟悉的時候，雖然可以藉由直接描圖來克服，但是又失去原創感，因此 Lee 等人才實作了 Shadowdraw[Lee 2011]這個系統，Shadowdraw 主要分為兩個計算步驟：第一步是建立一個資料庫，

資料庫內的圖片如果是純手繪的圖片，搜尋效果會比較好，但是蒐集不易，所以採用將網路上的圖片轉成邊緣圖片方法，儲存成 30000 張圖片。第二步，當使用者開始繪畫的時候，同時去分析使用者的筆跡，並將得出的結果去跟資料庫中的資料做比對，找出前一百名的圖形，並且顯示在使用者的筆跡之下，產生提示性的陰影，用以幫助使用者會畫出想要的圖片。

圖一. 經分類後的區塊(摘自[Sivic and Zisserman 2003])

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

下圖二為使用者使用 Shadowdraw 的繪畫流程。

圖二. 使用者跟著陰影作畫流程(摘自[Lee 2011])

接著這篇論文[Jun 2014]又進一步的將原先只能是黑白的圖片改成彩色，將之呈現為平均圖片(Average Image) ，是一種藝術表現形式，也是一種圖片搜尋方法。Lee 等人將之應用的更廣泛，將 Google 上搜尋到的圖片單單平均起來的話，有時候是看不到所想的效果，例如搜尋貓，可能會有一隻貓或很多隻貓。

提供一個使用者介面，可以用筆觸強化想要搜尋的邊緣，用顏色搜尋想要不同種類的圖片，最後也是最有用的搜尋方式，就是區塊搜尋。把想要專注的圖片位置框選出來就可以看到同樣重要區塊的圖片平均，且是即時的反應給使用者，譬如可以專注於眼睛和鼻子，才可以在廣大的資料庫中找到想的人臉且帶有特殊藝術風格的平均圖片。

下圖三為使用者介面與操作時的系統截圖。

圖三. 使用者專注於眼睛和鼻子後產生貓的平均圖片(摘自[Jun 2014])

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.3 以筆觸搜尋模型

三維模型已經是現今許多產業必備的資源，例如房仲業會需要預售屋的模型、

衣服也可先預覽穿上的感覺、家具的擺設等等，可是從零開始建置一個模型是相當不容易的，需要有相關的專業知識才可以完成，即便修改也是繁瑣且不易。因此有許多的網站都有提供大量的模型庫，但是大部分都是以關鍵字搜尋為主並不直覺，而且較缺乏創作性和不準確。

以下這篇論文[Eitz 2012]是第一篇完整結合筆觸搜尋和模型搜尋的研究，之前模型搜尋的論文大多是結合關鍵字搜尋[Loffler 2000]或者以模型搜尋模型 [Funkhouser 2003] 。Eitz 等人將搜尋流程分為即時和非即時兩個方面，非即時的部分需要先將 Princeton Shape Benchmark (PSB) [Shilane 2004]模型庫作處理，也就是將模型依照不同角度去投影成二维圖片，再將蒐集到將近 2000 張的使用者繪畫圖片跟投影完的圖片做比對，得到比對結果後把這些資訊編碼成向量，存成 BOF 以加速搜尋。即時的部分則是要將輸入的筆觸做描述後存成 BOF，再將之與資料庫內的向量做比對，距離較近的向量會找到相對應的圖片，並且立即的顯示與之事先處理的關聯模型。本論文的系統架構就是參考此篇論文做改良，都是藉由手繪圖來搜尋模型，將特徵提取的方式改為卷積神經網路，模型投影也減少到三個面。下圖四為使用者繪畫搜尋後得到的結果序列。

圖四. 使用者繪畫後得到的模型，順序為相似程度排序(摘自[Eitz 2012])

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

搜尋到想要的模型後就是個人化的加工與美化，由於修改模型也是需要時間和人力去處理，所以以下這兩篇論文[Siddhartha 2010]和[Daniel 2014]就針對簡化後製步驟提出討論。

Siddhartha 等人提供了部位模型資料庫，將模型根據使用者關注的位製作切割，在使用者僅提供簡單的原型下，給予推薦序列去供使用者作組裝與黏合，這些部位都是現有模型的部位，因此有一定的完成度，不需要再經過細微的修正。只要再經過適當的顏色和亮度處理就是一個很好的模型。

從一個只有輪廓的角色到可以完成簡單動作的模型動畫是需要大量的時間和人力的，因此為了把手繪角色完成到動畫原型的步驟簡化，Daniel 等人提出了當使用者繪製好一個角色後，只要做簡單的區塊切割提示和決定區塊上下層順序後，系統就會自動的把二維的輪廓擠出成三維的模組，但是這個模組只有一半，為了減少生成的時間，所以只生成畫面可視的部分。接著藉由外部軟體即可以打上不同的光和貼上不同材質，產生各式各樣風格的模型。此篇論文給了我們系統未來發展的想法，可以讓使用者對於搜尋結果做簡單的後製。

下圖五為從二维到三維的轉換流程，圖(a)為區塊分割，圖(b)為深度調整。

圖五. 圖(a)和(b)為使用者操作，圖(c)~圖(e)為自動生成(摘自[Daniel 2014])

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

的筆觸搜尋模型結果，Wang 等人提出要將筆觸圖與模型投影圖連結並產生特徵向量。所使用的方法就是運用暹羅卷積神經網路，這種神經網路常運用於不同類型的資料整合上，將此種神經網路分別使用在筆觸圖與模型投影圖兩端，會個別得到一組特徵向量。再將這兩組特徵向量經由損失函數減少差異性後，得出一個最終特徵向量。使用上述的特徵整合架構後，得到的準確度比起以往的方法都還要好，下圖六為執行後的結果，最左邊為輸入的筆觸圖，由左至右為相似度由高至低。對於暹羅卷積神經網路的應用，我們也列為未來可採用的結構，雖然這麼做喪失了一部分自由度，但是從此論文中看出可以用少量的模型投影圖，得到相當不錯的準確度成果。

圖六. 筆觸圖搜尋模型結果，淺藍色為正確結果(摘自[Fang 2015]) (最左邊為輸入的手繪圖)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究方法與步驟 3.1 系統架構

圖七. 系統架構圖

‧

Contours 的線條風格投影且描繪成模型投影描繪圖，之所以選擇這兩種描繪方式，

是由於先前論文[Etiz 2012;Su 2015;Wang 2015]對於這兩種描繪方式，哪一種更好各有千秋。有了模型投影描繪圖就需要取得該圖的特徵向量，因為我們可以透過

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 模型的投影

模型的資料來源與分類皆來自於Princeton Shape Benchmark(PSB)[Shilane 2004]，總共有1,814個模型，訓練集(training set)和測試集(testing set)各907個模型，

訓練集有90個類別，測試集有92個類別，兩者盡量相近。

為了減少資料庫的資料量與搜尋的時間，不可能對每一個模型都給予三百六十度視角的投影，根據先前論文[Eitz 2012]的統計，一個模型平均要使用14.4個投影去描述，此篇論文[Su 2015]也將模型投影成12個面。與此不同處是我們不採用攝影機繞著中心點水平旋轉，我們選用一個十二面體包覆在模型外圍，並且將相機放置在每一面的中心點，相機的方向指向模型中心點，模型中心點是將該模型的邊界盒 (Bonding Box)先求出後將長寬高分別除以二得到的結果。下圖八為

在文檔中藉由直覺性素描與輔助影像的模型搜尋技術 - 政大學術集成 (頁 11-0)

論文章節架構

第一章 緒論

1.4 論文章節架構

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.3 論文貢獻

1.4 論文章節架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 相關研究 2.1 圖片特徵儲存方式

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2 以筆觸搜尋圖片

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.3 以筆觸搜尋模型

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章 研究方法與步驟 3.1 系統架構

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 模型的投影

第一章緒論

立政治大學

立政治大學

第二章相關研究 2.1 圖片特徵儲存方式

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

第三章研究方法與步驟 3.1 系統架構

立政治大學