藉由直覺性素描與輔助影像的模型搜尋技術 - 政大學術集成

全文

(1)國立政治大學資訊科學研究所 Department of Computer Science National Chengchi University 碩士論文 Master's Thesis. 立. 政治大. ‧ 國. 學. 藉由直覺性素描與輔助影像的模型搜尋技術. ‧. er. io. sit. y. Nat. Model Retrieval by Intuitive Sketching and Suggestive Reference. n. al. i n C 研究 h e生：李亞憲 ngchi U. v. 指導教授：紀明德. 中華民國一百零五年一月 January 2016.

(2) 藉由直覺性素描與輔助影像的模型搜尋技術 Model Retrieval by Intuitive Sketching and Suggestive Reference 研究生：李亞憲. Student: Ya-Hsien Lee. 指導教授：紀明德. Advisor: Ming-Te Chi. 國立政治大學治. 立. 政. 資訊科學系. 大. 碩士論文. ‧. ‧ 國. 學 A Thesis. Nat. sit. y. Submitted to Department of Computer Science. er. io. National Chengchi University. n. in partialafulfillment of the Requirements iv l. Cforhthe degree ofU n engchi Master in. Computer Science. 中華民國一百零五年一月 January 2016.

(3) 致謝本篇論文能完成要感謝的人太多，最首要感謝的是我的指導教授紀明德教授，在政治大學的兩年半中，從一開始的狀況外，到之後慢慢步上軌道，都是藉由老師的耐心指導。老師除了幫助我學習專業知識外，更是讓我可以勇於上台報告，我認為能清楚說明自己的想法是很重要的能力。當然我還要感謝我的家人，沒有他們的從. 治政旁支持及包容，是沒辦法走到這一步。研究生的時間相當充實，不大立 ‧ 國. 學. 管是有沒有修課，或是口試在即都多采多姿。尤其要感謝我的兩位同窗兼好朋友，浩翔與凱文，經常地聽我的無意義話、一起運動和. ‧. 一起打遊戲。謝謝臻騏幫實驗室處理了大大小小的事，謝謝已經畢. sit. y. Nat. 業的维晉和士豪學長給了我不少建議，謝謝汪禹和凱彬學長平日的. er. io. n. al 照顧。謝謝建凱、睿誠、春閔、育如、婷雅、承毅、逸修和佳霖花 iv. n U engchi 了不少時間幫助改善我的系統。謝謝貞佑、巧如、科豫在計畫上的. Ch. 幫忙、謝謝怡潔學姐、明慶學長在研究上的幫忙。這段時間還有許多人要感謝，在此不能全部列出十分抱歉。最後要將完成此篇論文的雀躍與成就感分享給大家，再次謝謝。. i.

(4) 藉由直覺性素描與輔助影像的模型搜尋技術. 摘要本篇論文建立一個藉由直覺性素描搜尋模型的系統，結合筆觸繪圖搜尋手繪圖與模型。希望可以藉由本系統，提供使用者比起關鍵字或模型搜尋模型，更加方便的模型搜尋工具。系統主要分為建立. 治政索引檔、比對特徵向量和使用者介面三個部分。建立索引檔部分要大立 ‧ 國. 學. 將三維模型處理成資料庫可認知的資料型態，首先將模型旋轉到不同角度並且將之從三維空間描繪成二維模型投影圖，再透過分類演. ‧. 算法把模型投影圖和手繪圖描述為二維特徵向量。比對特徵向量部. sit. y. Nat. 分需建立手繪圖資料庫和三維模型資料庫的橋梁，藉由計算兩者的. er. io. n. al 特徵向量之間的距離與角度，得到相似度的排序。使用者介面部分 iv n U engchi 提供直覺性使用者繪畫的介面，以不影響使用者創造性的前提下，. Ch. 在使用者繪畫過程中給予最相似於使用者繪畫的手繪圖結果，使用者可以藉由臨摹此結果更貼近所想繪畫的物體，更進一步地取得模型的搜尋結果。最後我們將透過統計方法去驗證系統的有效性。. ii.

(5) Model Retrieval by Intuitive Sketching and Suggestive Reference Abstract. We proposed an intuitive model retrieval system with a sketch interface for a database contains sketch drawings and 3D models. Benefit the sketch. 政治大 keyword query or search by 3D model. The system begins with offline 立 interface, the proposed system can facilitate the search process better than. indexing preprocess which convert the 3D models into feature vectors.. ‧ 國. 學. Under best view selection, we render each 3D model into a 2D feature line. ‧. image. Then classification method will apply the line images and sketching. sit. y. Nat. images in model database to build the feature vector. The rank of matching. io. er. is computed with the angle between the feature vector of input sketch image and feature line images in the database. To extend the usability, we. al. n. v i n C hsearching the best design a sketch interface for match result during the engchi U drawing process. For suggesting the drawing hint, candidate matching results are listed aside to the sketch input screen. We use statistical method to evaluate the feasibility of the proposed system.. iii.

(6) 目錄. 摘要 ......................................................................................................................ii Abstract ...............................................................................................................iii 目錄 ..................................................................................................................... iv 圖目錄.................................................................................................................. vi 第一章. 緒論 ................................................................................................... 1. 1.1 研究動機與目的 ......................................................................................... 1. 治政 1.2 問題描述 .................................................................................................... 2 大立 1.3 論文貢獻 .................................................................................................... 3 ‧ 國. 學. 1.4 論文章節架構............................................................................................. 3 相關研究 ........................................................................................... 4. ‧. 第二章. 2.1 圖片特徵儲存方式 ..................................................................................... 4. y. Nat. io. sit. 2.2 以筆觸搜尋圖片 ......................................................................................... 5. n. al. er. 2.3 以筆觸搜尋模型 ......................................................................................... 7. Ch. i n U. v. 2.4 以卷積神經網路搜尋模型 .......................................................................... 9 第三章. engchi. 研究方法與步驟 ...............................................................................11. 3.1 系統架構 ...................................................................................................11 3.2 模型的投影 ...............................................................................................13 3.3 建立資料庫 ...............................................................................................14 3.3.1 投影圖描繪 ..........................................................................................15 3.3.2 Bag-Of-Feature 檢索............................................................................17 3.3.3 卷積神經網路 .......................................................................................20 3.4 搜尋結果排序............................................................................................22 3.4.1 相似度比對 ..........................................................................................22 iv.

(7) 3.4.2. 結果排序 ..............................................................................................23. 3.5 修改手繪資料庫 ........................................................................................25 第四章. 實驗結果與討論 ...............................................................................32. 4.1 實作與實驗環境 ........................................................................................32 4.2 評估方法 ...................................................................................................32 4.3 實作與實驗結果 ........................................................................................33 4.3.1 模型投影圖搜尋模型投影圖 ................................................................34 4.3.2 手繪圖搜尋手繪圖 ...............................................................................35 4.3.3 手繪圖搜尋模型投影圖 ........................................................................36. 第六章. 結論與未來發展 ...............................................................................43. ‧ 國. 4.3.4. 學. 第五章. 治政即時繪畫搜尋 ....................................................................................... 37 大立實驗數據與比較 ...............................................................................39. 參考文獻 .............................................................................................................45. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. v. i n U. v.

(8) 圖目錄圖一. 圖二. 圖三. 圖四. 圖五. 圖六.. 經分類後的區塊(摘自[Sivic and Zisserman 2003])............................................ 5 使用者跟著陰影作畫流程(摘自[Lee 2011]) ...................................................... 6 使用者專注於眼睛和鼻子後產生貓的平均圖片(摘自[Jun 2014])................... 6 使用者繪畫後得到的模型，順序為相似程度排序(摘自[Eitz 2012]) .............. 7 圖(a)和(b)為使用者操作，圖(c)~圖(e)為自動生成(摘自[Daniel 2014]) ......... 8 筆觸圖搜尋模型結果，淺藍色為正確結果(摘自[Fang 2015]) ...................... 10. 圖圖圖圖圖圖. 七. 系統架構圖........................................................................................................ 11 八. 使用十二面體投影結果.................................................................................... 13 九. 使用四面投影.................................................................................................... 14 十. 使用 Canny Line 描繪模型投影圖.................................................................. 15 十一. 使用 Suggestive Contours 描繪模型投影圖 ................................................. 16. 圖圖圖圖圖圖圖圖圖. 十六. 模型計算分數示意圖.................................................................................... 25 十七. 未畫完的手繪圖與更換後的手繪圖............................................................. 26 十八. 添加文字的手繪圖與更換後的手繪圖........................................................ 27 十九. 類別錯誤的手繪圖與更換後的手繪圖........................................................ 27 二十. 添加額外特徵的手繪圖與更換後的手繪圖.............................................. 28 二十一. 繪畫部分的手繪圖與更換後的手繪圖.................................................... 29 二十二. 人無法辨識的手繪圖與更換後的手繪圖................................................ 30 二十三. 人可以辨識但是跟模型特徵不符的手繪圖與更換後的手繪圖............ 30 二十四. 模型投影圖搜尋模型投影圖結果............................................................ 34. 立. 政治大. ‧. ‧ 國. 學. 十二. 比較 Suggestive Contours 和 Canny Line 描繪模型投影圖......................... 16 圖十三. BOF 檢索技術系統流程圖 .......................................................................... 18 圖十四. CNN-F 模型流程(參考自[Ken 2012])............................................................ 21 圖十五. 模型分數計算虛擬碼.................................................................................... 24. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖二十五. 手繪圖搜尋手繪圖結果............................................................................ 35 圖二十六. 手繪圖搜尋模型結果................................................................................. 36 圖二十七. 增加特徵的手繪圖搜尋結果.................................................................... 37 圖二十八. 使用手繪圖模式的系統實作圖................................................................ 37 圖二十九. 使用三維模型模式的系統實作圖............................................................ 38 圖三十. 增加特徵的模型搜尋結果............................................................................ 38 圖三十一. Canny Line 和 Suggestive Contours 的比較圖........................................... 39 圖三十二. 修改手繪圖資料庫比較圖........................................................................ 41 圖三十三. 與先前論文的查全率-查準率比較圖 ....................................................... 42. vi.

(9) 第一章緒論 1.1 研究動機與目的自遠古時代開始，人類就使用繪畫來描述事件與物品，繪畫能力早於文字出現在世界上，古人們在洞穴石壁上描繪出當時的社會文化傳遞給後人知曉。即便在現今社會，使用繪畫傳遞想法也是最無國界的方式，不需要語言翻譯就可以和不同國家的人溝通有無。因此使用繪畫做為模型搜尋是相當直覺化，不需要輸入. 政治大. 關鍵字或自行製作模型來完成搜尋，且不用經過操作訓練就可以經由手繪方式找尋到心中所期望的結果。. 立. ‧ 國. 學. 三維模型在當代扮演了相當重要的角色，舉凡許多產業在生產成品前都需要. ‧. 先建立三維模型，例如工業零件、交通工具和醫療用品等等，生活中大至建築物. y. Nat. 小至牙齒都與三維模型脫不了關係。近幾年三維列表機價格下降造成普及率上升. er. io. sit. 不少，也讓普羅大眾可以更輕易地印製客製化的產品，發生了“自造者革命”，啟動人人皆可製造的第三次工業革命。. n. al. Ch. engchi. i n U. v. 當人們可以自由地列印想要的物品時，就會需要提供大量且各式各樣的模型以符合使用者的需求。又當模型資料庫建立後，如何快速又有效地找到想要的模型就成了一大課題。現今線上有許多模型資料庫，大都是使用關鍵字搜尋，關聯程度取決於模型上傳時的命名或給予的標籤名，那麼就會造成搜尋時可能發生想要的結果與搜尋實際結果不相符的現象。因此如何有效地解決上述問題並結合直覺式筆觸和模型搜尋，就成了本論文的研究目的。. 1.

(10) 1.2 問題描述本篇論文主要針對兩個方面進行討論，第一方面是手繪圖片與模型關聯資料庫的建立，第二方面為使比對使用者繪畫和資料庫具備即時性和互動性。根據以往的經驗，資料庫中的圖片通常都是使用現實中的照片，跟使用者繪畫產生的手繪圖自然會有所落差，因此本篇論文採用將近兩千張手繪圖片做為資料庫[Etiz 2012]。使用手繪資料庫與使用者繪畫作比對固然很好，但是會產生一個問題，如何有效地結合手繪資料庫與模型資料庫，不同於以往使用相片來產生特徵用於搜尋，而是直接使用手繪圖片，需要關注的特徵區域就不相同，且如何將抽象的手. 政治大. 繪圖片與輪廓明確的模型建立關聯性，並產生代表該圖片的特徵向量也是待解決. 立. 的問題。. ‧ 國. 學. 第二方面就是如何使比對使用者的繪畫和資料庫具備即時性和互動性，本系. ‧. 統藉由給予使用者回饋產生互動性，且這個回饋是可以適當地給予幫助，而不是. sit. y. Nat. 過度地指引。現今有系統需要使用者輸入文字標籤、顏色和繪畫去搜尋圖片[Cao. al. er. io. 2010]，或者將圖片分解成許多步驟直接請使用者照著繪畫[Dixon 2010]，這麼做. v. n. 可以確保使用者做出相似度很高的圖片，但是卻限制了使用者的創造性，如何在. Ch. engchi. i n U. 兩者間取得平衡便是本篇論文所關注的事情。接著是如何使資料庫比對使用者的繪畫和資料庫有即時性，如果每畫一個像素，就搜尋整個資料庫一次，這是相當費時的，因為資料庫中有將近兩千個模型，而這些模型又根據不同視角給予投影，每張投影還需要跟將近兩千張手繪圖片做匹配，會生成一個相當龐大的資料庫。想要達成即時的處理與搜尋資料庫勢必要先前置的處理大部份資料，即時的處理少部分資料，而要怎麼在資料庫的大小和即時搜尋的準確性之間取得平衡，就是本篇論文所探討的問題。. 2.

(11) 1.3 論文貢獻本論文嘗試將筆觸資料庫與模型資料庫產生聯結，並即時的跟使用者繪畫作比對，提供使用者繪畫建議與三維模型搜尋結果，本論文的貢獻主要可以分為以下四大部分，各部分內容簡單敘述如下： . 實作出能藉由二維繪畫搜尋三維模型的系統，並且是能夠即時給予使用者相似於當前繪畫的手繪圖與模型回饋。. . 探討 Bag-Of-Feature(BOF) 檢索和卷積神經網路 (Convolutional Neural. 政治大比較三維模型投影圖在立 Canny Line 和 Suggestive Contours 兩種方式，對. Networks)兩種特徵提取方式，套用在本系統中的效率與即時性實現。 . ‧ 國. . 學. 於手繪圖與模型查準率的影響。. 提出之前論文提供的手繪圖資料庫中的缺陷，並請使用者繪畫新的手繪. ‧. 圖做更換。. Nat. sit. y. 1.4 論文章節架構. n. al. er. io. 在第二章中，本論文將會介紹與本論文相關的研究背景知識，第三章為主要. i n U. v. 的研究方法與步驟，第四章為實驗結果呈現與分析比較討論，第五章為使用統計. Ch. engchi. 方式評估系統，第六章為結論與未來研究。. 3.

(12) 第二章相關研究 2.1 圖片特徵儲存方式現今有許多的特徵描述方式，基本上可分為全域描述器和區域描述器，全域描述器用於尋找整張圖片的特徵，找出場景中的特徵區域。區域描述器只專注於圖片中的特定區域，並將這些區域描述結合起來作為描述該圖片的依據。目前很多都是基於[Squire et al. 1999; Sivic and Zisserman 2003]這兩篇論文所提出的 Bag-. 政治大 Sivic 和 Zisserman 希望可以搜尋影片中特定物件出現的位置，且這些物件立. Of-Feature (BOF)概念做整理特徵與比對，方便搜尋階段的處理。. 可以有不同的角度與亮度，甚至只有部分出現也可以搜尋到。有別於之前的描述. ‧ 國. 學. 方式，Sivic 和 Zisserman 採用文字搜尋的概念去實作影像搜尋，文字搜尋分為. ‧. 以下幾個步驟：第一步，先將檔案切成以文字為單位的格式；第二步，將不同時. y. Nat. 態和表現的文字歸成同一類；第三步，創立一個 Stop list，將出現頻率高的文字. 給予權重值，且創立一個索引檔以加速搜尋。. al. er. io. sit. 收錄在這個列表，在搜尋時可以忽略該列表上的文字；最後一步，根據不同需求. n. v i n 文字搜尋的流程套用到影像搜尋後，將輸入的圖片切成區塊來當作文字搜尋 Ch engchi U. 裡的文字，並把區塊依照其特徵向量的表示歸類成不同群組，再將出現較多次的. 區塊排除後產生 BOF，用以代表該圖片的特徵，因為資料的表示方式統一化和簡化後，後續的搜尋也可以更有效率且更快速。我們採用了他們提出的 BOF 架構，並且加以改良。下圖一為提取出來的特徵區塊經分類後得出的圖片展現。. 4.

(13) 圖一. 經分類後的區塊(摘自[Sivic and Zisserman 2003]). 2.2 以筆觸搜尋圖片. 立. 政治大. 現今社會由於網路普及，大量的圖片和影片等的資料量迅速普及，如何有效. ‧ 國. 學. 地取得使用者想要取得的資訊就變得尤其重要。搜尋圖片有幾種方式，有關鍵字. ‧. 搜圖、以圖搜圖還有筆觸搜尋，目前研究以圖搜圖的論文較多，但是為了專注於. y. Nat. 繪畫搜尋，因此以下專注於繪畫搜尋的部分。這也是開啟本研究的概念，繪畫才. er. io. sit. 是最能自由地表達想法的搜尋方式。. 繪畫的時候，當技巧沒有很好或者對要畫的東西不熟悉的時候，雖然可以藉. al. n. v i n 由直接描圖來克服，但是又失去原創感，因此 Lee 等人才實作了 Shadowdraw[Lee Ch engchi U. 2011]這個系統，Shadowdraw 主要分為兩個計算步驟：第一步是建立一個資料庫，資料庫內的圖片如果是純手繪的圖片，搜尋效果會比較好，但是蒐集不易，所以採用將網路上的圖片轉成邊緣圖片方法，儲存成 30000 張圖片。第二步，當使用者開始繪畫的時候，同時去分析使用者的筆跡，並將得出的結果去跟資料庫中的資料做比對，找出前一百名的圖形，並且顯示在使用者的筆跡之下，產生提示性的陰影，用以幫助使用者會畫出想要的圖片。. 5.

(14) 下圖二為使用者使用 Shadowdraw 的繪畫流程。. 圖二. 使用者跟著陰影作畫流程(摘自[Lee 2011]) 接著這篇論文[Jun 2014]又進一步的將原先只能是黑白的圖片改成彩色，將. 政治大. 之呈現為平均圖片(Average Image) ，是一種藝術表現形式，也是一種圖片搜尋. 立. 方法。Lee 等人將之應用的更廣泛，將 Google 上搜尋到的圖片單單平均起來的. ‧ 國. 學. 話，有時候是看不到所想的效果，例如搜尋貓，可能會有一隻貓或很多隻貓。提供一個使用者介面，可以用筆觸強化想要搜尋的邊緣，用顏色搜尋想要不同. ‧. 種類的圖片，最後也是最有用的搜尋方式，就是區塊搜尋。把想要專注的圖片. y. Nat. sit. 位置框選出來就可以看到同樣重要區塊的圖片平均，且是即時的反應給使用. n. al. er. io. 者，譬如可以專注於眼睛和鼻子，才可以在廣大的資料庫中找到想的人臉且帶有特殊藝術風格的平均圖片。. Ch. engchi. 下圖三為使用者介面與操作時的系統截圖。. i n U. v. 圖三. 使用者專注於眼睛和鼻子後產生貓的平均圖片(摘自[Jun 2014]) 6.

(15) 2.3 以筆觸搜尋模型三維模型已經是現今許多產業必備的資源，例如房仲業會需要預售屋的模型、衣服也可先預覽穿上的感覺、家具的擺設等等，可是從零開始建置一個模型是相當不容易的，需要有相關的專業知識才可以完成，即便修改也是繁瑣且不易。因此有許多的網站都有提供大量的模型庫，但是大部分都是以關鍵字搜尋為主並不直覺，而且較缺乏創作性和不準確。以下這篇論文[Eitz 2012]是第一篇完整結合筆觸搜尋和模型搜尋的研究，之前模型搜尋的論文大多是結合關鍵字搜尋[Loffler 2000]或者以模型搜尋模型. 政治大部分需要先將 Princeton Shape 立 Benchmark (PSB) [Shilane 2004]模型庫作處理，也. [Funkhouser 2003] 。Eitz 等人將搜尋流程分為即時和非即時兩個方面，非即時的. ‧ 國. 學. 就是將模型依照不同角度去投影成二维圖片，再將蒐集到將近 2000 張的使用者繪畫圖片跟投影完的圖片做比對，得到比對結果後把這些資訊編碼成向量，存成. ‧. BOF 以加速搜尋。即時的部分則是要將輸入的筆觸做描述後存成 BOF，再將之. sit. y. Nat. 與資料庫內的向量做比對，距離較近的向量會找到相對應的圖片，並且立即的顯. al. er. io. 示與之事先處理的關聯模型。本論文的系統架構就是參考此篇論文做改良，都是. v. n. 藉由手繪圖來搜尋模型，將特徵提取的方式改為卷積神經網路，模型投影也減少. Ch. engchi. i n U. 到三個面。下圖四為使用者繪畫搜尋後得到的結果序列。. 圖四. 使用者繪畫後得到的模型，順序為相似程度排序(摘自[Eitz 2012]) 7.

(16) 搜尋到想要的模型後就是個人化的加工與美化，由於修改模型也是需要時間和人力去處理，所以以下這兩篇論文[Siddhartha 2010]和[Daniel 2014]就針對簡化後製步驟提出討論。 Siddhartha 等人提供了部位模型資料庫，將模型根據使用者關注的位製作切割，在使用者僅提供簡單的原型下，給予推薦序列去供使用者作組裝與黏合，這些部位都是現有模型的部位，因此有一定的完成度，不需要再經過細微的修正。只要再經過適當的顏色和亮度處理就是一個很好的模型。從一個只有輪廓的角色到可以完成簡單動作的模型動畫是需要大量的時間. 政治大. 和人力的，因此為了把手繪角色完成到動畫原型的步驟簡化，Daniel 等人提出. 立. 了當使用者繪製好一個角色後，只要做簡單的區塊切割提示和決定區塊上下層. ‧ 國. 學. 順序後，系統就會自動的把二維的輪廓擠出成三維的模組，但是這個模組只有一半，為了減少生成的時間，所以只生成畫面可視的部分。接著藉由外部軟體. ‧. 即可以打上不同的光和貼上不同材質，產生各式各樣風格的模型。此篇論文給. y. Nat. sit. 了我們系統未來發展的想法，可以讓使用者對於搜尋結果做簡單的後製。. n. al. er. io. 下圖五為從二维到三維的轉換流程，圖(a)為區塊分割，圖(b)為深度調整。. Ch. engchi. i n U. v. 圖五. 圖(a)和(b)為使用者操作，圖(c)~圖(e)為自動生成(摘自[Daniel 2014]) 8.

(17) 2.4 以卷積神經網路搜尋模型深度學習在現今的機器學習領域裡面已是常使用的技術。深度學習可看成是一種資訊的表達方式，利用多層神經網絡傳導的概念，首先輸入需要學習的數據，並產生輸出結果，第一層的輸出結果為第二層的輸入值，再經由學習產生新的輸出值，以此類推重覆把每層的資訊堆疊下去，透過這樣多層學習，可以得到對一個目標較好的特徵表示，相對準確率就能有所提升。目前有不少種深度學習框架，而卷積神經網路(CNN)則為其中一種，且已被應用在語音、影像. 政治大 Su 等人提出[Su 2015]將卷積神經網路應用到以模型搜尋模型方面。模型立. 辨識和手寫識別等等領域中。. 搜尋模型是用模型本身的資訊，例如體素或網格等三維資訊，又或者是經過投. ‧ 國. 學. 影後所產生的二維資訊呢？Su 等人為了知曉問題的答案，首先使用基本的卷積. ‧. 神經網路去訓練單一模型投影圖，並用以搜尋同類別的模型，套用的結果顯示. y. Nat. 投影後的二維資訊比起模型的三維資訊可以獲得更高的準確度。為了提升準確. er. io. sit. 度，Su 等人更進一步將模型投影成十二個面，使用卷積神經網路去對各個角度的投影做描述。再將此資訊做一次卷積神經網路處理後，預測出該模型所屬的. al. n. v i n 類別，呈現出的準確度高於僅用單一面投影和基本卷積神經網路。作者等人將 Ch engchi U 這新的模型搜尋架構稱之為多重視角卷積神經網路，並期許可以將之應用到現實中的模型辨識。此篇論文讓我們思考了將卷積神經網路應用到多個投影圖片的可能性，也造成選擇從投影成十二個面做為開始的契機。不同於上篇論文[Su 2015]，此篇論文[Wang 2015]是專注於以筆觸圖搜尋模型。Wang 等人認為不該專注於模型投影的視角選取，因為最佳視角通常是主觀且模糊的，大多是需要人為調整與改進。另一個處理筆觸圖搜尋的問題為建立筆觸圖特有的特徵，由於不同使用者對於同一物體的描述不盡相同，也需手動或主觀的調校。因此為了克服視角選取和筆觸圖特徵的問題，且要取得較好. 9.

(18) 的筆觸搜尋模型結果，Wang 等人提出要將筆觸圖與模型投影圖連結並產生特徵向量。所使用的方法就是運用暹羅卷積神經網路，這種神經網路常運用於不同類型的資料整合上，將此種神經網路分別使用在筆觸圖與模型投影圖兩端，會個別得到一組特徵向量。再將這兩組特徵向量經由損失函數減少差異性後，得出一個最終特徵向量。使用上述的特徵整合架構後，得到的準確度比起以往的方法都還要好，下圖六為執行後的結果，最左邊為輸入的筆觸圖，由左至右為相似度由高至低。對於暹羅卷積神經網路的應用，我們也列為未來可採用的結構，雖然這麼做喪失了一部分自由度，但是從此論文中看出可以用少量的模型. 政治大. 投影圖，得到相當不錯的準確度成果。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖六. 筆觸圖搜尋模型結果，淺藍色為正確結果(摘自[Fang 2015]) (最左邊為輸入的手繪圖). 10.

(19) 第三章研究方法與步驟 3.1 系統架構. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖七. 系統架構圖. 11. v.

(20) 整個系統模組分為建立索引檔、比對特徵向量和使用者介面三個部份，如圖七，建立索引檔部分將從模型資料庫中的模型輸入我們的系統，並且將其依序旋轉成多個角度後，再把這些不同角度的模型經過 Canny Line 或 Suggestive Contours 的線條風格投影且描繪成模型投影描繪圖，之所以選擇這兩種描繪方式，是由於先前論文[Etiz 2012;Su 2015;Wang 2015]對於這兩種描繪方式，哪一種更好各有千秋。有了模型投影描繪圖就需要取得該圖的特徵向量，因為我們可以透過特徵向量比較手繪圖與模型投影描繪圖。本論文使用 BOF 檢索或卷積神經網路策略去提取特徵向量。. 政治大一外，還要將之重新編碼與建立手繪圖片資料庫和模型資料庫之間的連結，以便立. 接著是比對特徵向量部分，資料庫除了要把即時運算處理和前處理的描述統. 使用者繪畫時可以即時的得到回饋。因此先對手繪圖資料庫做特徵向量提取處理，. ‧ 國. 學. 方法一樣是採用上述兩種其中一種。比對手繪圖資料庫生成的特徵向量與模型投. ‧. 影描繪圖產生的特徵向量，把結果依照相似度做排序，並將此序列儲存起來，以. y. Nat. 便使用者繪畫時可以即時取得相對應結果。使用者介面部分為處理使用者輸入的. er. io. sit. 階段，從使用者的筆觸資料中取得特徵向量，取得方法同上，這麼做是為了取得相同描述方式的特徵向量，才可以對筆觸資料和手繪圖資料庫進行比對。產生出. al. n. v i n 的結果序列會呼叫該編號的手繪圖，並且將結果呈現給使用者，讓使用者可以參 Ch engchi U. 考手繪圖資料庫中的手繪圖進行繪畫。若使用者想要得知關聯的三維模型時，先取得上述產生的手繪圖結果序列，再呼叫之前藉由比對手繪圖資料庫的特徵向量. 與模型投影描繪圖的特徵向量產生的結果序列。從中得到相對應的模型編號後，將該模型的簡易展示圖呈現給使用者，讓使用者可以使用筆觸搜尋到所想要的三維模型。. 12.

(21) 3.2 模型的投影模型的資料來源與分類皆來自於Princeton Shape Benchmark(PSB)[Shilane 2004]，總共有1,814個模型，訓練集(training set)和測試集(testing set)各907個模型，訓練集有90個類別，測試集有92個類別，兩者盡量相近。為了減少資料庫的資料量與搜尋的時間，不可能對每一個模型都給予三百六十度視角的投影，根據先前論文[Eitz 2012]的統計，一個模型平均要使用14.4個投影去描述，此篇論文[Su 2015]也將模型投影成12個面。與此不同處是我們不採用攝影機繞著中心點水平旋轉，我們選用一個十二面體包覆在模型外圍，並且將. 政治大型的邊界盒 (Bonding Box)先求出後將長寬高分別除以二得到的結果。下圖八為立相機放置在每一面的中心點，相機的方向指向模型中心點，模型中心點是將該模. ‧. ‧ 國. 學. 其中一個結果。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖八. 使用十二面體投影結果 13. v.

(22) 訓練集中有907個模型，每個模型有12個投影，也就是有10,884張圖需要做特徵提取與分群。根據實驗結果這大大的增加了許多雜訊，若是該模型左右上下對稱性強，則在投影的角度增加情況下，該模型被搜尋到的機率也就會提升。為此我們將投影數減少到4面，由模型的正面、側面、上面和下面四個視角做投影，這麼做除了增加準確度外也加快搜尋資料庫的速度，投影圖如下圖九。. 立. 政治大. ‧ 國. 學. 圖九. 使用四面投影. 圖九的第一張圖是模型讀取進系統後的初始投影，可以發現若是沒有旋轉到. ‧. 其他角度，是難以發現這個模型是一台戰鬥機，因此是有其必要進行模型投影。. sit. y. Nat. 而本論文最後採用的角度為基本的三視圖，這是由於從模型的上和下視角投影成. io. al. n. 在第五章做呈現。. er. 的圖片相似度高，多餘的圖片會增加雜訊，反而降低平均準確度，詳細的數據將. 3.3 建立資料庫. Ch. engchi. i n U. v. 本篇論文所選用的是手繪圖片[Eitz 2012]資料庫，與一般圖片資料庫[Lee 2011]不同，不需要生成邊緣圖與長邊偵測，僅需要做特徵偵測和生成特徵向量。特徵的提取方式採用 BOF (Bag-Of-Feature) 圖片檢索策略[Squire 1999; Sivic and Zisserman 2003]和卷積神經網路(Convolutional Neural Network) 策略[Krizhevsky 2012]。詳細的方法說明我們會在 3.3.2 節和 3.3.3 節做介紹。. 14.

(23) 3.3.1投影圖描繪如同先前多數論文皆選用 Canny Line[Canny 1986]和 Suggestive Contours [DeCarlo et al. 2003]兩者之一，我們也會對兩者做評估，首先介紹使用 Canny Line 去針對投影完成圖做描繪。Canny 等人的目標是找到一個最佳的邊緣檢測算法，最佳邊緣檢測的定義有三點；第一點，盡可能增加標識出圖片中的實際邊緣。第二點，標識出的邊緣要與實際圖片中的實際邊緣盡可能地接近。最後一點，圖片中每個邊緣只能標識一次，並且可能存在的圖片雜訊不應標識為邊緣。根據以上原則實踐後得到的描繪圖如下圖十。使用的最小閥值為 50，最大閥值為 150，當. 政治大. 該像素點的梯度值大於最大閥值則被當成邊緣，若小於最小閥值則捨棄。. 立. ‧. ‧ 國. 學. Nat. sit. y. 圖十. 使用 Canny Line 描繪模型投影圖. n. al. er. io. Suggestive Contours 方法的目的是將模型內部的輪廓線描繪出來，因為以往. i n U. v. 的方法只呈現外部輪廓線，這會失去很多模型的特徵。因此 DeCarlo 等人加強. Ch. engchi. 輪廓線給予的形狀資訊並結合非擬真算圖技術 (Non-Photorealistic Rendering) ，於模型內部產生輔助輪廓線，並且提供互動式修改特徵線去描述模型。下圖十一為我們系統實現的結果，除了使用 DeCarlo 等人提出的模型 Suggestive Contours 方法外，我們也參考了[Potcharapol 2013]對於 Suggestive Contours 的改良，所有的模型都有先經過簡化成一半網格，並經由使用 Openmesh 函數庫處理。這麼做是因為一來網格的減少讓執行更省時，又可以檢查是否有錯誤的網格，若有發現則對其進行刪除。得到一組輪廓資訊後，再針對此資訊做進一步的簡化處理，並過濾掉多餘的輪廓線，最後的結果為下圖十一的第二、四張圖片。 15.

(24) 圖十一. 使用 Suggestive Contours 描繪模型投影圖. 有了上述兩種方法的投影描繪圖之後，我們便比較了在同個模型下的投影結果。下圖十二為執行後的結果，中間為 Suggestive Contours 結果，右邊為. 政治大. Canny Line 所描繪的模型投影圖。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i n U. v. 圖十二. 比較 Suggestive Contours 和 Canny Line 描繪模型投影圖. Ch. engchi. 可以由上圖看出，Suggestive Contours 比起 Canny Line 更能過濾掉不必要的線條，尤其是網格的簡化，可以觀察圖十二中間與右邊圖片的差異，翅膀的部位尤其明顯。加上本論文目的要和使用者的筆觸圖做比對，觀察手繪圖資料庫和使用者繪畫時的行為，使用者通常會用盡可能少的線條去描繪物體，也就是說模型的投影圖要越簡單越好，但是又不可以失去應當有的模型特徵，因此我們選用 Suggestive Contours 方法去繪製模型投影圖。. 16.

(25) 3.3.2Bag-Of-Feature 檢索 BOF 檢索技術仿照文字檢索領域的文字圖片檢索(Bag-of-Words)方法，把輸入的每幅圖片切割為數個局部區域，並且描述為多個關鍵點特徵的無序集合。將產生出來的無序集合，使用聚類演算法對局部特徵進行分群，每個分群中心被視為是詞典中的一個視覺詞彙(Visual Word)，相當於文字檢索方法中的詞，視覺詞彙由分群中心對應特徵形成的編碼向量來表示，也可稱為一種特徵量化的過程。所有視覺詞彙形成一個視覺詞典(Visual Vocabulary)，對應生成一本特徵向量的詞典，即特徵向量的集合，視覺詞典中所含視覺詞彙的個數反映了詞典的大小。. 政治大個圖片。在輸入查詢圖片後，對查詢圖片也做一次特徵處理，產生一組代表該圖立圖片中的每個特徵都將被映射到視覺詞典的某個詞上，也就對應到資料庫中的某. ‧ 國. 學. 片的字詞，這組字詞就是特徵向量。接著就像人們查詢字典一樣，使該字詞與視覺詞典中的視覺詞彙最比對。比對方式可以通過計算特徵間的距離去實現，然後. ‧. 統計每個視覺詞彙的出現與否或者出現次數，則可以將此查詢圖片描述為一個維. sit. y. Nat. 數相同的直方圖向量，即 BOF 檢索技術(Bag-of-Features)。下圖十三為 BOF 檢索. al. er. io. 技術的運作流程圖，輸入圖為我們資料庫中的模型投影圖，此圖中為示意圖，因. n. 此其中的數據並非真實資料。. Ch. engchi. 17. i n U. v.

(26) 特徵點偵測. 特徵點描述. 視覺詞典生成. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 特徵長條圖. 立. 政治大. 搜尋結果. Ch. engchi. i n U. v. 圖十三. BOF 檢索技術系統流程圖 BOF 檢索技術可大致分為四個步驟。第一步決定特徵選取的大小與位置，第二步將以像素為單位的特徵表示轉換成較低维度的特徵向量，第三步把該特徵向量與先前分好群的向量做比對，最後一步將整張圖片的結果做統計，依照出現在 18.

(27) 群的頻率做成特徵長條圖，得出匹配結果圖片序列。首先將圖片切成較小的區塊後，根據區塊大小給予特徵點數量，得到區域特徵值。為了產生特徵需要針對圖片給予描述，我們採用 SURF 描述器[Bay et al. 2006]。此描述器的概念及步驟均建立在 SIFT[Lowe 2004] 描述器之上，但詳細的流程有些許不同。SIFT 使用了連續不同尺度的高斯濾波器處理影像，並且經由高斯差來偵測影像中尺度不變的特徵點。而 SURF 使用了方型濾波器取代 SIFT 中的高斯濾波器，藉此達到高斯糢糊的近似。利用濾波器取得特徵點後，再進行特徵鄰近描述和描述子配對。. 政治大我們使用 K-means 分群法，這是一種聚類(Cluster)的分群方式，聚類基本上就是立. 有了特徵向量後，需要將特徵區塊做分群生成視覺詞彙(Visual Vocabulary) ，. 依照著物以類聚的方式在進行，也就是相似的東西有著相似的特徵，給予一組資. ‧ 國. 學. 料，將之分為 𝑘 類且 𝑘 值由使用者設定。主要是要將公式(1)最小化。. 𝑆. 2. ‧. argmin = ∑𝑘𝑖=1 ∑𝑥∈𝑆𝑖 ‖𝑥 − 𝜇𝑖 ‖. Nat. sit. y. (1). al. er. io. 𝑥 為每個資料點， 𝜇𝑖 為對應群 𝑆𝑖 的平均值中心，公式(1)就是要求距離的最小. v. n. 值，藉此找到最佳的 𝑘 個群中心 𝜇𝑖 ，並且分成 𝑘 個群。. Ch. engchi. i n U. 分群完生成的視覺辭彙是很龐大的資料量，且其中有些群是不需要採納的群，這是因為就像英文文章中會常出現 the，this，he 等字詞，這些字詞相當常出現，但是這些字詞是沒有判斷文章特色的價值，如果某個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。當沒有判斷價值的字詞被選錄到辭彙後，會無謂的增加資料量和拖慢搜尋速度。因此我們採用了 term frequency-inverse document frequency( Tf-idf) 權重演算法，將出現頻率高的字詞做刪減，重新給予權重值。根據此權重值，建立比較特徵向量的索引檔。. 19.

(28) 3.3.3卷積神經網路卷積神經網路是類神經網路的一種，在現今已廣泛應用在語音分析和圖片識別領域。而類神經網路即是希望能使用數學方法去模仿人類大腦神經網路的學習過程，透過電腦的快速計算能力，而使得電腦能夠具有推論結果能力的人工智慧機器。運用數量大而簡易的人工神經元，並把將之連結來模仿生物神經網路間訊息傳導的能力。人工神經元是生物神經元的簡易模擬，雖然無法完全同於人類大腦，但是功能性是可以效仿。生物神經元從其他神經元或外部環境獲得刺激，而人工神經元則從輸入的外部資料或其它的人工神經元取得資訊，並透過簡單的資. 政治大學習的過程才能夠擁有推論能力立，也就是說要有人告訴它什麼樣的情況會得到什. 料處理，而後輸出其結果至外界環境或其它人工神經元。類神經網路是需要經過. ‧ 國. 學. 麼樣的結果，給予越多正確的範例，它就能夠正確的回答你，更進一步的學習後，甚至於沒有學過的範例，也能預判可能的結果。. ‧. 卷積神經網路是一種深度學習的神經網絡模型，基本精神與類神經網路相同，. sit. y. Nat. 希望藉由學習神經傳導架構來處理輸入的資料，並進行資料分類或預測。卷積神. al. er. io. 經網路與其他神經網路的不同處主要有兩點，第一點，它的神經元間的連接是非. v. n. 全連接的，也就是每一層的區域大小不相同，並不是每一個神經元都對應對到另. Ch. engchi. i n U. 一個神經元，這麼做可以減少需要的參數量，也就是避免過適(overfitting)的情形發生。過適即是當可選擇的參數的自由度超過資料所包含的資訊內容時，會導致最後模型使用任意的參數，這會減少或破壞模型一般化的能力更甚於適應資料。第二點，給予同一層中某些神經元之間的連接位元相同的權重。這麼做是由於參數的數量還是太大，因為圖片的一部分的統計特性與其他部分是一樣的。這也意味著我們在這一區域學習的特徵也能用在另一區域上，所以對於這個圖片上的所有位置，我們都能使用同樣的學習特徵。使用了上述方法後，雖然使參數數量急遽下降，但是也造成對於圖片描述的不完整。因此需要增加多個卷積核，使用多個特徵描述器，就可以在付出少許空 20.

(29) 間的情況下，提升圖片的描述與準確度。卷積神經網路的非全連接和權值共享的網路結構使之更類似於生物神經網路，且還降低了網絡模型的複雜度，也減少了權值的數量。在輸入是多維圖片時表現的更為明顯，將圖片直接作為網路的輸入，免去了傳統圖片檢索架構中復雜的特徵提取和數據重建過程。卷積神經網路是為了識別二維形狀而特殊設計的一個多層感知器，此種網絡結構對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。對於不好處理的圖片深度學習結構來說，這是非常重要的，為此我們選擇了卷積神經網路。卷積神經網路根據使用者的需求又有許多不同的架構變化，為了可以快速的. 政治大. 進行特徵提取，我們使用的是這篇論文[Ken 2014]提出的 CNN-F 模型，運作流程為下圖十四。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖十四. CNN-F 模型流程(參考自[Ken 2012]) CNN-F 卷積神經網路模型與[Krizhevsky 2012]所提出的卷積神經網路模型相似。不同處為卷積層和連接密度的減少。圖十四中可我們將看出輸入的圖片直接將整張原圖調整到 224*224 的大小，而不是取圖片區塊。這麼做可以預防使用卷積核的時候掉出邊界外。雖然不是將圖片切割後做特徵擷取，降低了一些準確度，但是可以加速特徵擷取的運作。在第一層卷積層使用 64 種卷積核，每個卷積核大小為 11*11，每次移動的步伐為 4。第二層卷積層則使用了 256 種卷積核進行卷積，這 256 種是由第一層的 64 種加以混合使用所產生的，每個卷積核大小為 5*5。第二層還將第一層產生的特徵對映加以池化縮小成二分之一，使用的方式為最大 21.

(30) 值池化，以圖片某一區域像素的最大值來表示該區域的特徵。這麼做不僅可以將該區域的影響力做大的特徵保留，也可以減少所需的參數量，更讓提取出的特徵向量有平移不變性。第三層卷積層一樣使用 256 種卷積核，每個卷積核大小改為 3*3，對第二層產生的特徵對映加以池化縮小成二分之一。第四和五層也為卷積層，都是使用 512 種卷積核，每個卷積核為 3*3。第六和第七層則為全連結層，使用丟棄演算法(dropout) ，即是訓練中隨機丟棄一部分隱層單元來避免對較為不常使用的部分被選取，用以避免得到的特徵過於局部，也是避免過適的方法，最後我們用來. 政治大我們採用的是 Ken 等人預先針對 ILSVRC(Imagenet Large Scale Visual 立. 比對的特徵向量為一個 4096 維的向量。. Recognition Challenge)-2012 這個競賽中所要求的資料庫，進行訓練所得的卷積. ‧ 國. 學. 神經網路。資料庫中使用了此篇論文[Deng 2009]提出的 Imagenet 資料庫 1,000 個. ‧. 類別，一百二十萬張圖片，五萬張認證圖片，十萬張測試圖片。根據[Matthew 2013]. y. Nat. 和[Donahue 2013]兩篇論文提出，使用預先訓練的卷積神經網路，對於足夠大的. er. io. sit. 資料庫進行訓練後，得出的卷積核是足夠強大描述其他的資料庫，更何況是比較小的資料庫，而相對上述資料庫來說，我們的資料庫要小的多。雖然 Imagenet 是. al. n. v i n 全彩圖片，與本論文中所採用的筆觸圖和模型投影圖僅有輪廓的黑白線不同，但 Ch engchi U 是由於我們所採用的是純黑的畫筆，不會有灰階的情形發生，而且多餘的資訊在. 比對時也會因為所有的資料都有而被忽略，也就是在套用卷積核時並不會產生過大的差異性，因此可以套用在本系統中。. 3.4 搜尋結果排序 3.4.1相似度比對我們的系統對使用者的繪畫進行 BOF 檢索或卷積神經網路策略，用以取得使用者手繪圖的特徵向量，並且將其跟我們預先產生好的手繪圖資料庫的特徵向量做比對。使用的特徵取得方式必須兩者一樣，若是對使用者的繪畫做卷積神經 22.

(31) 網路取得特徵向量，那對手繪圖資料庫的特徵向量也必須是選用卷積神經網路產生。為了取得兩個特徵向量的相似度，我們需要先對特徵向量做歐氏距離正規化，變成單位向量，這個過程也稱為 L2 正規化，公式如下： 𝑛. normalize(𝑉) = 𝑉 ⁄𝑛𝑜𝑟𝑚(𝑉) = 𝑉 ⁄√∑(𝑣𝑖 )2. (2). 𝑖=1. 公式(2)中的 𝑉 為輸入的向量， 𝑣𝑖 則為該向量中的元素。對兩個特徵向量都做完歐氏距離正規化後，就要計算相似度，相似度的計算方式為公式如下：. Sim(X, Y) = cos 𝜃 =. 政治大. ∑𝑛𝑖=1(𝑥𝑖 × 𝑦𝑖 ) X∙Y = ‖X‖‖Y‖ √∑𝑛𝑖=1 𝑥𝑖 2 × √∑𝑛𝑖=1 𝑦𝑖 2. 立. (3). ‧ 國. 學. 我們使用餘弦相似度去計算向量間的相似度，透過計算兩特徵單位向量在高. ‧. 維空間的餘弦角度值得到相似度。 X 和 Y 分別為輸入的兩個特徵單位向量， 𝑥𝑖. y. Nat. 和 𝑦𝑖 為 X 和 Y 向量內的元素。餘弦相似度範圍為 0 到 1 之間，夾角越小越相似，. er. io. sit. 而夾角越小餘弦值越大，1 表示它們的指向是完全相同的，0 表示它們之間是獨立的，而在這之間的值則表示中間的相似性，越接近 1 就代表兩個向量越相似。. n. al. 3.4.2結果排序. Ch. engchi. i n U. v. 取得了使用者的繪畫筆觸與手繪圖資料庫的相似度序列後，我們將之由大到小排列，以得到相似度結果序列，在本系統中我們呈現前 12 名的手繪圖結果。有了手繪圖結果後就要探討如何將模型搜尋結果展示給使用者，由於我們系統是透過手繪圖資料庫做為媒介來搜尋模型資料庫，所以預先產生每張手繪圖所對應的模型資料庫序列前五名的陣列，在使用者繪畫時即時地取出相同編號的手繪圖與模型資料庫的比配結果。在呈現前 12 名手繪圖結果的情況下，每一張手繪圖又對應五個模型，也就會有 60 個模型結果需要展示給使用者。60 張模型預覽圖略嫌多了些，而且其中不免有重複的結果，為此我們使用下述公式取得比對分數 23.

(32) 以統計哪些模型預覽圖需要做展示。. 𝑠𝑐𝑜𝑟𝑒(𝑖, 𝑗) = 1 +. 1 ((𝑛 − 𝑖 + 1) × (𝑘 − 𝑗 + 1) − 1) 2. 立. (4). 政治大. ‧ 國. 學. 圖十五. 模型分數計算虛擬碼. ‧. 公式(4)主要目的為將得到的模型序列給予對應的分數，公式中的 n 為總共需. y. Nat. sit. 要統計幾張手繪圖，k 為每張手繪圖有幾個模型結果。在此情況下，n 為 12，k. n. al. er. io. 為 5。公式中的 i 和 j 分別為該模型所在的手繪圖編號與所屬的名次。至於為什. i n U. v. 麼要除以二，是因為我們不想讓部分的手繪圖對應的模型過大地影響模型序列。. Ch. engchi. 若是我們純粹對於手繪圖的順序給予分數，也就是第一名手繪圖的第一名模型賦予最高分 60 分，第二名模型給予 59 分以此類推，第十二名手繪圖的第五名模型只有一分，那麼這個模型影響力就非常低。我們系統目的是要給予使用者繪畫的自由度，而且我們只呈現前十二名的結果，有可能使用者繪畫所想要的結果在繪畫過程不是在第一名，那麼我們只依照手繪圖的順序給予分數，就會讓其對應的模型不會出現在使用者面前。為了避免上述情形發生，我們才將分數的區間縮小至一半，在公式(4)的算法下，第十二名手繪圖的第五名模型有一分，以半分為間隔增加，第一名手繪圖的第一名模型 30.5 分。圖十五中的虛擬碼則把相同模型編號所對應的分數做相加， modelList 為整個資料庫中所有的模型編號， 24.

(33) modelResult 為對應手繪圖的模型編號，modelCount 為模型的出現次數，最後 countScore 為根據出現次數的模型分數加總。若是單純將相同模型的分數相加，會發生若是該模型出現三次就會取得過高的分數，使其他的模型都無法超越，但是這些可能是相似度很高的模型。因此我們增加一個遞減函數，在累加分數時，隨著出現增加，得到的分數會減少。下圖十六為執行的示意圖。系統的實際運作成果放在本論文的第四章。. 立. 政治大. n. er. io. al. 3.5 修改手繪資料庫 C h e. sit. y. ‧. ‧ 國. 學. Nat. 圖十六. 模型計算分數示意圖. ngchi. i n U. v. 我們採用的手繪圖片資料庫 SBSR[Eitz 2012] 為一個對應模型資料庫 PSB[Shilane 2004] 類別的資料庫，總共有 1814 張手繪圖對應到 1814 個模型。並且將這 1814 張手繪圖按照模型資料庫的分類，切成一半成訓練集和測試集，各有 907 張手繪圖，並各分為 90 個類別，每個類別最少有 4 張圖，訓練集和測試集盡量擁有相同的類別以方便搜尋方法的驗證。 SBSR 手繪圖資料庫的建立是透過群眾外包網站 Amazon Mechanical Turk 做搜集，請使用者在此網站上進行繪畫，僅靠 Eitz 等人提供的簡易繪畫工具進行，這麼做是為了減少繪畫的難度，讓對於繪畫經驗較少的人也可以繪畫。當然系統 25.

(34) 上也會有說明此繪畫需要可以被其他人所辨識，否則就失去了辨别力。為了給予使用者繪畫的自由度，系統只會給予需要繪畫的類別名稱，例如飛機、火車等等。且沒有相關的模型參考，讓使用者可以天馬行空的繪畫，但是畢竟是在網站上做的測驗，使用者是可以使用線上搜尋引擎做尋找的動作。儘管 Eitz 等人已經提供了很好的手繪圖資料庫，但是我們在使用時發現了這個手繪圖資料庫有些缺陷的地方，且改善後也有改良了搜尋準確度。對於修補資料庫的手繪圖，我們請了十一使用者來幫助改善資料庫，性別為三女八男，因為男女繪畫風格不相同，希望可以盡量公平的蒐集手繪圖。每位使用者平均繪畫. 政治大了不失資料庫一致性與使用者的繪畫自由度，我們對於使用者也只提供類別名稱，立十一張手繪圖，總共修改了 120 張手繪圖。繪畫的軟體我們使用微軟小畫家，為. 但是允許使用網路搜尋相關圖片，這是由於使用者有時候會不知道該類別物品該. ‧ 國. 學. 如何描述。我們列了以下七點去做分類與改善，(1)未畫完、(2)添加文字、(3)類. ‧. 別錯誤、(4)添加額外特徵、(5)繪畫部分、(6)人無法辨識和(7)人可以辨識但是跟. y. Nat. 模型特徵不符。首先是有些手繪圖看似還沒繪畫完成就提交成結果圖，下圖左半. n. al. er. io. sit. 邊兩張圖為 SBSR 中的手繪圖，右半邊兩張圖則為更換後的手繪圖。. Ch. engchi. i n U. v. 圖十七. 未畫完的手繪圖與更換後的手繪圖. 第一張手繪圖的類別為手槍，第二張則是人手張開類別。第三張是請使用者繪畫後新的手繪圖，用以取代第一張手繪圖，第四張取代第二張。接著是在手繪圖中加上文字描述物體，這麼做確實可以增加人類對於物品的可判性，可是在三維模型中大部分是沒有文字，而且我們採用的是手繪圖資料庫， 26.

(35) 應該是僅用筆觸描述物體，因此我們決定對有文字的筆觸圖加以更換。下圖為有添加文字的手繪圖與更換後的手繪圖。. 圖十八. 添加文字的手繪圖與更換後的手繪圖第一張圖為企業號飛船，第二張圖為廣告看板類別，這個類別若是只畫一個版. 政治大. 子確實難以分辨，所以原先的使用者就直接加上文字說：「你要的廣告在. 立. 這。」，可是這麼做不僅沒有幫助搜尋反而增加雜訊，因為三維模型中是沒有任. 學. ‧ 國. 何文字的描述。第三張是請使用者繪畫後新的企業號飛船手繪圖，用以更換第一張手繪圖，第四張更換第二張。. ‧. 第三個分類為手繪圖放錯所屬類別，這點應該為原先系統的失誤，因為這. Nat. n. al. er. io. sit. y. 麼做會降低準確度。下圖為原先手繪圖與更換後的手繪圖。. Ch. engchi. i n U. v. 圖十九. 類別錯誤的手繪圖與更換後的手繪圖第一張圖按照 SBSR 的分類準則，是屬於沙發類別，可以看出原先使用者繪畫的是火車的連結車箱。在 SBSR 中確實有火車的連結車箱這個類別，只是這張手繪圖放錯了類別，因此我們請使用者繪畫了圖十九的第三張手繪圖去取代第一張手繪圖。第二張圖按照 SBSR 的分類準則，是屬於大卡車類別，原先使用者可能是想繪畫掛於車後的拖車廂。SBSR 中也有這個類別，我們判斷圖十九 27.

(36) 中的第二張圖放錯了類別，使用第四張圖取而代之。第四個分類為在手繪圖中添加額外特徵或物體，例如在花瓶的類別中，使用者應當畫的只有花瓶本體，但是使用者卻多畫了花，當然這麼做可以幫助人進行判斷。可是對於電腦的判斷來說，卻是多餘的雜訊，因為模型庫中的模型花瓶和花是分開成兩個模型，也屬於不同類別。下圖二十為原先添加額外特徵的手繪圖與更換後的手繪圖。. 圖二十.. 學. ‧ 國. 立. 政治大. 添加額外特徵的手繪圖與更換後的手繪圖. ‧. 圖二十中的第一張圖，即是上述所描述的花瓶與花的情形，第三張圖便是只有. sit. y. Nat. 花瓶的手繪圖，用以取代第一張圖。而第二張圖則是另一種添加額外特徵的情. er. io. 形，對於一部分的使用者來說，為所描繪的物體給予特效會幫助對於物體的理. al. v i n Ch 特效，因為在模型資料庫中，這個類別中的模型就只會有該模型本身而已，並 engchi U n. 解。有些添加是會幫助人類判別物體，但是對於三維模型來說，這就是多餘的. 沒有特效資訊。第二張圖就是在噴射機後添加噴射的特效，所以我們用第四張圖更換了 SBSR 中的第二張圖。上述四點未畫完、添加文字、類別錯誤和添加額外特徵的分類，都是可以從手繪圖與類別中清楚的看出不足處。而下列的三點則相對上述四點較為主觀，選取的方式為三位受測者中若有兩位表示該手繪圖需要做更換，則依照下列的三點的更換原則做變更。第一點為只繪畫出物體的部分，對於人類來說或許可以依照物體部分就判斷出所屬類別，也有不少研究針對以部分圖片資訊搜尋相關圖片的研究。但這是在相同領域的情形下，我們所面對的是以手繪圖搜 28.

(37) 尋模型投影圖，以風格較為抽象的圖片搜尋現實的圖片，因此在本篇論文中就暫時將只有部分特徵的圖做移除。下圖二十一為繪畫部分的手繪圖與更換後的手繪圖。. 圖二十一. 繪畫部分的手繪圖與更換後的手繪圖. 政治大. 可以從圖二十一第一張圖看到，這張手繪圖是屬於人站立著的正面這個類別，. 立. 確實可以辦別出人，只是只有半身就會讓筆觸圖與模型間的準確度下降。第二. 學. ‧ 國. 張圖的雷諾龍也是一個例子，雷諾龍的特徵在尾巴很長，因為模型資料庫中還有其他恐龍，但是屬於不同類別，也就造成了準確度的下降。模型資料庫中的. ‧. 該類別模型也都是完整的人和雷諾龍，雖然要給予使用者繪畫的自由度，但是. Nat. sit. y. 對於手繪圖資料庫與模型資料庫之間的橋梁建立，準確度還是越高越好。這是. n. al. er. io. 由於我們的系統是先將手繪圖資料庫與模型資料庫之間對應的結果儲存起來，. i n U. v. 使用者的即時繪畫再跟手繪圖資料庫中的手繪圖做比對，間接取得相對應的三維模型結果序列。. Ch. engchi. 緊接著的是人無法辨識分類，此分類相對主觀，選擇更換的標準就是無法從該張手繪圖得知使用者所繪的物品所屬類別。無法辨識就違反 Eitz 等人在群眾外包網站上給予使用者的要求，因此我們給予更換。下圖二十二為人無法辨識的手繪圖與更換後的手繪圖其中兩個例子。. 29.

(38) 圖二十二. 人無法辨識的手繪圖與更換後的手繪圖可以從圖二十二中的第一和第二張手繪圖看出，若不給予相關資訊是判別不出所屬的類別。第一張手繪圖屬於斧頭，第二張則是帆船，第三和第四張手繪圖. 政治大最後一個分類為人可以辨識但是跟模型特徵不符，這點是由於人類描述的立. 則分別取代第一和第二張手繪圖在資料庫中的位置。. ‧ 國. 學. 觀點和模型所呈現的特徵不符。本論文要完成的目標也是在此，因此我們只挑出過為誇張的幾張手繪圖做更換。原先的手繪圖資料庫採集樣本時並沒有註明. ‧. 本研究是針對手繪圖與模型之間的比對，也就造成部分使用者所提供的繪畫與. sit. y. Nat. 模型差異過大的情形。由於本論文實作出的系統也是面對想要使用筆觸搜尋模. er. io. 型的使用者，使用者繪畫時會盡量貼近現實的物體，而不是卡通化或者太過簡. al. v i n Ch 十三即是可以辨識但是跟模型特徵不符的手繪圖與更換後的手繪圖。 engchi U n. 易的表達方式，為此原由搜集樣本時也應該給予使用者相對應的資訊。下圖二. 圖二十三. 人可以辨識但是跟模型特徵不符的手繪圖與更換後的手繪圖圖二十三中第一張手繪圖對於人來說可以馬上判斷出為魚的類別，第二張手繪圖則是 SBSR 中很常出現的火柴人。火柴人描述人類對於人類來說是很簡易的 30.

(39) 類別，但是對於模型資料庫來說太過於簡單。我們也有想過對模型取得骨架資訊做搜尋，可是會直接繪畫骨架的物體並不多，大多還是以輪廓為主，因此我們將第三和第四張手繪圖取代第一和第二張手繪圖。在此節中我們列出了七點改善手繪圖資料庫的分類，這麼做些微地改善了準確度。這是由於我們僅挑選其中明顯的手繪圖做更換，1814 張手繪圖中更換 120 張手繪圖，不到一成的更換率卻改善超過一成的準確率。若是在搜集樣本時，給予使用者些微的限制，便可以大幅的改善準確度。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 31. i n U. v.

(40) 第四章實驗結果與討論 4.1 實作與實驗環境本論文目前的開發環境以 Matlab 和 Visual studio 為開發環境，使用 C++和 Matlab 語言並搭配 OpenMesh 和 CNN-F 函式庫做使用。實驗環境上，使用的機器之 CPU 為 Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz，記憶體大小為 16 GB，作業系統為 Windows 7 64 位元作業系統，顯示卡為 NVIDA GeForce GTX 670。. 4.2 評估方法. 立. 政治大. 我們對於系統的評估方是如同先前的論文，都是採用查準率(Precision) 查全. ‧ 國. 學. 率(Recall)方法進行。由於我們採用的 SBSR 手繪圖資料庫建立是根據 PSB 的類. sit. y. Nat. 條件篩選出來的資料數. al. er. 符合條件的資料數 ∩ 條件篩選出來的資料數. io. 查準率 =. ‧. 別，因此計算查準率時就有相對應的類別可以進行配對。. n. v i n C h ∩ 條件篩選出來的資料數符合條件的資料數 engchi U 查全率 = 符合條件的資料數平均查準率 =. ∑𝑛𝑘=1 第 k 筆資料的查準率 × 第 k 筆資料的關聯度符合條件的資料數. (6). (7). (8). 而我們計算平均查準率(Average Precision)，在每一張圖搜尋到正確的類別時，計算當時的查準率，並且在達成查全率所訂定的目標數量時停止，將每一筆查準率加總求平均得到平均查準率，當正確時關聯度為壹否則為零。在搜尋模型投影圖時，我們發現在有些模型的厚度很薄的時候，投影出來的投影圖在不同角度時會. 32.

(41) 只有ㄧ條線或者無法判別類別。因此在判斷正確類別時，只要找到其中一張投影圖即算找到該模型，之後若是再找到該模型其他的投影圖也不會做計算如果，只針對正確的查找做處理會造成查準率不失衡，所以當找到錯誤的同類別投影圖時，也只會計算最先找到的一次。. 4.3 實作與實驗結果本論文實作出一個整合三維模型與手繪圖的即時繪畫系統，並比較了三維模型投影圖在Canny Line和Suggestive Contours兩種風格，對於手繪圖與模型查準率的影響。並且探討BOF檢索和卷積神經網路兩種特徵提取方式，套用在本. 政治大資料庫缺陷，並請使用者繪畫新的手繪圖做更換。這部分我們在上一章有所討立. 系統中的效率與結果。針對手繪圖資料庫，我們也提出之前論文提供的手繪圖. ‧ 國. 學. 論，詳細的查準率影響我們將放在下一章做介紹。. 使用Canny Line和Suggestive Contours兩種風格對於三維模型投影圖做描. ‧. 繪，不同的系統對於使用哪一種都各有見解，而在本系統中我們測試後，我們. sit. y. Nat. 使用了Suggestive Contours此種風格描繪三維模型投影圖。且是使用此篇論文. al. er. io. [Potcharapol 2013]提出的改良版Suggestive Contours風格，套用濾波器濾掉多餘. v. n. 的輪廓線，在查全率為百分之五的情況下，平均查準率高出百分之二。而對於. Ch. engchi. i n U. 特徵提取方式來說，BOF檢索相對於卷積神經網路，速度上慢了四十倍，無法達到即時比對與使用者繪畫的目標。在以往的論文[Etiz 2012]實作上可以達到即時比對，雖然我們和Etiz等人使用的描述器不同，但是其他部分都相同，所以 BOF檢索的效率過於緩慢不合理，我們判斷應該有兩個要素造成系統執行過於費時。第一點為不同語言間的延遲，本系統是建構在Matlab語言上，然而特徵擷取是在C++語言上運用。第二點為特徵的儲存方式，我們將分群後的結果存成一個巨大的矩陣，而後對其進行相似度判斷時便十分費時。但是即使是離線的資料庫建立，查準率也遠遠不及卷積神經網路架構下的結果，詳細數據將在下一章做呈現。 33.

(42) 之後的小節，我們將展示相同領域資料庫與不同領域資料庫的比對結果，分別為以模型投影圖搜尋模型投影圖，以手繪圖搜尋手繪圖和以手繪圖搜尋模型投影圖。在上述三種資料庫搜尋都完成後，便更進一步的應用到即時的手繪圖比對模型投影圖，我們分為兩種模式介紹實作的結果。. 4.3.1模型投影圖搜尋模型投影圖由於手繪圖與模型投影圖有差異性，手繪圖相較於模型投影圖較為抽象，且外型輪廓較不明顯，為此我們先從外型輪廓與結構明顯的模型下手，將其中一個的模型投影圖對已經訓練好的模型投影圖資料庫比對。這麼做也可以測試. 政治大下圖二十四為使用模型投影圖搜尋模型投影圖的搜尋結果。立. 學. Top. Second. Third. ‧. io. n. al. Fifth. sit. y. Nat. Fourth. Sixth. er. Query. ‧ 國. 搜尋結果的準確性，目前使用的評估方式為上述的查全率與平均準確率策略。. Ch. engchi. i n U. v. 圖二十四. 模型投影圖搜尋模型投影圖結果 (左大圖為輸入圖，右小圖由左而右由上而下為順序) 可以由第一張圖了解我們的搜尋方法是正確的，因為有搜尋到原本的輸入圖。在這個噴射機的例子下，可從圖二十四中看到只有第五名的火箭是錯誤的類別。雖然如此，火箭也和噴射機相似度很高。在查全率為百分之三十的情況下，輸入 907 張模型投影圖，由於每個模型產生三個投影圖，所以對於 2721 張模型投影圖資料庫進行搜尋，平均準確率為百分之五十。取查全率為百分之三十的原因為資料庫中一個類別最少有四筆資料，而我們輸入的圖片是訓練集中的圖片，找到 34.

(43) 原圖是相當容易。若將查全率設為百分之二十五以下的話，僅需要找到一個模型就會停止搜尋計算準確率，而這一個模型就是輸入的原圖所代表的模型，會讓該類別的平均準確度為百分之百。因此我們把查全率設為百分之三十，除了原圖所代表的模型外，還須找到同類別的另一個模型。. 4.3.2手繪圖搜尋手繪圖在以模型投影圖搜尋模型投影圖的情況下，得到不錯的結果，考量到這是由於模型投影圖的結構與輪廓清晰。所以我們測試了以手繪圖搜尋手繪圖的情況，. 政治大比起模型投影圖搜尋模型投影圖來說高出百分之二十，當我們觀察了手繪圖資料立. 結果出乎我們的預料，在查全率為百分之三十的情況下，平均準確率為 71.2%。. ‧ 國. 學. 庫後發現，這種情況發生是因為人類對於同一物體的描繪風格雖然不一樣，但是角度大多是相同的，這也證實了我們以手繪圖做為中介搜尋模型圖是正確且有幫. ‧. 助於搜尋。下圖二十五為以手繪圖搜尋手繪圖的結果。在這個例子中前六名的結. Second. n. al. Top. Query. Ch. engchi. Fourth. er. io. sit. y. Nat. 果都為相同類別，此類別為人體站立類別。. i n U. Fifth. v. Third. Sixth. 圖二十五. 手繪圖搜尋手繪圖結果 (左大圖為輸入圖，右小圖由左而右由上而下為順序). 35.

(44) 4.3.3手繪圖搜尋模型投影圖最後就要以結構較不明確且輪廓較不清晰的手繪圖搜尋模型投影圖，也就是本論文所要實作的核心，相較於前兩節都在同種類資料庫中做搜尋，不同種類的資料庫搜尋增加了難易度。在查全率為百分之五的情況下，平均查準率為 32.4%。比起模型投影圖搜尋模型投影圖和手繪圖搜尋手繪圖來說要低出不少。下圖二十六為其中之一的搜尋結果。. Top Query. Third. 政治大 Fourth. 學. ‧ 國. 立. Second. Fifth. Sixth. ‧ er. io. sit. y. Nat. n. 圖二十六. 手繪圖搜尋模型結果 a iv l C (左大圖為輸入圖，右小圖由左而右由上而下為順序) n hengchi U. 圖二十六中只有第二和第五名的結果為正確類別，也就是跟手繪圖資料庫的輸入圖一樣為長方形桌子類別。人類在繪畫桌子時都是以固定的角度繪畫，因為從其他角度繪畫會不容易描述桌子，但是在本系統中的模型投影角度並沒有相對應的角度。若是增加角度投影又會使準確度下降，所花的時間也增加，大部分的物體是從正面、上面或正面繪畫，為此我們只選三個角度的投影圖做比對。雖然我們系統有此缺陷，但是找出來的結果也並不差，有不同類別的結果但是結構相似。. 36.

(45) 4.3.4即時繪畫搜尋下圖二十七為我們實作出的系統圖，左半邊為使用者即時繪畫的畫布。可以選擇筆觸的粗細和顏色，也可以將所畫的作品存檔，具有一般小畫家所需的功能。除了一般的繪畫功能外，我們提供了兩種搜尋模式，第一種為手繪圖模式。在此模式下，使用者繪畫時將即時地對手繪圖資料庫做搜尋，並將前十二名的結果呈現在視窗的右邊。. 立. 政治大. ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 圖二十八. 使用手繪圖模式的系統實作圖. Ch. engchi. i n U. v. 圖二十七. 增加特徵的手繪圖搜尋結果使用者可以根據我們系統提供的建議進行繪畫，適當的修改正在進行中的畫作。相似度的排序為紅色序號表示，由左上角開始最相似，左至右上至下遞 37.

(46) 減的規則展示手繪圖資料庫中的手繪圖。下圖為增加噴射機特徵後的結果。接著為本論文的最終目標，對使用者的繪畫進行三維模型搜尋，展示的規則如同手繪圖模式。三維模型的尋找是透過手繪圖模式下找出的結果做為橋梁，在使用者繪畫時，即時地查找預先處理好的三維模型結果。至於如何取得模型結果序列在本論文的第三章第四節有詳細的介紹，下圖二十九為使用三維模型模式的系統展示。在繪畫過程中，使用者可以隨時切換所需要的搜尋結果模式，在手繪圖模式下依照手繪圖結果修正自己的作品，再更換成三維模型模式找尋欲尋找的模型。圖三十為增加噴射機特徵後的結果，可以看出使用者畫. 政治大. 的越細，特徵越多，搜尋到的結果越好。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖二十九. 使用三維模型模式的系統實作圖. 圖三十. 增加特徵的模型搜尋結果 38.

(47) 第五章實驗數據與比較運用在第四章第二節提出的評估方法，我們藉由調整查全率，也就是調整在類別中需要查找的模型數量來觀察查準率的變化。首先測試 BOF 檢索與卷積神經網路的執行結果，在一個模型兩個投影圖，查全率百分之十的情況下使用手繪圖資料庫搜尋模型資料庫。BOF 檢索花費 6.19 個小時，查準率為 0.052。卷積神經網路花費 14 分鐘，查準率為 0.243。可以看出卷積神經網路要比 BOF 檢索要好不少，不論是時間或是查準率。接著在模型投影的視角選取上，我們. 政治大. 測試了十二面體、四面和三視圖，首先我們測試十二面體，則發現若是要投影. 立. 模型左右上下對稱性強，則在投影的角度增加情況下，該模型被搜尋到的機率. ‧ 國. 學. 也就會提升，就會發生偏頗的情形。四面圖則是上視和下視通常相似度很高，因此我們減少到三視圖。詳細的數據如下表一，可以看出三視圖的查準率較. ‧. 高。因此之後的實驗數據都是使用卷積神經網路提取特徵向量，使用三視圖進. n. al. er. io. sit. y. Nat. 行投影。. Ch. engchi. i n U. v. 表一. 投影面數的查準率 0.35. 250 SC. 0.3. 200. Precision. Execute time(Min). 0.25 0.2. 0.15 0.1 0.05. 150 100 50. SC Canny. 0. 0. 0.2. 0.4. 0.6. 0.8. 1. 0.2. 0.4. 0.6. Recall. Recall. 圖三十一. Canny Line 和 Suggestive Contours 的比較圖 39. 0.8. 1.

(48) 上圖三十一為比較 Canny Line 和 Suggestive Contours 兩種風格，對於手繪圖搜尋三維模型查準率的影響。從圖三十一中的左圖中可看到 Suggestive Contours 略微好於 Canny Line 描繪的模型投影圖，在右圖的時間比較上 Suggestive Contours 和 Canny Line 所花的時間差不多一樣，但是在查全率高於百分之八十五時，明顯快於 Suggestive Contours，而查準率又一樣，可以得知 Canny Line 對於不好描述的模型是優於 Suggestive Contours。若可以針對這些類別，給予不同的描繪方式，是可以些微地改善查準率。下表為執行時間和準確度的詳細數據。. 學表二. 查準率-查全率的詳細數據. Nat. n. al. er. io. sit. y. ‧. ‧ 國. 立. 政治大. Ch. engchi. i n U. v. 表三. 執行時間的詳細數據下表四為查全度百分之五的情況下，給予 Suggestive Contours 的模型投影圖描繪，各個類別的查準率，可以看到第一名的是花瓶，這是由於花瓶的結構簡單，方便使用者繪畫，且花瓶的外型輪廓辨別力高不易跟其他物品混淆。最後的類別是有槳的帆船，在資料庫類別中有帆船與有槳的帆船，因此使用者繪畫時會強調槳的繪畫，這與模型差異甚大。. 40.