• 沒有找到結果。

分析物件、場景、美學推薦照片濾鏡

N/A
N/A
Protected

Academic year: 2021

Share "分析物件、場景、美學推薦照片濾鏡"

Copied!
38
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:. 葉梅珍 博士. 分析物件、場景、美學推薦照片濾鏡 Photo Filter Recommendation by Analyzing Objects, Scenes and Aesthetics. 研究生: 陳奕寧 撰 中華民國. 107. 年. 7 月.

(2) 摘要 本論文旨在幫助社群媒體使用者節省大量的時間在選擇照片的濾鏡。由於 濾鏡數量的增加,以及手機板面上的限制,要如何快速地選出適合的濾鏡成為 一個問題。我們觀察社群媒體上的照片發現,特定的物件與場景會偏好特定的 濾鏡,因此希望藉由照片的內容來推薦適合的濾鏡。在本研究中,我們從社群 媒體 Instagram 上蒐集了大量套過濾鏡的照片作為訓練資料,藉由深度學習的技 術,分析照片中出現的物件、所在的場景以及美學相關的屬性,建置出推薦照 片濾鏡的類神經網路模型。我們在濾鏡推薦的資料集 FACD 上達到了 Top-1 51.87%的準確度,以及從 Instagram 建立濾鏡資料集,可以讓後續相關的研究使 用。. 關鍵字:濾鏡、照片內容、卷積神經網路. ii.

(3) Abstract This thesis aims to help web users save time on selecting photo filters. Due to the increasing number of photo filters and the limited display size of a mobile phone, filter selection has become an important problem. We observed from the social media sites that photos with specific objects and scenes would prefer certain filters. Therefore, we propose to recommend filters by analyzing the photo content. We collect 68,400 filtered photos from Instagram to be used as training data, and analyze the objects, scenes and aesthetics-related attributes from the photos through deep learning techniques. We develop a neural network model to recommend photo filters and build a filter photo data set from Instagram to facilitate future research. Experimental results using FACD show Top-1 51.87% accuracy.. Keyword : Photo Filter, Convolutional Neural Network, Photo Content. iii.

(4) 目錄 附表目錄 ................................................................................................................................... v 附圖目錄 .................................................................................................................................. vi 第一章 簡介............................................................................................................................. 1 1.1. 研究背景與動機 ....................................................................................................... 1. 1.2. 研究目的 .................................................................................................................. 1. 第二章 文獻探討 .................................................................................................................. 5 第三章 方法與資料集 ......................................................................................................... 7 3.1. 資料集 ...................................................................................................................... 7. 3.2. 照片內容 ................................................................................................................ 13. 3.2.1. 物件 .................................................................................................................... 17. 3.2.2. 場景 .................................................................................................................... 18. 3.2.3 美學屬性 ........................................................................................................... 19 3.3. 濾鏡推薦網路架構 .............................................................................................. 19. 第四章 實驗 ........................................................................................................................ 22 4.1. 設置 ........................................................................................................................ 22. 4.1.1. Training .............................................................................................................. 22. 4.1.2. Testing ................................................................................................................ 23. 4.2. 結果 ........................................................................................................................ 23. 第五章 結論與未來發展 ................................................................................................... 29 參考文獻 ................................................................................................................................. 30. iv.

(5) 附表目錄 表 3.1:Mask R-CNN[3]微調前後的結果 表 3.2:Places365[4]訓練在 ResNet-18[1]微調前後的結果 表 3.3:美學網路微調前後的結果 表 4.1:不同資訊作為輸入的網路參數量 表 4.2:使用 Instagram 照片訓練與微調在 FACD 資料集[7]的濾鏡推薦 結果 表 4.3:只使用 FACD 資料集[7]訓練. v.

(6) 附圖目錄 圖 1.1:Instagram 的濾鏡選擇畫面 圖 1.2 : 40 種 Instagram 濾鏡範例 圖 3.1:搜集的 Instagram 1977 Filter 照片範例 圖 3.2:搜集的 Instagram Amaro Filter 照片範例 圖 3.3:搜集的 Instagram Hefe Filter 照片範例 圖 3.4:搜集的 Instagram Inkwell Filter 照片範例 圖 3.5: Instagram 貼文 Hashtag 範例 圖 3.6: Instagram Hashtag 1977 Filter 搜尋結果範例 圖 3.7: Instagram Hashtag Hefe Filter 搜尋結果範例 圖 3.8: Instagram Hashtag Amaro Filter 搜尋結果範例 圖 3.9: Instagram Hashtag Inkwell Filter 搜尋結果範例 圖 3.10: 未上過濾鏡的照片的物件偵測結果 圖 3.11: 套用濾鏡 1977 後的物件偵測結果 圖 3.12: 套用濾鏡 Toaster 後的物件偵測結果 圖 3.13: 先套用濾鏡 1977 再灰階處例並使用灰階微調的物件偵測網 路的偵測結果 圖 3.14: 先套用濾鏡 Toaster 再灰階處例並使用灰階微調的物件偵測網 路的偵測結果 圖 3.15:本論文的網路架構. vi.

(7) 第一章 簡介 1.1. 研究背景與動機 社群媒體 Instagram 是一款免費提供照片及影片的社交應用軟體,主要的功. 能圍繞於照片或是影片的分享。根據統計每個月有高達 10 億人使用 1,每天有四 千萬張的照片被分享 1;其中有超過一半以上的照片套用了濾鏡 2,文獻[8]指出套 用濾鏡能使照片獲得更高的瀏覽數與留言數,甚至能使照片有如專業攝影師的 作品一般。多數的社群媒體也提供了編輯照片的功能,只要套用預設的濾鏡就 能使照片色調呈現專業的效果。Instagram 提供使用者 40 種濾鏡 3(圖 1.1 為濾鏡 選擇畫面),每一種都有不同的名稱與效果,顯示於圖 1.2,這些濾鏡只改變照 片的顏色與明暗,並不會修改照片裡的內容;根據文獻[8]的統計,套用濾鏡的 照片較能吸引更多的瀏覽與回應。 我們相信在未來濾鏡推薦相關的工作還會持續的發展,目前還只有相對高 階的設備有相似的功能,但因為深度學習持續的研究,也因為硬體設備的成長 與雲端技術的發達,社群媒體上又有龐大的使用人數,有市場也有動機的情況 下,我們相信相關的功能會很快速的在市面上普及,同時也會有大量相關技術 的人才需求因應而生。. 1.2. 研究目的 透過簡單的套用濾鏡就能夠讓沒有修圖基礎的使用者也可以輕易的使照片. 變得更美觀,但是隨著濾鏡數量的增加以及手機版面上的限制,要如何快速的 選擇適合的濾鏡就成為使用上的一大問題。為了幫助使用者能夠快速的選擇適 合的濾鏡,我們在觀察社群媒體上的濾鏡照片中發現,有些類別的照片會使用 1.

(8) 特定的濾鏡;例如食物的照片的處理,使用者喜歡使用一些柔和色調的濾鏡;以 及自拍類別中,使用者會用一些淺色但不影響膚色的濾鏡。因此,我們認為照 片中的物件是影響使用者選擇濾鏡的重要原因。另外我們也觀察到有些場景也 有其常使用的濾鏡,例如戶外自然風景等場景,使用者會選擇能增強畫面中明 暗對比的濾鏡,盡量維持照片中的色調。在本論文中,我們提出一個類神經網 路的方法,以自動偵測照片中的物件、場景、以及美學的資訊,希望能從物件 的種類、位置、大小,所在的場景,與美學屬性學習出照片與濾鏡間的關係, 並且推薦適合的濾鏡。 近期許多研究顯示,使用卷積神經網路、深度學習在許多電腦視覺任務上 的表現已經超越過去使用傳統的特徵[21][22][23],但是目前使用卷積神經網 路與深度學習的做法通常需要大量的標注資料。在文獻[7]中,作者們使用了 Amazon Mechanical Turk 蒐集了兩兩濾鏡之間的美感比較,以計算一張圖採用某 個濾鏡後的美感分數。但因為濾鏡的數量與照片太多,要把全部的照片做完整 的兩兩比較完需要花大量的時間與成本,在[7]資料的建置中也沒能完全比對。 所以,我們另外提出了一個方法來快速的蒐集照片濾鏡的標註資料。我們從社 群媒體 Instagram 上搜集使用者選擇的濾鏡照片,並且透過 Instagram 的 Hashtag 功能快速取得大量的標籤,我們認為這些照片搭配的濾鏡都是經過使用者挑 選,假設使用者認為使用該濾鏡能帶給照片更美觀的感受。透過從 Instagram 蒐 集的照片,讓我們能快速的取得大量且完整的標注資料,並且使用這些資料訓 練類神經網路,完成從物件、場景、以及美學的資訊推薦濾鏡的系統。 1. https://www.instagram.com/press/ https://www.canva.com/learn/popular-instagram-filters/ 3 https://videohive.net/item/instagram-filter-40-color-grading-presets/19513983 2. 2.

(9) 圖 1.1:Instagram 的濾鏡選擇畫面. 我們會在第二章討論濾鏡推薦相關的論文,並討論其與本論文的作法以及 使用的資料與本論文不同之處。在第三章中,我們會詳加介紹資料集的蒐集與 處理,以及我們所提出的方法:從照片中出現的內容推薦濾鏡,第四章節中, 我們會對實驗與結果進行討論。最後於第五章總結與討論未來的發展。. 3.

(10) 圖 1.2 : 40 種 Instagram 濾鏡範例. 4.

(11) 第二章 文獻探討 文獻[7]是第一篇嘗試解決濾鏡推薦的論文,作者們使用了類神經網路、深 度學習的方式來推薦濾鏡,利用 AlexNet[9]與 RAPID net[10]取得美學的屬性以 及圖片配對比較的損失函數在推薦濾鏡的任務上達到了很好的效果,我們與文 獻[7]相同之處為我們也使用類神經網路、深度學習的方法來推薦濾鏡。雖然以 往許多傳統的美學比較方法也可以幫助解決濾鏡推薦的問題[21][22][23],但 是使用類神經網路、深度學習的物件偵測與辨識任務可以獲取比使用傳統特徵 更好的成果,例如 AlexNet[16]、YOLO[17]以及 Mask R-CNN[3]。所以我們在 物件偵測、場景偵測與美學屬性上都選擇使用基於卷積神經網路、深層網路的 方法,希望能藉由準確的偵測,找出物件、場景、美學與濾鏡間的關係。 由於要使用類神經網路、深度學習的方式來推薦濾鏡,要如何取得大量的 訓練資料是必須要克服的問題。文獻[7]利用 Amazon Mechanical Turk 蒐集濾鏡 照片的評比與標籤後公佈了 FACD 資料集[7]給後續的濾鏡相關的研究使用。在 我們的實驗中利用 Instagram 搜集了相關濾鏡的照片來作為實驗的訓練資料。近 期也有研究如[14]使用 Instagram 的照片當作類神經網路的訓練資料集,因為 Instagram 的照片配合 Hashtag 能夠提供比以往像 ImageNet[15]等目前常用的資料 集更大量的訓練資料,透過龐大的資料進而取得了很好的成績,而且也不需要 額外花費大量的人力與成本。 我們也研究許多近期使用類神經網路、深度學習來解決圖像質量評估的文 獻[20][26],在 NIMA[20]中,作者們生成與圖像相關的分數分布,比起以往單 純的分類圖像美觀程度或是透過遞迴取得平均分數較能準確的預測人類的喜. 5.

(12) 好,這樣的方法亦可以幫助調整影像。我們認為濾鏡推薦的選擇一方面也是跟 圖像的質量分數有高度的關係,文獻[7]中也有使用類似的概念,在本論文中也 有使用美學屬性來幫助理解使用者選擇濾鏡的依據。. 6.

(13) 第三章 方法與資料集 根據[13]的研究,社群媒體 Instagram 的照片能被分成 8 個類別(Friends, Food, Gadget, Captioned Photo, Pet, Activity, Selfie, Fashion),我們觀察這些 類別的照片都有其特定的物件在類似的位置,像是 Selfie 自拍中人大多會出現在 照片中央並且佔有很大的比例,或是 Food 食物照片都會有食物以及盤子或桌子 等物件同時出現。我們進一步假設使用者選擇濾鏡會根據照片中出現的物件以 及所在的場景,而提出一個類神經網路的方法;其結合 Mask R-CNN[3]物件偵測 以及 Resnet-18[1]場景偵測的網路去學習物件出現在照片中的位置與組合以及出 現的場合,以及配合美學屬性(類似想法用於[7]),從 NIMA[20]美學評分的深 層網路中擷取其較淺層的特徵作為美學屬性,結合這些資訊分析出照片適合的 濾鏡。基於照片中出現的物件與所在的場景跟使用者選擇的濾鏡是有正向的關 係,達到一個自動且有效的濾鏡推薦。 為了理解使用者對濾鏡使用的規則與喜好,我們提出從照片中的物件組合、 出現的場景與美學的屬性去預測使用者選擇的濾鏡,借助深層學習、類神經網 路在電腦視覺上的突破,使我們能自動取得大量又相當準確的物件偵測結果, 節省許多人工標記的時間與成本。. 3.1. 資料集: 我們從社群媒體 Instagram 搜集的 19 種濾鏡,共 6 萬 8 千 4 百張套上濾鏡的. 照片(圖 3.1、3.2、3.3、3.4 本論文蒐集的資料範例),當作計算模型的訓練資 料。從 Instagram 的 Hashtag 功能,我們可以知道這張照片相關的資訊(圖 3.2 Instagram Hashtag 標籤),再透過這些 Hashtag 可以取得所有標記這個 Hashtag 的 7.

(14) 照片(圖 3.3、3.4、3.5、3.6:Instagram 貼文 Hashtag),不需要再額外花費大量的 人力與時間。我們認為這些套用的結果,是使用者認為這個濾鏡能夠使該照片 更美觀所做的選擇,而這個濾鏡也就可以代表是該使用者對於這張照片所做的 標籤,這些資料就能作為一個濾鏡推薦的資料集。與以往透過群眾外包平台耗 費大量時間與成本不同,從 Instagram 能快速得到大量的資料以及相關的標籤, 我們也認為使用 Instagram 的資料能學習到更貼近一般使用者的濾鏡選擇。另外 我們有對蒐集的資料進行自動的偵測重複照片與人工的檢查,確認資料中沒有 重複的照片或是錯誤的濾鏡標記,最終每種濾鏡各包含 3600 張照片。 然而,這樣的做法並不能取得這些上過濾鏡照片的原圖,我們認為如果直 接直接學習已經上過各種濾鏡的照片,會導致類神經網路學習到已經受到濾鏡 影響的顏色資訊,以及我們也發現在一些特定的濾鏡下會影響偵測的結果,所 以在後續的物件、場景偵測以及美學提取時會先對這些濾鏡照片做灰階處理, 希望能藉由灰階處理消除不同濾鏡在顏色上的影響,學習到除了色彩以外的其 他 資 訊 。 另 外 我 們 也 使 用 灰 階 處 理 過 的 MSCOCO[5] 與 Places365[4] 以 及 AVA[19]資料集做物件、場景偵測以及美學特徵提取的三個網路的微調,最後使 用 FACD 資料集[7]來評量我們的方法,FACD 資料集提供了 1280 張照片套用 22 種濾鏡後的結果,以及利用 Amazon Mechanical Turk 蒐集的每種濾鏡的評分。 本論文所建置的資料可於下列網址下載: https://1drv.ms/f/s!Avh5bo3WLvFBgYJhwFJNU4jMD2KRRw. 8.

(15) 圖 3.1:搜集的 Instagram 1977 Filter 照片範例. 圖 3.2:搜集的 Instagram Amaro Filter 照片範例. 9.

(16) 圖 3.3:搜集的 Instagram Hefe Filter 照片範例. 圖 3.4:搜集的 Instagram Inkwell Filter 照片範例. 10.

(17) 圖 3.5: Instagram 貼文 Hashtag 範例. 圖 3.6: Instagram Hashtag 1977 Filter 搜尋結果範例. 11.

(18) 圖 3.7: Instagram Hashtag Hefe Filter 搜尋結果範例. 圖 3.8: Instagram Hashtag Amaro Filter 搜尋結果範例. 12.

(19) 圖 3.9: Instagram Hashtag Inkwell Filter 搜尋結果範例. 3.2. 照片內容: 我們認為照片中的內容,如出現的物件以及所在的場景都是影響使用者選. 擇濾鏡的因素,所以使用類神經網路分別對照片進行物件、場景與美學屬性的 偵測,以分析濾鏡與這些資訊中的關係,更進一步完成濾鏡的推薦。 我們在使用從 Instagram 蒐集的各種濾鏡時發現,套用過濾鏡會影響物件及 場景偵測的結果,即使只有顏色變化,其與原圖在使用相同的類神經網路模型 卻產生不同的偵測結果。例如圖 3.4 是尚未經過濾鏡效果的原圖,其物件偵測的 結果,而圖 3.5 與圖 3.6 分別為套用兩種濾鏡後的偵測結果,可以發現三張照片 有不同的偵測結果。即使三張照片只有顏色上的差別,照片的內容物都相同, 但是經過同一個類神經網路的偵測也會得到不同的結果,說明顏色會影響物件 偵測模型。而我們搜集來的照片集中,無法取得未套過濾鏡的原圖,考量讓物 件偵測的結果是準確且穩定的,我們對這些搜集來的照片做灰階處理(移除顏 色資訊),同時也對物件偵測、場景偵測與美學屬性的三個類神經網路做灰階的 13.

(20) 微調,藉由微調灰階資料後的類神經網路解決偵測不穩定的情況。圖 3.7 與圖 3.8 分別是套用濾鏡的照片經過灰階處理後,使用微調過的類神經網路偵測的結 果,可以發現與上述直接進行偵測的結果穩定許多。雖然物件偵測與場景偵測 在捨棄顏色資訊後的準確度稍微低於原始版本,但是藉由灰階處理可以使不同 濾鏡的照片能在相同的網路下,取得較一致的結果。. 圖 3.10: 未上過濾鏡的照片的物件偵測結果. 14.

(21) 圖 3.11: 套用濾鏡 1977 後的物件偵測結果. 圖 3.12: 套用濾鏡 Toaster 後的物件偵測結果. 15.

(22) 圖 3.13: 先套用濾鏡 1977 再灰階處例並使用灰階微調的物件偵測網路的偵測結果. 圖 3.14: 先套用濾鏡 Toaster 再灰階處例並使用灰階微調的物件偵測網路的偵測結果. 16.

(23) 3.2.1. 物件:. 我們使用 Mask R-CNN[3]基於深層學習的物件偵測網路方法,取得照片中 出現的物件內容,我們認為多種類與準確的偵測更能幫助理解物件與濾鏡間的 關係,但同時也考量這些類別是日常生活中會出現的。而在物件偵測的任務上 常使用的 MSCOCO[5]資料集從日常生活的場景中擷取了 80 類物件,同時具備 多 種 類 又 生 活 化 的 條 件 , 非 常 符 合 我 們 的 需 求 。 Mask R-CNN[3] 訓 練 在 MSCOCO[5]資料集上能準確的分類 80 類物件同時又能達到實例級別的分割。 我們認為濾鏡選擇不只受到出現的物件種類影響,物件在照片中的大小與位置 都可能是影響使用者選擇濾鏡的因素,能達到實例分割級別的物件偵測就能幫 助我們取得詳細的物件大小與位置。因此,我們使用 Mask R-CNN[3]取得物件 在照片中出現的種類、大小以及位置等資訊,並從這些資訊中透過類神經網路 分析出與濾鏡之間的規則。為了避免因採用不同濾鏡而影響偵測結果,我們重 新對 Mask R-CNN[3]使用灰階過的 MSCOCO[5]微調。表 3.1 中第一列是實作 Mask R-CNN[3]基於 FPN[2]與 ResNet101[1]的結果,第二列是我們使用灰階微 調之後的結果,從實驗數據可以觀察到微調過後的網路 Average Precision 會下 降。除了捨棄顏色資訊的作法外,我們也想過對網路做 19 種濾鏡的微調,但是 由於我們無法取得 Instagram 濾鏡一模一樣的作法甚至是對應的 API(官方視濾鏡 做法為商業機密),以及這樣需要花費 19 倍以上的時間,所以我們選擇用灰階處 理來解決不同濾鏡造成的偵測干擾。. 17.

(24) Model. APbb. APbb50. APbb75. Mask R-CNN[3]. 38.2. 60.3. 41.7. Mask R-CNN[3] 灰 階微調. 33.9. 51.4. 37.4. 表 3.1:Mask R-CNN[3]微調前後的結果. 3.2.2. 場景:. 我們使用 Places365[4]訓練在 Resnet-18[1]作為場景偵測的網路,我們認為 場景能幫助物件分析照片與濾鏡之間的關係,因為即使是相同的物件也可能會 因為所在的場景而選用不同的濾鏡,我們希望能更清楚的理解使用者選擇濾鏡 的依據,所以也加入了場景偵測,希望能幫助場景偵測的網路分析理解使用者 選擇濾鏡時的考量。同樣我們也認為多場景與高準確率的偵測越能夠幫助分析 理解濾鏡的使用,所以選擇具有 365 類場景的 Places365[4]當作訓練場景偵測的 資料集訓練在幫助許多任務達到很好成績的 Resnet[1]。同時,與處理物件偵側 的考量一樣,我們也重新使用灰階過的 Places365[4]進行微調。表 4.2 第一列是 原圖訓練的準確度,第二列是我們使用灰階過後的 Places365[4]的準確度,從表 格可以發現灰階過後的準確度會下降,但是與物件偵測時相同;希望使用從 Instagram 搜集的濾鏡照片時能藉由相對單純的輸入,取得較穩定的結果。 Model. Top-1 acc.. Top-5 acc.. ResNet[1]18 層. 54.74%. 85.08%. ResNet[1]18 層 灰階微調. 51.00%. 82.00%. 表 3.2:Places365[4]訓練在 ResNet-18[1]微調前後的結果. 18.

(25) 3.2.3. 美學屬性:. 我們 參考[7]使 用 的 美 學屬性,並使用 Google 提出的的美學 評分網路 NIMA[20],提取其中淺層的卷積神經網路輸出作為照片的美學屬性。美學屬性 的長度為 128,我們提取 NIMA[20]Inception Resnet V2[24]的第七層輸出接上一 層節點數為 128 的完全連接層與一層節點數為 10 的完全連接層,重新使用 AVA[19]資料集訓練這兩層,再把節點數 128 的完全連接層輸出作為我們的美學 屬性。同樣為了避免套過濾鏡的照片其改變的顏色會對美學屬性造成影響,所 以我們也使用灰階過的 AVA[19]資料集對網路重新微調,希望能學習到顏色之 外的美學屬性,再利用這個美學屬性判斷濾鏡。我們也認為當無法偵測到照片 中的物件與場景時,美學屬性是能幫助網路選擇濾鏡的重要特徵。 Model. Top-1 acc.. 美學屬性網路. 57.84%. 美學屬性網路 灰階微調. 56.43%. 表 3.3:美學網路微調前後的結果. 3.3. 濾鏡推薦網路架構: 圖 3.15 為本論文提出的網路架構,一開始是照片得輸入,接著由三個網路. 所構成: (1)偵測物件的 Mask R-CNN[3]; (2)偵測場景的 Resnet-18[1]; 以及 (3)從 NIMA[20]提取的美學屬性。照片經由三個網路分別取得照片中出現的物 件與各場景機率以及美學屬性,三個網路的輸出結合後進入兩層完全連接層, 最終的輸出是採用各個濾鏡的機率。物件偵測結果在進入完全連接層前會經過 以下處理:我們將一張照片的物件偵測結果轉換為長度為 480+240+365+128 的特 徵向量,480 代表物件中心點 (總共 80 種物件,每種物件最多能存放三個實例 19.

(26) (instance),分別記錄這些實例的中心點 X 座標與 Y 座標),240 是物件大小(總 共 80 種物件,每種物件最多能存放三個實例,並且記錄每個實例的大小) ,365 是各種場景的機率,128 是照片的美學屬性。從 Mask R-CNN 網路輸出的物件偵 測結果取出上述特徵,再進入兩層節點數都為 128 的完全連接層,判斷照片適合 使用的濾鏡。兩層完全連階層使用 Relu 作為激活函式;後面各包含一層 Batch Normalization (其 epsilon 為 0.001)與一層 Dropout(其 rate 為 0.5),網路輸出經 過 Softmax,使用 Adam 作為優化器,損失函數為 categorical cross entropy[25]。. 20.

(27) 圖 3.15:本論文的網路架構. 21.

(28) 第四章 實驗 我們使用[7]提出的 FACD 資料集當作實驗評量的資料集,並且依照其評量 方法來評估我們的濾鏡預測結果。在這個章節中我們會先說明實驗的設定,接 著會列出使用不同組合的輸入資訊下的實驗結果,以及跟[7]的方法比較、討論 以及觀察。. 4.1. 設置: 我們把從 Instagram 搜集的 6 萬 8 千 4 百張濾鏡過的照片分成兩部分;9 成照. 片 61560 張當作訓練資料與 1 成 6840 張作為驗證資料,使用這些照片訓練我們 最後的兩層完全連階層。評量的設置都與[7]相同,使用[7]提出的 FACD 資料集 來評量我們的濾鏡推薦系統,把 1280 張原始照片分成 1120 張訓練、驗證資料與 160 張測試資料,同時把標記裡總分三分中得到三分的濾鏡視為該照片的 Ground Truth;每張照片平均有 3.7 個適合的濾鏡,評量時只要任一個 Ground Truth 出現 就算正確,以上設置都與[7]相同。 設備為 GTX1080ti 與 i7-7700,實驗使用 Tensorflow 配合 Keras 建置完成, 微調物件偵測、場景偵測與美學屬性三個類神經網路需要花費兩天,實際使用 時從輸入照片經過物件偵測、場景偵測與美學屬性到輸出推薦濾鏡一張照片大 約花費一秒的時間。. 4.1.1. Training:. 照片會先由物件、場景偵測以及美學屬性的類神經網路,分別取得物件的 中心點與大小以及各種場景的機率,三個網路的輸出結合後再進入訓練第三部 分的完全連接層。照片輸入物件偵測網路的大小為 1024x1024,物件偵測使用 22.

(29) Mask R-CNN[3] 基 於 FPN[2] 與 ResNet101[1] 的 版 本 , 並 且 使 用 灰 階 的 MSCOCO[5]微調網路,輸出 240 個物件的大小以及其 480 個 x,y 座標。照片輸 入場景偵測的大小為 256x256,使用 18 層的 ResNet[1]作為場景偵測的類神經網 路,也使用灰階過的 Places365[4]微調網路,輸出為 365 個場景的機率。美學屬 性使用 NIMA[20]美學評分的類神經網路,我們使用實作在 Inception ResNet V2[24]的版本,並擷取第七層池化層的輸出作為 128-d 的完全連接層的輸入。 這個做法是基於[7]的論文中發現這樣層數的輸出適合使用 128 當作美學屬性的 維度,再使用灰階的 AVA[19]資料集微調美學屬性的類神經網路,輸出 128 維度 的美學特徵。使用灰階微調後的三個網路偵測我們搜集的 Instagram 濾鏡照片;三 個輸出再結合成 1453 維的資訊後訓練最後的兩層完全連接層,之後再使用[7]提 供的 FACD 資料集作為驗證的資料。. 4.1.2. Testing:. 我們使用 FACD[7]資料集來驗證我們的濾鏡推薦結果,與[7]相同我們把 FACD 資料集分成 1120 張的訓練資料與 160 張的測試資料(7:1),使用測試資料 計算濾鏡推薦的準確率。驗證的照片會分別進入三個網路做物件偵測與場景偵 測以及美學屬性提取,這些資訊透過訓練好的完全連結層我們能取得各個濾鏡 適合的機率,推薦的濾鏡會依照機率高低排序,當照片的任一濾鏡標籤(Ground Truth)出現於前 K 個結果中就算正確,K 在實驗中設定為 1,3,5,因為使用手機 的介面使用者最多只能同時看到 5 個濾鏡。. 4.2. 結果: 我們使用前述的評量方法對我們的網路進行評估,並且與[7]最好的兩種實. 23.

(30) 驗設置結果比較。表 4.1 是不同的資訊輸入其網路的參數量,表 4.2、表 4.3 分別 代表先訓練在我們搜集的 Instagram 濾鏡照片再微調的網路以及只訓練在 FACD 資料集[7]的網路的結果,以兩個網路的結果差異說明我們搜集的 Instagram 照 片是否對於濾鏡推薦有幫助。 Model. 參數量. Objects. 259,522,560. Scenes. 131,563,520. Aesthetics. 46,137,344. Objects+Scenes. 391,086,080. Objects+Aesthetics. 305,659,904. Scenes+Aesthetics. 177,700,864. Objects+Scense+Aesthetics. 437,223,424. 表 4.1:不同資訊作為輸入的網路參數量. 表 4.2 是先使用我們搜集的 Instagram 資料訓練再對 FACD 資料集[7]微調的 結果,包含了各種不同資訊的組合,前兩列分別是隨機猜測的結果與[7]最好的 兩種實驗設置結果,接下來的七列是分別針對我們方法使用不同資訊進行評估 的結果,透過這樣的實驗我們可以理解到三種資訊分別對於濾鏡推薦的貢獻。 表最後一列是我們同時使用物件大小、中心點與場景機率以及美學屬性的結 果,在 Top-1 的準確率有 46.875%,我們原本期待使用越多的資訊能夠取得越好 24.

(31) 的結果,但與其他列分別只使用各種資訊的結果比較我們觀察到三種資訊彼此 間並不是都能相輔相成互相配合,所以三種資訊全部使用並沒有達到最高的準 確率。表格的前三列代表了單獨使用物件、場景以及美學屬性的準確率,只使 用了照片中的單一種資訊訓練與推薦濾鏡,從 Top-1 的準確度我們可以得知美學 屬性或是場景對於濾鏡的推薦能有很大的幫助,分別達到了 51.25%與 48.125%, 而物件則相對較低只有 43.75%的準確率。我們觀察使用物件資訊的輸出,在許 多照片中還是無法偵測真正出現的物件,可能是偵測錯誤或是並沒有被偵測 到,我們認為這樣的差別是物件在單獨使用時表現不如其他兩種資訊的原因。 表格接下來三列代表了結合倆倆資訊的結果,從這些結果中我們可以知道三種 資訊之間的關係性,其中同時使用物件與美學屬性兩種資訊能得到比彼此單獨 使用時更高的準確率;達到了 51.875%,是所有組合中準確度最高的,也表示物 件與美學屬性同時使用具有相輔相成的效果。但是像物件與場景一起使用就無 法得到更高的準確率,只達到 45%。但是我們能從表中的數據發現,不管是單 一資訊的使用或是各種組合,使用我們的方法及資料在推薦濾鏡 Top-1 的結果上 都能達到比[7]更好的效果。. 25.

(32) Model. Top-1. Top-3. Top-5. Random Guess. 16.80%. 44.15%. 64.27%. PairComp+Cate (AlexNet)[7]. 41.25%. 80.00%. 89.18%. PairComp+Cate (RAPID net)[7]. 41.88%. 79.50%. 90.00%. Objects. 43.75%. 76.25%. 88.12%. Scenes. 48.12%. 79.37%. 88.12%. Aesthetics. 51.25%. 75.62%. 88.75%. Objects+Scenes. 45%. 75.62%. 87.50%. Objects+Aesthetics. 51.87%. 77.50%. 88.12%. Scenes+Aesthetics. 51.25%. 80.00%. 88.75%. Objects+Scense+Aesthetics. 46.87%. 75.00%. 84.37%. 表 4.2:使用 Instagram 照片訓練與微調在 FACD 資料集[7]的濾鏡推薦結果. 26.

(33) 表 4.3 是只使用 FACD 資料集[7]訓練的結果,並沒有使用到我們自己搜集 的 Instagram 資料,兩個實驗都是使用一樣的方法,只有資料上的不同。表 4.2 與 表 4.3 的差別可以代表了我們自己搜集的資料是否有幫助濾鏡推薦的結果。從前 三列只使用單一種資訊的結果我們可以觀察到,單獨使用物件、場景與美學屬 性的 Top-1 準確率分別只有 37.5%、43.125%、50%,三種資訊的結果都比先使用我 們的搜集的資料訓練的結果差,其中以物件影響最大有 6%,這樣的數據可以代 表我們搜集的 Instagram 照片在我們的方法上能有許多幫助,學習與分析這些照 片就能具有一定程度的濾鏡推薦能力,與之前的研究不同可以節省大量的時間 與成本。但是在某些組合中,只使用 FACD[7]的資訊卻得到比先訓練再我們的 資料上更好的結果,像是 Objects+Scenes 的 Top-1 準確率高了 1.25%,而 Objects+Scense+Aesthetics 全部資訊使用的 Top-3 與 Top-5 也與先訓練在我們資 料集上的結果有些段差距,我們認為這些情況可能是由於 FACD[7]的資料數較 少且各濾鏡的標籤數量不平均所造成的原因,由於我們所蒐集的資料數較多, 並且每個濾鏡的訓練樣本數都一樣多,以此資料訓練的網路並不偏袒任何一種 濾鏡。而只使用 FACD[7]的情況下,由於每個濾鏡的訓練樣本數不平均,所以 可能導致網路會特別偏袒特定的濾鏡,進一步使某些情況下的準確度會比較 高。. 27.

(34) Model. Top-1. Top-3. Top-5. Objects. 37.50%. 70.00%. 85.00%. Scenes. 43.12%. 76.87%. 87.50%. Aesthetics. 50.00%. 77.50%. 88.75%. Objects+Scenes. 46.25%. 79.37%. 89.37%. Objects+Aesthetics. 46.25%. 77.50%. 88.75%. Scenes+Aesthetics. 51.25%. 77.50%. 88.75%. Objects+Scense+Aesthetics. 44.37%. 81.87%. 91.25%. 表 4.3:只使用 FACD 資料集[7]訓練. 28.

(35) 第五章 結論與未來發展 本篇論文中我們提出了一個新的方法來推薦濾鏡,我們應用三個深度學習 的網路抓取照片的資訊,再利用類神經網路來分析學習照片中的物件、場景與 美學屬性;完成濾鏡的推薦,並且都取得了比前一篇論文[7]在 Top-1 取得較好的 結果,我們也提出直接使用 Instagram 上的照片與 Hashtag 作為訓練資料,避免了 先前的方法[7]需要花費大量時間與成本搜集資料集。從我們的實驗可以證明這 些資料 的可用性,也 藉由這些資料取得了更好的濾鏡預測結果,直接使用 Instagram 的照片與 Hashtag 可以幫助在未來要進行更多種類濾鏡的推薦或是讓相 關的任務能快速的取得資料。 目前由於 Instagram 並沒有直接提供正式的介面或是方法能夠取得資料,只 有相關的單位才有機會使用使用到完整的 Instagram 訓練資料(跟照片所有相關的 屬性),而我們取得的資料量只佔 Instagram 上的照片中很小的ㄧ部分,如果在未 來能夠使用真正完整且大量的訓練資料或是取得 Instagram 濾鏡的程式與做法, 相信這個任務會有更大的挑戰性以及達到更好的結果。 另外目前偵測一張照片適合的照片需要花費大約一秒的時間,在未來我們 希望能提升偵測的速度,藉由找出更能夠幫助判斷濾鏡的照片資訊或是整體的 網路架構來改善,藉此來提升我們偵測的速度。. 29.

(36) 參考文獻 1.. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition. arXiv:1512.03385, 2015.. 2.. Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. Feature Pyramid Networks for Object Detection. arXiv:1612.03144, 2016.. 3.. Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick. Mask R-CNN arXiv:1703.06870, 2017. 4.. B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. Learning Deep Features for Scene Recognition using Places Database. NIPS, 2014.. 5.. Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollár. Microsoft COCO: Common Objects in Context. ECCV, 2014.. 6.. R. Girshick. Fast R-CNN. ICCV, 2015.. 7.. Wei-Tse Sun, Ting-Hsuan Chao, Yin-Hsi Kuo, Winston H. Hsu. Photo Filter Recommendation by Category-Aware Aesthetic Learning. arXiv:1608.05339, 2016.. 8.. S. Bakhshi, D. A. Shamma, L. Kennedy, and E. Gilbert. Why We Filter Our Photos and How It Impacts Engagement. AAAI, 2015.. 9.. A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012, pp. 1097–1105.. 10. X. Lu, Z. Lin, H. Jin, J. Yang, and J. Z. Wang. Rapid. Rating pictorial aesthetics using deep learning. ACM, 2014, pp. 457–466. 30.

(37) 11. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Identity Mappings in Deep Residual Networks. ECCV, 2016. 12. Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He. Aggregated Residual Transformations for Deep Neural Networks. CVPR, 2017. 13. Yuheng Hu, Lydia Manikonda, Subbarao Kambhampati. What We Instagram: A First Analysis of Instagram Photo Content and User Types. AAAI,2015. 14. Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri, Yixuan Li, Ashwin Bharambe, Laurens van der Maaten. Exploring the Limits of Weakly Supervised Pretraining. arXiv:1805.00932 2018. 15. Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei. ImageNet: A large-scale hierarchical image database. CVPR, 2009. 16. Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. NIPS, 2012. 17. Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi. You Only Look Once: Unified, Real-Time Object Detection. CVPR, 2016. 18. Christian Szegedy,Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. Going Deeper with Convolutions. CVPR, 2014. 19. Naila Murray, Luca Marchesotti, Florent Perronnin. AVA: A large-scale database for aesthetic visual analysis. CVPR, 2012. 20. Hossein Talebi, Peyman Milanfar. NIMA: Neural Image Assessment. arXiv:1709.05424 2017. 21. R. Datta, D. Joshi, J. Li, and J. Z. Wang. Studying aesthetics in photographic 31.

(38) images using a computational approach. ECCV, 2006. 22. Y. Luo and X. Tang. Photo and video quality evaluation: Focusing on the subject. ECCV, 2008. 23. Y. Ke, X. Tang, and F. Jing. The design of high-level features for photo quality assessment. CVPR, 2006. 24. Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alem. Inceptionv4, Inception-ResNet and the Impact of Residual Connections on Learning. CVPR, 2016. 25. G.E. Nasr, E.A. Badr, C. Joun. Cross Entropy Error Function in Neural Networks: Forecasting Gasoline Demand. AAAI, 2002. 26. Jian Ren, Xiaohui Shen, Zhe Lin, Radomír Mech, David J. Foran. Personalized Image Aesthetics. ICCV, 2017.. 32.

(39)

參考文獻

相關文件

第四章 直角座標與二元一次方程式.

第五章 多項式.

第五章 多項式.

我們已經學過了一元一次方程式與二元一次方程式,在本章中,我們將學習一元二次

 本實驗測得的 pH 值與酸鹼度計測得的 pH 值差異不大,約 1%,證明了我們 也可以利用吸光值,來推算出溶液中不同分子的濃度,進而求得

特性:高孔率、耐 130C 高壓滅菌,透光性佳,以 RI 值 1.515 之溶液潤濕過 濾膜即可用顯微鏡觀察過濾膜上的粒子。灰分含量 0.002 mg/cm 2 。一般用來

七、請各校踴躍推薦學生擔任評選委員(不限 1 名) ,推薦表及資格規定詳 如附件 3。請於線上填寫推薦表,並上傳核章後之掃描檔,於 110 年 1 月 29

中國語文課程為各學習階 段提供「建議篇章」, 推薦 適合學生程度的文言經典作 品。. 教師可按學校情況,靈 活地把「建議篇章」融入課