照片內容

第三章方法與資料集

3.2 照片內容

我們認為照片中的內容，如出現的物件以及所在的場景都是影響使用者選擇濾鏡的因素，所以使用類神經網路分別對照片進行物件、場景與美學屬性的偵測，以分析濾鏡與這些資訊中的關係，更進一步完成濾鏡的推薦。

我們在使用從 Instagram 蒐集的各種濾鏡時發現，套用過濾鏡會影響物件及場景偵測的結果，即使只有顏色變化，其與原圖在使用相同的類神經網路模型卻產生不同的偵測結果。例如圖 3.4 是尚未經過濾鏡效果的原圖，其物件偵測的結果，而圖 3.5 與圖 3.6 分別為套用兩種濾鏡後的偵測結果，可以發現三張照片有不同的偵測結果。即使三張照片只有顏色上的差別，照片的內容物都相同，

但是經過同一個類神經網路的偵測也會得到不同的結果，說明顏色會影響物件偵測模型。而我們搜集來的照片集中，無法取得未套過濾鏡的原圖，考量讓物件偵測的結果是準確且穩定的，我們對這些搜集來的照片做灰階處理（移除顏色資訊），同時也對物件偵測、場景偵測與美學屬性的三個類神經網路做灰階的

微調，藉由微調灰階資料後的類神經網路解決偵測不穩定的情況。圖3.7 與圖 3.8 分別是套用濾鏡的照片經過灰階處理後，使用微調過的類神經網路偵測的結果，可以發現與上述直接進行偵測的結果穩定許多。雖然物件偵測與場景偵測在捨棄顏色資訊後的準確度稍微低於原始版本，但是藉由灰階處理可以使不同濾鏡的照片能在相同的網路下，取得較一致的結果。

圖3.10：未上過濾鏡的照片的物件偵測結果

圖3.11：套用濾鏡 1977 後的物件偵測結果

圖3.12：套用濾鏡 Toaster 後的物件偵測結果

圖3.13：先套用濾鏡 1977 再灰階處例並使用灰階微調的物件偵測網路的偵測結果

圖3.14：先套用濾鏡 Toaster 再灰階處例並使用灰階微調的物件偵測網路的偵測結果

3.2.1 物件：

MSCOCO[5]資料集上能準確的分類 80 類物件同時又能達到實例級別的分割。

我們認為濾鏡選擇不只受到出現的物件種類影響，物件在照片中的大小與位置 Mask R-CNN[3]基於 FPN[2]與 ResNet101[1]的結果，第二列是我們使用灰階微調之後的結果，從實驗數據可以觀察到微調過後的網路 Average Precision 會下降。除了捨棄顏色資訊的作法外，我們也想過對網路做 19 種濾鏡的微調，但是由於我們無法取得 Instagram 濾鏡一模一樣的作法甚至是對應的 API(官方視濾鏡做法為商業機密)，以及這樣需要花費19 倍以上的時間，所以我們選擇用灰階處理來解決不同濾鏡造成的偵測干擾。

Model AP^bb AP^bb⁵⁰ AP^bb⁷⁵ Mask R-CNN[3] 38.2 60.3 41.7 Mask R-CNN[3] 灰

階微調 33.9 51.4 37.4

表3.1：Mask R-CNN[3]微調前後的結果

3.2.2 場景：

我們使用 Places365[4]訓練在 Resnet-18[1]作為場景偵測的網路，我們認為場景能幫助物件分析照片與濾鏡之間的關係，因為即使是相同的物件也可能會因為所在的場景而選用不同的濾鏡，我們希望能更清楚的理解使用者選擇濾鏡的依據，所以也加入了場景偵測，希望能幫助場景偵測的網路分析理解使用者選擇濾鏡時的考量。同樣我們也認為多場景與高準確率的偵測越能夠幫助分析理解濾鏡的使用，所以選擇具有 365 類場景的 Places365[4]當作訓練場景偵測的資料集訓練在幫助許多任務達到很好成績的 Resnet[1]。同時，與處理物件偵側的考量一樣，我們也重新使用灰階過的 Places365[4]進行微調。表 4.2 第一列是原圖訓練的準確度，第二列是我們使用灰階過後的 Places365[4]的準確度，從表格可以發現灰階過後的準確度會下降，但是與物件偵測時相同;希望使用從 Instagram 搜集的濾鏡照片時能藉由相對單純的輸入，取得較穩定的結果。

Model Top-1 acc. Top-5 acc.

ResNet[1]18 層 54.74% 85.08%

ResNet[1]18 層

灰階微調 51.00% 82.00%

表3.2：Places365[4]訓練在 ResNet-18[1]微調前後的結果

3.2.3 美學屬性：

我們參考 [7] 使用的美學屬性，並使用 Google 提出的的美學評分網路 NIMA[20]，提取其中淺層的卷積神經網路輸出作為照片的美學屬性。美學屬性的長度為128，我們提取 NIMA[20]Inception Resnet V2[24]的第七層輸出接上一層節點數為 128 的完全連接層與一層節點數為 10 的完全連接層，重新使用

Model Top-1 acc.

美學屬性網路 57.84% 以下處理:我們將一張照片的物件偵測結果轉換為長度為 480+240+365+128 的特徵向量，480 代表物件中心點 (總共 80 種物件，每種物件最多能存放三個實例

在文檔中分析物件、場景、美學推薦照片濾鏡 (頁 19-25)

第三章 方法與資料集

3.2 照片內容

3.2.1 物件：

3.2.2 場景：

3.2.3 美學屬性：

第三章方法與資料集