圖像分類方法研究 - 研究方法 - 臉書相片分類及使用者樣貌分析

第三章研究方法

3.2 圖像分類方法研究

Face++所提供的 Face Detect API[7]，方法為上傳影像到 Face++做分析，再將結果利用 json 的格式回傳，此 API 所提供的資訊有：在影像中人臉的位置、大小，眼睛、鼻子、

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

嘴巴的位置，以及年齡、微笑程度、有沒有戴眼鏡、姿勢、以及性別等等(如圖 3.15)，

在本論文裡所取用的資訊為圖像裡面人臉的個數、以及分別的性別為何。

圖 3.14、 OpenCV 人臉偵測的實作

圖 3.15、使用 Face++網站線上人臉偵測的畫面截圖，左邊為回傳的結果圖，藍色框為男性，粉紅色框為女性，如果將游標移到框框上，會顯示該人臉的相關資訊；右邊為以 json

格式回傳的影像相關資訊

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

人物照又依人數多寡以及性別分成：個人照、異性照、小團體照、大合照，從 Face++

所提供的資訊中可以發現(如圖 3.16)，影像中的人臉大小或有沒有戴眼鏡等，對於人臉偵測、性別判斷結果沒有太大的影響，雖然還是會有誤差出現，但大部分都有不錯的效果。

（a）（b）

（c）

（d）

圖 3.16、人臉偵測的實作（a）個人照（b）異性照（c）小團體照（d）大合照

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

除此之外，有些人會用身體的一部份，例如手、腳(如圖 3.17)，代表本人出現在相片中，或是有時候會出現人臉偵測效果不佳的狀況，這時候可以使用 Rekognition 所提供的 Concept Recognition API[8]，其中有個 Scene Understanding 的功能，它可以感知圖像裡的環境，可能是認出圖像裡面的內容物品，或是圖像內人物的行為動作等等來產生標籤(tag)，可以藉由這些標籤，來輔助判斷是否為人物照。

判斷是否為人物照的標籤項目，則於附錄展示。

圖 3.17、利用標籤，來輔助判斷是否為人物照

3.2.2 景物照

如圖 3.2 所示，可以先區分出相片為室內或是戶外照，若是戶外照，又可分為風景照與建築物照[14]。這部分也是使用 Rekognition 所提供的標籤來輔助判斷，從一些已知為室內照的圖像裡，可以發現室內照通常具有#room、#conference_room、#restaurant 等標籤(如圖 3.18)，另外也可以從會出現在室內的物品當作判斷，像是#bed、#furniture、

#bookcase 等等；而風景照像是山、海、天空會具有#outdoors、#sky、#ocean、#forest 等標籤(如圖 3.19)；建築物照則具有#building、#architecture、#tower、#temple 等標籤(如圖 3.20)，或許可以由此反推回來，若有這些標籤即為景物照，甚至可以分成更細的室內照、風景照、建築物照。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

判斷是否為景物照的標籤項目，則於附錄展示。

圖 3.18、室內照通常具有#room、#restaurant、# furniture 等標籤

圖 3.19、風景照通常具有#outdoors、#sky、#ocean、#forest 等標籤

圖 3.20、建築物照通常具有#building、#architecture、#tower、#temple 等標籤

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.3 主題照

若要判斷相片是否有明確的主題，可以從圖中取出 Saliency Map[10]，因為 Saliency Map 的目的就是找出在視覺上比較顯著的區域當作主體 (如圖 3.21)。取完之後，經過本論文所提出的判斷方式，來區分該張圖片是否為主題照。

（a）（b）

圖 3.21、取出圖像的 Saliency Map（a）影像原圖（b）為左圖的 Saliency Map

首先，由於灰階值較低的部分影響較小，所以本論文採用的方式為取出灰階值大於 64（灰階值範圍的四分之一）的部分(如圖 3.22)，此門檻值為本研究經實驗數據統計後得到的最佳值，之後以黃金比例為底，將影像長寬都取 0.618 倍，面積為0.618 x 0.618 = 0.381924，所以取 0.38 當作門檻值。換句話說，就是先算出灰階值大於 64 的部分，若其面積超過整張影像面積的 38%，就算是主題照。

圖 3.22、Saliency Map 的直方圖，判斷方法為灰階值大於 64 的部分，須佔整張影像的 38%以上

0 64 128 192 255

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

如圖 3.21 (b)，灰階值大於 64 的部分，佔整張相片的 63.91%，所以圖 3.21 為主題照；而像圖 3.23 (b)，灰階值大於 64 的部分，佔整張相片的 14.54%，所以圖 3.23 不是主題照。

（a）（b）

圖 3.23、（a）影像原圖（b）為左圖的 Saliency Map

3.2.4 非寫實照

由於不是從現實生活中得到的相片，而是由電腦或手機得到的，所以容易有單一顏色的區域，因此可以做些判定來判斷是否為非寫實照，例如把一張圖片的色彩結構 R

（Red）值、G（Green）值、B（Blue）值做統計計算，並以直方圖表示，可以觀察到，

由於非寫實照很容易使用單一顏色當代表，因此會有某些值特別突出，而寫實照的色彩分布則是較圓滑(如圖 3.24)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.24、非寫實照與寫實照的比較（a）非寫實照容易有單一顏色的區域，所以會有某些值特別突出（b）寫實照在 RGB 的直方圖裡，分布較圓滑，沒有單一突出的現象

另外也可以從 Rekognition 所提供的標籤來輔助判斷，從一些已知為非寫實照的圖像裡，可以發現非寫實照通常具有#collage、#snapshot、#webpage、#sticker 等標籤(如圖 3.25)，或許可以由此反推回來，若有這些標籤即為非寫實照，甚至可以分成更細的拼貼照、截圖照。

判斷是否為景物照的標籤項目，則於附錄展示。

（a）

（b）

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.25、非寫實照通常具有#collage、#snapshot、#webpage、#sticker 等標籤

3.2.5 食物照

有些關於食物辨識的研究，它的假設是已經知道相片內有食物，再去做食物的辨識[15]，而本論文的作法則是使用 Rekognition 所提供的標籤來判斷是否為食物照。從一些已知為食物照的圖像裡，可以發現食物照通常具有#food、#meal、#cake、#drink 等標籤 (如圖 3.26)，另外，容器、餐具的標籤也可以當協助判斷，或許可以由此反推回來，

若有這些標籤即為食物照。

判斷是否為景物照的標籤項目，則於附錄展示。

圖 3.26、食物照通常具有#food、#meal、#cake、#drink 等標籤

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2.6 動物照

在物件偵測辨識部分，動物偵測(animal detection) 也是一個重要的課題，尤其是最普遍的貓跟狗[16]，從一些已知為動物照的圖像裡，藉由 Rekognition 所提供的 scene understanding 功能，可以發現動物照通常具有#animal、#mammal、#dog、#cat 等標籤 (如圖 3.27)，或許可以由此反推回來，若有這些 tag 即為動物照，甚至可以分成更細項的犬類、貓類、鳥類等等。

判斷是否為景物照的標籤項目，則於附錄展示。

圖 3.27、動物照通常具有#animal、#mammal、#dog、#cat 等 tag

3.2.7 文字照

從一些已知為文字照的圖像裡，藉由 Rekognition 所提供的 scene understanding 功能，可以發現文字照通常具有#text、#word、#logo、#signature 等標籤 (如圖 3.28)，或許可以由此反推回來，若有這些標籤即為文字照。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

判斷是否為景物照的標籤項目，則於附錄展示。

圖 3.28、文字照通常具有#text、#word、#logo、#signature 等標籤

對相片們做完分類後，每個類別會建立不同的主要類別標籤(如圖 3.13)，有些類別甚至會有更細項的次要類別標籤(如圖 3.29、圖 3.30)，對應到相片身上，所以一張相片會包含一個或一個以上的類別標籤(如圖 3.31)，以及由 Rekognition 所提供的標籤(tag)，

有了這些資訊後，就可以進一步去分析每位使用者相片分類的狀況。

圖 3.29、類別標籤的流程-人物照 Image

是

不是是否為人物照

獨照異性照小團體大合照 1 人

1 男 1 女 2~10 人

> 10 人人的數量

人物照

‧

關於 Rekognition 所提供的標籤(tag)部分，原本每張照片預設會產生 5 個標籤，但這樣資訊似乎略顯不足，因此本論文將標籤量提升一倍，也就是一張相片會產生 10 個

在文檔中臉書相片分類及使用者樣貌分析 - 政大學術集成 (頁 36-47)

圖像分類方法研究

第三章 研究方法

3.2 圖像分類方法研究

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第三章研究方法

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學