• 沒有找到結果。

第三章 研究方法

3.2 圖像分類方法研究

Face++所提供的 Face Detect API[7],方法為上傳影像到 Face++做分析,再將結果利用 json 的格式回傳,此 API 所提供的資訊有:在影像中人臉的位置、大小,眼睛、鼻子、

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

嘴巴的位置,以及年齡、微笑程度、有沒有戴眼鏡、姿勢、以及性別等等(如圖 3.15),

在本論文裡所取用的資訊為圖像裡面人臉的個數、以及分別的性別為何。

圖 3.14、 OpenCV 人臉偵測的實作

圖 3.15、使用 Face++網站線上人臉偵測的畫面截圖,左邊為回傳的結果圖,藍色框為男 性,粉紅色框為女性,如果將游標移到框框上,會顯示該人臉的相關資訊;右邊為以 json

格式回傳的影像相關資訊

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

26

人物照又依人數多寡以及性別分成:個人照、異性照、小團體照、大合照,從 Face++

所提供的資訊中可以發現(如圖 3.16),影像中的人臉大小或有沒有戴眼鏡等,對於人臉 偵測、性別判斷結果沒有太大的影響,雖然還是會有誤差出現,但大部分都有不錯的效 果。

(a) (b)

(c)

(d)

圖 3.16、人臉偵測的實作(a)個人照(b)異性照(c)小團體照(d)大合照

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

除此之外,有些人會用身體的一部份,例如手、腳(如圖 3.17),代表本人出現在相 片中,或是有時候會出現人臉偵測效果不佳的狀況,這時候可以使用 Rekognition 所提 供的 Concept Recognition API[8],其中有個 Scene Understanding 的功能,它可以感知圖 像裡的環境,可能是認出圖像裡面的內容物品,或是圖像內人物的行為動作等等來產生 標籤(tag),可以藉由這些標籤,來輔助判斷是否為人物照。

判斷是否為人物照的標籤項目,則於附錄展示。

圖 3.17、利用標籤,來輔助判斷是否為人物照

3.2.2 景物照

如圖 3.2 所示,可以先區分出相片為室內或是戶外照,若是戶外照,又可分為風景 照與建築物照[14]。這部分也是使用 Rekognition 所提供的標籤來輔助判斷,從一些已知 為室內照的圖像裡,可以發現室內照通常具有#room、#conference_room、#restaurant 等 標籤(如圖 3.18),另外也可以從會出現在室內的物品當作判斷,像是#bed、#furniture、

#bookcase 等等;而風景照像是山、海、天空會具有#outdoors、#sky、#ocean、#forest 等標籤(如圖 3.19);建築物照則具有#building、#architecture、#tower、#temple 等標籤(如 圖 3.20),或許可以由此反推回來,若有這些標籤即為景物照,甚至可以分成更細的室 內照、風景照、建築物照。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

28

判斷是否為景物照的標籤項目,則於附錄展示。

圖 3.18、室內照通常具有#room、#restaurant、# furniture 等標籤

圖 3.19、風景照通常具有#outdoors、#sky、#ocean、#forest 等標籤

圖 3.20、建築物照通常具有#building、#architecture、#tower、#temple 等標籤

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

3.2.3 主題照

若要判斷相片是否有明確的主題,可以從圖中取出 Saliency Map[10],因為 Saliency Map 的目的就是找出在視覺上比較顯著的區域當作主體 (如圖 3.21)。取完之後,經過本 論文所提出的判斷方式,來區分該張圖片是否為主題照。

(a) (b)

圖 3.21、取出圖像的 Saliency Map(a)影像原圖(b)為左圖的 Saliency Map

首先,由於灰階值較低的部分影響較小,所以本論文採用的方式為取出灰階值大 於 64(灰階值範圍的四分之一)的部分(如圖 3.22),此門檻值為本研究經實驗數據統計 後得到的最佳值,之後以黃金比例為底,將影像長寬都取 0.618 倍,面積為0.618 x 0.618 = 0.381924,所以取 0.38 當作門檻值。換句話說,就是先算出灰階值大於 64 的部分,若 其面積超過整張影像面積的 38%,就算是主題照。

圖 3.22、Saliency Map 的直方圖,判斷方法為灰階值大於 64 的部分,須佔整張影像的 38%以上

0 64 128 192 255

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

30

如圖 3.21 (b),灰階值大於 64 的部分,佔整張相片的 63.91%,所以圖 3.21 為主題 照;而像圖 3.23 (b),灰階值大於 64 的部分,佔整張相片的 14.54%,所以圖 3.23 不是 主題照。

(a) (b)

圖 3.23、(a)影像原圖(b)為左圖的 Saliency Map

3.2.4 非寫實照

由於不是從現實生活中得到的相片,而是由電腦或手機得到的,所以容易有單一 顏色的區域,因此可以做些判定來判斷是否為非寫實照,例如把一張圖片的色彩結構 R

(Red)值、G(Green)值、B(Blue)值做統計計算,並以直方圖表示,可以觀察到,

由於非寫實照很容易使用單一顏色當代表,因此會有某些值特別突出,而寫實照的色彩 分布則是較圓滑(如圖 3.24)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

31

圖 3.24、非寫實照與寫實照的比較(a)非寫實照容易有單一顏色的區域,所以會有某 些值特別突出(b)寫實照在 RGB 的直方圖裡,分布較圓滑,沒有單一突出的現象

另外也可以從 Rekognition 所提供的標籤來輔助判斷,從一些已知為非寫實照的圖 像裡,可以發現非寫實照通常具有#collage、#snapshot、#webpage、#sticker 等標籤(如圖 3.25),或許可以由此反推回來,若有這些標籤即為非寫實照,甚至可以分成更細的拼貼 照、截圖照。

判斷是否為景物照的標籤項目,則於附錄展示。

(a)

(b)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

32

圖 3.25、非寫實照通常具有#collage、#snapshot、#webpage、#sticker 等標籤

3.2.5 食物照

有些關於食物辨識的研究,它的假設是已經知道相片內有食物,再去做食物的辨 識[15],而本論文的作法則是使用 Rekognition 所提供的標籤來判斷是否為食物照。從一 些已知為食物照的圖像裡,可以發現食物照通常具有#food、#meal、#cake、#drink 等標 籤 (如圖 3.26),另外,容器、餐具的標籤也可以當協助判斷,或許可以由此反推回來,

若有這些標籤即為食物照。

判斷是否為景物照的標籤項目,則於附錄展示。

圖 3.26、食物照通常具有#food、#meal、#cake、#drink 等標籤

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

33

3.2.6 動物照

在物件偵測辨識部分,動物偵測(animal detection) 也是一個重要的課題,尤其是最 普遍的貓跟狗[16],從一些已知為動物照的圖像裡,藉由 Rekognition 所提供的 scene understanding 功能,可以發現動物照通常具有#animal、#mammal、#dog、#cat 等標籤 (如 圖 3.27),或許可以由此反推回來,若有這些 tag 即為動物照,甚至可以分成更細項的犬 類、貓類、鳥類等等。

判斷是否為景物照的標籤項目,則於附錄展示。

圖 3.27、動物照通常具有#animal、#mammal、#dog、#cat 等 tag

3.2.7 文字照

從一些已知為文字照的圖像裡,藉由 Rekognition 所提供的 scene understanding 功 能,可以發現文字照通常具有#text、#word、#logo、#signature 等標籤 (如圖 3.28),或 許可以由此反推回來,若有這些標籤即為文字照。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

34

判斷是否為景物照的標籤項目,則於附錄展示。

圖 3.28、文字照通常具有#text、#word、#logo、#signature 等標籤

對相片們做完分類後,每個類別會建立不同的主要類別標籤(如圖 3.13),有些類別 甚至會有更細項的次要類別標籤(如圖 3.29、圖 3.30),對應到相片身上,所以一張相片 會包含一個或一個以上的類別標籤(如圖 3.31),以及由 Rekognition 所提供的標籤(tag),

有了這些資訊後,就可以進一步去分析每位使用者相片分類的狀況。

圖 3.29、類別標籤的流程-人物照 Image

不是 是否為人物照

獨照 異性照 小團體 大合照 1 人

1 男 1 女 2~10 人

> 10 人 人的數量

人物照

關於 Rekognition 所提供的標籤(tag)部分,原本每張照片預設會產生 5 個標籤,但 這樣資訊似乎略顯不足,因此本論文將標籤量提升一倍,也就是一張相片會產生 10 個

相關文件