• 沒有找到結果。

第二章 相關研究

2.1 文獻探討

電腦視覺領域自從在 ImageNet 競賽[1]中出現利用 convolutional neural networks 結合深度學習架構[2] (如圖 2.1 所示)這項技術來進行圖片辨識後,在過 去的幾年內有很大的進步,除了深度學習的進展,另一個是公開圖片訓練集的出 現,例如: PASCAL VOC [3]、ImageNet[4]、MS COCO[5] 等,有了大量的訓練 資料,加上深度學習的幫助,電腦視覺領域因此出現蓬勃的發展。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.1 ImageNetClassification with Deep Convolutional Neural Networks 架構 [2]

影像辨識的發展,可以從 ImageNet ILSVRC[1] 挑戰賽(Large Scale Visual Recognition Challenge) 題 目 一 窺 端 倪 , 2011 年 題 目 為 影 像 分 類 (Classification)、影像分類及定位(Classification with Localization),到了 2017 年題目為物體定位(Object Localization)、物體偵測(Object Detection)、視訊中 的物體偵測(Object Detection from Video),從題目的變化可以了解整個技術 的演進。除了圖片的分類,電腦視覺領域還有另一個重要的議題,那就是物 體偵測(Object Detection)的研究,物體偵測與圖片的分類最大的差別就是圖 片分類是指一張圖片裡面是何物體,對應一個答案,物體偵測領域要從一張 圖片中辨識出物體, 並且標示出位置來,舉個簡單的例子來說,一張只有 狗的圖片,透過分類的模組會說這張圖片是狗的機率是多少,是狐狸的機率 是多少,因為狗的機率比較高所以答案為狗,而物體偵測方面的研究是基於 這個之上更進一步的研究,是要在圖片找出狗在哪裡,並且在圖片中標選出 來(如圖 2.2 所示)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.2 圖片分類(左)及物體偵測(右)

分類的研究在過去幾年的比賽內,準確率已經比人判斷的還要高,所以 本研究的重點放在物體偵測領域,物體偵測的研究跟圖像分類的研究可用下 面的說法來進行區別,其實圖片中多樣物體偵測= 物體的位置 (bounding box) + 特徵擷取 (feature extraction) +Image Classification(圖像分類),直觀來 說,似乎可以用串接方式。先做物體位置, 再做特徵擷取以及分類,但是實 際應用上,並沒有想像的那麼容易,因為一般情況事先不知道這張圖裏面包 含的物體是什麼,自然是無法很明確的去切分到底是要先偵測位置還是要先 分類,所以近期針對物體偵測的解決方案研究才如此的多樣化,以下就舉幾 個近期知名的物體偵測研究成果來進行探討以及其優點的說明:1.Faster R-CNN[6]、2. Mask R-CNN[7]、3. SSD[8]、4.YOLO[9]、5.Retinanet[10]。

在介紹模組前先來說明模組成效的評估方式,以下介紹較為常見的物體 偵測模組的評估指標 F1 Score 以及 mAP,首先說明何謂 F1 Score。假設預測 資料,預測為正,實際也為正,我們稱為 true positive (TP),假如預測為正,

實際為負,我們稱為 false positive (FP),假如預測為負,實際為正,稱為 false

N=TN+FP,進一步,我們的定義 recall,precision,F1-score 如式 2-1 所示,

可以看到 recall 體現了對正樣本的識別能力,recall 越高,說明模型對正樣 本的樣本識別能力越強,precision 體現了對負樣本的區分能力,precision 越 高,說明模型對負樣本的區分能力越強,但假如把所有物件都判斷為某類,

式 2.1 recall,precision,F1-score 計算方式

接著介紹 mAP,用一張圖來表示物體偵測中準確率(Precision)、召回率 (Recall)以及 IoU(Intersect over Union)的關係(如圖 2.2)由圖中可以很明確的 看出來 IoU 表示了實際物體和預測的 Bounding Box 的聯集除以實際物體和 預測的 Bounding Box 的交集,所以如果假設 IoU 為 0.5 ,那麼 IoU>0.5 則認為是真實的檢測(true detection),否則認為是錯誤的檢測(false detection)。準確率代表了影像的正確預測的數量除以在影像上真實的檢測 的目標數量,而召回率代表了影像的正確預測的數量除以在影像上這一類的 總的目標數量 ,假設我們把 recall 的值從 0 到 1 (0%到 100%)劃分為 11 份:0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0,在每個 recall 上我們計算 Precision,然後再計算總和並平均,就是 AP(Average precision)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

值,計算方式如式 2.2。計算每個分類的 AP (例如在本論文中就是民船的 AP 以及軍艦的 AP),求和再平均,得到的就是 mAP 。

圖 2.3 Precision、Recall、IoU 示意圖

𝐀𝐏 = 𝟏

𝟏𝟏∑ 𝑹𝒆𝒄𝒂𝒍𝒍 ∈ {𝟎, 𝟎. 𝟏, … . 𝟏}𝐏𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧(𝑹𝒆𝒄𝒂𝒍𝒍)

式 2.2 AP 計算公式

了解評估的指標後,接著說明目前物體檢測演算法,目前物體檢測演 算法有兩種主流作法:Two-Stage Detector 和 One-Stage Detector,Two-Stage Detector 第一步會先在圖片中提取出數百個候選區域(Object Box Proposals),

再經由分類器(Box Classifier)進一步分類以及修正位置。CNN Based 的 Two-Stage Detector 基本上是依照這樣的思路去設計的(如 Faster R-CNN、

Mask R-CNN)。One-Stage Detector 為了加速到可以即時處理影像則直接簡化 了流程,原本在 Two-Stage 的 Proposal Stage,會輸出在圖片中每個位置出 現物體的機率高低,One-Stage 則直接做了一些修改,在每個位置上直接輸

1. Faster R-CNN(Region-based Convolutional Neural Networks) : Faster R-CNN 為 Fast R-CNN[11]的模組改良版,先從 Fast R-CNN 的概念 Pooling)的解決方式,使其較原先 R-CNN 的處理速度加快了不少,

而 Faster R-CNN 最主要所提出新的變革就是 RPN(Region Proposal Network)[6]的概念,Faster R-CNN 可以簡單地看做「區域生成網絡 RPN + Fast R-CNN」的系統,經由 RPN 之後,我們便可以得到一些 最有可能的 bounding box,雖然這些 bounding box 不見得精確,但 是透過類似於 Fast RCNN 的 RoIPooling, 一樣可以很快的對每個 region 分類,並找到最精確的 bounding box 座標。且透過 Faster R-CNN,可以針對 Multi-scale 的特徵擷取(如圖 2.3 所示),因為 RPN 是一個全卷積網絡(FCN),由於沒有全連接層,所以可以輸入任意 分辨率的圖像,經過網路後就得到一個 feature map,雖然處理的速 度會下降,但是可以有效的提高準確率,而這一點就是本研究所關 注的重點之一。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.4 Faster R-CNN 針對不同 Scale 的處理方式[6]

2. Mask R-CNN: Mask R-CNN 擴展自 Faster R-CNN,Faster R-CNN 是一個目標檢測框架,Mask R-CNN 將其擴展爲實例分割框架,

Mask R-CNN 是建構於 Faster R-CNN 之上,Faster R-CNN 是透過 RoIPooling 取得 Region proposals 之後,針對每個 region 會再跑 FCN 取得遮罩分割,但是由 於 RoIPooling 在做 Max pooling 時,

遮罩會有些許偏移現象,再加上 pooling 下來的結果,會讓 region 的尺寸出現非整數的情況,然後取整數的結果就是沒辦法做到 Pixel 層級的遮罩。所以 Mask R-CNN 改採用雙線性插值法(Bilinear Interpolation)來改善 RoIPooling,稱之為 RoIAlign,RoIAlign 會讓 遮 罩 位 置 更 準確 ( 架構 見 圖 2.4) 。 但 本 研究 採 用 船 艦 判別 採 用 Bounding Box 的方式標註就足以判斷,所以該模組就不列入採用之 考量中

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.5 Mask R-CNN 之架構示意圖[7]

3. SSD(Single Shot MultiBox Detector) : SSD 網路架構設計如圖 2.5 所 示,其中有幾個關鍵的特點(1)SSD 使用多尺度 bounding boxes 輸出 附加到 SSD 所設計之網路的多個特徵圖。這樣表示 SSD 可以有效 地模擬可能的 bounding boxes 形狀空間(2)在即時(Realtime)的偵測時,

輸入解析度較低的圖像時,SSD 可以保證檢測的精度,(3)SSD 消除 了 proposal 生成和後續的畫素或特徵重取樣階段,所以處理的速度 也大大的提升了不少(4)跟速度有關,因為 SSD 使用固定的(預設)

框來進行預測,類似於 RPN 中的 anchor 框。但是,不是使用這些 來池化特徵和評估另一個分類器,SSD 同時在每個框中為每個物件 類別產生一個分數。因此 SSD 的方法避免了將 RPN 與 Fast R-CNN 合併的複雜性,所以也大大增加 SSD 模組處理的速度。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.6 SSD 網路模組架構[8]

4. YOLO : YOLO 的全名為 You Only Look Once,顧名思義 YOLO 模 型的特性只需要對圖片作一次 CNN 便能夠判斷裡面的物體類別 跟位置,YOLO 的概念是將一張圖片切割成多個方格,每個方格以 自己為中心點各自去判多個 bounding boxes 中包含物體的判斷分數 跟種類,如果該 bounding box 不包含任何物體,判斷分數便為零,

而 IOU 則為 bounding box 與 ground truth 的交集面積,交集面積越 大,分數越高為該物體的機率就越高。YOLO 模組的架構(見圖 2.6) 有著一個相當大的特點,就是 YOLO 處理的速度相當快,因為 YOLO 將 object detection 視為一個單一的迴歸問題,YOLO 在從影像輸入 到輸出預測結果僅靠一個 CNN 來實現,因為這樣 end-to-end 的特性 使得訓練速度提升,YOLO 於 2016 年時發表 YOLO9000:Better, Faster, Stronger[12]這個架構,基於原先的 YOLO 架構並加入 batch normalization 、 anchor box 等 概 念 , 使 用 了 這 些 改 良 方 式 讓 YOLO9000 不管在辨識速度還是準確率上都有了提升。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.7 YOLO 網路模組架構[9]

5. Retinanet: 由論文名稱 Focal Loss for Dense Object Detection[10]就 可以大略知道該模組集中於焦點損失(Focal loss)函數的討論上,對 於 one stage 準確率不好的原因,作者認為是極度不平衡的正負樣本 類別比例,而類別不均衡問題,該論文作者提出一種新的損失函數:

focal loss,這個損失函數是在標準交叉熵損失基礎上修改得到的。

這個函數可以透過減少易分類樣本的權重(如圖 2.7 所示),使得模型 在訓練時更專注於難分類的樣本,藉以解決 one stage 模組準確率的 問題。

類,例如 Satellite Imagery Classification Based on Deep Convolution Network[14],

該篇論文利用實際之衛照影像,以及它們設計的深度學習架構 DCNN,來判斷建 物、樹、水或者是路(成果如圖 2.8),其判斷成效就論文指出有準確率 96%以上,

可以說是相當高的準確率,而另一篇論文 Using Convolutional Networks and Satellite Imagery to Identify Patterns in Urban Environments at a Large Scale[15],主 要是要處理城市環境規劃以及相似城市的問題,內容則是利用 CNN 處理分類以 及區域劃分,最後用 k-nearest neighbors 進行 Clustering,結果也是相當不錯,

接下來介紹另一種電腦視覺應用於衛照影像處理的方式。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.9 Satellite Imagery Classification Based on Deep Convolution Network 衛照 影像分類結果[14]

You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery[16],這篇於 2018 年 5 月底所研究之論文,針對衛星影像中的物體包含 了機場、飛機、船以及建物的偵測,其實該位作者約略 1 年前就有在部落格中提 中相關的概念了[17],這篇部落格的所發表的初步成果也是本研究參考的重要關 鍵之一,其中最重要的概念有以下幾點 1.該篇論文所提出之新架構基於原先 YOLO 之架構,然後進行了些許的簡化以及調整以解決原先 YOLO 在處理小目 標偵測率不佳之問題以及因為 bounding box 問題導致物體如果靠得太近而偵測 率會下降的問題。2.指出偵測大目標(例如機場跑道),以及小目標(例如飛機)必須 建立不同的模組進行判斷(如圖 2.9 所示),否則將會造成判斷的結果不佳。3.將 一張衛星影像圖在處理前可分割為多個小圖,這些小圖經過模組判斷後之成果可 以在組合為原本的大圖且偵測成效也很好,F1 達 0.82 以上。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.10 You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery[15]中指出飛機跑道以及飛機如果用同一個模組判斷會導致誤差之示意

圖 2.10 You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery[15]中指出飛機跑道以及飛機如果用同一個模組判斷會導致誤差之示意

相關文件