文獻探討 - 相關研究 - 基於深度學習框架之衛照圖船艦識別

第二章相關研究

2.1 文獻探討

電腦視覺領域自從在 ImageNet 競賽[1]中出現利用 convolutional neural networks 結合深度學習架構[2] (如圖 2.1 所示)這項技術來進行圖片辨識後，在過去的幾年內有很大的進步，除了深度學習的進展，另一個是公開圖片訓練集的出現，例如: PASCAL VOC [3]、ImageNet[4]、MS COCO[5] 等，有了大量的訓練資料，加上深度學習的幫助，電腦視覺領域因此出現蓬勃的發展。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.1 ImageNetClassification with Deep Convolutional Neural Networks 架構 [2]

影像辨識的發展，可以從 ImageNet ILSVRC[1] 挑戰賽(Large Scale Visual Recognition Challenge) 題目一窺端倪， 2011 年題目為影像分類 (Classification)、影像分類及定位(Classification with Localization)，到了 2017 年題目為物體定位(Object Localization)、物體偵測(Object Detection)、視訊中的物體偵測(Object Detection from Video)，從題目的變化可以了解整個技術的演進。除了圖片的分類，電腦視覺領域還有另一個重要的議題，那就是物體偵測(Object Detection)的研究，物體偵測與圖片的分類最大的差別就是圖片分類是指一張圖片裡面是何物體，對應一個答案，物體偵測領域要從一張圖片中辨識出物體，並且標示出位置來，舉個簡單的例子來說，一張只有狗的圖片，透過分類的模組會說這張圖片是狗的機率是多少，是狐狸的機率是多少，因為狗的機率比較高所以答案為狗，而物體偵測方面的研究是基於這個之上更進一步的研究，是要在圖片找出狗在哪裡，並且在圖片中標選出來(如圖 2.2 所示)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.2 圖片分類(左)及物體偵測(右)

分類的研究在過去幾年的比賽內，準確率已經比人判斷的還要高，所以本研究的重點放在物體偵測領域，物體偵測的研究跟圖像分類的研究可用下面的說法來進行區別，其實圖片中多樣物體偵測= 物體的位置 (bounding box) + 特徵擷取 (feature extraction) +Image Classification(圖像分類)，直觀來說，似乎可以用串接方式。先做物體位置, 再做特徵擷取以及分類，但是實際應用上，並沒有想像的那麼容易，因為一般情況事先不知道這張圖裏面包含的物體是什麼，自然是無法很明確的去切分到底是要先偵測位置還是要先分類，所以近期針對物體偵測的解決方案研究才如此的多樣化，以下就舉幾個近期知名的物體偵測研究成果來進行探討以及其優點的說明:1.Faster R-CNN[6]、2. Mask R-CNN[7]、3. SSD[8]、4.YOLO[9]、5.Retinanet[10]。

在介紹模組前先來說明模組成效的評估方式，以下介紹較為常見的物體偵測模組的評估指標 F1 Score 以及 mAP，首先說明何謂 F1 Score。假設預測資料，預測為正，實際也為正，我們稱為 true positive (TP)，假如預測為正，

實際為負，我們稱為 false positive (FP)，假如預測為負，實際為正，稱為 false

‧

N=TN+FP，進一步，我們的定義 recall，precision，F1-score 如式 2-1 所示，

可以看到 recall 體現了對正樣本的識別能力，recall 越高，說明模型對正樣本的樣本識別能力越強，precision 體現了對負樣本的區分能力，precision 越高，說明模型對負樣本的區分能力越強，但假如把所有物件都判斷為某類，

式 2.1 recall，precision，F1-score 計算方式

接著介紹 mAP，用一張圖來表示物體偵測中準確率(Precision)、召回率 (Recall)以及 IoU(Intersect over Union)的關係(如圖 2.2)由圖中可以很明確的看出來 IoU 表示了實際物體和預測的 Bounding Box 的聯集除以實際物體和預測的 Bounding Box 的交集，所以如果假設 IoU 為 0.5 ，那麼 IoU>0.5 則認為是真實的檢測（true detection），否則認為是錯誤的檢測（false detection）。準確率代表了影像的正確預測的數量除以在影像上真實的檢測的目標數量，而召回率代表了影像的正確預測的數量除以在影像上這一類的 總的目標數量，假設我們把 recall 的值從 0 到 1 （0%到 100%）劃分為 11 份：0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0，在每個 recall 上我們計算 Precision，然後再計算總和並平均，就是 AP(Average precision)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

值，計算方式如式 2.2。計算每個分類的 AP (例如在本論文中就是民船的 AP 以及軍艦的 AP)，求和再平均，得到的就是 mAP 。

圖 2.3 Precision、Recall、IoU 示意圖

𝐀𝐏 = 𝟏

𝟏𝟏∑ 𝑹𝒆𝒄𝒂𝒍𝒍 ∈ {𝟎, 𝟎. 𝟏, … . 𝟏}𝐏𝐫𝐞𝐜𝐢𝐬𝐢𝐨𝐧(𝑹𝒆𝒄𝒂𝒍𝒍)

式 2.2 AP 計算公式

了解評估的指標後，接著說明目前物體檢測演算法，目前物體檢測演算法有兩種主流作法：Two-Stage Detector 和 One-Stage Detector，Two-Stage Detector 第一步會先在圖片中提取出數百個候選區域（Object Box Proposals），

再經由分類器（Box Classifier）進一步分類以及修正位置。CNN Based 的 Two-Stage Detector 基本上是依照這樣的思路去設計的(如 Faster R-CNN、

Mask R-CNN)。One-Stage Detector 為了加速到可以即時處理影像則直接簡化了流程，原本在 Two-Stage 的 Proposal Stage，會輸出在圖片中每個位置出現物體的機率高低，One-Stage 則直接做了一些修改，在每個位置上直接輸

‧

1. Faster R-CNN(Region-based Convolutional Neural Networks) : Faster R-CNN 為 Fast R-CNN[11]的模組改良版，先從 Fast R-CNN 的概念 Pooling)的解決方式，使其較原先 R-CNN 的處理速度加快了不少，

而 Faster R-CNN 最主要所提出新的變革就是 RPN(Region Proposal Network)[6]的概念，Faster R-CNN 可以簡單地看做「區域生成網絡 RPN + Fast R-CNN」的系統，經由 RPN 之後，我們便可以得到一些最有可能的 bounding box，雖然這些 bounding box 不見得精確，但是透過類似於 Fast RCNN 的 RoIPooling，一樣可以很快的對每個 region 分類，並找到最精確的 bounding box 座標。且透過 Faster R-CNN，可以針對 Multi-scale 的特徵擷取(如圖 2.3 所示)，因為 RPN 是一個全卷積網絡(FCN)，由於沒有全連接層，所以可以輸入任意分辨率的圖像，經過網路後就得到一個 feature map，雖然處理的速度會下降，但是可以有效的提高準確率，而這一點就是本研究所關注的重點之一。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.4 Faster R-CNN 針對不同 Scale 的處理方式[6]

2. Mask R-CNN: Mask R-CNN 擴展自 Faster R-CNN，Faster R-CNN 是一個目標檢測框架，Mask R-CNN 將其擴展爲實例分割框架，

Mask R-CNN 是建構於 Faster R-CNN 之上，Faster R-CNN 是透過 RoIPooling 取得 Region proposals 之後，針對每個 region 會再跑 FCN 取得遮罩分割，但是由於 RoIPooling 在做 Max pooling 時，

遮罩會有些許偏移現象，再加上 pooling 下來的結果，會讓 region 的尺寸出現非整數的情況，然後取整數的結果就是沒辦法做到 Pixel 層級的遮罩。所以 Mask R-CNN 改採用雙線性插值法(Bilinear Interpolation)來改善 RoIPooling，稱之為 RoIAlign，RoIAlign 會讓遮罩位置更準確 ( 架構見圖 2.4) 。但本研究採用船艦判別採用 Bounding Box 的方式標註就足以判斷，所以該模組就不列入採用之考量中

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.5 Mask R-CNN 之架構示意圖[7]

3. SSD(Single Shot MultiBox Detector) : SSD 網路架構設計如圖 2.5 所示，其中有幾個關鍵的特點(1)SSD 使用多尺度 bounding boxes 輸出附加到 SSD 所設計之網路的多個特徵圖。這樣表示 SSD 可以有效地模擬可能的 bounding boxes 形狀空間(2)在即時(Realtime)的偵測時，

輸入解析度較低的圖像時，SSD 可以保證檢測的精度，(3)SSD 消除了 proposal 生成和後續的畫素或特徵重取樣階段，所以處理的速度也大大的提升了不少(4)跟速度有關，因為 SSD 使用固定的（預設）

框來進行預測，類似於 RPN 中的 anchor 框。但是，不是使用這些來池化特徵和評估另一個分類器，SSD 同時在每個框中為每個物件類別產生一個分數。因此 SSD 的方法避免了將 RPN 與 Fast R-CNN 合併的複雜性，所以也大大增加 SSD 模組處理的速度。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.6 SSD 網路模組架構[8]

4. YOLO : YOLO 的全名為 You Only Look Once，顧名思義 YOLO 模型的特性只需要對圖片作一次 CNN 便能夠判斷裡面的物體類別跟位置，YOLO 的概念是將一張圖片切割成多個方格，每個方格以自己為中心點各自去判多個 bounding boxes 中包含物體的判斷分數跟種類，如果該 bounding box 不包含任何物體，判斷分數便為零，

而 IOU 則為 bounding box 與 ground truth 的交集面積，交集面積越大，分數越高為該物體的機率就越高。YOLO 模組的架構(見圖 2.6) 有著一個相當大的特點，就是 YOLO 處理的速度相當快，因為 YOLO 將 object detection 視為一個單一的迴歸問題，YOLO 在從影像輸入到輸出預測結果僅靠一個 CNN 來實現，因為這樣 end-to-end 的特性使得訓練速度提升，YOLO 於 2016 年時發表 YOLO9000:Better, Faster, Stronger[12]這個架構，基於原先的 YOLO 架構並加入 batch normalization 、 anchor box 等概念，使用了這些改良方式讓 YOLO9000 不管在辨識速度還是準確率上都有了提升。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.7 YOLO 網路模組架構[9]

5. Retinanet: 由論文名稱 Focal Loss for Dense Object Detection[10]就可以大略知道該模組集中於焦點損失(Focal loss)函數的討論上，對於 one stage 準確率不好的原因，作者認為是極度不平衡的正負樣本類別比例，而類別不均衡問題，該論文作者提出一種新的損失函數：

focal loss，這個損失函數是在標準交叉熵損失基礎上修改得到的。

這個函數可以透過減少易分類樣本的權重(如圖 2.7 所示)，使得模型在訓練時更專注於難分類的樣本，藉以解決 one stage 模組準確率的問題。

‧

類，例如 Satellite Imagery Classification Based on Deep Convolution Network[14]，

該篇論文利用實際之衛照影像，以及它們設計的深度學習架構 DCNN，來判斷建物、樹、水或者是路(成果如圖 2.8)，其判斷成效就論文指出有準確率 96%以上，

可以說是相當高的準確率，而另一篇論文 Using Convolutional Networks and Satellite Imagery to Identify Patterns in Urban Environments at a Large Scale[15]，主要是要處理城市環境規劃以及相似城市的問題，內容則是利用 CNN 處理分類以及區域劃分，最後用 k-nearest neighbors 進行 Clustering，結果也是相當不錯，

接下來介紹另一種電腦視覺應用於衛照影像處理的方式。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.9 Satellite Imagery Classification Based on Deep Convolution Network 衛照影像分類結果[14]

You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery[16]，這篇於 2018 年 5 月底所研究之論文，針對衛星影像中的物體包含了機場、飛機、船以及建物的偵測，其實該位作者約略 1 年前就有在部落格中提中相關的概念了[17]，這篇部落格的所發表的初步成果也是本研究參考的重要關鍵之一，其中最重要的概念有以下幾點 1.該篇論文所提出之新架構基於原先 YOLO 之架構，然後進行了些許的簡化以及調整以解決原先 YOLO 在處理小目標偵測率不佳之問題以及因為 bounding box 問題導致物體如果靠得太近而偵測率會下降的問題。2.指出偵測大目標(例如機場跑道)，以及小目標(例如飛機)必須建立不同的模組進行判斷(如圖 2.9 所示)，否則將會造成判斷的結果不佳。3.將一張衛星影像圖在處理前可分割為多個小圖，這些小圖經過模組判斷後之成果可 以在組合為原本的大圖且偵測成效也很好，F1 達 0.82 以上。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.10 You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery[15]中指出飛機跑道以及飛機如果用同一個模組判斷會導致誤差之示意

在文檔中基於深度學習框架之衛照圖船艦識別 - 政大學術集成 (頁 14-0)

文獻探討

第二章 相關研究

2.1 文獻探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學