• 沒有找到結果。

第二章 文獻探討

第二節 物件辨識的相關研究

針對要搭載在無人飛行載具上的物件辨識架構,首先要考慮無人飛行載具位 置會不斷更動且目標物可能移動,使得無人飛行載具航行的過程中必須不斷更新 目標物的位置與飛行姿態資訊,在高空中不斷蒐集動態影像。再者要考量無人飛 行載具載重能力有限,無法搭載具被高度運算能力之主機。因此必須挑選一個擁 有在短時間內分析大量影像的能力且運算負擔輕量的物件偵測方法。近年來圖像 物件偵測使用的方法以深度學習為主流,如圖 1 所示,深度學習為人工智慧領 域內機器學習與表徵學習中的一分支,除卻繼承了機器學習的特徵映射 (Feature Mapping) 在學習過程產生特徵資料,為提升準確性額外增加多個抽性特徵層級 模擬人腦分析事物的方式。深度學習廣泛所知被可運用於電腦視覺、自然語言處 理、機器人相關技術、生物資訊、搜尋引擎與遊戲等領域,本節將探討深度學習 應用在物件辨識時常見的結構。

圖 1. 深度學習與表徵學習、機器學習、人工智慧的關係[13]

深度學習以人工神經網路 (Artificial Neural Network,ANN) 為基礎,可以用 來學習大量資料,人工神經網路是模仿生物神經網路的結構建立而成,藉由似神 經元的人工節點互相連結,用權重調整節點間的連結強度,透過函數運算判斷決 策,使得人工神經網路能像生物神經網路一樣透過學習與訓練得到決策能力。卷 積神經網路是人工神經網路的其中一種,常被用在影像辨識相關的系統上。卷積 神經網路的架構源自 LeCun 1998 提出的 LeNet[14],如圖 2 所描述,卷積神經 網路架構主要由卷積層 (Convolution Layer) 、採樣 / 池化層 (Subsampling/

Pooling Layer) 、全連接層 (Fully Connective Layer) 構成。

圖 2. LeCun 於 1998 年提出 LeNet 之結構[14]

典型的卷積神經網路在卷積層與池化層萃取影像特徵,卷積層利用過濾器 (filter) 做卷積運算,萃取出特徵圖,如圖 3 所示意,左側是 5 x 5 的影像,中間 為一個3 x 3 的過濾器,過濾器的對角值皆為 1 用以遮罩原始圖像當中一個 3 x 3 的區塊,將此區塊內被遮罩的部分的值相加,以圖3 而言被遮罩的對角線存在 4

AI Machine Learning

Representation learning Deep Learning

個1 與 1 個 0,相加後得到 4,此時 4 變為這個區域內的特徵值,並寫入特徵影 像的相對像素內,經多次移動遮罩取得不同局部特徵值反覆紀錄後,即可得到圖 3 右側之特徵圖。

圖 3. 卷積運算示意圖

在 LeNet 中,使用不同卷積核 (Kernel) ,對周遭補零 (Zero-padding) 後的 輸入影像做卷積運算,得到多張與輸入影像相同大小卻各不相同的特徵圖,如圖 4 所示,不同卷積核即表示使用不同的過濾器,因局部運算出的特徵值有所差異,

最後會得到不同特徵圖。

圖 4. 周圍補上 0 的影像,同一局部以不同過濾器得到不同特徵值

2 1

1 1

1 4

2

3 2 Feature image

池化層中使用最大池化 (Max Pooling) 對特徵圖進行運算如圖 5 所示,將 R-CNN)[17]等物件偵測方法相繼於 2014、2015 年被提出,區域卷積神經網路的架 構是基於卷積神經網路,但在使用卷積神經網路計算特徵之前會先將影像利用局

Feature image after pooling

2015 年 Redmon[18]等人提出 YOLO 演算法, YOLO 使用卷積神經網路 辨識影像物件,不同於區域卷積神經網路與快速區域卷積神經網路,YOLO 不使 用候選區與回歸等方法辨識物件與分類,僅以原始影像資料透過卷積神經網路得 到最終分類結果,節省物件辨識的時間,實現即時影像物件辨識,而2017 年 Wu 等 學 者[19] 也 以 即 時 物 件 偵 測 為 目 的 優 化 全 卷 積 網 路 (Fully Convolutional Networks, FCN) 提出 SqueezeDet ,前兩者提出的方法皆簡化了運算步驟,平衡 了即時物件偵測所需要的正確性與即時性,減輕系統的運算負擔。即時物件偵測 除了維持一定水平的正確性外,幀率與減輕運算負擔成為了更重要的目標。近年 來, YOLO 演算法對於空拍影像物件辨識的相關研究也陸續出現,例如辨識空 拍影像中的鳥類[20]、車輛[21]以及海上船隻[22],因此本研究預期使用此演算法 可以協助即時辨識空拍影像內的特定物件,並且本研究應用 YOLO 演算法作為 即時影像物件辨識之用,。

相關文件