• 沒有找到結果。

基於卷積神經網路之人群計數方法

第二章 文獻探討

2.3 基於卷積神經網路之人群計數方法

卷積神經網路(convolutional neural network, CNN)在許多計算機影像辨識中 有著不錯的效果,激勵了許多研究人員使用卷積神經網路學習將人群影像求得非 線性函數密度圖或相應的人群計數。Wang 等人[14]將卷積神經網路應用於人群 計數,他們採用Alexnet 網路架構[15],將具有 4096 個神經元的完全連接層改為 單一神經元來計算人群中的行人數量。同年,Zhang 等人[16]發現現有的卷積神

8

經網路應用於不同場景時將會嚴重的不適應,因此提出了一種數據驅動的方法針 對卷積神經網路進行微調。該方法避免了場景轉換時的重新訓練問題,但仍然需 要大量的訓練資料量,並且難以在一轉換場景時達到良好的水準。

受到多列深度類神經網路(multi-column deep neural networks, MDNN)[17]在 影像識別應用的啟發,Zhang 等人[18]提出了多列卷積神經網路(multi-column convolutional neural network, MCNN)將過去僅使用單一列的網路架構,更改為三 列並在最後進行特徵合併。透過具有不同大小的濾波器做出具有大、中、小三個 領域的特徵圖,最後將三者結合並透過高斯函數與歐幾里德距離計算出人數。

Sam 等人[19]則提出切換型卷積神經網路(switching convolutional neural network),

他們依然採用多列卷積神經網路的架構,並提出基於VGG-16 架構[20]的切換分 類器,用以選擇三列中最好的結果。但是,在切換的過程,對於計算成本上代價 非常大,且往往不夠精準。Zeng 等人[21]認為多列卷積神經網路需每列各自訓練 單列網路,最後再進行特徵合併,消耗過多的計算機資源,因此提出了多尺度卷 積神經網路(multi-scale convolutional neural network, MSCNN)提取與比例尺相關 的特徵。他們引入具有不同卷積核大小的多尺度斑點(multi-scale blob),類似 inception 模塊(inception module)[22]。Kumagai 等人[23]認為不同場景環境中預測 單一變量不足以正確預測行人個數,因此提出了一種混合 型卷積神經網路 (mixture ofconvolutional neural network, MoCNN),類似於多列卷積神經網路的概 念,他們將其做為專家卷積神經網路和閘控模型(gating model)混合結構,根據輸

Zhang 等人[24]提出了尺度適應性卷積神經網路(scale-adaptive convolutional

9

neural network, SaCNN)估計人群密度圖,透過多層提取特徵圖且使該圖具有相同 的輸出大小,獲得更準確地估計人數。

Tang 等人[25]提出了一個基於低階稀疏深度融合卷積神經網路(low-rank sparse deep-fusion convolutional neural network, LFCNN),該方法是將低階稀疏懲 罰應用於 GoogleNet[22]並採用回歸的方法以提高人群密度圖投影的準確性,藉 由較良好的人群密度圖進而得到更好的人群計數結果。Han 等人[26]提出組合卷 積神經網路和馬爾可夫隨機場 (convolutional neural network-Markov random field, CNN-MRF),此方法含三個部分:首先使用深層殘差網路-152[27]提取特徵,再則 使用一個完全連接的神經網路進行計數回歸,最後使用馬爾可夫隨機場平滑局部 修補計數結果。透過局部相鄰修補的高相關性可以提高計數準確性。Luo 等人[28]

提出了特徵融合卷積神經網路(feature fusion convolutional neural network, FF-CNN),該方法採用 VGG-16 [20]做為中繼網路以獲得更豐富的特徵,並藉由反卷 積技術[29, 30]實現高階特徵與低階特徵的融合,將特徵融合卷積神經網路應用 在人群影像轉換成人群密度圖,藉此獲得良好的人群密度圖以利轉換後統計人群 數目。

由上述文獻我們可得知基於卷積神經網路之人群計數方法,在解決高密度人 群計數上有一定的突破,且越來越多的研究學者朝向使用該方法進行研究。為了 更加瞭解基於卷積神經網路之人群計數方法之文獻並進行分析比較,我們將 2.3 小節的相關文獻依照年份進行整理並比較其優點,如表2.3 所示。

10

11

相關文件