基於卷積神經網路之人群計數方法

第二章文獻探討

2.3 基於卷積神經網路之人群計數方法

卷積神經網路(convolutional neural network, CNN)在許多計算機影像辨識中有著不錯的效果，激勵了許多研究人員使用卷積神經網路學習將人群影像求得非線性函數密度圖或相應的人群計數。Wang 等人[14]將卷積神經網路應用於人群計數，他們採用Alexnet 網路架構[15]，將具有 4096 個神經元的完全連接層改為單一神經元來計算人群中的行人數量。同年，Zhang 等人[16]發現現有的卷積神

經網路應用於不同場景時將會嚴重的不適應，因此提出了一種數據驅動的方法針對卷積神經網路進行微調。該方法避免了場景轉換時的重新訓練問題，但仍然需要大量的訓練資料量，並且難以在一轉換場景時達到良好的水準。

受到多列深度類神經網路(multi-column deep neural networks, MDNN)[17]在影像識別應用的啟發，Zhang 等人[18]提出了多列卷積神經網路(multi-column convolutional neural network, MCNN)將過去僅使用單一列的網路架構，更改為三列並在最後進行特徵合併。透過具有不同大小的濾波器做出具有大、中、小三個領域的特徵圖，最後將三者結合並透過高斯函數與歐幾里德距離計算出人數。

Sam 等人[19]則提出切換型卷積神經網路(switching convolutional neural network)，

他們依然採用多列卷積神經網路的架構，並提出基於VGG-16 架構[20]的切換分類器，用以選擇三列中最好的結果。但是，在切換的過程，對於計算成本上代價非常大，且往往不夠精準。Zeng 等人[21]認為多列卷積神經網路需每列各自訓練單列網路，最後再進行特徵合併，消耗過多的計算機資源，因此提出了多尺度卷積神經網路(multi-scale convolutional neural network, MSCNN)提取與比例尺相關的特徵。他們引入具有不同卷積核大小的多尺度斑點(multi-scale blob)，類似 inception 模塊(inception module)[22]。Kumagai 等人[23]認為不同場景環境中預測單一變量不足以正確預測行人個數，因此提出了一種混合型卷積神經網路 (mixture ofconvolutional neural network, MoCNN)，類似於多列卷積神經網路的概念，他們將其做為專家卷積神經網路和閘控模型(gating model)混合結構，根據輸

Zhang 等人[24]提出了尺度適應性卷積神經網路(scale-adaptive convolutional

neural network, SaCNN)估計人群密度圖，透過多層提取特徵圖且使該圖具有相同的輸出大小，獲得更準確地估計人數。

Tang 等人[25]提出了一個基於低階稀疏深度融合卷積神經網路(low-rank sparse deep-fusion convolutional neural network, LFCNN)，該方法是將低階稀疏懲罰應用於 GoogleNet[22]並採用回歸的方法以提高人群密度圖投影的準確性，藉由較良好的人群密度圖進而得到更好的人群計數結果。Han 等人[26]提出組合卷積神經網路和馬爾可夫隨機場 (convolutional neural network-Markov random field, CNN-MRF)，此方法含三個部分：首先使用深層殘差網路-152[27]提取特徵，再則使用一個完全連接的神經網路進行計數回歸，最後使用馬爾可夫隨機場平滑局部修補計數結果。透過局部相鄰修補的高相關性可以提高計數準確性。Luo 等人[28]

提出了特徵融合卷積神經網路(feature fusion convolutional neural network, FF-CNN)，該方法採用 VGG-16 [20]做為中繼網路以獲得更豐富的特徵，並藉由反卷積技術[29, 30]實現高階特徵與低階特徵的融合，將特徵融合卷積神經網路應用在人群影像轉換成人群密度圖，藉此獲得良好的人群密度圖以利轉換後統計人群數目。

由上述文獻我們可得知基於卷積神經網路之人群計數方法，在解決高密度人群計數上有一定的突破，且越來越多的研究學者朝向使用該方法進行研究。為了更加瞭解基於卷積神經網路之人群計數方法之文獻並進行分析比較，我們將 2.3 小節的相關文獻依照年份進行整理並比較其優點，如表2.3 所示。

在文檔中植基於卷積神經網路之人群計數 (頁 15-19)

第二章 文獻探討

2.3 基於卷積神經網路之人群計數方法

第二章文獻探討