人群影像資料庫

第四章實驗結果

4.2 人群影像資料庫

為了驗證本論文所提方法之效能，我們採用 ShanghaiTech[2] 和 UCF_CC_50[3]兩個人群影像資料庫做為測試的對象，這兩個資料庫已經被諸多研究人員廣泛的應用在人群計數的研究中。

ShanghaiTech 人群影像資料庫是由 Zhang 等人建立於 2016 年，是上海科技大學免費提供給研究人員作為實驗用途的標準資料庫。該資料庫的實驗者為上海科技大學的學生及工作人員，資料庫內的影像樣本中，除了有不同人群密度級別的影像，更具有不同的複雜場景。ShanghaiTech 人群影像資料庫分為 Part_A 與 Part_B 兩部份共 1198 張影像，總人數為 330,165 人，每張影像皆附有頭部真實標記的檔案。Part_A 資料庫中包含 482 張影像，其中，300 張為訓練集影像，182 張為測試集影像，人群影像來源皆從網際網路中隨機選擇影像所組成的資料庫。

而Part_B 資料庫中包含 716 張影像，其中，400 張為訓練集影像，316 張為測試集影像，影像來源擷取自上海繁忙街道的人群影像。ShanghaiTech 人群影像資料庫的詳細資訊如表4.2 所示。由圖 4.1 可見兩個資料庫之間的人群密度差異極大，

Part_A 的資料庫相較於 Part_B 資料庫含有更擁擠的人群影像。ShanghaiTech 兩個不同資料庫的人群影像樣本如圖4.2 所示。

表4.2：ShanghaiTech 資料庫資料一覽

資料庫影像尺寸影像張數最多人數最少人數平均人數總人數 Part_A 不一致 482 3,139 33 501.4 241,677 Part_B 1024 768 716 578 9 123.6 88,488

圖4.1：Part_A 與 Part_B 人群計數直方圖[18]

(a) Part_A 人群影像樣本

(b) Part_B 人群影像樣本

圖4.2：ShanghaiTech 人群影像資料庫樣本

為了增加用於訓練具卷積通道特徵之雙尺度完全卷積神經網路方法的訓練集，我們將每張影像隨機剪裁成9 個大小為原始影像四分之一的擴充影像，使得 Part_A 訓練集影像擴充至 300 9 2700 = 張影像，Part_B 訓練集影像則擴充至 400 9 =3600張影像。此外，除了訓練集與測試集之外，我們亦在訓練的過程中加入驗證集，以利於我們在訓練的過程中觀察是否有異狀的發生。各驗證集的影像來自於各訓練集總張數的十分之一，並且與訓練集相同皆採用隨機剪裁成9 個大小為原始影像四分之一的擴充影像，Part_A 驗證集影像總張數為 270 張，Part_B

則為360 張。

UCF_CC_50 人群影像資料庫是由 Idress 等人建立於 2013 年，是美國佛羅里達大學免費提供給研究人員作為實驗用途的標準資料庫，其詳細資訊如表4.3 所示。該資料庫影像拍攝自各種場景，例如：音樂會、政治集會、宗教聚會與體育館等，是較早期採用高密度人群影像應用於人群計數領域中。從表4.3 中，我們可以看到UCF_CC_50 總張僅有 50 張，卻提供總人數高達 63,974 的人頭真實標記檔。這是一個非常具有挑戰性的數據集，因為不僅影像張數有限，而且人數眾多，影像的人數差距變化也相當大。影像中人數的數量範圍介於 94 至 4,543 之間，每張影像平均包含1,280 個人，其平均人數與單張最多人數皆為現階段人群計數領域中最多的資料庫。UCF_CC_50 不同場景與高密集人群樣本影像如圖 4.3 所示。

表4.3：UCF_CC_50 資料庫資料一覽

影像尺寸影像張數最多人數最少人數平均人數總人數不一致 50 4,543 94 1,280 63,974

圖4.3：UCF_CC_50 人群影像資料庫樣本

由於該資料庫並無區分訓練集與測試集，為了客觀分析我們所提出的方法，

我們將進行K 次交叉驗證(K-fold cross-validation)，並且我們採用文獻[3, 16, 42,

26 中較多研究學者[18-24]使用的評估指標：平均平方誤差(mean square error, MSE) 與平均絕對誤差(mean absolute error, MAE)，兩者定義如公式(6)與(7)所示。

在文檔中植基於卷積神經網路之人群計數 (頁 31-34)

第四章 實驗結果

4.2 人群影像資料庫

第四章實驗結果