• 沒有找到結果。

人群影像資料庫

第四章 實驗結果

4.2 人群影像資料庫

為 了 驗 證 本 論 文 所 提 方 法 之 效 能 , 我 們 採 用 ShanghaiTech[2] 和 UCF_CC_50[3]兩個人群影像資料庫做為測試的對象,這兩個資料庫已經被諸多 研究人員廣泛的應用在人群計數的研究中。

ShanghaiTech 人群影像資料庫是由 Zhang 等人建立於 2016 年,是上海科技 大學免費提供給研究人員作為實驗用途的標準資料庫。該資料庫的實驗者為上海 科技大學的學生及工作人員,資料庫內的影像樣本中,除了有不同人群密度級別 的影像,更具有不同的複雜場景。ShanghaiTech 人群影像資料庫分為 Part_A 與 Part_B 兩部份共 1198 張影像,總人數為 330,165 人,每張影像皆附有頭部真實 標記的檔案。Part_A 資料庫中包含 482 張影像,其中,300 張為訓練集影像,182 張為測試集影像,人群影像來源皆從網際網路中隨機選擇影像所組成的資料庫。

而Part_B 資料庫中包含 716 張影像,其中,400 張為訓練集影像,316 張為測試 集影像,影像來源擷取自上海繁忙街道的人群影像。ShanghaiTech 人群影像資料 庫的詳細資訊如表4.2 所示。由圖 4.1 可見兩個資料庫之間的人群密度差異極大,

Part_A 的資料庫相較於 Part_B 資料庫含有更擁擠的人群影像。ShanghaiTech 兩 個不同資料庫的人群影像樣本如圖4.2 所示。

表4.2:ShanghaiTech 資料庫資料一覽

資料庫 影像尺寸 影像張數 最多人數 最少人數 平均人數 總人數 Part_A 不一致 482 3,139 33 501.4 241,677 Part_B 1024 768 716 578 9 123.6 88,488

24

圖4.1:Part_A 與 Part_B 人群計數直方圖[18]

(a) Part_A 人群影像樣本

(b) Part_B 人群影像樣本

圖4.2:ShanghaiTech 人群影像資料庫樣本

為了增加用於訓練具卷積通道特徵之雙尺度完全卷積神經網路方法的訓練 集,我們將每張影像隨機剪裁成9 個大小為原始影像四分之一的擴充影像,使得 Part_A 訓練集影像擴充至 300 9 2700 = 張影像,Part_B 訓練集影像則擴充至 400 9 =3600張影像。此外,除了訓練集與測試集之外,我們亦在訓練的過程中 加入驗證集,以利於我們在訓練的過程中觀察是否有異狀的發生。各驗證集的影 像來自於各訓練集總張數的十分之一,並且與訓練集相同皆採用隨機剪裁成9 個 大小為原始影像四分之一的擴充影像,Part_A 驗證集影像總張數為 270 張,Part_B

25

則為360 張。

UCF_CC_50 人群影像資料庫是由 Idress 等人建立於 2013 年,是美國佛羅里 達大學免費提供給研究人員作為實驗用途的標準資料庫,其詳細資訊如表4.3 所 示。該資料庫影像拍攝自各種場景,例如:音樂會、政治集會、宗教聚會與體育 館等,是較早期採用高密度人群影像應用於人群計數領域中。從表4.3 中,我們 可以看到UCF_CC_50 總張僅有 50 張,卻提供總人數高達 63,974 的人頭真實標 記檔。這是一個非常具有挑戰性的數據集,因為不僅影像張數有限,而且人數眾 多,影像的人數差距變化也相當大。影像中人數的數量範圍介於 94 至 4,543 之 間,每張影像平均包含1,280 個人,其平均人數與單張最多人數皆為現階段人群 計數領域中最多的資料庫。UCF_CC_50 不同場景與高密集人群樣本影像如圖 4.3 所示。

表4.3:UCF_CC_50 資料庫資料一覽

影像尺寸 影像張數 最多人數 最少人數 平均人數 總人數 不一致 50 4,543 94 1,280 63,974

圖4.3:UCF_CC_50 人群影像資料庫樣本

由於該資料庫並無區分訓練集與測試集,為了客觀分析我們所提出的方法,

我們將進行K 次交叉驗證(K-fold cross-validation),並且我們採用文獻[3, 16, 42,

26 中較多研究學者[18-24]使用的評估指標:平均平方誤差(mean square error, MSE) 與平均絕對誤差(mean absolute error, MAE),兩者定義如公式(6)與(7)所示。

2

相關文件