活體識別

第二章理論背景

2.8. 活體識別

現今主流活體辨識方法有使用深度攝影機、3D 人臉、DNN 模型判別、紋理分析、臉部運動偵測等方式，其中我們選擇使用VGGNet 神經網路

VGGNet 探索了卷積神經網絡的深度與其性能之間的關係，成功地構築了 16~19 層深的卷積神經網絡，證明了增加網絡的深度能夠在一定程度上影響網絡最終的性能，使錯誤率大幅下降，同時拓展性又很強，遷移到其它圖片數據上的泛化性也非常好。到目前為止，VGG 仍然被用來提取圖像特徵。VGG 結構簡潔，由 5 層卷積層、3 層全連接層、softmax 輸出層構成，層與層之間使用 max-pooling（最大化池）分開，所有隱層的激活單元都採用ReLU 函數。

圖2.8-1VGG 結構圖

VGG 使用多個較小卷積核（3x3）的卷積層代替一個卷積核較大的卷積層，一方面可以減少參數，另一方面相當於進行了更多的非線性映射，可以增加網絡的擬合能力。

小卷積核是VGG 的一個重要特點，雖然 VGG 是在模仿 AlexNet 的網絡結構，但沒有採用AlexNet 中比較大的卷積核尺寸（如 7x7），而是通過降低卷積核的大小（3x3），增加卷積子層數來達到同樣的性能（VGG：從 1 到 4 卷積子層，

AlexNet：1 子層）。

圖2.8-2VGG 卷積堆疊原理

VGG 的作者認為兩個 3x3 的卷積堆疊獲得的感受野大小，相當一個 5x5 的卷積；而 3 個 3x3 卷積的堆疊獲取到的感受野相當於一個 7x7 的卷積。這樣可以增加非線性映射，也能有效地減少參數。

VGG 全部採用 2x2 的池化核。VGG 網絡第一層的通道數為 64，後面每層都進行了翻倍，最多到 512 個通道，通道數的增加，使得更多的資料可以被提取出

來，由於卷積核專注於擴大通道數、池化專注於縮小寬和高，使得模型架構上更深更寬的同時，控制了計算量的增加規模。

VGG 之全連接轉卷積在網絡測試階段將訓練階段的三個全連接替換為三個卷積，使得測試得到的全卷積網絡因為沒有全連接的限制，因而可以接收任意寬或高為的輸入，這在測試階段很重要。

圖2.8-3 全連接轉卷積替換過程

這個「全連接轉卷積」的思路是VGG 作者參考了 OverFeat 的工作思路，

OverFeat 將全連接換成卷積後，則可以來處理任意解析度上計算卷積，這就是無需對原圖做重新縮放處理的優勢。

在電腦視覺中，角度偵測特別是指目標物相對於鏡頭之相對方向。而參考點即是攝影鏡頭之視野。角度偵測通常稱為 n 點透視問題，或稱為電腦視覺之PNP 問題，而定義這個問題的部分則藉由給定參考點的一組立體位置(3D Points)和攝影鏡頭獲取之對應 2D 圖像來簡化達成。

圖2.8-4 PNP problem statement

方程式左側代表攝影鏡頭取得之 2D 圖片，方程式右側之矩陣從左到右分別為

(imagePoints)、cameraMatrix、distCoefs 進行計算，使 API 返回旋轉向量及平移向量矩陣，藉此得到角度估測結果。

第三章實驗成果

在文檔中具備多角度偵測;防偽;與線上註冊功能之人臉辨識系統 (頁 14-17)

第二章 理論背景

2.8. 活體識別

第三章實驗成果

第二章理論背景