• 沒有找到結果。

第二章 技術背景與相關研究

2.2 卷積神經網路概述….…

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

2.2 卷積神經網路概述

CNN 的運作原理是由 Hubel 和 Wiesel 在 1960 年代所提出的,當時他們在研究貓腦皮 層中用於局部感之和方向選擇的神經元時,發現其可以有效低降低神經網路的複雜性而提 出了CNN。就如同人類的大腦裡有幾十億甚至是幾百億個腦神經細胞,但在每一次接收動 作或傳遞訊息時只會使用到局部相鄰的細胞,而非全部的細胞。CNN 的幾個重要概念如下:

2.2.1 全連接與局部連接

CNN 的神經元使用局部連接,或稱為稀疏連接(Sparse connectivity)。每個神經元只需 要對整張圖片的一個區塊進行感知,而圖片的空間關係也是局部的像素關係較為緊密,距 離較遠的像素關聯性則較低。對於一個1000 x 1000 的輸入圖片而言,如果下一個隱藏層的 神經元數目為10^6 個,採用全連接(圖 2-4 左)則會有 1000 x 1000 x 10^6 = 10^12 個權值參 數,如此數目巨大的參數幾乎無法訓練;而採用局部連接(圖 2-4 右),隱藏層的每個神經元 僅與圖像中10 x 10 的局部圖像相連接,那麼此時的權值參數數量為 10 x 10 x 10^6 = 10^8,

將直接減少4 個數量級。

2-4 全連接(左)與局部連接(右)

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

2.2.2 權值共享與多卷積核

權值共享運作的原理其實是圖片一部分的特性與其他部分是一樣的,也就是說在圖片 這一部分學習的特徵也能用在其他部份上,所以對於整張圖片的所有位置,都能使用同樣 的特徵。在局部連接中隱藏層的每一個神經元連接的是一個10 x 10 的局部圖像,因此有 10 x 10 個權值參數,將這 10 x 10 個權值參數共用給剩下的神經元,也就是說隱藏層中 10^6 個神經元的權值參數相同,那麼此時不管隱藏層神經元的數目是多少,需要訓練的參數就 是這10 x 10 個權值參數(也就是卷積核的大小)。但是,這樣僅擷取了圖像的一種特徵,如 果想要多擷取一些特徵,可以增加多個卷積核,不同的卷積核能夠得到圖像的不同映射下 的特徵,稱之為特徵圖。如果有100 個卷積核,最終的權值參數也只有 100 x 100 = 10^4 個 而已,如圖2-5 所示。

2-5 權值共享(左)與多卷積核(右)

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

2.2.3 池化層

對於一張圖片,最後可能會學習到一個擁有超過百萬甚至千萬特徵輸入的分類器,計 算量相當龐大。因此我們可以計算圖片一個區域裡的某個特定特徵的平均值或最大值來降 低特徵維度。如圖2-6 為一個步幅(Stride)為 2,核大小(Kernel size)為 2 x 2,左下為取平均 值的池化層(Average pooling),右下為取最大值的池化層(Max pooling)。

2-6 池化層範例

2.2.4 多層卷積

在實際的應用中,會使用多層卷積來取得特徵,最後在接到全連接層做最後的分類。

多層卷積的目的在於一層卷積學到的特徵往往是局部的,但經過多次的卷積之後,就可以 將低層的特徵綜合起來得到一個比較全域的特徵。例如在人臉辨識中,一開始學到的是一 些低階的特徵(Low level feature),再來學到人臉的某些部份,如眼睛、鼻子、嘴巴等中階特 徵(Middle level feature),最後才學習到比較完整的人臉(High level feature),如圖 2-7 所示。

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

2-7 多層卷積特徵擷取:人臉辨識範例

相關文件