• 沒有找到結果。

卷積神經網路的基礎架構主要涵蓋卷積層(Convolution Layer)、激勵函數 (Activation Function)、池化層(Pooling Layer)、全連接層(Fully connection),此結 構組成使得卷積神經網路能夠輸入二維資料進行訓練,使其在圖片分類、辨識上 有著相當不錯的表現。此外,相較於其他由全連接層堆疊的深度神經網路,卷積 神經網路的參數量相對較少,運算成本較低。

6.1.1 卷積層(Convolution Layer)

卷積層中涵蓋了許多的滑窗(filter),這些滑窗會在輸入的影像中進行卷積運 算,如圖 6.2 所示,當整張圖片都運算完後,會得到一張維度下降(尺寸變小)的特 徵圖(feature map),每個滑窗都會對應到一個特徵圖,故可得知,通過卷積層後的 影像資料厚度將等於卷積層滑窗的個數。

圖 6.2 卷積層運算(完成) (資料來源:[29])

此階段目的在於藉由滑窗來幫助我們做照片特徵的自動提取,特徵提取的概 念類似人腦在判斷事物時,亦是由物體的紋理、顏色等等的特徵去進行事物的判 斷,此處進行的特徵提取即是電腦視覺中取得事物判斷依據的過程。

圖 6.3 特徵萃取示意圖(資料來源:[29])

6.1.2 激勵函數(Activation Function)

在談論激勵函數之前,我們必須先了解感知器、或稱神經元的運算模式,如 下圖:

圖 6.4 感知器運算

神經元在層與層之間進行數字運算時,是如圖中所示進行線性組合,其中 w 即為神經網路中的各個權重,可隨訓練過程中逐漸優化。但線性組合所能呈現出 來的訊息範疇有限,若期望計算結果能夠更加多元更加符合真實世界的情況,需 要再此引入非線性的變換,為此,我們在總和 u 的後方在接上激勵函數

(Activation Function)進行非線性的轉換,在此以研究所用的 ReLU 作介紹:

圖 6.5 ReLU 激勵函數

由圖 6.5 可知,當總和 u 小於 0 時,y1 即為 0,當 u 大於 0 時則 y1 維持原 數字,通過 ReLU 的轉換,使得最後結果 y1 有了非線性的轉變過程,能傳遞更 多元的訊息種類。

結合上述提到卷積層的概念,進行完了整張影像的卷積運算後,將結果通過 ReLU 後,在輸入下一層,池化層(Pooling Layer)。

6.1.3 池化層(Pooling Layer)

池化層通常有兩種操作,平均池化(Average pooling)以及最大池化(Max pooling),在此以研究使用的最大池化為例:

最大池化的概念在於,將影像分割成各個小區域,將區域中的最大值選擇出來,

如圖 6.6 所示。

圖 6.6 最大池化層(資料來源:[30])

使用 max pooling 的好處在於,藉由擷取最大值來保留圖片上的訊息,同時 解少參數,加入訓練過程、降低訓練成本以及減少過擬和情形的發生。

6.1.4 全連接層(Fully connection)

圖 6.7 卷積神經網路範例(資料來源:[31])

從圖 6.7 來做介紹,我們可以看到,前面經過卷積層、激勵函數、池化層等 等一系列的操作中,目的在於學習影像的特徵(Feature),在學習到數量眾多的特 徵後,這些特徵的組合可以幫助我們分辨現在這個影像是屬於哪一個種類,此時 即可以藉由加入全連結層(Fully connection)來進行特徵的排列組合,進而進行分 類。因此,一般的卷積神經網路由於最後面接的是全連接層,任務大多是影像的 分類,與我們所期望達到的影像語義分割不同,為此,我們選用了 FCN。

相關文件