卷積神經網路基本架構 - 應用全卷積神經網絡：U-Net於鏽蝕語義分割影像辨識

卷積神經網路的基礎架構主要涵蓋卷積層(Convolution Layer)、激勵函數 (Activation Function)、池化層(Pooling Layer)、全連接層(Fully connection)，此結構組成使得卷積神經網路能夠輸入二維資料進行訓練，使其在圖片分類、辨識上有著相當不錯的表現。此外，相較於其他由全連接層堆疊的深度神經網路，卷積神經網路的參數量相對較少，運算成本較低。

6.1.1 卷積層(Convolution Layer)

卷積層中涵蓋了許多的滑窗(filter)，這些滑窗會在輸入的影像中進行卷積運算，如圖 6.2 所示，當整張圖片都運算完後，會得到一張維度下降(尺寸變小)的特徵圖(feature map)，每個滑窗都會對應到一個特徵圖，故可得知，通過卷積層後的影像資料厚度將等於卷積層滑窗的個數。

圖 6.2 卷積層運算(完成) (資料來源:[29])

此階段目的在於藉由滑窗來幫助我們做照片特徵的自動提取，特徵提取的概念類似人腦在判斷事物時，亦是由物體的紋理、顏色等等的特徵去進行事物的判斷，此處進行的特徵提取即是電腦視覺中取得事物判斷依據的過程。

圖 6.3 特徵萃取示意圖(資料來源:[29])

6.1.2 激勵函數(Activation Function)

在談論激勵函數之前，我們必須先了解感知器、或稱神經元的運算模式，如下圖:

圖 6.4 感知器運算

神經元在層與層之間進行數字運算時，是如圖中所示進行線性組合，其中 w 即為神經網路中的各個權重，可隨訓練過程中逐漸優化。但線性組合所能呈現出來的訊息範疇有限，若期望計算結果能夠更加多元更加符合真實世界的情況，需要再此引入非線性的變換，為此，我們在總和 u 的後方在接上激勵函數

(Activation Function)進行非線性的轉換，在此以研究所用的 ReLU 作介紹:

圖 6.5 ReLU 激勵函數

由圖 6.5 可知，當總和 u 小於 0 時，y1 即為 0，當 u 大於 0 時則 y1 維持原數字，通過 ReLU 的轉換，使得最後結果 y1 有了非線性的轉變過程，能傳遞更多元的訊息種類。

結合上述提到卷積層的概念，進行完了整張影像的卷積運算後，將結果通過 ReLU 後，在輸入下一層，池化層(Pooling Layer)。

6.1.3 池化層(Pooling Layer)

池化層通常有兩種操作，平均池化(Average pooling)以及最大池化(Max pooling)，在此以研究使用的最大池化為例:

最大池化的概念在於，將影像分割成各個小區域，將區域中的最大值選擇出來，

如圖 6.6 所示。

圖 6.6 最大池化層(資料來源:[30])

使用 max pooling 的好處在於，藉由擷取最大值來保留圖片上的訊息，同時解少參數，加入訓練過程、降低訓練成本以及減少過擬和情形的發生。

6.1.4 全連接層(Fully connection)

圖 6.7 卷積神經網路範例(資料來源:[31])

從圖 6.7 來做介紹，我們可以看到，前面經過卷積層、激勵函數、池化層等等一系列的操作中，目的在於學習影像的特徵(Feature)，在學習到數量眾多的特徵後，這些特徵的組合可以幫助我們分辨現在這個影像是屬於哪一個種類，此時即可以藉由加入全連結層(Fully connection)來進行特徵的排列組合，進而進行分類。因此，一般的卷積神經網路由於最後面接的是全連接層，任務大多是影像的分類，與我們所期望達到的影像語義分割不同，為此，我們選用了 FCN。

在文檔中應用全卷積神經網絡：U-Net於鏽蝕語義分割影像辨識 (頁 30-33)