卷積神經網路與相關模型簡介

第二章技術背景與相關研究

2.2 相關研究

2.2.1 卷積神經網路與相關模型簡介

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

軸，也會使用 Hu 等學者所提出的分類法作為參考，對 Twitter 上蒐集而來的資料進行分類，探討其成效。

2.2.1 卷積神經網路與相關模型簡介

卷積神經網路全名為 Convolutional Neural Networks，簡稱 CNN，源自 1960 年代 Hubel 和 Wiesel 研究貓腦的視覺皮層細胞發現，每個視覺神經元只會處理一小塊區域的視覺圖像，也就是每次接收或傳遞圖像訊息時，只會有局部相鄰的細胞動作，也就是所謂局部連接（Local Connection）的概念。此外，一個卷積層有多個不同的卷積核，每個卷積核對應一個濾波後映射出新圖像，透過卷積核的權值共享（Weight Sharing），降低參數量使訓練複雜度大幅下降。舉例來說，一張尺寸為 1000 像素×1000 像素的黑白圖像，表示其輸入的維度就是 1000000，若接下來連接一個相同大小的隱藏層（Hidden Layer），那將產生 100 萬×100 萬個連接，但如此龐大的權重參數在訓練上相當有困難度，甚至會無法訓練，因此 CNN 的神經元使用局部連接，即假設每個神經元只和 10×10 個神經元相連，那麼權值就會降為 100 萬×100 個參數，減少為全連接的千分之一，如圖 2.4 所示。

其中，權值共享還賦予 CNN 對平移的容忍度，而池化層（Pooling）透過計算圖片同一區域上的某個特定特徵的平均值或最大值來降低特徵維度，進一步降低了輸出參數量，並提高模型的泛用性。

圖 2.4 左圖為全連接，右圖為局部連接

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

由 ImageNet 舉辦的競賽（ILSVRC）產生了不少實用的 CNN 模型，這些模型也成為後續研究的參考，像是 2012 年的 AlexNet、2014 年的 VGGNet 都在影像分類上達到不錯的效果，2014 年由 Google 提出的 GoogLeNet（Inception V1）

[16]，對傳統的卷積層提出了修改，提出名為 Inception 的架構，用於增加卷積神經網路的寬度與深度，提高其性能，Inception 的模型架構如圖 2.5 所示，為了增加模型的適應性使用了不同大小的卷積核，並在 3x3 與 5x5 的卷積核以及 3x3 max pooling 前加上 1x1 的卷積核用於降維，達到降低模型複雜度的目的，當時的錯誤率為 6.67%，接下來的幾年，Google 又對此架構進行修改，相繼提出了 Inception V2[1]、Inception V3[18]、Xception[19]等模型，Inception V2 將 5x5 的卷積核利用兩個 3x3 的卷積核取代，使 CNN 對特徵的學習能力更強，並提出 Batch Normalization 方法對每一層進行正規化，讓原先的模型訓練時間大幅縮短，錯誤率也降至 4.8%；Inception V3 的架構如圖 2.6 所示，將一個較大的二維卷積拆成兩個一維卷積，像是把一個 3x3 的卷積拆解成一個 1x3 的卷積與一個 3x1 的卷積，這個方法除了節省大量參數減少運算時間，也能處理更多樣化的特徵，此時的錯誤率已降至 3.5%。

圖 2.5 Inception 模型架構[16]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.6 Inception V3 模型架構[18]

直到 2017 年，Google 對 Incption V3 架構進行了修改，提出 Xception 模型，

核心概念來自於同一年提出的 MobileNets[20]，做出深度可分離的卷積，Xception 模型以原始 Inception V3 架構為基礎，去除平均池化層後，得到一個簡易的 Inception V3 模型，再將所有的 1x1 卷積核的每個通道接上 3x3 的卷積核並將結果融合，如圖 2.7 所示，並以此建立 Xception 的模型架構。由圖 2.8 的各類模型準確度與參數量比較中，雖然 Xception 並非準確度最高的模型，但由於其使用參數量與準確率更高的 InceptionResNetV2 與 NASNetLarge 相比差距二到四倍，綜合考慮模型速度與準確度，本研究決定使用 Xception 作為特徵擷取的訓練模型。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.7 Xception Block[20]

圖 2.8 各種 CNN 模型準確度與參數量比較[1]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中應用深度學習架構於社群網路資料分析：以Twitter圖文資料為例 - 政大學術集成 (頁 22-26)

第二章 技術背景與相關研究

2.2 相關研究

2.2.1 卷積神經網路與相關模型簡介

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章技術背景與相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學