深度學習的背景與突破

第二章技術背景與相關研究

2.1 深度學習的背景與突破

國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

第二章技術背景與相關研究

本章節首先回顧深度學習網路的發展背景，並介紹目前被廣泛使用於圖像識別、電腦視覺領域的卷積神經網路及其核心運算概念，接著探討近年來與卷積神經網路模型壓縮、

發展輕量型網路架構以及行動裝置網路架構相關的研究成果。

2.1 深度學習的背景與突破

深度學習其實指的基於深層類神經網路(Deep neural network)的機器學習框架。在 1943 年Warren McCulloch 以及 Walter Pitts 首次提出了神經元的數學模型。到了 1958 年，心理學家Rosenblatt 提出了感知器(Perception)的概念，加入了訓練修正權重的機制。類神經網路的神經元其實是將收集到的各種訊號根據權重(Weights)加權後加總，在透過啟動函數 (Activation function)傳出去，如圖 2-1 所示。而類神經網路則是將神經元一層一層的連起來，

可分為輸入層(Input layer)、輸出層(Output layer)和中間的隱藏層(Hidden layers)，如圖 2-2 所示。輸入層表示輸入的特徵，輸出層表示預測的類別，而隱藏層則是用來增加神經網路的複雜度，每一層的神經元之間都有連結且各自擁有權重來處理訊號的加權。

圖2-1 神經元[6]

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

圖2-2 類神經網路[6]

然而類神經網路隨著神經元或是隱藏層的增加而增加計算量，受限於當時電腦的計算能力以及資料取得不易，類神經網路並沒有發揮很好的效果。但隨著網際網路的蓬勃發展，

研究者可以從網際網路上取得大量的圖片用來訓練深度學習模型，另一方面則是分散式運算技術的成熟，將GPU 用於深度學習演算法的運算可獲得大量的效能提升。伴隨上述科技的進展，讓深度學習再度受到重視。

傳統人為設計(Handcraft)特徵，在近年快速被深度學習的資料驅動(Data-driven)之特徵擷取所取代，尤其在圖像識別領域中，深度學習更是將辨識準確率提升到了一個新的高度。

在2010 年，深度學習在 MNIST[7]這個手寫數字的資料集上得到了突破性的發展，只有 0.3%

的錯誤率。在同一年，第一次舉辦了以 ImageNet[8] 為基礎的大型圖片識別競賽 ILSVRC[9](ImageNet-large scale visual recognition challenge)，有 120 萬張圖片作為訓練集 (Training data)，5 萬張當驗證集(Validation data)，15 萬張當測試集(Test data)共 1000 個類別。

2010 年 ILSVRC 競賽的第一名是 Nippon Electric Company(NEC)和伊利諾大學厄巴納-香檳分校(University of Illinois at Urbana Champaign, UIUC)的聯合團隊，使用支持向量機(Support vector machine, SVM)的方法，識別分類的 Top-5 錯誤率為 28%[10]。2012 年 ILSVRC 的比賽上，深度學習首次參賽，由Alex Krizhevsky 等人所設計的 AlexNet[11]獲得冠軍，有別以

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

往微幅降低的錯誤率，將Top-5 錯誤率從去年最佳的 25.5%降低到 16.4%。2014 年 Google 團隊則提出GoogLeNet[12]，使用 Inception 將不同卷積大小所得的特徵圖(Feature map)堆疊起來，進一步取得Top-5 錯誤率為 6.7%的優異成果。2015 年 ILSVRC 上，Kaiming He 等人則提出ResNet[13]，設計 Bottleneck 的 Block，在其中利用 Shortcut 連結與殘差的學習，成功避免深度所造成梯度消失問題(Gradient vanishing problem)，在 152 層的架構下取得 Top-5 錯誤率 3.Top-57％。如圖 2-3 所示，可以明顯的從歷年 ILSVRC 看出深度學習在影像識別上有很大的貢獻和突破。

然而深度學習又有不同類神經網路階層、架構和初始化的方式，如卷積神經網路、遞歸神經網路(Recurrent neural network, RNN)等。在上述歷年的 ILSVRC 裡，不管是 AlexNet、

GoogleNet 或是 ResNet 皆採用 CNN 架構。

圖2-3 歷年 ILSVRC Top-5 錯誤率[14]

‧ 國

立政治大學

‧

N a

tio na

l C h engchi U ni ve rs it y

在文檔中基於卷積核冗餘的神經網路壓縮機制 - 政大學術集成 (頁 16-19)

第二章 技術背景與相關研究

2.1 深度學習的背景與突破

國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

第二章 技術背景與相關研究

2.1 深度學習的背景與突破

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a

tio na

l C h engchi U ni ve rs it y

第二章技術背景與相關研究

立政治大學

第二章技術背景與相關研究

立政治大學

立政治大學

立政治大學