• 沒有找到結果。

第二章 技術背景與相關研究

2.1 深度學習的背景與突破

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

第二章 技術背景與相關研究

本章節首先回顧深度學習網路的發展背景,並介紹目前被廣泛使用於圖像識別、電腦 視覺領域的卷積神經網路及其核心運算概念,接著探討近年來與卷積神經網路模型壓縮、

發展輕量型網路架構以及行動裝置網路架構相關的研究成果。

2.1 深度學習的背景與突破

深度學習其實指的基於深層類神經網路(Deep neural network)的機器學習框架。在 1943 年Warren McCulloch 以及 Walter Pitts 首次提出了神經元的數學模型。到了 1958 年,心理 學家Rosenblatt 提出了感知器(Perception)的概念,加入了訓練修正權重的機制。類神經網路 的神經元其實是將收集到的各種訊號根據權重(Weights)加權後加總,在透過啟動函數 (Activation function)傳出去,如圖 2-1 所示。而類神經網路則是將神經元一層一層的連起來,

可分為輸入層(Input layer)、輸出層(Output layer)和中間的隱藏層(Hidden layers),如圖 2-2 所 示。輸入層表示輸入的特徵,輸出層表示預測的類別,而隱藏層則是用來增加神經網路的 複雜度,每一層的神經元之間都有連結且各自擁有權重來處理訊號的加權。

2-1 神經元[6]

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

2-2 類神經網路[6]

然而類神經網路隨著神經元或是隱藏層的增加而增加計算量,受限於當時電腦的計算 能力以及資料取得不易,類神經網路並沒有發揮很好的效果。但隨著網際網路的蓬勃發展,

研究者可以從網際網路上取得大量的圖片用來訓練深度學習模型,另一方面則是分散式運 算技術的成熟,將GPU 用於深度學習演算法的運算可獲得大量的效能提升。伴隨上述科技 的進展,讓深度學習再度受到重視。

傳統人為設計(Handcraft)特徵,在近年快速被深度學習的資料驅動(Data-driven)之特徵 擷取所取代,尤其在圖像識別領域中,深度學習更是將辨識準確率提升到了一個新的高度。

在2010 年,深度學習在 MNIST[7]這個手寫數字的資料集上得到了突破性的發展,只有 0.3%

的 錯 誤 率 。 在 同 一 年 , 第 一 次 舉 辦 了 以 ImageNet[8] 為 基 礎 的 大 型 圖 片 識 別 競 賽 ILSVRC[9](ImageNet-large scale visual recognition challenge),有 120 萬張圖片作為訓練集 (Training data),5 萬張當驗證集(Validation data),15 萬張當測試集(Test data)共 1000 個類別。

2010 年 ILSVRC 競賽的第一名是 Nippon Electric Company(NEC)和伊利諾大學厄巴納-香檳 分校(University of Illinois at Urbana Champaign, UIUC)的聯合團隊,使用支持向量機(Support vector machine, SVM)的方法,識別分類的 Top-5 錯誤率為 28%[10]。2012 年 ILSVRC 的比 賽上,深度學習首次參賽,由Alex Krizhevsky 等人所設計的 AlexNet[11]獲得冠軍,有別以

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

往微幅降低的錯誤率,將Top-5 錯誤率從去年最佳的 25.5%降低到 16.4%。2014 年 Google 團隊則提出GoogLeNet[12],使用 Inception 將不同卷積大小所得的特徵圖(Feature map)堆疊 起來,進一步取得Top-5 錯誤率為 6.7%的優異成果。2015 年 ILSVRC 上,Kaiming He 等人 則提出ResNet[13],設計 Bottleneck 的 Block,在其中利用 Shortcut 連結與殘差的學習,成 功避免深度所造成梯度消失問題(Gradient vanishing problem),在 152 層的架構下取得 Top-5 錯誤率 3.Top-57%。如圖 2-3 所示,可以明顯的從歷年 ILSVRC 看出深度學習在影像識別上有 很大的貢獻和突破。

然而深度學習又有不同類神經網路階層、架構和初始化的方式,如卷積神經網路、遞 歸神經網路(Recurrent neural network, RNN)等。在上述歷年的 ILSVRC 裡,不管是 AlexNet、

GoogleNet 或是 ResNet 皆採用 CNN 架構。

2-3 歷年 ILSVRC Top-5 錯誤率[14]

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

相關文件