深度學習的演進

第二章技術背景與相關研究

2.1 深度學習的演進

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章技術背景與相關研究

近年來，電腦視覺的領域持續受到關注，尤其隨著大數據、雲端運算服務的興起，加上分散式檔案系統技術的成熟，以及硬體運算效能的進步，使得深度學習技術呈現大幅度的成長，漸漸取代傳統靠人工標記特徵（Feature）的機器學習模型，由電腦自行分析出特徵。這種技術上的突破也使得深度學習一詞開始廣泛流傳，如今也衍生出各種已被大量應用在生活周遭的案例，例如運用語音辨識的產品Apple Siri、Google Home，除了可以使用語音撥打電話或是搜尋資料，更能結合音樂串流平台來播放想聽的歌曲；在影像識別部份，除了常見的人臉辨識、

物件偵測，Google 亦推出人類動作理解資料集（Atomic Visual Actions，AVA）

[4]，讓電腦對影片中人類的動作進行分析並標註動作標籤，由上述例子可見，深度學習在影像分析上擁有顯著的效果。在本章節中，我們將探討圖片分析的相關研究，並對深度學習的演進及架構進行介紹。

2.1 深度學習的演進

深度學習一詞最早可追溯至 1950 年代的人工智慧願景，然而因為當時的硬體效能低落與數據量不足的限制，使得人工智慧技術一度陷入瓶頸，直到 1981 年， Hubel 和 Wiesel 提出的動物視覺神經元處理訊息的方式[5]得到了諾貝爾醫學獎，進而帶起類神經網路（Neural Network）的熱潮，即為模擬生物神經系統傳遞訊息的方法。透過 1957 年 Rosenblatt 提出的感知模型（Perceptron），在前者神經元加入修改權重的機制，當神經元收到的訊號經過特定函數運算，超過特定的門檻值（Threshold）時，便將輸出結果作為下一個神經元的輸入值傳入下個神經元，一層層傳下去直到最後一層輸出預測結果，如圖 2.1 所示。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖2.1 神經網路模型

然而，傳統的類神經網路仍無法突破多層數的問題，使得這塊研究領域漸漸遭到學界放棄，2006 年，Hinton 提出的深度置信網路（Deep Belief Network，DBN）

[6]雖然成功訓練了多層神經網路，深度學習一詞也在此時誕生，但受限於 CPU 的運算能力緩慢，使得深度學習的研究依然沒有起色，直到 2012 年 Hinton 的兩名學生以深度學習加上 GPU 運算的組合在每年以 ImageNet 為影像資料庫所舉辦的大型圖片識別競賽(ImageNet Large Scale Visual Recognition Challenge，

ILSVRC)上一戰成名，使得深度學習重新受到學界所重視，同時也使 GPU 成為運算時不可或缺的硬體。

電腦視覺技術的應用非常廣泛，而且也越來越多研究將深度學習運用於此，

舉凡人臉偵測，Ranjan [7]等作者設計出使用CNN 架構的演算法，精確的偵測出臉部標誌（Face Landmark）、性別等人臉資訊；在圖片分類方面，從2010 年開始舉辦的ILSVRC，2012 年由 Hinton 的兩名學生所提出的 CNN 模型 AlexNet [8]，

將 ILSVRC’12 資料集的錯誤率大幅降至 16.42%，使得深度學習與 GPU 運算的組合在圖形識別上開始蓬勃發展；2015 年時，Microsoft 更以超越了人類識別錯誤率5%的 ResNet [9]贏得冠軍，錯誤率為 3.57%；直至 2017 年，冠軍是來自中國的自駕車新創公司 Momenta 的團隊提出了 SENet [10]，透過一種新的特徵重

‧

黎世聯邦理工（ETH）大學聯合 Google Research 等研究機構發佈了名為 WebVision 的大規模Web 資料集[12]，並基於此資料集舉辦了視覺理解挑戰競賽（Challenge on Visual Understanding by Learning from Web Data，即 WebVision）[13]，與 ILSVRC 資料集不同的是，WebVision 資料集的 240 多萬張圖片主要來自 Google Search 與 Flickr，使用 ILSVRC’12 資料集的 1000 個語意概念生成的搜尋關鍵字（Query）

爬取而得，同時後設資料（Metadata）也包含在其中。相較於 ILSVRC 資料集完

28.2%

25.8%

16.4%

11.7%

6.7% 5.0%

3.57% 2.99% 2.25%

2010 2011 2012

AlexNet

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

際場景。2017 年的冠軍是來自中國的碼隆科技，他們的五次識別結果正確率佔了所有識別結果正確率的前五名，並以最佳結果比第二名高出2.5%，如圖 2.3，

他們採用半監督式（Semi-supervised）學習的方式解決資料集的雜訊問題，首先設計出一個演算法將訓練資料分成clean data 與 noisy data，接著利用 clean data 訓練出一個深度學習模型，再將此模型套用至所有的資料，通過逐步增加雜訊數據的數量，提升模型複雜度和泛用能力。

圖2.3 WebVision 2017 年比賽結果[14]

在文檔中應用深度學習架構於社群網路資料分析：以Twitter圖文資料為例 - 政大學術集成 (頁 18-21)

第二章 技術背景與相關研究

2.1 深度學習的演進

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.1 深度學習的演進

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章技術背景與相關研究

立政治大學

立政治大學

立政治大學