第二章 技術背景與相關研究
2.1 深度學習的演進
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第二章 技術背景與相關研究
近年來,電腦視覺的領域持續受到關注,尤其隨著大數據、雲端運算服務的 興起,加上分散式檔案系統技術的成熟,以及硬體運算效能的進步,使得深度學 習技術呈現大幅度的成長,漸漸取代傳統靠人工標記特徵(Feature)的機器學習 模型,由電腦自行分析出特徵。這種技術上的突破也使得深度學習一詞開始廣泛 流傳,如今也衍生出各種已被大量應用在生活周遭的案例,例如運用語音辨識的 產品Apple Siri、Google Home,除了可以使用語音撥打電話或是搜尋資料,更能 結合音樂串流平台來播放想聽的歌曲;在影像識別部份,除了常見的人臉辨識、
物件偵測,Google 亦推出人類動作理解資料集(Atomic Visual Actions,AVA)
[4],讓電腦對影片中人類的動作進行分析並標註動作標籤,由上述例子可見,深 度學習在影像分析上擁有顯著的效果。在本章節中,我們將探討圖片分析的相關 研究,並對深度學習的演進及架構進行介紹。
2.1 深度學習的演進
深度學習一詞最早可追溯至 1950 年代的人工智慧願景,然而因為當時的硬 體效能低落與數據量不足的限制,使得人工智慧技術一度陷入瓶頸,直到 1981 年, Hubel 和 Wiesel 提出的動物視覺神經元處理訊息的方式[5]得到了諾貝爾醫 學獎,進而帶起類神經網路(Neural Network)的熱潮,即為模擬生物神經系統 傳遞訊息的方法。透過 1957 年 Rosenblatt 提出的感知模型(Perceptron),在前 者神經元加入修改權重的機制,當神經元收到的訊號經過特定函數運算,超過特 定的門檻值(Threshold)時,便將輸出結果作為下一個神經元的輸入值傳入下個 神經元,一層層傳下去直到最後一層輸出預測結果,如圖 2.1 所示。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖2.1 神經網路模型
然而,傳統的類神經網路仍無法突破多層數的問題,使得這塊研究領域漸漸 遭到學界放棄,2006 年,Hinton 提出的深度置信網路(Deep Belief Network,DBN)
[6]雖然成功訓練了多層神經網路,深度學習一詞也在此時誕生,但受限於 CPU 的運算能力緩慢,使得深度學習的研究依然沒有起色,直到 2012 年 Hinton 的兩 名學生以深度學習加上 GPU 運算的組合在每年以 ImageNet 為影像資料庫所舉 辦的大型圖片識別競賽(ImageNet Large Scale Visual Recognition Challenge,
ILSVRC)上一戰成名,使得深度學習重新受到學界所重視,同時也使 GPU 成為 運算時不可或缺的硬體。
電腦視覺技術的應用非常廣泛,而且也越來越多研究將深度學習運用於此,
舉凡人臉偵測,Ranjan [7]等作者設計出使用CNN 架構的演算法,精確的偵測出 臉部標誌(Face Landmark)、性別等人臉資訊;在圖片分類方面,從2010 年開始 舉辦的ILSVRC,2012 年由 Hinton 的兩名學生所提出的 CNN 模型 AlexNet [8],
將 ILSVRC’12 資料集的錯誤率大幅降至 16.42%,使得深度學習與 GPU 運算的 組合在圖形識別上開始蓬勃發展;2015 年時,Microsoft 更以超越了人類識別錯 誤率5%的 ResNet [9]贏得冠軍,錯誤率為 3.57%;直至 2017 年,冠軍是來自中 國的自駕車新創公司 Momenta 的團隊提出了 SENet [10],透過一種新的特徵重
‧
黎世聯邦理工(ETH)大學聯合 Google Research 等研究機構發佈了名為 WebVision 的大規模Web 資料集[12],並基於此資料集舉辦了視覺理解挑戰競賽(Challenge on Visual Understanding by Learning from Web Data,即 WebVision)[13],與 ILSVRC 資料集不同的是,WebVision 資料集的 240 多萬張圖片主要來自 Google Search 與 Flickr,使用 ILSVRC’12 資料集的 1000 個語意概念生成的搜尋關鍵字(Query)爬取而得,同時後設資料(Metadata)也包含在其中。相較於 ILSVRC 資料集完
28.2%
25.8%
16.4%
11.7%
6.7% 5.0%
3.57% 2.99% 2.25%
0%
2010 2011 2012
AlexNet
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
際場景。2017 年的冠軍是來自中國的碼隆科技,他們的五次識別結果正確率佔 了所有識別結果正確率的前五名,並以最佳結果比第二名高出2.5%,如圖 2.3,
他們採用半監督式(Semi-supervised)學習的方式解決資料集的雜訊問題,首先 設計出一個演算法將訓練資料分成clean data 與 noisy data,接著利用 clean data 訓練出一個深度學習模型,再將此模型套用至所有的資料,通過逐步增加雜訊數 據的數量,提升模型複雜度和泛用能力。
圖2.3 WebVision 2017 年比賽結果[14]