深度學習

深度學習是機器學習的一種方法，機器學習技術就是讓機器可以自我學習的技術，一般機器學習方法要經過三個步驟：首先，人類提供機器一個由函數構成的集合，接著，人類根據訓練的資料定義函數的優劣，最後，機器自動從函數集內找出最佳的函數。

深度學習亦是如此，深度學習是讓機器模擬人腦的運作方式，進而和人類一樣具備學習的能力，它讓電腦可以自行分析資料找出「特徵值」，而不是由人類來決定特徵值，就好像電腦可以有「深度」的「學習」一樣。深度學習的三個步驟和機器學習一樣，包含：選擇函數集、定義優劣以及挑選函數，

其中，人類提供的函數集是由神經網絡的結構所定義，神經網絡和人腦有幾分相似之處，人腦是由神經元所構成，神經網絡也是由神經元連接而成。

深度學習使用多層神經網絡，理論上隱藏層越多自由度與精確度就越高，

但是，結果剛好相反，因為，誤差反向傳播很難傳遞回更上一層的神經元，

當階層太多時效果不佳，因此，深度學習不但使用多層神經網絡，同時還使用自動編碼器來進行非監督式學習（李宏毅，2016；曲建仲，2017）。

二、深度學習的發展

Hinton 成功訓練多層神經網絡，Hinton 和他的學生在 Science 期刊上發表了一篇文章，讓深度學習在學術界和工業界獲得了廣大的關注，但深度學習真正的轉折點是在 2012 年的 ImageNet 比賽，這次的比賽讓深度學習與圖形處理器

（Graphics Processing Unit，簡稱：GPU）一戰成名，同時，NVIDIA GPU 也成為運算中不可或缺的硬體，直到現在，深度學習已經成為大數據和人工智慧的一個熱潮（余凯、贾磊、陈雨强、徐伟，2013；Lynn, 2017）。

深度學習的概念源自於神經網絡的研究，神經網絡技術在 1980 年代就已

1960~1981 年為神經網絡開發反向傳播（Backpropagation，簡稱：BP）。

1965 年基於數據處理分組方法（Group Method of Data Handling，簡稱：GMDH)的深度網絡。

1979 年引入卷積神經網絡（Convolutional Neural Network，簡稱：

CNN）、權重重置以及色度抽樣。

1980~2000 年神經網絡的大量改進。

1987 年通過自動編碼器（Autoencoder，簡稱：AE）層級的非監督式學習（Unsupervised Learning，簡稱：UL）。

1989 年卷積神經網絡的反向傳播。

1991 年基礎深度學習梯度下降的問題與時間遞迴神經網絡（Recurrent Neural Network，簡稱：RNN）。

1992 年卷積神經網絡的最大池化（Max-Pooling，簡稱：MP）。

1994 年早期競賽獲勝的神經網絡。

1995 年長短期記憶（Long Short-Term Memory，簡稱：LSTM）。

2003 年更多獲獎、創紀錄的神經網絡與成功的深度神經網絡。

2006~2007 年深度信念網絡（Deep Belief Network，簡稱：DBN）、針對 MPCNN 與 LSTM 提升 CNN 的 BP 與 GPU。

2009 年由 RNN 和 MPCNN 贏得首次正式比賽。

2010 年 GPU 上的反向傳輸打破了 MNIST（Modified National Institute of Standards and Technology，簡稱：MNIST）的記錄。

2011 年 GPU 上的 MPCNN 實現視覺性能。學習的蹤影（LeCun, Bengio, & Hinton, 2015）。

以下針對深度學習的應用進行舉例與說明。

（一）圖像識別

圖像識別的發展已有相當長的一段時間，圖像識別也是深度學習最早嘗試的領域，它可以應用的範圍相當廣泛，像是基於內容的圖像檢索、最近相當熱門的臉部辨識以及近期發展相當快速的醫學圖像分析等。

在臉部辨識方面，由於複雜的臉部變化，預測臉部屬性是具有挑戰性的，

Liu 等人提出了一個新的屬性預測的深度學習框架，該框架包含了 CNN、LNet 以及 ANet，這個框架不僅比現有技術大得多，而且還揭示了有關人臉表徵的價值，這將有益於未來的人臉辨識和深度學習研究（Liu, Luo, Wang, & Tang, 2015）。Parkhi 等人的目標是從單張照片或從視頻中追蹤一組人臉，最近在這方面取得的進展是由於兩個因素：使用卷積神經網絡端到端的學習與超大規模訓練數據集的可用性，Parkhi 等人展示了一個大規模的數據集（2.6M 圖像，

超過 2.6 萬人）並透過深度網絡訓練和人臉識別的複雜性來介紹方法和程序

（Parkhi, Vedaldi, & Zisserman, 2015）。Wang 等人則是將臉部辨識用於安全監控，由於安全監控實際應用的需求，在現實世界的監控影像中進行穩健性的人臉識別是一個具有挑戰性的重要問題，儘管當前的臉部辨識系統在相對受限的場景中表現良好，但它容易因為姿勢、照明或臉部表情的變化而有所影響，Wang 等人因而提出了一種透過深度學習在實際監控影像中進行臉部辨識的方法（Wang, Bao, Ding, & Zhu, 2017）。

臉部辨識除了許多相關的研究外，也有一些實際的應用，像是 iPhone 的 Face ID、Google 相簿中的人臉辨識功能以及人臉辨識門禁系統等。

在醫學圖像分析方面，近年來也有相當多的研究，深度學習演算法，特別是卷積神經網絡，已經迅速成為分析醫學圖像的首選方法。Litjens 等人回顧了與醫學圖像分析有關的主要深度學習概念，他們調查了使用深度學習進行

的圖像分類、目標與病變檢測以及器官與子結構分割等任務，並對每個應用領域的研究提供簡明的概述，包括：神經、大腦、視網膜、胸部、乳房、心臟、腹部以及肌肉骨骼等的圖像分析。從他們回顧的 308 篇論文中可以看出，

深度學習已經應用到醫學圖像分析的各個面向，而且發展相當迅速，絕大多數的貢獻都是在 2016 年左右發布的（Litjens et al., 2017）。

Gulshan 等人就是以深度學習進行的圖像分類來檢測糖尿病視網膜病變，

它以高靈敏度和高特異性鑑別糖尿病視網膜病變或雙眼黃斑水腫，這種檢測糖尿病視網膜病變的自動化系統具有多種優勢，包括解讀的一致性、高靈敏度、特異性以及即時的結果報告。但這類型的研究依然有它的限制，Gulshan 等人所使用的參考標準是所有眼科醫生分級的主要決定因素，這意味著大多數眼科醫師無法識別的細微結果的圖像可能無法完成，另一個限制來自深度神經網絡的性質，神經網絡僅具有圖像和相關等級，沒有明確定義特徵，最後，尚未解決的問題是，眼科醫師使用的界面設計和分級設置是否會影響臨床表現，這還需要進一步的實驗來解決（Gulshan et al., 2016）。

近期，醫學領域應用圖像識別的研究相當多且發展相當迅速，但是，應用於醫學的圖像識別往往需要進一步的評估和驗證，才能明確瞭解實驗研究與實際臨床狀況的差距。

（二）語音識別

語音識別也是深度學習領域中發展相當久的技術，Facebook、Google、

IBM、微軟以及百度等企業針對語音識別技術的應用與發展投入了不少心力，

深度學習正成為工業領域語音識別的主流技術。以微軟為例，Deng 等人概述了自 2009 年以來微軟語音研究人員在該領域的工作，並介紹了最近的進展，

為當前的深度學習技術的基本功能和局限性提供了解決方案，他們提供了最

近將深度學習方法用於提升語音技術和相關應用的實驗樣本，與其他近年來的工作表明，深度學習是一項強大的技術，他們今後在深度學習研究方面的工作主要針對三個基本方向：更有效的深層架構和學習算法、使用越來越大的數據集對深度學習模型進行訓練以及將深度學習模型的應用擴展到其他語言和語言處理領域以及其他領域（Deng et al., 2013）。

（三）無人機

深度學習最近在各種機器人任務方面表現相當出色，其在實際環境中獲取複雜數據，並有出色的學習能力，這讓它非常適合多種自主機器人的應用。

無人機目前正廣泛應用於安全、監控、災難救援、包裹運輸以及倉庫管理等多種民用任務，Carrio 等人評估無人機深度學習的應用，包括開發與其性能和局限性，並描述無人機深度學習應用的主要挑戰。現在的機器人能夠執行複雜的操作，但是並不容易適應環境中的變化，在這種情況下，就必須依靠經驗學習，而深度學習就是解決這個困境相當有用的技術（Carrio, Sampedro, Rodriguez-Ramos, & Campoy, 2017）。

（四）金融市場預測

大數據分析和深度學習是數據科學的兩大重點，大數據對於需要收集大量數據的組織非常重要，因為許多組織都在收集大量特定領域的資訊，這些資訊可能包含國家情報、網路安全、詐欺檢測、市場營銷以及醫療資訊等有用的資訊，而深度學習幫助了大數據的收集、分類以及應用，這使得深度學習成為極具價值的工具（Najafabadi et al., 2015）。

舉例來說，人類沒有辦法預測未來某個時期可能表現良好的股票，但是，

深度學習對於這樣的問題可能是有用的，深度學習提供了使用大型數據集來

Heaton 等人使用深度學習分層模型來解決財務預測和分類問題，期望能透過深度學習的方法來提高傳統應用的預測性能，甚至是能夠顯著提升（Heaton, Polson, & Witte, 2017）。

（五）情感分析

社群媒體使用者生成內容的情感分析對於許多社群媒體分析任務來說相當重要，研究人員依靠文本情緒分析來開發系統，以預測政治選舉與衡量經濟指標等。最近，社群媒體使用者越來越多地使用圖像和影像來表達他們的觀點與分享他們的經驗，這種大規模視覺內容的情感分析有助於更好地提取使用者對於事件或主題的觀點，以便從視覺內容中預測情緒。

You 等人為圖像情感分析設計卷積神經網絡架構，透過使用情感分析方法標記 Flickr 圖像來獲得 50 萬個訓練樣本，此外，他們透過使用少量手動標記的 Twitter 圖像來提高 Twitter 圖像的性能，結果表明，提出的卷積神經網絡在圖像情感分析方面可以取得更好的性能（You, Luo, Jin, & Yang, 2015）。Sohangir 等人則針對股票市場進行情緒分析的研究，股票市場是增加財富的熱門場所，

但何時買入與賣出股票，或購買哪些股票的基本問題尚未解決，透過如

在文檔中深度學習之專利分析研究 (頁 13-20)

二、深度學習的發展

（一） 圖像識別

（二） 語音識別

（三） 無人機

（四） 金融市場預測

（五） 情感分析

（一）圖像識別

（二）語音識別

（三）無人機

（四）金融市場預測

（五）情感分析