技術領域

第二章人工智慧技術背景介紹

第二節技術領域

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

者，最終演變為如今可以獨立思考的學習者。儘管目前的人工智慧距離真正的意義上的「智慧」也就是所謂「強人工智慧」的終極目標還有一定程度的差距，但其已經可以完成人臉辨識、語音辨識、桌上遊戲等諸多複雜的任務，甚至可以在經過一定時間的訓練後進行音樂或者繪畫的創作，並持續以完成更多元化目的、

降低人工依賴性為目標邁進當中。

至於未來的人工智慧是否能夠真正達到自主獨立進行發明之程度，學術界目前仍處於眾說紛紜的階段，然為了在嶄新時代來臨之前做足充分討論與因應準備，

本文欲討論之專利法關於人工智慧衍生發明議題，仍有其存在必要。

第二節技術領域

近 20 年來，機器學習（Machine Learning）係屬人工智慧技術最熱門的訓練方式。所謂機器學習，就是利用大量的資料訓練電腦，讓機器自行學習資料中的某些特性，並利用學習到的資訊完成特定的任務。具體的機器學習演算法種類繁多，包括決策樹（Decision Tree）、支持向量機（Support Vector Machine）、聚類分析（Cluster Analysis）、迴歸分析（Regression Analysis）、圖模型（Graphical Model）、蒙特卡羅方法（Monte Carlo Method）、神經網路（Neural Network）等⁹⁸。其中，

深度學習（Deep Learning）則為機器學習的一種，其主要利用電腦模擬人類的神經網路運作，藉此加深學習深度、增強演算法能力。目前人工智慧研究中使用最為廣泛且取得最大進展的當屬神經網路，故本節將先對神經網路進行介紹，再從技術端角度，分析人類在利用神經網路於各分支領域之現況。

第一項神經網路簡介

神經網路的提出受到了神經科學的啟發，其係以人類或動物的神經元結構作

98 Shadab Hussain, Use cases of Different Machine Learning Algorithms, available at http s://blog.usejournal.com/machine-learning-algorithms-use-cases-72646df1245f (Last visited: 2019/05/

19).

DOI:10.6814/NCCU201900818

100 LAURENE FAUSETT, FUNDAMENTALS OF NEURAL NETWORKS: ARCHITECTU RES, ALGORITHMS, AND APPLICATIONS, 3-4 (1994).

101 Id. at 11-19.

102 Yoshua Bengio & Aaron Courville & Pascal Vincent, Representation Learning: A Revie w and New Perspectives, IEEE Transactions on Pattern Analysis and Machine Intelligence (201 3).

103 IAN GOODFELLOW & YOSHUA BENGIO & AARON COURVILLE, DEEP LEARN ING, 166-167 (2016) (“First, training a feedforward network requires making many of the sam e design decisions as are necessary for a linear model: choosing the optimizer, the cost functio n, and the form of the output units.”).

104 Barret Zoph & Quoc V. Le, Neural Architecture Search with Reinforcement Learning, I nternational Conference on Learning Representations (2017).

DOI:10.6814/NCCU201900818

‧

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

而做出不同的設計，而神經網路學習的過程，就是讓該指標達到最佳化的過程¹⁰⁵。有鑑於損失函數是神經網路的「唯一」參考標準，不同的損失函數將會導致不同的學習結果，且就目前來看，神經網路尚無法自主定義損失函數，這一部分的設計完全需要借助人工。最後是「學習策略（Learning Strategy）」的設計。神經網路學習的過程，其實就是網路參數（即神經元）在損失函數指導下進行不斷更新的過程。目前最常用的學習策略是基於梯度下降（Gradient Descent）的反向傳播演算法（Back propagation），即通過損失函數對每一個網路參數進行微分，然後利用微分結果對原有參數進行更新，以此來對網路進行最佳化，達到學習的目的

106。與損失函數相類似，參數的更新方式亦完全由人類設計，機器僅僅負責執行

107。由此可見，人類在神經網路設計的過程中扮演著了不容忽視的角色。

為能更加有效地實現學習目的，神經網路存在著紛繁多樣的變化。其中最為著名的即為深度神經網路（Deep Neural Network，DNN）¹⁰⁸。顧名思義，深度神經網路的結構相對一般神經網路更深，含有多個中間隱藏層（Hidden Layer）¹⁰⁹，神經元按照層次排列，與人類的神經系統十分相似。基於這樣的設計，淺層神經元用於取得低層次（Low-level）資訊（如：圖形輪廓），深層神經元用於取得更加抽象的高層次（High-level）資訊（如：圖像語義），使得學習更為穩定高效，

也因此廣泛應用於人工智慧各個領域的研究當中。除此之外，神經網路有著各式各樣的分類：根據神經元運算方式的不同，神經網路又可以分為卷積神經網路

（Convolutional Neural Network，CNN）和多層感知器（Multi-Layer Perceptron，

MLP）；根據神經元連接方式的不同可以分為前饋神經網路（Feed Forward Neural Network）、遞迴神經網路（Recurrent Neural Network，RNN）以及長短期記憶網路（Long Short-Term Memory，LSTM）；根據的學習目標的不同可以分為用於判

105 Bengio & Courville & Vincent, supra note 102 at 273-274.

106 Bengio & Courville & Vincent, supra note 102 at 80-84.

107 Bengio & Courville & Vincent, supra note 102 at 321-323.

108 周秉誼，淺談 Deep Learning 原理及應用，國立台灣大學計算機及資訊網路中心電子報，38 期，2016 年 9 月，http://www.cc.ntu.edu.tw/chinese/epaper/0038/20160920_3805.html (最後造訪日：2019/05/20)。

109 Bengio & Courville & Vincent, supra note 102 at 165.

DOI:10.6814/NCCU201900818

‧

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

斷推理的判別模型（Discriminative Model）、用於發明創造的生成模型（Generative Model）以及能夠自主決策的決策模型（Decision Model）；根據學習方式的不同又可以分為監督式學習（Supervised Learning）、非監督式學習（Unsupervised Learning）以及強化學習（Reinforcement Learning）¹¹⁰。

其中，監督式學習係指借助了人工標註行為（label）的學習。以數字圖像辨識為例，監督式學習需由人工事先為每一張圖片進行標註，如第一張圖表示的是 3，第二張圖表示的是 5。在學習的過程中，網路本身也要對圖像的內容進行預測，如果預測結果與標籤內容不同，則對網路參數進行更新。因此，監督式學習更像是有標準答案的教學，對人工的需求較高，學習結果也較為理想，是目前最為廣泛使用的訓練方式。另一方面，非監督式學習則不需任何標註，期待網路可以通過流覽大量的資料，自動發現其內部隱含的一些特徵。相較於監督式學習，

非監督式學習更像是開放式教學，對訓練資料的依賴性較低，雖然效果稍遜一籌，

但有助於解決一些無法標注的問題。目前較為常見的非監督式學習方式有自動編碼器（Auto-encoder）和生成對抗網路（Generative Adversarial Network）¹¹¹，此外，強化學習是近兩年剛剛興起的學習方法，其本質為決策樹搜索，實現方法為讓網路針對當前狀態提出策略，然後以獎勵回饋（Reward）的方式判斷策略的好壞，從而進行參數的更新。因此，強化學習常常用於需要機器進行自主決策的場景，如下棋，也表現出與人類相接近的智慧行為¹¹²。

第二項神經網路分支領域

110 AI 入門必備懶人包：圖解 27 種神經模型，讓你秒懂差在哪，科技報橘，2018 年 1 月 24 日，available at https://buzzorange.com/techorange/2018/01/24/neural-networks-compare/ （最後造訪日：2019/05/20）。

111 Pierre Baldi, Autoencoders, Unsupervised Learning, and Deep Architectures, International Conference on Machine Learning Workshop on Unsupervised and Transfer Learning (2012); Ia n Goodfellow, et al., Generative Adversarial Nets, Advances in Neural Information Processing Systems (2014).

112 監督式學習？增強學習？聽不懂的話，一定要看這篇入門的機器學習名詞解釋！，INSI

DE，2017 年 7 月 19 日，available at https://www.inside.com.tw/article/9945-machine-learning

（最後造訪日：2019/05/20）。

DOI:10.6814/NCCU201900818

‧

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

一、電腦視覺（Computer Vision）

電腦視覺之主要目標係使機器可以像人類一樣觀察世界。舉例而言，當一個人看到一張圖片或者一段影片時，會產生一定的認知，比如圖片顯示的是一隻貓或者影片中的人正在打籃球。電腦視覺即希望通過影像處理等相關技術，使得電腦也可以對於輸入的圖片或影片產生類似的判斷。電腦視覺包括了以下不同的子領域，包含用於從圖像中找到關鍵物體的目標檢測（Object Detection）、用於從視頻中持續跟蹤物體運動情況的目標跟蹤（Object Tracking）、用於判斷並理解物體運動模式（如方向、速度）的運動檢測（Motion Detection）、用於理解圖像組成成分的語意分割（Semantic Segmentation）、用於判斷物體種類的圖像分類（Image Classification）、用於分析圖像中的某一特定場景的場景分類（Scene Classification）

及場景重建（Scenario Reconstruction）、用於查找圖片來源的圖像檢索（Image Retrieval）、用於還原被破壞圖像（如雜訊、模糊）的圖像恢復（Image Restoration）

以及用於創造新資料的圖像生成（ Image Generation ）及影片生成（ Video Generation）等。

目前的電腦視覺相關技術大致可以分為以下幾個步驟：第一，對於特定的任務進行大量資料的採集和標註；第二，利用一些傳統的影像處理技術，對所採集的資料進行雜訊平滑、空間尺度變換、資料擴充等預處理；第三，利用神經網路進行特徵提取（Feature Extraction）；第四，利用提取到的特徵學習解決相應問題的方法。其中所謂特徵，其實是對圖像的一種表達（Representation）或抽象

（Abstraction），如一張在人類眼裡是貓的圖片，在機器看來可能是某一串特定的數字，故可以認為特徵是機器對圖像的描述，乃屬電腦視覺技術之關鍵所在。

近年來，電腦視覺的進步主要源於更佳的圖像特徵提取方式——卷積神經網路（Convolutional Neural Network, CNN）。卷積（Convolution）是一種函數形式，

利用大量的卷積核（Kernel）在圖片上滑動，找到匹配的圖像塊。比如說一個圓形的卷積核，可能會在貓的眼睛部分給出比較高的激勵（Activation），而在耳朵部分給出比較低的啟動。此外，隨著深度的增加，神經網路可以提取出越來越高階的語意資訊，如淺層網路只能學習到哪些部分是圓形或方形，中層可以將圓形進一步細分成眼睛或車輪，高層則可以將擁有兩個圓眼睛和兩隻尖耳朵的圖片認

DOI:10.6814/NCCU201900818

‧

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

定成貓。

除了檢測、分類、檢索等以圖片做為輸入，輸出相關預測之功能外，電腦視覺領域的另一重要功能即為影像生成。影像生成可以理解為上述過程的逆過程，

即從特徵開始逐步還原圖片的過程。相較於分類，生成時需要保證生成的圖片足夠真實，因此更具挑戰性。近年來提出的對抗式學習（Adversarial Learning），借鑒了賽局理論（Game Theory）的思想 ¹¹³，引入兩個神經網路分別用於生成虛假圖片和判斷一張圖片是真實的還是生成的。兩者不斷進行對抗，並已生成圖片與真實圖片無法被區分為目標。而隨著對抗式學習（Adversarial Learning）的提出，

Nvidia 研發出能將小畫家塗鴉轉換為現實風景照的 GauGAN¹¹⁴，加州大學柏克萊分校則提出能夠將真實照片轉變為畢卡索或梵穀等不同畫作風格的

在文檔中專利法關於人工智慧發明重要議題之研究 - 政大學術集成 (頁 32-40)

第二章 人工智慧技術背景介紹

第二節 技術領域

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 技術領域

‧

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

N a tio na

l C h engchi U ni ve rs it y

第二章人工智慧技術背景介紹

第二節技術領域

第二節技術領域