• 沒有找到結果。

基于生成对抗网络的模仿学习综述

N/A
N/A
Protected

Academic year: 2022

Share "基于生成对抗网络的模仿学习综述"

Copied!
26
0
0

加載中.... (立即查看全文)

全文

(1)

第4卷 第2期

年2月 计  算  机  学  报

CHINESEJOURNALOFCOMPUTERS 3N  

稿日期在线出版日期本课题得到国家自然科学基金项目和江苏省自然科学基金面上 林嘉豪,仿章宗长(通信作者 副教授中国计算机学会会员主要研究领域为强化学习智能规划和多智能体系统. 冲,

硕士研究生主要研究方向为模仿学习和强化学习.郝建业,博士副教授中国计算机学会会员主要研究方向为深度强化学习和 多智能体系统.

基于生成对抗网络的模仿学习综述

林嘉豪

  章宗长

   

  郝建业

苏州大学计算机科学与技术学院 江苏苏州 

南京大学计算机软件新技术国家重点实验室 南京 

天津大学智能与计算学部 天津 

华为诺亚方舟实验室 北京 

  模仿学习研究如何从专家的决策数据中进行学习以得到接近专家水准的决策模型.同样学习如何决策 强化学习往往只根据环境的评价式反馈进行学习与之相比模仿学习能从决策数据中获得更为直接的反馈. 可以分为行为克隆基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分 成逆向强化学习和强化学习两个子过程并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数 强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而 其中最早出现且最具代表性的是生成对抗模仿学习方法eAnL简称 生成对抗网络由两个相对抗的神经网络构成分别为判别器和生成器.L的特点是用生成对抗网络框 求解模仿学习问题其中判别器的训练过程可类比奖赏函数的学习过程生成器的训练过程可类比策略的学习 过程.与传统模仿学习方法相比L具有更好的鲁棒性表征能力和计算效率.因此它能够处理复杂的大规模 并可拓展到实际应用中.然而L存在着模态崩塌环境交互样本利用效率低等问题.最近新的研究工作 用生成对抗网络技术和强化学习技术等分别对这些问题进行改进并在观察机制多智能体系统等方面对G 进行了拓展.本文先介绍了GL的主要思想及其优缺点然后对GL的改进算法进行了归类分析和对比最后 总结全文并探讨了可能的未来趋势.

关键词 模仿学习基于生成对抗网络的模仿学习生成对抗模仿学习模态崩塌样本利用效率 中图法分类号   

犃 犛 狌 狉 狏 犲 狔 狅 犳 犐 犿 犻 狋 犪 狋 犻 狅 狀 犔 犲 犪 狉 狀 犻 狀 犵 犅 犪 狊 犲 犱 狅 狀 犌 犲 狀 犲 狉 犪 狋 犻 狏 犲 犃 犱 狏 犲 狉 狊 犪 狉 犻 犪 犾 犖 犲 狋 狊

LINJiaHao ZHANGZongZhang JIANGChong HAOJianYe

 

 

 

 

犃犫狊狋狉犪犮狋 Imitationlearningstudieshowtolearnanexpertlikedecisionmodelfromexpertdecision data.Sameastolearnadecisionmodelreinforcementlearningonlylearnsfromevaluativefeedback givenbyenvironment.Incontrastimitationlearningisabletoacquiremoredirectfeedbackfrom expertdata.Itcanbeclassifiedintotwotypesofapproachesi.e.behavioralcloningimitation learningviainversereinforcementlearning.Theimitationlearningmethodsbasedoninverse reinforcementlearningdecomposetheimitationlearningprocessasarepeatedprocessbetween estimatingarewardfunctionbyinversereinforcementlearningandlearningapolicyuponthe estimatedrewardfunctionbyreinforcementlearningmethods.Theimitationlearningmethods basedongenerativeadversarialnetsweredevelopedfromimitationlearningbasedoninverse

《 计

(2)

reinforcementlearning.AmongthemgenerativeadversarialimitationlearningGAIListhe earliestandthemostrepresentativealgorithm.Itisinspiredfromgenerativeadversarialnets consistingoftwoadversarialneuralnetsi.e.adiscriminatorandagenerator.ThecoreofGAILis tousethestructureofgenerativeadversarialnetstoaddresstheimitationlearningproblem.In GAILthestepoflearningarewardfunctioncanbeconsideredastrainingthediscriminator whilethestepoflearningapolicycanbeviewedastrainingthegenerator.Comparedtothe conventionalimitationlearningmethodsGAILachievesbetterrobustnessrepresentation capabilityandcomputationefficiency.ThereforeGAILisabletohandlecomplicatedlargescale problemsandapplicableinrealistictasks.HoweverGAILsuffersfromtheproblemsofmode collapseandlowsampleefficiencyintermsofenvironmentinteraction.Theproblemofmode collapseisderivedfromGANsanditmayresultinthelackofdiversityinthesamplesgenerated byGAIL.Theproblemoflowsampleefficiencyintermsofenvironmentinteractionisderived fromtheassumptionofstochasticpolicyandthemodelfreepolicylearningstyleinGAIL.

RecentlyanumberofvariantsofGAILhavebeenproposedtoalleviatethesetwoproblems.To alleviatethefirstproblemresearchershaveproposedtoapplyvariantsofGANstoimprove GAILincludingtechnicalimprovementsbasedonthemultiplemodeassumptionthegenerative modeletc.RepresentativemethodsareconditionalGAILGAILwithauxiliaryclassifier informationmaximizingGAILInfoGAILInfoGAILfromburnindemonstrationsvariational autoencoderGAILetc.Toalleviatethesecondproblemresearchershaveproposedtoapply reinforcementlearningtechniquestoimproveGAILincludingtechnicalimprovementsbasedon dynamicmodeldeterministicpolicyBayesianmethodsetc.Representativemethodsaremodel basedGAILGAILwithdeepdeterministicpolicygradientBayesianGAILetc.Inadditionto theaboveGAILvariantsresearchershaveextendedGAILtodifferentobservationmechanisms andmultiagentapplicationsaswell.TheextensionsofGAILinobservationmechanismsinclude thirdpersonimitationlearningGAILwithrecurrentpoliciesgenerativeadversarialimitation fromobservationetc.TheextensionsofGAILinmultiagentsystemsincludemultiagent GAILparametersharingGAILmultiagentadversarialimitationlearningetcandtheyhave beenappliedintorealisticscenariosofautonomousdrivingandvirtualecommerce.Inthis surveywefirstintroduceGAILskeyideasadvantagesanddisadvantageswhicharefollowed byclassifyinganalyzingandcomparingGAILsimprovedalgorithmsandfinallywesummarize theaiticleanddiscussonpossiblefuturetrends.

犓犲狔狑狅狉犱狊 imitationlearningimitationlearningbasedongenerativeadversarialnetsgenerative adversarialimitationlearningmodecollapsesampleefficiency

1    

决策问题是人工智能领域中的一类重要问 题.它是指寻找策略来实现既定目标的问题如棋 类游戏中棋手为获胜而思考如何落子驾驶中 车手为安全快捷地到达终点而规划路径等.长久 以来学者一直在探求如何在决策问题中实现与人 类相当甚至超人的智能决策.近年来强化学习

ReinforcementLearning简称RL方法已经在围 棋Atari电子游戏等决策问题上取得了瞩目的

进步.它的主要思想是使智能体在不断地与环境交 互的过程中通过从环境中获取的奖赏反馈学习得 到能最大化累积奖赏期望的策略.其中奖赏由专家 定义的奖赏函数输出.奖赏函数构建起了智能体与 其目标之间的桥梁.为了使智能体达到理想的目标 奖赏函数必须要设置得恰到好处.然而对于自动驾 驶等复杂的现实问题手工设置合适的奖赏函数往 往代价较高而不太现实

模仿学习方法通过模仿专家演示的样本以 解决决策问题.它不需要从环境中获得奖赏反馈其 反馈信息来自于专家的决策样本.在许多实际问题

2期 林嘉豪等基于生成对抗网络的模仿学习综述

《 计

(3)

相较于设置合适的奖赏函数获取专家样本往往 更容易且代价更小.

模仿学习方法可以分为两类行为克隆方法

BehavioralCloning简称BC和基于逆向强化学 习的模仿学习方法ImitationLearningviaInverse ReinforcementLearning简称IRLIL

BC的主要思想是直接克隆专家样本在各 状态处的单步动作映射即对专家样本进行监督学 习.BC并不考虑当前状态之后的长远影响.在有足 够多专家样本的前提下它具有良好的表现.由于不 考虑长远影响BC会将细微的误差在序贯的决策过 程中逐步放大即产生级联误差问题因而在 很多模仿学习任务中鲁棒性泛化性较差.

IRLIL假设专家策略等价于由未知的真 实奖赏函数推导出的最优策略.从字面上理解逆向 强化学习InverseReinforcementLearning简称 IRL是RL的逆向过程它根据给定的专家样本求 解未知的奖赏函数.基于解得的奖赏函数IRLIL 通过RL方法求解最优策略的方式间接地还原专 家策略.这种模仿专家的方式使IRLIL具备了长远 规划的能力.因此IRLIL能有效解决BC的级联 误差问题并表现出更强的泛化性鲁棒性.然而 IRLIL存在着一些缺陷使其难以求解大规模问题.

其缺陷主要为大多数IRLIL方法的线性奖赏 函数的假设具有很强的局限性在IRLIL迭 代求解中的RL子过程需要消耗大量的计算资源

基于生成对抗网络的模仿学习方法Imitation LearningBasedonGenerativeAdversarialNets

称GANsIL从IRLIL发展而来是一类结合了 生成对抗网络的模仿学习方法.两者的主要区 别是奖赏函数策略的表示模型以及模型的训练 方式.GANsIL用两个神经网络来表示IRLIL中 的奖赏函数和策略并用对抗的方式来优化这两个 网络的参数.原始的生成对抗网络Generative AdversarialNets简称GANs由生成模型又称生 成器和判别模型又称判别器这两个相对抗的网 络模型共同构成.其中生成模型指能够产生符 合期望的样本输出的模型如根据噪声输入产生高 维图片或语音等输出的模型.GANs已在计算 机视觉等领域中开拓了一系列有趣的工作如图像 合成图像超分辨率等.

最早出现且最具代表性的GANsIL方法是 Ho等人于2016年提出的生成对抗模仿学习方法

GenerativeAdversarialImitationLearning简称 GAIL.如果把策略表征为从状态输入到动作输

出的生成模型那么模仿学习根据专家样本学习策 略的过程其实就是生成模型的训练过程.在GAIL 中根据输入状态输出动作的策略可类比为生成器 而根据输入专家样本或生成样本输出奖赏值的奖赏 函数可类比为判别器.从而GAIL将求解奖赏函数 的过程类比作判别器的训练过程将策略的学习过 程类比作生成器的训练过程.

GAIL运用生成对抗网络的框架进行模仿学习 以克服IRLIL的缺陷它能够在大规模的问题中表 现出优异的性能.基于生成对抗网络框架GAIL的 策略和奖赏函数模型可运用神经网络来自动抽取样 本的抽象特征.因此GAIL具有更强的表征能力.

并且GAIL直接将策略作为学习的目标它运用高 效的策略梯度方法训练策略模型.从而GAIL能 避开IRLIL需消耗大量计算资源的内部计算过程 具有更高效的计算能力.已有工作表明GAIL能够 在如自动驾驶仿真及真实机器人操控等复杂 的大规模问题中表现出优异的性能.

然而GAIL仍面临着诸多瓶颈其中模态崩塌 问题ModeCollapse环境交互样本即利用生 成模型与环境交互得到的生成样本简称生成样本 利用效率低问题LowSampleEfficiencyin TermsofEnvironmentInteraction尤为突出.模态

崩塌问题源于GANs它将导致GAIL产生的样本 丧失多样性.生成样本利用效率低问题源于GAIL 的随机性策略StochasticPolicy假设和无模型

Modelfree策略学习方式它将导致GAIL无法适 用于获取样本成本高的实际应用.针对模态崩塌问 题学者提出运用GANs的变体形式对GAIL进行 改进.改进的方法包括基于多模态假设的改进 基于生成模型的改进等.针对生成样本利用效率 低的问题提出运用RL技术等对GAIL进行改进.

改进的方法包括基于动态模型的改进基于确定 性策略的改进基于贝叶斯方法的改进等.

这些GAIL的改进方法均属于基于生成对抗网 络的模仿学习方法GANsIL.其特点是用神 经网络表示策略和奖赏函数直接学习策略模 型并用策略梯度RL方法优化策略模型.本文综述 了主流的基于生成对抗网络的模仿学习方法.

近年来学者们还在观察机制多智能体系 统等方面对GAIL进行了拓展.其中在观察机 制方面的拓展包括基于第三人称的方法基于上 下文的方法基于观察的方法在多智能体 系统方面的拓展包括多智能体生成对抗模仿学习方

计  算  机  学  报

《 计

(4)

其场景包括自动驾驶和虚拟电商等. 本文的框架脉络如图1所示.具体内容组织如 下第2节将梳理GANsIL的预备知识包括强化 学习逆向强化学习和生成对抗网络第3节将介绍 GAIL的主要思想以及存在的两个瓶颈问题模态 崩塌问题和生成样本利用效率低问题第4节将介

绍针对模态崩塌问题的改进方法第5节将介绍针 对生成样本利用效率低问题的改进方法第6节第 7节综述生成对抗模仿学习的拓展包括在不同观 察机制下的拓展第6节以及基于多智能体系统的 拓展第7节第8节展望了GAIL的未来研究方 向并总结全文.

图1 框架结构示意图

2   预备知识

本节将梳理GAIL中涉及到的预备知识包括 强化学习逆向强化学习生成对抗网络等的基本原 理相关定义以及它们存在的不足.

21 强化学习

一般地强化学习RL由智能体Agent环境

Environment等部分组成.RL可以建模为马尔可夫 决策过程MarkovDecisionProcess简称MDP. MDP假设决策过程满足马尔可夫性质即智能体 的决策只取决于当前的状态而不受以往状态或 动作的影响.MDP通常被定义为一个五元组犕=

S S

A A

γ.其中

S S

代表环境中所有状态的集合且狊

S S

表 示智能体在狋时刻所处的状态

A A

为智能体可选择的所有动作的集合且 犪

A A

表示智能体在狋时刻所执行的动作

犘为状态转移函数它表示智能体位于状 态狊处采取动作犪转移到下一状态狊的概率可 以表示为狊~犘

S S

×

A A

!为立即奖赏函数简称奖 赏函数.智能体在状态狊采取动作犪获得的立即奖 赏值可以表示为狉=狉

γ∈表示折扣因子用于调控未来奖

赏对累积奖赏值的作用效果.

RL问题是指智能体在与环境的交互过程中通过 不断试错来求解能够完成既定目标的策略Policy 的问题.策略是指智能体从状态到动作的映射π∈ Π

S S

A A

.策略π一般为随机性策略.给定随机性 策略π智能体在状态狊处所采取的动作可表示为 犪=π在状态狊处采取动作犪的概率可表示为 π|狊

S S

×

A A

一个策略是否符合既定的学习目标或者说策略 的好坏是根据期望累积奖赏值来决定的.本文将 从狋时刻开始且折扣因子为γ的累积奖赏值定义为 犚狋γ=狉+γ狉

=狋γ.定义策略π的

状态值函数犞π

E E

πγ0|狊=狊定义策略π在状 态狊处采取某一动作犪的动作值函数为犙π

πγ0|狊=狊=犪定义策略值ηπ

E E

πγ 定义ρπ为状态狊在智能体与环境交互过程中的 占比即出现的概率

ρπ=狆π狊0=狊+γ狆π狊1=狊+γπ狊2=狊

=0γπ=狊 这里狆π=狊表示第犻时刻状态为狊的概率其 中犻=1…,犝表示终止时刻.定义ρπ为在 给定策略π下状态动作对StateActionPair

出现的概率

2期 林嘉豪等基于生成对抗网络的模仿学习综述

《 计

(5)

ρπ=π犪|狊

0γπ=狊=π犪|狊ρπ 在状态空间和动作空间均连续的情况下策略值 ηπ可进一步展开成

ηπ

ρπ

π

狊~ρπ犪~π 其中

E E

ρπ犪~π·表示服从状态动作折扣概率分布 的期望值.

根据是否直接学习策略RL方法可以分为基 于值函数的方法和基于策略梯度的方法.其中基于 值函数的方法通过动作值函数间接地学习策略它 服从广义的策略迭代不断交替地进行策略评估和 策略改进.策略评估是对动作值函数进行估计的过 程经典方法有蒙特卡罗估计方法和时间差分 法.策略改进为根据动作值函数改进策略的过 程如贪心方法等.然而在无限的连续动作空间中 寻找动作值最大的贪婪动作并不现实.因此值函数 方法难以直接求解动作空间连续的问题.

基于策略梯度的方法直接将策略作为学习的 对象它更为简单且计算代价更小因而在实际中的 应用范围更广.它首先将策略参数化即π≈πθ如运 用线性函数或神经网络等非线性函数近似表示策 略接着将参数朝着最大化累积奖赏值的梯度方向 进行更新.Schulman等人在2015年提出了基于置信 域的策略优化方法TrustRegionPolicyOptimi zation简称TRPO该方法能够保证策略有效地

更新优化.在此基础上Schulman等人提出一种不 仅能使策略有效更新并且计算代价更小更易实现 的方法即近端策略优化方法ProximalPolicy Optimization简称PPO.然而策略梯度方法存在着 高方差的通病.Schulman等人进一步提出了广义优势 估计算法GeneralizedAdvantageEstimation简 称GAE该算法能有效缓解算法的高方差问题. 22 基于逆向强化学习的模仿学习

IRL问题一般假设能够获得专家样本并假设 专家样本由未知的真实奖赏函数对应的最优策略获 得.它是指根据专家样本求解未知的真实奖赏函数 的问题.通过求解IRL问题得到的奖赏函数能理 解专家样本数据背后的决策动机或偏好.模仿学习 通常将能产生专家样本的专家策略定义为π.根据 专家策略π演示得到的轨迹样本集合

T T

可表示为

ττ…,τ|π

其中τ表示第犻条轨迹样本.每条轨迹τ可以进一 步拆分成序贯的有限组状态动作对

τ…,狊犝犪犝|π

其中犝代表轨迹的长度.模仿学习通常将状态动 作对样本作为训练的数据单元.

IRL方法由Ng等人在2000年提出.IRL方 法根据专家样本由未知的真实奖赏函数对应的最优 策略产生的假设将专家策略等价为由真实奖赏函 数得到的最优策略.因此真实奖赏函数狉满足不 等式

E E

π

E E

π.通过把该不等 式求解的问题转换为优化问题奖赏函数的求解过 程可表示为

IRLπargminmπax

E E

π

E E

π

通过求解上述优化问题得到奖赏函数狉

IRLπ犈.IRL解得的奖赏函数不仅可以用于表征 专家决策的动机还能用于求解其最优策略从而还 原专家策略.这种模仿学习被称为基于逆向强化学 习的模仿学习简称IRLIL

在IRLIL中基于奖赏函数狉

最优策略可以 通过RL方法求得.该过程可表示为

RL

argπmax

E E

π

如果奖赏函数狉

力来表征真实奖赏函π

通常能够向专家策略靠近.综上IRL IL的学习过程可以表示如下

RL⊙IRLπmaπxmi

E E

π

E E

π

IRLIL的学习过程可以总结为以下4个步 骤IRL根据专家策略等价于真实奖赏函数对 应的最优策略的假设求解奖赏函数狉

可理解为是 区分策略π

π的超平面基于当前奖赏函数 狉

通过强化学习方法求解最优策略π

不断地迭 代步骤奖赏函数狉

将更符合真实奖赏函数 狉并引导π

π最终求解得到的狉

将无 限接近真实奖赏函数并且π

将收敛到专家策略.

IRLIL的特点是先根据专家样本求解奖赏函 数再基于奖赏函数还原专家策略.相比BCIRLIL 的鲁棒性和泛化性更强.这是因为通过运用强化学 习方法IRLIL能够基于奖赏函数考虑策略的长远 影响而不局限于单步的即时反馈.

不适定问题是IRL的一大挑战它是指式 存在多个奖赏函数解而无唯一解.为了缓解该问题 Ng等人提出了启发式方法来增强IRL的不等式约

从而缩小了奖赏函数的求解范围.Ziebart等 人于2008年提出了基于最大熵原理的IRLIL算 法.该算法假设真实奖赏函数的最优策略具有最 大的熵从而缓解了不适定问题.最大熵IRLIL算

计  算  机  学  报

《 计

(6)

法可以表示为

maπxmi

E E

π

E E

π+λπ 其中策略的熵表示为犎π它在目标函数中 作为额外的惩罚项λ是控制策略熵在算法中影响 大小的调节系数.

除了不适定问题由于奖赏函数的表征能力 有限以及求解最优策略的子过程计算较复杂等原 因IRLIL难以运用于大规模的实际问题.大多数 IRLIL方法假设奖赏函数是线性的线性奖赏函数 具有很强的局限性它难以拟合复杂问题中的真实 奖赏函数.有学者提出基于如高斯过程等非线性奖 赏函数的IRLIL该算法提升了原始IRLIL中 奖赏函数的表征能力.然而IRLIL由RL子过程 导致的计算瓶颈仍没有得到解决.RL子过程是指 根据当前奖赏函数通过RL方法求解最优策略的 过程.其计算量较大并随着迭代次数递增而不断累 积.因此将传统的IRLIL用来解决大规模的实际 模仿学习问题并不现实.

23 生成对抗网络

生成对抗网络是Goodfellow等人于2014年 提出的一种深度生成模型它在深度学习领域中颇 受关注.深度学习是机器学习的一种实现方法它利 用多层神经网络对数据进行特征学习.相较于传统 机器学习深度学习具有良好的表征能力它能够自 动获取抽象的特征.深度分类模型利用训 练样本及其标签数据进行监督学习能对复杂样本 给出准确的分类值.它具有很好的感知能力能通过 多层网络结构与非线性变换组合低层特征形成抽 象的易于区分的高层特征以划分样本的类别.

深度生成模型可以理解为深度分类模型的

逆向过程它将噪声输入的抽象高层特征还原为 低层特征从而产生高维度的生成样本来拟合训练 样本.原始的GANs在生成模型的训练中引入了一 个二分类模型其功能为判断输入样本是否属于专 家样本.当然一些GANs的变体形式在生成模型 的基础上引入其他模型而不是分类模型.原始 的GANs并不通过极大似然估计等方法来直接 地训练生成模型而是由额外的分类模型来引导生 成模型的训练过程.因此它能够避开极大似然估计 方法中计算后验概率的复杂过程从而在高维数据 分布的学习上有显著优势.其中生成模型可称为生 成器Generator简称犌分类模型可称为判别器

Discriminator简称犇.生成器和判别器二者形成 博弈该博弈目标函数犔可以表示如下

minmax犔

 

E E

log犇

E E

log1-犇]( 其中狓表示真实样本训练样本狕表示噪声输 入表示生成器产生的生成样本·表示判 别器判别样本来自于真实样本分布的概率.

GANs的训练框架可以直观地用图2进行表 示.在这个训练框架中生成器犌根据噪声输入狕 产生样本犌.判别器犇的输入为真实样本狓或 生成器产生的样本犌输出为判别样本为真实样 本的概率犇·

图2 训练框架示意图

在GANs中犌和犇二者的博弈是一个相互对 抗的训练过程.该过程可分为4个步骤训练 犇使犇对样本的来源来自真实样本分布或来自生 成器做出准确判别犇的训练目标为最大化博弈目 标函数犔训练犌使犌产生逼真的样 本来欺骗犇从而使犇的判别失准其训练目标为 最小化二者博弈的目标函数犔通过 重复步骤犌在犇的引导下产生样本拟合 真实样本分布而犇则寻找生成样本和真实样本的 差异来不断提高判别准确度最终犌产生的样 本可以完美地拟合真实样本分布而犇无法正确判 别生成样本和真实样本二者的博弈将达到纳什均 衡.此时犌产生的样本能够以假乱真其被犇判别 为真实样本的概率将趋近于0.5.

以上本文从博弈论的观点出发阐述了GANs 的基本思想.实际上从信息论的角度出发通过 转换目标函数GANs可理解为最小化生成样本分 布与真实样本分布之间的JensenShannon散度 KullbackLeibler散度等的学习过程.然而这两个

散度的数学性质并不良好.JensenShannon散度在 分布不重叠时的梯度为0而KullbackLeibler散度 不具有对称性这分别导致了GANs的梯度消失和 模态崩塌问题.

近年来出现了大量GANs的变种.它们在不同 程度上缓解了GANs的模态崩塌和梯度消失问题. Arjovsky等人提出了WassersteinGANs简称

WGANs该方法利用数学性质更优的Wasserstein 散度作为度量样本分布之间散度的标准.Wasserstein

2期 林嘉豪等基于生成对抗网络的模仿学习综述

《 计

參考文獻

相關文件

簡報裡展現一枚以拉斐爾的名畫一角做成的郵 票。 請搜尋這幅畫的全貌,並模仿美術館導覽

學習範疇 主要學習成果 級別 級別描述 學習成果. 根據學生的認知發展、學習模式及科本

級別描述及學習成果 - S1至S9級別 學習範圍:自我與個人成長 (P) 級別 S1S2S3S4 S5S6S7S8S9 級別 描述學生認出自己和熟悉群 體,回應日 常需要. 學生了解自

學習範疇 主要學習成果 級別 級別描述 學習成果. 根據學生的認知發展、學習模式及科本

对于电磁现象,尽管我们仍然还是从力学的角度来理解各种各样的物理对象以及物理过程,但最关键

MASS::lda(Y~.,data) Linear discriminant analysis MASS::qda(Y~.,data) Quadratic Discriminant Analysis class::knn(X,X,Y,k,prob) k-Nearest Neighbour(X 為變數資料;Y 為分類)

These family business owners have to face the following problem: Keep up with today's technology development from the original business equipments, whether to expand the scale of

覺察與模仿 身-1-1 模仿身體操控活動 身-1-2 模仿操作各種器材的動作 協調與控制 身-2-1