书 书 书
第43卷 第2期
2020年2月 计 算 机 学 报
CHINESEJOURNALOFCOMPUTERS Vol.4F3Neb.2o0.220
收稿日期:20181224;在线出版日期:20190816.本课题得到国家自然科学基金项目(61876119,61502323)和江苏省自然科学基金面上 项目(BK20181432)资助.林嘉豪,硕士研究生,主要研究方向为模仿学习、强化学习.Email:wzljh3148@outlook.com.章宗长(通信作者), 博士,副教授,中国计算机学会(CCF)会员,主要研究领域为强化学习、智能规划和多智能体系统.Email:zzzhang@nju.edu.cn.姜 冲,
硕士研究生,主要研究方向为模仿学习和强化学习.郝建业,博士,副教授,中国计算机学会(CCF)会员,主要研究方向为深度强化学习和 多智能体系统.
基于生成对抗网络的模仿学习综述
林嘉豪
1)(1)章宗长
2)姜 冲
1)郝建业
3),4)苏州大学计算机科学与技术学院 江苏苏州 215006)
2)(南京大学计算机软件新技术国家重点实验室 南京 210023)
3)(天津大学智能与计算学部 天津 300050)
4)(华为诺亚方舟实验室 北京 100085)
摘 要 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策 的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它 可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分 解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而 强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而 来,其中最早出现且最具代表性的是生成对抗模仿学习方法(GenerativeAdversarialImitationLearning,简称 GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框 架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习 过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模 问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作 利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL 进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后 总结全文并探讨了可能的未来趋势.
关键词 模仿学习;基于生成对抗网络的模仿学习;生成对抗模仿学习;模态崩塌;样本利用效率 中图法分类号TP18 犇犗犐号10.11897/SP.J.1016.2020.00326
犃 犛 狌 狉 狏 犲 狔 狅 犳 犐 犿 犻 狋 犪 狋 犻 狅 狀 犔 犲 犪 狉 狀 犻 狀 犵 犅 犪 狊 犲 犱 狅 狀 犌 犲 狀 犲 狉 犪 狋 犻 狏 犲 犃 犱 狏 犲 狉 狊 犪 狉 犻 犪 犾 犖 犲 狋 狊
LINJiaHao1) ZHANGZongZhang2) JIANGChong1) HAOJianYe3),4)
1)(犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔,犛狅狅犮犺狅狑犝狀犻狏犲狉狊犻狋狔,犛狌狕犺狅狌,犑犻犪狀犵狊狌 215006)
2)(犖犪狋犻狅狀犪犾犓犲狔犔犪犫狅狉犪狋狅狉狔犳狅狉犖狅狏犲犾犛狅犳狋狑犪狉犲犜犲犮犺狀狅犾狅犵狔,犖犪狀犼犻狀犵犝狀犻狏犲狉狊犻狋狔,犖犪狀犼犻狀犵 210023)
3)(犆狅犾犾犲犵犲狅犳犐狀狋犲犾犾犻犵犲狀犮犲犪狀犱犆狅犿狆狌狋犻狀犵,犜犻犪狀犼犻狀犝狀犻狏犲狉狊犻狋狔,犜犻犪狀犼犻狀 300050)
4)(犖狅犪犺’狊犃狉犽犔犪犫狅狉犪狋狅狉狔,犎狌犪狑犲犻,犅犲犻犼犻狀犵 100085)
犃犫狊狋狉犪犮狋 Imitationlearningstudieshowtolearnanexpertlikedecisionmodelfromexpertdecision data.Sameastolearnadecisionmodel,reinforcementlearningonlylearnsfromevaluativefeedback givenbyenvironment.Incontrast,imitationlearningisabletoacquiremoredirectfeedbackfrom expertdata.Itcanbeclassifiedintotwotypesofapproaches,i.e.,behavioralcloning,imitation learningviainversereinforcementlearning.Theimitationlearningmethodsbasedoninverse reinforcementlearningdecomposetheimitationlearningprocessasarepeatedprocessbetween estimatingarewardfunctionbyinversereinforcementlearningandlearningapolicyuponthe estimatedrewardfunctionbyreinforcementlearningmethods.Theimitationlearningmethods basedongenerativeadversarialnetsweredevelopedfromimitationlearningbasedoninverse
《 计
算
机
学
报
》
reinforcementlearning.Amongthem,generativeadversarialimitationlearning(GAIL)isthe earliestandthemostrepresentativealgorithm.Itisinspiredfromgenerativeadversarialnets consistingoftwoadversarialneuralnets,i.e.,adiscriminatorandagenerator.ThecoreofGAILis tousethestructureofgenerativeadversarialnetstoaddresstheimitationlearningproblem.In GAIL,thestepoflearningarewardfunctioncanbeconsideredastrainingthediscriminator, whilethestepoflearningapolicycanbeviewedastrainingthegenerator.Comparedtothe conventionalimitationlearningmethods,GAILachievesbetterrobustness,representation capabilityandcomputationefficiency.Therefore,GAILisabletohandlecomplicated,largescale problemsandapplicableinrealistictasks.However,GAILsuffersfromtheproblemsofmode collapseandlowsampleefficiencyintermsofenvironmentinteraction.Theproblemofmode collapseisderivedfromGANs,anditmayresultinthelackofdiversityinthesamplesgenerated byGAIL.Theproblemoflowsampleefficiencyintermsofenvironmentinteractionisderived fromtheassumptionofstochasticpolicyandthemodelfreepolicylearningstyleinGAIL.
Recently,anumberofvariantsofGAILhavebeenproposedtoalleviatethesetwoproblems.To alleviatethefirstproblem,researchershaveproposedtoapplyvariantsofGANstoimprove GAIL,includingtechnicalimprovementsbasedonthemultiplemodeassumption,thegenerative model,etc.RepresentativemethodsareconditionalGAIL,GAILwithauxiliaryclassifier, informationmaximizingGAIL(InfoGAIL),InfoGAILfromburnindemonstrations,variational autoencoderGAIL,etc.Toalleviatethesecondproblem,researchershaveproposedtoapply reinforcementlearningtechniquestoimproveGAIL,includingtechnicalimprovementsbasedon dynamicmodel,deterministicpolicy,Bayesianmethods,etc.Representativemethodsaremodel basedGAIL,GAILwithdeepdeterministicpolicygradient,BayesianGAIL,etc.Inadditionto theaboveGAILvariants,researchershaveextendedGAILtodifferentobservationmechanisms andmultiagentapplicationsaswell.TheextensionsofGAILinobservationmechanismsinclude thirdpersonimitationlearning,GAILwithrecurrentpolicies,generativeadversarialimitation fromobservation,etc.TheextensionsofGAILinmultiagentsystemsincludemultiagent GAIL,parametersharingGAIL,multiagentadversarialimitationlearning,etc,andtheyhave beenappliedintorealisticscenariosofautonomousdrivingandvirtualecommerce.Inthis survey,wefirstintroduceGAIL’skeyideas,advantagesanddisadvantages,whicharefollowed byclassifying,analyzingandcomparingGAIL’simprovedalgorithms,andfinallywesummarize theaiticleanddiscussonpossiblefuturetrends.
犓犲狔狑狅狉犱狊 imitationlearning;imitationlearningbasedongenerativeadversarialnets;generative adversarialimitationlearning;modecollapse;sampleefficiency
1 引 言
决策问题是人工智能领域中的一类重要问 题.它是指寻找策略来实现既定目标的问题,如棋 类游戏中棋手为获胜而思考如何落子[1],驾驶中 车手为安全快捷地到达终点而规划路径[2]等.长久 以来,学者一直在探求如何在决策问题中实现与人 类相当甚至超人的智能决策.近年来,强化学习[36]
(ReinforcementLearning,简称RL)方法已经在围 棋[7]、Atari电子游戏[8]等决策问题上取得了瞩目的
进步.它的主要思想是使智能体在不断地与环境交 互的过程中,通过从环境中获取的奖赏反馈,学习得 到能最大化累积奖赏期望的策略.其中,奖赏由专家 定义的奖赏函数输出.奖赏函数构建起了智能体与 其目标之间的桥梁.为了使智能体达到理想的目标, 奖赏函数必须要设置得恰到好处.然而对于自动驾 驶等复杂的现实问题,手工设置合适的奖赏函数往 往代价较高而不太现实[2].
模仿学习方法[910]通过模仿专家演示的样本以 解决决策问题.它不需要从环境中获得奖赏反馈,其 反馈信息来自于专家的决策样本.在许多实际问题
7 2 3 2期 林嘉豪等:基于生成对抗网络的模仿学习综述
《 计
算
机
学
报
》
中,相较于设置合适的奖赏函数,获取专家样本往往 更容易且代价更小.
模仿学习方法可以分为两类:行为克隆方法
(BehavioralCloning,简称BC)和基于逆向强化学 习的模仿学习方法(ImitationLearningviaInverse ReinforcementLearning,简称IRLIL).
BC[1112]的主要思想是直接克隆专家样本在各 状态处的单步动作映射,即对专家样本进行监督学 习.BC并不考虑当前状态之后的长远影响.在有足 够多专家样本的前提下,它具有良好的表现.由于不 考虑长远影响,BC会将细微的误差在序贯的决策过 程中逐步放大,即产生级联误差问题[2,1314],因而在 很多模仿学习任务中,鲁棒性、泛化性较差.
IRLIL[1516]假设专家策略等价于由未知的真 实奖赏函数推导出的最优策略.从字面上理解,逆向 强化学习[17](InverseReinforcementLearning,简称 IRL)是RL的逆向过程,它根据给定的专家样本求 解未知的奖赏函数.基于解得的奖赏函数,IRLIL 通过RL方法求解最优策略的方式,间接地还原专 家策略.这种模仿专家的方式使IRLIL具备了长远 规划的能力.因此,IRLIL能有效解决BC的级联 误差问题并表现出更强的泛化性、鲁棒性.然而, IRLIL存在着一些缺陷使其难以求解大规模问题.
其缺陷主要为:(1)大多数IRLIL方法的线性奖赏 函数的假设具有很强的局限性[18];(2)在IRLIL迭 代求解中的RL子过程需要消耗大量的计算资源[19].
基于生成对抗网络的模仿学习方法(Imitation LearningBasedonGenerativeAdversarialNets,简
称GANsIL)从IRLIL发展而来,是一类结合了 生成对抗网络的模仿学习方法[20].两者的主要区 别是奖赏函数、策略的表示模型以及模型的训练 方式.GANsIL用两个神经网络来表示IRLIL中 的奖赏函数和策略,并用对抗的方式来优化这两个 网络的参数.原始的生成对抗网络[2122](Generative AdversarialNets,简称GANs)由生成模型(又称生 成器)和判别模型(又称判别器)这两个相对抗的网 络模型共同构成.其中,生成模型[23]指能够产生符 合期望的样本输出的模型,如根据噪声输入产生高 维图片[24]或语音[25]等输出的模型.GANs已在计算 机视觉等领域中开拓了一系列有趣的工作,如图像 合成[26]、图像超分辨率[27]等.
最早出现且最具代表性的GANsIL方法是 Ho等人于2016年提出的生成对抗模仿学习方法
(GenerativeAdversarialImitationLearning,简称 GAIL)[20].如果把策略表征为从状态输入到动作输
出的生成模型,那么模仿学习根据专家样本学习策 略的过程其实就是生成模型的训练过程.在GAIL 中,根据输入状态输出动作的策略可类比为生成器, 而根据输入专家样本或生成样本输出奖赏值的奖赏 函数可类比为判别器.从而,GAIL将求解奖赏函数 的过程类比作判别器的训练过程,将策略的学习过 程类比作生成器的训练过程.
GAIL运用生成对抗网络的框架进行模仿学习 以克服IRLIL的缺陷,它能够在大规模的问题中表 现出优异的性能.基于生成对抗网络框架,GAIL的 策略和奖赏函数模型可运用神经网络来自动抽取样 本的抽象特征.因此,GAIL具有更强的表征能力.
并且,GAIL直接将策略作为学习的目标,它运用高 效的策略梯度方法训练策略模型.从而,GAIL能 避开IRLIL需消耗大量计算资源的内部计算过程, 具有更高效的计算能力.已有工作表明,GAIL能够 在如自动驾驶[28]、仿真及真实机器人操控[29]等复杂 的大规模问题中表现出优异的性能.
然而,GAIL仍面临着诸多瓶颈,其中模态崩塌 问题[30](ModeCollapse)、环境交互样本(即利用生 成模型与环境交互得到的生成样本,简称生成样本) 利用效率低问题[3132](LowSampleEfficiencyin TermsofEnvironmentInteraction)尤为突出.模态
崩塌问题源于GANs,它将导致GAIL产生的样本 丧失多样性.生成样本利用效率低问题源于GAIL 的随机性策略(StochasticPolicy)假设和无模型
(Modelfree)策略学习方式,它将导致GAIL无法适 用于获取样本成本高的实际应用.针对模态崩塌问 题,学者提出运用GANs的变体形式对GAIL进行 改进.改进的方法包括基于多模态假设的改进[3335]、 基于生成模型的改进[36]等.针对生成样本利用效率 低的问题,提出运用RL技术等对GAIL进行改进.
改进的方法包括基于动态模型的改进[37]、基于确定 性策略的改进[32]、基于贝叶斯方法的改进[38]等.
这些GAIL的改进方法均属于基于生成对抗网 络的模仿学习方法(GANsIL).其特点是:(1)用神 经网络表示策略和奖赏函数;(2)直接学习策略模 型,并用策略梯度RL方法优化策略模型.本文综述 了主流的基于生成对抗网络的模仿学习方法.
近年来,学者们还在观察机制[39]、多智能体系 统[40]等方面对GAIL进行了拓展.其中,在观察机 制方面的拓展包括基于第三人称的方法[41]、基于上 下文的方法[28]、基于观察的方法[42]等;在多智能体 系统方面的拓展包括多智能体生成对抗模仿学习方
8 2
3 计 算 机 学 报 2020年
《 计
算
机
学
报
》
法,其场景包括自动驾驶[43]和虚拟电商[44]等. 本文的框架脉络如图1所示.具体内容组织如 下:第2节将梳理GANsIL的预备知识,包括强化 学习、逆向强化学习和生成对抗网络;第3节将介绍 GAIL的主要思想以及存在的两个瓶颈问题:模态 崩塌问题和生成样本利用效率低问题;第4节将介
绍针对模态崩塌问题的改进方法;第5节将介绍针 对生成样本利用效率低问题的改进方法;第6节、第 7节综述生成对抗模仿学习的拓展,包括在不同观 察机制下的拓展(第6节)以及基于多智能体系统的 拓展(第7节);第8节展望了GAIL的未来研究方 向并总结全文.
图1 框架结构示意图
2 预备知识
本节将梳理GAIL中涉及到的预备知识,包括 强化学习、逆向强化学习、生成对抗网络等的基本原 理、相关定义以及它们存在的不足.
21 强化学习
一般地,强化学习(RL)由智能体(Agent)、环境
(Environment)等部分组成.RL可以建模为马尔可夫 决策过程[45](MarkovDecisionProcess,简称MDP). MDP假设决策过程满足马尔可夫性质,即智能体 的决策只取决于当前的状态,而不受以往状态或 动作的影响.MDP通常被定义为一个五元组犕=
(
S S
,A A
,犘,狉,γ).其中:(1)
S S
代表环境中所有状态的集合,且狊狋∈S S
表 示智能体在狋时刻所处的状态;(2)
A A
为智能体可选择的所有动作的集合,且 犪狋∈A A
表示智能体在狋时刻所执行的动作;(3)犘为状态转移函数,它表示智能体位于状 态狊狋处采取动作犪狋转移到下一状态狊狋+1的概率,可 以表示为狊狋+1~犘(狊狋,犪狋);
(4)狉(狊,犪):
S S
×A A
→!为立即奖赏函数,简称奖 赏函数.智能体在状态狊狋采取动作犪狋获得的立即奖 赏值可以表示为狉狋=狉(狊狋,犪狋);(5)γ∈(0,1)表示折扣因子,用于调控未来奖
赏对累积奖赏值的作用效果.
RL问题是指智能体在与环境的交互过程中通过 不断试错来求解能够完成既定目标的策略(Policy) 的问题.策略是指智能体从状态到动作的映射π∈ Π:
S S
→A A
.策略π一般为随机性策略.给定随机性 策略π,智能体在状态狊狋处所采取的动作可表示为 犪狋=π(狊狋),在状态狊狋处采取动作犪狋的概率可表示为 π(犪狋|狊狋):S S
×A A
→[0,1].一个策略是否符合既定的学习目标或者说策略 的“好坏”,是根据期望累积奖赏值来决定的.本文将 从狋时刻开始且折扣因子为γ的累积奖赏值定义为: 犚狋γ=狉狋+γ狉狋+1+…=
∑
犻∞=狋γ犻-狋狉(狊犻,犪犻).定义策略π的状态值函数犞π(狊)=
E E
π[犚γ0|狊0=狊],定义策略π在状 态狊处采取某一动作犪的动作值函数为犙π(狊,犪)=E
E
π[犚γ0|狊0=狊,犪0=犪],定义策略值η(π)=E E
π[犚γ0], 定义ρπ(狊)为状态狊在智能体与环境交互过程中的 占比,即出现的概率:ρπ(狊)=狆π(狊0=狊)+γ狆π(狊1=狊)+γ2狆π(狊2=狊)+…
=
∑
狋∞=0γ狋狆π(狊狋=狊) (1) 这里,狆π(狊犻=狊)表示第犻时刻状态为狊的概率,其 中,犻=1,…,犝,犝表示终止时刻.定义ρπ(狊,犪)为在 给定策略π下,状态动作对(StateActionPair)(狊,犪)出现的概率:
9 2 3 2期 林嘉豪等:基于生成对抗网络的模仿学习综述
《 计
算
机
学
报
》
ρπ(狊,犪)=π(犪|狊)狋
∑
=∞0γ狋狆π(狊狋=狊)=π(犪|狊)ρπ(狊)(2) 在状态空间和动作空间均连续的情况下,策略值 η(π)可进一步展开成:η(π)==
∫ E E
狊ρπ(狊∫
)犪π(犪|狊)狉(狊,犪)d犪d狊狊~ρπ,犪~π[狉(狊,犪)] (3) 其中,
E E
狊~ρπ,犪~π[·]表示服从状态动作折扣概率分布 的期望值.根据是否直接学习策略,RL方法可以分为基 于值函数的方法和基于策略梯度的方法.其中基于 值函数的方法通过动作值函数间接地学习策略,它 服从广义的策略迭代:不断交替地进行策略评估和 策略改进.策略评估是对动作值函数进行估计的过 程,经典方法有蒙特卡罗估计方法[46]和时间差分 法[47].策略改进为根据动作值函数改进策略的过 程,如贪心方法等.然而,在无限的连续动作空间中 寻找动作值最大的贪婪动作并不现实.因此,值函数 方法难以直接求解动作空间连续的问题.
基于策略梯度的方法[48]直接将策略作为学习的 对象,它更为简单且计算代价更小,因而在实际中的 应用范围更广.它首先将策略参数化,即π≈πθ,如运 用线性函数或神经网络等非线性函数近似表示策 略,接着将参数朝着最大化累积奖赏值的梯度方向 进行更新.Schulman等人在2015年提出了基于置信 域的策略优化方法[49](TrustRegionPolicyOptimi zation,简称TRPO),该方法能够保证策略有效地
更新优化.在此基础上,Schulman等人提出一种不 仅能使策略有效更新并且计算代价更小、更易实现 的方法,即近端策略优化方法[50](ProximalPolicy Optimization,简称PPO).然而,策略梯度方法存在着 高方差的通病.Schulman等人进一步提出了广义优势 估计算法[51](GeneralizedAdvantageEstimation,简 称GAE),该算法能有效缓解算法的高方差问题. 22 基于逆向强化学习的模仿学习
IRL问题一般假设能够获得专家样本,并假设 专家样本由未知的真实奖赏函数对应的最优策略获 得.它是指根据专家样本求解未知的真实奖赏函数 的问题[17].通过求解IRL问题得到的奖赏函数能理 解专家样本数据背后的决策动机或偏好.模仿学习 通常将能产生专家样本的专家策略定义为π犈.根据 专家策略π犈演示得到的轨迹样本集合
T T
犈可表示为T
T
犈={τ1,τ2,…,τ犻,…|π犈},其中,τ犻表示第犻条轨迹样本.每条轨迹τ犻可以进一 步拆分成序贯的有限组状态动作对(狊,犪):
τ犻={狊0,犪0,狊1,犪1,…,狊犝,犪犝|π犈},
其中,犝代表轨迹的长度.模仿学习通常将状态动 作对样本(狊,犪)作为训练的数据单元.
IRL方法由Ng等人[17]在2000年提出.IRL方 法根据专家样本由未知的真实奖赏函数对应的最优 策略产生的假设,将专家策略等价为由真实奖赏函 数得到的最优策略.因此,真实奖赏函数狉满足不 等式
E E
π犈[狉(狊,犪)]E E
π[狉(狊,犪)].通过把该不等 式求解的问题转换为优化问题,奖赏函数的求解过 程可表示为IRL(π犈):arg狉minmπax
E E
π[狉(狊,犪)]-E E
π犈[狉(狊,犪)](4) 通过求解上述优化问题,得到奖赏函数狉
^
∈ IRL(π犈).IRL解得的奖赏函数不仅可以用于表征 专家决策的动机,还能用于求解其最优策略,从而还 原专家策略.这种模仿学习被称为基于逆向强化学 习的模仿学习(简称IRLIL).在IRLIL中,基于奖赏函数狉
^
,最优策略可以 通过RL方法求得.该过程可表示为RL(狉
^
):argπmaxE E
π[狉^
(狊,犪)] (5) 如果奖赏函数狉^
有足够能力来表征真实奖赏函 数,π^
∈RL(狉^
)通常能够向专家策略靠近.综上,IRL IL的学习过程可以表示如下:RL⊙IRL(π犈):maπxmi狉n
E E
π[狉(狊,犪)]-E E
π犈[狉(狊,犪)](6) IRLIL的学习过程[52]可以总结为以下4个步 骤:(1)IRL根据专家策略等价于真实奖赏函数对 应的最优策略的假设求解奖赏函数狉
^
,狉^
可理解为是 区分策略π^
和π犈的超平面;(2)基于当前奖赏函数 狉^
,通过强化学习方法求解最优策略π^
;(3)不断地迭 代步骤(1)、(2),奖赏函数狉^
将更符合真实奖赏函数 狉,并引导π^
向π犈靠近;(4)最终求解得到的狉^
将无 限接近真实奖赏函数,并且π^
将收敛到专家策略.IRLIL的特点是先根据专家样本求解奖赏函 数,再基于奖赏函数还原专家策略.相比BC,IRLIL 的鲁棒性和泛化性更强.这是因为,通过运用强化学 习方法,IRLIL能够基于奖赏函数考虑策略的长远 影响而不局限于单步的即时反馈.
不适定问题是IRL的一大挑战,它是指式(4) 存在多个奖赏函数解而无唯一解.为了缓解该问题, Ng等人提出了启发式方法来增强IRL的不等式约
束[17],从而缩小了奖赏函数的求解范围.Ziebart等 人于2008年提出了基于最大熵原理的IRLIL算 法[53].该算法假设真实奖赏函数的最优策略具有最 大的熵,从而缓解了不适定问题.最大熵IRLIL算
0 3
3 计 算 机 学 报 2020年
《 计
算
机
学
报
》
法可以表示为
maπxmi狉n
E E
π[狉(狊,犪)]-E E
π犈[狉(狊,犪)]+λ犎犎(π)(7) 其中,策略的熵表示为犎(π),它在目标函数(7)中 作为额外的惩罚项,λ犎是控制策略熵在算法中影响 大小的调节系数.除了不适定问题,由于奖赏函数的表征能力 有限以及求解最优策略的子过程计算较复杂等原 因,IRLIL难以运用于大规模的实际问题.大多数 IRLIL方法假设奖赏函数是线性的,线性奖赏函数 具有很强的局限性,它难以拟合复杂问题中的真实 奖赏函数.有学者提出基于如高斯过程等非线性奖 赏函数的IRLIL[18],该算法提升了原始IRLIL中 奖赏函数的表征能力.然而,IRLIL由RL子过程 导致的计算瓶颈仍没有得到解决.RL子过程是指 根据当前奖赏函数,通过RL方法求解最优策略的 过程.其计算量较大,并随着迭代次数递增而不断累 积.因此,将传统的IRLIL用来解决大规模的实际 模仿学习问题并不现实.
23 生成对抗网络
生成对抗网络[21]是Goodfellow等人于2014年 提出的一种深度生成模型,它在深度学习领域中颇 受关注.深度学习是机器学习的一种实现方法,它利 用多层神经网络对数据进行特征学习.相较于传统 机器学习,深度学习具有良好的表征能力,它能够自 动获取抽象的特征[5455].深度分类模型[5657]利用训 练样本及其标签数据进行监督学习,能对复杂样本 给出准确的分类值.它具有很好的感知能力,能通过 多层网络结构与非线性变换,组合低层特征,形成抽 象的、易于区分的高层特征,以划分样本的类别.
深度生成模型可以理解为深度分类模型的
“逆向过程”,它将噪声输入的抽象高层特征还原为 低层特征,从而产生高维度的生成样本来拟合训练 样本.原始的GANs在生成模型的训练中引入了一 个二分类模型,其功能为判断输入样本是否属于专 家样本.当然,一些GANs的变体形式在生成模型 的基础上引入其他模型,而不是分类模型[58].原始 的GANs并不通过极大似然估计等方法[59]来直接 地训练生成模型,而是由额外的分类模型来引导生 成模型的训练过程.因此,它能够避开极大似然估计 方法中计算后验概率的复杂过程,从而在高维数据 分布的学习上有显著优势.其中,生成模型可称为生 成器(Generator,简称犌),分类模型可称为判别器
(Discriminator,简称犇).生成器和判别器二者形成 博弈,该博弈目标函数犔GANs(犇,犌)可以表示如下:
mi犌nma犇x犔GANs(犇,犌)=
E E
狓[log犇(狓)]+E E
狕[log(1-犇(犌(狕)))](8) 其中,狓表示真实样本(训练样本),狕表示噪声输 入,犌(狕)表示生成器产生的生成样本,犇(·)表示判 别器判别样本来自于真实样本分布的概率.GANs的训练框架可以直观地用图2进行表 示.在这个训练框架中,生成器犌根据噪声输入狕 产生样本犌(狕).判别器犇的输入为真实样本狓或 生成器产生的样本犌(狕),输出为判别样本为真实样 本的概率犇(·)∈(0,1).
图2 GANs训练框架示意图
在GANs中,犌和犇二者的博弈是一个相互对 抗的训练过程.该过程可分为4个步骤:(1)训练 犇,使犇对样本的来源(来自真实样本分布或来自生 成器)做出准确判别,犇的训练目标为最大化博弈目 标函数犔GANs(犇,犌);(2)训练犌,使犌产生逼真的样 本来欺骗犇,从而使犇的判别失准,其训练目标为 最小化二者博弈的目标函数犔GANs(犇,犌);(3)通过 重复步骤(1)、(2),犌在犇的引导下产生样本拟合 真实样本分布,而犇则寻找生成样本和真实样本的 差异来不断提高判别准确度;(4)最终,犌产生的样 本可以完美地拟合真实样本分布,而犇无法正确判 别生成样本和真实样本,二者的博弈将达到纳什均 衡.此时,犌产生的样本能够以假乱真,其被犇判别 为真实样本的概率将趋近于0.5.
以上,本文从博弈论的观点出发阐述了GANs 的基本思想.实际上,从信息论的角度出发,通过 转换目标函数,GANs可理解为最小化生成样本分 布与真实样本分布之间的JensenShannon散度、 KullbackLeibler散度等的学习过程.然而,这两个
散度的数学性质并不良好.JensenShannon散度在 分布不重叠时的梯度为0,而KullbackLeibler散度 不具有对称性,这分别导致了GANs的梯度消失和 模态崩塌问题.
近年来,出现了大量GANs的变种.它们在不同 程度上缓解了GANs的模态崩塌和梯度消失问题. Arjovsky等人提出了WassersteinGANs[60](简称
WGANs),该方法利用数学性质更优的Wasserstein 散度作为度量样本分布之间散度的标准.Wasserstein
1 3 3 2期 林嘉豪等:基于生成对抗网络的模仿学习综述