基于生成对抗网络的模仿学习综述

(1)

书书书

第４３卷　第２期

２０２０年２月计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ ^Ｖ^ｏ^ｌ^．^４^Ｆ^３Ｎ^ｅ^ｂ^．^２^ｏ^０^．^２^２^０　

收稿日期：２０１８１２２４^；在线出版日期：２０１９０８１６．本课题得到国家自然科学基金项目（６１８７６１１９^，６１５０２３２３^）和江苏省自然科学基金面上项目（ＢＫ２０１８１４３２^）资助．^林嘉豪，硕士研究生，主要研究方向为模仿学习、强化学习．Ｅｍａｉｌ^：ｗｚｌｊｈ３１４８＠ｏｕｔｌｏｏｋ．ｃｏｍ．^章宗长（通信作者），博士，副教授，中国计算机学会（ＣＣＦ^）会员，主要研究领域为强化学习、智能规划和多智能体系统．Ｅｍａｉｌ^：ｚｚｚｈａｎｇ＠ｎｊｕ．ｅｄｕ．ｃｎ．姜　^冲，

硕士研究生，主要研究方向为模仿学习和强化学习．郝建业，博士，副教授，中国计算机学会（ＣＣＦ^）会员，主要研究方向为深度强化学习和多智能体系统．

基于生成对抗网络的模仿学习综述

林嘉豪

_１_）_（^１^）

　 ^章宗长

^２^）

　 ^姜　 ^冲

^１^）

　 ^郝建业

^３^）^，^４^）

苏州大学计算机科学与技术学院　江苏苏州　２１５００６^）

２^）（南京大学计算机软件新技术国家重点实验室　南京　２１００２３^）

３）（天津大学智能与计算学部　天津　３０００５０^）

４）（华为诺亚方舟实验室　北京　１０００８５^）

摘　^要　模仿学习研究如何从专家的决策数据中进行学习^，以得到接近专家水准的决策模型．同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习，与之相比，模仿学习能从决策数据中获得更为直接的反馈．它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法．基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程，并反复迭代．逆向强化学习用于推导符合专家决策数据的奖赏函数，而强化学习基于该奖赏函数来学习策略．基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来，其中最早出现且最具代表性的是生成对抗模仿学习方法（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇ^，简称ＧＡＩＬ^）．生成对抗网络由两个相对抗的神经网络构成，分别为判别器和生成器．ＧＡＩＬ的特点是用生成对抗网络框架求解模仿学习问题，其中，判别器的训练过程可类比奖赏函数的学习过程，生成器的训练过程可类比策略的学习过程．与传统模仿学习方法相比，ＧＡＩＬ具有更好的鲁棒性^、表征能力和计算效率．因此，它能够处理复杂的大规模问题，并可拓展到实际应用中．然而，ＧＡＩＬ存在着模态崩塌、环境交互样本利用效率低等问题．最近，新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进，并在观察机制、多智能体系统等方面对ＧＡＩＬ进行了拓展．本文先介绍了ＧＡＩＬ的主要思想及其优缺点^，然后对ＧＡＩＬ的改进算法进行了归类^、分析和对比，最后总结全文并探讨了可能的未来趋势．

关键词　模仿学习^；基于生成对抗网络的模仿学习；生成对抗模仿学习；模态崩塌；样本利用效率中图法分类号ＴＰ１８　　　犇犗犐号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０２０．００３２６

犃犛狌狉狏犲狔狅犳犐犿犻狋犪狋犻狅狀犔犲犪狉狀犻狀犵犅犪狊犲犱狅狀犌犲狀犲狉犪狋犻狏犲犃犱狏犲狉狊犪狉犻犪犾犖犲狋狊

ＬＩＮＪｉａＨａｏ^１^）　ＺＨＡＮＧＺｏｎｇＺｈａｎｇ^２^）　ＪＩＡＮＧＣｈｏｎｇ^１^）　ＨＡＯＪｉａｎＹｅ^３^）^，^４^）

１^）（犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔^，犛狅狅犮犺狅狑犝狀犻狏犲狉狊犻狋狔^，犛狌狕犺狅狌^，犑犻犪狀犵狊狌　２１５００６^）

２）（犖犪狋犻狅狀犪犾犓犲狔犔犪犫狅狉犪狋狅狉狔犳狅狉犖狅狏犲犾犛狅犳狋狑犪狉犲犜犲犮犺狀狅犾狅犵狔^，犖犪狀犼犻狀犵犝狀犻狏犲狉狊犻狋狔^，犖犪狀犼犻狀犵　２１００２３^）

３）（犆狅犾犾犲犵犲狅犳犐狀狋犲犾犾犻犵犲狀犮犲犪狀犱犆狅犿狆狌狋犻狀犵^，犜犻犪狀犼犻狀犝狀犻狏犲狉狊犻狋狔^，犜犻犪狀犼犻狀　３０００５０^）

４^）（犖狅犪犺^’狊犃狉犽犔犪犫狅狉犪狋狅狉狔^，犎狌犪狑犲犻^，犅犲犻犼犻狀犵　１０００８５^）

犃犫狊狋狉犪犮狋　Ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｓｔｕｄｉｅｓｈｏｗｔｏｌｅａｒｎａｎｅｘｐｅｒｔｌｉｋｅｄｅｃｉｓｉｏｎｍｏｄｅｌｆｒｏｍｅｘｐｅｒｔｄｅｃｉｓｉｏｎｄａｔａ．Ｓａｍｅａｓｔｏｌｅａｒｎａｄｅｃｉｓｉｏｎｍｏｄｅｌ^，ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｏｎｌｙｌｅａｒｎｓｆｒｏｍｅｖａｌｕａｔｉｖｅｆｅｅｄｂａｃｋｇｉｖｅｎｂｙｅｎｖｉｒｏｎｍｅｎｔ．Ｉｎｃｏｎｔｒａｓｔ^，ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｉｓａｂｌｅｔｏａｃｑｕｉｒｅｍｏｒｅｄｉｒｅｃｔｆｅｅｄｂａｃｋｆｒｏｍｅｘｐｅｒｔｄａｔａ．Ｉｔｃａｎｂｅｃｌａｓｓｉｆｉｅｄｉｎｔｏｔｗｏｔｙｐｅｓｏｆａｐｐｒｏａｃｈｅｓ^，ｉ．ｅ．^，ｂｅｈａｖｉｏｒａｌｃｌｏｎｉｎｇ^，ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｖｉａｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．Ｔｈｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｂａｓｅｄｏｎｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｄｅｃｏｍｐｏｓｅｔｈｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｐｒｏｃｅｓｓａｓａｒｅｐｅａｔｅｄｐｒｏｃｅｓｓｂｅｔｗｅｅｎｅｓｔｉｍａｔｉｎｇａｒｅｗａｒｄｆｕｎｃｔｉｏｎｂｙｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｎｄｌｅａｒｎｉｎｇａｐｏｌｉｃｙｕｐｏｎｔｈｅｅｓｔｉｍａｔｅｄｒｅｗａｒｄｆｕｎｃｔｉｏｎｂｙｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｍｅｔｈｏｄｓ．Ｔｈｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｂａｓｅｄｏｎｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓｗｅｒｅｄｅｖｅｌｏｐｅｄｆｒｏｍｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｉｎｖｅｒｓｅ

《计

算

机

学

报

》

(2)

ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．Ａｍｏｎｇｔｈｅｍ^，ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^（ＧＡＩＬ^）ｉｓｔｈｅｅａｒｌｉｅｓｔａｎｄｔｈｅｍｏｓｔｒｅｐｒｅｓｅｎｔａｔｉｖｅａｌｇｏｒｉｔｈｍ．Ｉｔｉｓｉｎｓｐｉｒｅｄｆｒｏｍｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓｃｏｎｓｉｓｔｉｎｇｏｆｔｗｏａｄｖｅｒｓａｒｉａｌｎｅｕｒａｌｎｅｔｓ^，ｉ．ｅ．^，ａｄｉｓｃｒｉｍｉｎａｔｏｒａｎｄａｇｅｎｅｒａｔｏｒ．ＴｈｅｃｏｒｅｏｆＧＡＩＬｉｓｔｏｕｓｅｔｈｅｓｔｒｕｃｔｕｒｅｏｆｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓｔｏａｄｄｒｅｓｓｔｈｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｐｒｏｂｌｅｍ．ＩｎＧＡＩＬ^，ｔｈｅｓｔｅｐｏｆｌｅａｒｎｉｎｇａｒｅｗａｒｄｆｕｎｃｔｉｏｎｃａｎｂｅｃｏｎｓｉｄｅｒｅｄａｓｔｒａｉｎｉｎｇｔｈｅｄｉｓｃｒｉｍｉｎａｔｏｒ^，ｗｈｉｌｅｔｈｅｓｔｅｐｏｆｌｅａｒｎｉｎｇａｐｏｌｉｃｙｃａｎｂｅｖｉｅｗｅｄａｓｔｒａｉｎｉｎｇｔｈｅｇｅｎｅｒａｔｏｒ．Ｃｏｍｐａｒｅｄｔｏｔｈｅｃｏｎｖｅｎｔｉｏｎａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｍｅｔｈｏｄｓ^，ＧＡＩＬａｃｈｉｅｖｅｓｂｅｔｔｅｒｒｏｂｕｓｔｎｅｓｓ^，ｒｅｐｒｅｓｅｎｔａｔｉｏｎｃａｐａｂｉｌｉｔｙａｎｄｃｏｍｐｕｔａｔｉｏｎｅｆｆｉｃｉｅｎｃｙ．Ｔｈｅｒｅｆｏｒｅ^，ＧＡＩＬｉｓａｂｌｅｔｏｈａｎｄｌｅｃｏｍｐｌｉｃａｔｅｄ^，ｌａｒｇｅｓｃａｌｅｐｒｏｂｌｅｍｓａｎｄａｐｐｌｉｃａｂｌｅｉｎｒｅａｌｉｓｔｉｃｔａｓｋｓ．Ｈｏｗｅｖｅｒ^，ＧＡＩＬｓｕｆｆｅｒｓｆｒｏｍｔｈｅｐｒｏｂｌｅｍｓｏｆｍｏｄｅｃｏｌｌａｐｓｅａｎｄｌｏｗｓａｍｐｌｅｅｆｆｉｃｉｅｎｃｙｉｎｔｅｒｍｓｏｆｅｎｖｉｒｏｎｍｅｎｔｉｎｔｅｒａｃｔｉｏｎ．ＴｈｅｐｒｏｂｌｅｍｏｆｍｏｄｅｃｏｌｌａｐｓｅｉｓｄｅｒｉｖｅｄｆｒｏｍＧＡＮｓ^，ａｎｄｉｔｍａｙｒｅｓｕｌｔｉｎｔｈｅｌａｃｋｏｆｄｉｖｅｒｓｉｔｙｉｎｔｈｅｓａｍｐｌｅｓｇｅｎｅｒａｔｅｄｂｙＧＡＩＬ．ＴｈｅｐｒｏｂｌｅｍｏｆｌｏｗｓａｍｐｌｅｅｆｆｉｃｉｅｎｃｙｉｎｔｅｒｍｓｏｆｅｎｖｉｒｏｎｍｅｎｔｉｎｔｅｒａｃｔｉｏｎｉｓｄｅｒｉｖｅｄｆｒｏｍｔｈｅａｓｓｕｍｐｔｉｏｎｏｆｓｔｏｃｈａｓｔｉｃｐｏｌｉｃｙａｎｄｔｈｅｍｏｄｅｌｆｒｅｅｐｏｌｉｃｙｌｅａｒｎｉｎｇｓｔｙｌｅｉｎＧＡＩＬ．

Ｒｅｃｅｎｔｌｙ^，ａｎｕｍｂｅｒｏｆｖａｒｉａｎｔｓｏｆＧＡＩＬｈａｖｅｂｅｅｎｐｒｏｐｏｓｅｄｔｏａｌｌｅｖｉａｔｅｔｈｅｓｅｔｗｏｐｒｏｂｌｅｍｓ．Ｔｏａｌｌｅｖｉａｔｅｔｈｅｆｉｒｓｔｐｒｏｂｌｅｍ^，ｒｅｓｅａｒｃｈｅｒｓｈａｖｅｐｒｏｐｏｓｅｄｔｏａｐｐｌｙｖａｒｉａｎｔｓｏｆＧＡＮｓｔｏｉｍｐｒｏｖｅＧＡＩＬ^，ｉｎｃｌｕｄｉｎｇｔｅｃｈｎｉｃａｌｉｍｐｒｏｖｅｍｅｎｔｓｂａｓｅｄｏｎｔｈｅｍｕｌｔｉｐｌｅｍｏｄｅａｓｓｕｍｐｔｉｏｎ^，ｔｈｅｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ^，ｅｔｃ．ＲｅｐｒｅｓｅｎｔａｔｉｖｅｍｅｔｈｏｄｓａｒｅｃｏｎｄｉｔｉｏｎａｌＧＡＩＬ^，ＧＡＩＬｗｉｔｈａｕｘｉｌｉａｒｙｃｌａｓｓｉｆｉｅｒ^，ｉｎｆｏｒｍａｔｉｏｎｍａｘｉｍｉｚｉｎｇＧＡＩＬ^（ＩｎｆｏＧＡＩＬ^）^，ＩｎｆｏＧＡＩＬｆｒｏｍｂｕｒｎｉｎｄｅｍｏｎｓｔｒａｔｉｏｎｓ^，ｖａｒｉａｔｉｏｎａｌａｕｔｏｅｎｃｏｄｅｒＧＡＩＬ^，ｅｔｃ．Ｔｏａｌｌｅｖｉａｔｅｔｈｅｓｅｃｏｎｄｐｒｏｂｌｅｍ^，ｒｅｓｅａｒｃｈｅｒｓｈａｖｅｐｒｏｐｏｓｅｄｔｏａｐｐｌｙｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｓｔｏｉｍｐｒｏｖｅＧＡＩＬ^，ｉｎｃｌｕｄｉｎｇｔｅｃｈｎｉｃａｌｉｍｐｒｏｖｅｍｅｎｔｓｂａｓｅｄｏｎｄｙｎａｍｉｃｍｏｄｅｌ^，ｄｅｔｅｒｍｉｎｉｓｔｉｃｐｏｌｉｃｙ^，Ｂａｙｅｓｉａｎｍｅｔｈｏｄｓ^，ｅｔｃ．Ｒｅｐｒｅｓｅｎｔａｔｉｖｅｍｅｔｈｏｄｓａｒｅｍｏｄｅｌ ｂａｓｅｄＧＡＩＬ^，ＧＡＩＬｗｉｔｈｄｅｅｐｄｅｔｅｒｍｉｎｉｓｔｉｃｐｏｌｉｃｙｇｒａｄｉｅｎｔ^，ＢａｙｅｓｉａｎＧＡＩＬ^，ｅｔｃ．ＩｎａｄｄｉｔｉｏｎｔｏｔｈｅａｂｏｖｅＧＡＩＬｖａｒｉａｎｔｓ^，ｒｅｓｅａｒｃｈｅｒｓｈａｖｅｅｘｔｅｎｄｅｄＧＡＩＬｔｏｄｉｆｆｅｒｅｎｔｏｂｓｅｒｖａｔｉｏｎｍｅｃｈａｎｉｓｍｓａｎｄｍｕｌｔｉａｇｅｎｔａｐｐｌｉｃａｔｉｏｎｓａｓｗｅｌｌ．ＴｈｅｅｘｔｅｎｓｉｏｎｓｏｆＧＡＩＬｉｎｏｂｓｅｒｖａｔｉｏｎｍｅｃｈａｎｉｓｍｓｉｎｃｌｕｄｅｔｈｉｒｄｐｅｒｓｏｎｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^，ＧＡＩＬｗｉｔｈｒｅｃｕｒｒｅｎｔｐｏｌｉｃｉｅｓ^，ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｆｒｏｍｏｂｓｅｒｖａｔｉｏｎ^，ｅｔｃ．ＴｈｅｅｘｔｅｎｓｉｏｎｓｏｆＧＡＩＬｉｎｍｕｌｔｉａｇｅｎｔｓｙｓｔｅｍｓｉｎｃｌｕｄｅｍｕｌｔｉａｇｅｎｔＧＡＩＬ^，ｐａｒａｍｅｔｅｒｓｈａｒｉｎｇＧＡＩＬ^，ｍｕｌｔｉａｇｅｎｔａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^，ｅｔｃ^，ａｎｄｔｈｅｙｈａｖｅｂｅｅｎａｐｐｌｉｅｄｉｎｔｏｒｅａｌｉｓｔｉｃｓｃｅｎａｒｉｏｓｏｆａｕｔｏｎｏｍｏｕｓｄｒｉｖｉｎｇａｎｄｖｉｒｔｕａｌｅｃｏｍｍｅｒｃｅ．Ｉｎｔｈｉｓｓｕｒｖｅｙ^，ｗｅｆｉｒｓｔｉｎｔｒｏｄｕｃｅＧＡＩＬ^’ｓｋｅｙｉｄｅａｓ^，ａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓ^，ｗｈｉｃｈａｒｅｆｏｌｌｏｗｅｄｂｙｃｌａｓｓｉｆｙｉｎｇ^，ａｎａｌｙｚｉｎｇａｎｄｃｏｍｐａｒｉｎｇＧＡＩＬ^’ｓｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｓ^，ａｎｄｆｉｎａｌｌｙｗｅｓｕｍｍａｒｉｚｅｔｈｅａｉｔｉｃｌｅａｎｄｄｉｓｃｕｓｓｏｎｐｏｓｓｉｂｌｅｆｕｔｕｒｅｔｒｅｎｄｓ．

犓犲狔狑狅狉犱狊　ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^；ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ^；ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^；ｍｏｄｅｃｏｌｌａｐｓｅ^；ｓａｍｐｌｅｅｆｆｉｃｉｅｎｃｙ

１　 ^引　 ^言

决策问题是人工智能领域中的一类重要问题．它是指寻找策略来实现既定目标的问题^，如棋类游戏中棋手为获胜而思考如何落子^［^１^］，驾驶中车手为安全快捷地到达终点而规划路径^［^２^］等．长久以来^，学者一直在探求如何在决策问题中实现与人类相当甚至超人的智能决策．近年来，强化学习^［^３^^６^］

（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ^，简称ＲＬ^）方法已经在围棋^［^７^］、Ａｔａｒｉ电子游戏^［^８^］等决策问题上取得了瞩目的

进步．它的主要思想是使智能体在不断地与环境交互的过程中，通过从环境中获取的奖赏反馈，学习得到能最大化累积奖赏期望的策略．其中^，奖赏由专家定义的奖赏函数输出．奖赏函数构建起了智能体与其目标之间的桥梁．为了使智能体达到理想的目标^，奖赏函数必须要设置得恰到好处．然而对于自动驾驶等复杂的现实问题^，手工设置合适的奖赏函数往往代价较高而不太现实^［^２^］．

模仿学习方法^［^９^^１^０^］通过模仿专家演示的样本以解决决策问题．它不需要从环境中获得奖赏反馈^，其反馈信息来自于专家的决策样本．在许多实际问题

７２３２期林嘉豪等：基于生成对抗网络的模仿学习综述

《计

算

机

学

报

》

(3)

中，相较于设置合适的奖赏函数，获取专家样本往往更容易且代价更小．

模仿学习方法可以分为两类：行为克隆方法

（ＢｅｈａｖｉｏｒａｌＣｌｏｎｉｎｇ^，简称ＢＣ^）和基于逆向强化学习的模仿学习方法（ＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇｖｉａＩｎｖｅｒｓｅＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ^，简称ＩＲＬＩＬ^）．

ＢＣ^［^１^１^^１^２^］的主要思想是直接克隆专家样本在各状态处的单步动作映射，即对专家样本进行监督学习．ＢＣ并不考虑当前状态之后的长远影响．在有足够多专家样本的前提下，它具有良好的表现．由于不考虑长远影响，ＢＣ会将细微的误差在序贯的决策过程中逐步放大，即产生级联误差问题^［^２^，^１^３^^１^４^］，因而在很多模仿学习任务中^，鲁棒性^、泛化性较差．

ＩＲＬＩＬ^［^１^５^^１^６^］假设专家策略等价于由未知的真实奖赏函数推导出的最优策略．从字面上理解^，逆向强化学习^［^１^７^］^（ＩｎｖｅｒｓｅＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ^，简称ＩＲＬ^）是ＲＬ的逆向过程^，它根据给定的专家样本求解未知的奖赏函数．基于解得的奖赏函数^，ＩＲＬＩＬ通过ＲＬ方法求解最优策略的方式^，间接地还原专家策略．这种模仿专家的方式使ＩＲＬＩＬ具备了长远规划的能力．因此^，ＩＲＬＩＬ能有效解决ＢＣ的级联误差问题并表现出更强的泛化性^、鲁棒性．然而^，ＩＲＬＩＬ存在着一些缺陷使其难以求解大规模问题．

其缺陷主要为^：^（１^）大多数ＩＲＬＩＬ方法的线性奖赏函数的假设具有很强的局限性^［^１^８^］^；^（２^）在ＩＲＬＩＬ迭代求解中的ＲＬ子过程需要消耗大量的计算资源^［^１^９^］．

基于生成对抗网络的模仿学习方法（ＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇＢａｓｅｄｏｎＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ^，简

称ＧＡＮｓＩＬ^）从ＩＲＬＩＬ发展而来^，是一类结合了生成对抗网络的模仿学习方法^［^２^０^］．两者的主要区别是奖赏函数、策略的表示模型以及模型的训练方式．ＧＡＮｓＩＬ用两个神经网络来表示ＩＲＬＩＬ中的奖赏函数和策略，并用对抗的方式来优化这两个网络的参数．原始的生成对抗网络^［^２^１^^２^２^］^（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ^，简称ＧＡＮｓ^）由生成模型^（又称生成器^）和判别模型^（又称判别器^）这两个相对抗的网络模型共同构成．其中^，生成模型^［^２^３^］指能够产生符合期望的样本输出的模型^，如根据噪声输入产生高维图片^［^２^４^］或语音^［^２^５^］等输出的模型．ＧＡＮｓ已在计算机视觉等领域中开拓了一系列有趣的工作^，如图像合成^［^２^６^］^、图像超分辨率^［^２^７^］等．

最早出现且最具代表性的ＧＡＮｓＩＬ方法是Ｈｏ等人于２０１６年提出的生成对抗模仿学习方法

（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＩｍｉｔａｔｉｏｎＬｅａｒｎｉｎｇ^，简称ＧＡＩＬ^）^［^２^０^］．如果把策略表征为从状态输入到动作输

出的生成模型，那么模仿学习根据专家样本学习策略的过程其实就是生成模型的训练过程．在ＧＡＩＬ中，根据输入状态输出动作的策略可类比为生成器，而根据输入专家样本或生成样本输出奖赏值的奖赏函数可类比为判别器．从而，ＧＡＩＬ将求解奖赏函数的过程类比作判别器的训练过程，将策略的学习过程类比作生成器的训练过程．

ＧＡＩＬ运用生成对抗网络的框架进行模仿学习以克服ＩＲＬＩＬ的缺陷^，它能够在大规模的问题中表现出优异的性能．基于生成对抗网络框架，ＧＡＩＬ的策略和奖赏函数模型可运用神经网络来自动抽取样本的抽象特征．因此^，ＧＡＩＬ具有更强的表征能力．

并且，ＧＡＩＬ直接将策略作为学习的目标^，它运用高效的策略梯度方法训练策略模型．从而^，ＧＡＩＬ能避开ＩＲＬＩＬ需消耗大量计算资源的内部计算过程^，具有更高效的计算能力．已有工作表明^，ＧＡＩＬ能够在如自动驾驶^［^２^８^］、仿真及真实机器人操控^［^２^９^］等复杂的大规模问题中表现出优异的性能．

然而^，ＧＡＩＬ仍面临着诸多瓶颈^，其中模态崩塌问题^［^３^０^］（ＭｏｄｅＣｏｌｌａｐｓｅ^）^、环境交互样本（即利用生成模型与环境交互得到的生成样本^，简称生成样本^）利用效率低问题^［^３^１^^３^２^］（ＬｏｗＳａｍｐｌｅＥｆｆｉｃｉｅｎｃｙｉｎＴｅｒｍｓｏｆＥｎｖｉｒｏｎｍｅｎｔＩｎｔｅｒａｃｔｉｏｎ^）尤为突出．模态

崩塌问题源于ＧＡＮｓ^，它将导致ＧＡＩＬ产生的样本丧失多样性．生成样本利用效率低问题源于ＧＡＩＬ的随机性策略^（ＳｔｏｃｈａｓｔｉｃＰｏｌｉｃｙ^）假设和无模型

（Ｍｏｄｅｌｆｒｅｅ^）策略学习方式，它将导致ＧＡＩＬ无法适用于获取样本成本高的实际应用．针对模态崩塌问题，学者提出运用ＧＡＮｓ的变体形式对ＧＡＩＬ进行改进．改进的方法包括基于多模态假设的改进^［^３^３^^３^５^］^、基于生成模型的改进^［^３^６^］等．针对生成样本利用效率低的问题，提出运用ＲＬ技术等对ＧＡＩＬ进行改进．

改进的方法包括基于动态模型的改进^［^３^７^］^、基于确定性策略的改进^［^３^２^］、基于贝叶斯方法的改进^［^３^８^］等．

这些ＧＡＩＬ的改进方法均属于基于生成对抗网络的模仿学习方法（ＧＡＮｓＩＬ^）．其特点是：（１^）用神经网络表示策略和奖赏函数^；^（２^）直接学习策略模型^，并用策略梯度ＲＬ方法优化策略模型．本文综述了主流的基于生成对抗网络的模仿学习方法．

近年来^，学者们还在观察机制^［^３^９^］^、多智能体系统^［^４^０^］等方面对ＧＡＩＬ进行了拓展．其中，在观察机制方面的拓展包括基于第三人称的方法^［^４^１^］^、基于上下文的方法^［^２^８^］^、基于观察的方法^［^４^２^］等^；在多智能体系统方面的拓展包括多智能体生成对抗模仿学习方

８２

３计　　算　　机　　学　　报２０２０年

《计

算

机

学

报

》

(4)

法，其场景包括自动驾驶^［^４^３^］和虚拟电商^［^４^４^］等．本文的框架脉络如图１所示．具体内容组织如下：第２节将梳理ＧＡＮｓＩＬ的预备知识^，包括强化学习^、逆向强化学习和生成对抗网络^；第３节将介绍ＧＡＩＬ的主要思想以及存在的两个瓶颈问题^：模态崩塌问题和生成样本利用效率低问题；第４节将介

绍针对模态崩塌问题的改进方法；第５节将介绍针对生成样本利用效率低问题的改进方法^；第６节^、第７节综述生成对抗模仿学习的拓展^，包括在不同观察机制下的拓展^（第６节^）以及基于多智能体系统的拓展（第７节）；第８节展望了ＧＡＩＬ的未来研究方向并总结全文．

图１　框架结构示意图

２　 ^预备知识

本节将梳理ＧＡＩＬ中涉及到的预备知识^，包括强化学习^、逆向强化学习^、生成对抗网络等的基本原理、相关定义以及它们存在的不足．

２１　^强化学习

一般地，强化学习（ＲＬ^）由智能体（Ａｇｅｎｔ^）^、环境

（Ｅｎｖｉｒｏｎｍｅｎｔ^）等部分组成．ＲＬ可以建模为马尔可夫决策过程^［^４^５^］^（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ^，简称ＭＤＰ^）．ＭＤＰ假设决策过程满足马尔可夫性质^，即智能体的决策只取决于当前的状态，而不受以往状态或动作的影响．ＭＤＰ通常被定义为一个五元组犕＝

（

ＳＳ

^，

ＡＡ

^，犘^，狉^，γ^）．其中^：

（１^）

ＳＳ

代表环境中所有状态的集合，且狊^狋∈

ＳＳ

表示智能体在狋时刻所处的状态；

（２^）

ＡＡ

为智能体可选择的所有动作的集合^，且犪^狋∈

ＡＡ

表示智能体在狋时刻所执行的动作^；

（３^）犘为状态转移函数^，它表示智能体位于状态狊^狋处采取动作犪^狋转移到下一状态狊^狋^＋^１的概率^，可以表示为狊^狋^＋^１～犘^（狊^狋^，犪^狋^）^；

（４^）狉^（狊^，犪^）^：

ＳＳ

×

ＡＡ

→^!为立即奖赏函数^，简称奖赏函数．智能体在状态狊^狋采取动作犪^狋获得的立即奖赏值可以表示为狉^狋＝狉^（狊^狋^，犪^狋^）^；

（５^）γ∈^（０^，１^）表示折扣因子^，用于调控未来奖

赏对累积奖赏值的作用效果．

ＲＬ问题是指智能体在与环境的交互过程中通过不断试错来求解能够完成既定目标的策略（Ｐｏｌｉｃｙ^）的问题．策略是指智能体从状态到动作的映射π∈ Π^：

ＳＳ

→

ＡＡ

．策略π一般为随机性策略．给定随机性策略π^，智能体在状态狊^狋处所采取的动作可表示为犪^狋＝π^（狊^狋^）^，在状态狊^狋处采取动作犪^狋的概率可表示为 π^（犪^狋｜狊^狋^）^：

ＳＳ

×

ＡＡ

→^［０^，１^］．

一个策略是否符合既定的学习目标或者说策略的“好坏”，是根据期望累积奖赏值来决定的．本文将从狋时刻开始且折扣因子为γ的累积奖赏值定义为^：犚狋^γ＝狉^狋＋γ狉^狋^＋^１＋^…＝

∑

犻^∞＝狋γ^犻^－^狋狉^（狊^犻^，犪^犻^）．定义策略π的

状态值函数犞π（狊^）＝

ＥＥ

^π^［犚^γ０｜狊^０＝狊^］^，定义策略π在状态狊处采取某一动作犪的动作值函数为犙π（狊^，犪^）＝

Ｅ

^π^［犚^γ０｜狊^０＝狊^，犪^０＝犪^］^，定义策略值η^（π^）＝

ＥＥ

^π^［犚^γ０］，定义ρ^π^（狊^）为状态狊在智能体与环境交互过程中的占比^，即出现的概率^：

ρ^π^（狊^）＝狆^π^（狊０＝狊^）＋γ狆^π^（狊１＝狊^）＋γ^２狆^π^（狊２＝狊^）＋^…

＝

∑

狋^∞＝０γ^狋狆^π^（狊^狋＝狊^） ^（１^）这里，狆π（狊^犻＝狊^）表示第犻时刻状态为狊的概率^，其中^，犻＝１^，^…，犝^，犝表示终止时刻．定义ρ^π^（狊^，犪^）为在给定策略π下^，状态动作对（ＳｔａｔｅＡｃｔｉｏｎＰａｉｒ^）

（狊^，犪^）出现的概率^：

９２３２期林嘉豪等：基于生成对抗网络的模仿学习综述

《计

算

机

学

报

》

(5)

ρ^π^（狊^，犪^）＝π^（犪｜狊^）狋

∑

＝^∞０γ^狋狆^π^（狊^狋＝狊^）＝π^（犪｜狊^）ρ^π^（狊^）^（２^）在状态空间和动作空间均连续的情况下，策略值 η^（π^）可进一步展开成^：

η^（π^）＝_＝

∫ _Ｅ _Ｅ

^狊^ρ^π^（^狊

∫

^）^犪^π^（^犪^｜^狊^）^狉^（^狊^，^犪^）^ｄ^犪^ｄ^狊

狊～ρ_π^，犪～π［狉^（狊^，犪^）^］ ^（３^）其中^，

ＥＥ

^狊^～ρ_π^，犪～π［·］表示服从状态动作折扣概率分布的期望值．

根据是否直接学习策略^，ＲＬ方法可以分为基于值函数的方法和基于策略梯度的方法．其中基于值函数的方法通过动作值函数间接地学习策略，它服从广义的策略迭代：不断交替地进行策略评估和策略改进．策略评估是对动作值函数进行估计的过程^，经典方法有蒙特卡罗估计方法^［^４^６^］和时间差分法^［^４^７^］．策略改进为根据动作值函数改进策略的过程^，如贪心方法等．然而^，在无限的连续动作空间中寻找动作值最大的贪婪动作并不现实．因此，值函数方法难以直接求解动作空间连续的问题．

基于策略梯度的方法^［^４^８^］直接将策略作为学习的对象^，它更为简单且计算代价更小^，因而在实际中的应用范围更广．它首先将策略参数化，即π≈πθ，如运用线性函数或神经网络等非线性函数近似表示策略^，接着将参数朝着最大化累积奖赏值的梯度方向进行更新．Ｓｃｈｕｌｍａｎ等人在２０１５年提出了基于置信域的策略优化方法^［^４^９^］（ＴｒｕｓｔＲｅｇｉｏｎＰｏｌｉｃｙＯｐｔｉｍｉ ｚａｔｉｏｎ^，简称ＴＲＰＯ^）^，该方法能够保证策略有效地

更新优化．在此基础上^，Ｓｃｈｕｌｍａｎ等人提出一种不仅能使策略有效更新并且计算代价更小^、更易实现的方法，即近端策略优化方法^［^５^０^］（ＰｒｏｘｉｍａｌＰｏｌｉｃｙＯｐｔｉｍｉｚａｔｉｏｎ^，简称ＰＰＯ^）．然而^，策略梯度方法存在着高方差的通病．Ｓｃｈｕｌｍａｎ等人进一步提出了广义优势估计算法^［^５^１^］^（ＧｅｎｅｒａｌｉｚｅｄＡｄｖａｎｔａｇｅＥｓｔｉｍａｔｉｏｎ^，简称ＧＡＥ^）^，该算法能有效缓解算法的高方差问题．２２　基于逆向强化学习的模仿学习

ＩＲＬ问题一般假设能够获得专家样本^，并假设专家样本由未知的真实奖赏函数对应的最优策略获得．它是指根据专家样本求解未知的真实奖赏函数的问题^［^１^７^］．通过求解ＩＲＬ问题得到的奖赏函数能理解专家样本数据背后的决策动机或偏好．模仿学习通常将能产生专家样本的专家策略定义为π^犈．根据专家策略π^犈演示得到的轨迹样本集合

ＴＴ

^犈可表示为

Ｔ

^犈＝^｛τ^１^，τ^２^，^…，τ^犻^，^…｜π^犈^｝^，

其中^，τ^犻表示第犻条轨迹样本．每条轨迹τ^犻可以进一步拆分成序贯的有限组状态动作对^（狊^，犪^）^：

τ^犻＝^｛狊^０^，犪^０^，狊^１^，犪^１^，^…，狊犝，犪犝｜π^犈^｝^，

其中，犝代表轨迹的长度．模仿学习通常将状态动作对样本^（狊^，犪^）作为训练的数据单元．

ＩＲＬ方法由Ｎｇ等人^［^１^７^］在２０００年提出．ＩＲＬ方法根据专家样本由未知的真实奖赏函数对应的最优策略产生的假设^，将专家策略等价为由真实奖赏函数得到的最优策略．因此^，真实奖赏函数狉^满足不等式

ＥＥ

^π犈［狉^^（狊^，犪^）^］

ＥＥ

^π^［狉^^（狊^，犪^）^］．通过把该不等式求解的问题转换为优化问题，奖赏函数的求解过程可表示为

ＩＲＬ^（π^犈^）^：ａｒｇ_狉ｍｉｎｍ_πａｘ

ＥＥ

^π^［狉^（狊^，犪^）^］－

ＥＥ

^π犈［狉^（狊^，犪^）^］

（４^）通过求解上述优化问题^，得到奖赏函数狉

＾

_∈ ＩＲＬ^（π犈）．ＩＲＬ解得的奖赏函数不仅可以用于表征专家决策的动机，还能用于求解其最优策略，从而还原专家策略．这种模仿学习被称为基于逆向强化学习的模仿学习（简称ＩＲＬＩＬ^）．

在ＩＲＬＩＬ中^，基于奖赏函数狉

＾

，最优策略可以通过ＲＬ方法求得．该过程可表示为

ＲＬ^（狉

＾

）：ａｒｇ_πｍａｘ

ＥＥ

^π^［狉

＾

（狊^，犪^）^］ ^（５^）如果奖赏函数狉

＾

_有_足_够_能_{力来表征真实奖赏函} 数，π

＾

_∈_Ｒ_Ｌ（狉

＾

）通常能够向专家策略靠近．综上，ＩＲＬ ＩＬ的学习过程可以表示如下^：

ＲＬ⊙ＩＲＬ^（π^犈^）^：ｍａ_πｘｍｉ_狉ｎ

ＥＥ

^π^［狉^（狊^，犪^）^］－

ＥＥ

^π犈［狉^（狊^，犪^）^］

（６^）ＩＲＬＩＬ的学习过程^［^５^２^］可以总结为以下４个步骤^：^（１^）ＩＲＬ根据专家策略等价于真实奖赏函数对应的最优策略的假设求解奖赏函数狉

＾

，狉

＾

_{可理解为是} 区分策略π

＾

_和_π_犈_的超平面；（２^）基于当前奖赏函数狉

＾

，通过强化学习方法求解最优策略π

＾

；（３^）不断地迭代步骤（１^）^、^（２^）^，奖赏函数狉

＾

将更符合真实奖赏函数狉^^，并引导π

＾

_向_π_犈_靠_近；（４^）最终求解得到的狉

＾

_将无限接近真实奖赏函数，并且π

＾

将收敛到专家策略．

ＩＲＬＩＬ的特点是先根据专家样本求解奖赏函数，再基于奖赏函数还原专家策略．相比ＢＣ^，ＩＲＬＩＬ的鲁棒性和泛化性更强．这是因为，通过运用强化学习方法^，ＩＲＬＩＬ能够基于奖赏函数考虑策略的长远影响而不局限于单步的即时反馈．

不适定问题是ＩＲＬ的一大挑战^，它是指式^（４^）存在多个奖赏函数解而无唯一解．为了缓解该问题^，Ｎｇ等人提出了启发式方法来增强ＩＲＬ的不等式约

束^［^１^７^］^，从而缩小了奖赏函数的求解范围．Ｚｉｅｂａｒｔ等人于２００８年提出了基于最大熵原理的ＩＲＬＩＬ算法^［^５^３^］．该算法假设真实奖赏函数的最优策略具有最大的熵，从而缓解了不适定问题．最大熵ＩＲＬＩＬ算

０３

３计　　算　　机　　学　　报２０２０年

《计

算

机

学

报

》

(6)

法可以表示为

ｍａ_πｘｍｉ_狉ｎ

ＥＥ

^π^［狉^（狊^，犪^）^］－

ＥＥ

^π犈［狉^（狊^，犪^）^］＋λ^犎犎^（π^）^（７^）其中，策略的熵表示为犎^（π^）^，它在目标函数（７^）中作为额外的惩罚项^，λ^犎是控制策略熵在算法中影响大小的调节系数．

除了不适定问题^，由于奖赏函数的表征能力有限以及求解最优策略的子过程计算较复杂等原因^，ＩＲＬＩＬ难以运用于大规模的实际问题．大多数ＩＲＬＩＬ方法假设奖赏函数是线性的^，线性奖赏函数具有很强的局限性，它难以拟合复杂问题中的真实奖赏函数．有学者提出基于如高斯过程等非线性奖赏函数的ＩＲＬＩＬ^［^１^８^］^，该算法提升了原始ＩＲＬＩＬ中奖赏函数的表征能力．然而^，ＩＲＬＩＬ由ＲＬ子过程导致的计算瓶颈仍没有得到解决．ＲＬ子过程是指根据当前奖赏函数^，通过ＲＬ方法求解最优策略的过程．其计算量较大^，并随着迭代次数递增而不断累积．因此，将传统的ＩＲＬＩＬ用来解决大规模的实际模仿学习问题并不现实．

２３　^{生成对抗网络}

生成对抗网络^［^２^１^］是Ｇｏｏｄｆｅｌｌｏｗ等人于２０１４年提出的一种深度生成模型，它在深度学习领域中颇受关注．深度学习是机器学习的一种实现方法^，它利用多层神经网络对数据进行特征学习．相较于传统机器学习^，深度学习具有良好的表征能力^，它能够自动获取抽象的特征^［^５^４^^５^５^］．深度分类模型^［^５^６^^５^７^］利用训练样本及其标签数据进行监督学习，能对复杂样本给出准确的分类值．它具有很好的感知能力^，能通过多层网络结构与非线性变换，组合低层特征，形成抽象的^、易于区分的高层特征^，以划分样本的类别．

深度生成模型可以理解为深度分类模型的

“逆向过程^”^，它将噪声输入的抽象高层特征还原为低层特征^，从而产生高维度的生成样本来拟合训练样本．原始的ＧＡＮｓ在生成模型的训练中引入了一个二分类模型^，其功能为判断输入样本是否属于专家样本．当然，一些ＧＡＮｓ的变体形式在生成模型的基础上引入其他模型^，而不是分类模型^［^５^８^］．原始的ＧＡＮｓ并不通过极大似然估计等方法^［^５^９^］来直接地训练生成模型^，而是由额外的分类模型来引导生成模型的训练过程．因此^，它能够避开极大似然估计方法中计算后验概率的复杂过程，从而在高维数据分布的学习上有显著优势．其中^，生成模型可称为生成器（Ｇｅｎｅｒａｔｏｒ^，简称犌^）^，分类模型可称为判别器

（Ｄｉｓｃｒｉｍｉｎａｔｏｒ^，简称犇^）．生成器和判别器二者形成博弈，该博弈目标函数犔^Ｇ^Ａ^Ｎ^ｓ^（犇^，犌^）可以表示如下：

ｍｉ_犌ｎｍａ_犇ｘ犔^Ｇ^Ａ^Ｎ^ｓ^（犇^，犌^）＝

ＥＥ

^狓^［ｌｏｇ犇^（狓^）^］＋

ＥＥ

^狕^［ｌｏｇ^（１－犇^（犌^（狕^）^）^）^］（８^）其中^，狓表示真实样本^（训练样本^）^，狕表示噪声输入，犌^（狕^）表示生成器产生的生成样本，犇^（^·^）表示判别器判别样本来自于真实样本分布的概率．

ＧＡＮｓ的训练框架可以直观地用图２进行表示．在这个训练框架中^，生成器犌根据噪声输入狕产生样本犌^（狕^）．判别器犇的输入为真实样本狓或生成器产生的样本犌^（狕^）^，输出为判别样本为真实样本的概率犇^（^·^）∈^（０^，１^）．

图２　ＧＡＮｓ训练框架示意图

在ＧＡＮｓ中，犌和犇二者的博弈是一个相互对抗的训练过程．该过程可分为４个步骤^：^（１^）训练犇^，使犇对样本的来源^（来自真实样本分布或来自生成器^）做出准确判别^，犇的训练目标为最大化博弈目标函数犔^Ｇ^Ａ^Ｎ^ｓ^（犇^，犌^）^；^（２^）训练犌^，使犌产生逼真的样本来欺骗犇^，从而使犇的判别失准^，其训练目标为最小化二者博弈的目标函数犔^Ｇ^Ａ^Ｎ^ｓ^（犇^，犌^）^；^（３^）通过重复步骤（１^）^、^（２^）^，犌在犇的引导下产生样本拟合真实样本分布，而犇则寻找生成样本和真实样本的差异来不断提高判别准确度^；^（４^）最终^，犌产生的样本可以完美地拟合真实样本分布，而犇无法正确判别生成样本和真实样本^，二者的博弈将达到纳什均衡．此时，犌产生的样本能够以假乱真^，其被犇判别为真实样本的概率将趋近于０．５．

以上^，本文从博弈论的观点出发阐述了ＧＡＮｓ的基本思想．实际上，从信息论的角度出发，通过转换目标函数^，ＧＡＮｓ可理解为最小化生成样本分布与真实样本分布之间的ＪｅｎｓｅｎＳｈａｎｎｏｎ散度^、ＫｕｌｌｂａｃｋＬｅｉｂｌｅｒ散度等的学习过程．然而^，这两个

散度的数学性质并不良好．ＪｅｎｓｅｎＳｈａｎｎｏｎ散度在分布不重叠时的梯度为０^，而ＫｕｌｌｂａｃｋＬｅｉｂｌｅｒ散度不具有对称性^，这分别导致了ＧＡＮｓ的梯度消失和模态崩塌问题．

近年来，出现了大量ＧＡＮｓ的变种．它们在不同程度上缓解了ＧＡＮｓ的模态崩塌和梯度消失问题．Ａｒｊｏｖｓｋｙ等人提出了ＷａｓｓｅｒｓｔｅｉｎＧＡＮｓ^［^６^０^］^（简称

ＷＧＡＮｓ^）^，该方法利用数学性质更优的Ｗａｓｓｅｒｓｔｅｉｎ散度作为度量样本分布之间散度的标准．Ｗａｓｓｅｒｓｔｅｉｎ

基于生成对抗网络的模仿学习综述

基于生成对抗网络的模仿学习综述

林嘉豪

章宗长

姜 冲

郝建业

犃 犛 狌 狉 狏 犲 狔 狅 犳 犐 犿 犻 狋 犪 狋 犻 狅 狀 犔 犲 犪 狉 狀 犻 狀 犵 犅 犪 狊 犲 犱 狅 狀 犌 犲 狀 犲 狉 犪 狋 犻 狏 犲 犃 犱 狏 犲 狉 狊 犪 狉 犻 犪 犾 犖 犲 狋 狊

《 计

算

机

学

报

》

１ 引 言

《 计

算

机

学

报

》

《 计

算

机

学

报

》

２ 预备知识

Ｓ Ｓ

Ａ Ａ

Ｓ Ｓ

Ｓ Ｓ

Ａ Ａ

Ａ Ａ

Ｓ Ｓ

Ａ Ａ

Ｓ Ｓ

Ａ Ａ

Ｓ Ｓ

Ａ Ａ

∑

Ｅ Ｅ

Ｅ

Ｅ

Ｅ Ｅ

∑

《 计

算

机

学

报

》

∑

∫ Ｅ Ｅ

∫

Ｅ Ｅ

Ｔ Ｔ

Ｔ

Ｔ

Ｅ Ｅ

Ｅ Ｅ

Ｅ Ｅ

Ｅ Ｅ

＾

＾

＾

Ｅ Ｅ

＾

＾

＾

＾

Ｅ Ｅ

Ｅ Ｅ

＾

＾

＾

＾

＾

＾

＾

＾

　 ^章宗长

　 ^姜　 ^冲

　 ^郝建业

犃犛狌狉狏犲狔狅犳犐犿犻狋犪狋犻狅狀犔犲犪狉狀犻狀犵犅犪狊犲犱狅狀犌犲狀犲狉犪狋犻狏犲犃犱狏犲狉狊犪狉犻犪犾犖犲狋狊

《计

１　 ^引　 ^言

《计

《计

２　 ^预备知识

ＳＳ

ＡＡ

ＳＳ

ＳＳ

ＡＡ

ＡＡ

ＳＳ

ＡＡ

ＳＳ

ＡＡ

ＳＳ

ＡＡ

ＥＥ

ＥＥ

《计

∫ _Ｅ _Ｅ

ＥＥ

ＴＴ

ＥＥ

ＥＥ

ＥＥ

ＥＥ

ＥＥ

ＥＥ

ＥＥ

《计

ＥＥ

ＥＥ

ＥＥ

ＥＥ

《计