总结与展望

相较于强化学习（ＲＬ^）方法，模仿学习方法不需要专家手工设置合适的奖赏函数．它模仿专家演示的样本^，从而学习得到与人类相当的策略．基于生成对抗网络的模仿学习^（ＧＡＮｓＩＬ^）是模仿学习的一类重要方法^，它将基于逆向强化学习的模仿学习

（ＩＲＬＩＬ^）推广到了更复杂的大规模问题^，使得模仿学习方法能够解决现实的应用问题．并且，随着生成对抗网络（ＧＡＮｓ^）和ＲＬ等技术的不断发展^，ＧＡＮｓＩＬ中遇到的模态崩塌与生成样本利用效率

低等问题将以更为有效的方式得到解决．从而^，ＧＡＮｓＩＬ能够稳定^、有效地解决实际问题．

本文首先介绍了最早出现且最具代表性的ＧＡＮｓＩＬ方法^，即生成对抗模仿学习^（ＧＡＩＬ^）的核心思想，然后分析了其所面临的模态崩塌和生成样本利用效率低等问题．接着从这两个问题出发综述了前沿的改进工作．其中，针对模态崩塌的问题综述了结合ＧＡＮｓ技术的改进方法^，针对生成样本利用效率低的问题综述了结合强化学习等技术的改进方法．最后综述了ＧＡＮｓＩＬ在不同观察环境和多智能体等方面的拓展．

综上，本文将ＧＡＮｓＩＬ的未来发展前景作如下展望：（１^）结合ＧＡＮｓ技术的发展，ＧＡＮｓＩＬ在模态崩塌问题将进一步改善，并且二者博弈的训练过程将更为稳定^，且易于训练^［^１^０^０^］^；^（２^）结合ＲＬ技术的发展^，ＧＡＮｓＩＬ将在多智能体方面^、部分可观察的马尔可夫决策过程^［^１^０^１^］等方面有更深的应用拓展^；

（３^）随着深度学习的发展^，ＧＡＮｓＩＬ将具有更强的表征能力，并能应用于需要感知复杂状态的实际问题．不仅如此，在决策问题中，对抗式学习的运用

６４

３计　　算　　机　　学　　报２０２０年

《计

算

机

学

报

》

将更为广泛，如将对抗式的模仿学习结合在ＲＬ中^［^１^０^２^］，或将对抗式学习用来使得ＲＬ具有更强的泛化性和鲁棒性^［^１^０^３^］．

致　^谢　在此感谢南京大学的俞扬教授参与本文的讨论并给出了大量的修改意见！

参考文献

［１^］ＳｉｌｖｅｒＤ^，ＨｕａｎｇＡ^，ＭａｄｄｉｓｏｎＣＪ^，ｅｔａｌ．ＭａｓｔｅｒｉｎｇｔｈｅｇａｍｅｏｆＧｏｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｔｒｅｅｓｅａｒｃｈ．Ｎａｔｕｒｅ^，２０１６^，５２９^（７５８７^）^：４８４４８９

［２^］ＡｂｂｅｅｌＰ^，ＮｇＡＹ．Ａｐｐｒｅｎｔｉｃｅｓｈｉｐｌｅａｒｎｉｎｇｖｉａｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．Ｂａｎｆｆ^，Ｃａｎａｄａ^，２００４^：１８

［３^］ＳｕｔｔｏｎＲＳ^，ＢａｒｔｏＡＧ．ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ^：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎ．Ｃａｍｂｒｉｄｇｅ^，ＵＳＡ^：ＭＩＴＰｒｅｓｓ^，１９９８

［４^］ＬｉｕＱｕａｎ^，ＺｈａｉＪｉａｎＷｅｉ^，ＺｈａｎｇＺｏｎｇＺｈａｎｇ^，ｅｔａｌ．Ａｓｕｒｖｅｙｏｎｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆ

Ｃｏｍｐｕｔｅｒｓ^，２０１８^，４１^（１^）^：１２７^（ｉｎＣｈｉｎｅｓｅ^）

（刘全，翟建伟，章宗长等．深度强化学习综述．计算机学报，２０１８^，４１^（１^）^：１２７^）

［５^］ＧａｏＹａｎｇ^，ＣｈｅｎＳｈｉＦｕ^，ＬｕＸｉｎ．Ｒｅｓｅａｒｃｈｏｎｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｔｅｃｈｎｏｌｏｇｙ^：Ａｒｅｖｉｅｗ．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ^，２００４^，３０^（１^）^：８６１００^（ｉｎＣｈｉｎｅｓｅ^）

（高阳，陈世福，陆鑫．强化学习研究综述．自动化学报，２００４^，３０^（１^）^：８６１００^）

［６^］ＺｈａｏＤｏｎｇＢｉｎ^，ＳｈａｏＫｕｎ^，ＺｈｕＹｕａｎＨｅｎｇ^，ｅｔａｌ．ＲｅｖｉｅｗｏｆｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｎｄｄｉｓｃｕｓｓｉｏｎｓｏｎｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｃｏｍｐｕｔｅｒＧｏ．ＣｏｎｔｒｏｌＴｈｅｏｒｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ^，２０１６^，３３^（６^）^：７０１７１７^（ｉｎＣｈｉｎｅｓｅ^）

（赵冬斌，邵坤，朱圆恒等．深度强化学习综述：兼论计算机围棋的发展．控制理论与应用，２０１６^，３３^（６^）^：７０１７１７^）

［７^］ＳｉｌｖｅｒＤ^，ＳｃｈｒｉｔｔｗｉｅｓｅｒＪ^，ＳｉｍｏｎｙａｎＫ^，ｅｔａｌ．ＭａｓｔｅｒｉｎｇｔｈｅｇａｍｅｏｆＧｏｗｉｔｈｏｕｔｈｕｍａｎｋｎｏｗｌｅｄｇｅ．Ｎａｔｕｒｅ^，２０１７^，５５０

（７６７６^）^：３５４３５９

［８^］ＭｎｉｈＶ^，ＫａｖｕｋｃｕｏｇｌｕＫ^，ＳｉｌｖｅｒＤ^，ｅｔａｌ．ＰｌａｙｉｎｇＡｔａｒｉｗｉｔｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^／^／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＷｏｒｋｓｈｏｐｓａｔｔｈｅ２７ｔｈＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．

ＬａｋｅＴａｈｏｅ^，ＵＳＡ^，２０１３^：２０１２２０

［９^］ＢｙｒｎｅＲＷ^，ＲｕｓｓｏｎＡＥ．Ｌｅａｒｎｉｎｇｂｙｉｍｉｔａｔｉｏｎ^：Ａｈｉｅｒａｒｃｈｉｃａｌａｐｐｒｏａｃｈ．ＢｅｈａｖｉｏｒａｌａｎｄＢｒａｉｎＳｃｉｅｎｃｅｓ^，１９９８^，２１^（５^）^：６６７ ７２１

［１０^］ＳｃｈａａｌＳ．Ｉｓｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｔｈｅｒｏｕｔｅｔｏｈｕｍａｎｏｉｄｒｏｂｏｔｓ？ＴｒｅｎｄｓｉｎＣｏｇｎｉｔｉｖｅＳｃｉｅｎｃｅｓ^，１９９９^，３^（６^）^：２３３２４２

［１１^］ＰｏｍｅｒｌｅａｕＤ．Ｅｆｆｉｃｉｅｎｔｔｒａｉｎｉｎｇｏｆａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒａｕｔｏｎｏｍｏｕｓｎａｖｉｇａｔｉｏｎ．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ^，１９９１^，３^（１^）^：８８９７

［１２^］ＢｏｊａｒｓｋｉＭ^，ＤｅｌＴｅｓｔａＤ^，ＤｗｏｒａｋｏｗｓｋｉＤ^，ｅｔａｌ．Ｅｎｄｔｏｅｎｄｌｅａｒｎｉｎｇｆｏｒｓｅｌｆｄｒｉｖｉｎｇｃａｒｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１６０４．０７３１６^，２０１６

［１３^］ＲｏｓｓＳ^，ＢａｇｎｅｌｌＤ．Ｅｆｆｉｃｉｅｎｔｒｅｄｕｃｔｉｏｎｓｆｏｒｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ^（ＡＩＳＴＡＴＳ^）．Ｓａｒｄｉｎｉａ^，Ｉｔａｌｙ^，２０１０^：６６１６６８

［１４^］ＲｏｓｓＳ^，ＧｏｒｄｏｎＧＪ^，ＢａｇｎｅｌｌＤ．Ａｒｅｄｕｃｔｉｏｎｏｆｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇａｎｄｓｔｒｕｃｔｕｒｅｄｐｒｅｄｉｃｔｉｏｎｔｏｎｏｒｅｇｒｅｔｏｎｌｉｎｅｌｅａｒｎｉｎｇ

／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ^（ＡＩＳＴＡＴＳ^）．ＦｏｒｔＬａｕｄｅｒｄａｌｅ^，

ＵＳＡ^，２０１１^：６２７６３５

［１５^］ＬｉＹａｏＹｕ^，ＺｈｕＹｉＦａｎ^，ＹａｎｇＦｅｎｇ^，ｅｔａｌ．Ｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｂａｓｅｄｏｐｔｉｍａｌｓｃｈｅｄｕｌｅｇｅｎｅｒａｔｉｏｎａｐｐｒｏａｃｈｆｏｒｃａｒｒｉｅｒａｉｒｃｒａｆｔｏｎｆｉｇｈｔｄｅｃｋ．ＪｏｕｒｎａｌｏｆＮａｔｉｏｎａｌＵｎｉｖｅｒｓｉｔｙｏｆＤｅｆｅｎｓｅＴｅｃｈｎｏｌｏｇｙ^，２０１３^，３５^（４^）^：１７１１７５^（ｉｎＣｈｉｎｅｓｅ^）

（李耀宇，朱一凡，杨峰等．基于逆向强化学习的舰载机甲板调度优化方案生成方法．国防科技大学学报，２０１３^，３５^（４^）^：１７１１７５^）

［１６^］ＪｉｎＺｈｕｏＪｕｎ^，ＱｉａｎＨｕｉ^，ＣｈｅｎＳｈｅｎＹｉ^，ＺｈｕＭｉａｏＬｉａｎｇ．Ｓｕｒｖｅｙｏｆａｐｐｒｅｎｔｉｃｅｓｈｉｐｌｅａｒｎｉｎｇｂａｓｅｄｏｎｒｅｗａｒｄｆｕｎｃｔｉｏｎｌｅａｒｎｉｎｇ．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ^，２００９^，４^（３^）^：２０８２１２^（ｉｎＣｈｉｎｅｓｅ^）

（金卓军，钱徽，陈沈秩，朱淼良．回报函数学习的学徒学习综述，智能系统学报，２００９^，４^（３^）^：２０８２１２^）

［１７^］ＮｇＡＹ^，ＲｕｓｓｅｌｌＳＪ．Ａｌｇｏｒｉｔｈｍｓｆｏｒｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．Ｓｔａｎｆｏｒｄ^，ＵＳＡ^，２０００^：６６３ ６７０

［１８^］ＬｅｖｉｎｅＳ^，ＰｏｐｏｖｉｃＺ^，ＫｏｌｔｕｎＶ．ＮｏｎｌｉｎｅａｒｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｗｉｔｈＧａｕｓｓｉａｎｐｒｏｃｅｓｓｅｓ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．Ｇｒａｎａｄａ^，Ｓｐａｉｎ^，２０１１^：１９２７

［１９^］ＨｏＪ^，ＧｕｐｔａＪＫ^，ＥｒｍｏｎＳ．Ｍｏｄｅｌｆｒｅｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｗｉｔｈｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．ＮｅｗＹｏｒｋ^，ＵＳＡ^，２０１６^：２７６０２７６９

［２０^］ＨｏＪ^，ＥｒｍｏｎＳ．Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０ｔｈＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．Ｂａｒｃｅｌｏｎａ^，Ｓｐａｉｎ^，２０１６^：４５６５４５７３

［２１^］ＧｏｏｄｆｅｌｌｏｗＩＪ^，ＰｏｕｇｅｔＡｂａｄｉｅＪ^，ＭｉｒｚａＭ^，ｅｔａｌ．Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．Ｍｏｎｔｒｅａｌ^，Ｃａｎａｄａ^，２０１４^：２６７２ ２６８０

［２２^］ＷａｎｇＫｕｎＦｅｎｇ^，ＧｏｕＣｈａｏ^，ＤｕａｎＹａｎＪｉｅ^，ｅｔａｌ．Ｇｅｎｅｒａ ｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ^：Ｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔａｎｄｂｅｙｏｎｄ．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ^，２０１７^，４３^（３^）^：３２１３３２^（ｉｎＣｈｉｎｅｓｅ^）

（王坤峰，苟超，段艳杰等．生成式对抗网络ＧＡＮ的研究进展与展望．自动化学报，２０１７^，４３^（３^）^：３２１３３２^）

７４３２期林嘉豪等：基于生成对抗网络的模仿学习综述

《计

算

机

学

报

》

［２３^］ＨｉｎｔｏｎＧＥ^，ＯｓｉｎｄｅｒｏＳ^，ＴｅｈＹＷ．Ａｆａｓｔｌｅａｒｎｉｎｇ

［５１^］ＳｃｈｕｌｍａｎＪ^，ＭｏｒｉｔｚＰ^，ＬｅｖｉｎｅＳ^，ｅｔａｌ．Ｈｉｇｈｄｉｍｅｎｓｉｏｎａｌ

［７７^］ＲｅｚｅｎｄｅＤＪ^，ＭｏｈａｍｅｄＳ^，ＷｉｅｒｓｔｒａＤ．Ｓｔｏｃｈａｓｔｉｃｂａｃｋｐｒｏｐ ａｇａｔｉｏｎａｎｄａｐｐｒｏｘｉｍａｔｅｉｎｆｅｒｅｎｃｅｉｎｄｅｅｐｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｓ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．Ｂｅｉｊｉｎｇ^，Ｃｈｉｎａ^，２０１４^：１２７８１２８６

［７８^］ＪａｎｇＥ^，ＧｕＳ^，ＰｏｏｌｅＢ．ＣａｔｅｇｏｒｉｃａｌｒｅｐａｒａｍｅｔｅｒｉｚａｔｉｏｎｗｉｔｈＧｕｍｂｅｌＳｏｆｔｍａｘ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１６１１．０１１４４^，２０１６

［７９^］ＣｈｏＫ^，ｖａｎＭｅｒｒｉｅｎｂｏｅｒＢ^，ＧｕｌｃｅｈｒｅＣ^，ｅｔａｌ．ＬｅａｒｎｉｎｇｐｈｒａｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｕｓｉｎｇＲＮＮｅｎｃｏｄｅｒｄｅｃｏｄｅｒｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１４０６．１０７８^，２０１４

［８０^］ＰｅｔｅｒｓＪ^，ＢａｇｎｅｌｌＪＡ．Ｐｏｌｉｃｙｇｒａｄｉｅｎｔｍｅｔｈｏｄｓ．ＥｎｃｙｃｌｏｐｅｄｉａｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｂｏｓｔｏｎ^，ＵＳＡ^：Ｓｐｒｉｎｇｅｒ^，２０１０^：７７４ ７７６

［８１^］ＳｉｌｖｅｒＤ^，ＬｅｖｅｒＧ^，ＨｅｅｓｓＮ^，ｅｔａｌ．Ｄｅｔｅｒｍｉｎｉｓｔｉｃｐｏｌｉｃｙｇｒａｄｉｅｎｔａｌｇｏｒｉｔｈｍｓ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．Ｂｅｉｊｉｎｇ^，Ｃｈｉｎａ^，２０１４^：３８７３９５

［８２^］ＳｕｔｔｏｎＲＳ^，ＭｃＡｌｌｅｓｔｅｒＤ^，ＳｉｎｇｈＳ^，ｅｔａｌ．Ｐｏｌｉｃｙｇｒａｄｉｅｎｔｍｅｔｈｏｄｓｆｏｒｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｗｉｔｈｆｕｎｃｔｉｏｎａｐｐｒｏｘｉｍａｔｉｏｎ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．Ｄｅｎｖｅｒ^，ＵＳＡ^，１９９９^：１０５７ １０６３

［８３^］ＬｉｌｌｉｃｒａｐＴＰ^，ＨｕｎｔＪＪ^，ＰｒｉｔｚｅｌＡ^，ｅｔａｌ．Ｃｏｎｔｉｎｕｏｕｓｃｏｎｔｒｏｌｗｉｔｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ^（ＩＣＬＲ^）．ＳａｎＪｕａｎ^，ＰｕｅｒｔｏＲｉｃｏ^，２０１６

［８４^］ＰｆａｕＤ^，ＶｉｎｙａｌｓＯ．Ｃｏｎｎｅｃｔｉｎｇｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓａｎｄａｃｔｏｒｃｒｉｔｉｃｍｅｔｈｏｄｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１６１０．０１９４５^，２０１６

［８５^］ＳｕｔｔｏｎＲＳ．Ｌｅａｒｎｉｎｇｔｏｐｒｅｄｉｃｔｂｙｔｈｅｍｅｔｈｏｄｓｏｆｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅｓ．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ^，１９８８^，３^（１^）^：９４４

［８６^］ＴｚｅｎｇＥ^，ＨｏｆｆｍａｎＪ^，ＺｈａｎｇＮ^，ｅｔａｌ．Ｄｅｅｐｄｏｍａｉｎｃｏｎｆｕ ｓｉｏｎ^：Ｍａｘｉｍｉｚｉｎｇｆｏｒｄｏｍａｉｎｉｎｖａｒｉａｎｃｅ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸ ｉｖ^：１４１２．３４７４^，２０１４

［８７^］ＳｕｎｄｅｒｍｅｙｅｒＭ^，ＳｃｈｌｕｔｅｒＲ^，ＮｅｙＨ．ＬＳＴＭｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ^（ＩＳＣＡ^）．Ｐｏｒｔｌａｎｄ^，ＵＳＡ^，２０１２^：１９４１９７

［８８^］ＯｈＪ^，ＣｈｏｃｋａｌｉｎｇａｍＶ^，ＳｉｎｇｈＳ^，ＬｅｅＨ．Ｃｏｎｔｒｏｌｏｆｍｅｍｏｒｙ^，ａｃｔｉｖｅｐｅｒｃｅｐｔｉｏｎ^，ａｎｄａｃｔｉｏｎｉｎＭｉｎｅｃｒａｆｔ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ^（ＩＣＭＬ^）．ＮｅｗＹｏｒｋ^，

ＵＳＡ^，２０１６^：２７９０２７９９

［８９^］ＷｉｅｒｓｔｒａＤ^，ＦｏｒｓｔｅｒＡ^，ＰｅｔｅｒｓＪ^，ＳｃｈｍｉｄｈｕｂｅｒＪ．Ｒｅｃｕｒｒｅｎｔｐｏｌｉｃｙｇｒａｄｉｅｎｔｓ．ＬｏｇｉｃＪｏｕｒｎａｌｏｆｔｈｅＩＧＰＬ^，２０１０^，１８^（５^）^：６２０６３４

［９０^］ＣｈｕｎｇＪ^，ＧｕｌｃｅｈｒｅＣ^，ＣｈｏＫＨ^，ＢｅｎｇｉｏＹ．Ｅｍｐｉｒｉｃａｌｅｖａｌｕａｔｉｏｎｏｆｇａｔｅｄｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｏｎｓｅｑｕｅｎｃｅ

ｍｏｄｅｌｉｎｇ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１４１２．３５５５^，２０１４

［９１^］ＡｙｔａｒＹ^，ＰｆａｆｆＴ^，ＢｕｄｄｅｎＤ^，ＬｅＰａｉｎｅＴ．Ｐｌａｙｉｎｇｈａｒｄ

ｅｘｐｌｏｒａｔｉｏｎｇａｍｅｓｂｙｗａｔｃｈｉｎｇＹｏｕＴｕｂｅ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１８０５．１１５９２^，２０１８

［９２^］ＴｏｒａｂｉＦ^，ＷａｒｎｅｌｌＧ^，ＳｔｏｎｅＰ．Ｂｅｈａｖｉｏｒａｌｃｌｏｎｉｎｇｆｒｏｍｏｂｓｅｒｖａｔｉｏｎ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ^（ＩＪＣＡＩ^）．Ｓｔｏｃｋｈｏｌｍ^，Ｓｗｅｄｅｎ^，２０１８^：４９５０４９５７

［９３^］ＥｄｗａｒｄｓＡＤ^，ＳａｈｎｉＨ^，ＳｃｈｒｏｅｃｋｅｒＹ^，ＩｓｂｅｌｌＣＬ．Ｉｍｉｔａｔｉｎｇｌａｔｅｎｔｐｏｌｉｃｉｅｓｆｒｏｍｏｂｓｅｒｖａｔｉｏｎ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１８０５．０７９１４^，２０１８

［９４^］ＧｉｂｂｏｎｓＲ．ＡＰｒｉｍｅｒｉｎＧａｍｅＴｈｅｏｒｙ．ＵｐｐｅｒＳａｄｄｌｅＲｉｖｅｒ^，ＵＳＡ^：ＰｒｅｎｔｉｃｅＨａｌｌ^，１９９２

［９５^］ＨｕＪ^，ＷｅｌｌｍａｎＭＰ．Ｍｕｌｔｉａｇｅｎｔｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^：Ｔｈｅｏｒｅｔｉｃａｌｆｒａｍｅｗｏｒｋａｎｄａｎａｌｇｏｒｉｔｈｍ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．

Ｍａｄｉｓｏｎ^，ＵＳＡ^，１９９８^：２４２２５０

［９６^］ＳｏｎｇＪ^，ＲｅｎＨ^，ＳａｄｉｇｈＤ^，ＥｒｍｏｎＳ．Ｍｕｌｔｉａｇｅｎｔｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．ＬｏｎｇＢｅａｃｈ^，ＵＳＡ^，２０１７^：７４７１７４８２

［９７^］ＷｕＹ^，ＭａｎｓｉｍｏｖＥ^，ＬｉａｏＳ^，ｅｔａｌ．ＳｃａｌａｂｌｅｔｒｕｓｔｒｅｇｉｏｎｍｅｔｈｏｄｆｏｒｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｕｓｉｎｇＫｒｏｎｅｃｋｅｒ ｆａｃｔｏｒｅｄａｐｐｒｏｘｉｍａｔｉｏｎ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．ＬｏｎｇＢｅａｃｈ^，ＵＳＡ^，２０１７^：５２７９５２８８

［９８^］ＬｏｗｅＲ^，ＷｕＹ^，ＴａｍａｒＡ^，ｅｔａｌ．Ｍｕｌｔｉａｇｅｎｔａｃｔｏｒｃｒｉｔｉｃｆｏｒｍｉｘｅｄｃｏｏｐｅｒａｔｉｖｅｃｏｍｐｅｔｉｔｉｖｅｅｎｖｉｒｏｎｍｅｎｔｓ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ^（ＮＩＰＳ^）．

ＬｏｎｇＢｅａｃｈ^，ＵＳＡ^，２０１７^：６３７９６３９０

［９９^］ＧｕｐｔａＪＫ^，ＥｇｏｒｏｖＭ^，ＫｏｃｈｅｎｄｅｒｆｅｒＭＪ．Ｃｏｏｐｅｒａｔｉｖｅｍｕｌｔｉａｇｅｎｔｃｏｎｔｒｏｌｕｓｉｎｇｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｎｏｍｏｕｓＡｇｅｎｔｓａｎｄＭｕｌｔｉａｇｅｎｔＳｙｓｔｅｍｓ^（ＡＡＭＡＳ^）．ＳａｏＰａｕｌｏ^，Ｂｒａｚｉｌ^，２０１７^：６６８３

［１００^］ＰｅｎｇＸＢ^，ＫａｎａｚａｗａＡ^，ＴｏｙｅｒＳ^，ｅｔａｌ．Ｖａｒｉａｔｉｏｎａｌｄｉｓｃｒｉｍ ｉｎａｔｏｒｂｏｔｔｌｅｎｅｃｋ^：Ｉｍｐｒｏｖｉｎｇｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^，ｉｎｖｅｒｓｅＲＬ^，ａｎｄＧＡＮｓｂｙｃｏｎｓｔｒａｉｎｉｎｇｉｎｆｏｒｍａｔｉｏｎｆｌｏｗ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ^：１８１０．００８２１^，２０１８

［１０１^］ＣｈｏｉＪ^，ＫｉｍＫＥ．Ｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｉｎｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅｅｎｖｉｒｏｎｍｅｎｔｓ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａ ｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ^（ＩＪＣＡＩ^）．

Ｐａｓａｄｅｎａ^，ＵＳＡ^，２００９^：１０２８１０３３

［１０２^］ＰｅｎｇＸＢ^，ＡｂｂｅｅｌＰ^，ＬｅｖｉｎｅＳ^，ＶａｎＤｅＰａｎｎｅＭ．ＤｅｅｐＭｉｍｉｃ^：Ｅｘａｍｐｌｅｇｕｉｄｅｄｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｏｆｐｈｙｓｉｃｓｂａｓｅｄｃｈａｒａｃｔｅｒｓｋｉｌｌｓ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ^，２０１８^，３７^（４^）^：１４３^：１１４３^：１４

［１０３^］ＰｉｎｔｏＬ^，ＤａｖｉｄｓｏｎＪ^，ＳｕｋｔｈａｎｋａｒＲ^，ＧｕｐｔａＡ．Ｒｏｂｕｓｔａｄｖｅｒｓａｒｉａｌｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^／^／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ^（ＩＣＭＬ^）．Ｓｙｄｎｅｙ^，Ａｕｓｔｒａｌｉａ^，２０１７^：２８１７２８２６

０５

３计　　算　　机　　学　　报２０２０年

《计

算

机

学

报

》

犔犐犖犑犻犪犎犪狅^，Ｍ．Ｓ．ｃａｎｄｉｄａｔｅ．Ｈｉｓｍａｉｎｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇａｎｄｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．

犣犎犃犖犌犣狅狀犵犣犺犪狀犵^，Ｐｈ．Ｄ．^，ａｓｓｏｃｉａｔｅｐｒｏｆｅｓｓｏｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^，ｉｎｔｅｌｌｉｇｅｎｔｐｌａｎｎｉｎｇ^，ａｎｄｍｕｌｔｉａｇｅｎｔｓｙｓｔｅｍｓ．

犑犐犃犖犌犆犺狅狀犵^，Ｍ．Ｓ．ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇａｎｄｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ．

犎犃犗犑犻犪狀犢犲^，Ｐｈ．Ｄ．^，ａｓｓｏｃｉａｔｅｐｒｏｆｅｓｓｏｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｎｄｍｕｌｔｉａｇｅｎｔｓｙｓｔｅｍｓ．

犅犪犮犽犵狉狅狌狀犱

Ｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ

（ＧＡＮｓＩＬ），ａｓａｃｏｍｂｉｎａｔｉｏｎｏｆｔｈｅａｄｖｅｒｓａｒｉａｌｔｒａｉｎｉｎｇｍｅｃｈａｎｉｓｍｏｆｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓａｎｄｔｈｅｉｄｅａｏｆｔｈｅｉｔｅｒａｔｉｖｅｉｍｐｒｏｖｅｍｅｎｔｉｎｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｂａｓｅｄｏｎｉｎｖｅｒｓｅｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ^，ｈａｓａｃｈｉｅｖｅｄｒｅｍａｒｋａｂｌｅｓｕｃｃｅｓｓｅｓｉｎａｖａｒｉｅｔｙｏｆｄｏｍａｉｎｓ^，ｓｕｃｈａｓａｕｔｏｎｏｍｏｕｓｄｒｉｖｉｎｇ^，ｓｉｍｕｌａｔｉｏｎ，ｒｏｂｏｔｉｃｃｏｎｔｒｏｌ，ａｎｄｓｏｏｎ．Ｏｕｒｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｍａｉｎｉｄｅａｏｆｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｉｍｉｔａｔｉｏｎｌｅａｒｎｉｎｇ^（ＧＡＩＬ^）^，ｓｕｍｍａｒｉｚｅｓｔｗｏｍａｉｎｐｒｏｂｌｅｍｓｉｎＧＡＩＬ^，ｏｕｔｌｉｎｅｓｍａｎｙｓｏｌｕｔｉｏｎｓｔｏｔｈｅｓｅｔｗｏｐｒｏｂｌｅｍｓ^，ｄｉｓｃｕｓｓｅｓ

ｓｏｍｅｐｒａｃｔｉｃａｌＧＡＮｓＩＬａｐｐｌｉｃａｔｉｏｎｓ^，ａｎｄｈｉｇｈｌｉｇｈｔｓｓｏｍｅｆｕｔｕｒｅｔｒｅｎｄｓｉｎｔｈｅｆｉｅｌｄ，ｗｉｔｈｔｈｅｈｏｐｅｏｆｐｒｏｖｉｄｉｎｇａｖａｌｕａ

ｂｌｅｒｅｆｅｒｅｎｃｅｉｎｉｔｓｆｕｔｕｒｅｄｅｖｅｌｏｐｍｅｎｔ．

ＴｈｉｓｐａｐｅｒｉｓｐａｒｔｉａｌｌｙｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ^（６１８７６１１９^，６１５０２３２３^）ａｎｄｔｈｅＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＪｉａｎｇｓｕ^（ＢＫ２０１８１４３２^）．Ｔｈｅｓｅｐｒｏｊｅｃｔｓａｉｍｔｏｅｎｒｉｃｈｔｈｅｌｅａｒｎｉｎｇａｎｄｐｌａｎｎｉｎｇｔｈｅｏｒｙａｎｄｄｅｖｅｌｏｐｅｆｆｉｃｉｅｎｔｌｅａｒｎｉｎｇａｎｄｐｌａｎｎｉｎｇａｌｇｏｒｉｔｈｍｓｔｏｅｘｐａｎｄｔｈｅｐｏｗｅｒａｎｄａｐｐｌｉｃａｂｉｌｉｔｙｏｆｌｅａｒｎｉｎｇａｎｄｐｌａｎｎｉｎｇａｇｅｎｔｓｉｎ

ｐａｒｔｉａｌｌｙｏｂｓｅｒｖａｂｌｅｓｔｏｃｈａｓｔｉｃｅｎｖｉｒｏｎｍｅｎｔｓ．

《 计

算

机

学

报

》

《 计

算

机

学

报

》

《 计

算

机

学

报

》

《 计

算

机

学

报

》

《计

《计

《计

《计