• 沒有找到結果。

相较于强化学习RL方法模仿学习方法不 需要专家手工设置合适的奖赏函数.它模仿专家演 示的样本从而学习得到与人类相当的策略.基于生 成对抗网络的模仿学习GANsIL是模仿学习的 一类重要方法它将基于逆向强化学习的模仿学习

IRLIL推广到了更复杂的大规模问题使得模 仿学习方法能够解决现实的应用问题.并且随着生 成对抗网络GANs和RL等技术的不断发展 GANsIL中遇到的模态崩塌与生成样本利用效率

低等问题将以更为有效的方式得到解决.从而 GANsIL能够稳定有效地解决实际问题.

本文首先介绍了最早出现且最具代表性的 GANsIL方法即生成对抗模仿学习GAIL的核 心思想然后分析了其所面临的模态崩塌和生成样 本利用效率低等问题.接着从这两个问题出发综述 了前沿的改进工作.其中针对模态崩塌的问题综述 了结合GANs技术的改进方法针对生成样本利用 效率低的问题综述了结合强化学习等技术的改进方 法.最后综述了GANsIL在不同观察环境和多智能 体等方面的拓展.

综上本文将GANsIL的未来发展前景作如下 展望结合GANs技术的发展GANsIL在模 态崩塌问题将进一步改善并且二者博弈的训练过 程将更为稳定且易于训练结合RL技术的 发展GANsIL将在多智能体方面部分可观察的 马尔可夫决策过程等方面有更深的应用拓展

随着深度学习的发展GANsIL将具有更强的 表征能力并能应用于需要感知复杂状态的实际 问题.不仅如此在决策问题中对抗式学习的运用

计  算  机  学  报

《 计

将更为广泛如将对抗式的模仿学习结合在RL 中或将对抗式学习用来使得RL具有更强的泛 化性和鲁棒性

  在此感谢南京大学的俞扬教授参与本文的 讨论并给出了大量的修改意见

参考文献

gAnCJ eofGowhdpn

gAY.Agv nM

nRSoAG.RtL

uQgZta.A nd

刘全翟建伟章宗长等.深度强化学习综述.计算机学

Ar.AaAaS

高阳陈世福陆鑫.强化学习研究综述.自动化学报

uY fdprtlgaddsont

赵冬斌邵坤朱圆恒等.深度强化学习综述兼论计算机 围棋的发展.控制理论与应用

ow

eW hN

RW

rsgcvpta

eadS.S

nGJAr

nA eadStL

iYuYgFta.I gbdolseg

李耀宇朱一凡杨峰等.基于逆向强化学习的舰载机甲板 调度优化方案生成方法.国防科技大学学报

nHnSuM

金卓军钱徽陈沈秩朱淼良.回报函数学习的学徒学习 综述智能系统学报

AY nM

gwhGnp nPgS

JK wY

softe3hNlInP

nY

王坤峰苟超段艳杰等.生成式对抗网络GN的研究进 展与展望.自动化学报

2期 林嘉豪等基于生成对抗网络的模仿学习综述

《 计

nGEoShYW.Af

nM

oKnMrBeC ersugRNerf lmet.avpta

rDrGsNcp nM

RS sfrrtlgwhf hN gS

hdprsoe4

uDsO.Cggea dacmvpta

gN

Mn emsofte1hA eofteIlShC

mV nM e3dIlC.NwY

eCoKHoY no

rYnDeTgh

ngsbywgYvp

lGePgf softe2hIlJ nA

AD tpsfmo.avpta

nMP.M nM

uYvEoS rdprgugK dasofte3tN

tNnPgS

JKvMrMJ tclugdprtl dMtSoP

mKE tCeonA

MT

oLnJrRaA.R lCeonMeL

计  算  机  学  报

《 计

犌犆

dm

gbdongea

sacnoea gm sinavyofdhasa em om smysop

lGLadh

2期 林嘉豪等基于生成对抗网络的模仿学习综述

《 计

相關文件