model-free
的强化学习算法已经在Atari
游戏上取得了巨大成功,但是与人类选手相比,model-free
的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari
游戏的目的,作者提出了一种基于video prediction models的model based Simulated Policy Learning (SimPLe
)算法,来解决需要大量交互数据的问题。在所学到的model上得到的policy,用于原始model上能够取得较好效果。主要贡献在于将planning算法与learned model结合起来,并取得了SOTA
效果。
人类选手可以在几分钟内学会玩Atari
游戏,而及时最好的model-free强化学习方法也需要成百上千步迭代尝试才能达到,需要几周的训练时间。而人类选手能够做地这么好的原因就是:人类已经具备一些先验知识能够预测游戏接下来的走势。也有一些结合深度学习预测下一帧数据的方法,或者是预测奖励的方法,但是它们大多数都是用于model-free的强化学习算法上。model-free的强化学习算法做地比较好的有:Rainbow
和IMPALA
两大算法。而基于model-based的强化学习方法能够大大提高采样效率,以往的方法大多都在学习潜在的动力学方程,以及一些新奇的结合好奇心、反事实等东西做一些创新,以及其它的一些改进方法。
使用video prediction技术学习model,并且基于所学到的model训练得到policy。
这一部分主要是依据Junhyuk Oh 2015年在Atari所做的Video prediction
的工作,和Silvia Chiappa在2017年所做的Recurrent environment simulators
这两篇文章来做的。本文作者主要是focus在学习如何预测才能更好地玩游戏,而不是在学习如何预测,而学习出来的model用于得到policy,并且在原环境model上也能取得较好效果。
Felix Leibfried在 2016 年将Video prediction
的工作扩展到Video和reward的同时预测,但是并没有基于预测结果去做得到policy的这部分工作。大多数的这些类似的工作(包括本文)都是在隐式地编码游戏的模型。
为了获取更好的预测video的网络结构,作者基于models developed in the context of robotics和下述文献提出了stochastic video prediction model。
predictive model has stochastic latent variables so it can be applied in highly stochastic environments
作者用的ppo算法。
大体上的思路:其实就是用神经网络构建一个环境模型(world model),基于这个学习到的world model去得到policy,然后再拿这个policy与真实的环境进行交互,收集数据,然后更新神经网络训练得到的world model。算法伪代码如下:
目的就是为了在减少与真实的环境互动的同时,获得在真实环境上较好的policy。初始的world model训练数据来自真实环境的随机rollout数据。
为了获取更好的world model,作者尝试了很多结构,最终提出一种 novel stochastic video prediction model 如下图所示:
SimPLe在大多数游戏中比现今的SOTA算法还具有更高的采样效率。具体实验结果可以查看论文,主要是应用在Atari上的工作。
论文已被ICLR2020接收,作者Lukasz Kaiser谷歌大脑成员,主要研究神经网络和NLP领域,早期有做机器博弈相关理论研究。
Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Gheshlaghi Azar, and David Silver. Rainbow: Combining improvements in deep reinforcement learning. In Sheila A. McIlraith and Kilian Q. Weinberger (eds.), Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pp. 3215–3222. AAAI Press, 2018
Lasse Espeholt, Hubert Soyer, Rémi Munos, Karen Simonyan, Volodymyr Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, Shane Legg, and Koray Kavukcuoglu. IMPALA: scalable distributed deep-rl with importance weighted actor-learner architectures. In Proceedings of the 35th International Conference on Machine Learning, ICML, pp. 1406–1415, 2018.
Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, and Satinder P. Singh. Action conditional video prediction using deep networks in atari games. In NIPS, pp. 2863–2871, 2015.
Silvia Chiappa, Sébastien Racanière, Daan Wierstra, and Shakir Mohamed. Recurrent environment simulators. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. URL https: //openreview.net/forum?id=B1s6xvqlx.
Felix Leibfried, Nate Kushman, and Katja Hofmann. A deep learning approach for joint video frame and reward prediction in Atari games. CoRR, abs/1611.07078, 2016.
我的微信公众号名称:深度学习先进智能决策 微信公众号ID:MultiAgent1024 公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!