解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari
游戏,并且达到了人类水平。
在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体文献)。作者将这种处理技术直接用于强化学习中。而由于强化学习学习方式的特殊性(奖励延迟稀疏、状态之间高度相关,强化学习其所学习的数据会发生改变,并不会满足一个固定的分布)。因此将神经网络直接用于强化学习还是会有一定的难度的。
文章基于1992年文献1
Q-Learning算法的强化学习框架,结合卷积神经网络强大的图像处理能力从而提出了一个最基本的端到端的高维像素控制策略。
上述框架是能处理像素这种高维数据的问题,但是强化学习本身的这种数据之间的这种相关性和数据分布的不平稳性依然没有得到解决。作者依据1993年文献2
采用经验回放机制来解决这个问题。这种经验回放机制,期望强化学习,学习的分布能够从最开始随机的数据中的慢慢过渡到现在的效果比较好的这种情况中来。
为了提高强化学习的泛化能力,采用函数近似的方法来评估动作-值函数。。其核心算法和网络的描述原文如下所示:
这里需要看懂这个Target Network
,以及公式3
所有符号以及下标的含义。这个模型的算法是Model-free
和off-policy
的。
其算法伪代码如下所示:
相比于标准的Q-Learning
算法,DQN
算法改进如下:
作者在2013年文献3
所提供的环境Arcade Learning Environment (ALE)
中的Atari
游戏中实验。同一个网络参数和框架在三个游戏中打败了人类专家。
最左边这两幅图描述的是平均奖励,看起来是没有收敛;但是右边两幅图预测的最大Q值要平稳很多。也算是给神经网络收敛性做了一个实验证明吧。最终取得的效果以及对后世的影响都是非常巨大的。其性能可与人类选手媲美。
这篇文章是arXiv上面的一篇文章。第一作者Volodymyr Mnih
是Toronto大学的机器学习博士,师从Geoffrey Hinton
,同时也是谷歌DeepMind的研究员。硕士读的Alberta大学,师从Csaba Szepesvari
。
George E. Dahl, Dong Yu, Li Deng, and Alex Acero. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1):30 –42, January 2012.
Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton. Speech recognition with deep recurrent neural networks. In Proc. ICASSP, 2013.
我的微信公众号名称:深度学习与先进智能决策 微信公众号ID:MultiAgent1024 公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!