这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。
如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partially-Observable Markov Decision Process (POMDP)) 中难以获得全部的可观测信息这个问题。
主要就是对DQN
做一个改进,变成了Deep Recurrent Q-Network (DRQN)
。中国有句古话叫前因后果,DQN
中一般取4帧图像数据,对序贯状态的割裂程度比较厉害,往往很难考虑到很久之前的状态对现在的影响,而有些问题却又得考虑周全。
作者采用Hochreiter
和 Schmidhuber
1997年提出来的Long Short Term Memory
(LSTM)结合DQN来解决这个部分可观测的问题。
其网络结构如下所示:
由于网络里面有LSTM
,作者主要考虑了两种更新方式:Bootstrapped Sequential Updates
和Bootstrapped Random Updates
。
Episode
,从头到尾,整个序列LSTM
走完。Episode
中随机抽取一个片段出来更新。 这两种更新方式的区别在于隐含状态是否清零。每个Episode
更新的话能学到更多的东西,而随机的话更符合DQN
中随机采样的思想。这两种方法的实验结果是非常相似的。作者文中采用的是随机采样的方式,期望它具有更强的泛化能力。
部分可观测环境:在每个timestep
,游戏图像都会以0.5
的概率模糊化。这里作者给出了两个结果,一个最好的和一个最差的。
作者还提出了一个问题:直接在MDP
框架下训练的强化学习算法,能否直接泛化到POMDP
上面呢?实验结果如下所示:
从上述结果可以看出,DRQN
的泛化能力比DQN
的鲁棒性要好很多。这也就说明用了LSTM
不仅能处理POMDP
并且性能、鲁棒性都较DQN
会有所提升。
这是一篇15年发表在national conference on artificial intelligence
上的一篇文章。作者Matthew Hausknecht
是得克萨斯大学奥斯汀分校(University of Texas at Austin)的博士,目前是微软的高级研究员。
作者也不是这篇文章的思想创始人,早在文献1
:2007
年Wierstra
就有将LSTM
用于解决部分可观测马尔可夫决策框架下的论文,但是是用在Policy Gradient
的方法下,并且DRQN
还结合了卷积神经网络一起训练,避免了手工提取特征。
文献2
:在2001
年的时候,Bakker
在cartpole
任务下实验了,LSTM
解决POMDP
是要比RNN
要好的。
我的微信公众号名称:深度学习与先进智能决策 微信公众号ID:MultiAgent1024 公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!