强化学习是机器学习的领域之一,其重点是给定的主体在一个环境中,为了获得更大的回报,可能采取的行动。而马尔科夫决策过程是强化学习的基础,其为我们提供了一种形式化的方法——顺序决策。
提示:本系列文章为学习强化学习过程中的笔记梳理,欢迎指正!
马尔科夫决策过程全称 markov decision processes,简称MDPs,
马尔科夫来自著名的俄罗斯数学家——安德烈·马尔科夫(Andrey Markov)
“马尔可夫”通常意味着在当前状态下,未来和过去是独立的。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。
Environment :交互的环境
Agent:实体决策者
States:所有的可能的环境状态
Actions:实体可以在环境中执行的所有操作
Rewards:实体与环境交互可以从中获得的所有奖励
在MDPs中,一个实体决策者与其放置的环境交互,随着时间的推移,相互作用会依次发生。在每一个时间步,实体将获得环境状态的一些表示,然后实体选择要执行的操作,环境随此转换成某种新状态,实体从中得到相应奖励。
上图很好的说明了马尔科夫决策过程的思想,从给定状态中选择动作的,过渡到新的状态并获得奖励,一次一次的连续发生,形成一种轨迹。这种顺序决策的过程就是马尔科夫决策过程。以下分步说明:
第一步:在时间t,环境处于状态st;
第二步:实体观察当前状态,并选择行动At;
第三步:环境转换到状态st+1,并授予实体奖励Rt+1;
第四步:以上过程在下一时间步重新开始。
在一个MDP中,有一系列的状态 S,一系列的动作 A,一系列的奖励 R。假设这些集合都是有限的,有有限个元素。在时间 t,实体接收环境状态报告St,St属于状态集合 S。基于该状态,实体选择一个动作At,At属于状态集合 A。基于这个动作得到状态动作对(St,At),然后进入下一时间步 t+1,环境也进入新的状态 St+1,其也属于属于状态集合 S,并收到奖励 Rt+1,Rt+1属于状态集合 R。我们可以把这个获得奖励的过程当做一个奖励函数,即 f(St,At)=Rt+1。