Java教程

2021-10-23

本文主要是介绍2021-10-23,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

《强化学习篇之马尔科夫决策过程》


文章目录

  • 《强化学习篇之马尔科夫决策过程》
  • 前言
    • 一、马尔科夫决策过程(MDPs)是什么?
      • 1.马尔科夫的由来
      • 2.MDPs基本内容:
      • 3.MDPs:
    • 二、马尔科夫决策过程(MDPs)数学表示


前言

强化学习是机器学习的领域之一,其重点是给定的主体在一个环境中,为了获得更大的回报,可能采取的行动。而马尔科夫决策过程是强化学习的基础,其为我们提供了一种形式化的方法——顺序决策。


提示:本系列文章为学习强化学习过程中的笔记梳理,欢迎指正!

一、马尔科夫决策过程(MDPs)是什么?

马尔科夫决策过程全称 markov decision processes,简称MDPs,

1.马尔科夫的由来

马尔科夫来自著名的俄罗斯数学家——安德烈·马尔科夫(Andrey Markov)

在这里插入图片描述
“马尔可夫”通常意味着在当前状态下,未来和过去是独立的。马尔可夫性质是所有现代强化学习算法的存在和成功的基础。

2.MDPs基本内容:

Environment :交互的环境
Agent:实体决策者
States:所有的可能的环境状态
Actions:实体可以在环境中执行的所有操作
Rewards:实体与环境交互可以从中获得的所有奖励

3.MDPs:

在MDPs中,一个实体决策者与其放置的环境交互,随着时间的推移,相互作用会依次发生。在每一个时间步,实体将获得环境状态的一些表示,然后实体选择要执行的操作,环境随此转换成某种新状态,实体从中得到相应奖励。

在这里插入图片描述
上图很好的说明了马尔科夫决策过程的思想,从给定状态中选择动作的,过渡到新的状态并获得奖励,一次一次的连续发生,形成一种轨迹。这种顺序决策的过程就是马尔科夫决策过程。以下分步说明:

在这里插入图片描述

第一步:在时间t,环境处于状态st
第二步:实体观察当前状态,并选择行动At
第三步:环境转换到状态st+1,并授予实体奖励Rt+1
第四步:以上过程在下一时间步重新开始。

二、马尔科夫决策过程(MDPs)数学表示

在一个MDP中,有一系列的状态 S,一系列的动作 A,一系列的奖励 R。假设这些集合都是有限的,有有限个元素。在时间 t,实体接收环境状态报告St,St属于状态集合 S。基于该状态,实体选择一个动作At,At属于状态集合 A。基于这个动作得到状态动作对(St,At),然后进入下一时间步 t+1,环境也进入新的状态 St+1,其也属于属于状态集合 S,并收到奖励 Rt+1,Rt+1属于状态集合 R。我们可以把这个获得奖励的过程当做一个奖励函数,即 f(St,At)=Rt+1

这篇关于2021-10-23的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!