强化学习是智能体(Agent)与环境(Environment)不断交互, 不断提高自己的决策能力的过程.
面向智能体的学习——通过与环境进行交互
通过试错和优化进行学习——用试错后的**奖励(或惩罚)**来学习
总体过程:环境(Environment)会给智能体(Agent)一个观测值(Observation)(
全观测时,状态 state 和 observation 等价), 智能体接收到环境给的观测值之后会做出一个动作(Action), 这个动作给予一个奖励(Reward), 以及给出一个新的观测值. 智能体根据环境给予的奖励值去更新自己的策略(Policy)。
强化学习的目的
每个时刻 :
智能体(Agent)
环境(Environment)
智能体是我们能控制的部分,环境是我们无法控制的部分。 在不同的问题中,智能体和环境所指代的对象不同。
奖励 是强化学习的核心,强化学习的目标就是最大化期望累积奖励
如果一个问题不满足奖励假设,就不能用强化学习解决!
奖励值 和 回报值(Return) 的比较
回报值 又称累积折扣奖励(cumulative discounted reward)。step 时的 return 为
其中表示折扣因子,公式中重视每一步 reward 的程度随着时间衰减,是一个可调的超参数。
智能体的任务就是去最大化累积奖励,即最大化整个过程的奖励.
因此,智能体的任务可以转化成最大化累积奖励的期望。
根据历史:
本质上,状态是历史的一个函数:
状态可以是全部历史或者部分历史
下棋时,棋盘当前的布局可以看做状态 打砖块游戏中,前几帧的观测可以看做状态
对于智能体来说,环境状态是未知的,智能体状态是已知的 智能体通过智能体的状态来做出相应的动作 没有特殊说明的情况下,我们所说的状态均指智能体状态
全观测:
部分观测:
智能体的组成主要包括:
Policy 是从状态到动作的映射, 用表示, 它告诉智能体如何挑选下一步的 action.
强化学习中有两类 policy:
在确定性策略中,输入一个状态,输出的是某一个确定的 action.
在随机性策略中,输入一个状态,输出的是每个 action 的概率分布.
指智能体对环境的预测模型,分为两部分
按环境:
按智能体成分:
按有无模型:
按使用的手段:
解决序列决策问题有两个基本方法:
强化学习:
规划:
环境模型不精确时,既利用环境进行规划,又与环境交互进行强化学习 --> 基于模型的强化学习 当环境模型很精确时,可以直接用规划的方式求解
两者 trade-off,同等重要。