强化学习主要解决的是序贯决策问题。(智能体与环境交互,根据环境的反馈做出决策,最终得到最优策略使得积累回报的期望最大)。单智能体想多智能体过度的难点。
多智能体博弈强化学习基本概念
马尔可夫决策(MDP)
随机博弈(SG)
部分可观察的随机博弈(POSG)
纳什均衡
一组策略\((σ^1_*,...,σ^n_*)\),该策略是的每个玩家在其他玩家策略不变的情况下,该玩家的收益不会减少,即对 $ ∀s∈S,i=1,2,...,n $ ,都有:
\[R^i(s,σ^1_*,...,σ^n_*)≥R^i(s,σ^1_*,...,σ^{i-1},σ^i,σ^{i+1},...,σ^n_*) \],其中\(σ^i∈\prod^{i},\prod^{i}\)是玩家i所有可能的策略集合。
元博弈
标准博弈
共同利益博弈
团队博弈:每个智能体之需要维护自己的值函数,而且值函数只取决于当前的状态和动作,从而避免了考虑联合动作时的环境非平稳和维度爆炸问题。
最优解的关键:如何解决智能体之间的合作关系。
随机势博弈(SPG)
Dec-POMDP
不同利益博弈
有限零和博弈
参与博弈的玩家个数有限,并且是严格的竞争关系,所有玩家的总体收益和指出的总和为零。
有限一般和博弈
扩展式博弈
完全信息的扩展式博弈
不完全信息的扩展式博弈
即时
难点:①子博弈之间相互关联;②存在状态不可分的信息集,这使得强化学习中基于状态估值方法不再适用;③博弈求解规模比较大。
反事实遗憾值最小化算法(CFR)
虚拟自我对弈算法(NFSP)
多智能体博弈强化学习算法的重难点