原文链接:https://blog.csdn.net/baidu_36669549/article/details/86178446
Hierarchical Macro Strategy Model for MOBA Game AI
MOBA游戏AI的分层宏观策略模型
游戏AI的下一个挑战在于实时策略(RTS)游戏。 RTS游戏提供部分可观察的游戏环境,其中虚拟玩家agents在比GO大得多的动作空间中彼此交互。掌握RTS游戏需要强大的宏观策略和精细的微观级别执行。最近,微观层面的执行取得了很大进展,但仍然缺乏完整的宏观策略解决方案。在本文中,我们提出了一种新的基于学习的分层宏观策略模型,用于掌握MOBA游戏,一种RTS游戏的子类型。通过分层宏观策略模型训练,虚拟玩家agents人明确地制定宏观策略决策并进一步指导他们的微观层面执行。此外,每个虚拟玩家agents人都做出独立的策略决策,同时通过利用一种新颖的模仿交叉通信机制与盟友进行沟通。我们对流行的5v5多人在线对战竞技场(MOBA)游戏进行综合评估。我们的5-AI团队对人类玩家团队的胜率为48%,在玩家排名系统中排名前1%。
在AlphaGo击败世界GO冠军李世石之后,Light已经放弃了人工智能(Silver et al.2016)。 从那以后,游戏AI不仅吸引了研究人员和公众的前所未有的关注。 游戏AI的目标远不止机器人玩游戏。 相反,游戏提供了模拟现实世界的理想环境。 AI研究人员可以在游戏中进行实验,并将成功的AI能力转移到现实世界。
虽然AlphaGo是普通人工智能目标的里程碑,但与现实世界相比,它所代表的问题类别仍然很简单。 因此,最近研究人员非常关注实时策略(RTS)游戏,如Dota(OpenAI 2018a)和星际争霸(Vinyals等2017; Tian等2017),它代表了更高一级复杂性的问题。 Dota是一个著名的5v5多人在线对战竞技场(MOBA)游戏。 每个玩家控制一个英雄,并与四个盟友合作,以保卫盟友的炮塔,攻击敌人的炮塔,通过杀死小兵等来收集资源。目标是摧毁敌人的基地。
与GO相比,有四个主要方面使RTS游戏更加困难:1)计算复杂性。 RTS游戏的动作空间或状态空间的计算复杂度可高达10^20,000,而GO的复杂度约为10^250(OpenAI 2018b)。 2)多智能体。 玩RTS游戏通常涉及多个虚拟玩家agents。 对多个虚拟玩家agents来说,协调和合作至关重要。 3)信息不完善。 与GO不同,许多RTS游戏利用迷雾模式(Vinyals等人2017)来增加游戏的不确定性。 当游戏地图不能完全观察时,必须考虑彼此之间的游联系。 4)稀疏和延迟的奖励Sparse and delayed rewards。 在GO中学习游戏奖励是具有挑战性的,因为奖励通常是稀疏和延迟的。 RTS游戏长度通常可以大于20,000帧,而每个GO游戏通常不超过361步。
要掌握RTS游戏,玩家需要在宏观策略操作和微观层面执行方面拥有强大的技能。在最近的研究中,对微观层面的执行给予了很多关注和尝试(Vinyals等人2017; Tian等人2017; Synnaeve和Bessiere 2011; Wender和Watson 2012)。到目前为止,OpenAI使用强化学习开发的Dota2 AI,即OpenAI Five,取得了最先进的进展(OpenAI 2018a)。 OpenAI Five使用近端策略优化算法和团队奖励直接在微观行动空间上进行训练(Schulman等人,2017)。在国际2018年(DOTA2 2018)举行的示范比赛期间,OpenAI Five展示了与顶级专业Dota2团队相媲美的强大团队技能和协调能力。 OpenAI的方法没有明确地模拟宏观策略,并尝试使用微观级别游戏来学习整个游戏。然而,由于宏观策略管理的短板,OpenAI Five无法击败专业团队(Vincent 2018; Simonite 2018)。
在明确的宏观策略运作中也做了相关的工作,主要集中在导航上。导航旨在为虚拟玩家agents提供合理的目的地点和有效路线。大多数相关的导航工作使用影响图或潜在领域(DeLoura 2001;Hagelbäck和Johansson 2008; do Nascimento Silva和Chaimowicz 2015)。影响图使用手工方程量化英雄。然后,使用规则融合多个影响图,以提供单值输出以导航虚拟玩家agents。在宏观策略操作方面,提供目的地是导航的最重要目的。在正确的时间到达正确位置的能力使得高端玩家和普通玩家的本质区别。规划也被用于宏观策略运作。 Ontanon等。提出了在RTS游戏中搜索分层任务的Adversarial Hierarchical-Task Network(AHTN)Planning(Ontanón和Buro 2015)。尽管AHTN在迷你RTS游戏中显示出有希望的结果,但它存在效率问题,这使得难以直接应用于完整的MOBA游戏。
尽管有大量高水平的文献,但以前的宏观策略工作未能提供完整的解决方案:
1.首先,通过学习微观层面的行动空间隐含地推理宏观策略可能太困难了。 OpenAI Five在微观层面执行和宏观策略操作之间的能力差距是显而易见的。 通过简单地查看微观层面的行动和奖励,让模型找出高层策略可能过于乐观了。 我们认为有必要进行明确的宏观策略层面建模。
2.其次,先前关于显式宏观策略的工作在很大程度上依赖于手工制作的影响图/势场计算和融合方程。 在实践中,通常需要手动决定数千个数值参数,这使得几乎不可能获得良好的性能。 另一方面,规划方法不能满足全MOBA游戏的效率要求。
3.第三,RTS游戏宏观策略操作中最具挑战性的问题之一是多个虚拟玩家agents之间的协调。 尽管如此,据我们所知,以前的工作没有明确地考虑它。 OpenAI Five在微观级别建模中使用团队奖励来考虑多虚拟玩家agents协调。 然而,OpenAI Five的每个虚拟玩家agents人都在不了解盟友的宏观策略决策的情况下做出决策,难以在宏观策略层面发展顶级协调能力。
最后,我们发现建模策略阶段对于MOBA游戏AI性能至关重要。 但是,据我们所知,以前的工作没有考虑到这一点。
然而,教虚拟玩家agents人学习宏观策略的运作具有挑战性。 在数学上定义宏观策略,例如团战和单带,首先是困难的。 此外,将宏观策略纳入OpenAI Five强化学习框架(OpenAI 2018a)之上需要相应的执行才能获得回报,而宏观策略执行则是一种复杂的自学能力。 因此,我们认为有监督学习是一个更好的方案,因为可以充分利用高质量的游戏回放来学习宏观策略以及相应的执行样本。 请注意,使用监督学习学习的宏观策略和执行可以进一步充当强化学习的初始化对策。
在本文中,我们提出了分层宏观策略(HMS)模型 ——一种用于MOBA游戏(如Dota)的通用监督学习框架。 HMS直接解决了MOBA游戏的计算复杂性和多智能体挑战。 更具体地,HMS是通过在游戏阶段建模的指导下预测对游戏地图的关注来进行宏观策略操作的分层模型。 因此,HMS通过结合游戏知识来降低计算复杂性。 此外,每个HMS虚拟玩家agents都通过与队友虚拟玩家agents的新型沟通机制进行学习,以应对多智能体挑战。 最后,我们在流行的MOBA游戏中进行了大量实验,以评估我们的AI能力。 我们与数百名人类玩家队伍相匹配,这些玩家在排名系统中排名超过99%的玩家,并且获得了48%的胜率。
本文的其余部分安排如下:首先,我们简要介绍多人在线战术竞技(MOBA)游戏,并将计算复杂性与GO进行比较。 其次,我们说明了我们提出的分层宏观策略模型。 然后,我们在第四部分介绍实验结果。 最后,我们总结并讨论未来的工作。
MOBA是目前RTS游戏中最受欢迎的类型之一。 MOBA游戏占全球在线游戏的30%以上,其中包括诸如Dota,英雄联盟和王者荣耀(Murphy 2015)等游戏。 根据2018年2月的全球数字游戏市场报告,MOBA游戏在PC和手机游戏(SuperData 2018)中的排名第一。
在MOBA中,标准游戏模式需要两个5人队伍相互比赛。 每个玩家控制一个英雄。 MOBA中有许多英雄,例如,在王者荣耀中超过80个英雄。 每个英雄都设计独特,具有特殊的特点和技能。 玩家通过游戏界面控制英雄的移动和技能释放。
如图所示。 1a,王者荣耀玩家使用左下角转向按钮来控制动作,而右下角则设置按钮来控制技能。 可通过主屏幕观察周围环境。 玩家还可以通过左上角迷你地图了解完整的地图情况,其中可观察的炮塔,小兵和英雄显示为缩略图。 只有当他们是盟友的英雄或者他们与盟友的英雄相距一定距离时才能观察到英雄。
每个队都有三个炮塔用于防守,每一路有三个炮塔。 地图上还有四个野区,可以通过打野获得资源以增加金币和经验。 每个英雄都以最低金币和等级1开始。每个团队都试图利用资源获得尽可能多的金币和经验,以购买物品和升级。 最终目标是摧毁敌人的水晶。 MOBA的概念图如图所示。1B。
图1:(a)王者荣耀UI。 玩家使用左下角转向按钮来控制动作,而右下角则设置按钮来控制技能。 玩家可以通过屏幕观察周围环境,并使用左上角查看迷你全图。 (b)MOBA的示例地图。 两支球队的颜色为蓝色和红色,每支球队拥有9个炮塔(圆形圈)和一个水晶基地(在方块中盘旋)。 四个丛林区域的编号从1到4。
要掌握MOBA游戏,玩家需要具备出色的宏观策略操作和熟练的微观级别执行。 常见的宏观策略包括开放,限制,消息(抓人),伏击(埋伏)等。熟练的微观层面执行需要高度的控制准确性和对技能的损害和影响的深刻了解。 宏观策略操作和微观层次执行都需要掌握好时机,这使得它极具挑战性和趣味性。 有关MOBA的更多讨论可以在(Silva和Chaimowicz 2017)中找到。
接下来,我们将使用王者荣耀来量化MOBA的计算复杂性。
表1:GO和MOBA之间的计算复杂性比较。
王者荣耀的正常游戏长度约为20分钟,即游戏核心约为20,000帧。 在每个框架中,玩家通过数十个选项做出决定,包括具有24个方向的移动按钮,以及具有相应释放位置/方向的一些技能按钮。 即使有显着的离散化和简化,以及反应时间增加到200ms,动作空间也达到10^1500。
至于状态空间,王者荣耀地图的分辨率是130,000乘130,000像素,每个英雄的直径是1,000。 在每一帧,每个英雄可能有不同的状态,如生命值,等级,金币。 同样,国家空间的数量级为10^20000显着简化。
表中列出了MOBA和GO之间的动作空间和状态空间的比较。1。
我们设计MOBA AI宏观策略模型的动机源于人类玩家如何做出策略决策。 在MOBA游戏期间,经验丰富的人类玩家完全了解游戏阶段,例如开放阶段,游戏阶段,游戏中期和游戏后期阶段(Silva和Chaimowicz 2017)。 在每个阶段,玩家都会关注游戏地图,并对发送英雄的位置做出相应的决定。 例如,在比赛阶段,玩家倾向于更多地关注自己的球道,而不是支持盟友,而在中后期阶段,玩家更多地关注团队战斗点并推动敌人的基地。
综上所述,我们将宏观策略运作过程表述为“阶段识别 - >关注预测 - >执行”。 为了模拟这个过程,我们提出了一个两层宏策略架构,即阶段和关注:
阶段层Phase layer旨在识别当前的游戏阶段,以便关注层可以更好地了解在哪里注意。
注意层Attention layer旨在预测游戏地图上的最佳区域以派遣英雄。
阶段和注意层充当微级执行的高级指导。 我们将在下一节中描述建模的细节。 微观模型的网络结构几乎与OpenAI Five(OpenAI 2018a)中使用的网络结构相同,但是采用监督学习方式。 我们做了一些小修改,以使其适应王者荣耀,例如删除Teleport。
我们提出了一种分层宏观策略(HMS)模型,以在统一的神经网络中考虑阶段层和注意层。 我们将首先介绍统一的网络架构。 然后,我们将说明如何构建每个阶段和关注层。
我们提出了一种分层宏观策略模型(HMS),将注意力和阶段层建模为多任务模型。 它将游戏功能作为输入。 输出包括两个任务,即注意层作为主要任务,阶段层作为辅助任务。 注意层的输出直接将宏策略嵌入传递到微观模型,而资源层则作为一个有用的任务,有助于细化注意层和阶段层任务之间的共享层。
HMS的图示网络结构如图所示。 2. HMS将图像和向量特征作为输入,分别承载视觉特征和全局特征。 在图像部分,我们使用卷积层。 在矢量部分,我们使用完全连接的层。 图像和矢量部分合并在两个单独的任务中,即注意力层和阶段层。 最终,注意力层和阶段层任务从共享层通过它们自己的层输出,并输出从而计算损失。
与玩家根据游戏地图做出决策的方式类似,注意力层预测虚拟玩家agents人移动的最佳区域。 但是,从数据中判断出玩家的目的地在哪里是很棘手的。 我们观察到发生攻击的区域可以指示玩家的目的地,因为否则玩家不会花时间在这些位置上。 根据这一观察,我们将标签区域定义为玩家进行下一次攻击的区域。 一个说明性的例子如图所示。3。
设s为包含多个帧的游戏中的一个会话,s-1表示s之前的会话。 在图3,s - 1是游戏中的第一个会话。 让ts成为s的起始框架。 请注意,会话以攻击行为结束,因此在英雄进行攻击的ts中存在区域y。 如图3所示。s-1的标签是ys,而s的标签是ys + 1。 直观地说,通过以这种方式设置标签,我们希望虚拟玩家agents人学会在游戏开始时转移到ys。 同样,在游戏情况下,虚拟玩家agents人应该移动到适当的区域。
阶段层旨在识别当前阶段。 提取游戏阶段的标签很难,因为人类玩家使用的阶段定义是抽象的。 虽然与时间大致相关,但是开场,中期和后期比赛等阶段取决于基于当前比赛情况的复杂判断,这使得难以从重放中提取比赛阶段的真实性。 幸运的是,我们观察到游戏阶段与主要资源之间的明确关联。 例如,在开放阶段,玩家通常会瞄准外塔和暴君,而在游戏后期,玩家会操纵摧毁敌人的基地。
因此,我们建议对主要资源进行阶段性建模。 更具体地说,主要资源表示炮塔, 暴君,龙和基地。 我们在图4a中标出了地图上的主要资源。 阶段层的标签定义类似于注意层。 唯一的区别是阶段层中的ys表示炮塔,暴君,龙和基地的攻击行为而不是区域。 直观地说,阶段层建模通过建模在当前阶段采用的宏资源将整个游戏分成几个阶段。
我们不会将其他资源(例如兵线,英雄和野怪)视为主要目标,因为通常这些资源是为了更大的目标,例如摧毁炮塔或基地。图4b示出了底部外转塔策略期间的一系列攻击行为。 该玩家在附近的丛林中杀死了两名小兵,并在攻击底部外部炮塔之前在底部野区中打了两个野怪。
我们期望模型能够了解在给定的游戏情况下,什么时候和哪些主要资源可以使用,同时了解服务于每个主要资源的注意力分布。。
跨虚拟玩家agents通信对于虚拟玩家agents团队合作至关重要。 关于多智能体强化学习研究的跨虚拟玩家agents传播有很多文献(Sukhbaatar,Fergus等2016; Foerster等2016)。 然而,在监督学习中使用训练数据来学习通信是具有挑战性的,因为实际的通信是未知的。
为了使虚拟玩家agents能够在监督学习环境中进行通信,我们设计了一种新颖的跨虚拟玩家agents通信机制。 在训练阶段,我们将盟友的注意标签作为训练的特征。 在测试阶段,我们将盟友的注意预测作为特征进行相应的决策。 通过这种方式,我们的虚拟玩家agents可以相互“沟通”,并学会根据盟友的决定进行合作。 由于其受监督的性质,我们将此机制命名为仿真交叉通信。
在本节中,我们将评估模型的性能。 我们首先描述实验设置,包括数据准备和模型设置。 然后,我们提出了不同阶段的注意力分布等定性结果。 最后,我们列出了与人类玩家团队匹配的统计数据,并评估了我们提出的模型带来的改进。
Data Preparation
为了训练模型,我们收集了大约30万个由王者荣耀职业联赛比赛和训练记录组成的游戏回放。 最后,2.5亿个实例用于训练。 我们考虑视觉和属性功能。 在视觉方面,我们提取85个特征,例如所有英雄的位置和生命点,然后将视觉特征模糊为12 * 12分辨率。 在属性方面,我们提取了181个特征,如英雄的角色,游戏的时间段,英雄ID,英雄的黄金和等级状态以及击杀 - 死亡 – 助攻统计。
Model Setup
我们使用卷积和完全连接层的混合来分别从视觉和属性特征中获取输入。 在卷积方面,我们设置了五个共享卷积层,每个层有512个通道,padding = 1和一个RELU。 每个任务都有两个卷积层,配置完全相同
我们使用卷积和完全连接层的混合来分别从视觉和属性特征中获取输入。 在卷积方面,我们设置了五个共享卷积层,每个层有512个通道,padding = 1和一个RELU。 每个任务都有两个卷积层,与共享层完全相同。 在完全连接的层侧,我们设置了两个共享的全连接层,其中包含512个节点。 每个任务都有两个完全连接的层,其配置与共享层完全相同。 然后,我们使用一个级联层和两个完全连接的层来融合卷积层和完全连接层的结果。 我们使用ADAM作为优化器,基本学习率为10e-6。 批量大小设置为128.阶段和注意力任务的损失权重设置为1.我们使用CAFFE(Jia et al.2014)和8个GPU卡。 训练HMS模型的持续时间约为12小时。
最后,关注层的输出对应于地图的144个区域,其分辨率与视觉输入完全相同。 阶段任务的输出对应于图4a中圈出的14个主要位置。
Figure 2: Network Architecture of Hierarchical Macro Strategy Model
图2:分层宏策略模型的网络体系结构
图3:注意层中标签提取的说明示例
开放是MOBA最重要的策略之一。 我们展示了我们的模型在图中学到的不同英雄的一个开放式关注。在图5.中。 如图5所示,每个子图包括两个方形图像。 左手侧方图像表示右手侧MOBA迷你地图的注意力分布。 最热的区域用红色圆圈突出显示。 我们列出了四个英雄的注意预测,即貂蝉Diaochan,韩信Hanxin,亚瑟Arthur和后裔Houyi。 这四位英雄分别属于法师,刺客,战士和射手。 根据人们的关注预测,貂蝉Diaochan将被派往中路,韩信Hanxin将移至左侧丛林区域,而亚瑟Authur和后裔Houyi将守卫底部丛林区域。 没有绘制的第五位英雄宫本武藏将守卫顶部外部炮塔。 这个开放被认为是安全和有效的,并广泛用于王者荣耀。
受阶段层影响的注意分布Attention Distribution Affected by Phase Layer
我们将图中不同阶段的注意力分布可视化。 6a和6b。 我们可以看到,注意力分布在每个阶段的主要资源周围。 例如,对于图中的上外转塔阶段。 如图6a所示,注意力分布在上部外部区域以及附近的丛林区域。 另外,如图所示。 如图6b所示,注意力主要分布在中路,特别是基地前方的区域。 这些例子表明我们的阶段层建模影响了实践中的注意力分布。 为了进一步研究阶段层如何与游戏阶段相关,我们在阶段层输出上进行t分布式随机邻域嵌入(t-SNE)。 如图所示。 如图7所示,样品相对于不同的时间段着色。 我们可以观察到样品在时间阶段是明显可分的。 例如,蓝色,橙色和绿色(0-10分钟)样品彼此靠近,而红色和紫色样品(超过10分钟)形成另一组。
我们评估了宏观策略建模的重要性。我们使用重放中的微观级别动作去除了宏观策略嵌入并训练了模型。 微观模型设计类似于OpenAI Five(OpenAI 2018a)。 微观建模的详细描述超出了本文的范围。
图4:(a)在阶段层建模的主要资源(圈出,即炮塔,基地,龙和暴君)。 (b)说明相层中标签提取的例子。
图5:针对不同英雄角色学习的开放策略之一。 最热的地区用红色圆圈突出显示。
图6:不同策略的注意力分布。 两个注意力数字分别描述了两个主要资源的注意力分布,即上部外部炮塔和基地水晶。
结果列于表中2,列AI没有宏策略。 结果显示,HMS的表现优于人工智能无宏观策略,获胜率为75%。 在杀伤数量,炮塔破坏和经济方面,HMS比AI无宏策略表现得更好。 最明显的性能变化是AI Without Macro Strategy主要关注附近的目标。 虚拟玩家并不太关心在相对较远的距离内支援队友和推兵线。 他们大部分时间都在杀死小兵和附近的小野怪。 从表中的胜率和推塔数量的比较可以观察到性能变化。 这种现象可能反映了宏观策略建模对突出重点的重要性。
为了更准确地评估我们的AI表现,我们在AI和人类玩家之间进行匹配。 我们邀请了250个人类玩家团队,他们的平均排名是王者等级(前1%的人类玩家)。 遵循王者荣耀排名赛的标准程序,我们遵守禁用规则,在每场比赛前挑选和禁用英雄。 禁用选择模块是使用简单的规则实现的。 请注意,王者荣耀的游戏币将命令频率限制在与人类相似的水平。
表中列出了总体统计数据。我们的AI在250场比赛中获得了48%的胜率。 统计数据显示,我们的AI团队在团队战斗方面没有人类优势。 人工智能所造成的杀戮次数比人类团队少约15%。 AI和人类之间的其他项目如炮塔破坏,参与率和每分钟金币相似。 我们进一步观察到,我们的AI在前10分钟内平均摧毁了2.5个以上的炮塔。 10分钟后,由于与人类队伍相比较弱的团战能力,炮塔差异缩小。 可以说,我们人工智能的宏观策略运作能力接近或高于我们的人类对手。
模仿跨虚拟玩家agents通信Imitated Cross-agents Communication
为了评估跨虚拟玩家agents通信机制对AI能力的重要性,我们在没有跨虚拟玩家agents通信的情况下进行HMS和HMS之间的匹配。 结果列于表2中。HMS在没有通信的情况下实现了62.5%的获胜率。我们观察到在引入跨虚拟玩家agents通信时学到的明显的跨虚拟玩家agents合作。 例如,根据专家的评价,合理开放率从22%增加到83%。
图7:阶段层输出上的t分布式随机邻居嵌入。 嵌入的数据样本针对不同的时间段着色。
表2:匹配统计信息。 250场比赛是针对人类队的,而40场比赛分别是针对无宏策略,无交流和无阶段层比赛。
我们评估阶段层如何影响HMS的性能。 我们删除了阶段层并将其与完整版HMS进行了比较。 结果列于表2中。结果表明,阶段层建模显着改善了HMS,获胜率为65%。 我们还观察到当去除阶段层时明显的AI能力降级。 例如,当暴君首次出现时,虚拟玩家agents人不再准确关于时间安排,而完整版HMS虚拟玩家agents人在2:00准备好以尽快获得暴君。
在本文中,我们提出了一种新的分层宏观策略模型,该模型模拟了MOBA游戏的宏观策略操作。 HMS明确地模拟了虚拟玩家agents商对游戏地图的关注,并考虑了游戏阶段建模。我们还提出了一种新颖的模仿跨虚拟玩家agents通信机制,使虚拟玩家agents商能够合作。我们使用王者荣耀作为MOBA游戏的一个例子来实施和评估HMS。我们在AI与顶级1%人类玩家团队之间进行了比赛。我们的AI实现了48%的胜率。据我们所知,我们提出的HMS模型是第一个基于学习的模型,它明确地模拟了MOBA游戏的宏观策略。 HMS使用监督学习来学习宏观策略操作以及从高质量重放中相应的微观级别执行。经过训练的HMS模型可以进一步用作强化学习框架的初始策略。我们提出的HMS模型在MOBA游戏中具有很强的潜力。它可以推广到更多具有适当调整的RTS游戏。例如,关注层建模可能适用于星际争霸,其中关注的定义可以扩展到更有意义建筑操作等行为。此外,模仿交叉口通信可用于学习合作。阶段层建模更具游戏特色。星际争霸中的资源收集程序与MOBA的资源收集程序不同,后者在基地附近开采黄金。因此,阶段层建模可能需要针对不同游戏的游戏特定设计。然而,捕获游戏阶段的基本想法也可以推广到星际争霸。 HMS还可以激发在多个虚拟玩家agents在地图上合作并且历史数据可用的域中的宏策略建模。例如,在机器人足球中,注意力层建模和模仿跨虚拟玩家agents通信可以帮助机器人在解析的足球记录中定位和合作。将来,我们将整合基于HMS的规划。事实证明,在MC中推出MCTS计划对于超越顶级人类玩家至关重要(Silver et al.2016)。我们预计规划对于RTS游戏也是必不可少的,因为它不仅对不完美的信息游戏有用,而且对于带来监督学习未能考虑的预期奖励至关重要。