The NetHack Learning Environment

本文主要是介绍The NetHack Learning Environment，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

发表时间：2020（NeurIPS 2020）
文章要点：文章发布了一个复杂的强化学习的环境，可以用来研究exploration，planning，language-conditioned RL等等。环境是一个地宫类的游戏，相当于一层一层找门找地道，开地宫然后收集道具打怪兽，最终目标是找到护身符（Amulet of Yendor）并交给Astral Plane里对应的神（co-aligned deity in the Astral Plane）。这个地宫的特点是随机性特别强，每层关卡都是逐渐生成的，只有走到哪了才会出现哪（procedurally generated）。所以每次reset看到的地宫环境都是不一样的，所以像Go-explore这种记住动作轨迹然后回到之前的地方这种方式就行不通了。游戏的复杂度也很高，整个游戏有13个角色（thirteen roles），5个种族（five races），3个alignment（three moral alignments），两个性别（two genders）。里面的各种物品NPC上百个（over 450 items and 580 monster types），而且一个episode可能有成千上万个step，相当于比星际和DOTA的还要长一个量级。动作一共有98个，82个命令动作，16个移动动作。另一个特点是，游戏的界面是终端显示，所有的物品都是ASCII码显示，运行速度比Atari快14倍。所以作者构建了一个复杂但是对计算资源要求相对较低的环境（trikes a balance between complexity and speed）。此外，作者还设计了一些小任务来训练智能体学习基本技能，比如staircase，pet等等。作者在这些小任务上提供了两个baseline，一个IMPALA，一个RND。但是目前还没有任何算法可以完成整个任务。
总结：确实是极其复杂的一个游戏，光是看懂各种物品的属性就很麻烦，目前还不知道游戏咋玩的，各个符号的含义也太多了，还需要细看。然后确实很适合做exploration，但是这个的exploration也太难了。
疑问：无

这篇关于The NetHack Learning Environment的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

C/C++教程

The NetHack Learning Environment

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯