您的位置:首页>互联网>内容

DeepMind的AI系统可以绕过之前从未见过的模拟城市

2021-11-18 17:00来源:
导读 DeepMind表示,它设计了一个系统,该系统可以利用现有知识来解决任务,同时探索收集新知识并在面临新任务时计划使用新知识进行计划。在2020年计算机视觉和模式识别会议(CVPR)上接...

DeepMind表示,它设计了一个系统,该系统可以利用现有知识来解决任务,同时探索收集新知识并在面临新任务时计划使用新知识进行计划。在2020年计算机视觉和模式识别会议(CVPR)上接受的论文中,该公司的研究人员描述了一个在情节性记忆(可以明确说明的日常事件的记忆)上运行的AI“计划模块”,他们说该表现优于就规划和探索而言,最接近的基线要增加2至3倍。

人工智能面临的一大挑战是设计一种能够进入陌生环境并立即投入使用的模型。例如,Paragon家用机器人将使用有关房屋的常识来查找清洁用品并获取它预期将有用的信息,例如衣物篮在其经过的房间中的位置。然后,它可以利用新发现的知识(例如,妨碍位置)来计划未来任务(例如洗衣服)的解决方案,以更快地解决任务。

不幸的是,即使是最先进的情景记忆模型也能够探索而不是计划,这可能是因为它们缺乏使用记忆进行计划的机制。DeepMind声称已通过新颖的模块-情节计划网络(EPN)对此进行了补救,该模块可促使AI代理在陌生的环境中进行有效的探索和计划。

EPN利用自我注意力,一种用于计算任意数量的项目之间的关系的方法,该项目之间没有任何特定的结构。EPN从反映到目前为止情景中的经验的情景记忆开始,每个记忆都包含当前观察值,先前动作和先前观察值的表示。

DeepMind研究人员在一项实验中想到了Facebook在两年前开源的纽约市导航AI,该研究人员在One-Shot StreetLearn中训练了基于EPN的软件代理,该模拟从GoogleStreetLearn数据中将环境作为邻域进行采样真实世界的街道图像集。在“一键式StreetLearn”中,您可以通过选择座席必须从其当前位置导航到的位置和方向来定义任务。

仅给出显示当前位置的图像,代表目标位置的图像以及向左,向右或向前移动的能力,基于EPN的特工在不熟悉的地方成功地达到了每集28.7个目标(平均连续100个情节)。根据合著者的说法。他们还完成了仅15-20个任务即可完成新任务的最少步骤数,并且将其很好地推广到包含更多路口的较大邻域中,其中9个路口的成功率达到77%,而原始任务中只有5个路口。

研究人员写道:“在目前的实验中,通过计划观察状态,该药剂可以成功。”“但是,没有什么能阻止EPN被用于计划信念状态,这是在动态部分观察的环境中运行的潜在关键能力……未来的工作可能会以更广泛的任务分布来解决[问题]……并测试EPN的程度有效地解决了更广泛的任务。”

EPN建立在DeepMind现有的城市导航工作和Dreamer的基础上,Dreamer内部化了世界模型,并通过“想象”其长期成果来预先计划选择行动。最近,实验室对Agent57进行了详细介绍,该系统使用情节记忆来学习一系列用于探索和利用的策略。(Agent57是Arcade Learning Environment数据集中所有57种Atari游戏中优于人类的首批系统之一。)