对指导代理的最新研究使用了记忆启动的大语言模型(LLMS)作为任务计划者,该技术检索了与输入指令相关的语言示例,并将其用作LLM提示中的文本示例,以提高LLM在推断正确的行动和任务计划时提高LLM的性能。在这份技术报告中,我们通过使用更广泛的示例和提示来扩展其内存,并通过集成其他API来扩展助手的功能,以提出问题。将助手扩展到共享内存中的这种简单扩展使代理可以在对话,自然语言指导下执行计划,主动问 ...
大规模生成语言和视觉语言模型(LLM 和 VLM)在决策和指令遵循的少量上下文学习中表现出色。然而,他们需要在上下文窗口中包含高质量的示例演示。在这项工作中,我们问:LLM 和 VLM 能否从通用的、次优的演示中生成自己的提示示例?我们提出了上下文抽象学习(ICAL),这是一种从次优演示和人类反馈中建立多模式体验见解记忆的方法 ...
尽管通过视觉模型(VLM)实现了多模式内容生成的最新进展,但它们的推理和生成结构化的3D场景的能力仍然很大程度上尚未得到充实。这种限制限制了它们在空间扎根的任务中的效用,例如体现的AI,沉浸式模拟和交互式3D应用程序。我们引入了一种新的范式,该范式可以通过注入不断发展的空间上下文来生成,理解和编辑复杂的3D环境 ...
我们介绍了Ella,这是一种能够在3D开放世界中社区中终身学习的体现的社会代理人,在该世界中,代理商会通过日常的视觉观察和社交互动来积累经验并获取知识。 Ella功能的核心是一种结构化的长期多模式存储系统,可有效地存储,更新和检索信息。它由一个以名称为中心的语义记忆组成,用于组织获得的知识和一个时空情节记忆,用于捕获多模式体验 ...
Think, Act, Learn: A Framework for Autonomous Robotic Agents using Closed-Loop Large Language Models
大型语言模型(LLM)集成到机器人技术中,在高级任务计划中解锁了前所未有的功能。但是,大多数当前系统以开环的方式运行,LLM充当单发计划者,使它们变得脆弱,无法适应动态的物理环境中的不可预见的情况。为了克服这一局限性,本文介绍了“思考,行动,学习”(T-A-L)框架,这是一种新颖的架构,使一个体现的代理能够通过持续互动自主学习和完善其政策 ...
通过将外部环境纳入大型语言模型提示中,检索增强的生成(RAG)在增强推荐系统方面表现出了希望。但是,现有的基于抹布的方法通常依赖于静态检索启发式方法,并且在动态建议方案中未能捕获细微的用户偏好。在这项工作中,我们介绍了Arag,这是一个为个性化推荐的代理检索生成框架,该框架将多代理协作机制集成到RAG管道中 ...
我们提出了Robomemory,这是一个以脑启发的多内存框架,用于物理体现系统中的终生学习,解决了现实世界中的关键挑战:连续学习,多模块记忆延迟,任务互相捕获和封闭环计划中的无限循环缓解。它以认知神经科学为基础,整合了四个核心模块:信息预处理器(丘脑状),终身体现的记忆系统(类似海马的记忆系统),闭环计划模块(前额叶loe叶),以及低级别的高级管理器(cerebellum light tim-li ...
大型语言模型(LLMS)表现出了显着的功能,但是他们无法在长篇小说中保持持久记忆限制了它们作为长期互动中自主代理的有效性。尽管现有的记忆系统取得了进步,但它们依赖于定义基本记忆单元和基于规则的知识提取机制来限制其真正学习和进化的能力。为了解决这些基本局限性,我们提出了Nemori,这是一种受人类认知原理启发的新型自组织记忆结构 ...