人类在运动过程中自然会挥舞手臂,以调节全身动力学,减少角动量并帮助保持平衡。受这一原则的启发,我们提出了一个肢体级的多代理增强学习(RL)框架,该框架可以通过出现的手臂运动来协调人形机器人的全身控制。我们的方法采用单独的武器和腿部批评者结构,接受了集中批评者的训练,但分散的参与者仅具有基本状态和质心动量(CAM)观察,使每个代理都可以通过模块化的奖励设计专门研究与任务相关的行为 ...
大型语言模型(LLM)代理的最新基准主要集中于评估推理,计划和执行功能,而另一个关键的组件记忆,包括由于缺乏基准测试而导致的代理如何记住,更新和检索长期信息不足的信息不足。我们将记忆机制作为内存剂表示。在本文中,我们确定了对记忆代理至关重要的四个核心能力:准确的检索,测试时间学习,远程理解和解决冲突 ...
对话式AI代理的现有基准模拟了单控环境,在这种环境中,只有AI代理才能使用工具与世界交互,而用户仍然是被动信息提供商。这不同于现实世界中的方案,例如技术支持,在该场景中,用户需要积极参与修改(共享)世界的状态。为了解决这一差距,我们介绍了$ \ tau^2 $ - 台阶,具有四个关键贡献:1)一种新型电信双控制域,以DEC-POMDP为模型,代理和用户都使用工具在共享的,动态的环境中采取行动,可 ...
在多机构系统中,大型语言模型(LLM)的迅速采用强调了它们在各种应用中令人印象深刻的功能,例如协作解决问题和自动谈判。但是,这些基于LLM的多代理系统的安全含义尚未得到彻底研究,尤其是关于操纵知识的传播。在本文中,我们通过构建详细的威胁模型和综合模拟环境来调查这个关键问题,该环境反映了可信赖平台中的真实世界部署 ...
最近的工作提出了一种系统评估“情境语言理解智能体”的方法 ...
大型语言模型(LLM)功率的多代理系统(MAS)证明了认知和执行能力远远超过了单个LLM代理的认知能力,但是它们的自我进化能力仍然受到欠发达的内存体系结构的阻碍。经过仔细检查,我们很震惊地发现,普遍的MAS内存机制(1)过于简单,完全无视细微的互动间协作轨迹,并且(2)缺乏与单位代理相比的跨案例和特定于特定于特定的定制,与单个代理相比鲜明对比。为了弥合这一差距,我们介绍了G-Memory,这是一个 ...
基于LLM的多代理系统(MAS)在增强单个LLM的潜力中表现出很大的潜力,可以解决实际应用中复杂而多样化的任务。尽管取得了长足的进步,但该领域缺乏统一的代码库来巩固现有方法,从而导致重新实施工作,不公平的比较和研究人员的高入口障碍。为了应对这些挑战,我们介绍了基于LLM的MAS的统一,全面且对研究的代码库Maslab ...
大型语言模型(LLM)在代码生成和解决问题方面取得了重大进步。当前方法采用了基于外部工具的迭代式调试者,这些迭代式调试器使用编译器或其他基于工具的运行时反馈来完善各种方法生成的粗略程序。但是,这些方法的有效性在很大程度上依赖于初始代码生成的质量,这仍然是一个开放的挑战 ...