我们介绍了M3 Agent,这是一种具有长期记忆的新型多模式框架。像人类一样,M3代理可以处理实时的视觉和听觉输入以构建和更新其长期内存。除了情节记忆之外,它还会发展出语义记忆,从而使其能够随着时间的推移积累世界知识 ...
当前的AI代理无法有效地从彼此的解决问题的经历中学习,也无法使用过去的成功来指导新任务中的自我反思和错误纠正。我们介绍了Agent KB,这是一个共享的知识库,它捕获了高级解决问题的策略和详细的执行课程,从而可以在代理框架之间进行知识转移。代理商KB实现了一种新颖的教师双相检索机制,学生代理人在战略指导中检索工作流程级模式,而教师代理人则确定了执行级别的细化模式 ...
鉴于大型视觉语言模型(LVLM)在推理和视觉理解中的显着进步,移动代理正在迅速出现以满足用户的自动化需求。但是,现有的评估基准与现实世界脱节,无法充分解决用户的多样化和复杂要求。根据我们广泛的用户问卷收集,我们确定了五个任务:多应用,含糊,交互式,单应用和不道德的说明 ...
我们提出了MA-RAG,这是一个用于检索的多代理框架(RAG),该框架解决了复杂信息寻求任务中固有的歧义和推理挑战。与依赖端到端微调或隔离组件增强功能的传统抹布方法不同,MA-RAG协作了一组专业的AI代理:计划者,步骤定义器,提取器和质量检查代理,以使用任务意识到的推理来解决RAG管道的每个阶段。歧义性可能来自指定的查询,稀疏或间接证据在检索的文件中,或者需要整合散布在多个来源的信息 ...
我们提出了Agent Lightning,这是一个灵活而可扩展的框架,可以为任何AI代理提供强化学习(RL)的大型语言模型(LLMS)的培训。与现有的RL训练与代理相结合或依赖序列串联与掩盖的方法不同,Agent Lightning实现了代理执行和培训之间的完全解耦,从而使与通过各种方式开发的现有代理的无缝集成(例如, ...
大型语言模型(LLMS)代表了人工智能(AI)中具有里程碑意义的成就,证明了在程序任务(例如文本生成,代码完成和对话连贯性)方面的熟练程度。这些功能源于它们的体系结构,它反映了人类程序记忆 - 大脑通过实践自动化重复性,模式驱动的任务的能力。但是,随着LLM越来越多地部署在现实世界应用程序中,就无法忽略其在复杂,不可预测的环境中运行的局限性 ...
长期记忆是影响大语言模型代理(LLM代理)推理能力的关键因素之一。结合有效整合过去相互作用的记忆机制可以显着增强LLM代理的决策和上下文连贯性。尽管最近的作品在存储器存储和检索方面取得了进展,例如以图形形式将记忆编码为基于相似性的搜索或组织知识的密集向量,但这些方法通常在结构化的内存组织中和有效的检索中不足 ...
由视觉语言模型(VLM)提供支持的自主代理AI系统正在迅速前进到现实世界的部署,但它们的跨模式推理能力引入了新的攻击表面,以实现对抗性操纵,从而利用跨模态的语义推理。现有的对抗性攻击通常依赖于可见的像素扰动或需要特权模型或环境访问,这使得它们对于隐身,现实世界中的剥削不切实际。我们介绍了陷阱,这是一种生成的对抗框架,使用基于扩散的语义注射来操纵代理商的决策 ...