由视觉语言模型(VLM)提供支持的自主代理AI系统正在迅速前进到现实世界的部署,但它们的跨模式推理能力引入了新的攻击表面,以实现对抗性操纵,从而利用跨模态的语义推理。现有的对抗性攻击通常依赖于可见的像素扰动或需要特权模型或环境访问,这使得它们对于隐身,现实世界中的剥削不切实际。我们介绍了陷阱,这是一种生成的对抗框架,使用基于扩散的语义注射来操纵代理商的决策 ...
0 0 0 2025/08/13 arXiv:2505.23518v1 hhhhh
内存是基于大语言模型(LLM)代理的重要组成部分,使它们能够存储并检索过去的执行,以随着时间的推移提高任务性能。在本文中,我们对记忆管理如何影响LLM代理人的行为,尤其是其长期绩效进行了实证研究。具体而言,我们专注于两个基本的内存操作,这些记忆操作被许多代理框架添加的广泛使用,它们将新经验纳入记忆基础和删除,它们有选择地消除了过去的经验,以系统地研究其对代理行为的影响 ...
0 0 0 2025/08/13 arXiv:2505.16067v1 elonmusk
基于LLM的代理系统正在作为一种新的软件范式出现,并且已广泛采用在医学,机器人技术和编程等不同领域。但是,维护这些系统需要大量的努力,因为它们不可避免地容易出现错误并不断发展以满足不断变化的外部要求。因此,自动解决代理问题(i ...
0 0 0 2025/08/12 arXiv:2505.20749v1 ranbin
基于视觉模型的移动代理人不仅能够了解复杂的说明和移动屏幕截图,还可以通过思考和推理优化其动作输出,从而受益于强化学习,例如小组相对政策优化(GRPO)。但是,现有的研究旨在使用行动级别的奖励进行离线增强学习培训或在线优化,这限制了代理商与环境的动态互动。这通常会导致代理商定居于本地Optima,从而削弱了其探索和错误动作校正能力 ...
0 0 0 2025/08/12 arXiv:2506.20332v2 longhaonan
在动态开放世界情景中开发智能代理商进行长期合作是多代理系统的主要挑战。传统的多代理增强学习(MARL)框架等集中式培训分散执行(CTDE)挣扎着可伸缩性和灵活性。他们需要集中的长期计划,这在没有自定义奖励功能的情况下很难,并且在处理多模式数据时面临挑战 ...
0 0 0 2025/08/12 arXiv:2502.05453v1 tianji
对指导代理的最新研究使用了记忆启动的大语言模型(LLMS)作为任务计划者,该技术检索了与输入指令相关的语言示例,并将其用作LLM提示中的文本示例,以提高LLM在推断正确的行动和任务计划时提高LLM的性能。在这份技术报告中,我们通过使用更广泛的示例和提示来扩展其内存,并通过集成其他API来扩展助手的功能,以提出问题。将助手扩展到共享内存中的这种简单扩展使代理可以在对话,自然语言指导下执行计划,主动问 ...
0 0 0 2025/08/12 arXiv:2404.19065v1 ZhangML
大规模生成语言和视觉语言模型(LLM 和 VLM)在决策和指令遵循的少量上下文学习中表现出色。然而,他们需要在上下文窗口中包含高质量的示例演示。在这项工作中,我们问:LLM 和 VLM 能否从通用的、次优的演示中生成自己的提示示例?我们提出了上下文抽象学习(ICAL),这是一种从次优演示和人类反馈中建立多模式体验见解记忆的方法 ...
0 0 0 2025/08/12 arXiv:2406.14596v5 ZhangML
尽管通过视觉模型(VLM)实现了多模式内容生成的最新进展,但它们的推理和生成结构化的3D场景的能力仍然很大程度上尚未得到充实。这种限制限制了它们在空间扎根的任务中的效用,例如体现的AI,沉浸式模拟和交互式3D应用程序。我们引入了一种新的范式,该范式可以通过注入不断发展的空间上下文来生成,理解和编辑复杂的3D环境 ...
0 0 0 2025/08/12 arXiv:2505.20129v3 ZhangML

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)