大语言模型(LLM)的强大计划和推理能力促进了能够利用外部工具并与日益复杂的环境进行交互的基于代理的系统的开发。但是,这些强大的功能还引入了关键的安全风险:间接提示注入,这是一种复杂的攻击向量,通过操纵上下文信息而不是直接用户提示来损害这些代理,LLM的核心。在这项工作中,我们提出了一个通用的黑盒模糊框架,旨在自动发现和利用不同LLM代理之间的间接及时注射漏洞 ...
我们引入了通用动作模型(LAPA)的潜在动作预处理,这是一种无监督的视觉语言行动(VLA)模型的方法,而无需地面真相机器人动作标签。现有的视觉语言动作模型需要人类遥控器在预审进过程中通常收集的动作标签,这显着限制了可能的数据源和规模。在这项工作中,我们提出了一种从没有机器人动作标签的互联网规模视频中学习的方法 ...
尽管由大型语言模型 (LLM) 提供支持的基于 LLM 的代理可以使用外部工具和内存机制来解决复杂的现实任务,但它们也可能会引入严重的安全漏洞。然而,现有文献并未全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题,我们引入了 Agent Security Bench (ASB),这是一个综合框架,旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御,包括 10 个场景(例如: . ...
大型语言模型(LLM)和音频语言模型的最新进展已大大改善了音乐的发电,尤其是歌词到歌曲的一代。但是,现有的方法仍然在歌曲的复杂组成和高质量数据的稀缺性方面困难,从而导致声音质量,音乐性,跟随教学和声音启动和谐的限制。为了应对这些挑战,我们介绍了LEVO,这是一个基于LM的框架,由LELM和音乐编解码器组成 ...
近年来,在多模式理解模型和图像产生模型中都取得了显着的进步。尽管取得了各自的成功,但这两个领域还是独立发展的,导致了独特的建筑范式:尽管基于自动进程的架构占多模式的理解,但基于扩散的模型已成为图像生成的基石。最近,人们对开发整合这些任务的统一框架的兴趣越来越大 ...
处理点云数据是许多实际系统的重要组成部分。因此,已经提出了各种基于点的方法,并报告了随着时间的推移基准的稳定改进。我们研究了这一进展的关键要素,并发现了两个关键结果 ...