代理人工智能和多代理系统即将主导行业和社会。在目标驱动的自主性的支持下,它们代表了生成式人工智能的强大形式,标志着从被动式内容生成到主动式多任务处理能力的转变。作为一个例子,我们提出了一种用于软件工程过程实施阶段的多代理系统架构。我们还为所提出的系统提供了一个全面的威胁模型。我们证明,虽然此类系统可以非常准确地生成代码,但它们很容易受到攻击,包括代码注入。由于其自主设计和循环中缺乏人员,这些系统无法自行识别和响应攻击。本文分析了多智能体系统的脆弱性,并得出结论:编码器-审阅者-测试器架构比编码器和编码器-测试器架构更具弹性,但编写代码的效率较低。我们发现,通过添加安全分析代理,我们可以减轻效率损失,同时实现更好的弹性。最后,我们证明安全分析代理容易受到高级代码注入攻击,表明在注入代码中嵌入有毒的小样本示例可以将攻击成功率从 0% 提高到 71.95% ...
人工智能正在经历范式转变,通过协调多个大型语言模型 (LLM) 和其他复杂组件的系统实现了突破。因此,为复合人工智能系统开发有原则的自动化优化方法是最重要的新挑战之一。神经网络在早期也面临着类似的挑战,直到反向传播和自动微分通过交钥匙优化来改变这个领域。受此启发,我们推出了 TextGrad,一个通过文本执行自动“区分”的强大框架。 TextGrad 反向传播 LLM 提供的文本反馈,以改进复合人工智能系统的各个组件。在我们的框架中, LLM 提供了丰富的、通用的、自然语言的建议来优化计算图中的变量,范围从代码片段到分子结构。 TextGrad 遵循 PyTorch 的语法和抽象,灵活且易于使用。它开箱即用,适用于各种任务,用户只需提供目标函数,无需调整框架的组件或提示。我们展示了 TextGrad 在各种应用中的有效性和通用性,从问答和分子优化到放射治疗计划。在不修改框架的情况下,TextGrad 将 Google 验证问答中 GPT-4o 的零样本精度从 $51\%$ 提高到 $55\%$,在优化 LeetCode-Hard 编码问题解决方案方面产生了 $20\%$ 相对性能增益,改进了推理提示,设计了具有理想的计算机模拟结合的新型药物小分子,并设计了具有高特异性的放射肿瘤治疗计划。 TextGrad 为加速下一代人工智能系统的开发奠定了基础 ...
大型语言模型(LLM)驱动的多代理系统的快速发展极大地简化了软件开发任务,使具有很少技术专业知识的用户能够开发可执行应用程序。虽然这些系统通过自然语言要求使软件创建民主化,但它们带来了重大的安全风险,而这些风险在很大程度上尚未被探索。我们确定了两种风险场景:带有良性代理的恶意用户 (MU-BA) 和带有恶意代理的良性用户 (BU-MA)。我们介绍了隐式恶意行为注入攻击(IMBIA),演示了如何操纵多代理系统在看似良性的应用程序下生成具有隐藏恶意功能的软件,并提出 Adv-IMBIA 作为防御机制。对 ChatDev、MetaGPT 和 AgentVerse 框架的评估揭示了不同的漏洞模式,IMBIA 在 MU-BA 场景中的攻击成功率分别为 93%、45% 和 71%,在 BU-MA 场景中分别达到 71%、84% 和 45%。我们的防御机制显着降低了攻击成功率,特别是在 MU-BA 场景中。进一步的分析表明,编码和测试阶段受损的代理会带来更大的安全风险,同时还识别出需要防止恶意用户利用的关键代理。我们的研究结果强调了多代理软件开发系统中迫切需要强大的安全措施,并为实施有针对性的、资源高效的防御策略提供了实用指南 ...
大型语言模型 (LLM) 彻底改变了自然语言理解和生成,但在训练过程中面临着严重的内存瓶颈。 GaLore,梯度低秩投影,通过利用权重梯度固有的低秩结构解决了这个问题,在不牺牲性能的情况下实现大量内存节省。最近的工作从各个方面进一步扩展了GaLore,包括低位量化和高阶张量结构。然而,GaLore 还面临一些挑战,例如子空间更新的 SVD 计算开销以及与最先进的训练并行化策略(例如 FSDP)的集成。在本文中,我们提出了 GaLore 2,这是一个高效且可扩展的 GaLore 框架,它解决了这些挑战并融合了最新的进展。此外,我们通过使用多达 5000 亿个训练 Token 从头开始预训练 Llama 7B,展示了 GaLore 2 的可扩展性,强调了其对真实 LLM 预训练场景的潜在影响 ...
多无人机协作 3D 物体检测可以通过集成互补信息来感知和理解复杂的环境,其应用涵盖交通监控、送货服务和农业管理。然而,航空遥感中极为广泛的观测以及多个无人机之间的显着视角差异使得在多无人机协作 3D 物体检测范例中实现从 2D 图像到 3D 空间的精确且一致的特征映射具有挑战性。为了解决这个问题,我们提出了一种无与伦比的基于相机的多无人机协作 3D 对象检测范例,称为 UCDNet。具体来说,明确利用无人机到地面的深度信息作为强先验,为更准确和可推广的特征映射提供参考。此外,我们设计了同源点几何一致性损失作为辅助自监督,它直接影响特征映射模块,从而加强多视图感知的全局一致性。在 AeroCollab3D 和 CoPerception-UAVs 数据集上的实验表明,与基线相比,我们的方法分别增加了 4.7% 和 10% mAP,这证明了 UCDNet 的优越性 ...
人们严重依赖上下文来丰富字面意义之外的含义,从而实现简洁而有效的沟通。为了与人成功、自然地互动,面向用户的人工智能系统将需要类似的语用技能:依靠各种类型的上下文——从共同的语言目标和约定,到视觉和具体世界——来有效地使用语言。我们调查了现有的扎根设置和实用建模方法,并分析了每项作品中的任务目标、环境背景和交流可供性如何丰富语言意义。我们提出了未来扎根任务设计的建议,以自然地引发实用现象,并提出了关注更广泛的交流背景和可供性的方向 ...
语言理解研究因未能将语言与它所描述的物理世界以及它所促进的社会互动联系起来而受到阻碍。尽管语言处理模型在仅接受文本训练后处理任务的效率令人难以置信,但成功的语言交流依赖于世界的共同经验。正是这种共同的经历使言语变得有意义。自然语言处理是一个多元化的领域,其发展过程中的进步来自于新的表征理论、建模技术、数据收集范式和任务。我们认为,目前在大型纯文本语料库上训练的表征学习方法的成功需要对更广泛的物理和社会语言背景进行并行研究,以解决更深层次的沟通问题 ...
在开放世界环境中运行的通用机器人系统必须实现广泛的泛化和高精度的动作执行,这对于现有的视觉-语言-动作(VLA)模型来说仍然具有挑战性。虽然大型视觉语言模型(VLM)改善了语义泛化,但不充分的具体推理会导致脆弱的行为,相反,如果没有精确的控制,仅靠强大的推理是不够的。为了对这一瓶颈进行解耦和定量评估,我们引入了体现推理智商(ERIQ),这是机器人操作中的大规模体现推理基准,由跨越四个推理维度的 6K+ 问答对组成。通过将推理与执行解耦,ERIQ 实现了系统评估,并揭示了具体推理能力与端到端 VLA 泛化之间的强正相关性。为了弥合从推理到精确执行的差距,我们提出了 FACT,一种基于流匹配的动作分词器,它将连续控制转换为离散序列,同时保留高保真轨迹重建。由此产生的 GenieReasoner 在统一空间中联合优化推理和行动,在现实世界任务中优于连续行动和先前的离散行动基线。 ERIQ 和 FACT 共同提供了一个原则框架,用于诊断和克服推理精度权衡,推进稳健的通用机器人操作。项目页面:此 https URL ...
我们提出了分层人工智能气象学家,这是一个 LLM 代理系统,它使用分层预测推理和天气关键字生成来生成可解释的天气报告。与将预测视为平坦时间序列的标准方法不同,我们的框架跨每小时、6 小时和每日聚合执行多尺度推理,以捕获短期动态和长期趋势。其核心推理代理将结构化的气象输入转换为连贯的叙述,同时提取一些有效总结主要气象事件的关键词。这些关键字充当语义锚,用于验证生成的报告的一致性、时间连贯性和事实一致性。使用 OpenWeather 和 Meteostat 数据,我们证明分层上下文和基于关键字的验证大大提高了 LLM 生成的天气叙述的可解释性和稳健性,为自动气象报告的语义评估和推进基于主体的科学推理提供了可重复的框架 ...
记忆增强生成(MAG)使用外部记忆扩展大型语言模型以支持长上下文推理,但现有方法很大程度上依赖于整体记忆存储的语义相似性,纠缠时间、因果和实体信息。这种设计限制了查询意图和检索到的证据之间的可解释性和一致性,导致推理准确性不佳。在本文中,我们提出了 MAGMA,一种多图代理记忆架构,它表示跨正交语义、时间、因果和实体图的每个记忆项。 MAGMA 将检索制定为对这些关系视图的策略引导遍历,从而实现查询自适应选择和结构化上下文构建。通过将内存表示与检索逻辑解耦,MAGMA 提供透明的推理路径和对检索的细粒度控制。 LoCoMo 和 LongMemEval 上的实验表明,MAGMA 在长视野推理任务中始终优于最先进的代理记忆系统 ...