一译 —— 文档和论文翻译、对照阅读、讨论和社区

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

由基础模型提供支持的自主代理已经在各种现实世界中广泛采用。但是，它们仍然很容易受到恶意指示和攻击的影响，这可能会导致严重的后果，例如漏洞和财务损失。更重要的是，由于代理的复杂和动态性质，现有的LLM的护栏不适用于 ...

0 0 0 2025/04/11 arXiv:2503.22738v1 dropout

SRMT: Shared Memory for Multi-agent Lifelong Pathfinding

多机构增强学习（MARL）在解决各种环境中解决合作和竞争性的多代理问题方面表现出重大进展。 MAL中的主要挑战之一是需要明确预测代理人的行为以实现合作。为了解决此问题，我们提出了共享的复发记忆 Transformer （SRMT），该记忆 Transformer （SRMT）通过汇总和全球广播单个工作记忆来扩展内存 Transformer 到多代理设置，使代理能够隐含地交换信息并协调其操作 ...

0 0 0 2025/04/11 arXiv:2501.13200v1 hwrabbit

JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework

尽管在提高了针对越狱攻击的LLM安全性方面取得了进步，但评估LLM防御措施仍然是一个挑战，当前方法通常缺乏解释性和对复杂情况的概括，导致不完整的评估（例如，直接判断而没有推理，较低的F1 GPT-4的GPT-4在复杂情况下，在多种方面的复杂情况下，偏见） ...

0 0 0 2025/04/10 arXiv:2410.12855v2 ZY2306336

Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents

完成家庭任务需要考虑以前行动的后果来逐步计划。但是，最先进的体现的代理通常会在环境导航并与适当的对象进行互动时犯错，因为在没有这种知识的情况下模仿专家或算法计划者而导致的学习不完善。为了改善视觉导航和对象互动，我们建议考虑结合语义上下文的Capeam（上下文感知计划和环境感知记忆）采取行动的结果（e ...

0 0 0 2025/04/09 arXiv:2308.07241v4 WuYP

Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples

学习一个机器人助手的感知和推理模块，以计划基于自然语言指令执行复杂任务的步骤通常需要大量的自由语言注释，尤其是对于短期的高级指令。为了降低注释的成本，大语言模型（LLMS）用作少量数据的计划者。但是，在详细说明步骤时，即使是使用LLM的最先进的计划者也主要依赖语言常识，通常会忽略指挥接收中环境的状态，从而导致不适当的计划 ...

0 0 0 2025/04/09 arXiv:2412.17288v1 WuYP

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

培训有效的AI代理进行多转交互作用需要高质量的数据，以捕获现实的人类代理动力学，但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT，这是一个两阶段的框架，生成可验证和多样化的多转变代理数据。在第一阶段，我们的代理管道通过基本操作产生详细的任务蓝图，利用LLM审阅者委员会和迭代反馈循环 ...

0 0 0 2025/04/08 arXiv:2504.03601v1 niuzai

AgentStudio: A Toolkit for Building General Virtual Agents

创建能够在任何数字设备上使用任意软件的自主虚拟代理仍然是人工智能的主要挑战。阻碍进展的两个关键障碍是：在现实环境中构建虚拟代理的基础设施不足，以及需要对基本代理能力进行野外评估。为了解决这个问题，我们推出了 AgentStudio，这是一个在线的、现实的、多模式的工具包，涵盖了代理开发的整个生命周期 ...

0 0 0 2025/04/08 arXiv:2403.17918v3 chrisxiong

CHARMS: Cognitive Hierarchical Agent with Reasoning and Motion Styles

为了解决自动驾驶模拟方案中低智力和简单车辆行为建模的当前挑战，本文提出了具有推理和运动样式（CHARMS）的认知层次结构代理。该模型可以推理其他车辆（如人类驾驶员）的行为，并以不同的决策方式做出反应，从而在驾驶场景中提高周围车辆的智力和多样性。通过介绍级别的K行为游戏理论，本文对人类驱动因素的决策过程进行了建模，并采用了深入的强化学习来以各种决策方式训练模型，从而模拟了不同的推理方法和行为特征 . ...

0 0 0 2025/04/08 arXiv:2504.02450v1 布朗瓶

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）