一译 —— 文档和论文翻译、对照阅读、讨论和社区

Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture

大型语言模型（LLMS）已使LLM代理的出现：能够实现未指定目标和调整剥离后的自主系统，通常没有明确的代码或模型更改。评估这些药物对于确保其性能和安全至关重要，尤其是考虑到它们的动态，概率和不断发展的性质。但是，诸如预定义的测试案例和标准重建管道之类的传统方法难以应对LLM代理评估的独特挑战 ...

0 0 0 2025/07/08 arXiv:2411.13768v2 WillVV

Generate-on-Graph: Treat LLM as both Agent and KG in Incomplete Knowledge Graph Question Answering

为了解决大型语言模型（LLM）知识不足和容易产生幻觉的问题，许多研究都致力于将 LLM 与知识图谱（KG）相结合。然而，所有这些方法都是在具有完整知识图谱的传统知识图问答（KGQA）上进行评估的，其中每个问题涉及的事实三元组完全由给定的知识图谱覆盖。在这种情况下，LLM主要充当代理通过探索知识图谱来寻找答案实体，而不是有效整合内部和外部知识源 ...

0 0 0 2025/07/08 arXiv:2404.14741v3 aulisa

Self-Evolving Multi-Agent Collaboration Networks for Software Development

LLM驱动的多代理协作（MAC）系统在功能级别的自动软件开发方面表现出了令人印象深刻的功能。但是，他们对人类设计的极大依赖将其适应性限制在现实世界软件开发的各种需求中。为了解决这一限制，我们介绍了Evomac，这是一种新型的Mac网络自我发展范式 ...

0 0 0 2025/07/08 arXiv:2410.16946v1 Loong

ToolFuzz -- Automated Agent Tool Testing

大型语言模型（LLM）代理利用现实世界应用中LLM的高级推理功能。要与环境接口，这些代理通常依靠工具，例如Web搜索或数据库API。由于代理向LLM提供了沿用户查询的工具文档，因此本文档的完整性和正确性至关重要 ...

0 0 0 2025/07/08 arXiv:2503.04479v3 wdn

STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning

体现智能的一个关键目标是使代理能够在动态环境中执行长匹马任务，同时保持强大的决策和适应性。为了实现这一目标，我们提出了时空记忆代理（STMA），这是一个新颖的框架，旨在通过集成时空记忆来增强任务计划和执行。 STMA建立在三个关键组成部分上：（1）时空记忆模块，可捕获实时的历史和环境变化，（2）动态知识图，促进适应性的空间推理，以及（3）迭代的规划仪机制，可迭代地完善任务策略 ...

0 0 0 2025/07/08 arXiv:2502.10177v2 ZhangML

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

尽管外推，有效的注意力和记忆模块的长度改善，但在推断过程中处理无限长的文档而没有性能降解，这仍然是长文处理过程中的最终挑战。我们直接以端到端的方式对长文本任务进行优化，并介绍一个新颖的代理工作流程Memagent，该工作流程在细分市场中读取文本，并使用覆盖策略更新内存。我们扩展了DAPO算法，以通过独立的文本多转换生成来促进培训 ...

0 0 0 2025/07/08 arXiv:2507.02259v1 hanqiu

Privacy in Multi-agent Systems

随着对隐私的认识的越来越多以及在各种多机构系统应用领域（例如电力系统和智能运输）中的立法部署，近年来，多机构系统的隐私保护问题正在增加。本文讨论了提起的一些代表性进步 ...

0 0 0 2025/07/08 arXiv:2403.02631v1 lurenv

AI Agents Under Threat: A Survey of Key Security Challenges and Future Pathways

人工智能（AI）代理是自主执行任务或基于预定义的目标和数据输入做出决定的软件实体。能够感知用户输入，推理和计划任务以及执行操作的AI代理在算法开发和任务性能方面取得了显着进步。但是，它们所带来的安全挑战仍然易于探索和尚未解决 ...

0 0 0 2025/07/08 arXiv:2406.02630v2 lurenv

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）