一译 —— 文档和论文翻译、对照阅读、讨论和社区

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

基于LLM的代理商在越来越多的软件工程（SWE）任务中显示出有希望的功能。但是，发展这一领域面临两个关键挑战。首先，高质量的培训数据是稀缺的，尤其是反映了现实世界中SWE场景的数据，在该数据中，代理必须根据其行动的结果与开发环境相互作用，执行代码和适应行为 ...

0 0 0 2025/08/08 arXiv:2505.20411v1 leec

SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents

大型语言模型（LLMS）表现出令人印象深刻的通用推理和解决问题的能力。但是，他们在执行复杂的长途工作流程中挣扎，这些工作流程要求严格遵守标准操作程序（SOP），这是现实世界中工业自动化的关键要求。尽管需要这种需要，但缺乏反映SOP的复杂性，结构和特定于领域的细微差别的公共基准 ...

0 0 0 2025/08/07 arXiv:2506.08119v1 liwei0423

Revisit Mixture Models for Multi-Agent Simulation: Experimental Study within a Unified Framework

模拟在评估自主驾驶系统中起着至关重要的作用，在自主驾驶系统中，实际的多代理行为是关键方面。在多代理模拟中，主要挑战包括行为多模式和闭环分布变化。在这项研究中，我们重新审视用于生成多模式剂行为的混合模型，该模型可以涵盖包括连续混合模型和类似GPT的离散模型在内的主流方法 ...

0 0 0 2025/08/07 arXiv:2501.17015v1 xubiao

AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers

机器学习（ML）研究通过具有丰富的多模式内容的学术论文扩展，包括文本，图表和表格结果。但是，将这些多模式元素转换为可执行的代码仍然是一个具有挑战性且耗时的过程，需要大量的ML专业知识。我们介绍了``纸上的代码''（P2C），这是一项新型任务，将科学出版物的多模式内容转换为完全可执行的代码存储库，该内容扩展到了代码生成的现有表述，仅将文本描述转换为孤立的代码sbippets ...

0 1 0 2025/08/06 arXiv:2504.20115v2 15966829631

A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence

大型语言模型（LLM）表现出强大的功能，但从根本上保持静态，无法使其内部参数适应新任务，不断发展的知识领域或动态互动环境。随着LLM越来越多地部署在开放式的交互式环境中，这种静态性质已成为一种关键的瓶颈，需要代理，可以实时适应性地推理，采取行动和发展。这种范式的转变 - 从缩放静态模型到发展自我发展的代理 - 引发了人们对建筑和方法的日益兴趣，从而使能够从数据，交互和经验中进行持续学习和适应 .. ...

0 1 0 2025/08/06 arXiv:2507.21046v3 Likeforeverx

MRGAgents: A Multi-Agent Framework for Improved Medical Report Generation with Med-LVLMs

医学大型视力模型（MED-LVLM）已被广泛用于医学报告的生成。尽管MED-LVLM产生了最先进的性能，但它们仍表现出对所有发现正常发现的偏见，从而导致报道忽略了关键异常。此外，这些模型通常无法对准确诊断所需的放射学相关区域进行全面描述 ...

0 1 0 2025/08/05 arXiv:2505.18530v1 abala

A Survey on Code Generation with LLM-based Agents

由大型语言模型（LLM）提供动力的代码生成代理正在彻底改变软件开发范式。与以前的代码生成技术不同，代码生成代理的特征是三个核心功能。 1）自主权：从任务分解到编码和调试的能力独立管理整个工作流程 ...

0 0 0 2025/08/05 arXiv:2508.00083v1 jjyu

R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents

改善现实世界中的SWE任务（求解GitHub问题）的开源模型面临两个关键挑战：1）执行环境的可扩展策划以训练这些模型，以及2）测试时间计算的最佳缩放。我们介绍了AgentGym，这是最大的程序策划的可执行健身房环境，用于培训现实世界中的SWE-Agent，由超过8.7K的任务组成 ...

0 0 0 2025/08/05 arXiv:2504.07164v1 leec

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）