一译 —— 文档和论文翻译、对照阅读、讨论和社区

Privacy-Enhancing Paradigms within Federated Multi-Agent Systems

基于LLM的多代理系统（MAS）已通过整合多种代理，每个代理都扮演不同的角色，在解决复杂问题方面已被证明非常有效。但是，在敏感领域，他们面临着新兴的隐私保护挑战。在本文中，我们介绍了联合MAS的概念，强调了联邦MAS与传统FL之间的根本差异 ...

0 0 0 2025/05/27 arXiv:2503.08175v1 15802875635

CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models

开放大语言模型 (LLM) 显着推进了自然语言处理领域的发展，在各种任务中展示了令人印象深刻的性能。尽管 LLM 取得了显着进步，但其有效操作仍然在很大程度上依赖于人工输入来通过代理调整来准确引导对话流这是一项关键的优化技术，涉及对模型的人工调整，以便更好地响应此类指导。为了解决这种依赖性，我们的工作引入了 TinyAgent 模型，该模型在精心策划的高质量数据集上进行了训练 ...

0 0 0 2025/05/27 arXiv:2404.01663v6 15802875635

ProgRM: Build Better GUI Agents with Progress Rewards

基于LLM的（大型语言模型）GUI（图形用户界面）代理可能会大大重塑我们的日常生活。但是，由于轨迹收集和奖励注释的困难，目前基于LLM的GUI代理遭受了高质量培训数据的稀缺。现有的作品一直在探索LLM，以收集模仿学习或为在线RL培训提供奖励信号的轨迹 ...

0 1 0 2025/05/27 arXiv:2505.18121v1 dqyzhwk

Efficient Agent Training for Computer Use

长期以来，扩大高质量的轨迹数据一直是开发类似人类的计算机使用剂的关键瓶颈。我们介绍了PC Agent-E，这是一个有效的代理训练框架，可显着降低对大型人类示范的依赖。从仅312个人类注销的计算机使用轨迹开始，我们通过用Claude 3合成各种动作决策进一步提高了数据质量 ...

0 0 0 2025/05/27 arXiv:2505.13909v1 leec

R&D-Agent: Automating Data-Driven AI Solution Building Through LLM-Powered Automated Research, Development, and Evolution

AI和ML的最新进展已经改变了数据科学，但增加的复杂性和专业知识要求不断阻碍进步。尽管众包平台减轻了一些挑战，但高级数据科学任务仍然是劳动密集型和迭代的。为了克服这些局限性，我们引入了研发代理，这是一个迭代探索的双重代理框架 ...

0 0 0 2025/05/27 arXiv:2505.14738v1 leec

Distilling LLM Agent into Small Models with Retrieval and Code Tools

大型语言模型（LLM）在复杂的推理任务上表现出色，但在计算上保持昂贵，从而限制了其实际部署。为了解决这个问题，最近的作品集中在使用教师LLMS的Theark（COT）痕迹将推理能力提炼成较小的语言模型（SLM）。但是，这种方法在需要罕见的事实知识或精确计算的情况下挣扎，在这种情况下，由于能力有限，SLM经常会幻觉 ...

0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

尽管增强学习（RL）在增强大语言模型（LLM）方面取得了巨大的成功，但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性，培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中，我们介绍了Webagent-R1，这是一个简单而有效的端到端多转弯RL RL框架，用于培训网络代理 ...

0 0 0 2025/05/27 arXiv:2505.16421v1 chrisxiong

RFTF: Reinforcement Fine-tuning for Embodied Agents with Temporal Feedback

视觉语言动作（VLA）模型在体现智能领域表现出了巨大的潜力，使代理能够遵循人类的指示以在物理环境中完成复杂的任务。现有的体现代理通常通过行为克隆进行训练，这需要昂贵的数据和计算资源，并受到人类示范的约束。为了解决这个问题，许多研究人员探讨了加强微调在体现的代理中的应用 ...

0 0 0 2025/05/27 arXiv:2505.19767v1 蔡明方

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）