一译 —— 文档和论文翻译、对照阅读、讨论和社区

Distilling LLM Agent into Small Models with Retrieval and Code Tools

大型语言模型（LLM）在复杂的推理任务上表现出色，但在计算上保持昂贵，从而限制了其实际部署。为了解决这个问题，最近的作品集中在使用教师LLMS的Theark（COT）痕迹将推理能力提炼成较小的语言模型（SLM）。但是，这种方法在需要罕见的事实知识或精确计算的情况下挣扎，在这种情况下，由于能力有限，SLM经常会幻觉 ...

0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

尽管增强学习（RL）在增强大语言模型（LLM）方面取得了巨大的成功，但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性，培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中，我们介绍了Webagent-R1，这是一个简单而有效的端到端多转弯RL RL框架，用于培训网络代理 ...

0 0 0 2025/05/27 arXiv:2505.16421v1 chrisxiong

RFTF: Reinforcement Fine-tuning for Embodied Agents with Temporal Feedback

视觉语言动作（VLA）模型在体现智能领域表现出了巨大的潜力，使代理能够遵循人类的指示以在物理环境中完成复杂的任务。现有的体现代理通常通过行为克隆进行训练，这需要昂贵的数据和计算资源，并受到人类示范的约束。为了解决这个问题，许多研究人员探讨了加强微调在体现的代理中的应用 ...

0 0 0 2025/05/27 arXiv:2505.19767v1 蔡明方

LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions

近年来，大型语言模型（LLMS）在各种任务中表现出很大的能力，包括问答，算术问题解决问题和诗歌写作等。尽管对LLM-As-An-Agent的研究表明，LLM可以应用于增强学习（RL）并获得不错的结果，但基于LLM的RL向多代理系统（MAS）延伸并不是很琐碎的，因为在单个剂量的RL框架中未考虑许多方面，例如，诸如代理之间的协调和通信。为了激发有关基于LLM的MARL的更多研究，我们在这封信中调查了现 ...

0 0 0 2025/05/27 arXiv:2405.11106v1 garming

A Survey on LLM-based Multi-Agent System: Recent Advances and New Frontiers in Application

自大型语言模型（LLM）兴起以来，多生成代理系统（MGAS）已成为研究热点。然而，随着新的相关作品的不断涌入，现有的评论很难全面地捕捉它们。本文对这些研究进行了全面的调查 ...

0 0 0 2025/05/27 arXiv:2412.17481v2 garming

LLM Agents for Education: Advances and Applications

大型语言模型（LLM）代理商在自动化任务和推动各种教育应用的创新方面表现出了显着的功能。在这项调查中，我们对教育中LLM代理的最先进研究进行了系统的审查，将其分为两个广泛的类别：（1）\ Emph {教学剂}，该研究的重点是自动自动化复杂的教学任务以支持教师和学生； （2）\ emph {特定于领域的教育代理人}，该}是针对科学教育，语言学习和专业发展等专业领域量身定制的。我们全面研究了这些LLM ...

0 0 0 2025/05/27 arXiv:2503.11733v1 garming

AI Agents: Evolution, Architecture, and Real-World Applications

本文研究了AI代理从基于规则的化身到现代复杂系统的演变，结构和实际应用，这些系统将大型语言模型与专用模块集成到感知，计划和工具的使用。本文审查了关键代理范式，讨论了当前评估基准的局限性，并提出了一个整体评估框架，以平衡任务有效性，效率，鲁棒性和安全性。分析了企业，个人援助和专业领域的应用程序，并深入了解未来的研究方向，以实现更具弹性和自适应的AI代理系统 ...

0 0 0 2025/05/27 arXiv:2503.12687v1 garming

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

推理是一个基本的认知过程，可以实现逻辑推理，解决问题和决策。随着大语言模型（LLM）的快速发展，推理已成为一种关键功能，将高级AI系统与赋予聊天机器人能力的传统模型区分开来。在这项调查中，我们将现有方法沿两个正交维度进行了分类：（1）制度，该政权定义了实现推理的阶段（无论是在推理时还是通过专用培训）； （2）确定推理过程中涉及的组件的体系结构，区分包含外部工具的独立LLM和代理复合系统以及多机构协 ...

0 0 0 2025/05/27 arXiv:2504.09037v1 garming

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）