一译 —— 文档和论文翻译、对照阅读、讨论和社区

Process Reward Models for LLM Agents: Practical Framework and Directions

我们介绍了代理过程奖励模型（AgentPRM），这是一个简单且可扩展的框架，用于训练LLM代理，以通过交互作用不断改进。 AgentPrm遵循轻巧的参与者批评范式，使用蒙特卡洛推出来计算奖励目标并优化策略。它需要对现有RLHF管道的最小修改，从而易于大规模集成 ...

0 0 7 2025/05/22 arXiv:2502.10325v1 neil-peng

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

大语言模型（LLM）的成功引发了人们对各种代理应用的兴趣。一个关键的假设是，LLM利用常识和思想链（COT）推理可以有效地探索并有效地解决复杂的领域。但是，已经发现LLM代理患有次优探索和知识差距，无法有效地对模型中存在的知识作用 ...

0 0 0 2025/05/22 arXiv:2504.16078v1 wangximeng

An Agent Framework for Real-Time Financial Information Searching with Large Language Models

财务决策需要处理大量的实时信息，同时了解其复杂的时间关系。尽管传统搜索引擎在提供实时信息访问方面表现出色，但他们经常努力理解复杂的用户意图和上下文细微差别。相反，大型语言模型（LLMS）展示了推理和交互功能，但可能会产生不可靠的输出，而无需访问当前数据 ...

0 0 0 2025/05/22 arXiv:2502.15684v1 chrisxiong

ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

化学推理通常涉及需要精确计算的复杂的多步骤过程，即使是较小的错误也会导致级联故障。此外，大型语言模型（LLMS）会遇到困难处理特定于域的公式，准确执行推理步骤，并在处理化学推理任务时有效地集成代码。为了应对这些挑战，我们提出了Chemagent，这是一个新颖的框架，旨在通过动态的自我更新库来提高LLM的性能 ...

0 0 0 2025/05/22 arXiv:2501.06590v1 zhangxinhao

Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

大型语言模型（LLM）通常在需要精确，可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习（RL）增强了基于文本的推理，但了解代理如何自主学习利用诸如代码执行（例如代码执行）仍然至关重要。我们研究了基于结果的奖励的RL，以用于工具集成推理，Zerotir，培训基础LLMS，以自发生成和执行Python代码，以解决数学问题，而无需监督的工具使用示例 ...

0 0 0 2025/05/22 arXiv:2505.07773v2 chrisxiong

Agent Laboratory: Using LLM Agents as Research Assistants

从历史上看，科学发现一直是一个漫长而昂贵的过程，从最初的概念到最终结果需要大量时间和资源。为了加速科学发现，降低研究成本并提高研究质量，我们介绍了代理实验室，这是一个能够完成整个研究过程的基于自主LLM的框架。该框架接受了人类提供的研究思想，并通过三个阶段进行了进展 - 验证，实验和报告写作，以产生全面的研究成果，包括代码存储库和研究报告，同时使用户能够在每个阶段提供反馈和指导 ...

0 0 0 2025/05/22 arXiv:2501.04227v1 王俊凯

Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent

大型语言模型（LLM）代理通常采用逐步推理框架，在该框架中，他们交织了思考和行动以完成给定任务的过程。但是，该范式面临着根深蒂固的一通问题，每个产生的中间思想都会插入轨迹中，无论其正确性如何，这可能会导致不可逆的错误传播。为了解决这个问题，本文提出了一个新颖的框架，称为“发电机辅助逐步回滚”（GA-ROLLBACK），以诱导LLM代理的更好决策 ...

0 0 0 2025/05/21 arXiv:2503.02519v2 RAINY

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

当通过大型语言模型（LLM）增强的多代理系统在集体智能中具有深远的能力。但是，出于恶意目的，这种情报的潜在滥用带来了重大风险。迄今为止，关于与多代理系统相关的安全问题的全面研究仍然有限 ...

0 0 0 2025/05/21 arXiv:2401.11880v3 tmylla

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）