chrisxiong的文档

Distilling LLM Agent into Small Models with Retrieval and Code Tools

大型语言模型（LLM）在复杂的推理任务上表现出色，但在计算上保持昂贵，从而限制了其实际部署。为了解决这个问题，最近的作品集中在使用教师LLMS的Theark（COT）痕迹将推理能力提炼成较小的语言模型（SLM）。但是，这种方法在需要罕见的事实知识或精确计算的情况下挣扎，在这种情况下，由于能力有限，SLM经常会幻觉 ...

0 0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

尽管增强学习（RL）在增强大语言模型（LLM）方面取得了巨大的成功，但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性，培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中，我们介绍了Webagent-R1，这是一个简单而有效的端到端多转弯RL RL框架，用于培训网络代理 ...

0 0 0 0 2025/05/27 arXiv:2505.16421v1 chrisxiong

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

高效的多跳跃推理需要基于大语言模型（LLM）的代理，才能迭代地获取高价值的外部知识。先前的工作探索了加强学习（RL）来培训LLMS以执行基于搜索的文档检索，从而取得了显着的改进，从而取得了显着的改进，但由于仅来自全球信号的稀疏奖励而产生的复杂，多跳的质量质量质量检查表现不佳。为了解决现有研究中的这一差距，我们介绍了Stepearch，这是一个搜索LLMS的框架，该框架接受了逐步近端策略优化方法 ...

0 0 0 0 2025/05/27 arXiv:2505.15107v2 chrisxiong

LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

我们介绍了梯子（通过自主难度驱动的示例递归学习），这是一个框架，使LLMS能够通过自我引导的学习自主提高其解决问题的能力。通过递归生成和解决复杂问题的更简单变体，梯子使模型能够通过强化学习如何解决更严重的问题来逐步学习。这种自我改进过程以可验证的奖励信号为指导，从而使模型可以评估其解决方案 ...

0 0 0 0 2025/05/24 arXiv:2503.00735v3 chrisxiong

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

最近，大型语言模型（LLMS）通过大规模增强学习（RL）表现出了显着的推理能力。但是，利用RL算法来授权LLMS中有效的多工具协作推理能力仍然是一个悬而未决的挑战。在本文中，我们介绍了Tool-Star，这是一种基于RL的框架，旨在使LLMS在逐步推理期间自主调用多个外部工具 ...

0 0 0 0 2025/05/24 arXiv:2505.16410v1 chrisxiong

Hindsight Experience Replay Accelerates Proximal Policy Optimization

事后观察经验重播（她）加速了对环境的范围内强化学习算法，这些算法通过修改事后事件后的目标是在情节中达到的某种状态，从而散发出稀疏的奖励。由于事后对观察到的目标的修改违反了上政策算法的假设，因此她通常不适用于上政策算法。在这里，我们表明她可以在自定义捕食者捕食环境中进行测试时，可以极大地加速近端政策优化（PPO），这是一种在政策的增强学习算法 ...

0 0 0 0 2025/05/23 arXiv:2410.22524v1 chrisxiong

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

高效的多跳跃推理需要基于大语言模型（LLM）的代理，才能迭代地获取高价值的外部知识。先前的工作探索了加强学习（RL）来培训LLMS以执行基于搜索的文档检索，从而取得了显着的改进，从而取得了显着的改进，但由于仅来自全球信号的稀疏奖励而产生的复杂，多跳的质量质量质量检查表现不佳。为了解决现有研究中的这一差距，我们介绍了Stepearch，这是一个搜索LLMS的框架，该框架接受了逐步近端策略优化方法 ...

0 0 0 0 2025/05/23 arXiv:2505.15107v1 chrisxiong

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

诸如OpenAI O1和DeepSeek-R1之类的大型推理模型在推理领域取得了出色的性能。他们培训的一个关键组成部分是将可验证的奖励纳入加固学习（RL）。但是，现有的奖励基准并未评估基于参考的奖励系统，使研究人员对RL中使用的验证者的准确性有限 ...

0 0 0 0 2025/05/22 arXiv:2505.15801v1 chrisxiong

GameArena: Evaluating LLM Reasoning through Live Computer Games

评估大语言模型（LLM）的推理能力是具有挑战性的。现有的基准通常取决于静态数据集，这些数据集容易受到数据污染的影响，并且可能会随着时间的流逝而变得饱和，或者是将推理与其他能力混为一谈的二进制实时反馈。作为最突出的动态基准，聊天机器人体育馆在现实世界中评估了开放式问题，但缺乏评估特定推理能力的粒度 ...

0 0 0 0 2025/05/22 arXiv:2412.06394v5 chrisxiong

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

社会互动中的推理和战略行为是智力的标志。这种推理形式比静态设置中的孤立计划或推理任务要复杂得多（例如 ...

0 0 0 0 2025/05/22 arXiv:2503.12349v3 chrisxiong

Distilling LLM Agent into Small Models with Retrieval and Code Tools

WebAgent-R1: Training Web Agents via End-to-End Multi-Turn Reinforcement Learning

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

LADDER: Self-Improving LLMs Through Recursive Problem Decomposition

Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning

Hindsight Experience Replay Accelerates Proximal Policy Optimization

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

GameArena: Evaluating LLM Reasoning through Live Computer Games

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）