Barca的文档

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

典型的搜索代理将整个交互历史连接到 LLM 上下文中，保留信息完整性，但会产生长而嘈杂的上下文，从而导致较高的计算和内存成本。相反，仅使用当前回合可以避免这种开销，但会丢弃重要信息。这种权衡限制了搜索代理的可扩展性 ...

0 0 0 0 2025/11/05 arXiv:2511.02805v1 Barca

Tongyi DeepResearch Technical Report

我们推出了 Tongyi DeepResearch，这是一种代理大语言模型，专为长期、深度信息寻求的研究任务而设计。为了激励自主深度研究机构，Tongyi DeepResearch 通过端到端培训框架开发，该框架结合了代理中期培训和代理后培训，从而实现了跨复杂任务的可扩展推理和信息搜索。我们设计了一个高度可扩展的数据合成管道，该管道是全自动的，无需依赖昂贵的人工注释，并支持所有培训阶段 ...

0 0 0 0 2025/10/30 arXiv:2510.24701v1 Barca

An Efficient and Adaptive Next Edit Suggestion Framework with Zero Human Instructions in IDEs

代码编辑，包括修改、重构和维护现有代码，是软件开发中最常见的任务，并引起了人工智能工具的极大关注。然而，将显式自然语言指令转换为代码编辑的现有解决方案面临着严重的限制，例如严重依赖人类指令输入和高延迟，这阻碍了它们有效集成到开发人员的工作流程中。我们观察到，开发人员的习惯行为和编码目标通常反映在他们的历史编辑模式中，这使得这些数据成为解决现有限制的关键 ...

0 0 0 0 2025/10/22 arXiv:2508.02473v1 Barca

Don't Just Fine-tune the Agent, Tune the Environment

大型语言模型（LLM）代理在复杂的、多轮工具使用任务方面显示出巨大的前景，但它们的发展往往因高质量训练数据的极度稀缺而受到阻碍。对合成数据进行监督微调 (SFT) 会导致过度拟合，而标准强化学习 (RL) 则面临严重的冷启动问题和训练不稳定问题。为了应对这些挑战，我们引入了 $\textbf{Environment Tuning}$，这是一种新颖的训练范例，使代理能够直接从问题实例中学习复杂的行为，而无需依赖预先收集的专家轨迹 ...

0 0 0 0 2025/10/22 arXiv:2510.10197v1 Barca

Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

基于LLM的代理商的最新进展表明，通过整合外部工具来处理复杂的，知识密集的任务。在不同的工具选择中，搜索工具在获取广泛的外部知识中起着关键作用。但是，开源代理仍然无法实现专家级搜索智能，能够解决模棱两可的查询，生成精确的搜索，分析结果并进行彻底探索的能力 ...

0 0 0 0 2025/10/21 arXiv:2508.07976v3 Barca

MUA-RL: Multi-turn User-interacting Agent Reinforcement Learning for agentic tool use

随着最近代理智能的快速发展，代理工具在 LLM 中的使用变得越来越重要。在智能体与用户的多轮交互过程中，用户需求的动态性、不确定性和随机性对智能体的工具调用能力提出了重大挑战。代理不再需要简单地调用工具来提供结果；相反，他们必须通过沟通迭代地完善对用户需求的理解，同时调用工具来解决用户查询 ...

0 0 0 0 2025/10/16 arXiv:2508.18669v1 Barca

TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments

大型语言模型 (LLM) 代理正在迅速崛起，成为跨领域自动化任务的强大系统。然而，开源社区的进步因缺乏高质量的许可工具代理培训数据而受到限制。现有数据集通常在多样性、真实性和复杂性方面受到限制，特别是在多工具和多轮交互方面 ...

0 0 0 0 2025/10/09 arXiv:2510.01179v1 Barca

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

通过可验证的奖励（RLVR）扩展增强学习到现实世界任务通常需要平衡客观和主观评估标准。但是，许多这样的任务缺乏单一的，明确的地面真相，很难为培训后语言模型定义可靠的奖励信号。尽管传统的基于偏好的方法提供了解决方法，但它们依靠难以解释的不透明奖励功能，并且容易出现虚假的相关性 ...

0 0 0 0 2025/07/24 arXiv:2507.17746v1 Barca

ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models

生成奖励模型（GRM）比标量奖励模型在捕获人类的偏好时提供了更大的灵活性，但是其有效性受到不良推理能力的限制。这通常会导致不完整或过度投机的推理路径，从而导致复杂任务中的幻觉或缺少关键信息。我们使用ReasongRM（一个三阶段的生成奖励建模框架）来应对这一挑战 ...

0 0 0 0 2025/07/22 arXiv:2506.16712v1 Barca

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning

视觉模型（VLM）的最新进展通过增加视觉 Token 的数量来提高性能，这些图形通常比文本 Token 更长。但是，我们观察到，大多数真实的场景不需要如此广泛的视觉 Token 。尽管在与OCR相关任务的一小部分中，性能显着下降，但模型仍然在大多数其他只有1/4分辨率的VQA任务中都能准确 ...

0 0 0 0 2025/07/21 arXiv:2507.13348v1 Barca