树叶无声的文档

Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale

Claude 代理技能的快速增长提出了如何有效利用、管理和扩展代理技能生态系统的核心问题。在本文中，我们提出了 AgentSkillOS，这是第一个用于技能选择、编排和生态系统级管理的原则框架。 AgentSkillOS 包括两个阶段：（i）管理技能，通过节点级递归分类将技能组织成能力树，以实现高效发现； (ii) 解决任务，通过基于 DAG 的管道检索、编排和执行多种技能。为了评估智能体调用技能的能力，我们构建了涵盖五个类别的 30 个富含工件的任务的基准：数据计算、文档创建、动态视频、视觉设计和网络交互。我们使用基于 LLM 的成对评估来评估任务输出的质量，并通过 Bradley-Terry 模型汇总结果以产生统一的质量分数。跨三个技能生态系统规模（200 到 200K 技能）的实验表明，基于树的检索有效地近似了预言机技能选择，并且即使给出相同的技能集，基于 DAG 的编排也大大优于本机平面调用。我们的研究结果证实，结构化写作是释放技能潜力的关键。我们的 GitHub 存储库位于：此 https URL ...

0 0 0 0 2026/03/19 arXiv:2603.02176v1 树叶无声

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

本文介绍了 InternVid，一个以视频为中心的大规模多模态数据集，它能够学习强大且可转移的视频文本表示，以实现多模态理解和生成。 InternVid 数据集包含超过 700 万个视频，持续近 76 万小时，产生 2.34 亿个视频剪辑，并附有总共 4.1B 个单词的详细描述。我们的核心贡献是开发一种可扩展的方法，通过大型语言模型（LLM）自主构建高质量的视频文本数据集，从而展示其在大规模学习视频语言表示方面的功效。具体来说，我们利用多尺度方法来生成与视频相关的描述。此外，我们还介绍了 ViCLIP，一种基于 ViT-L 的视频文本表示学习模型。该模型通过对比学习在 InternVid 上学习，展示了领先的零样本动作识别和有竞争力的视频检索性能。除了识别和检索等基本视频理解任务之外，我们的数据集和模型还有广泛的应用。它们特别有利于生成交错的视频文本数据，以学习以视频为中心的对话系统，推进视频到文本和文本到视频生成研究。这些拟议的资源为对多模态视频理解和生成感兴趣的研究人员和从业者提供了一个工具 ...

0 0 0 0 2026/03/10 arXiv:2307.06942v2 树叶无声

VABench: A Comprehensive Benchmark for Audio-Video Generation

视频生成方面的最新进展非常显着，使模型能够生成具有同步音频的视觉上引人注目的视频。虽然现有的视频生成基准提供了视觉质量的全面指标，但它们缺乏对音频视频生成的令人信服的评估，特别是对于旨在生成同步音频视频输出的模型。为了解决这一差距，我们引入了 VABench，这是一个全面的、多维度的基准框架，旨在系统地评估同步音视频生成的能力。 VABench 包含三种主要任务类型：文本到音频视频 (T2AV)、图像到音频视频 (I2AV) 和立体声音频视频生成。进一步建立了涵盖15个维度的两大评价模块。这些维度专门评估成对相似性（文本-视频、文本-音频、视频-音频）、音频-视频同步、唇语一致性以及精心策划的音频和视频问答 (QA) 对等。此外，VABench涵盖七大内容类别：动物、人声、音乐、环境声音、同步物理声音、复杂场景和虚拟世界。我们对评估结果进行系统分析和可视化，旨在建立评估具有同步音频能力的视频生成模型的新标准，推动该领域的全面进步 ...

0 0 0 0 2026/03/09 arXiv:2512.09299v1 树叶无声

Context as a Tool: Context Management for Long-Horizon SWE-Agents

基于大型语言模型的代理最近在现实世界的软件工程（SWE）任务中显示出强大的潜力，这些任务需要与存储库规模的代码库进行长期交互。然而，大多数现有代理依赖于仅附加上下文维护或被动触发的压缩启发式，这通常会导致长时间运行交互中的上下文爆炸、语义漂移和推理退化。我们提出了 CAT，一种新的上下文管理范例，它将上下文维护提升为集成到代理决策过程中的可调用工具。 CAT 形式化了一个结构化的上下文工作空间，由稳定的任务语义、压缩的长期记忆和高保真短期交互组成，并使代理能够在适当的里程碑主动将历史轨迹压缩为可操作的摘要。为了支持 SWE 代理的上下文管理，我们提出了一个轨迹级监督框架 CAT-GENERATOR，它基于离线数据构建管道，将上下文管理操作注入完整的交互轨迹中。使用这个框架，我们训练了一个上下文感知模型，SWE-Compressor。 SWE-Bench-Verified 上的实验表明，SWE-Compressor 达到了 57.6% 的解决率，并且显着优于基于 ReAct 的代理和静态压缩基线，同时在有界上下文预算下保持稳定和可扩展的长视野推理 ...

0 0 0 0 2026/01/29 arXiv:2512.22087v1 树叶无声

MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences

虽然自主软件工程 (SWE) 代理正在重塑编程范式，但它们目前受到“封闭世界”的限制：它们试图从头开始或仅使用本地上下文来修复错误，而忽略了 GitHub 等平台上可用的大量历史人类经验。现实世界问题跟踪数据的非结构化和碎片化性质阻碍了获得这种开放世界的体验。在本文中，我们介绍了 MemGovern，这是一个旨在管理原始 GitHub 数据并将其转换为代理可操作的经验记忆的框架。 MemGovern 采用体验治理将人类经验转换为代理友好的体验卡，并引入代理体验搜索策略，支持逻辑驱动的人类专业知识检索。通过生成 135K 治理体验卡，MemGovern 实现了显着的性能提升，将 SWE-bench Verified 上的分辨率提高了 4.65%。作为一种插件方法，MemGovern 为代理友好的内存基础设施提供了解决方案 ...

0 0 0 0 2026/01/29 arXiv:2601.06789v2 树叶无声

SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

我们推出了 SWE-Lego，这是一种监督微调 (SFT) 配方，旨在实现软件工程 (SWE) 问题解决方面的最先进性能。与依赖复杂训练范式（例如中期训练、SFT、强化学习及其组合）的流行方法相比，我们探索如何突破 SWE 任务的轻量级仅 SFT 方法的极限。 SWE-Lego 由三个核心构建模块组成，主要发现总结如下： 1）SWE-Lego 数据集，包含 32k 个高质量任务实例和 18k 个经过验证的轨迹，结合真实数据和合成数据，在质量和数量上相互补充； 2) 具有错误屏蔽和基于难度的课程的精炼 SFT 程序，可明显提高动作质量和整体表现。实证结果表明，仅使用这两个构建模块，SFT 就可以将 SWE-Lego 模型推向 SWE-bench 验证的同等规模开源模型中最先进的性能：SWE-Lego-Qwen3-8B 达到 42.2%，SWE-Lego-Qwen3-32B 达到 52.6%。 3）我们进一步评估和改进建立在SFT基础上的测试时间缩放（TTS）。基于训练有素的验证者，SWE-Lego 模型可以得到显着提升，例如，8B 和 32B 模型在 TTS@16 下分别提高了 42.2% 到 49.6% 和 52.6% 到 58.8% ...

0 0 0 0 2026/01/26 arXiv:2601.01426v2 树叶无声

OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases

大型语言模型（LLM）在涉及非结构化文本的推理任务上已经取得了实质性进展，但当推理需要集成结构化外部知识（例如知识图、代码片段或形式逻辑）时，其能力会显着下降。这种限制部分是由于缺乏能够系统地评估跨不同结构化知识模式的 LLM 表现的基准。为了解决这一差距，我们引入了 \textbf{\textsc{OneEval}}，这是一个综合基准，明确设计用于评估 LLM 在四种结构化知识模式、非结构化文本、知识图、代码和形式逻辑以及五个关键领域（常识、政府、科学、法律和编程）的知识密集型推理能力。 \textsc{OneEval} 包含 4,019 个精心策划的实例，并包含一个具有挑战性的子集 \textsc{OneEval}\textsubscript{Hard}，其中包含 1,285 个特别困难的案例。通过对 18 个最先进的开源和专有 LLM 进行广泛评估，我们得出了三个核心发现：a) \emph{结构化推理中的持续局限性}，即使是最强的模型在 \textsc{OneEval}\textsubscript{Hard} 上也只能达到 32.2\% 的准确率； b) \emph{随着知识库结构复杂性的增加，性能持续下降}，准确率从 53%（文本推理）急剧下降到 25%（形式逻辑）； c) \emph{扩展推理链的回报递减}，强调了模型根据任务复杂性适当调整推理深度的迫切需要。我们公开发布 \textsc{OneEval} 数据集、评估脚本和基线结果，并附有排行榜，以促进结构化知识推理的持续进步 ...

0 0 0 0 2026/01/24 arXiv:2506.12577v1 树叶无声

From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones

强化学习是否教授 LLM 真正的新技能，还是仅仅激活现有技能？这个问题是关于强化学习在 LLM 培训后的作用的持续争论的核心。一方面，即使没有事先的监督微调，也可以通过强化学习获得强有力的实证结果；另一方面，批评者认为强化学习除了重新衡量现有推理策略之外几乎没有什么贡献。这项工作提供了具体的证据，表明 LLM 可以在强化学习期间通过组合现有技能来获得真正的新技能，这反映了人类获得新认知技能的核心机制之一。为了减轻数据污染和其他混杂因素，并允许精确控制任务复杂性，我们为我们的调查开发了一个综合框架。具体来说，我们将技能定义为在给定 x 的情况下推断字符串转换函数 f(x) 的输出的能力。当 LLM 在强化学习之前已经学习了 f 和 g 时，我们的实验表明，强化学习使其能够学习它们的看不见的组合 h(x)=g(f(x))。此外，这种组合能力可以推广到更困难的问题，例如 RL 训练期间未见的 > 2 个函数的组合。令人惊讶的是，我们的实验表明，在源任务中获得的组合技能可以转移到不同的目标任务中。即使没有对目标进行组合训练，这种转移也会发生，只需要事先了解目标的原子技能。我们的定性分析表明，强化学习从根本上改变了模型的推理行为。相比之下，使用相同数据进行下一个 Token 训练则不会产生这些结果。我们的系统实验为 LLM 学习提供了新的见解，表明首先构建具有基本技能的基础模型，然后使用 RL 来激励解决复杂问题的高级、通用技能的价值 ...

0 1 0 0 2026/01/19 arXiv:2509.25123v3 树叶无声

Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents

大型语言模型 (LLM) 越来越多地应用于软件工程 (SWE)，其中 SWE-bench 作为关键基准。解决方案分为具有多轮交互的 SWE-Agent 框架和具有单轮可验证步骤的基于工作流的无代理方法。我们认为这些范式并不是相互排斥的：推理密集型无代理训练会引入技能先验，包括本地化、代码编辑和自我反思，从而实现高效且有效的 SWE-Agent 适应 ...

0 0 0 0 2026/01/19 arXiv:2509.23045v3 树叶无声

Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search

在这项工作中，我们考虑代码世界模型，即由大型语言模型 (LLM) 以 Python 代码形式生成的世界模型，用于基于模型的强化学习 (RL)。调用代码而不是 LLM 进行规划可能会更加精确、可靠、可解释且极其高效。然而，编写适当的代码世界模型需要能够理解复杂的指令，生成具有重要逻辑的精确代码，并利用单元测试和环境轨迹的反馈来自调试长程序。为了应对这些挑战，我们提出了使用蒙特卡罗树搜索进行生成、改进和修复（GIF-MCTS），这是一种针对 LLM 的新代码生成策略。为了在离线 RL 设置中测试我们的方法，我们引入了代码世界模型基准 (CWMB)，这是一套程序综合和规划任务，由 18 个不同的 RL 环境以及相应的文本描述和策划轨迹组成。 GIF-MCTS 超越了 CWMB 和其他两个基准上的所有基线，我们表明用它合成的代码世界模型可以成功用于规划，从而导致基于模型的 RL 智能体大大提高了样本效率和推理速度 ...

0 0 0 0 2026/01/16 arXiv:2405.15383v2 树叶无声