chrisxiong的文档

chrisxiong

chrisxiong

个性签名 ...

Inducing Programmatic Skills for Agentic Tasks

为了成功执行通用数字任务，例如Web导航，代理必须执行各种专业任务，例如搜索产品或计划旅行路线。为了解决这些任务，代理可以通过与网络环境互动在线学习特定于任务的技能来引导自己。在这项工作中，我们证明程序是技能的有效代表 ...

0 0 0 0 2025/05/15 arXiv:2504.06821v1 chrisxiong

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

大型语言模型 (LLM) 已在各种认知任务中展示了显着的性能改进。一个新兴的应用是使用 LLM 来增强检索增强生成（RAG）能力。这些系统要求 LLM 理解用户查询、检索相关信息并综合连贯且准确的响应 ...

0 0 0 0 2025/05/15 arXiv:2409.12941v3 chrisxiong

Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

大型语言模型（LLM）的最新发展已从训练前缩放量表转变为训练后和测试时间缩放。在这些事态发展中，出现了一个关键的统一范式：从奖励中学习，奖励信号是指导明星引导LLM行为。它为诸如增强学习（在RLHF，DPO和GRPO中），奖励引导的解码和事后校正等广泛的技术构成了广泛的技术 ...

0 0 0 0 2025/05/14 arXiv:2505.02686v1 chrisxiong

BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese

随着大型语言模型（LLM）演变为使用工具的代理商，实时浏览网络的能力已成为衡量其推理和检索能力的关键标准。诸如BrowseComp之类的现有基准专注于英语，并忽略其他主要信息生态系统的语言，基础设施和与审查相关的复杂性 - 最著名的是中文。为了解决这一差距，我们介绍了BrowseComp-ZH，这是一种高难题的基准测试，以全面评估中国网络上的LLM代理 ...

0 0 0 0 2025/05/05 arXiv:2504.19314v2 chrisxiong

ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering

我们介绍了Complextempqa，这是一个大规模数据集，该数据集由超过1亿个问题解答对组成，旨在应对时间问题回答中的挑战。 complextempqa在规模和范围上显着超过了HotPotQA，Torque和Tequila等现有基准。利用Wikipedia和Wikidata的数据，数据集涵盖了跨越二十年的问题，并提供了无与伦比的主题 ...

0 0 0 0 2025/04/28 arXiv:2406.04866v2 chrisxiong

DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training

尽管大型语言模型（LLMS）最近在各种复杂的推理基准上取得了出色的表现，但学术界仍然缺乏对基本模型培训过程和数据质量的深入了解。为了解决这个问题，我们构建了一个大规模的，难以分级的推理数据集，其中包含大约334亿个不同难度水平的独特查询以及多个通过多个通过的多个模型产生的大约4000万个蒸馏响应 ...

0 0 0 0 2025/04/26 arXiv:2504.17565v1 chrisxiong

OTC: Optimal Tool Calls via Reinforcement Learning

工具集成推理（TIR）增强了具有调用外部工具（例如搜索引擎和代码解释者）的能力的大型语言模型（LLMS），以解决超出仅语言推理功能的任务。尽管增强学习（RL）通过优化最终答案正确性表明了在改善TIR方面的希望，但现有方法通常会忽略与工具使用相关的效率和成本。这可能会导致次优行为，包括增加计算和财务开销的工具呼叫，或不足的工具使用损害答案质量的工具 ...

0 0 0 0 2025/04/22 arXiv:2504.14870v1 chrisxiong

L0-Reasoning Bench: Evaluating Procedural Correctness in Language Models via Simple Program Execution

复杂的推理任务通常依赖于始终如一，准确地在增量步骤中应用简单规则的能力，这是我们称为“级别0”推理的基础能力。为了系统地评估此功能，我们介绍了L0 Bench，这是一种用于测试程序正确性的语言模型基准 - 生成正确的推理过程的能力，并补充了主要关注结果正确性的现有基准测试。给定具有简单操作的合成python函数，L0基础等级模型在其生成逐步的，无错误的执行轨迹的能力上 ...

0 0 0 0 2025/04/15 arXiv:2503.22832v2 chrisxiong

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

培训有效的AI代理进行多转交互作用需要高质量的数据，以捕获现实的人类代理动力学，但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT，这是一个两阶段的框架，生成可验证和多样化的多转变代理数据。在第一阶段，我们的代理管道通过基本操作产生详细的任务蓝图，利用LLM审阅者委员会和迭代反馈循环 ...

0 0 0 0 2025/04/13 arXiv:2504.03601v2 chrisxiong

Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

增强学习已被证明可以改善大语言模型的性能。但是，诸如RLHF或RLAIF之类的传统方法将问题视为单步。随着焦点转向更复杂的推理和代理任务，语言模型必须在生成解决方案之前采取多个文本生成，推理和环境互动的步骤 ...

0 0 0 0 2025/04/09 arXiv:2504.04736v1 chrisxiong

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）

文件上传进度

0%

上传成功 0 个文件