为了成功执行通用数字任务,例如Web导航,代理必须执行各种专业任务,例如搜索产品或计划旅行路线。为了解决这些任务,代理可以通过与网络环境互动在线学习特定于任务的技能来引导自己。在这项工作中,我们证明程序是技能的有效代表 ...
大型语言模型 (LLM) 已在各种认知任务中展示了显着的性能改进。一个新兴的应用是使用 LLM 来增强检索增强生成(RAG)能力。这些系统要求 LLM 理解用户查询、检索相关信息并综合连贯且准确的响应 ...
大型语言模型(LLM)的最新发展已从训练前缩放量表转变为训练后和测试时间缩放。在这些事态发展中,出现了一个关键的统一范式:从奖励中学习,奖励信号是指导明星引导LLM行为。它为诸如增强学习(在RLHF,DPO和GRPO中),奖励引导的解码和事后校正等广泛的技术构成了广泛的技术 ...
随着大型语言模型(LLM)演变为使用工具的代理商,实时浏览网络的能力已成为衡量其推理和检索能力的关键标准。诸如BrowseComp之类的现有基准专注于英语,并忽略其他主要信息生态系统的语言,基础设施和与审查相关的复杂性 - 最著名的是中文。为了解决这一差距,我们介绍了BrowseComp-ZH,这是一种高难题的基准测试,以全面评估中国网络上的LLM代理 ...
我们介绍了Complextempqa,这是一个大规模数据集,该数据集由超过1亿个问题解答对组成,旨在应对时间问题回答中的挑战。 complextempqa在规模和范围上显着超过了HotPotQA,Torque和Tequila等现有基准。利用Wikipedia和Wikidata的数据,数据集涵盖了跨越二十年的问题,并提供了无与伦比的主题 ...
尽管大型语言模型(LLMS)最近在各种复杂的推理基准上取得了出色的表现,但学术界仍然缺乏对基本模型培训过程和数据质量的深入了解。为了解决这个问题,我们构建了一个大规模的,难以分级的推理数据集,其中包含大约334亿个不同难度水平的独特查询以及多个通过多个通过的多个模型产生的大约4000万个蒸馏响应 ...
工具集成推理(TIR)增强了具有调用外部工具(例如搜索引擎和代码解释者)的能力的大型语言模型(LLMS),以解决超出仅语言推理功能的任务。尽管增强学习(RL)通过优化最终答案正确性表明了在改善TIR方面的希望,但现有方法通常会忽略与工具使用相关的效率和成本。这可能会导致次优行为,包括增加计算和财务开销的工具呼叫,或不足的工具使用损害答案质量的工具 ...
复杂的推理任务通常依赖于始终如一,准确地在增量步骤中应用简单规则的能力,这是我们称为“级别0”推理的基础能力。为了系统地评估此功能,我们介绍了L0 Bench,这是一种用于测试程序正确性的语言模型基准 - 生成正确的推理过程的能力,并补充了主要关注结果正确性的现有基准测试。给定具有简单操作的合成python函数,L0基础等级模型在其生成逐步的,无错误的执行轨迹的能力上 ...
培训有效的AI代理进行多转交互作用需要高质量的数据,以捕获现实的人类代理动力学,但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT,这是一个两阶段的框架,生成可验证和多样化的多转变代理数据。在第一阶段,我们的代理管道通过基本操作产生详细的任务蓝图,利用LLM审阅者委员会和迭代反馈循环 ...
增强学习已被证明可以改善大语言模型的性能。但是,诸如RLHF或RLAIF之类的传统方法将问题视为单步。随着焦点转向更复杂的推理和代理任务,语言模型必须在生成解决方案之前采取多个文本生成,推理和环境互动的步骤 ...